Việc phân tích dữ liệu có thể khó, đặc biệt là đối với các thuật ngữ chuyên ngành. Nhưng không phải là không thể chinh phục. Dưới đây là 25 thuật ngữ giúp bạn chinh phục công việc phân tích dữ liệu.

Artificial intelligence (trí tuệ nhân tạo AI) là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi giống như con người. Nó kết hợp khoa học máy tính với bộ dữ liệu mạnh mẽ để cho phép giải quyết vấn đề bằng cách sử dụng khả năng học tập nhanh chóng của máy móc.

Augmented intelligence (trí tuệ được tăng cường) là một khái niệm khác thay thế cho AI được sử dụng để nâng cao nhận thức, bao gồm việc học tập, ra quyết định và trải nghiệm mới. Sự kết hợp giữa trực giác của con người và trí tuệ nhân tạo rất mạnh mẽ và có thể giúp giảm thiểu sai sót.

Big data (dữ liệu lớn) đề cập đến các tệp dữ liệu lớn và phức tạp với khối lượng và tốc độ ngày càng tăng. Big data để đòi hỏi những kỹ năng đặc biệt liên quan đến việc lưu trữ, di chuyển, cập nhật, truy vấn và tổng hợp dữ liệu đó.

Business glossary (thuật ngữ kinh doanh) là một kho thông tin chứa các khái niệm và định nghĩa của các thuật ngữ kinh doanh thường được sử dụng trong các hoạt động hàng ngày trong một tổ chức. Bảng thuật ngữ kinh doanh được sử dụng để các thành viên mới trong nhóm bắt kịp các thuật ngữ và từ vựng viết tắt của tổ chức.

Business intelligence (kinh doanh thông minh BI) thúc đẩy phần mềm và dịch vụ giúp doanh nghiệp đưa ra quyết định sáng suốt hơn bằng cách cung cấp các báo cáo và dashboards để giúp họ phân tích dữ liệu.

Cloud computing (điện toán đám mây) là dịch vụ được cung cấp thông qua internet, nơi một tổ chức có thể truy cập tài nguyên điện toán từ yêu cầu từ một tổ chức khác theo mô hình dịch vụ dùng chung. Điện toán đám mây cho phép các tổ chức tránh một khoảng lớn chi phí trả trước và bảo trì liên tục liên quan đến việc mua sắm, lưu trữ và quản lý trung tâm dữ liệu của riêng họ. Người dùng có thể thuê tài nguyên máy tính, mạng và lưu trữ một cách hiệu quả trong một khoảng thời gian và chỉ trả tiền cho các dịch vụ miễn là họ đang sử dụng chúng. Điều này cho phép linh hoạt tối đa để mở rộng quy mô và thu nhỏ tài nguyên một cách nhanh chóng và theo yêu cầu.

Data architecture (kiến trúc dữ liệu) là thiết kế kế hoạch cho toàn bộ vòng đời dữ liệu của một tổ chức, bắt đầu từ khi dữ liệu được thu thập, đến khi giá trị được tạo ra từ dữ liệu thông qua phân tích.

Data catalog (danh mục dữ liệu) là cầu nối giữa bảng thuật ngữ kinh doanh và từ điển dữ liệu. Đây là một kho dữ liệu có tổ chức gồm các tài sản dữ liệu của tổ chức, thông báo cho doanh nghiệp các tập dữ liệu có sẵn về một chủ đề và giúp họ xác định chủ đề đó một cách nhanh chóng.

Data democratization (dân chủ hóa dữ liệu) là quá trình cung cấp cho một tổ chức quyền truy cập vào dữ liệu và cho phép họ sử dụng dữ liệu khi họ cần, để có được thông tin chi tiết và đẩy nhanh việc ra quyết định.

Data dictionary (từ điển dữ liệu) là một tập hợp các mô tả về các đối tượng hoặc mục dữ liệu trong một mô hình dữ liệu. Nó bao gồm tên của các trường và thực thể, vị trí của chúng trong cơ sở dữ liệu hoặc kho lưu trữ, định nghĩa chi tiết, ví dụ về nội dung, mô tả để diễn giải nghiệp vụ, thông tin kỹ thuật như chiều rộng,…

Data engineering (kỹ thuật dữ liệu) là quy trình và thực tiễn cần thiết để chuyển đổi dữ liệu thô thành thông tin có ý nghĩa và có thể sử dụng. Các kỹ thuật dữ liệu phổ biến bao gồm thu thập, trích xuất, quản lý, nhập, lưu trữ, di chuyển, chuyển đổi và tích hợp dữ liệu.

Data ingestion (nhập dữ liệu) là quá trình mà dữ liệu được tải từ nhiều nguồn khác nhau vào phương tiện lưu trữ, chẳng hạn như kho dữ liệu – nơi dữ liệu có thể được truy cập, sử dụng và phân tích.

Data integration (tích hợp dữ liệu) là quá trình kết nối các dữ liệu với nhau để phân tích.

Data governance (quản trị dữ liệu) là cách một tổ chức đảm bảo rằng các chính sách và quy trình dữ liệu của mình được tuân thủ. Khi được thực thi đúng cách, một chương trình quản trị cũng phải xác định rõ ràng ai là người sở hữu dữ liệu cuối cùng, ai quản lý dữ liệu đó khi có điều gì đó cần được sửa chữa hoặc duy trì và ai sử dụng nó để đảm bảo rằng các thay đổi được giám sát. Khung quản trị dữ liệu xác định cách bạn sẽ triển khai một chương trình quản trị dữ liệu. Nó tạo ra một bộ quy tắc và quy trình duy nhất xoay quanh việc quản lý dữ liệu và giúp việc thực thi chương trình quản trị dữ liệu của bạn trở nên dễ dàng hơn.

Data lake (hồ dữ liệu) là một kho lưu trữ dữ liệu trung tâm chấp nhận các kiểu dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, được sử dụng cho các công việc như báo cáo, trực quan hóa và phân tích nâng cao. Một hồ dữ liệu có thể được thiết lập tại cơ sở (trong các trung tâm dữ liệu của tổ chức) hoặc trên điện toán đám mây.

Data management (quản lý dữ liệu) là các kế hoạch, chính sách, thủ tục và hành động được thực hiện các dữ liệu lớn của một tổ chức trong suốt vòng đời dữ liệu để tạo ra thông tin có giá trị có thể lặp lại và ở quy mô lớn. 

Data mining (khai phá dữ liệu) là thực hành phân tích một cách có hệ thống các tập dữ liệu lớn để tạo ra thông tin có giá trị, khám phá các mối tương quan ẩn và xác định các mẫu.

Data model (mô hình dữ liệu) là một công cụ giao tiếp, nơi một người hoặc một tổ chức tạo ra một bản trình bày trực quan về cách mọi thứ kết nối với nhau và cách các quy trình hoạt động trong thế giới thực. Chúng được sử dụng để chuyển các yêu cầu nghiệp vụ thành các yêu cầu kỹ thuật, đặc biệt là trong thiết kế cơ sở dữ liệu và hệ thống.

Data quality (chất lượng dữ liệu) là thước đo tình trạng của dữ liệu dựa trên các yếu tố như độ chính xác, tính đầy đủ, tính nhất quán và độ tin cậy. Nói chung, dữ liệu tốt là khi nó phù hợp với mục đích sử dụng trong việc ra quyết định.

Data replication (sao chép dữ liệu) là quá trình và các hoạt động cần thiết để tạo một bản sao dữ liệu được lưu trữ ở một vị trí khác. Hoạt động sao chép này cải thiện khả năng truy cập vào dữ liệu và bảo vệ tổ chức khỏi việc mất dữ liệu.

Data science (khoa học dữ liệu) là lĩnh vực áp dụng toán học và thống kê, các nguyên tắc khoa học, chuyên môn về lĩnh vực và các kỹ thuật phân tích nâng cao như Machine Learning và phân tích dự đoán để trích xuất những thông tin chi tiết có ý nghĩa và sử dụng chúng cho việc ra quyết định chiến lược.

Data strategy (chiến lược dữ liệu) là một kế hoạch xác định, phác thảo các quy trình và công nghệ mà tổ chức của bạn cần để hoàn thành các mục tiêu về dữ liệu. Chiến lược dữ liệu còn được thiết kế để trả lời chính xác những gì bạn cần để sử dụng dữ liệu hiệu quả hơn; những quy trình nào được yêu cầu để dữ liệu có chất lượng cao và có thể truy cập được; công nghệ nào sẽ cho phép lưu trữ, chia sẻ và phân tích dữ liệu; dữ liệu được yêu cầu, nguồn từ đâu và liệu nó có chất lượng tốt hay không.

Data warehouse (kho dữ liệu) là một kho lưu trữ dữ liệu đã được mô hình hóa có nguồn gốc từ tất cả các nơi khác nhau. Dữ liệu được lưu trữ bằng ngôn ngữ của doanh nghiệp, cung cấp thông tin đáng tin cậy, nhất quán và chất lượng.

Data visualization (trực quan hóa dữ liệu) là việc báo cáo dữ liệu và thông tin dưới dạng biểu đồ, sơ đồ, hình ảnh hoặc bảng để truyền đạt thông tin theo cách phù hợp.

Descriptive analytics (phân tích mô tả) cho bạn biết những gì đã xảy ra trong quá khứ bằng cách xem xét dữ liệu lịch sử và tìm các mẫu. Hầu hết các tổ chức có kinh nghiệm trong quá trình phân tích đều đã thực hiện phân tích mô tả ở một mức độ nào đó.

UniTrain lược dịch

Xem thêm

Khóa học Data Analytics For Professionals
3 Phương pháp phân tích dữ liệu nên dùng trong Excel
Các thủ thuật Excel đơn giản nhưng hiệu quả để Phân tích Dữ liệu