Data Cleaning (Làm sạch dữ liệu) là gì?

Dữ liệu sạch và chất lượng đánh bại ngay cả những thuật toán phức tạp nhất. Nếu không làm sạch dữ liệu, các mô hình của bạn sẽ mang lại kết quả sai lệch và gây hại nghiêm trọng cho quá trình ra quyết định. Hôm nay UniTrain sẽ cùng bạn tìm hiểu đôi nét về làm sạch dữ liệu (data cleaning) nhé!

Data Cleaning (Làm sạch dữ liệu) là gì?

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế.

Làm sạch dữ liệu không chỉ đề cập đến việc loại bỏ các phần dữ liệu không cần thiết mà còn thường được liên kết với việc sửa thông tin không chính xác trong tập dữ liệu và giảm các bản sao.

Tầm quan trọng của việc làm sạch dữ liệu

Làm sạch dữ liệu là một bước quan trọng trước khi có thể thực hiện bất kỳ hình thức phân tích nào.

Dữ liệu dưới dạng pipelines thường được thu thập trong các nhóm nhỏ và được hợp nhất trước khi đưa vào một mô hình. Hợp nhất nhiều tập dữ liệu có nghĩa là dữ liệu dư thừa và trùng lặp được hình thành, sau đó cần được loại bỏ.

Ngoài ra, các bộ dữ liệu được thu thập không chính xác thường có thể dẫn đến việc các mô hình các cách trình bày dữ liệu không chính xác, do đó làm giảm khả năng đưa ra quyết định.

Data cleaning (Làm sạch dữ liệu) vs. data transformation (Chuyển đổi dữ liệu)

Như chúng ta đã thấy, làm sạch dữ liệu đề cập đến việc loại bỏ dữ liệu không mong muốn trong tập dữ liệu trước khi nó được đưa vào mô hình.

Mặt khác, chuyển đổi dữ liệu đề cập đến việc  chuyển đổi dữ liệu thành một định dạng giúp xử lý dễ dàng hơn.

Dữ liệu đến sẽ trải qua giai đoạn làm sạch dữ liệu trước bất kỳ hình thức chuyển đổi nào có thể xảy ra. Dữ liệu sau đó được chuyển đổi, thường trải qua các giai đoạn như chuẩn hóa trước khi tiếp tục xử lý.

4 đặc điểm của dữ liệu chất lượng

Dữ liệu thường có 4 đặc điểm được sử dụng để xác định chất lượng.

  • – Hiệu lực
  • – Sự chính xác
  • – Sự hoàn chỉnh
  • – Tính nhất quán

Nguồn: v7labs.com

Xem thêm

COMBO 3 DATA ANALYTICS

Data Transformation (Chuyển đổi dữ liệu) là gì?

Những kỹ năng cần có của Business Intelligence Analyst

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Focus Cell trong Excel – Tính năng giúp tăng khả năng điều hướng

Đã bao giờ bạn lạc trôi giữa hàng trăm dòng, hàng ngàn cột trên Excel… mà không biết mình đang ở đâu? Nếu “mất phương hướng” là cảm giác quen thuộc

Xem thêm
Trí tuệ nhân tạo AI là gì? Khái niệm, phân loại và vai trò trong cuộc sống

Trong thời đại cách mạng công nghiệp 4.0, trí tuệ nhân tạo AI đang trở thành một phần không thể thiếu trong nhiều lĩnh vực của cuộc sống. Từ các trợ

Xem thêm
Truy vấn lồng (Subquery) trong SQL – Bí kíp giúp xử lý và truy xuất dữ liệu với mức độ phức tạp cao

Truy vấn lồng (Subquery) là một trong những công cụ hiệu quả trong SQL, giúp xử lý và truy xuất dữ liệu với mức độ phức tạp cao hơn so với

Xem thêm
Hàm TRIMRANGE() – Hàm xóa giá trị trống “đỉnh” hơn cả TRIM.

Như bạn đã biết hàm TRIM() trong Excel giúp loại bỏ các ký tự trống (khoảng trắng). Tương tự vậy hàm TRIMRANGE() được sử dụng để xóa các giá trị trống khỏi một phạm vi

Xem thêm