Series Workshop Online - VBA in Excel 06/06/2026

Thực hành thiết lập tự động hóa các thao tác thủ công trong xử lý dữ liệu và lập báo cáo trong Excel

Data Cleaning (Làm sạch dữ liệu) là gì?

Dữ liệu sạch và chất lượng đánh bại ngay cả những thuật toán phức tạp nhất. Nếu không làm sạch dữ liệu, các mô hình của bạn sẽ mang lại kết quả sai lệch và gây hại nghiêm trọng cho quá trình ra quyết định. Hôm nay UniTrain sẽ cùng bạn tìm hiểu đôi nét về làm sạch dữ liệu (data cleaning) nhé!

Data Cleaning (Làm sạch dữ liệu) là gì?

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế.

Làm sạch dữ liệu không chỉ đề cập đến việc loại bỏ các phần dữ liệu không cần thiết mà còn thường được liên kết với việc sửa thông tin không chính xác trong tập dữ liệu và giảm các bản sao.

Tầm quan trọng của việc làm sạch dữ liệu

Làm sạch dữ liệu là một bước quan trọng trước khi có thể thực hiện bất kỳ hình thức phân tích nào.

Dữ liệu dưới dạng pipelines thường được thu thập trong các nhóm nhỏ và được hợp nhất trước khi đưa vào một mô hình. Hợp nhất nhiều tập dữ liệu có nghĩa là dữ liệu dư thừa và trùng lặp được hình thành, sau đó cần được loại bỏ.

Ngoài ra, các bộ dữ liệu được thu thập không chính xác thường có thể dẫn đến việc các mô hình các cách trình bày dữ liệu không chính xác, do đó làm giảm khả năng đưa ra quyết định.

Data cleaning (Làm sạch dữ liệu) vs. data transformation (Chuyển đổi dữ liệu)

Như chúng ta đã thấy, làm sạch dữ liệu đề cập đến việc loại bỏ dữ liệu không mong muốn trong tập dữ liệu trước khi nó được đưa vào mô hình.

Mặt khác, chuyển đổi dữ liệu đề cập đến việc  chuyển đổi dữ liệu thành một định dạng giúp xử lý dễ dàng hơn.

Dữ liệu đến sẽ trải qua giai đoạn làm sạch dữ liệu trước bất kỳ hình thức chuyển đổi nào có thể xảy ra. Dữ liệu sau đó được chuyển đổi, thường trải qua các giai đoạn như chuẩn hóa trước khi tiếp tục xử lý.

4 đặc điểm của dữ liệu chất lượng

Dữ liệu thường có 4 đặc điểm được sử dụng để xác định chất lượng.

  • – Hiệu lực
  • – Sự chính xác
  • – Sự hoàn chỉnh
  • – Tính nhất quán

Nguồn: v7labs.com

Xem thêm

COMBO 3 DATA ANALYTICS

Data Transformation (Chuyển đổi dữ liệu) là gì?

Những kỹ năng cần có của Business Intelligence Analyst

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Data Analysis Breakthrough Scholarship 2026

Với mong muốn tạo điều kiện cho các bạn trẻ tiếp cận kiến thức bài bản và phát triển tư duy phân tích dữ liệu thực tiễn, Data Analysis Breakthrough Scholarship 2026 chính

Xem thêm
Ưu đãi tháng 05/2026

Chương trình ưu đãi 05/2026 này mang đến ưu đãi kép cho học viên: Giảm ngay 155.000đ trên mức ưu đãi đóng sớm khi học viên đăng ký bất kỳ khóa học nào trong tháng này.

Xem thêm
So sánh ChatGPT vs Gemini vs Claude 2026: Nên chọn AI tool nào?

Ba cái tên ChatGPT, Gemini và Claude xuất hiện ở khắp nơi khi nói về AI, nhưng không cái nào là “tốt nhất tuyệt đối”. Mỗi tool có điểm mạnh khác

Xem thêm
Claude là gì? Tìm hiểu AI assistant của Anthropic và cách dùng 2026

Nếu bạn đã nghe tên ChatGPT nhưng chưa biết Claude là gì, bạn đang bỏ qua một trong những AI assistant mạnh nhất hiện nay, đặc biệt nếu công việc của

Xem thêm