Hiểu và cách xử lý dữ liệu bị thiếu (Missing Data)

Thiếu dữ liệu (Missing Data) là gì?

Đúng với tên gọi của nó, dữ liệu bị thiếu là dữ liệu không đầy đủ, không thể thực hiện phân tích dữ liệu được. Do nhiều nguyên nhân:

– Người thu thập dữ liệu quên điền

– Không có đủ dữ liệu ở các nguồn và sơ đồ cấp

– Dữ liệu bị mất trong quá trình chuyển đổi thủ công từ cơ sở dữ liệu cũ

– Lỗi chương trình

Các loại dữ liệu bị thiếu

Thiếu dữ liệu được phân thành 3 loại:

#1. Missing Complete At Random (Dữ liệu bị thiếu hoàn toàn ngẫu nhiên)

Trong trường hợp này, dữ liệu bị thiếu không phải do lỗi hệ thống hay sự bất cẩn của nhân sự trong khâu nhập dữ liệu, mà vì khi thực hiện thu thập dữ liệu từ các nguồn bên ngoài có sự khác nhau.

Ví dụ: Trong một cuộc khảo sát về mức độ trầm cảm dựa trên câu hỏi và thang đo. Những người tham gia khảo sát được hỏi những câu khác nhau trong các trường hợp khác nhau => Dẫn đến kết quả không đồng nhất, mặc dù hành vi là tương tự nhau.

Hiểu và cách xử lý dữ liệu bị thiếu

#2. Missing At Random (Dữ liệu bị thiếu ngẫu nhiên)

Khác với MCAR, MAR diễn ra do sự tác động của các biến trong nghiên cứu, chứ không phải nguyên nhân từ nguồn dữ liệu.

Ví dụ: Giả sử chúng ta biết rằng nam giới ít trả lời câu hỏi khảo sát về trầm cảm phụ nữ vì không liên quan đến giới tính của họ. Nên chắc chắn rằng họ bỏ qua hoặc trả lời bâng quơ khá đáng kể, dẫn đến dữ liệu bị thiếu. Điều này có thể coi là dữ liệu bị thiếu ngẫu nhiên.

Hiểu và cách xử lý dữ liệu bị thiếu

 #3. Missing Not At Random (Dữ liệu bị thiếu ngẫu nhiên)

Lấy ví dụ về làm mẫu, một người có mức độ trầm cảm đặc biệt cao từ chối trả lời khảo sát về mức độ trầm cảm, được coi là MNAR. Điều này dẫn đến dữ liệu bị thiếu mà không thể đưa vào phân tích (vì nó sai lệch).

Hiểu và cách xử lý dữ liệu bị thiếu

Cách xử lý dữ liệu bị thiếu

Bỏ qua

Đơn giản là khi dữ liệu bị thiếu, nhân sự có thể hoàn toàn loại bỏ nó để thực hiện phân tích hoặc tìm kiếm một nguồn dữ liệu đầy đủ hơn.

Xóa

Xóa dữ liệu để tránh dẫn đến kết quả sai sót là một trong những cách thường được sử dụng nhất tại doanh nghiệp.

Bổ sung 

Bên cạnh lấy trực tiếp từ nguồn dữ liệu, nhân sự hoàn toàn có thể tự bổ sung dữ liệu dựa trên dữ liệu đã được thu thập và kèm theo một số quy tắc cần tuân thủ.

Sau đây là một số quy tắc có thể áp dụng cho công việc bổ sung dữ liệu:

– Giá trị trung bình: Lấy vị trí khảo sát trầm cảm ở trên làm mẫu, nhân sự hoàn toàn có thể điền vào các ô còn thiếu bằng cách lấy trung bình các số chỉ ở các ô còn lại.

– Lấy tương tự: dựa trên một số đặc điểm tương đồng của đối tượng, nhân sự có thể lấy chỉ số của người này áp dụng cho người kia.

– Hồi quy tuyến tính: Bằng cách sử dụng giá trị dữ liệu liên quan, nhân sự có thể dự đoán giá trị dữ liệu bị thiếu.

Xem thêm

Làm thế nào để đưa ra quyết định sáng suốt dựa trên dữ liệu?

28 thuật ngữ Phân tích dữ liệu cho dân dữ liệu

Khóa học: COMBO 3 KHÓA PHÂN TÍCH DỮ LIỆU DÀNH CHO CHUYÊN GIA

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
[HOẠT ĐỘNG CỘNG ĐỒNG] Cuộc thi AI IN BUSINESS – SEASON 2 – Trí tuệ nhân tạo trong kinh doanh lần II – Câu lạc bộ Nghiên cứu trí tuệ nhân tạo và ứng dụng liên ngành (AI4I CLUB) – Đại học Kinh tế – Luật – ĐHQG TP.HCM (UEL)

Sáng ngày 25/05/2025, chung kết cuộc thi AI in Business – Season 2 do CLB Nghiên cứu trí tuệ nhân tạo và ứng dụng liên ngành (AI4I CLUB) thuộc Trường Đại

Xem thêm
Khám phá hàm Lag và Lead trong SQL

Trong phân tích dữ liệu, hàm LAG() và LEAD() sẽ là công cụ hỗ trợ đắc lực cho việc so sánh giá trị hiện tại với giá trị liền trước hoặc liền

Xem thêm
[RECAP] Training Top 20 – myInsight – MDS Datathon Challenge 2025 – CLB Toán ứng dụng & Khoa học dữ liệu (MDS) – Đại học Ngoại Thương CSII TP. HCM (FTU2)

Tối ngày 18/05/2025, buổi training dành riêng cho Top 20 đội thi xuất sắc nhất cuộc thi myInsight – MDS Datathon Challenge 2025 đã diễn ra vô cùng thành công thông

Xem thêm
Khám Phá Tính Năng Nhóm và Phân Nhóm Dữ Liệu trong Power BI

Trong quá trình xây dựng biểu đồ, Power BI Desktop sẽ tự động tổng hợp dữ liệu thành các nhóm dựa trên các giá trị có trong tập dữ liệu gốc.

Xem thêm