Hiểu và cách xử lý dữ liệu bị thiếu (Missing Data)

Thiếu dữ liệu (Missing Data) là gì?

Đúng với tên gọi của nó, dữ liệu bị thiếu là dữ liệu không đầy đủ, không thể thực hiện phân tích dữ liệu được. Do nhiều nguyên nhân:

– Người thu thập dữ liệu quên điền

– Không có đủ dữ liệu ở các nguồn và sơ đồ cấp

– Dữ liệu bị mất trong quá trình chuyển đổi thủ công từ cơ sở dữ liệu cũ

– Lỗi chương trình

Các loại dữ liệu bị thiếu

Thiếu dữ liệu được phân thành 3 loại:

#1. Missing Complete At Random (Dữ liệu bị thiếu hoàn toàn ngẫu nhiên)

Trong trường hợp này, dữ liệu bị thiếu không phải do lỗi hệ thống hay sự bất cẩn của nhân sự trong khâu nhập dữ liệu, mà vì khi thực hiện thu thập dữ liệu từ các nguồn bên ngoài có sự khác nhau.

Ví dụ: Trong một cuộc khảo sát về mức độ trầm cảm dựa trên câu hỏi và thang đo. Những người tham gia khảo sát được hỏi những câu khác nhau trong các trường hợp khác nhau => Dẫn đến kết quả không đồng nhất, mặc dù hành vi là tương tự nhau.

Hiểu và cách xử lý dữ liệu bị thiếu

#2. Missing At Random (Dữ liệu bị thiếu ngẫu nhiên)

Khác với MCAR, MAR diễn ra do sự tác động của các biến trong nghiên cứu, chứ không phải nguyên nhân từ nguồn dữ liệu.

Ví dụ: Giả sử chúng ta biết rằng nam giới ít trả lời câu hỏi khảo sát về trầm cảm phụ nữ vì không liên quan đến giới tính của họ. Nên chắc chắn rằng họ bỏ qua hoặc trả lời bâng quơ khá đáng kể, dẫn đến dữ liệu bị thiếu. Điều này có thể coi là dữ liệu bị thiếu ngẫu nhiên.

Hiểu và cách xử lý dữ liệu bị thiếu

 #3. Missing Not At Random (Dữ liệu bị thiếu ngẫu nhiên)

Lấy ví dụ về làm mẫu, một người có mức độ trầm cảm đặc biệt cao từ chối trả lời khảo sát về mức độ trầm cảm, được coi là MNAR. Điều này dẫn đến dữ liệu bị thiếu mà không thể đưa vào phân tích (vì nó sai lệch).

Hiểu và cách xử lý dữ liệu bị thiếu

Cách xử lý dữ liệu bị thiếu

Bỏ qua

Đơn giản là khi dữ liệu bị thiếu, nhân sự có thể hoàn toàn loại bỏ nó để thực hiện phân tích hoặc tìm kiếm một nguồn dữ liệu đầy đủ hơn.

Xóa

Xóa dữ liệu để tránh dẫn đến kết quả sai sót là một trong những cách thường được sử dụng nhất tại doanh nghiệp.

Bổ sung 

Bên cạnh lấy trực tiếp từ nguồn dữ liệu, nhân sự hoàn toàn có thể tự bổ sung dữ liệu dựa trên dữ liệu đã được thu thập và kèm theo một số quy tắc cần tuân thủ.

Sau đây là một số quy tắc có thể áp dụng cho công việc bổ sung dữ liệu:

– Giá trị trung bình: Lấy vị trí khảo sát trầm cảm ở trên làm mẫu, nhân sự hoàn toàn có thể điền vào các ô còn thiếu bằng cách lấy trung bình các số chỉ ở các ô còn lại.

– Lấy tương tự: dựa trên một số đặc điểm tương đồng của đối tượng, nhân sự có thể lấy chỉ số của người này áp dụng cho người kia.

– Hồi quy tuyến tính: Bằng cách sử dụng giá trị dữ liệu liên quan, nhân sự có thể dự đoán giá trị dữ liệu bị thiếu.

Xem thêm

Làm thế nào để đưa ra quyết định sáng suốt dựa trên dữ liệu?

28 thuật ngữ Phân tích dữ liệu cho dân dữ liệu

Khóa học: COMBO 3 KHÓA PHÂN TÍCH DỮ LIỆU DÀNH CHO CHUYÊN GIA

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Field Parameters – Bí kíp tùy chỉnh báo cáo linh hoạt trên Power BI

Trong trực quan hóa dữ liệu, Power BI của Microsoft đã thay đổi cách người dùng khai thác và tương tác với thông tin. Một trong những tính năng nổi bật

Xem thêm
Kích hoạt Data Analysis ToolPak trong Excel

Bạn muốn phân tích dữ liệu trong Excel nhưng không tìm thấy những công cụ như t-test, ANOVA, hay Regression ở đâu? Đừng lo, chúng không biến mất đâu – chỉ là

Xem thêm
[RECAP] Training 4: How to Write M&A Buy-Sell Recommendations – Cuộc thi Sinh viên với Tài chính mùa 13 (FSC13) – CLB Tài chính – Chứng khoán SeSC – Trường Đại học Ngoại Thương CSII TP. HCM (FTU2)

Chiều ngày 28/04/2025, buổi Training 4 dành cho Top 8 đội thi xuất sắc nhất cuộc thi Sinh viên với Tài chính mùa 13 (FSC13) đã diễn ra trực tiếp tại

Xem thêm
Phân biệt hàm SUM, SUMX và CALCULATE trong Power BI

1. Giới thiệu Trong Power BI, DAX (Data Analysis Expressions) cung cấp nhiều hàm để tổng hợp và phân tích dữ liệu. Ba trong số các hàm quan trọng nhất là

Xem thêm