Hiểu và cách xử lý dữ liệu bị thiếu (Missing Data)

Thiếu dữ liệu (Missing Data) là gì?

Đúng với tên gọi của nó, dữ liệu bị thiếu là dữ liệu không đầy đủ, không thể thực hiện phân tích dữ liệu được. Do nhiều nguyên nhân:

– Người thu thập dữ liệu quên điền

– Không có đủ dữ liệu ở các nguồn và sơ đồ cấp

– Dữ liệu bị mất trong quá trình chuyển đổi thủ công từ cơ sở dữ liệu cũ

– Lỗi chương trình

Các loại dữ liệu bị thiếu

Thiếu dữ liệu được phân thành 3 loại:

#1. Missing Complete At Random (Dữ liệu bị thiếu hoàn toàn ngẫu nhiên)

Trong trường hợp này, dữ liệu bị thiếu không phải do lỗi hệ thống hay sự bất cẩn của nhân sự trong khâu nhập dữ liệu, mà vì khi thực hiện thu thập dữ liệu từ các nguồn bên ngoài có sự khác nhau.

Ví dụ: Trong một cuộc khảo sát về mức độ trầm cảm dựa trên câu hỏi và thang đo. Những người tham gia khảo sát được hỏi những câu khác nhau trong các trường hợp khác nhau => Dẫn đến kết quả không đồng nhất, mặc dù hành vi là tương tự nhau.

Hiểu và cách xử lý dữ liệu bị thiếu

#2. Missing At Random (Dữ liệu bị thiếu ngẫu nhiên)

Khác với MCAR, MAR diễn ra do sự tác động của các biến trong nghiên cứu, chứ không phải nguyên nhân từ nguồn dữ liệu.

Ví dụ: Giả sử chúng ta biết rằng nam giới ít trả lời câu hỏi khảo sát về trầm cảm phụ nữ vì không liên quan đến giới tính của họ. Nên chắc chắn rằng họ bỏ qua hoặc trả lời bâng quơ khá đáng kể, dẫn đến dữ liệu bị thiếu. Điều này có thể coi là dữ liệu bị thiếu ngẫu nhiên.

Hiểu và cách xử lý dữ liệu bị thiếu

 #3. Missing Not At Random (Dữ liệu bị thiếu ngẫu nhiên)

Lấy ví dụ về làm mẫu, một người có mức độ trầm cảm đặc biệt cao từ chối trả lời khảo sát về mức độ trầm cảm, được coi là MNAR. Điều này dẫn đến dữ liệu bị thiếu mà không thể đưa vào phân tích (vì nó sai lệch).

Hiểu và cách xử lý dữ liệu bị thiếu

Cách xử lý dữ liệu bị thiếu

Bỏ qua

Đơn giản là khi dữ liệu bị thiếu, nhân sự có thể hoàn toàn loại bỏ nó để thực hiện phân tích hoặc tìm kiếm một nguồn dữ liệu đầy đủ hơn.

Xóa

Xóa dữ liệu để tránh dẫn đến kết quả sai sót là một trong những cách thường được sử dụng nhất tại doanh nghiệp.

Bổ sung 

Bên cạnh lấy trực tiếp từ nguồn dữ liệu, nhân sự hoàn toàn có thể tự bổ sung dữ liệu dựa trên dữ liệu đã được thu thập và kèm theo một số quy tắc cần tuân thủ.

Sau đây là một số quy tắc có thể áp dụng cho công việc bổ sung dữ liệu:

– Giá trị trung bình: Lấy vị trí khảo sát trầm cảm ở trên làm mẫu, nhân sự hoàn toàn có thể điền vào các ô còn thiếu bằng cách lấy trung bình các số chỉ ở các ô còn lại.

– Lấy tương tự: dựa trên một số đặc điểm tương đồng của đối tượng, nhân sự có thể lấy chỉ số của người này áp dụng cho người kia.

– Hồi quy tuyến tính: Bằng cách sử dụng giá trị dữ liệu liên quan, nhân sự có thể dự đoán giá trị dữ liệu bị thiếu.

Xem thêm

Làm thế nào để đưa ra quyết định sáng suốt dựa trên dữ liệu?

28 thuật ngữ Phân tích dữ liệu cho dân dữ liệu

Khóa học: COMBO 3 KHÓA PHÂN TÍCH DỮ LIỆU DÀNH CHO CHUYÊN GIA

 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Phím tắt Excel giúp tiết kiệm 90% thời gian nhập liệu

Trong quá trình xử lý dữ liệu bằng Excel, việc sử dụng các phím tắt không chỉ giúp tối ưu tốc độ làm việc mà còn tăng tính chính xác. Bài

Xem thêm
Ứng dụng hàm TEXTJOIN nâng cao trong Excel

1. Giới thiệu hàm TEXTJOIN và IF  Hàm TEXTJOIN trong Excel giúp nối các giá trị từ một phạm vi hoặc danh sách các ô, sử dụng dấu phân cách tùy

Xem thêm
30 tháng Tư rực rỡ, 01 tháng Năm ưu đãi bất ngờ

Mừng 50 năm thống nhất Đất nước, UniTrain ưu đãi đến 2.500.000 VNĐ trên học phí gốc cho học viên đăng ký các khóa combo. Hình thức online: 🔸Giảm 1.400.000đ trên học

Xem thêm
Nối các mảng dữ liệu trong Python

Trong quá trình xử lý dữ liệu với pandas, việc kết hợp nhiều bảng dữ liệu là thao tác rất phổ biến. Hàm concat() chính là công cụ mạnh mẽ giúp

Xem thêm