Toán thống kê đóng vai trò vô cùng quan trọng trong lĩnh vực phân tích dữ liệu. Nó cung cấp các công cụ và phương pháp thiết yếu để thu thập, tổ chức, tóm tắt, phân tích và diễn giải dữ liệu, giúp ta trích xuất thông tin hữu ích từ những tập dữ liệu khổng lồ.
Hãy cùng UniTrain khám phá một số ứng dụng cụ thể của thống kê trong phân tích dữ liệu qua bài viết này nhé!
1. Giá trị bất thường (Outlier)
Giá trị bất thường hay giá tị ngoại lệ là một giá trị dữ liệu khác biệt đáng kể so với các quan sát khác trong cùng tập dữ liệu.
Outlier có thể xuất hiện do nhiều nguyên nhân, bao gồm:
– Lỗi thu thập dữ liệu: Do sai sót trong quá trình thu thập dữ liệu, ví dụ như sai chính tả, nhập liệu sai, v.v.
– Sự kiện bất thường: Do những sự kiện hiếm gặp hoặc bất thường xảy ra trong thực tế, ví dụ như thiên tai, tai nạn, v.v.
– Quá trình tạo dữ liệu: Do cách thức tạo ra dữ liệu, ví dụ như mô hình thống kê không phù hợp, v.v.
Outlier có thể ảnh hưởng đến kết quả phân tích dữ liệu, do đó cần phải được xử lý trước khi tiến hành phân tích. Có nhiều phương pháp để xử lý outlier, bao gồm:
– Loại bỏ outlier: Loại bỏ outlier khỏi tập dữ liệu là phương pháp đơn giản nhất, nhưng có thể làm giảm độ chính xác của kết quả phân tích.
– Chuyển đổi outlier: Chuyển đổi outlier thành những giá trị gần hơn với phần còn lại của tập dữ liệu, ví dụ như thay thế outlier bằng giá trị trung bình hoặc trung vị.
– Sử dụng các phương pháp phân tích thống kê robust: Các phương pháp phân tích thống kê robust ít bị ảnh hưởng bởi outlier hơn so với các phương pháp thông thường.
Việc lựa chọn phương pháp xử lý outlier phụ thuộc vào nhiều yếu tố, bao gồm loại outlier, kích thước tập dữ liệu và mục đích phân tích.
Ngoài ra, outlier cũng có thể cung cấp thông tin hữu ích về dữ liệu. Ví dụ, outlier có thể cho ta biết về những sự kiện hiếm gặp hoặc bất thường xảy ra trong thực tế. Do đó, việc loại bỏ outlier hoàn toàn không phải lúc nào cũng là giải pháp tốt nhất.
2. Khoảng tứ phân vị (Interquartile Range)
Khoảng tứ phân vị (IQR) là một thước đo thống kê được sử dụng để đánh giá mức độ phân tán của dữ liệu. Nó được tính bằng cách lấy tứ phân vị thứ ba (Q3) trừ đi tứ phân vị thứ nhất (Q1). IQR cung cấp cho ta thông tin về phạm vi tập trung của dữ liệu, tức là 50% giá trị trung tâm của tập dữ liệu nằm trong khoảng nào.
Cách tính IQR:
Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần.
Bước 2: Tìm tứ phân vị thứ nhất (Q1):
– Nếu n là số lẻ, Q1 là giá trị ở vị trí (n + 1) / 2.
– Nếu n là số chẵn, Q1 là trung bình cộng của hai giá trị ở vị trí n / 2 và (n + 2) / 2.
Bước 3: Tìm tứ phân vị thứ ba (Q3):
– Nếu n là số lẻ, Q3 là giá trị ở vị trí (3n + 1) / 2.
– Nếu n là số chẵn, Q3 là trung bình cộng của hai giá trị ở vị trí (3n + 2) / 2 và (3n + 4) / 2.
Bước 4: Tính IQR: IQR = Q3 – Q1.
Ưu điểm của IQR:
– IQR ít bị ảnh hưởng bởi các giá trị ngoại lệ (outlier) so với các thước đo phân tán khác như phương sai và độ lệch chuẩn.
– IQR dễ hiểu và dễ diễn giải hơn so với các thước đo phân tán khác.
Nhược điểm của IQR:
– IQR không cung cấp thông tin về sự phân bố của dữ liệu ở hai đầu (phía trái và phía phải) của Q1 và Q3.
– IQR không nhạy cảm với sự thay đổi hình dạng của phân bố dữ liệu.
Ứng dụng của IQR:
– IQR được sử dụng để xác định các giá trị ngoại lệ trong dữ liệu.
– IQR được sử dụng để so sánh mức độ phân tán của hai hoặc nhiều tập dữ liệu.
– IQR được sử dụng để tạo các biểu đồ hộp (boxplot) nhằm trực quan hóa sự phân bố của dữ liệu.
3. Hồi quy (Regression)
Các loại hồi quy phổ biến:
– Hồi quy tuyến tính: Đây là loại hồi quy đơn giản nhất, mô tả mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập.
– Hồi quy bội: Giống như hồi quy tuyến tính, nhưng có nhiều hơn một biến độc lập.
– Hồi quy phi tuyến tính: Mô tả mối quan hệ phi tuyến tính giữa biến phụ thuộc và các biến độc lập.
– Hồi quy logistic: Dự đoán các biến phân loại (như nam/nữ, có bệnh/không bệnh).
Các bước thực hiện hồi quy:
Bước 1: Thu thập dữ liệu: Thu thập dữ liệu cho các biến phụ thuộc và độc lập.
Bước 2: Lựa chọn mô hình hồi quy: Lựa chọn mô hình hồi quy phù hợp với dữ liệu.
Bước 3: Ước lượng các tham số: Ước lượng các tham số của mô hình hồi quy bằng cách sử dụng các phương pháp thống kê.
Bước 4: Đánh giá mô hình: Đánh giá độ chính xác và hiệu quả của mô hình hồi quy.
Bước 5: Sử dụng mô hình: Sử dụng mô hình hồi quy để dự đoán hoặc mô tả biến phụ thuộc.
Ứng dụng của hồi quy:
Hồi quy được ứng dụng rộng rãi trong nhiều lĩnh vực như:
– Kinh tế: Dự đoán nhu cầu thị trường, giá cả hàng hóa, v.v.
– Khoa học xã hội: Nghiên cứu mối quan hệ giữa các yếu tố xã hội, kinh tế, v.v.
– Y học: Dự đoán nguy cơ mắc bệnh, hiệu quả của các phương pháp điều trị, v.v.
– Kỹ thuật: Thiết kế các hệ thống điều khiển, dự đoán sự cố, v.v.
4. Hệ số tương quan (Correlation Coefficient)
Hệ số tương quan là một thước đo thống kê được sử dụng để đánh giá mức độ mạnh yếu của mối quan hệ giữa hai biến số. Hệ số tương quan có giá trị từ -1.0 đến 1.0.
– Giá trị 0: Cho thấy không có mối quan hệ tuyến tính nào giữa hai biến số.
– Giá trị dương: Cho thấy hai biến số có mối quan hệ tương quan dương, nghĩa là khi một biến số tăng, biến số kia cũng có xu hướng tăng theo.
– Giá trị âm: Cho thấy hai biến số có mối quan hệ tương quan âm, nghĩa là khi một biến số tăng, biến số kia có xu hướng giảm theo.
Ví dụ:
– Hệ số tương quan giữa số lượng giờ học và điểm thi: Có thể là dương, vì khi số lượng giờ học tăng, điểm thi cũng có xu hướng cao theo.
– Hệ số tương quan giữa giá cả và nhu cầu: Có thể là âm, vì khi giá cả tăng, nhu cầu có xu hướng giảm theo.
Cần lưu ý rằng:
– Hệ số tương quan chỉ cho ta biết mức độ mạnh yếu của mối quan hệ tuyến tínhg iữa hai biến số. Nó không cho ta biết về phương thức hay nguyên nhân của mối quan hệ này.
– Hệ số tương quan có thể bị ảnh hưởng bởi các yếu tố khác như outlier, độ sai lệch của dữ liệu, v.v.
– Hệ số tương quan không nên được sử dụng một cách đơn độc để đưa ra kết luận về mối quan hệ giữa hai biến số. Cần kết hợp với các phương pháp phân tích dữ liệu khác để có được kết quả chính xác và tin cậy.
Ứng dụng của hệ số tương quan:
– Đánh giá mối quan hệ giữa các biến số trong nghiên cứu khoa học.
– Xây dựng các mô hình dự đoán.
– Lựa chọn các biến quan trọng trong phân tích dữ liệu.
– Đánh giá hiệu quả của các chương trình can thiệp.
Xem thêm:
4 Bước để rèn luyện tư duy lập luận dựa trên lập luận