Các hàm Pandas thông dụng dành cho Data Analyst (phần 1)

Bất kỳ quá trình phân tích dữ liệu nào cũng bắt đầu với việc khám phá dữ liệu. Việc nắm rõ các hàm pandas khác nhau chắc chắn sẽ giúp các Data Analyst hoàn thành quy trình phân tích một cách nhanh chóng. 

Hãy cùng UniTrain khám phá một số câu lệnh với thư viện Pandas nhằm: 

– Khái quát tập dữ liệu 
– Phân tích mô tả tập dữ liệu 
– Lấy một tập con của bộ dữ liệu 

Pandas là thư viện được sử dụng rộng rãi để thao tác và phân tích dữ liệu trong Python. Đầu tiên, chúng ta sẽ nhập dữ liệu vào DataFrame pandas có tên df:  

import pandas as pd 
df = pd.read_csv(“HR Dataset.csv”) 

Trong đó: HR Dataset là tên của bộ dữ liệu.  

Các câu lệnh khái quát bộ dữ liệu 

df.head() 

Hàm này giúp chúng ta lấy ra những dòng đầu tiên của tập dữ liệu. Theo mặc định, nó trả về 5 dòng đầu tiên: 

df.head() 

Pd1

Để lấy ra nhiều hay ít hơn 5 dòng, chúng ta có thể nhập con số cụ thể vào dấu ngoặc đơn: 

df.head(8) 

Df1.5

df.tail() 

Hàm này giúp chúng ta lấy ra những dòng cuối cùng của tập dữ liệu. Theo mặc định, nó cũng trả về 5 dòng cuối: 

df.tail() 

Pd2

Tương tự như df.head, chúng ta có thể lấy ra nhiều hay ít hơn 5 dòng: 

df.tail(3) 

Df2.5

df.sample() 

Hàm này giúp chúng ta lấy ra một hàng bất kỳ để quan sát: 

df.sample() 

Pd3

df.info() 

Hàm này cung cấp thông tin về tên cột và kiểu dữ liệu tương ứng của chúng, các giá trị thiếu (null) và dung lượng bộ nhớ mà DataFrame sử dụng: 

df.info() 

Pd4

Câu lệnh hiển thị thông tin mô tả 

df.describe() 

Hàm này trả về các thông tin bao gồm giá trị tối thiểu, giá trị tối đa, giá trị trung bình, độ lệch chuẩn (độ phân tán) của các giá trị trong các cột chứa dữ liệu số:

df.describe() 

Pd5

Câu lệnh truy vấn tập dữ liệu con 

df.query() 

Hàm query() được sử dụng để truy vấn dữ liệu dựa trên một biểu thức. Biểu thức có thể chỉ là một điều kiện đơn giản hoặc là sự kết hợp của nhiều điều kiện. 

Giả sử chúng ta cần truy xuất thông tin của những nhân viên có số dự án đặc biệt (SpecialProjectsCount) lớn hơn 5, ta làm như sau: 

df.query(“SpecialProjectsCount > 5”) 

Pd6

Xem thêm: 

Vòng lặp (loop) trong Python

Các câu lệnh If trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Data Analytics for Professionals

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Mở bao lì xì – Nhận ưu đãi đầu năm 2025

UNITRAIN ƯU ĐÃI THÁNG 1 Bạn đã sẵn sàng nâng cấp kiến thức, phát triển kỹ năng và bắt đầu hành trình chinh phục mục tiêu sự nghiệp trong năm nay

Xem thêm
UniTrain ưu đãi Giáng sinh và chào đón năm mới 2025

NĂM MỚI – KỸ NĂNG MỚI Năm mới là thời điểm lý tưởng để mỗi nhân sự hiện đại lên kế hoạch phát triển bản thân, nâng cấp kỹ năng và

Xem thêm
Những lỗi thiết kế báo cáo Power BI phổ biến bạn nên tránh 

Tạo báo cáo không khó nhưng việc thiết kế báo cáo đẹp và hợp lí lại là một thử thách với người dùng Power BI. Đôi khi trong quá trình làm

Xem thêm
Mẹo và thủ thuật định dạng báo cáo Power BI

Power BI được ưa chuộng và sử dụng rộng rãi trên toàn thế giới vì các biểu đồ trực quan, phân tích đa chiều cùng khả năng tùy chỉnh, định dạng

Xem thêm