Các hàm Pandas thông dụng dành cho Data Analyst (phần 1)

Bất kỳ quá trình phân tích dữ liệu nào cũng bắt đầu với việc khám phá dữ liệu. Việc nắm rõ các hàm pandas khác nhau chắc chắn sẽ giúp các Data Analyst hoàn thành quy trình phân tích một cách nhanh chóng. 

Hãy cùng UniTrain khám phá một số câu lệnh với thư viện Pandas nhằm: 

– Khái quát tập dữ liệu 
– Phân tích mô tả tập dữ liệu 
– Lấy một tập con của bộ dữ liệu 

Pandas là thư viện được sử dụng rộng rãi để thao tác và phân tích dữ liệu trong Python. Đầu tiên, chúng ta sẽ nhập dữ liệu vào DataFrame pandas có tên df:  

import pandas as pd 
df = pd.read_csv(“HR Dataset.csv”) 

Trong đó: HR Dataset là tên của bộ dữ liệu.  

Các câu lệnh khái quát bộ dữ liệu 

df.head() 

Hàm này giúp chúng ta lấy ra những dòng đầu tiên của tập dữ liệu. Theo mặc định, nó trả về 5 dòng đầu tiên: 

df.head() 

Pd1

Để lấy ra nhiều hay ít hơn 5 dòng, chúng ta có thể nhập con số cụ thể vào dấu ngoặc đơn: 

df.head(8) 

Df1.5

df.tail() 

Hàm này giúp chúng ta lấy ra những dòng cuối cùng của tập dữ liệu. Theo mặc định, nó cũng trả về 5 dòng cuối: 

df.tail() 

Pd2

Tương tự như df.head, chúng ta có thể lấy ra nhiều hay ít hơn 5 dòng: 

df.tail(3) 

Df2.5

df.sample() 

Hàm này giúp chúng ta lấy ra một hàng bất kỳ để quan sát: 

df.sample() 

Pd3

df.info() 

Hàm này cung cấp thông tin về tên cột và kiểu dữ liệu tương ứng của chúng, các giá trị thiếu (null) và dung lượng bộ nhớ mà DataFrame sử dụng: 

df.info() 

Pd4

Câu lệnh hiển thị thông tin mô tả 

df.describe() 

Hàm này trả về các thông tin bao gồm giá trị tối thiểu, giá trị tối đa, giá trị trung bình, độ lệch chuẩn (độ phân tán) của các giá trị trong các cột chứa dữ liệu số:

df.describe() 

Pd5

Câu lệnh truy vấn tập dữ liệu con 

df.query() 

Hàm query() được sử dụng để truy vấn dữ liệu dựa trên một biểu thức. Biểu thức có thể chỉ là một điều kiện đơn giản hoặc là sự kết hợp của nhiều điều kiện. 

Giả sử chúng ta cần truy xuất thông tin của những nhân viên có số dự án đặc biệt (SpecialProjectsCount) lớn hơn 5, ta làm như sau: 

df.query(“SpecialProjectsCount > 5”) 

Pd6

Xem thêm: 

Vòng lặp (loop) trong Python

Các câu lệnh If trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Data Analytics for Professionals

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
[HOẠT ĐỘNG CỘNG ĐỒNG] Cuộc thi Financial Student Contest (FSC) mùa 13 – CLB Tài chính – Chứng khoán (SeSC) – Đại học Ngoại Thương CSII TP. HCM (FTU2)

Chiều tối ngày 13/06/2025, Chung kết cuộc thi Financial Student Contest (FSC) mùa 13 do CLB Tài chính – Chứng khoán (SeSC) thuộc Đại học Ngoại Thương CSII TP. HCM (FTU2)

Xem thêm
[HOẠT ĐỘNG CỘNG ĐỒNG] Cuộc thi myInsight – MDS Datathon Challenge 2025 – CLB Toán ứng dụng & Khoa học dữ liệu (MDS) – CSII Đại học Ngoại Thương TP. HCM (FTU2)

Chiều ngày 08/06/2025 vừa qua, cuộc thi myInsight – MDS Datarthon Challenge 2025 đã chính thức tiến đến vòng chung kết dưới sự góp mặt của top 5 đội thi xuất

Xem thêm
Cảm nhận học viên khóa Excel for Analysts

“Mình rất hài lòng về tính ứng dụng thực tế và khả năng nâng cao hiệu quả công việc của khóa học.” Anh Nguyễn Trung Hòa – nhân sự ngành Kế

Xem thêm
Một số hàm sắp xếp (Sort) phổ biến trong Numpy

Sắp xếp (Sort) là một thao tác phổ biến trong phân tích dữ liệu và lập trình. Nó liên quan đến việc sắp xếp các phần tử trong một tập hợp theo

Xem thêm