Series Workshop Online - VBA in Excel 06/06/2026

Thực hành thiết lập tự động hóa các thao tác thủ công trong xử lý dữ liệu và lập báo cáo trong Excel

Các hàm Pandas thông dụng dành cho Data Analyst (phần 1)

Bất kỳ quá trình phân tích dữ liệu nào cũng bắt đầu với việc khám phá dữ liệu. Việc nắm rõ các hàm pandas khác nhau chắc chắn sẽ giúp các Data Analyst hoàn thành quy trình phân tích một cách nhanh chóng. 

Hãy cùng UniTrain khám phá một số câu lệnh với thư viện Pandas nhằm: 

– Khái quát tập dữ liệu 
– Phân tích mô tả tập dữ liệu 
– Lấy một tập con của bộ dữ liệu 

Pandas là thư viện được sử dụng rộng rãi để thao tác và phân tích dữ liệu trong Python. Đầu tiên, chúng ta sẽ nhập dữ liệu vào DataFrame pandas có tên df:  

import pandas as pd 
df = pd.read_csv(“HR Dataset.csv”) 

Trong đó: HR Dataset là tên của bộ dữ liệu.  

Các câu lệnh khái quát bộ dữ liệu 

df.head() 

Hàm này giúp chúng ta lấy ra những dòng đầu tiên của tập dữ liệu. Theo mặc định, nó trả về 5 dòng đầu tiên: 

df.head() 

Pd1

Để lấy ra nhiều hay ít hơn 5 dòng, chúng ta có thể nhập con số cụ thể vào dấu ngoặc đơn: 

df.head(8) 

Df1.5

df.tail() 

Hàm này giúp chúng ta lấy ra những dòng cuối cùng của tập dữ liệu. Theo mặc định, nó cũng trả về 5 dòng cuối: 

df.tail() 

Pd2

Tương tự như df.head, chúng ta có thể lấy ra nhiều hay ít hơn 5 dòng: 

df.tail(3) 

Df2.5

df.sample() 

Hàm này giúp chúng ta lấy ra một hàng bất kỳ để quan sát: 

df.sample() 

Pd3

df.info() 

Hàm này cung cấp thông tin về tên cột và kiểu dữ liệu tương ứng của chúng, các giá trị thiếu (null) và dung lượng bộ nhớ mà DataFrame sử dụng: 

df.info() 

Pd4

Câu lệnh hiển thị thông tin mô tả 

df.describe() 

Hàm này trả về các thông tin bao gồm giá trị tối thiểu, giá trị tối đa, giá trị trung bình, độ lệch chuẩn (độ phân tán) của các giá trị trong các cột chứa dữ liệu số:

df.describe() 

Pd5

Câu lệnh truy vấn tập dữ liệu con 

df.query() 

Hàm query() được sử dụng để truy vấn dữ liệu dựa trên một biểu thức. Biểu thức có thể chỉ là một điều kiện đơn giản hoặc là sự kết hợp của nhiều điều kiện. 

Giả sử chúng ta cần truy xuất thông tin của những nhân viên có số dự án đặc biệt (SpecialProjectsCount) lớn hơn 5, ta làm như sau: 

df.query(“SpecialProjectsCount > 5”) 

Pd6

Xem thêm: 

Vòng lặp (loop) trong Python

Các câu lệnh If trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Data Analytics for Professionals

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Data Analysis Breakthrough Scholarship 2026

Với mong muốn tạo điều kiện cho các bạn trẻ tiếp cận kiến thức bài bản và phát triển tư duy phân tích dữ liệu thực tiễn, Data Analysis Breakthrough Scholarship 2026 chính

Xem thêm
Ưu đãi tháng 05/2026

Chương trình ưu đãi 05/2026 này mang đến ưu đãi kép cho học viên: Giảm ngay 155.000đ trên mức ưu đãi đóng sớm khi học viên đăng ký bất kỳ khóa học nào trong tháng này.

Xem thêm
So sánh ChatGPT vs Gemini vs Claude 2026: Nên chọn AI tool nào?

Ba cái tên ChatGPT, Gemini và Claude xuất hiện ở khắp nơi khi nói về AI, nhưng không cái nào là “tốt nhất tuyệt đối”. Mỗi tool có điểm mạnh khác

Xem thêm
Claude là gì? Tìm hiểu AI assistant của Anthropic và cách dùng 2026

Nếu bạn đã nghe tên ChatGPT nhưng chưa biết Claude là gì, bạn đang bỏ qua một trong những AI assistant mạnh nhất hiện nay, đặc biệt nếu công việc của

Xem thêm