Bất kỳ quá trình phân tích dữ liệu nào cũng bắt đầu với việc khám phá dữ liệu. Việc nắm rõ các hàm pandas khác nhau chắc chắn sẽ giúp các Data Analyst hoàn thành quy trình phân tích một cách nhanh chóng. 

Hãy cùng UniTrain khám phá một số câu lệnh với thư viện Pandas nhằm: 

– Khái quát tập dữ liệu 
– Phân tích mô tả tập dữ liệu 
– Lấy một tập con của bộ dữ liệu 

Pandas là thư viện được sử dụng rộng rãi để thao tác và phân tích dữ liệu trong Python. Đầu tiên, chúng ta sẽ nhập dữ liệu vào DataFrame pandas có tên df:  

import pandas as pd 
df = pd.read_csv(“HR Dataset.csv”) 

Trong đó: HR Dataset là tên của bộ dữ liệu.  

Các câu lệnh khái quát bộ dữ liệu 

df.head() 

Hàm này giúp chúng ta lấy ra những dòng đầu tiên của tập dữ liệu. Theo mặc định, nó trả về 5 dòng đầu tiên: 

df.head() 

Pd1

Để lấy ra nhiều hay ít hơn 5 dòng, chúng ta có thể nhập con số cụ thể vào dấu ngoặc đơn: 

df.head(8) 

Df1.5

df.tail() 

Hàm này giúp chúng ta lấy ra những dòng cuối cùng của tập dữ liệu. Theo mặc định, nó cũng trả về 5 dòng cuối: 

df.tail() 

Pd2

Tương tự như df.head, chúng ta có thể lấy ra nhiều hay ít hơn 5 dòng: 

df.tail(3) 

Df2.5

df.sample() 

Hàm này giúp chúng ta lấy ra một hàng bất kỳ để quan sát: 

df.sample() 

Pd3

df.info() 

Hàm này cung cấp thông tin về tên cột và kiểu dữ liệu tương ứng của chúng, các giá trị thiếu (null) và dung lượng bộ nhớ mà DataFrame sử dụng: 

df.info() 

Pd4

Câu lệnh hiển thị thông tin mô tả 

df.describe() 

Hàm này trả về các thông tin bao gồm giá trị tối thiểu, giá trị tối đa, giá trị trung bình, độ lệch chuẩn (độ phân tán) của các giá trị trong các cột chứa dữ liệu số:

df.describe() 

Pd5

Câu lệnh truy vấn tập dữ liệu con 

df.query() 

Hàm query() được sử dụng để truy vấn dữ liệu dựa trên một biểu thức. Biểu thức có thể chỉ là một điều kiện đơn giản hoặc là sự kết hợp của nhiều điều kiện. 

Giả sử chúng ta cần truy xuất thông tin của những nhân viên có số dự án đặc biệt (SpecialProjectsCount) lớn hơn 5, ta làm như sau: 

df.query(“SpecialProjectsCount > 5”) 

Pd6

Xem thêm: 

Vòng lặp (loop) trong Python

Các câu lệnh If trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Data Analytics for Professionals

Tags