Các hàm Pandas thông dụng dành cho Data Analyst (phần 1)

Bất kỳ quá trình phân tích dữ liệu nào cũng bắt đầu với việc khám phá dữ liệu. Việc nắm rõ các hàm pandas khác nhau chắc chắn sẽ giúp các Data Analyst hoàn thành quy trình phân tích một cách nhanh chóng. 

Hãy cùng UniTrain khám phá một số câu lệnh với thư viện Pandas nhằm: 

– Khái quát tập dữ liệu 
– Phân tích mô tả tập dữ liệu 
– Lấy một tập con của bộ dữ liệu 

Pandas là thư viện được sử dụng rộng rãi để thao tác và phân tích dữ liệu trong Python. Đầu tiên, chúng ta sẽ nhập dữ liệu vào DataFrame pandas có tên df:  

import pandas as pd 
df = pd.read_csv(“HR Dataset.csv”) 

Trong đó: HR Dataset là tên của bộ dữ liệu.  

Các câu lệnh khái quát bộ dữ liệu 

df.head() 

Hàm này giúp chúng ta lấy ra những dòng đầu tiên của tập dữ liệu. Theo mặc định, nó trả về 5 dòng đầu tiên: 

df.head() 

Pd1

Để lấy ra nhiều hay ít hơn 5 dòng, chúng ta có thể nhập con số cụ thể vào dấu ngoặc đơn: 

df.head(8) 

Df1.5

df.tail() 

Hàm này giúp chúng ta lấy ra những dòng cuối cùng của tập dữ liệu. Theo mặc định, nó cũng trả về 5 dòng cuối: 

df.tail() 

Pd2

Tương tự như df.head, chúng ta có thể lấy ra nhiều hay ít hơn 5 dòng: 

df.tail(3) 

Df2.5

df.sample() 

Hàm này giúp chúng ta lấy ra một hàng bất kỳ để quan sát: 

df.sample() 

Pd3

df.info() 

Hàm này cung cấp thông tin về tên cột và kiểu dữ liệu tương ứng của chúng, các giá trị thiếu (null) và dung lượng bộ nhớ mà DataFrame sử dụng: 

df.info() 

Pd4

Câu lệnh hiển thị thông tin mô tả 

df.describe() 

Hàm này trả về các thông tin bao gồm giá trị tối thiểu, giá trị tối đa, giá trị trung bình, độ lệch chuẩn (độ phân tán) của các giá trị trong các cột chứa dữ liệu số:

df.describe() 

Pd5

Câu lệnh truy vấn tập dữ liệu con 

df.query() 

Hàm query() được sử dụng để truy vấn dữ liệu dựa trên một biểu thức. Biểu thức có thể chỉ là một điều kiện đơn giản hoặc là sự kết hợp của nhiều điều kiện. 

Giả sử chúng ta cần truy xuất thông tin của những nhân viên có số dự án đặc biệt (SpecialProjectsCount) lớn hơn 5, ta làm như sau: 

df.query(“SpecialProjectsCount > 5”) 

Pd6

Xem thêm: 

Vòng lặp (loop) trong Python

Các câu lệnh If trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Data Analytics for Professionals

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
Phím tắt Excel giúp tiết kiệm 90% thời gian nhập liệu

Trong quá trình xử lý dữ liệu bằng Excel, việc sử dụng các phím tắt không chỉ giúp tối ưu tốc độ làm việc mà còn tăng tính chính xác. Bài

Xem thêm
Ứng dụng hàm TEXTJOIN nâng cao trong Excel

1. Giới thiệu hàm TEXTJOIN và IF  Hàm TEXTJOIN trong Excel giúp nối các giá trị từ một phạm vi hoặc danh sách các ô, sử dụng dấu phân cách tùy

Xem thêm
30 tháng Tư rực rỡ, 01 tháng Năm ưu đãi bất ngờ

Mừng 50 năm thống nhất Đất nước, UniTrain ưu đãi đến 2.500.000 VNĐ trên học phí gốc cho học viên đăng ký các khóa combo. Hình thức online: 🔸Giảm 1.400.000đ trên học

Xem thêm
Nối các mảng dữ liệu trong Python

Trong quá trình xử lý dữ liệu với pandas, việc kết hợp nhiều bảng dữ liệu là thao tác rất phổ biến. Hàm concat() chính là công cụ mạnh mẽ giúp

Xem thêm