Trực quan hóa dữ liệu bằng thư viện Pandas

Pandas là một thư viện Python mạnh mẽ cung cấp các công cụ để thao tác và phân tích dữ liệu. Một trong những tính năng hữu ích nhất của Pandas là khả năng trực quan hóa dữ liệu một cách dễ dàng và hiệu quả.  

Hãy cùng UniTrain tìm hiểu cách sử dụng Pandas để tạo các biểu đồ và đồ thị khác nhau thông qua bài viết này nhé!

Cài đặt Pandas 

Trước khi bắt đầu, chúng ta cần cài đặt thư viện Pandas bằng lệnh pip: 

pip install pandas 

Import Pandas 

Sau khi cài đặt Pandas, chúng ta cần import thư viện vào chương trình Python của mình: 

import pandas as pd 
 

Đọc dữ liệu 

Để trực quan hóa dữ liệu, chúng ta cần nhập dữ liệu vào một DataFrame của Pandas. Ta có thể đọc dữ liệu từ các định dạng khác nhau như CSV, Excel, SQL, … Ví dụ, để đọc dữ liệu từ tệp CSV có tên “data.csv”: 

data = pd.read_csv(“data.csv”) 

Vẽ Biểu Đồ 

Pandas sử dụng lệnh plot() để tạo các biểu đồ và show() để hiển thị chúng: 

df.plot() 
 
plt.show() 

Biểu đồ Phân tán (Scatter plot) 

Để tạo biểu đồ phân tán, bạn cần chỉ định tham số kind=’scatter’ trong lệnh plot(). 

Biểu đồ phân tán cần có trục hoành (x-axis) và trục tung (y-axis). Trong ví dụ dưới đây, chúng ta sử dụng “Duration” (Thời Gian) cho trục hoành và “Calories” (Lượng Calo) cho trục tung. Sau đó đặt tên cho biểu đồ là “Calories and Duration”: 

Để thiết lập các trục, ta sử dụng các tham số x và y như sau: 

import pandas as pd 

import matplotlib.pyplot as plt 
 
df = pd.read_csv(‘data.csv’) 
 
df.plot(kind = ‘scatter’, x = ‘Duration’, y = ‘Calories’,title=’Calories and Duration’) 
 
plt.show() 

Picture1

Biểu đồ Tần suất (Histogram) 

Để tạo biểu đồ Tần suất, ta sử dụng tham số kind=’hist’ trong lệnh plot(). 

Biểu đồ tần suất chỉ cần một cột dữ liệu. Biểu đồ này hiển thị tần suất của mỗi khoảng giá trị, ví dụ: có bao nhiêu buổi tập kéo dài từ 50 đến 60 phút? 

Trong ví dụ dưới đây, chúng ta sẽ sử dụng cột “Duration” (Thời Gian) để tạo biểu đồ tần suất và đặt tên cho biểu đồ là “Frequency of Duration”: 

df[“Duration”].plot(kind = ‘hist’, title=’Frequency of Duration’) 

Picture2

Xem thêm: 

Các kiểu dữ liệu trong Python

Khóa học Xử lý và Trực quan hóa dữ liệu với Python

Combo 3 Khóa học Business Intelligence

[Free Download] Data Analysis from Scratch with Python

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

1 + 1 = ? (Nhập Haii để trả lời đúng)

Bài viết liên quan
[HOẠT ĐỘNG CỘNG ĐỒNG] Cuộc thi Financial Student Contest (FSC) mùa 13 – CLB Tài chính – Chứng khoán (SeSC) – Đại học Ngoại Thương CSII TP. HCM (FTU2)

Chiều tối ngày 13/06/2025, Chung kết cuộc thi Financial Student Contest (FSC) mùa 13 do CLB Tài chính – Chứng khoán (SeSC) thuộc Đại học Ngoại Thương CSII TP. HCM (FTU2)

Xem thêm
[HOẠT ĐỘNG CỘNG ĐỒNG] Cuộc thi myInsight – MDS Datathon Challenge 2025 – CLB Toán ứng dụng & Khoa học dữ liệu (MDS) – CSII Đại học Ngoại Thương TP. HCM (FTU2)

Chiều ngày 08/06/2025 vừa qua, cuộc thi myInsight – MDS Datarthon Challenge 2025 đã chính thức tiến đến vòng chung kết dưới sự góp mặt của top 5 đội thi xuất

Xem thêm
Cảm nhận học viên khóa Excel for Analysts

“Mình rất hài lòng về tính ứng dụng thực tế và khả năng nâng cao hiệu quả công việc của khóa học.” Anh Nguyễn Trung Hòa – nhân sự ngành Kế

Xem thêm
Một số hàm sắp xếp (Sort) phổ biến trong Numpy

Sắp xếp (Sort) là một thao tác phổ biến trong phân tích dữ liệu và lập trình. Nó liên quan đến việc sắp xếp các phần tử trong một tập hợp theo

Xem thêm