Merge dữ liệu trong Power Query

Khi cần kết hợp dữ liệu từ các bảng liên quan với nhau, thay vì nhập thủ công hay dùng công thức như Vlookup, chúng ta có thể sử dụng tính năng Merge Queries trong Power Query.

Power Query là một công cụ do Microsolf phát triển từ năm 2010, giúp ta dễ dàng kết nối, chuyển đổi và tự động hóa xử lý những dữ liệu dữ liệu lớn.

Giả sử: Công ty A theo dõi dữ liệu doanh số bán hàng theo mã khách hàng (customer_id), dữ liệu từ hệ thống xuất ra 2 file : file “Alpha_Transactions” thể hiện giao dịch bán hàng và file “File Customer_Lookup” thể hiện thông tin khách hàng. Trong trường hợp này, chúng ta cần kết hợp dữ liệu doanh số bán hàng với cột khóa là “customer_id”

Các bước thực hiện:

Bước 1. Vào Tab Home > Merge Queries > Merge Queries as New.

Merge Power Query

Bước 2. Chọn hai bảng dữ liệu cần Merge:

Merge Power Query

 

Sau đó, chọn cột khóa (primary key và foreign key) ở hai bảng dữ liệu:

Merge Power Query

  • Primary key (khóa chính): là cột có dữ liệu duy nhất cho mỗi dòng, không trùng lặp và không null. Bảng chứa Primary key có vai trò là bảng chính (Dim table).

Ví dụ: “customer_id” trong bảng Customer_Lookup là primary key vì mỗi khách hàng có mã duy nhất, không trùng, không null.

  • Foreign key (khóa ngoại): là cột có trong bảng Transaction Table, tham chiếu đến Primary key trong Dim

Ví dụ: “customer_id” trong bảng Alpha_Transaction tham chiếu đến “customer_id” trong bảng chính (Customer_Lookup)

Bước 3. Chọn kiểu Merge dữ liệu:
Trong trường hợp này, chúng ta sẽ chọn Join Kind phổ biến là Left Outer (giữ tất cả dữ liệu từ bảng bên trái, chỉ lấy các dữ liệu phù hợp từ bảng bên phải)

Merge Power Query

Bước 4. Expand hoặc Aggregate cột dữ liệu vừa được Merge:
Click vào mũi tên bên phải tên cột > Chọn Expand/Aggregate > OK.

Bước 5. Đổi tên Query vừa tạo.

Bước 6. Close và Load để load bảng dữ liệu kết quả ra Excel.

Xem thêm:

Khóa học Tổ chức và quản lý dữ liệu báo cáo trong Excel

Khóa học Advanced Power Query

Sử dụng Power Query trong Excel để chuẩn hóa dữ liệu

Bài viết liên quan
Khám phá hàm Lag và Lead trong SQL

Trong phân tích dữ liệu, hàm LAG() và LEAD() sẽ là công cụ hỗ trợ đắc lực cho việc so sánh giá trị hiện tại với giá trị liền trước hoặc liền

Xem thêm
[RECAP] Training Top 20 – myInsight – MDS Datathon Challenge 2025 – CLB Toán ứng dụng & Khoa học dữ liệu (MDS) – Đại học Ngoại Thương CSII TP. HCM (FTU2)

Tối ngày 18/05/2025, buổi training dành riêng cho Top 20 đội thi xuất sắc nhất cuộc thi myInsight – MDS Datathon Challenge 2025 đã diễn ra vô cùng thành công thông

Xem thêm
Khám Phá Tính Năng Nhóm và Phân Nhóm Dữ Liệu trong Power BI

Trong quá trình xây dựng biểu đồ, Power BI Desktop sẽ tự động tổng hợp dữ liệu thành các nhóm dựa trên các giá trị có trong tập dữ liệu gốc.

Xem thêm
[RECAP] Chuỗi Workshop MARKET-A – CLB Chứng khoán SCUE – Đại học Kinh tế TP. HCM (UEH)

Chiều ngày 15/05/2025 vừa rồi, UniTrain đã hân hạnh có mặt với vai trò là Nhà tài trợ Bạc tại buổi Workshop 2: OPTIVEST thuộc chuỗi chương trình Workshop MARKET-A do

Xem thêm