SQL (Structured Query Language – ngôn ngữ có tính chất truy vấn) là loại ngôn ngữ được dùng để tương tác với cơ sở lưu trữ dữ liệu – SQL server, cho phép người dùng lấy dữ liệu ra một cách nhanh chóng và dễ dàng. Mặc dù viết SQL nhanh hơn và ít tốn kém hơn so với việc xây dựng cơ sở hạ tầng thứ cấp để chạy Python, nhưng thao tác SQL thường có nhiều vấn đề phức tạp nảy sinh. Vậy đâu là vấn đề gây nhức nhối cho người dùng SQL nhất? Hãy cùng UniTrain tìm hiểu 5 thao tác khó nhất trong SQL và cách khắc phục cho từng vấn đề trong bài viết dưới đây nhé!

1. Date Spines 

Thực tế cũng không rõ thuật ngữ Date Spines bắt nguồn từ đâu, nhưng những người không thực sự hiểu rõ bản chất của thuật ngữ này, cũng có thể cảm thấy quen thuộc với từ này.

Ví dụ, bạn phân tích dữ liệu bán hàng hàng ngày (như hình dưới):

5 thao tác khó làm nhất trong SQL

Tập dữ liệu không có doanh số bán hàng vào ngày 16 và 17, dẫn đến các hàng bị thiếu dữ liệu. Nếu người dùng muốn tính trung bình doanh số bán hàng hàng ngày hoặc xây dựng mô hình dự báo theo chuỗi thời gian, thì định dạng này sẽ là một vấn đề lớn. Do đó, hãy chèn hàng cho những ngày còn thiếu.

Dưới đây là một số khái niệm cơ bản:

– Tạo hoặc chọn ngày duy nhất
– Tạo hoặc chọn các sản phẩm duy nhất
– Cross Join (sản phẩm cartesian) tất cả các kết hợp của 1 & 2
– Outer Join #3 vào dữ liệu gốc của bạn

SQL có thể tùy chỉnh cho Datespine

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

Sau đó, kết quả sẽ hiển thị (như hình dưới):

5 thao tác khó làm nhất trong SQL

2. Tính năng Pivot hoặc Unpivot trong SQL

Khi phân tích dữ liệu, có thể bạn sẽ cần cấu trúc lại bảng. Ví dụ, người dùng có một tập dữ liệu, gồm học sinh, môn học và điểm, nhưng muốn chia nhỏ các môn học thành từng cột.

5 thao tác khó làm nhất trong SQL

Hầu hết mọi người đều sử dụng tính năng Pivot hay Unpivot trong Excel. Nhưng, bạn đã bao giờ thao tác trong SQL chưa? Hãy cùng UniTrain thao tác Pivot/Unpivot theo dưới đây.

5 thao tác khó làm nhất trong SQL

Sau đó, kết quả sẽ hiển thị (như hình dưới):

5 thao tác khó làm nhất trong SQL

3. Mã hóa One-hot 

Hầu hết các nhà khoa học dữ liệu không xem xét việc thực hiện mã hóa one-hot trong SQL. Mặc dù cú pháp đơn giản, nhưng họ thường thao tác bằng cách chuyển dữ liệu ra khỏi kho dữ liệu thay vì viết một câu lệnh CASE dài 26 dòng.

Tuy nhiên, hãy tận dụng kho dữ liệu và tính năng xử lý dữ liệu đó. Dưới đây là một ví dụ sử dụng STATE như là một cột để mã hóa one-hot.

Đây là tập dữ liệu thô:

5 thao tác khó làm nhất trong SQL

Nhập mã dưới đây:

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

Sau đó, kết quả sẽ hiển thị (như hình dưới):

5 thao tác khó làm nhất trong SQL

4. Market Basket Analysis (phân tích giỏ hàng)

Khi phân tích thị trường hoặc khai thác các quy tắc kết hợp, bước đầu tiên bạn cần làm là định dạng dữ liệu để tổng hợp từng giao dịch thành một bản. Có lẽ đây trở thành “nỗi ám ảnh” với nhiều người dùng SQL, nhưng kho dữ liệu được thiết kế để giúp bạn xử lý dữ liệu này một cách hiệu quả.

Giả sử có tập dữ liệu (như hình dưới):

5 thao tác khó làm nhất trong SQL

Hãy nhập hàm dưới đây:

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

Sau đó, kết quả sẽ hiển thị (như hình dưới):

5 thao tác khó làm nhất trong SQL

5. Time-Series Aggregations (tập hợp chuỗi thời gian)

Time-Series Aggregations được sử dụng bởi các nhà khoa học dữ liệu để phân tích. Và một trong những khó khăn lớn nhất đó là các chức năng yêu cầu dữ liệu phải được định dạng chính xác.

Ví dụ, nếu muốn tính trung bình số tiền bán hàng trong 14 ngày qua, thì bạn phải chia tất cả dữ liệu bán hàng thành một hàng mỗi ngày. Thông thường, dữ liệu bán hàng được lưu trữ như thông tin giao dịch và tổng hợp chuỗi thời gian. Bạn có thể tạo các chỉ số lịch sử mà không cần định dạng lại toàn bộ tập dữ liệu. Giả sử bạn muốn tìm doanh số trung bình trong 14 ngày qua, hay hóa đơn lớn nhất trong 6 tháng qua, hay đếm các loại sản phẩm khác nhau trong 90 ngày qua. Cách tốt nhất để xử lý việc này là sử dụng các biểu thức bảng chung (CTE) để xác định từng cửa sổ lịch sử được tổng hợp trước.

5 thao tác khó làm nhất trong SQL

Hãy nhập mã dưới đây:

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

5 thao tác khó làm nhất trong SQL

Cuối cùng, kết quả sẽ hiển thị (như hình dưới):

5 thao tác khó làm nhất trong SQL

Nguồn: QATestLab

Xem thêm

Khóa học Ứng dụng SQL trong xử lý dữ liệu

Free Download: Beginning SQL Queries

Các lệnh SQL thay thế các chức năng Excel phổ biến

Các kiểu dữ liệu trong SQL

5 khái niệm đơn giản khi mới bắt đầu học SQL cơ bản

 

Tags