Bài viết giúp bạn tìm hiểu lý do tại sao việc chuyển đổi dữ liệu lại cần thiết đối với việc lập mô hình dữ liệu và đưa tổ chức của bạn lên vị trí hàng đầu về kiến thức dữ liệu.
Các doanh nghiệp phân tích dữ liệu để hiểu rõ hơn về khách hàng, xác định các cơ hội mới và đưa ra quyết định tốt hơn. Để phân tích dữ liệu, trước tiên dữ liệu phải được tổ chức và cấu trúc theo cách mà các nhà phân tích có thể dễ dàng giải thích và được hình thành thành các Dashboard, báo cáo và mô hình dự đoán.
Dữ liệu là tài sản kinh doanh, nhưng chỉ khi bạn có thể tận dụng nó. Giống như quặng trong lò dưới lòng đất, nó có giá trị cao hơn nhiều sau khi được khai thác, tinh chế và biến thành thứ hữu ích.
Trong môi trường kinh doanh, dữ liệu nằm trong các ứng dụng kinh doanh – Salesforce, Google Analytics, v.v. Để nhận ra giá trị của nó, bạn phải trích xuất dữ liệu và tải về một kho lưu trữ mà từ đó bạn có thể lấy được thông tin kinh doanh.
Chuyển đổi dữ liệu là gì?
Chuyển đổi dữ liệu là quá trình sửa đổi, tính toán, phân tách và kết hợp dữ liệu thô thành các mô hình dữ liệu sẵn sàng phân tích. Mô hình dữ liệu là những đại diện của thực tế có thể dễ dàng chuyển thành chỉ số, báo cáo và trang tổng quan để giúp người dùng hoàn thành các mục tiêu cụ thể.
Đặc biệt, các doanh nghiệp cần KPI và các thước đo khác để định lượng và hiểu được họ đang làm gì và như thế nào.
Chuyển đổi chuẩn bị dữ liệu cho một loạt các trường hợp sử dụng, bao gồm:
- Analytics – Phân tích để hỗ trợ các quyết định bắt đầu với các chỉ số. Đôi khi, các chỉ số có thể được tính toán từ một nguồn duy nhất và chỉ cần một lượng biến đổi nhỏ. Những lần khác, cách duy nhất để tính toán số liệu là kết hợp dữ liệu từ nhiều nguồn và sau đó tổng hợp lại.
- Máy học – Máy học là nhận dạng mẫu tự động. Các ứng dụng kinh doanh của máy học bao gồm dự báo doanh thu và lợi nhuận, mô hình dự đoán để hỗ trợ các quyết định chính, hệ thống giới thiệu sản phẩm cho khách hàng và tất cả các loại tự động hóa quy trình kinh doanh.
- Tuân thủ quy định – Lưu trữ không cần thiết thông tin nhận dạng cá nhân (PII) khiến dữ liệu dễ bị lỗi bởi một loạt các vi phạm dữ liệu độc hại và ngẫu nhiên. Vi phạm dữ liệu làm tổn hại đến quyền riêng tư của dữ liệu và tạo ra các vấn đề nghiêm trọng cho cả bạn và khách hàng.
Kỹ thuật chuyển đổi dữ liệu
Dữ liệu thô hiếm khi được cấu trúc hoặc định dạng theo cách phục vụ các trường hợp sử dụng được liệt kê ở trên. Một số ví dụ phổ biến về các phép biến đổi giúp dữ liệu trở nên hữu ích hơn bao gồm những điều sau đây.
Sửa đổi
Việc sửa đổi dữ liệu phải đảm bảo các giá trị chính xác và được tổ chức theo cách hỗ trợ mục đích sử dụng của chúng. Chuẩn hóa cơ sở dữ liệu là một hình thức sửa đổi dữ liệu bằng cách giảm mô hình dữ liệu về dạng “bình thường” mà không có dư thừa hoặc một-nhiều giá trị trong một cột.
Chuẩn hóa làm giảm nhu cầu lưu trữ và làm cho mô hình dữ liệu ngắn gọn hơn và dễ đọc hơn đối với các nhà phân tích. Tuy nhiên, đòi hỏi rất nhiều nghiên cứu và tư duy phản biện.
Làm sạch dữ liệu chuyển đổi các giá trị dữ liệu để tương thích với định dạng.
Sửa đổi / chuyển đổi định dạng thay thế các ký tự không tương thích, chuyển đổi đơn vị, chuyển đổi định dạng ngày tháng và thay đổi kiểu dữ liệu.
Việc tái cấu trúc khóa tạo ra các số nhận dạng chung ngoài các giá trị có ý nghĩa tích hợp, vì vậy chúng có thể được sử dụng như các khóa cố định, duy nhất trên các bảng.
Deduplication có nghĩa là xác định và loại bỏ các bản ghi trùng lặp.
Xác thực dữ liệu đánh giá tính hợp lệ của một bản ghi bằng tính đầy đủ của dữ liệu, thường bằng cách loại trừ các bản ghi không đầy đủ.
Việc loại bỏ các cột không sử dụng và lặp lại cho phép bạn chọn các trường bạn muốn sử dụng làm tính năng, tức là các biến đầu vào cho mô hình dự đoán. Nó cũng có thể cải thiện hiệu suất và tính dễ đọc tổng thể của một mô hình.
Tin học
Một trường hợp sử dụng phổ biến để tính toán các giá trị dữ liệu mới từ dữ liệu hiện có là tính toán tỷ lệ, thống kê tóm tắt và các số liệu quan trọng khác. Một cách khác là biến dữ liệu phi cấu trúc, chẳng hạn như từ các tệp phương tiện, thành dữ liệu có cấu trúc có thể được giải thích bằng thuật toán học máy.
Derivation bao gồm các phép tính cột chéo đơn giản.
Tóm tắt bao gồm việc sử dụng các hàm tổng hợp để tạo ra các giá trị tóm tắt.
Xoay vòng biến các giá trị hàng thành cột và ngược lại.
Sắp xếp và lập chỉ mục tổ chức các bản ghi theo một số thứ tự để cải thiện hiệu suất tìm kiếm
Chia tỷ lệ và chuẩn hóa đặt các con số trên một thang đo nhất quán, chẳng hạn như các phân số của độ lệch chuẩn trong chuẩn hóa điểm Z. Điều này cho phép các con số khác nhau được so sánh với nhau.
Vectơ hóa chuyển đổi dữ liệu không phải số thành mảng số. Có rất nhiều ứng dụng học máy của những chuyển đổi này, chẳng hạn như để xử lý ngôn ngữ tự nhiên (NLP) và nhận dạng hình ảnh.
Một ví dụ của vectơ hóa là chuyển đổi lời bài hát thành một “túi từ” hoặc một loạt các bản ghi bao gồm số lượng từ.
Một ví dụ khác là chuyển đổi một hình ảnh thành ma trận các giá trị RGB đại diện cho giá trị màu của các pixel trong hình ảnh.
Tách biệt
Việc phân tách bao gồm việc phân chia các giá trị thành các phần cấu thành của chúng. Các giá trị dữ liệu thường được kết hợp trong cùng một trường vì tính riêng trong thu thập dữ liệu, nhưng có thể cần được tách riêng để thực hiện phân tích chi tiết hơn.
Việc tách một cột thành nhiều cột thường được sử dụng cho các trường chứa các giá trị được phân tách hoặc để chuyển đổi một cột có nhiều giá trị phân loại có thể có thành các biến giả để phân tích hồi quy.
Lọc loại trừ dữ liệu trên cơ sở các giá trị hàng hoặc cột nhất định.
Kết hợp
Một nhiệm vụ phổ biến và quan trọng trong phân tích là kết hợp các bản ghi từ nhiều bảng khác nhau và dữ liệu từ nhiều nguồn để xây dựng bức tranh đầy đủ về các hoạt động của tổ chức.
Tham gia là hành động liên kết dữ liệu giữa các bảng.
Hợp nhất, còn được gọi là thêm hoặc kết hợp, kết hợp các bản ghi từ nhiều bảng. Bằng cách kết hợp hai bảng sử dụng một cột chung, chẳng hạn như “email” trong ví dụ bên dưới, bạn có thể tập hợp các phần của phễu bán hàng và tiếp thị. Đây cũng là một ví dụ về tích hợp, bao gồm việc đối chiếu tên và giá trị cho cùng một phần tử dữ liệu trên các bảng khác nhau.
Các ví dụ được liệt kê ở trên minh họa cách thức xử lý bổ sung gần như luôn luôn được yêu cầu để biến dữ liệu thô thành các mô hình dữ liệu có thể sử dụng được. Bản thân các phép biến đổi là một phần quan trọng của một quá trình rộng hơn được gọi là tích hợp dữ liệu
Nguồn: Fivetran
Xem thêm