Sự khác biệt giữa Dữ liệu Có cấu trúc, Bán cấu trúc và Không cấu trúc

Khi một cuộc hội thoại được chuyển qua phân tích hay nhập vào mô hình dữ liệu lớn, các thuật ngữ như dữ liệu Có cấu trúc, Bán cấu trúc hoặc Không cấu trúc thường hay được nhắc đến. Đây là những loại hình dữ liệu quan trọng cần biết trong thời đại mà dữ liệu Bán cấu trúc và Không cấu trúc đang gia tăng với tốc độ chóng mặt, đồng thời những công cụ để quản lý và phân tích các loại dữ liệu này cũng đang dần trở nên phổ biến. Dưới đây là những gì bạn cần biết.

Mục lục

1. Dữ liệu Có cấu trúc

Đây là loại dữ liệu dễ dàng tìm kiếm và sắp xếp nhất, vì nó thường được hàm chứa trong các cột và hàng, và các thành phần của chúng có thể được liên kết bằng những trường được định sẵn từ trước. Hãy nghĩ về những dữ liệu bạn có thể lưu trữ trong một tệp Excel và chúng ta sẽ thấy ngay được ví dụ về dữ liệu có cấu trúc. Dữ liệu có cấu trúc có thể bám theo một mô hình dữ liệu mà người thiết kế cơ sở dữ liệu (CSDL) tạo ra — ví dụ như các bản thống kê bán hàng theo vùng miền, xếp theo loại mặt hàng hoặc theo khách hàng. Đối với dữ liệu có cấu trúc, các hạng mục có thể được nhóm lại để tạo thành các mối liên hệ với nhau (các ‘khách hàng’ cùng có phản hồi ‘thỏa mãn’ về dịch vụ chẳng hạn). Những điều này sẽ giúp dữ liệu có cấu trúc dễ dàng được lưu trữ, phân tích, tìm kiếm, và trở thành loại dữ liệu dễ sử dụng nhất cho doanh nghiệp trong thời gian gần đây. Ngày nay, phần lớn những loại dữ liệu được cho là có cấu trúc chỉ chiếm ít hơn 20% tổng số dữ liệu thu được.

Thông thường, dữ liệu có cấu trúc được quản lý bằng Ngôn ngữ Truy vấn Có cấu trúc (Structured Query Language — SQL) — một loại ngôn ngữ lập trình được phát triển bởi IBM từ những năm 1970 dành cho các CSDL có liên hệ.

Dữ liệu có cấu trúc được tạo ra bởi máy móc và con người. Các ví dụ của dữ liệu có cấu trúc bao gồm dữ liệu tài chính như các giao dịch, chi tiết địa chỉ, thông tin nhân khẩu, đánh giá của người dùng, các bản ghi chú của máy, dữ liệu địa điểm từ các thiết bị thông minh, …

2. Dữ liệu Không cấu trúc

Một phần rất lớn của tất cả dữ liệu trên thế giới này là dữ liệu Không cấu trúc. Loại dữ liệu này là loại không thể chứa trong CSDL dạng hàng và cột, và nó cũng không có mô hình dữ liệu nào liên quan. Ví dụ như một đoạn chữ trong một email chẳng hạn. Sự thiếu hụt về cấu trúc đã khiến dữ liệu Không cấu trúc trở nên khó tìm kiếm, quản lý và phân tích, cũng là lý do vì sao các công ty đều bỏ qua dạng dữ liệu này; cho đến gần đây khi sự ra đời của trí tuệ nhân tạo và các thuật toán máy tự học khiến cho quá trình này trở nên dễ hơn đôi chút.

Các ví dụ khác của dữ liệu Không cấu trúc gồm có hình ảnh, phim và các tệp âm thanh, các tệp chứa chữ cái, các nội dung từ mạng xã hội, hình ảnh từ vệ tinh, các bài thuyết trình, tệp PDF, các câu trả lời từ bản khảo sát câu hỏi mở, các trang web và bản thu từ các cuộc gọi hỗ trợ khách hàng.

Thay vì sử dụng Excel hay CSDL quan hệ, dạng dữ liệu Không cấu trúc thường được lưu trữ trong các hầm dữ liệu, cơ sở dữ liệu NoSQL, các ứng dụng và kho chứa dữ liệu khác. Sự màu mỡ của thông tin trong các khối dữ liệu Không cấu trúc giờ đây đã có thể được khai thác và được tự động xử lý bởi các thuật toán và trí tuệ nhân tạo trong thời đại ngày nay. Công nghệ này đã nâng tầm dữ liệu Không cấu trúc lên thành nguồn tài nguyên cực kỳ giá trị đối với các tổ chức.

3. Dữ liệu Bán cấu trúc

Ngoài dữ liệu Có cấu trúc và Không cấu trúc, có một loại dữ liệu khác nữa, cơ bản là dựa trên sự pha trộn của 2 loại trên. Loại dữ liệu này có một số tính chất đồng nhất có thể xác định được, nhưng lại không hình thành một cấu trúc rõ ràng và phù hợp với CSDL quan hệ. Vì vậy, một số thuộc tính có tổ chức được gán cho nó như các nhãn về ngữ nghĩa (semantic tag) hay các siêu dữ liệu (metadata) với mục đích dễ dàng sắp xếp hơn, nhưng vẫn sẽ có những lỗ hổng trong việc này.

Email là một ví dụ điển hình. Nội dung thực chất của email thuộc dạng Không cấu trúc, nhưng nó lại mang các dữ liệu Có cấu trúc như tên, địa chỉ của người gửi và người nhận, thời gian gửi, … Một ví dụ khác là ảnh kỹ thuật số. Bản thân hình ảnh đó là Không cấu trúc, nhưng nếu bức ảnh đó được chụp từ điện thoại, thì nó sẽ được gắn ngày tháng và thời gian, nhãn về địa lý, và có khi còn có ID của thiết bị. Một khi được lưu trữ, bức ảnh đó cũng có thể được gắn nhãn như ‘chó’ hay ‘mèo’.

Rất nhiều thứ khác mà mọi người thường xếp vào dạng dữ liệu Không cấu trúc nhưng thực ra lại là Bán cấu trúc, bởi vì nó mang trong mình những tính chất có thể phân loại được.

4. Sự khác nhau giữa Dữ liệu Có cấu trúc, Bán cấu trúc và Không cấu trúc

Để hiểu một cách dễ nhất sự khác nhau giữa các loại hình dữ liệu, hãy thử dùng phép loại suy này. Khi đi phỏng vấn việc làm, tưởng tượng rằng ta có 3 dạng phỏng vấn khác nhau: Có cấu trúc, Bán cấu trúc và Không cấu trúc.

Đối với loại phỏng vấn Có cấu trúc, người phỏng vấn sẽ theo sát một kịch bản có sẵn được viết bởi phòng Nhân sự và áp dụng với tất cả các ứng viên. Đối với hình thức phỏng vấn Không cấu trúc, cuộc phỏng vấn sẽ phụ thuộc hoàn toàn vào người phỏng vấn quyết định xem câu hỏi sẽ là gì, và cả thứ tự của những câu hỏi đó đối với từng ứng viên nữa. Còn hình thức phỏng vấn Bán cấu trúc sẽ lấy các yếu tố từ cả cuộc phỏng vấn Có và Không cấu trúc. Nó sẽ có tính chất nhất quán và các nhân tố định lượng giống như khi phỏng vấn Có cấu trúc, và sẽ gồm cả sự thoải mái để tùy biến câu hỏi dựa trên tình hình thực tế.

Như vậy, với dữ liệu nói chung, dữ liệu Có cấu trúc sẽ dễ dàng sắp xếp và bám theo một định dạng nhất định; dữ liệu Không cấu trúc sẽ phức tạp hơn và thường bao gồm các thông tin định tính mà hầu như không thể nào lược bớt hay sắp xếp lại trong CSDL quan hệ; và dữ liệu Bán cấu trúc thì có các nhân tố từ cả hai hình thức trên.

<Nguồn: insights.innovatube.com>

Xem thêm

SQL là gì? Những gì cần biết về SQL

[Legal Update] Vấn đề bảo vệ dữ liệu

Khóa học Ứng dụng SQL trong xử lý dữ liệu