Để làm việc với cơ sở dữ liệu, trước hết, bạn cần một cơ sở dữ liệu! Bạn lấy dữ liệu cho các truy vấn SQL của mình ở đâu? Chúng có sẵn miễn phí trên internet, nhưng bạn cần biết nơi để tìm. Trong bài viết này, UniTrain sẽ chia sẻ nơi bạn có thể tìm thấy một số bộ dữ liệu thú vị cho việc thực hành SQL của bạn. Bắt đầu nào.

1. GOOGLE TRENDS

1 Google

Google thu thập hàng petabyte dữ liệu. Mỗi lần nhấp chuột, mỗi truy vấn được nhập vào công cụ tìm kiếm, mọi thứ đều được theo dõi và lưu lại. Vì vậy, tại sao không sử dụng điều này cho thực hành SQL của bạn? Google Trends là một trong những tập dữ liệu công khai lớn nhất hiện có. Bạn có thể biên soạn và phân tích thực tế một cách tự do. Khối lượng dữ liệu tuyệt đối mà bạn có thể chọn là rất lớn!

Google cho phép bạn sử dụng dữ liệu trình duyệt của mình và phân tích những gì mọi người đang tìm kiếm và khi nào họ làm điều đó thường xuyên nhất. Bạn có thể phân tích hầu hết mọi truy vấn tìm kiếm có thể có, từ khóa và lịch sử của chúng kể từ năm 2004.

Để kiểm soát tất cả điều này, có nhiều bộ lọc và bảng phân tích dữ liệu khác nhau. Nhờ tính năng này, trong vài phút, bạn có thể thu hẹp tìm kiếm của mình, chẳng hạn như vị trí, thời gian hoặc bản chất của dữ liệu cụ thể.

Một tính năng thú vị khác là danh sách các xu hướng, tức là các thuật ngữ phổ biến nhất hiện được tìm kiếm trên Google. Bạn cũng có thể nhấp vào bất kỳ ví dụ nào do Google đề xuất. Khi viết bài này, tôi biết được rằng hầu hết các tìm kiếm liên quan đến Taylor Swift trong 30 ngày qua là từ Utah. 

Bảng xếp hạng hàng năm cũng rất tuyệt. Google hiển thị 5 cụm từ tìm kiếm trong một số danh mục. Bạn cũng nên kiểm tra khả năng trực quan hóa dữ liệu của Google. Tuy nhiên, cảnh báo — xem qua tất cả những điều này thực sự gây nghiện và tốn thời gian!

Mỗi câu lệnh và mỗi báo cáo có thể được tải xuống thuận tiện bằng một cú nhấp chuột dưới dạng tệp CSV. Bạn có thể nhập chúng vào chương trình của mình và xem chúng bằng SQL. 

2. DATA.GOV

2 Datagov

Đây là một bộ sưu tập khổng lồ, và quan trọng hơn, hoàn toàn mở và miễn phí với hơn 200.000 bộ dữ liệu từ Chính phủ Hoa Kỳ. Trang web cung cấp một công cụ tìm kiếm tuyệt vời, nơi bạn có thể xác định các chủ đề quan tâm, khoảng thời gian, thẻ, vị trí và thậm chí cả định dạng tệp dữ liệu hoặc kiểu dữ liệu.

Chỉ trong vài cú nhấp chuột, bạn có thể truy cập thông tin về ngân sách của thành phố hoặc kết quả học tập trung bình của sinh viên từ trường cũ của bạn. Bạn có thể dễ dàng tìm thấy những gì bạn cần. Hãy dành một chút thời gian để tìm hiểu sâu hơn. Hầu hết dữ liệu được cung cấp ở các định dạng tệp phổ biến nhất như JSON hoặc CSV.

3. FIVETHIRTYEIGHT

3 Fivethirtyeight

Đây không chỉ là một tập hợp các tập dữ liệu. Đó là một trang ABC News với các bài báo, xếp hạng và bài luận. Bạn cũng sẽ tìm thấy nhiều dữ liệu sẵn sàng được sử dụng trong một dự án SQL.

Bạn có quan tâm đến chính trị không? Xem dữ liệu từ các cuộc thăm dò tổng thống Hoa Kỳ. Bạn có quyền truy cập vào dữ liệu từ nhiều công ty nghiên cứu và tổ chức tư vấn của Mỹ; bạn có thể tính toán mức trung bình và theo dõi các thay đổi. Biden hay Trump? Tìm xem ai đang có nhiều sự ủng hộ hơn ở từng tiểu bang Mỹ.

Mỗi danh sách có thể được tải xuống dưới dạng tệp CSV. Thoải mái, thú vị và hấp dẫn. Ngoài chính trị, bạn cũng sẽ tìm thấy rất nhiều thông tin về thể thao (ví dụ: “THE PACE OF PLAY HAS NEVER BEEN FASTER IN THE WNBA”), podcast và video.

4. KAGGLE

4 Kaggle

Khi bạn học SQL và sử dụng nó, bạn sẽ phải làm quen với trang web này sớm hay muộn. Đây không chỉ là một tập dữ liệu. Đúng hơn, đó là nơi mà các thành viên của cộng đồng người yêu dữ liệu đến và xuất bản các tác phẩm của họ. Bạn sẽ tìm thấy không chỉ các bộ dữ liệu thú vị mà còn rất nhiều tài liệu. Tất cả những điều này có thể giúp bạn hiểu rõ hơn về SQL và làm việc với cơ sở dữ liệu lớn.

Kaggle có một công cụ tìm kiếm đơn giản, giúp bạn dễ dàng tìm thấy những gì bạn đang tìm kiếm. Bạn cũng có thể sử dụng các gợi ý hoặc xem những gì hiện đang phổ biến nhất.

Tôi là một người yêu thích thể thao, vì vậy tôi đã chọn hai cơ sở dữ liệu cho mình. Đầu tiên là “kết quả bóng đá quốc tế từ năm 1872 đến năm 2020”. Đây là cơ sở dữ liệu cập nhật liên tục các kết quả từ hơn 40.000 trận đấu bóng đá quốc tế. Một lượng lớn kiến ​​thức và thống kê lịch sử, với gần 150 năm lịch sử bóng đá trong một cơ sở dữ liệu. Nó phải thật ấn tượng, và đúng như vậy! Ví dụ: bằng cách thực hành SQL trên đó, bạn có thể so sánh kết quả của đội tuyển quốc gia của bạn từ các năm cụ thể.

5. IMDB DATA SET

5 Imdb

Bạn có thích phim không? Nếu có, bạn phải làm quen với IMDb. Đây là cơ sở dữ liệu trực tuyến lớn nhất thế giới về phim, diễn viên, đạo diễn, nhà biên kịch, đại lý phim và những người khác có liên quan đến ngành.

IMDb (Internet Movie DataBase) được thành lập cách đây 30 năm. Kể từ đó, một cộng đồng toàn cầu khổng lồ đã và đang phát triển trang web. Cơ sở dữ liệu hiện có các mục nhập cho hơn 6 triệu phim, với tổng số dữ liệu về hơn 100 triệu thực thể liên quan. Chủ sở hữu trang web cho phép bạn tải xuống bộ sưu tập của họ một cách tự do để sử dụng cá nhân; bạn không thể sử dụng chúng cho mục đích thương mại.

Tập dữ liệu được chia thành những phần nhỏ hơn để sử dụng dễ dàng hơn. Ví dụ: bạn chỉ có thể tải xuống thông tin về phim bằng một ngôn ngữ nhất định hoặc chỉ về một đạo diễn cụ thể. Tất cả đều tùy thuộc vào trí tưởng tượng của bạn. Để làm ví dụ, hãy thử tìm hiểu những điều sau: từ “learning” xuất hiện trong bao nhiêu tựa phim? Bạn có thể tìm ra?

6. AIRBNB

6 Airbnb

Airbnb bắt đầu từ khi những người sáng lập thuê ai đó một chiếc nệm hơi trong phòng khách. Kể từ đó, công việc kinh doanh của họ ngày càng phát triển. Bây giờ có hàng ngàn địa điểm trên khắp thế giới. Trang web của họ cho phép những người có phòng hoặc căn hộ chưa sử dụng có thể kết nối với những khách du lịch cần một nơi để nghỉ qua đêm. Ý tưởng kinh doanh này đơn giản đến mức khó tin là trước đó không ai nghĩ ra.

Airbnb có một cơ sở dữ liệu về các vị trí của nó. Bạn có thể tải xuống và sử dụng nó để thực hành SQL. Tải xuống, chẳng hạn như tất cả dữ liệu về Florence ở Tuscany của Ý. Bạn có thể tìm thấy tất cả dữ liệu để tìm một ở tốt, phân tích xếp hạng của người dùng và so sánh giá cả. 

Ngoài danh sách thuộc tính, bạn cũng có thể tải xuống dữ liệu mà bạn có thể sử dụng trong dự án GIS. 

7. EARTHDATA

7 Earthdata

EARTHDATA là một phần của Chương trình Hệ thống Dữ liệu Khoa học Trái đất. Tất nhiên, là một người dùng thông thường, bạn sẽ không có quyền truy cập vào tất cả các tài nguyên của NASA. Nhưng bạn có quyền truy cập vào hàng petabyte dữ liệu được các nhà khoa học trên thế giới thu thập liên tục. Bạn muốn xem lớp tuyết phủ ở Nam Cực đã thay đổi như thế nào trong tháng qua? Không vấn đề gì. Có lẽ bạn quan tâm hơn đến các chuyển động khối núi ở Trung Á? Hay các luồng không khí New York? Bạn có thể truy xuất và xử lý dữ liệu, tất cả trong khi trau dồi kỹ năng SQL của mình. Bạn cũng có thể xem chúng trực tiếp trên trang web. 

Hãy nhớ rằng học SQL là một chuyện, nhưng bạn phải tiếp tục luyện tập sau đó để không quên những gì đã học trong các khóa học.

Nếu bạn chưa quen với SQL, UniTrain giới thiệu khóa học dành cho người mới bắt đầu Khóa học Ứng dụng SQL trong xử lý dữ liệu

Xem thêm

 

Tags