Với mục đích tìm hiểu về sở thích đầu tư, hành vi và cách quản lý tiền của mọi người. Data Analyst được yêu cầu phải trả lời một số câu hỏi như sau:
- Nam hay nữ tham gia vào thị trường chứng khoán và đầu tư nhiều hơn?
- Độ tuổi tham gia đầu tư nhiều nhất là bao nhiêu?
- Mối quan tâm hàng đầu của các nhà đầu tư là gì?
Bạn có thể thực hành cùng UniTrain với bộ dữ liệu ở đây: https://www.kaggle.com/datasets/nitindatta/finance-data
Hãy cùng UniTrain khám phá các bước làm và tìm ra xu hướng thông qua bài viết này nhé!
Về dữ liệu
Dữ liệu này được thu thập thông qua Google Forms và được thực hiện như một dự án thú vị trong thời gian giãn cách xã hội COVID-19. Dự án nhằm mục đích tìm hiểu về sở thích đầu tư, hành vi và cách quản lý tiền của mọi người.
Thuộc tính
– gender (Giới tính): Loại hình GIỚI TÍNH.
– age (Tuổi): TUỔI của người được khảo sát.
– Investment_Avenues (Các kênh đầu tư): Bạn có đầu tư vào CÁC KÊNH ĐẦU TƯ KHÁC NHAU không? (Câu trả lời có thể là Có/Không)
– Mutual Funds (Quỹ tương hỗ): Theo bạn, lựa chọn nào TỐT NHẤT để đầu tư tiền? (Xếp hạng theo thứ tự ưu tiên) – Có các lựa chọn như Quỹ tương hỗ, Cổ phiếu, Trái phiếu Chính phủ, Tiền gửi tiết kiệm…
– Equity Market (Thị trường chứng khoán): (Tương tự như Mutual Funds)
– Debentures (Trái phiếu doanh nghiệp): (Tương tự như Mutual Funds)
– Government Bonds (Trái phiếu Chính phủ): (Tương tự như Mutual Funds)
– Fixed Deposits (Tiền gửi tiết kiệm): (Tương tự như Mutual Funds)
– Public Provident Fund (Quỹ dự phòng công): (Tương tự như Mutual Funds)
– Gold (Vàng): (Tương tự như Mutual Funds)
– Stock_Market (Thị trường chứng khoán): Bạn có đầu tư vào THỊ TRƯỜNG CHỨNG KHOÁN không? (Câu trả lời có thể là Có/Không)
– Factor (Các yếu tố): Những YẾU TỐ NÀO BẠN QUAN TÂM KHI ĐẦU TƯ vào bất kỳ công cụ nào? (Câu hỏi mở)
– Objective (Mục tiêu đầu tư): MỤC TIÊU ĐẦU TƯ của bạn là gì? (Câu hỏi mở)
– Purpose (Mục đích đầu tư): MỤC ĐÍCH ĐẦU TƯ của bạn là gì? (Câu hỏi mở)
– Duration (Thời hạn đầu tư): Bạn thích GIỮ TIỀN BAO LÂU trong bất kỳ công cụ đầu tư nào? (Câu trả lời có thể là Ngắn hạn, Trung hạn, Dài hạn)
– Invest_Monitor (Tần suất theo dõi): Bạn THEO DÕI CÁC KÊNH ĐẦU TƯ của mình NHƯ THẾ NÀO? (Thường xuyên, Không thường xuyên)
– Expect (Kỳ vọng lợi nhuận): Bạn KỲ VỌNG MỨC LỢI NHUẬN BAO NHIÊU từ bất kỳ công cụ đầu tư nào? (Câu trả lời có thể là % hoặc mức chấp nhận rủi ro)
– Avenue (Kênh đầu tư chính): KÊNH ĐẦU TƯ NÀO BẠN THƯỜNG ĐẦU TƯ NHẤT? (Câu trả lời có thể là một trong các lựa chọn được liệt kê)
– What are your savings objectives? (Mục tiêu tiết kiệm của bạn là gì?): MỤC TIÊU TIẾT KIỆM CỦA BẠN LÀ GÌ? (Câu hỏi mở)
– Reason_Equity (Lý do đầu tư vào thị trường chứng khoán): LÝ DO GÌ BẠN ĐẦU TƯ VÀO THỊ TRƯỜNG CHỨNG KHOÁN? (Câu trả lời mở)
– Reason_Mutual (Lý do đầu tư vào quỹ tương hỗ): LÝ DO GÌ BẠN ĐẦU TƯ VÀO QUỸ TƯƠNG HỖ? (Câu trả lời mở)
– Reason_Bonds (Lý do đầu tư vào trái phiếu chính phủ): LÝ DO GÌ BẠN ĐẦU TƯ VÀO TRÁI PHIẾU CHÍNH PHỦ? (Câu trả lời mở)
– Reason_FD (Lý do đầu tư vào tiền gửi tiết kiệm): LÝ DO GÌ BẠN ĐẦU TƯ VÀO TIỀN GỬI TIẾT KIỆM? (Câu trả lời mở)
– Source (Nguồn thông tin đầu tư): NGUỒN THÔNG TIN ĐẦU TƯ CỦA BẠN LÀ GÌ? (Câu trả lời mở)
1. Mở đầu
Đầu tiên, chúng ta sẽ nhập những thư viện cần thiết:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
Tiếp thep, chúng ta nhập bộ dữ liệu và tìm hiểu loại dữ liệu của từng cột cũng như kiểm tra dữ liệu thiếu (nếu có):
df = pd.read_csv(‘Finance_data.csv’)
df.info()
Sau đó, ta chọn hiển thị 5 dòng đầu tiên trong bộ dữ liệu để có một cái nhìn tổng quan:
df.head()
*Đây chỉ là một phần của bảng
2. Khám phá insight
Số lượng người tham gia vào thị trường chứng khoán theo giới tính
Code:
plt.style.use(‘ggplot’)
data[‘gender’].value_counts().plot(kind=’bar’, figsize=(8,5), ylabel=’Count of People’, xlabel=’Gender’)
plt.legend()
plt.show()
Giải thích:
Dòng 1: plt.style.use(‘ggplot’)
– Thiết lập phong cách vẽ biểu đồ theo kiểu ggplot, giúp biểu đồ dễ nhìn và trực quan hơn.
Dòng 2: data[‘gender’].value_counts().plot(kind=’bar’, figsize=(8,5), ylabel=’Count of People’, xlabel=’Gender’)
Đây là dòng chính tạo biểu đồ:
– data[‘gender’].value_counts(): Đếm số lần xuất hiện của mỗi giá trị trong cột “gender” của data. Trả về một Series chứa các giá trị về giới tính và số lượng người thuộc mỗi giới tính (số lần xuất hiện).
– .plot(kind=’bar’, figsize=(8,5), ylabel=’Count of People’, xlabel=’Gender’): Vẽ biểu đồ hình cột (kind=’bar’) dựa trên Series kết quả.
+ figsize=(8,5): Thiết lập kích thước của biểu đồ là rộng 8 đơn vị và cao 5 đơn vị.
+ ylabel=’Count of People’: Thiết lập nhãn cho trục Y là “Số lượng người”.
+ xlabel=’Gender’: Thiết lập nhãn cho trục X là “Giới tính”.
Dòng 3: plt.legend():
Thêm chú thích (legend) để giải nghĩa các màu sắc tương ứng với các giá trị giới tính khác nhau trong biểu đồ.
Dòng 4: plt.show():
Hiển thị biểu đồ trên màn hình.
Kết luận:
Đàn ông tham gia vào thị trường chứng khoán nhiều hơn phụ nữ.
Phân bố tần suất theo độ tuổi và giới tính
Code:
data.groupby(‘gender’).age.plot(kind=’kde’)
plt.xlabel(‘age’)
plt.legend()
plt.show()
Giải thích:
Dòng 1: data.groupby(‘gender’).age.plot(kind=’kde’)
– data.groupby(‘gender’): Phân nhóm dữ liệu theo cột gender (Giới tính), tạo ra các nhóm dữ liệu riêng biệt cho mỗi giới tính nam và nữ.
– .age: Chọn cột age (Tuổi) từ mỗi nhóm dữ liệu.
– .plot(kind=’kde’): Vẽ biểu đồ KDE cho dữ liệu age của từng nhóm giới tính. Biểu đồ KDE sẽ hiển thị đường cong mật độ cho sự phân bố độ tuổi của mỗi giới tính.
Dòng 2: plt.xlabel(‘age’)
-plt.xlabel(‘age’): Thiết lập nhãn cho trục X của biểu đồ là “age” (Tuổi).
Kết luận:
Phần lớn người tham gia đầu tư nằm trnng độ tuổi từ 25 đến 31.
Mối quan tâm khi đầu tư
Code:
data[‘Factor’].value_counts().plot(kind=’bar’)
plt.ylabel(‘counts’)
plt.title(‘Factor of Investment’)
plt.show()
Kết luận:
Điều mọi người quan tâm nhiều nhất khi đầu tư là lợi nhuận.
Xem thêm: