ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA KHOA CÔNG NGHỆ THÔNG TIN KINH DOANHDỰ ÁN CUỐI KỲ - MÔN: KHOA HỌC DỮ LIỆU ĐỀ TÀI: ĐÁNH GIÁ NĂNG LỰC KHỞI NGHIỆP KINH DOANH CỦA SINH VIÊN TẠI ẤN ĐỘ... BÀ
Mục tiêu tổng quát
Nghiên cứu, phân tích, đánh giá các yếu tố ảnh hưởng và khả năng khởi nghiệp kinh doanh của sinh viên tại Ấn Độ, từ đó đưa ra thông tin, kiến thức quan trọng nhằm củng cố, định hướng đúng đắn cho sinh viên khởi nghiệp kinh doanh trong thị trường cạnh tranh đầy những thách thức.
Mục tiêu cụ thể
Bài toán 1: Dựa trên các đặc điểm tương đồng nhau để tiến hành phân cụm các nhóm sinh viên có năng lực tốt về khởi nghiệp kinh doanh.
Bài toán 2: Phân lớp để tiến hành dự báo về năng lực khởi nghiệp kinh doanh của sinh viên tại Ấn Độ.
QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 7 I BÀI TOÁN 1: PHÂN CỤM NHÓM SINH VIÊN CÓ NĂNG LỰC KHỞI NGHIỆP
Mô tả phương pháp Hierarchical clustering
Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
Độ đo khoảng cách giữa các cụm (single link, complete link…)
Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng
Các phương pháp ví dụ: Diana, Agnes…
Một số phương pháp tính khoảng cách:
Mean: khoảng cách giữa các điển trung bình (mean) của 2 cụm
Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm
Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm
Mô tả phương pháp K-Means
Phương pháp phân cụm phân hoạch (Partitioning Clustering): là phương pháp phân tập dữ liệu có n phần tử cho trước thành k tập con (k Vì vậy, phương pháp liên kết Single cần đánh giá lại theo chuyên gia còn lại đều không tin tưởng.
Phương pháp liên kết Average:
- Cụm C1: không tồn có dữ liệu nào nên không tồn tại giá trị
- Cụm C2 : có các giá trị silhouette phần lớn đều lớn hơn 0,25 nhưng không có giá trị nào đạt được bằng hoặc lớn hơn 0,5; bên cạnh đó cũng có các giá trị tồn tại từ khoảng 0 – 0,25 và có 7 giá trị âm.
=> Vì vậy, phương pháp liên kết Average cần đánh giá lại theo chuyên gia còn lại đều không tin tưởng.
Phương pháp liên kết Ward:
- Kết quả phân cụm dữ liệu cho ra 2 cụm với phương pháp Hierarchical clustering, ta thấy cụm C1 (màu xanh) có các giá trị silhoutte phần lớn đều lớn hơn 0,25 Thế nhưng còn một số mẫu nằm trong khoảng từ 0 - 0,25.
- Đối với cụm C2 (màu đỏ) cũng có các mẫu có giá trị silhouette nằm khoảng lớn hơn bằng 0,25, một số mẫu còn lại thì có giá trị trong khoảng 0 - 0,25 và có 9 mẫu bị âm.
=> Vậy cách phân cụm này có thể tương đối chính xác, nhưng cần phải thực hiện các biện đánh giá lại (như phương án đánh giá ngoài) để kiểm tra
- Sau nhiều lần thao tác phân cụm với lần lượt các phương pháp tính liên kết khác nhau thì nhóm đã lựa chọn cách tính khoảng cách là Ward-link Kết quả sau khi thực hiện các thao tác thử cho thấy nên phân toàn bộ các mẫu trong bộ dữ liệu ra làm hai phân cụm.
Tiến hành phân cụm với thuật toán K-means ta có:
Hình 6 Phân cụm theo phương pháp K-means
Với phương pháp K-means, để phân tích, đánh giá, tìm ra, xem bộ dữ liệu này được phân ra bao nhiêu cụm là hợp lí nhất thì ta dựa vào chỉ số Silhouette Khi quan sát “Bảng phân tích K-means cho bộ dữ liệu” trên, ta thấy khi phân bộ dữ liệu ra làm 2 cụm là tối ưu nhất bởi chỉ số
Silhouette trung bình là 0.300, cao hơn so với các chỉ số Silhouette trung bình khi chia thành các cụm khác như: 3 cụm (0.135), 4 cụm (0.107), 5 cụm (0.104), 6 cụm (0.096), 7 cụm (0.084) Chỉ số Silhouette trung bình càng cao và càng tiến gần đến 1 thì phương pháp phân cụm đó sẽ càng chính xác và đáng tin cậy Vì thế, nhóm chọn phương pháp phân bộ dữ liệu làm 2 cụm Đồng thời, thực hiện đánh giá chi tiết từng chỉ số Silhouette của phương pháp phân làm 2 cụm trên:
Biểu đồ 3 Biểu đồ Silhoute plot của K-means
Dựa trên kết quả của Silhoutte Plot của phương pháp K-means, ta thấy cả hai cụm C1 (màu xanh) và C2 (màu đỏ) đều có phần lớn mẫu dữ liệu lớn hơn giá trị 0,25 và không có mẫu nào mang giá trị âm Vì vậy, việc phân cụm theo phương pháp K-means cũng tương đối tin cậy, nhưng cũng phải cân đánh giá lại để tăng thêm độ chính xác.
Lí do không chọn phân cụm K-means thành 3 cụm:
Với cách chọn phân thành 3 cụm thì nhìn vào biểu đồ Silhoutte, ta thấy được:
- Đối với cụm C1: Đa phần các giá trị đều dưới 0,25 và có 21 mẫu mang giá trị âm nên không tin tưởng vào cluster, tìm phương pháp đánh giá khác.
- Đối với cụm C2: có các mẫu có giá trị silhouette nằm khoảng lớn hơn bằng 0,25, một số mẫu còn lại thì có giá trị trong khoảng 0 - 0,25 nên cũng cần đánh giá lại
- Đối với cụm C3: Chỉ có một số mẫu lớn hơn 0,25 nhưng vẫn chưa đạt đến 0,5 và số còn lại đều từ dưới 0,25 nên cũng cần đánh giá lại.
=> Vì vậy phân thành 3 cụm có độ chính xác không cao và cũng không sát thực tế bằng phân thành 2 cụm Cho nên nhóm đã chọn cách phân thành 2 cụm Nhưng cũng cần phải cân nhắc đánh giá lại từ ý kiến của các chuyên gia trong ngành để tăng thêm độ chính xác cho kết quả.
2.3.Trích xuất dữ liệu và so sánh với nhãn ban đầu
BÀI TOÁN 2: PHÂN LỚP DỰ BÁO KHẢ NĂNG KHỞI NGHIỆP KINH DOANH CỦA SINH VIÊN ẤN ĐỘ 30 1 Mô tả các phương pháp phân lớp
1 Mô tả các phương pháp phân lớp
1.1.Khái niệm phương pháp phân lớp
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này đã được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó. Quá trình gán nhãn cho một đối tượng dữ liệu chính là quá trình phân lớp.
Quá trình phân lớp dữ liệu gồm 2 bước chính:
﹢Bước 1: Xây dựng mô hình (học/ huấn luyện)
﹢Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Phân lớp dữ liệu mới
1.2.Các phương pháp phân lớp được sử dụng trong bài
SVM (Support Vector Machine): Là một thuật toán có giám sát, dữ liệu vào xem như những các vector trong không gian và phân loại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Ưu điểm:
Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới với mặt siêu phẳng tìm được mà không cần tính toán lại)
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác nhau), xử lý được trong không gian nhiều chiều
Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt
Chưa thể hiện tính xác suất trong phân lớp
Hồi quy Logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector), để mô tả dữ liệu và giải thích mối quan hệ giữa một biến nhị phân phụ thuộc và một hoặc nhiều biến độc lập cấp danh nghĩa, thứ tự, khoảng hoặc tỷ lệ. Ưu điểm:
Hoạt động tốt đối với các trường hợp tập dữ liệu có thể phân tách tuyến tính
Không dự đoán được kết quả liên tục
Có thể không chính xác nếu kích thước mô hình quá nhỏ
Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước. Ưu điểm:
Dễ hiểu, không đòi hỏi việc chuẩn hóa dữ liệu
Có thể xử lý trên nhiều kiểu dữ liệu khác nhau, xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
Chi phí xây dựng mô hình cao.
Bước 1: Chọn dữ liệu File “data.csv” (dữ liệu ban đầu) và chọn cột
Hình 11 Chọn file “data.csv”
Bước 2: Chọn Data Table nối với Test and Score, nối Test and Score với 3 phương pháp Logistic Regression, SVM, Decision Tree Tiếp theo, nối Test and Score với Confusion Matrix để xem xét đánh giá kết quả trong 3 phương pháp trên phương pháp nào cho ra kết quả tốt nhất
Bước 3: Chọn File “data.csv” (dữ liệu gốc), sau đó chọn Data
Sampler chọn mức 10%, xuất ra Data 10% (tương ứng với 22 dữ liệu và không có dữ liệu bị thiếu) với nối với Predictions.
Hình 12 Điều chỉnh Fixed Proportion of data về 10%
Hình 13 Dữ liệu 10% được lọc ra
Bước 4: Liên kết phương pháp phân lớp tốt nhất với Predictions để dự báo, đánh giá dữ liệu
Hình 14 Prediction với dữ liệu 10%
Bước 5: Xuất kết quả dự báo qua Data Table
Hình 15 Mô hình phân lớp dự báo năng lực khởi nghiệp của sinh viên
3.1.Đánh giá mô hình dựa trên kết quả của Test and Score:
Hình 16 Kết quả của Test and Score
AUC: Decision Tree = 0.606 > Logistic Regression = 0.594 > SVM
= 0.574 Đồng thời phương pháp Decision Tree cũng cho ra kết quả Accuracy, F1-score, Precision và Recall là cao nhất trong cả 3 phương pháp được sử dụng (Chỉ số của phương pháp càng cao là phân lớp tốt) 3.2.Đánh giá mô hình dựa trên kết quả của Confusion Matrix
Sử dụng Proportion of predicted để so sánh chính xác hiệu quả của các phương pháp các chỉ số dưới dạng phần trăm
Hình 17 Kết quả của Decision Tree
Hình 18 Kết quả của SVM
Hình 19 Kết quả của Logistic Regression
Sai lầm loại 1 (ô màu đỏ hàng trên) - thể hiện dự đoán sinh viên có khả năng khởi nghiệp nhưng thực tế không có khả năng khởi nghiệp và Sai lầm loại 2 (ô màu đỏ ở hàng dưới) - thể hiện dự đoán sinh viên không có khả năng khởi nghiệp nhưng thực tế có khả năng khởi nghiệp.
=> Sai lầm loại 2 đáng lo ngại hơn do rủi ro này sẽ ảnh hưởng đến chính sách hỗ trợ khởi nghiệp của Chính phủ và các nhà đầu tư do đó những người khởi nghiệp khó có cơ hội nhận được hỗ trợ Điều này sẽ làm giảm đáng kể ý định khởi nghiệp của sinh viên, từ đó có thể dẫn đến ảnh hưởng sự phát triển khởi nghiệp ở Ấn Độ.
=> So sánh dựa trên kết quả của sai lầm loại 2.
Như kết quả 3 hình trên Sai lầm loại 2 của Tree = 32.5% < Logistic Regression = 36.1% < SVM = 38.4% (phương pháp có chỉ số Sai lầm loại 2 càng thấp là phân lớp tốt).
Từ kết quả 2 phương pháp đánh giá mô hình phân lớp => chọn phương pháp Decision Tree.
Hình 20 Kết quả dự báo năng lực khởi nghiệp của sinh viên
Hình 21 Kiểm tra mức độ chính xác của kết quả dự báo
Kết quả dự báo cho thấy phương pháp Decision Tree có dự đoán ở mức độ chính xác là 95% tương ứng với 21 kết qủa được dự báo chính xác và 5 % với 1 kết quả được dự báo sai lầm Từ đó ta có thể thấy rằng mức độ chính xác của mô hình dự báo là cao và ổn định, có thể tin tưởng vào mô hình này để dự báo năng lực khởi nghiệp của sinh viên
Kết quả từ phần mềm Orange đã cho thấy rằng việc áp dụng phương pháp Decision Tree trong việc phân loại năng lực khởi nghiệp của sinh viên đạt hiệu quả và đáng tin cậy thông qua Test and Score, các chỉ số đánh gía Decision Tree là phương pháp giúp xác định việc sinh viên có năng lực hay không trong lĩnh vực khởi nghiệp, từ đó có thể đưa ra các biện pháp, tạo nên những chính sách thích đáng và có thể tối ưu hoá các vấn đề về khởi nghiệp trong cộng đồng sinh viên Ta thấy được rằng điều này thật sự sẽ góp phần nào thúc đẩy sự phát triển kinh tế và khởi nghiệp, là nền tảng động lực, tăng cường sáng tạo cho sinh viên Ấn Độ.
CHƯƠNG 3: KẾT LUẬN TỔNG QUAN
Từ bài toán phân cụm, phương pháp Hierarchical clustering là tối ưu và chính xác nhất để sử dụng phân cụm nhóm sinh viên có khả năng khởi nghiệp kinh doanh Dựa vào các đặc điểm ta thấy cụm C2 có những chỉ số cao hơn rõ rệt đối với cụm C1 Do đó có thể thấy đa phần sinh viên có đủ năng lực khởi nghiệp nằm ở nhóm C2 là sinh viên Khoa học kỹ thuật, tuổi còn khá trẻ, phần lớn là “nam giới”, có đam mê và tinh thần tự tin cao Qua đó, nhà trường cũng như các bên liên quan có thể cân nhắc đến đối tượng này để tạo nguồn lực kinh tế tốt cho tương lai.
Từ bài toán phân lớp, nhóm khuyến khích các nhà giáo dục, nhà đầu tư cũng như các bên liên quan nên sử dụng phương pháp Decision Tree để dự báo ý định khởi nghiệp của sinh viên để từ đó có thể đưa ra những giải pháp, định hướng tốt nhất cho sinh viên Ấn Độ Hơn nữa, khi nhìn vào những nhân tố tác động đến ý định khởi nghiệp của sinh viên thì bản thân sinh viên cũng như nhà trường có thể có cái nhìn tổng quát và đưa ra những kế hoạch cụ thể cho tương lai phát triển của sinh viên.
3.Hạn chế: Đề tài nghiên cứu được nhóm thu thập và tham khảo qua website Kaggle Việc thu thập dữ liệu vẫn còn hạn chế và chưa kết luận rộng rãi vào thực tế vì chỉ có 219 mẫu khảo sát trên khắp trường đại học ở Ấn Độ trong vòng 1 tháng Việc khai thác quá nhiều đặc điểm dễ bị thay đổi theo thời gian như: độ tuổi, sống ở thành phố…khiến cho việc kết luận thực tế chỉ đúng ở thời điểm khảo sát Bên cạnh đó,dữ liệu thu thập cũng đã cũ (từ năm 2019) trước khi xáy ra giãn cách Covid nên chỉ có thể áp dụng cho khoảng thời gian ngắn trước dịch Covid, không thể áp dụng lâu dài vì nền kinh tế hiện tại đã thay đổi khá nhiều so với trước khi dịch Covid xảy ra Và cũng không thể đảm bảo sau dịch các sinh viên có còn ở lại thành phố hay không vì không có nguồn thu nhập trang trải trong dịch, và cũng không thể đảm bảo rằng tinh thần tích cực cũng như sự tự tin của sinh viên vẫn còn như trước vì thời gian giãn cách dài đã gây nên những căn bệnh về tâm lí như trầm cảm, rối loạn lo âu…
Nhóm vẫn còn chưa thành thạo các các phần mềm cũn như kiến thức chưa đủ vững để phân tích chuyên sâu và đúng đắn, bên cạnh đó vẫn còn nhiều thiếu sót nhỏ tồn tại.
Từ những hạn chế, nhóm đã đề xuất các biện pháp hữu ích để có thể làm ra những bộ dữ liệu mang tính thực tế và áp dụng vào thực tiễn như: