Bài viết này trình bày về việc xây dựng mô hình phân lớp với thuật toán C4.5 trên dữ liệu của sinh viên đã tốt nghiệp khoa Công nghệ thông tin nhằm phân tích, đánh giá mối quan hệ giữa kết quả học tập và cơ hội việc làm, từ đó hỗ trợ cho việc định hướng học tập và nghề nghiệp cho sinh viên trong tương lai.
KHAI PHÁ DỮ LIỆU: PHÂN TÍCH XẾP LOẠI TỐT NGHIỆP VÀ CƠ HỘI VIỆC LÀM CỦA SINH VIÊN SỬ DỤNG KỸ THUẬT PHÂN LỚP DATA MINING: ANALYSIS OF FINAL GPA AND EMPLOYMENT OPPORTUNITIES OF GRADUATES USING CLASSIFICATION TECHNIQUES LÊ QUỐC TIẾN1*, ĐẶNG HOÀNG ANH2 1Trường Đại học Hàng hải Việt Nam 2Phòng Tổ chức - Hành chính, Trường Đại học Hàng hải Việt Nam *Email liên hệ: letien@vimaru.edu.vn Tóm tắt Khai phá liệu ngày áp dụng rộng rãi nhiều lĩnh vực, bao gồm giáo dục Các công cụ khai phá liệu sử dụng để phân tích nguồn liệu khổng lồ, nhằm thu thơng tin, tri thức có giá trị Phân lớp, kỹ thuật quan trọng khai phá liệu, giúp dự đoán xu hướng từ liệu có sẵn Với trường đại học, việc phân tích dự đốn kết học tập hội việc làm sinh viên sau trường đặt lên hàng đầu Bài viết trình bày việc xây dựng mơ hình phân lớp với thuật toán C4.5 liệu sinh viên tốt nghiệp khoa Công nghệ thông tin nhằm phân tích, đánh giá mối quan hệ kết học tập hội việc làm, từ hỗ trợ cho việc định hướng học tập nghề nghiêp cho sinh viên tương lai Từ khóa: Khai phá liệu, phân lớp, sinh viên tốt nghiệp, xếp loại tốt nghiệp, việc làm Abstract Data mining has become popular in many fields, including education Data mining tools are used to extract valuable information and knowledge from big data sources Classification which is an important technique in data mining makes the movement forecastable from available data For universities, the priority is always placed on the analysis and forecast of students’ study results and employment opportunities after graduation This article discusses about building classification model with C4.5 algorithm, utilizing the data source from the Faculty of Information Technology graduates Its objectives are to analyse and assess the relationship between study results and employment opportunities, then facilitate the study and career orientation for students in the future Keywords: Data mining, classification, graduate students, final GPA, careers Đặt vấn đề Hiện nay, bên cạnh vấn đề tuyển sinh đầu vào, số lượng - chất lượng đầu hội việc làm lựa chọn ngành nghề sinh viên sau tốt nghiệp mối quan tâm hàng đầu trường đại học nói riêng tồn xã hội nói chung Phân tích liệu kết tồn khóa học sinh viên, đưa dự đốn hội việc làm để từ có điều chỉnh, định hướng kịp thời trình đào tạo mục tiêu quan trọng trường đại học Điều hoàn toàn khả thi, trường tận dụng nguồn liệu lớn sinh viên, áp dụng kỹ thuật khai phá liệu cách phù hợp Khai phá liệu (Data Mining) q trình xếp, tính tốn số lượng lớn tập liệu để xác định mẫu tạo lập mối quan hệ liệu, nhằm giải tốn thơng qua phân tích liệu Nói cách khác, khai phá liệu giúp trích xuất thơng tin, tri thức có ích từ nguồn liệu khổng lồ Các công cụ khai phá liệu cho phép đơn vị, tổ chức dự đoán xu hướng phát triển tương lai Khai phá liệu giai đoạn phân tích q trình khám phá liệu tri thức (Knowledge Discovery in Database - KDD) Quá trình bao gồm bước: Lựa chọn liệu (Selection), tiền xử lý (Pre-processing), khai phá liệu, biến đổi liệu (Transformation) đánh giá liệu (Interpretation/evaluation) Một số kỹ thuật thuật toán sử dụng trình khai phá liệu như: phân lớp, phân cụm, luật kết hợp, định,… Các nghiên cứu liên quan Trong năm gần đây, khai phá liệu với kỹ thuật phân lớp, luật kết hợp ngày sử dụng rộng rãi nhiều lĩnh vực, bao gồm giáo dục Rất nhiều cơng trình nghiên cứu hay báo khoa học ứng dụng khai phá liệu liệu sinh viên nhằm phân tích, dự đốn khả hay kết học tập sinh viên đại học Fadl Elsid Eltahir [1] áp dụng kỹ thuật phân lớp với thuật toán C4.5 (J48) sở liệu sinh viên nhằm đánh giá hiệu thuật toán, đồng thời dự đoán kết học tập sinh viên Trong đó, K Sumathi nhóm nghiên cứu [2] áp dụng phương pháp khai phá liệu phân lớp với định để phân tích vị trí việc làm sinh viên dựa khả học tập Tạp chí Khoa học Công nghệ Hàng hải Số 59 - 8/2019 125 Khai phá liệu Quá trình khai phá liệu bao gồm nhóm cơng việc sau: Phát bất thường (Anomaly detection) - phát ghi liệu bất thường, ngoại lệ sai lệch; khai phá luật kết hợp (Association rule) - tìm mối quan hệ liệu biến; phân cụm (Clustering) - phát nhóm cấu trúc tương đồng liệu, mà không sử dụng cấu trúc liệu biết; phân lớp (Classification) - tổng quát hóa cấu trúc biết để áp dụng cho liệu mới; hồi quy (Regression) - cố gắng tìm hàm nhằm mơ hình hóa liệu với lỗi nhất, để ước tính mối quan hệ liệu hay tập liệu; tóm tắt hóa (Summarization) - cung cấp biểu diễn nhỏ tập liệu, gồm tạo báo cáo trực quan hóa Ba loại mơ hình khai phá liệu bao gồm: mơ hình mơ tả (Descriptive modeling), mơ hình dự đốn (Predictive modeling) mơ hình đề xuất (Prescriptive modeling) Tương ứng với loại mơ hình, có phương pháp kỹ thuật khai phá liệu khác nhau, tùy thuộc vào yêu cầu toán cụ thể, mục đích xây dựng mơ hình, đặc tính liệu Mơ hình mơ tả cung cấp thơng tin q khứ có giá trị, tiết lộ điểm tương đồng nhóm chung liệu Những kỹ thuật điển hình mơ hình này: phân cụm - nhóm liệu có tính tương tự với nhau, sử dụng thuật toán K-means; luật kết hợp - phát mối quan hệ liệu, sử dụng thuật tốn Apriori Mơ hình dự đốn sâu phân tích kiện tương lại, ước tính, dự báo xu hướng xảy Các kỹ thuật quan trọng mơ hình này: phân lớp - sử dụng thuật toán Naive bayes, SVM (Support Vector Machine), KNN (K-nearest neighbor), định với thuật toán ID3 hay C4.5, mạng Neural; hồi quy - sử dụng thuật tốn SVM Mơ hình đề xuất phân tích liệu để đề xuất định phù hợp dự đoán kết xảy Phân lớp phương pháp sử dụng phổ biến khai phá liệu Nhiệm vụ phân lớp tổng quát hóa cấu trúc, lớp liệu biết để áp dụng cho đối tượng, mẫu liệu Nói cách khác, phân lớp có chức gán đối tượng vào tập chủ đề hay lớp mục tiêu dựa mức độ tương đồng Mục đích phân lớp dự đốn lớp mục tiêu trường hợp liệu Các kỹ thuật phân lớp phổ biến Cây định, láng giềng gần nhất, SVM hay Naive Bayes Các thuật toán định đáng ý ID3, C4.5, CART,… C4.5 thuật toán sinh định phát triển Ross Quinlan [3], phiên mở rộng thuật tốn ID3 đời trước Thuật tốn C4.5 thuật toán phân lớp liệu dựa định; C4.5 sử dụng chế lưu trữ liệu thường trú nhớ, đặc điểm khiến C4.5 thích hợp với sở liệu nhỏ, chế xếp lại liệu node trình phát triển định C4.5 chứa kỹ thuật cho phép biểu diễn lại định dạng danh sách thứ tự luật Kỹ thuật cho phép làm giảm bớt kích thước tập luật đơn giản hóa luật mà độ xác so với nhánh tương ứng định tương đương Từ lý đó, thuật tốn C4.5 phù hợp với tốn xây dựng mơ hình phân lớp liệu sinh viên tốt nghiệp khoa Công nghệ thơng tin liệu có quy mơ khơng q lớn Triển khai mơ hình phân lớp Nhóm nghiên cứu tiến hành thực khai phá liệu sinh viên tốt nghiệp thuộc khoa Công nghệ thông tin, trường Đại học Hàng hải Việt Nam Việc triển khai mơ hình phân lớp thực sở liệu sinh viên mảng đào tạo, liệu thu thập, tổng hợp sau kì học lưu trữ hệ thống máy chủ đào tạo Một cách tổng quát, liệu bao gồm tên sinh viên, ngành, chuyên ngành, lớp, điểm tích lũy (tương ứng với điểm trung bình học tập tồn khóa sinh viên tốt nghiệp), xếp loại tốt nghiệp thời gian tốt nghiệp Phạm vi nghiên cứu: đối tượng lựa chọn sinh viên tốt nghiệp ngành Công nghệ thông tin vòng 04 khóa (khóa 52, 53, 54 55) với 03 chun ngành (Cơng nghệ thơng tin với hai khóa 52-53, Kỹ thuật phần mềm Truyền thông - mạng máy tính với bốn khóa) Ngồi ra, nhóm nghiên cứu tiến hành thực khảo sát tình hình việc làm sinh viên tốt nghiệp thuộc diện đối tượng nêu Thông tin thu thập hội việc làm lĩnh vực công việc, bao gồm khơng có thơng tin, chưa có việc làm, có việc làm học tiếp Riêng đối tượng sinh viên có việc làm, khảo sát thu thập thêm thơng tin viên làm việc theo chuyên ngành học, việc có liên quan đến ngành học hay làm việc ngành học Mục đích mơ hình phân tích kết thực phân lớp tập liệu theo hai thuộc tính xếp loại tốt nghiệp cơng việc nhằm mối quan hệ thuộc tính với nhau, mức độ ảnh hưởng xếp loại tốt nghiệp tới hội việc làm sinh viên tốt nghiệp Nhóm nghiên cứu sử dụng cơng cụ WEKA [4] để hỗ trợ thực bước tiền xử lý phân lớp liệu WEKA phần mềm học máy mã nguồn mở, Đại học Waikato (New Zealand) 126 Tạp chí Khoa học Cơng nghệ Hàng hải Số 59 - 8/2019 phát triển Java, tập hợp thuật tốn học máy cho cơng việc khai phá liệu, phần mềm bao gồm công cụ cho việc chuẩn bị liệu, phân lớp, hồi quy, phân cụm, khai phá tập luật trực quan hóa Tiền xử lý liệu Tập liệu nghiên cứu đối tượng sinh viên nêu trích xuất từ sở liệu sinh viên lưu trữ thành tệp dlsv_fit_vmu.csv Tập liệu thô bao gồm ghi liệu với nhiều trường thuộc tính, ví dụ mẫu ghi sinh viên lấy ngẫu nhiên trường thể Hình Hình Một số ghi mẫu trong tập liệu gốc dlsv_fit_vmu.scv Tiếp theo, liệu tiền xử lý với công cụ WEKA thông qua bước nạp liệu (chuyển sang định dạng ARFF file), lọc thuộc tính (loại bỏ thuộc tính dư thừa khơng phù hợp với mơ hình) giá trị thuộc tính Các thuộc tính giá trị thuộc tính liệu sinh viên bao gồm: Chuyen_nganh {CNT, KPM, TTM}; Khoa_hoc {khoa_52, khoa_53, khoa_54, khoa_55}; Xep_loai {XS, Gioi, Kha, TB} Cong_viec {dung_nganh_hoc, lien_quan_nganh_hoc, nganh_khac, hoc_tiep, khong} Ví dụ mẫu ghi sinh viên sau tiền xử lý lấy ngẫu nhiên thể hiển Bảng Bảng Một số ghi mẫu tập liệu sau tiền xử lý Thống kê thơng tin thuộc tính giá trị thuộc tính cung cấp Hình Hình Quá trình tiền xử lý liệu Thực phân lớp Tiến hành phân lớp tập liệu với thuật tốn C4.5 (cây J48 cơng cụ WEKA) - Trường hợp phân lớp liệu theo thuộc tính Cong _viec, với chế độ sử dụng tập huấn luyện train_set toàn tập liệu dataset Kết thống kê trình phân lớp cung cấp Hình Tạp chí Khoa học Cơng nghệ Hàng hải Số 59 - 8/2019 127 Hình Kết thực phân lớp theo thuộc tính Cong_viec (ở chế độ sử dụng toàn dataset làm training_set test_set) Các thơng số độ xác thực phân lớp trường hợp cung cấp Hình bao gồm TP/FP rate, F-measure, ROC area,… Hình Kết chi tiết độ xác phân lớp theo thuộc tính Cong_viec (ở chế độ full training set) Mơ hình phân lớp trực quan hóa thơng qua định (J48) trình bày Hình 5, với nút lá, thể mối quan hệ hai thuộc tính Xep_loai Cong_viec Hình Cây định (J48) thu phân lớp theo thuộc tính Cong_viec (ở chế độ full training set) - Nhằm mục đích so sánh kết độ xác, tiếp tục thực phân lớp liệu theo thuộc tính Cong_viec trường hợp: chế độ percentage split: 66% (chia tập liệu dataset thành hai phần với tỉ lệ 2/3 số ghi dùng làm tập huấn luyện training_set phần lại dùng làm tập kiểm tra test_set) chế độ k-fold cross-validation: 10 folds Kết thu độ xác trường hợp xấp xỉ với chế độ full training set, đồng thời định có dạng tương tự - Cuối cùng, thực phân lớp liệu theo thuộc tính Xep_loai với mục đích tìm hiểu mối liên hệ thuộc tính Xep_loai (xếp loại tốt nghiệp sinh viên) với thuộc tính lại Kết độ xác thể Hình Cây định thu (Hình 7) trực quan hóa kết việc phân lớp Hình Kết chi tiết độ xác phân lớp theo thuộc tính Xep_loai 128 Tạp chí Khoa học Cơng nghệ Hàng hải Số 59 - 8/2019 Hình Cây định (J48) thu phân lớp theo thuộc tính Xep_loai Kết thực nghiệm phân tích Sau triển khai mơ hình phân lớp liệu sinh viên tốt nghiệp theo thuộc tính Cong_viec Xep_loai với thuật tốn C4.5, thông số thống kê thu đánh giá độ xác kỹ thuật phân cung cấp Hình 3, 4, Kết thực nghiệm mối quan hệ thuộc tính Chuyen_nganh, Khoa_hoc, Xep_loai Cong_viec, liên quan chuyên ngành học, khóa học kết xếp loại tốt nghiệp hội nghề nghiệp sinh viên Quan trọng hơn, kết phân lớp trực quan hóa thơng qua định (Hình 5, 7) ảnh hưởng xếp loại tốt nghiệp tới lựa chọn lĩnh vực công việc sinh viên trường, qua cung cấp dự đốn hội việc làm cho sinh viên trường tương lai Kết cho thấy, ngành Công nghệ thông tin, tỉ lệ sinh viên có việc làm sau tốt nghiệp cao, đặc biệt sinh viên tốt nghiệp với xếp loại khá, giỏi có xu hướng làm việc ngành học Ngoài ra, số lượng sinh viên tốt nghiệp với tỉ lệ sinh viên có kết tốt nghiệp cao (từ trở lên) tăng lên sau khóa học Tuy nhiên, kết phân tích liệu có chênh lệch định chất lượng sinh viên tốt nghiệp chuyên ngành, đồng thời số lượng sinh viên xếp loại tốt nghiệp xuất sắc số sinh viên lựa chọn học tiếp mức thấp Kết luận Trong viết này, nhóm nghiên cứu trình bày chủ đề khai phá liệu kỹ thuật phân lớp khai phá liệu, áp dụng vào xây dựng mơ hình phân lớp liệu sinh viên sử dụng thuật toán phân lớp C4.5 Kết thu giúp phân tích mối quan hệ điểm trung bình tồn khóa (xếp loại tốt nghiệp) hội việc làm sinh viên tốt nghiệp, từ đưa dự đoán hỗ trợ cho việc lựa chọn công việc sinh viên tương lai Ở viết sau, nhóm nghiên cứu trình bày phương pháp khai phá liệu điểm môn học sinh viên nhằm tìm mối liên hệ ảnh hưởng kết môn học tới điểm tích lũy tồn khóa học sinh viên, sử dụng kỹ thuật khai phá luật kết hợp với thuật toán Apriori TÀI LIỆU THAM KHẢO [1] Tariq O Fadl Elsid, Mirghani A Eltahir, Data Mining: Classification Techniques of Students’ Database A Case Study of the Nile Valley University, North Sudan, International Journal of Computer Trends and Technology Vol.16 No.5, 10/2014 [2] K Sumathi, S Kannan, K Nagarajan, Data Mining: Analysis of student database using Classification Techniques, International Journal of Computer Applications Vol.141 No.8, 05/2016 [3] J R Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993 [4] J R Quinlan Improve Used of Continuous Attribute in C4.5 In Joural of Artficial Intelligence Research (1996) 77-90 [5] Website: https://www.cs.waikato.ac.nz/ml/WEKA/ Ngày nhận bài: 03/4/2019 Ngày nhận sửa: 23/4/2019 Ngày duyệt đăng: 03/5/2019 Tạp chí Khoa học Cơng nghệ Hàng hải Số 59 - 8/2019 129 ... cứu trình bày chủ đề khai phá liệu kỹ thuật phân lớp khai phá liệu, áp dụng vào xây dựng mơ hình phân lớp liệu sinh viên sử dụng thuật toán phân lớp C4.5 Kết thu giúp phân tích mối quan hệ điểm... hai thuộc tính xếp loại tốt nghiệp cơng việc nhằm mối quan hệ thuộc tính với nhau, mức độ ảnh hưởng xếp loại tốt nghiệp tới hội việc làm sinh viên tốt nghiệp Nhóm nghiên cứu sử dụng cơng cụ WEKA... khóa (xếp loại tốt nghiệp) hội việc làm sinh viên tốt nghiệp, từ đưa dự đoán hỗ trợ cho việc lựa chọn công việc sinh viên tương lai Ở viết sau, nhóm nghiên cứu trình bày phương pháp khai phá liệu