Bài viết Ứng dụng thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu nhằm tăng độ chính xác kết quả dự đoán xếp loại thi muốn tìm hiểu xem liệu việc ứng dụng thuật toán kết hợp Stacking có đem lại kết quả dự đoán cao hơn hay không. Mời các bạn cùng tham khảo!
ỨNG DỤNG THUẬT TỐN KẾT HỢP STACKING TRONG QUY TRÌNH XỬ LÝ DỮ LIỆU NHẰM TĂNG ĐỘ CHÍNH XÁC KẾT QUẢ DỰ ĐOÁN XẾP LOẠI THI Đặng Minh Quân, Cao Thị Thu Hương Trường Đại học Kinh tế Quốc dân Tóm tắt: Việc dự đốn xác kết thi đem lại lợi ích to lớn cho người dạy người học Các ý tưởng việc dự đoán kết thi chủ yếu xuất cách chục năm Các kỹ thuật xử lý liệu dự đốn sử dụng nghiên cứu chủ yếu sử dụng thuật toán dự đoán riêng lẻ Trong nghiên cứu này, chúng tơi muốn tìm hiểu xem liệu việc ứng dụng thuật toán kết hợp Stacking có đem lại kết dự đốn cao hay khơng Từ khóa: xử lý liệu, xếp loại thi, dự đoán, thuật toán kết hợp Stacking Đặt vấn đề Mọi hệ thống giáo dục bao gồm hệ thống kiểm tra, qua phẩm chất lực người học đánh giá cách cho điểm xếp loại cho họ Kiểm tra cung cấp chứng hữu hình lực người học cho lớp cấp cao cho khóa học chun nghiệp cụ thể Nếu khơng có điều này, biết người học đạt từ hệ thống giáo dục Việc dự đốn xác kết thi đem lại lợi ích to lớn cho người dạy người học Khơng có nhà giáo muốn sinh viên đạt kết thấp kỳ thi Nếu có kết dự đốn cách xác, giáo viên có kế hoạch cụ thể nhằm giúp đỡ đối tượng có nguy đạt kết khơng mong muốn Với người học, kết dự đoán xác lời cảnh tỉnh giúp họ xem xét lại trình học tập Kết kỳ thi có loại sau: - Điểm số cụ thể: Với giáo dục Việt Nam, điểm số phổ biến từ đến 10 - Xếp loại: Một sinh viên xếp thành loại giỏi, khá, trung bình, yếu, - Đỗ/trượt Trong khuôn khổ báo này, tập trung vào hình thức kết xếp loại Các ý tưởng việc dự đoán kết thi chủ yếu xuất cách chục năm Do đó, kỹ thuật xử lý liệu dự đoán sử dụng nghiên cứu tương đối lạc hậu Việc dự đoán dừng ứng dụng thuật toán dự đoán riêng lẻ Trong nghiên cứu này, chúng tơi muốn tìm hiểu xem liệu việc ứng dụng thuật tốn kết hợp Stacking có đem lại kết dự đốn cao hay khơng Để làm điều này, sử dụng liệu có sẵn dùng cơng trình nghiên cứu trước [1] Chúng tơi xếp loại theo năm mức: giỏi, khá, trung bình, yếu, Với liệu này, đầu tiên, chúng tơi ứng dụng quy trình xử lý liệu tiên tiến với thuật tốn dự đốn riêng lẻ Sau đó, chúng tơi ứng dụng thuật tốn kết hợp stacking Hiệu thử nghiệm ghi lại so sánh 475 Bài báo tổ chức sau: mô tả nghiên cứu có liên quan đến việc dự đốn kết thi; trình bày thuật tốn kết hợp Stacking quy trình xử lý liệu tiên tiến nhằm dự đoán kết thi; Thực nghiệm hiệu việc ứng dụng thuật toán kết hợp Stacking; cung cấp tóm tắt ngắn báo Tổng quan nghiên cứu có liên quan Trên thực tế, số nghiên cứu đề cập đến chủ đề dự đoán kết thi Ma cộng (2000) áp dụng cách tiếp cận khai phá liệu dựa luật kết hợp để chọn sinh viên yếu Singapore để tham gia lớp học phụ đạo [2] Đầu vào biến bao gồm thuộc tính nhân học (ví dụ: giới tính, khu vực) thành tích học tập trường năm vừa qua Giải pháp đề xuất có hiệu vượt trội so với thủ tục phân bổ tiêu truyền thống Năm 2003, theo Minaei-Bidgoli cộng [3], điểm số học sinh học trực tuyến trường đại học Michigan State mơ hình hóa cách sử dụng ba cách tiếp cận phân loại (nhị phân: đạt / không đạt; cấp: thấp, trung bình, cao; cấp: từ - điểm thấp đến - điểm cao nhất) [3] Các sở liệu bao gồm 227 mẫu với tính trực tuyến (ví dụ: số tập nhà làm làm đúng) Kết tốt thu cách áp dụng nhóm phân loại (ví dụ: Cây định Mạng neuron) với tỷ lệ xác 94% (nhị phân), 72% (3 lớp) 62% (9 lớp) Kotsiantis cộng [4] áp dụng số thuật toán khai phá liệu để dự đoán kết thi sinh viên khoa học máy tính từ chương trình đào tạo từ xa trường đại học Đối với sinh viên, thuộc tính nhân học (ví dụ: giới tính, tuổi, tình trạng nhân) thuộc tính hiệu (ví dụ: điểm tập nhà) sử dụng làm đầu vào phân loại nhị phân đạt/không đạt Kết tốt thu cách sử dụng thuật toán Naive Bayes với độ xác 74% Ngồi ra, tác giả nhận thấy biến hiệu có tác động cao nhiều biến nhân học Gần hơn, Pardos cộng thu thập liệu từ kiểm tra toán lớp liên quan đến hệ thống dạy kèm trực tuyến Hoa Kỳ [5] Các tác giả áp dụng cách tiếp cận hồi quy với mục tiêu dự đoán điểm kiểm tra toán dựa kỹ cá nhân Các tác giả sử dụng Bayesian Networks kết tốt sai số dự đốn khoảng 15% Trong nghiên cứu này, chúng tơi xuất phát từ liệu mô tả [6] Bộ liệu có ba thành phần - Thành phần thứ bảng điểm khứ, cụ thể điểm kiểm tra lần lần - Thành phần thứ hai tập hợp số thuộc tính nhân học, xã hội trường học thống kê lại (ví dụ: tuổi học sinh, mức độ tiêu thụ rượu, trình độ học vấn người mẹ) - Thành phần thứ ba kết thi phân loại theo năm cấp độ: giỏi, khá, trung bình, yếu, Để dự đốn kết thi, chúng tơi sử dụng quy trình xử lý liệu tiên tiến với thuật toán dự đoán riêng lẻ sau [1]: 476 Data Tóm tắt liệu Kết Dự đoán Thám hiểm liệu Huấn luyện Chuẩn hóa liệu Phân chia liệu Chuyển đổi liệu phân loại Giảm kích thước đầu vào liệu Hình 1: Quy trình xử lý liệu với thuật tốn riêng lẻ Tóm tắt liệu giúp có nhìn tồn cảnh liệu Khám phá liệu sử dụng kỹ thuật thống kê trực quan hóa liệu để mơ tả đặc điểm tập liệu, chẳng hạn như: kích thước, số lượng độ xác, nhằm hiểu rõ chất liệu Làm chuyển đổi liệu xử lý liệu thừa, thiếu đưa chúng dạng chuẩn Giảm kích thước đầu vào chọn trường liệu quan trọng Mô tả cụ thể bước quy trình xử lý liệu xem [1] Trong nghiên cứu này, tiếp tục sử dụng quy trình xử lý liệu Tuy nhiên, bước huấn luyện dự đốn, thay dùng thuật tốn đơn lẻ, chúng tơi dùng phương pháp kết hợp stacking Quy trình xử lý liệu dự đoán xếp hạng thi sử dụng thuật tốn kết hợp stacking Tổng quan quy trình dự đoán xếp hạng thi sử dụng thuật toán kết hợp Stacking mơ tả Hình Thám hiểm liệu Chuẩn hóa liệu Chuyển đổi liệu phân loại Thuật toán kết hợp stacking Phân chia liệu Giảm kích thước đầu vào liệu Tóm tắt liệu Data Kết Hình 2: Quy trình xử lý liệu dùng thuật toán kết hợp stacking Thuật tốn kết hợp Stacking mơ tả cụ thể Hình Trong thuật tốn này, sử dụng nhiều mơ hình dự đốn riêng lẻ để tạo tập liệu huấn luyện/dự đốn Sau đó, tập liệu dùng để huấn luyện mơ hình dự đốn khác thực dự đốn Dữ liệu Tạo mơ hình dự đốn sở Tạo tập liệu huấn luyện/dự đoán Huấn luyện dự đốn Kết Hình 3: Thuật tốn kết hợp stacking 477 Quy trình huấn luyện mơ hình Từ Hình 3, thấy việc huấn luyện mơ hình dự đốn thuật tốn kết hợp Stacking thực nhiều lần Quá trình huấn luyện mơ tả theo Hình Tiến trình Dữ liệu Thuật tốn Tiến trình Mơ hình dự đốn Tiến trình Tập tham số Hình 4: Cơ chế huấn luyện mơ hình dự đốn Để huấn luyện mơ hình dự đốn, bên cạnh việc sử dụng liệu chuẩn hóa, chúng tơi cịn cần tập tham số Quá trình huấn luyện sử dụng tập tham số khác để luyện, xác thực nhằm tìm tập tham số tối ưu Do có nhiều tập tham số nên q trình huấn luyện kéo dài Để hạn chế tình trạng này, chúng tơi cài đặt để việc huấn luyện thực song song lõi vi xử lý Tạo mơ hình dự đốn sở Dữ liệu huấn luyện Thuật toán sở Thuật toán sở … Thuật toán sở n Các mơ hình dự đốn sở Hình 5: Tạo mơ hình dự đốn sở Với liệu huấn luyện đầu vào, dùng nhiều thuật toán sở khác để huấn luyện nhằm tạo mơ hình dự đốn sở Điều khả thi thuật toán dự đoán riêng lẻ cho lớp tốn xuất nhiều Ví dụ với tốn phân loại đa nhóm báo này, có thuật tốn riêng lẻ RF [7], RPART [8], XGB [9], SDA [10], KNN [11],… 478 Tạo tập liệu huấn luyện/dự đoán Các mơ hình dự đốn sở Các mơ hình dự đoán sở Dữ liệu huấn luyện Thực dự đoán Dữ liệu dự đoán Dữ liệu dự đốn Hình 6: Tạo tập liệu huấn luyện/dự đốn Ở bước này, mơ hình dự đốn sở áp dụng với liệu huấn luyện liệu dự đoán nhằm tạo liệu huấn luyện liệu dự đoán Lưu ý rằng, kết dự đoán mơ hình dự đốn sở giá trị phân loại Vì vậy, sau bước này, liệu huấn luyện liệu dự đoán bao gồm giá trị phân loại Huấn luyện dự đoán với liệu Dữ liệu huấn luyện Luyện thuật toán sở Tập tham số Mơ hình dự đốn Dự đốn Kết Dữ liệu dự đốn Hình 7: Quy trình huấn luyện/dự đoán với tập liệu Ở bước này, lại sử dụng thuật toán sở để thực huấn luyện dự đoán tập liệu Như thấy tư tưởng chủ đạo thuật toán kết hợp Stacking sử dụng nhiều thuật toán sở sử dụng lặp lại thuật toán sở với liệu biến đổi từ liệu gốc 479 Kiểm tra hiệu Bảng 1: Kết kiểm tra hiệu Tên thuật toán rút gọn Hiệu (%) SDA 80,26 RF 84,21 Recursive Partitioning and Regression Trees RPART 86,80 Extreme gradient boosting XGB 86,80 K nearest neighbors KNN 81,58 Tên thuật toán đầy đủ Shrinkage Discriminant Analysis Random forest Hiệu thuật toán Stacking (%) 88,15 Việc kiểm tra hiệu nhằm đánh giá xem liệu việc sử dụng thuật tốn kết hợp Stacking có đem lại kết dự đoán tốt thuật toán riêng lẻ hay không Để thực việc này, sử dụng liệu có sẵn dùng tài liệu tham khảo số [6] Chúng chia liệu năm phần Bốn phần dùng để huấn luyện Một phần dùng để dự đoán kiểm tra kết Ở bước thứ sáu, với quy trình sử dụng thuật tốn riêng lẻ chúng tơi sử dụng số thuật toán dự đoán phổ biến cho mục đích phân loại nhiều lớp RF [7], RPART [8], XGB [9], SDA [10], KNN [11] Với thuật toán kết hợp stacking, thuật toán sở bao gồm RPART [8], SDA [10], thuật toán kết hợp RPART [8] Kết mô tả Bảng Từ kết mô tả Bảng 1, thấy với quy trình xử lý liệu dùng thuật tốn kết hợp stacking, đạt hiệu cao so với việc sử dụng thuật toán dự đoán đơn lẻ tất trường hợp Tuy nhiên, khác hiệu khơng đồng Một số thuật tốn riêng lẻ có hiệu tiếp cận với thuật tốn kết hợp XGB, RPART Kết luận Dự đoán xác kết thi quan trọng cho cơng tác cố vấn học tập sở giáo dục đào tạo Bài báo nằm chuỗi nỗ lực nhằm tăng độ xác kết dự đoán xếp hạng thi Cụ thể hơn, chúng tơi ứng dụng thuật tốn kết hợp Stacking vào quy trình xử lý liệu tiên tiến Quy trình xử lý liệu tiên tiến tạo liệu đầu vào hiệu cho thuật toán dự đoán Thuật toán Stacking xa cách tạo liệu đầu vào hoàn toàn Bộ liệu giúp thuật toán dự đoán cho kết tốt Để kiểm tra hiệu dùng liệu nghiên cứu khứ để dễ kiểm tra Kết thực nghiệm cho thấy với quy trình xử lý liệu dùng thuật tốn kết hợp Stacking, đạt hiệu cao so với việc sử dụng thuật toán dự đoán đơn lẻ tất trường hợp Đây kết đáng khích lệ để ứng dụng, cập nhật quy trình xử lý liệu cho hệ thống có chuẩn bị xây dựng Quy trình xử lý liệu tiền để để phát triển kỹ thuật xử lý liệu tốt nhằm đem lại hiệu cao tương lai 480 Tài liệu tham khảo Quân, Đ.M (2021), Ứng dụng quy trình xử lý liệu tiên tiến nhằm tăng độ xác kết dự đoán xếp loại thi, in Ứng dụng công nghệ thông tin đổi phương pháp giảng dạy theo hướng Blended Learning p 114-121 Ma, Y., et al (2000), Targeting the right students using data mining In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining 2000 Minaei-Bidgoli, B., et al., (2003), Predicting student performance: an application of data mining methods with an educational web-based system in 33rd Annual Frontiers in Education, 2003 FIE 2003 2003 IEEE Kotsiantis, S., C Pierrakeas, and P J A A I Pintelas (2004), Predicting students' performance in distance learning using machine learning techniques 18(5): p 411-426 Pardos, Z.A., et al (2006), Using fine-grained skill models to fit student performance with Bayesian networks in Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems Taiwan Cortez, P and A.M.G Silva (2008), Using data mining to predict secondary school student performance Hastie, T., R Tibshirani, and J Friedman (2009), Boosting and additive trees, in The elements of statistical learning, Springer p 337-387 Breiman, L., et al (2017), Classification and regression trees 2017: Routledge Chen, T and C Guestrin (2016) Xgboost: A scalable tree boosting system in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining 10 Hilpisch, Y (2018), Python for finance: Mastering data-driven finance 2018: O'Reilly Media 11 Venables, W.N and B.D Ripley (2013), Modern applied statistics with S-PLUS 2013: Springer Science & Business Media 481 ... dùng phương pháp kết hợp stacking Quy trình xử lý liệu dự đoán xếp hạng thi sử dụng thuật tốn kết hợp stacking Tổng quan quy trình dự đoán xếp hạng thi sử dụng thuật toán kết hợp Stacking mơ tả... chuỗi nỗ lực nhằm tăng độ xác kết dự đoán xếp hạng thi Cụ thể hơn, chúng tơi ứng dụng thuật tốn kết hợp Stacking vào quy trình xử lý liệu tiên tiến Quy trình xử lý liệu tiên tiến tạo liệu đầu vào... liên quan đến việc dự đốn kết thi; trình bày thuật tốn kết hợp Stacking quy trình xử lý liệu tiên tiến nhằm dự đoán kết thi; Thực nghiệm hiệu việc ứng dụng thuật toán kết hợp Stacking; cung cấp