Nhiệm vụ này được gọi là dự đoán điểm sinh viên kỳ tới và nó yêu cầu dữ liệu điểm của sinh viên trong khóa học trước đây để cung cấp các tính năng hữu ích để dự đoán điểm của các khóa họ
Trang 1TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI
Trang 2(GV ký xác nhận)
Hà Nội, 2024
Trang 32
LỜI CẢM ƠN
Lời đầu tiên, cho phép tôi xin được gửi lời cảm ơn chân thành nhất đến PGS.TS Nguyễn Thị Kim Sơn, Trường Đại học Thủ đô Hà Nội – người đã truyền cho tôi nguồn cảm hứng yêu Toán, yêu nghề dạy Toán từ khi mới là sinh viên năm nhất còn nhiều bỡ ngỡ khi mới bước chân vào trường, đến khi trở thành một sinh viên khoa Toán năm cuối, có cơ hội được cô hướng dẫn viết khóa luận này Cảm ơn cô đã tận tình hướng dẫn, chỉ bảo tôi từng chút một trong suốt quá trình hoàn thành khóa luận
Tôi cũng xin chân thành cảm ơn các thầy cô trong trường Đại học Thủ đô
Hà nội đã tận tình giảng dạy và giúp đỡ tôi trong suốt quá trình học tập tại trường, giúp tôi tích lũy thêm nhiều kiến thức và có cái nhìn sâu rộng hơn về
bộ môn Toán mà tôi sẽ gắn bó lâu dài trong công việc sau này
Khóa luận của tôi không thể hoàn thành tốt nếu không có sự giúp đỡ, động viên nhiệt tình của bạn bè, gia đình và người thân Nhân đây tôi xin gửi lời cảm
ơn đến bố mẹ và những người bạn đặc biệt của tôi đã luôn đồng hành cùng tôi trong thời gian qua
Vì kiến thức là vô hạn, học tập là mãi mãi nên khóa luận của tôi không tránh khỏi những thiếu sót và tôi rất mong nhận được sự chỉ bảo chân thành của các thầy, các cô để khóa luận được hoàn thiện hơn
Kính chúc thầy cô thật nhiều sức khỏe, năng lượng và thành công trên con
đường sự nghiệp giảng dạy của mình!
Trang 43
MỤC LỤC
LỜI CẢM ƠN 2
DANH MỤC HÌNH ẢNH 6
MỞ ĐẦU 8
1 Lí do chọn đề tài 8
2 Mục đích nghiên cứu 9
3 Nhiệm vụ nghiên cứu 9
4 Đối tượng và khách thể nghiên cứu 9
5 Phương pháp nghiên cứu 9
6 Cấu trúc của Khóa luận 9
CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY, HỌC SÂU VÀ BÀI TOÁN DỰ ĐOÁN 10
1.1 Giới thiệu 10
1.2 Khảo sát tài liệu 12
1.3 Đề xuất phương pháp và phân tích kết quả 16
1.4 Tiểu kết Chương 1 18
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN DỰ ĐOÁN KẾT QUẢ HỌC TẬP 19
2.1 Decision Tree (Cây quyết định) 19
2.2 Neural Network (Mạng Nơ ron) 20
2.3 Naive Bayes 21
2.4 K-Nearest Neighbor (Thuật toán K lân cận gần nhất) 22
2.5 Support Vector Machine (Máy véc tơ hỗ trợ) 22
2.6 Tiểu kết chương 2 26
Trang 54
CHƯƠNG 3: DỰ ĐOÁN KẾT QUẢ HỌC KỲ SAU BẰNG PHƯƠNG PHÁP
HỌC SÂU DỰA TRÊN MÔ HÌNH LSTM-FM 27
3.1 Giới thiệu 27
3.2 Bộ số liệu và tính năng 29
3.2.1 Mô tả tập dữ liệu 29
3.2.2 Đặc điểm của Sinh viên, Khóa học 30
3.3 Phương pháp đề xuất 32
3.3.1 Máy nhân tố hóa (FM) 32
3.3.2 Mô hình LSTM-FM 34
3.4 Thí nghiệm 35
3.4.1 Số liệu đánh giá 35
3.4.2 Phương pháp đánh giá 36
3.4.3 Kết quả dự đoán 37
3.5 Tiểu kết chương 39
CHƯƠNG 4: DỰ ĐOÁN KẾT QUẢ HỌC KỲ SAU BẰNG KỸ THUẬT HỌC SÂU VỚI MẠNG NƠ-RON ĐA TẦNG 40
4.1 Giới thiệu 40
4.2 Mạng nơ-ron đa tầng (Multilayer Perceptron - MLP) 42
4.3 Xây dựng mô hình dự báo kết quả học tập 44
4.3.1 Thu thập và tiền xử lý dữ liệu 46
4.3.2 Xây dựng mô hình dự đoán dùng mạng MLP 48
4.4 Đánh giá kết quả 51
4.4.1 Dữ liệu huấn luyện và kiểm tra 51
4.4.2 Các độ đo dùng để đánh giá 53
4.4.3 Các cơ sở tham chiếu và phương pháp dùng để so sánh 53
Trang 65
4.4.4 Kết quả thực nghiệm 54
4.5 Tiểu kết chương 56
CHƯƠNG 5: DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN BẰNG KỸ THUẬT KHAI PHÁ DỮ LIỆU 57
5.1 Giới thiệu 57
5.2 Khai phá dữ liệu trong giáo dục 58
5.3 Thuật toán Logistic Regression 59
5.4 Xây dựng mô hình dự đoán 61
5.4.1 Thu thập và chuẩn hóa dữ liệu 61
5.3.2 Tính độ ảnh hưởng của các thuộc tính 61
5.3.3 Áp dụng thuật toán khai phá dữ liệu 62
5.3.4 Kết quả và phân tích 63
5.5 Tiểu kết chương 64
TỔNG KẾT 65
1 Logistic Regression 65
2 Mạng Nơ-ron Đa Tầng (MLP) 65
3 FM-LSTM (Factorization machine - long short-term memory) 65
TÀI LIỆU THAM KHẢO 67
Trang 76
DANH MỤC HÌNH ẢNH
Hình 1.1 Học máy và khai thác dữ liệu giáo dục 11
Hình 1.2 Sơ đồ phân loại dữ liệu sinh viên 17
Hình 1.3 Kết quả phân loại dữ liệu sinh viên 17
Bảng 2.1 Độ chính xác của kết quả sử dụng phương pháp Cây quyết định 21
Bảng 2.2 Độ chính xác của kết quả sử dụng phương pháp Mạng nơ-ron 21
Bảng 2.3 Độ chính xác của kết quả sử dụng phương pháp Naive Bayes 21
Bảng 2.4 Độ chính xác của kết quả sử dụng phương pháp K lân cận gần nhất 22
Hình 2.5 Độ chính xác dự đoán được nhóm theo thuật toán từ 2002-2015 22
Bảng 2.6 Bảng độ chính xác của kết quả sử dụng phương pháp Support Vector Machine 23
Hình 3.1 Các trường hợp đào tạo và kiểm tra để dự đoán điểm theo học kỳ cụ thể của chương trình bao gồm dữ liệu từ nhóm 1 đến 3 dưới dạng đào tạo và dữ liệu từ nhóm 4 dưới dạng kiểm tra 28
Bảng 3.2 Bảng thống kê tập dữ liệu 29
Bảng 3.3 Bảng nhóm sinh viên-khóa học của nhóm mục tiêu 4 (CSS: sinh viên bắt đầu nguội, CSC: khóa bắt đầu nguội, NCS: nhóm không bắt đầu nguội) 30
Hình 3.4 Khung LSTM-FM 35
Bảng 3.5 Kết quả tổng thể (CSC: Các khóa học khởi đầu) 36
Hình 3.6 Lỗi dự đoán cho mỗi thời hạn chương trình 39
Hình 4.1 Hình minh họa một mạng MLP gồm 2 tầng ẩn và 2 tầng đầu vào và đầu ra 44
Trang 87
Hình 4.2 Lược đồ chung của giải pháp đề xuất 46
Bảng 4.3 Dữ liệu khảo sát phân bổ theo khoa 47
Hình 4.4 Mô hình quan hệ thực thể (entity relationship diagram - ERD) trích ra từ hệ thống quản lý kết quả học tập 48
Hình 4.5 Hình mô tả Kiến trúc mạng MLP được đề xuất trong dự đoán kết quả học tập 49
Bảng 4.6 Bảng mô tả thuộc tính dữ liệu đầu vào 49
Bảng 4.7 Mô tả dữ liệu đầu ra 50
Hình 4.8 Phân phối dữ liệu của tập huấn luyện 52
Hình 4.9 Phân phối dữ liệu của tập kiểm tra 52
Hình 4.10 Độ lỗi RMSE giữa các phương pháp 55
Hình 4.11 Độ lỗi MAE giữa các phương pháp 55
Bảng 5.1 Trọng số ảnh hưởng của từng thuộc tính 62
Bảng 5.2 Độ chính xác của mô hình dự đoán so với dữ liệu thực tế 63
Trang 9họ Mặt khác, Giảng viên hướng dẫn cũng có thể điều chỉnh phương pháp phân phối khóa học của họ theo kết quả dự đoán của sinh viên
Tôi xem xét bối cảnh trường đại học nơi sinh viên được yêu cầu chọn các khóa học vào đầu mỗi học kỳ của chương trình Điểm dự đoán của các khóa học đã chọn sau đó được đánh giá dựa trên điểm nhận được vào cuối học kỳ
đó Nhiệm vụ này được gọi là dự đoán điểm sinh viên kỳ tới và nó yêu cầu dữ liệu điểm của sinh viên trong khóa học trước đây để cung cấp các tính năng hữu ích để dự đoán điểm của các khóa học được thực hiện trong học kỳ tiếp theo Nhiệm vụ dự đoán điểm sinh viên kỳ tới của chúng tôi khác với các công việc dự đoán điểm sinh viên trước đó tập trung vào dự đoán điểm của học kỳ theo lịch trong đó sinh viên từ các năm nhập học khác nhau được dự đoán cùng nhau Vì các thuật ngữ chương trình khác nhau được bao gồm trong nhiệm vụ
dự đoán, rất khó để huấn luyện mô hình chuyên về các khóa học trong thời hạn chương trình cụ thể của sinh viên Trong bài này, tôi phát triển FM và bộ nhớ ngắn hạn dài kết hợp với các mô hình FM (LSTM-FM) được đào tạo theo các điều khoản chương trình của sinh viên thay vì các điều khoản lịch Các mô hình
đề xuất được đánh giá trên dữ liệu thực tế được thu thập từ một trường đại học
tự trị ở Singapore Chúng tôi tiếp tục sử dụng cả thuộc tính sinh viên và khóa học tĩnh và động để rút ra các tính năng giúp cải thiện kết quả dự đoán Ngoài
Trang 109
ra, các mô hình được đề xuất của chúng tôi có thể hoạt động tốt trong việc dự đoán cả các khóa học hiện có và bắt đầu nguội
2 Mục đích nghiên cứu
Nghiên cứu, Dự đoán điểm học kỳ tới bằng phương pháp học máy
3 Nhiệm vụ nghiên cứu
- Nghiên cứu về phương pháp học máy
- Thiết kế khung dự đoán điểm học kỳ tiếp theo
4 Đối tượng và khách thể nghiên cứu
- Đối tượng nghiên cứu: Phương pháp học máy
- Khách thể nghiên cứu: điểm số của sinh viên theo các kỳ học
5 Phương pháp nghiên cứu
- Phương pháp lí luận: Nghiên cứu, tìm hiểu các nguồn thông tin về
phương pháp học máy
- Phương pháp phân tích tổng kết kinh nghiệm: Tổng hợp các nghiên cứu
đã từng dùng phương pháp máy để rút ra được công thức hợp lý nhất
6 Cấu trúc của Khóa luận
Ngoài phần Mở đầu và Kết luận, khóa luận gồm 5 chương:
Chương 1: Tổng quan về học máy, học sâu và bài toán dự đoán
Chương 2: Một số phương pháp máy học sử dụng trong bài toán dự đoán kết quả học tập
Chương 3: Dự đoán kết quả học kỳ sau bằng phương pháp học sâu dựa trên
Trang 1110
CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY, HỌC SÂU
VÀ BÀI TOÁN DỰ ĐOÁN
Trong chương này, chúng tôi giới thiệu về một số kết quả liên quan đến ứng dụng học máy, học sâu trong các bài toán dự đoán nói chung, bài toán dự đoán kết quả học tập của sinh viên nói riêng Trong đó mục 1.1 giới thiệu về khai thác dữ liệu và phương pháp học máy, mục 1.2 trình bày về các thông tin liên quan đến tài liệu được khảo sát.Mục 1.3 đề xuất các phương pháp và phân tích kết quả của chúng Cuối chương là một số nội dung tiểu kết chương
1.1 Giới thiệu
Khai thác dữ liệu giáo dục đề cập đến các kỹ thuật khai thác dữ liệu được
sử dụng để phân tích dữ liệu giáo dục Các tổ chức giáo dục lưu trữ một lượng lớn dữ liệu để theo dõi sinh viên, giảng viên và các khóa học Dữ liệu này chứa thông tin cá nhân và học thuật về sinh viên, thông tin cá nhân và học thuật về Giảng viên, chương trình học, đề thi, thông báo và những thứ tương tự Nhiều trường đại học và các tổ chức độc lập đã bắt đầu sử dụng khai thác dữ liệu giáo dục để cải thiện cuộc sống của sinh viên và giảng viên của họ Những chiến lược này được đưa vào các chương trình ứng dụng của họ trong để chúng tương thích với cơ sở dữ liệu của họ Một vài trường hợp khai thác dữ liệu giáo dục được hiển thị bên dưới
Một trong những điều quan trọng nhất mà mọi trường học đều cần là thành tích của các sinh viên trong trường Thành tích của sinh viên có thể được dự đoán dựa trên kết quả học tập trước đây của họ Theo những phát hiện, khả năng và sở thích của sinh viên có thể được liên kết với hiệu suất của họ Theo các kết quả nghiên cứu, khả năng và sở thích của sinh viên có thể liên kết với hiệu suất học tập của họ Loại phân tích này cho phép Giảng viên tập trung nhiều hơn vào những sinh viên cần sự chú ý nhất Sự thành công của một Giảng viên thường được đo bằng thành tích của sinh viên Mỗi đơn vị phải đánh giá
Trang 1211
khả năng giảng viên của mình Giảng viên có thể được đánh giá tùy thuộc vào thành tích, nhận xét của sinh viên, v.v Loại phân tích này hỗ trợ một học viện trong việc cải thiện chất lượng giảng dạy của mình Các câu hỏi có thể được đánh giá để xác định mức độ khó khăn Những thông tin này giúp một viện đào tạo chuẩn hóa điểm của tất cả sinh viên trong các kỳ thi
Hình 1.1 Học máy và khai thác dữ liệu giáo dục
Như đã thấy trong Hình 1.1, học máy quan trọng trong khai thác dữ liệu giáo dục Nó mang lại khả năng dự báo trong lĩnh vực giáo dục Một lợi thế của phương pháp này là nó có thể xác định các truy vấn định kỳ Các câu hỏi từ các
kỳ thi cạnh tranh có thể được đánh giá để xác định trọng số trung bình của mỗi chủ đề Mỗi khóa học cung cấp một bộ sưu tập các môn học theo học kỳ hoặc hàng năm Một số vấn đề được kết nối với nhau, trong khi những vấn đề khác thì không Người ta thường thấy rằng nếu một sinh viên không học các môn cơ bản thì học kém ở các môn nâng cao Khai thác dữ liệu giáo dục hỗ trợ trong
Trang 1312
việc xác định một nhóm các nguyên tắc phụ thuộc lẫn nhau Thông tin này giúp sinh viên xác định ngành học nào là quan trọng trong tương lai
1.2 Khảo sát tài liệu
Đánh giá tài liệu là một cách tiếp cận có phương pháp để xem xét và hiểu tài liệu hiện tại đã được cung cấp cho đến nay Mục tiêu chính của việc nghiên cứu tài liệu là xác định mức độ mà một vấn đề đã được giải quyết và những giải pháp thay thế trong tương lai để cải thiện những vấn đề còn tồn tại Mọi vấn đề trong cuộc sống luôn được xử lý dần dần Giải pháp của nhà nghiên cứu được
sử dụng làm nền tảng để cải thiện nó bằng cách giảm bớt hoặc loại bỏ các ràng buộc của nó Tương tự, trong lĩnh vực nghiên cứu dựa trên khai thác dữ liệu, cần áp dụng các thuật toán hiện đại cũng như các lược đồ dữ liệu hiện đại để nâng cao hiệu quả hệ thống của chúng tôi Đôi khi các hạn chế xuất phát từ các giới hạn của các thuật toán mà chúng tôi đã sử dụng
Các hạn chế cũng có thể được quy cho các hạn chế của dữ liệu mà chúng tôi đã sử dụng Trong cả hai trường hợp, một cuộc khảo sát tốt là điều cần thiết trước khi khắc phục bất kỳ hoặc cả hai loại hạn chế này để xác định xem những cải tiến đó đã được thực hiện bởi người khác trước đó hay chưa Nếu nỗ lực nghiên cứu tương tự đã được thực hiện ở đâu đó, thì việc lặp lại nó cũng vô ích Cần phải xem xét tất cả các giải pháp trước đây đã được đề xuất để đánh giá lợi ích và hạn chế của chúng Sau đó, kiến thức thu thập được từ việc đánh giá tài liệu sẽ hỗ trợ nhà nghiên cứu xác định nhu cầu nghiên cứu Sau đó, một tập hợp các mục tiêu có thể được xác định và một hệ thống được đề xuất có thể được tạo ra để đáp ứng các mục tiêu đó
Nhiều loại và kỹ thuật đánh giá được nghiên cứu có thể tiếp cận được trong dạy và học để hỗ trợ các nhà giáo dục khám phá các kỹ thuật đánh giá xuất sắc Công nghệ hỗ trợ cũng được coi là không thể tránh khỏi và cần thiết
Trang 14Một nghiên cứu định tính và định lượng được thực hiện để hiểu rõ hơn về giá trị của mối quan hệ đối tác giữa các cơ sở giáo dục đại học và ngành công nghiệp Một số rào cản cho sự hợp tác này đã được tìm thấy, bao gồm sự miễn cưỡng thay đổi, sự già đi của các nhà giáo, sự khác biệt văn hóa, thái độ đối với sáng tạo, khuynh hướng tách biệt và cơ sở vật chất không đủ Trong số những lợi ích được ghi nhận là hiệu suất, hiệu quả và chất lượng của các sinh viên từ khía cạnh khả năng việc làm Công việc nghiên cứu tại đề cập đến quá trình học của sinh viên Chủ đề về sinh viên như đối tượng trong việc học có lợi thế của họ đã được khám phá Việc sử dụng thí nghiệm được coi là một phương pháp để động viên sinh viên trong các chủ đề của họ
Cung cấp phương pháp đánh giá chỉ số hài lòng của sinh viên dựa trên phân tích nhân tố, sau đó kiểm tra thực nghiệm và cập nhật mô hình Sự hài lòng của sinh viên được chứng minh là có mối liên hệ chặt chẽ với thiết bị giảng dạy, tài liệu (đặc biệt là E-learning), tài nguyên mạng và sự giám sát của giảng viên, hơn là tiêu chuẩn học thuật của giảng viên hoặc kỹ thuật giảng dạy Một hệ thống quản lý quá trình giảng dạy toàn diện được xây dựng và triển khai, bao gồm theo dõi và kiểm soát quá trình cùng với quản lý tài nguyên giảng dạy Hệ thống cũng bao gồm các mô-đun cho việc phân bổ tài nguyên tự động, luồng công việc, và động cơ quy tắc Một cuộc khảo sát về các kỹ thuật khai
Trang 1514
thác dữ liệu được sử dụng trong giáo dục đại học được thực hiện Họ phát hiện
ra rằng khai thác dữ liệu là một công cụ quan trọng trong kinh doanh giáo dục
vì nó hỗ trợ khám phá một số xu hướng phổ biến trong dữ liệu giáo dục liên quan đến các lĩnh vực khác nhau như quá trình dạy học Lỗ hổng nghiên cứu là không có công cụ đơn lẻ nào có thể đáp ứng nhu cầu của tất cả các hệ thống giáo dục Hơn nữa, các công nghệ này quá phức tạp để các nhà giáo dục sử dụng và phải được tích hợp vào môi trường học tập điện tử Nghiên cứu đã tìm hiểu về chất lượng của mô hình dự đoán mà các thuật toán học máy cung cấp cho quản lý giữ lại sinh viên Khi so sánh với các mô hình khác, cây quyết định đưa ra các quy tắc phân loại dễ hiểu hơn Các kết quả thực nghiệm cho thấy rằng các mô hình dự đoán tạo ra một danh sách dự đoán ngắn gọn và chính xác cho việc giữ chân sinh viên, ngoài việc xác định sinh viên đòi hỏi sự chú ý đặc biệt, do đó giảm tỷ lệ bỏ học Khoảng trống trong nghiên cứu là các điểm yếu của sinh viên dự kiến bỏ học không đủ rõ ràng để cho phép can thiệp sửa đổi kịp thời
Lỗ hổng nghiên cứu là những thiếu sót dự kiến của sinh viên bỏ học không
đủ rõ ràng để cho phép can thiệp khắc phục kịp thời Phương pháp đã điều tra
và kiểm tra tính hữu ích của một số thuật toán phân loại trong việc dự đoán thành tích học tập của sinh viên dựa trên nhiều tham số Trái ngược với các thuật toán học máy Reptree (Cây phân loại lặp lại), SimpleCart, Decision table (Bảng quyết định) và J48, người ta phát hiện ra rằng phân loại dựa trên Mạng nơ-ron có độ chính xác cao nhất, tiếp theo là các thuật toán Naive Bayes và ID3 Tuy nhiên, một kỹ thuật học máy đa chiến lược có thể khắc phục những thiếu sót của bất kỳ mô hình nào được nêu trên
Sử dụng hai phương pháp phân lớp, cây quyết định và giải thuật di truyền
mờ, để dự đoán kết quả học tập của sinh viên ở cả bằng cử nhân và thạc sĩ, đóng vai trò là cơ chế chuyển tiếp để giảng viên chú ý nhiều hơn đến những sinh viên này trước khi quá muộn Nó cũng hỗ trợ trong việc sắp xếp các sinh
Trang 1615
viên có kỹ năng trong các tổ chức có uy tín Cây quyết định tiết lộ nhiều sinh viên trong lớp nguy hiểm hơn, nhưng thuật toán di truyền tiết lộ nhiều sinh viên
ở mức độ an toàn hơn Lỗ hổng nghiên cứu là cây quyết định có cách tiếp cận
bi quan, nhưng thuật toán di truyền lại có cách tiếp cận hoàn toàn lạc quan, điều này có thể dẫn đến sự không chắc chắn khi đưa vào kết quả Các đơn vị giáo dục thiếu các biến độc đáo của từng sinh viên đã góp phần làm cho hiệu suất thấp
Khung sử dụng độc lập ID3 và C4.5 để đánh giá khảo sát đánh giá môn học và phân loại sinh viên giỏi, kém cũng như những thiếu sót trong chủ đề của các sinh viên Giảng viên hướng dẫn có lợi thế trong việc xác định những sinh viên có nguy cơ đạt thành tích thấp và thực hiện các bước kịp thời để nâng cao thành tích của họ Người ta cũng phát hiện ra rằng đối với các tập dữ liệu nhỏ,
cả hai phương pháp đều chính xác như nhau, tuy nhiên đối với các tập dữ liệu lớn, C4.5 có phần chính xác hơn ID3 Thử nghiệm xác định hiệu suất kém trong tương lai nhưng không phải là nguyên nhân cơ bản của những thiếu sót đó Một bài đánh giá về các thuật toán dự đoán như cây quyết định, C4.5, Naive Bayesian, RIPPER và SVM đã được tiến hành và so sánh kết quả hàng đầu của chúng trong một số khía cạnh khác nhau Trong các khía cạnh về tỷ lệ
dự đoán sai, độ chính xác, hiệu suất và độ nhớ, phương pháp Naive Bayes vượt trội hơn so với các phương pháp khác Tính hữu ích của các thuật toán trong quản lý chất lượng giảng dạy và học tập tại các cơ sở giáo dục cao cấp vẫn chưa được nghiên cứu
Các nhà nghiên cứu sử dụng phương pháp phân loại cây quyết định về kết quả đánh giá của sinh viên để xác định sinh viên kém nhằm tăng cường quản
lý chất lượng quá trình dạy học Lỗ hổng nghiên cứu là phương pháp này không xác định được những hạn chế cá nhân của sinh viên Một mô hình đã được phát triển đã chia thành công sinh viên thành một trong hai nhóm dựa trên thành tích của họ khi kết thúc năm học đầu tiên, cũng như xác định các biến số liên quan
Trang 1716
ảnh hưởng đến thành công của họ Mô hình này dựa trên thông tin về thành tích của sinh viên ở trường trung học và các khóa học của họ sau khi kết thúc năm học đầu tiên, cũng như thứ hạng ưu tiên dành cho các giảng viên được quan sát
và nó cố gắng phân loại sinh viên thành một trong hai nhóm tùy thuộc vào thành tích học tập của họ
1.3 Đề xuất phương pháp và phân tích kết quả
Một sơ đồ dự đoán hiệu suất sinh viên được hiển thị trong Hình 1.2 Sơ đồ này sử dụng bộ dữ liệu về hiệu suất của sinh viên làm đầu vào Tập dữ liệu sinh viên này được xử lý trước để loại bỏ nhiễu khỏi dữ liệu nhằm làm cho tập dữ liệu đầu vào nhất quán Sau đó, các thuật toán học máy khác nhau như Nave Bayes, ID3, C4.5 và SVM được áp dụng trên tập dữ liệu đầu vào Phân loại dữ liệu được thực hiện và kết quả phân loại của các thuật toán khác nhau được so sánh Trong phân tích thử nghiệm bộ dữ liệu hiệu suất của sinh viên máy móc UCI được sử dụng Tập dữ liệu này có 33 thuộc tính và 649 trường hợp Bộ dữ liệu này được tặng bởi Đại học Minho, Bồ Đào Nha Độ chính xác của các thuật toán học máy khác nhau được hiển thị bên dưới trong Hình 1.3 các thuật toán học máy đã được áp dụng trên tập dữ liệu sinh viên Các kết quả thu được về
độ chính xác của phân loại được thể hiện trong biểu đồ
Trang 1918
1.4 Tiểu kết Chương 1
Thành tích của sinh viên là một trong những tiêu chí quan trọng nhất đối với mọi trường đại học Hiệu suất của sinh viên có thể được dự đoán dựa trên kết quả học tập trước đây của họ Theo những phát hiện, tài năng và sở thích của sinh viên có thể được liên kết với hiệu suất của họ Kiểu phân tích này cho phép Giảng viên tập trung hơn vào những sinh viên cần nó nhất Thành công của một Giảng viên thường được đánh giá bằng kết quả học tập của sinh viên Mỗi trường nên đánh giá sức mạnh giảng viên của mình Giảng viên có thể được đánh giá tùy thuộc vào kết quả, nhận xét của sinh viên, v.v Loại phân tích này hỗ trợ nhà trường trong việc cải thiện chất lượng của nó chỉ dẫn Khảo sát
có thể được đánh giá để xác định mức độ khó khăn Khai thác dữ liệu giáo dục
là một tập hợp các ứng dụng khai thác dữ liệu được sử dụng trong lĩnh vực giáo dục Các chương trình này giải quyết việc phân tích dữ liệu từ sinh viên và Giảng viên Phân tích có thể được sử dụng để phân loại hoặc dự báo Các thuật toán học máy như Nave Bayes, ID3, C4.5 và SVM đang được nghiên cứu Trong cuộc điều tra thử nghiệm, một bộ dữ liệu về hiệu suất của sinh viên được
sử dụng Các thuật toán được đánh giá dựa trên các đặc điểm như độ chính xác
và tỷ lệ lỗi SVM là kỹ thuật chính xác nhất để phân loại tập dữ liệu về kết quả học tập của sinh viên
Trong Chương 1, chúng tôi đã trình bày tổng quan về học máy, học sâu đồng thời giới thiệu sơ bộ kết quả của phương pháp học máy Nave Bayes, ID3, C4.5 và SVM trong việc đánh giá độ chính xác Những kiến thức chi tiết hơn
về các phương phá học máy như Cây quyết định, mạng nơ ron… sẽ được trình bày chi tiết trong chương tiếp theo
Trang 20mô hình dự đoán, có một số nhiệm vụ được sử dụng, đó là phân loại, hồi quy
và phân loại Nhiệm vụ phổ biến nhất để dự đoán thành tích của sinh viên là phân loại Có một số thuật toán trong nhiệm vụ phân loại đã được áp dụng để
dự đoán kết quả học tập của sinh viên Trong số các thuật toán được sử dụng
có Cây quyết định, Mạng nơ-ron nhân tạo, Naive Bayes, Hàng xóm gần nhất K
và Máy vectơ hỗ trợ Tiếp theo, ứng dụng cụ thể của kỹ thuật khai phá dữ liệu nhóm theo thuật toán trong dự đoán kết quả học tập của sinh viên sẽ được trình bày trong phần tiếp theo
2.1 Decision Tree (Cây quyết định)
Cây quyết định là một trong những kỹ thuật phổ biến để dự đoán Hầu hết các nhà nghiên cứu đã sử dụng kỹ thuật này vì tính đơn giản và dễ hiểu của nó
để khám phá cấu trúc dữ liệu nhỏ hoặc lớn và dự đoán giá trị Romero et al (2008) cho rằng các mô hình cây quyết định dễ hiểu do quá trình lập luận của chúng và có thể được chuyển đổi trực tiếp thành tập luật IF-THEN Như thể hiện trong Bảng2, có khoảng mười (10) bài báo đã sử dụng Cây quyết định làm phương pháp đánh giá thành tích của sinh viên Ví dụ về các nghiên cứu trước đây sử dụng phương pháp Cây quyết định đang dự đoán các đặc điểm bỏ học của dữ liệu sinh viên về kết quả học tập , dự đoán hiệu suất học kỳ thứ ba của sinh viên MCA và cũng dự đoán nghề nghiệp phù hợp cho sinh viên thông qua các mẫu hành vi của họ Việc đánh giá hiệu suất của sinh viên dựa trên các tính năng được trích xuất từ dữ liệu đã ghi trong hệ thống dựa trên web giáo dục Các ví dụ về tập dữ liệu là điểm cuối cấp của sinh viên, điểm trung bình tích
Trang 2120
lũy cuối kỳ (CGPA) và điểm đạt được trong các khóa học cụ thể Tất cả các bộ
dữ liệu này đã được nghiên cứu và phân tích để tìm ra các thuộc tính hoặc yếu
tố chính có thể ảnh hưởng đến kết quả học tập của sinh viên Sau đó, thuật toán khai thác dữ liệu phù hợp sẽ được nghiên cứu để dự đoán kết quả học tập của sinh viên Mayilvaganan và Kapalnadevi (2014), đã so sánh các kỹ thuật phân loại để dự đoán kết quả học tập của sinh viên Trong khi đó, Grayetal (2014)
đã điều tra tính chính xác của các mô hình phân loại để dự đoán sự tiến bộ của người học trong giáo dục đại học
2.2 Neural Network (Mạng Nơ ron)
Mạng Nơ ron (Neural) là một kỹ thuật phổ biến khác được sử dụng trong khai thác dữ liệu giáo dục Ưu điểm của mạng nơ-ron là nó có khả năng phát hiện tất cả các tương tác có thể có giữa các biến dự đoán Mạng nơ-ron cũng có thể thực hiện phát hiện hoàn chỉnh mà không có bất kỳ nghi ngờ nào ngay cả trong mối quan hệ phi tuyến tính phức tạp giữa các biến phụ thuộc và biến độc lập Do đó, kỹ thuật mạng nơ-ron được chọn là một trong những phương pháp
dự đoán tốt nhất Thông qua nghiên cứu phân tích tổng hợp, tám bài báo đã được xuất bản bằng phương pháp Mạng nơ-ron Các bài báo trình bày một mô hình Mạng nơ-ron nhân tạo để dự đoán hiệu suất của sinh viên Các thuộc tính được phân tích bởi Mạng nơ-ron là dữ liệu nhập học, thái độ của sinh viên đối với việc học tập tự điều chỉnh và kết quả học tập Phần còn lại là các bài báo tương tự ngoài phương pháp Cây quyết định mà các nhà nghiên cứu đã sử dụng
cả hai kỹ thuật để so sánh cái nào là phương pháp dự đoán tốt nhất để phân tích thành tích của sinh viên Kết quả về độ chính xác của dự đoán được tóm tắt trong Bảng 2.2
Trang 2221
Bảng 2.1 Độ chính xác của kết quả sử dụng phương pháp Cây quyết định
Bảng 2.2 Độ chính xác của kết quả sử dụng phương pháp Mạng nơ-ron
2.3 Naive Bayes
Thuật toán Naive Bayes cũng là một lựa chọn để các nhà nghiên cứu đưa
ra dự đoán Trong số ba mươi bài báo, có bốn bài báo đã sử dụng thuật toán Naive Bayes để ước tính hiệu suất của sinh viên Mục tiêu của cả bốn (4) bài viết này là tìm ra kỹ thuật dự đoán hiệu quả nhất trong việc dự đoán kết quả học tập của sinh viên bằng cách so sánh Nghiên cứu của họ cho thấy Naive Bayes đã sử dụng tất cả các thuộc tính có trong dữ liệu Sau đó, nó phân tích từng thuộc tính để chỉ ra tầm quan trọng và tính độc lập của từng thuộc tính Kết quả được thể hiện trong Bảng2.3
Bảng 2.3 Độ chính xác của kết quả sử dụng phương pháp Naive Bayes
Trang 2322
2.4 K-Nearest Neighbor (Thuật toán K lân cận gần nhất)
Như mô tả trong Bảng 2.4, cả ba bài báo được nghiên cứu trong nghiên cứu này đều cho thấy K-Nearest Neighbor cho hiệu suất tốt nhất với độ chính xác cao Theo Bigdolietal (2003), phương pháp K-Nearest Neighbor tốn ít thời gian hơn để xác định kết quả học tập của sinh viên như học chậm, học trung bình, học giỏi và học giỏi K-Nearest Neighbor cung cấp độ chính xác cao trong việc ước tính mô hình chi tiết cho sự tiến bộ của người học trong giáo dục đại học
Bảng 2.4 Độ chính xác của kết quả sử dụng phương pháp K lân cận gần nhất
Hình 2.5 Độ chính xác dự đoán được nhóm theo thuật toán từ 2002-2015
2.5 Support Vector Machine (Máy véc tơ hỗ trợ)
Support Vector Machine là một phương pháp học có giám sát được sử dụng để phân loại Có ba bài báo đã sử dụng Support Vector Machine làm phương pháp dự đoán thành tích của sinh viên Hamalainen và cộng sự (2006)
đã chọn Support Vector Machine làm kỹ thuật dự đoán của họ vì nó rất phù hợp
Trang 2423
với các tập dữ liệu nhỏ Sembiring et al (2011) cho rằng Support Vector Machine có khả năng tổng quát hóa tốt và nhanh hơn các phương pháp khác Trong khi đó, nghiên cứu được thực hiện bởi Gray và cộng sự (2014) đã chứng minh rằng phương pháp Support Vector Machine đã đạt được độ chính xác dự đoán cao nhất trong việc xác định những sinh viên có nguy cơ thất bại Bảng
5 cho thấy kết quả của độ chính xác dự đoán
Bảng 2.6 Bảng độ chính xác của kết quả sử dụng phương pháp Support
Vector Machine
Chúng tôi sẽ thảo luận về phân tích kết quả của các công trình gần đây trong việc dự đoán kết quả học tập của sinh viên Phân tích tổng hợp này dựa trên các phương pháp dự đoán có độ chính xác cao nhất và cũng là những yếu
tố quan trọng chính có thể ảnh hưởng đến kết quả học tập của sinh viên Độ chính xác của dự đoán sử dụng phương pháp phân loại được nhóm theo thuật toán để dự đoán kết quả học tập của sinh viên từ năm 2002 đến 2015 Bằng cách nhìn vào đồ thị trong hình 2.5, Mạng nơ-ron có độ chính xác dự đoán cao nhất (98%), tiếp theo là Cây quyết định (91%) Tiếp theo, Support Vector Machine và K-Nearest Neighbor cho cùng độ chính xác, đó là (83%) Cuối cùng, phương pháp có độ chính xác dự đoán thấp hơn là Naive Bayes by (76%) Kết quả về độ chính xác của dự đoán phụ thuộc vào các thuộc tính hoặc tính năng đã được sử dụng trong quá trình dự đoán Phương pháp Mạng nơ-ron cho
độ chính xác dự đoán cao nhất do ảnh hưởng từ các thuộc tính chính Thuộc tính này là sự kết hợp của hai tính năng, đó là đánh giá bên trong và bên ngoài Với việc chỉ sử dụng một biến, đó là các đánh giá bên ngoài, độ chính xác sẽ giảm (1%) Biến được sử dụng nhiều thứ ba là các đánh giá nội bộ cho kết quả chính xác (81%) Nó cho thấy đánh giá bên ngoài, tức là điểm đạt được trong
Trang 2524
kỳ thi cuối kỳ, đóng một vai trò quan trọng trong việc dự đoán kết quả học tập của sinh viên Trong khi, biến có ý nghĩa tác động ít nhất đến kết quả học tập của sinh viên là các yếu tố tâm lý với độ chính xác chỉ (69%) Các yếu tố tâm
lý thường sử dụng dữ liệu định tính nên thuật toán Mạng nơ-ron khó đưa ra dự đoán thay vì sử dụng dữ liệu định lượng Tuy nhiên, phương pháp Neural Network vẫn có ít lỗi dự đoán tối đa hơn Sai số dự đoán tối đa nhỏ hơn (10%) Một ưu điểm khác của Neural Network là khả năng nắm bắt các mối quan hệ phi tuyến tính một cách dễ dàng Nó còn được gọi là hệ thống thích ứng do khả năng dễ dàng cập nhật dữ liệu lịch sử giống như bộ não con người Vì vậy, mô hình luôn hoạt động ngoài cơ sở tri thức Ngoài ra, điểm mạnh của mạng nơ-ron là khả năng học hỏi từ một tập hợp dữ liệu hạn chế Độ chính xác dự đoán cao thứ hai là phương pháp Cây quyết định bởi (91%) độ chính xác về hiệu suất Trong phương pháp Cây quyết định, yếu tố mang lại độ chính xác cao nhất trong việc dự đoán kết quả học tập của sinh viên là CGPA Có hai nghiên cứu khác ủng hộ tuyên bố này khi chúng bao gồm CGPA làm tính năng chính của chúng, dự đoán kết quả là khoảng (90%) độ chính xác về hiệu suất Có thể kết luận rằng Cây quyết định có thể xử lý cả dữ liệu số và dữ liệu phân loại, hoạt động tốt trong tập dữ liệu lớn và dễ hiểu, diễn giải được mối quan hệ giữa các biến Bên cạnh đó, thuộc tính ít quan trọng hơn trong việc dự đoán kết quả học tập của sinh viên là các yếu tố tâm lý với kết quả chính xác chỉ (65%) Nó cho thấy rằng Cây quyết định không phù hợp để dự đoán hiệu suất của sinh viên bằng cách sử dụng các biến tâm lý Tiếp theo là Support Vector Machine với hiệu suất chính xác khoảng (83%) Dựa trên kết quả phân tích, yếu tố tâm lý là thuộc tính phù hợp nhất để dự đoán kết quả học tập của sinh viên bằng phương pháp Support Vector Machine Tuy nhiên, kết quả giảm xuống (73%) độ chính xác về hiệu suất khi các hoạt động ngoại khóa được đưa vào như một tính năng khác Ngược lại, K-Nearest Neighbor cho thấy độ chính xác cao (83%) với sự kết hợp của ba thuộc tính là đánh giá nội bộ, CGPA và các hoạt động ngoại
Trang 2625
khóa trong việc dự đoán kết quả học tập của sinh viên Khi so sánh với 2 phương pháp còn lại là Decision Tree và Nave Bayes thì kết quả chính xác thấp hơn so với phương pháp KNearest Neighbor Một nghiên cứu khác cũng sử dụng các hoạt động ngoại khóa làm thuộc tính, tuy nhiên họ đã kết hợp nó với các thuộc tính khác nên độ chính xác của dự đoán cao hơn so với việc chỉ sử dụng một thuộc tính Cuối cùng, phương pháp có độ chính xác dự đoán thấp nhất là Naive Bayes theo (76%) Các biến được sử dụng là CGPA, nhân khẩu học của sinh viên, nền tảng trường trung học, học bổng, tương tác mạng xã hội Tất cả các thuộc tính này cũng được sử dụng trong phương pháp Mạng nơ-ron và phương pháp Cây quyết định nhưng kết quả cho thấy Naive Bayes cho độ chính xác cao nhất so với Mạng nơ-ron và Cây quyết định Điều này là do các thuộc tính được
sử dụng có ý nghĩa với nhau khi sử dụng Naive Bayes làm phương pháp dự đoán
Trang 2726
2.6 Tiểu kết chương 2
Dự đoán kết quả học tập của sinh viên rất hữu ích để giúp các nhà giáo dục và người học cải thiện quá trình học tập và giảng dạy của họ Trong chương này chúng tôi đã xem xét các nghiên cứu trước đây về dự đoán kết quả học tập của sinh viên bằng các phương pháp phân tích khác nhau Hầu hết các nhà nghiên cứu đã sử dụng điểm trung bình tích lũy (CGPA) và đánh giá nội bộ làm
bộ dữ liệu Trong khi đối với các kỹ thuật dự đoán, phương pháp phân loại thường được sử dụng trong lĩnh vực khai thác dữ liệu giáo dục Theo các kỹ thuật phân loại, Mạng nơ-ron và Cây quyết định là hai phương pháp được các nhà nghiên cứu sử dụng nhiều để dự đoán hiệu suất của sinh viên
Trong chương 2 này, chúng tôi đã giới thiệu về các phương pháp học máy Cây quyết định, mạng nơ ron, Thuật toán K lân cận gần nhất, Naive Bayes, Máy véc tơ hỗ trợ Trong chương tiếp theo, chúng tôi sẽ triển khai bằng phương pháp học sâu dựa trên mô hình LSTM-FM để dự đoán kết quả học kỳ sau
Trang 28sơ qua về số liệu của sinh viên, các khóa học và ở mục 3.2 được giải thích rõ cụ thể
về các bộ số liệu và tính năng Mục 3.3 chúng tôi giới thiệu máy nhân tố hóa (FM)
và mô hình LSTM-FM, sang mục 3.4 chúng tôi đưa ra số liệu đánh giá, phương pháp đánh giá và kết quả dự đoán
3.1 Giới thiệu
Cho một tập hợp sinh viên S={S1, S2, , S|S|}, trong đó mỗi sinh viên thuộc
về một nhóm nhất định, được biểu thị bằng đội quân (Si) (tức là đợt sinh viên nhập học vào trường đại học trong cùng một năm) Để tốt nghiệp chương trình của họ, sinh viên phải hoàn thành t={t1, t2, , t|T|}các điều khoản của chương trình và đăng ký một hoặc nhiều khóa học trong mỗi điều khoản của chương trình Cho phép C= {c1, c2,··· ,c|C|}là tập hợp tất cả các khóa học được thực hiện bởi các sinh viên từ S Tôi biểu thị điểm đạt được của sinh viên trong khóa họ j∈ {A+, A, ··· ,F} Nhiệm vụ của chúng tôi sau đó là dự đoán mỗi sinh viên từ một nhóm sinh viên mục tiêu trong thời hạn chương trình mục tiêu tK cho mỗi khóa sinh viên viên đã đăng ký trong thời hạn chương trình tk Tôi giả định rằng điểm của khóa học cho các học kỳ chương trình trước đó của cùng các sinh viên có sẵn và có thể quan sát được điểm của khóa học cho các sinh viên từ các nhóm trước đó trong các học kỳ sớm hơn và mục tiêu
Trang 2928
Hình 3.1 Các trường hợp đào tạo và kiểm tra để dự đoán điểm theo học kỳ cụ thể của chương trình bao gồm dữ liệu từ nhóm 1 đến 3 dưới dạng đào tạo và
Hình 3.1 minh họa các trường hợp đào tạo và kiểm tra dự đoán điểm học
kỳ tiếp theo cho sinh viên của nhóm 4 trong học kỳ 1 đến 3 của chương trình mục tiêu Đối với học kỳ 3 của chương trình mục tiêu (xem bảng cuối cùng của hình), dữ liệu đào tạo bao gồm khóa học của sinh viên dữ liệu của các sinh viên
từ nhóm 1 đến 3 Biểu diễn đặc trưng của cặp sinh viên-khóa học được lấy từ thuật ngữ chương trình 1 đến 2 của những sinh viên này hoặc từ dữ liệu thuộc tính khóa học và sinh viên thuật ngữ không thuộc chương trình (ví dụ: trình độ học vấn của sinh viên, khóa học chính, v.v.)
Cách tiếp cận dự đoán điểm theo học kỳ cụ thể của chương trình này trực quan hơn các công trình trước đây tập trung vào dự đoán điểm cho sinh viên tham gia các khóa học trong cùng một học kỳ theo lịch, có thể liên quan đến các học kỳ chương trình khác nhau cho sinh viên từ các nhóm khác nhau Do điểm của sinh viên ở các thuật ngữ chương trình khác nhau đề cập đến các tập hợp khóa học khác nhau, cách tiếp cận giải pháp và định nghĩa vấn đề của
Trang 3029
chúng tôi đảm bảo rằng các tính năng cặp và nhãn sự thật cơ bản cho dữ liệu kiểm tra của thuật ngữ chương trình mục tiêu tuân theo phân phối dữ liệu giống như dữ liệu huấn luyện
3.2 Bộ số liệu và tính năng
3.2.1 Mô tả tập dữ liệu
Bộ dữ liệu được thu thập từ một trường đại học tự trị ở Singapore bao gồm bốn nhóm liên tiếp (2011-2014) gồm các sinh viên đại học từ cùng một chương trình cấp bằng Sinh viên bắt buộc phải hoàn thành 8 học kỳ của chương trình Bảng 3.2 cho thấy số liệu thống kê tập dữ liệu Nó bao gồm 618 sinh viên và
691 khóa học Tổng cộng, chúng tôi có 19.655 cặp khóa sinh viên viên liên quan đến điểm số, được gọi là cặp sinh viên-khóa học Sinh viên từ nhóm 4 được sử dụng làm nhóm thử nghiệm để cho phép sử dụng nhiều dữ liệu hơn trong quá trình đào tạo Trường đại học triển khai 12 chữ cái chấm điểm được quy đổi thành các giá trị số để dự đoán điểm như sau A+, A, A-, B+, B, B-, C+,
C, C-, D+, D và F được ánh xạ tới 4.3, 4.0, 3.7, 3.3, 3.0, 2.7, 2.3, 2.0, 1.7, 1.3, 1.0 và 0.0 tương ứng
Bảng 3.2 Bảng thống kê tập dữ liệu
Trang 313.2.2 Đặc điểm của Sinh viên, Khóa học
"Đặc điểm sinh viên tĩnh": đề cập đến các đặc điểm hoặc thuộc tính của một sinh viên không thay đổi theo thời gian và không liên quan đến bất kỳ giai đoạn cụ thể nào trong chương trình giáo dục Những đặc điểm này thường bao gồm các khía cạnh như chuyên ngành của sinh viên, giới tính, trường cũ (nơi sinh viên trước đây đã học), và khóa học (nhóm sinh viên cùng nhập học vào một chương trình)
Trang 3231
Nét sinh viên năng động: Đây là những đặc điểm của sinh viên bắt nguồn
từ dữ liệu và giá trị của chúng có thể khác nhau trong các điều khoản chương trình mục tiêu khác nhau Các tính năng này đặc biệt hữu ích để xác định thành tích mới nhất và khối lượng học tập của sinh viên, chẳng hạn như điểm trung bình của sinh viên trong học kỳ chương trình trước ( điểm trung bình cuối kỳ)
và cho đến thời hạn chương trình trước đó (kỳ hạn kiêm gpa), số đơn vị tín chỉ (CU) mà sinh viên nhận được cho đến học kỳ trước của chương trình (tổng số giờ) và được đăng ký trong thời hạn chương trình mục tiêu (thuật ngữ chrs), số
CU trung bình cho mỗi học kỳ chương trình do một sinh viên thực hiện (tốc độ), số lượng khóa học mà một sinh viên tham gia trong mỗi môn học cho đến học kỳ chương trình mục tiêu (phân phối đĩa), CU tương đối mà một sinh viên đạt được so với tất cả sinh viên trong cùng một nhóm (tổng số rel) và tương đối
kỳ hạn kiêm gpa của một sinh viên so với của đoàn hệ (liên quan đến cgpa) Tính năng khóa học tĩnh: Đây là những tính năng của một khóa học cj không thay đổi theo thời gian: kỷ luật của khóa học (đĩa), CU (chrs), và mức (trình độ)
Tính năng khóa học năng động: Đây là những tính năng của một khóa học
cj thay đổi theo thời gian: người hướng dẫn của cj (iid), số sinh viên tham gia cjtrong thời hạn chương trình mục tiêu (số đã đăng ký) và trong tất cả các điều khoản chương trình trước đó (tổng số ghi danh), điểm trung bình ( thuật ngữ cgrade) và phân bố điểm (thuật ngữ hạ cấp) thu được bởi các sinh viên của nhóm trước đó khi họ lấy cjtrong học kỳ chương trình mục tiêu, điểm trung bình (học kỳ kiêm cấp) và phân bố điểm (kỳ hạn kiêm dgrade) thu được bởi các sinh viên của cùng một nhóm và các nhóm trước đó khi họ tham gia cj trong bất kỳ điều khoản chương trình nào trong quá khứ
Các tính năng tương tác giữa sinh viên và khóa học: Như chúng tôi đã biết sinh viên nào học khóa học nào cj trong chương trình mục tiêu nhưng không phải lớp, chúng tôi có thể khai thác thông tin này để rút ra một số tính năng
Trang 333.3 Phương pháp đề xuất
Hai phương pháp được đề xuất cho nhiệm vụ dự đoán điểm học kỳ tiếp theo, cụ thể là Máy nhân tố hóa (FM) và Bộ nhớ dài hạn và ngắn hạn tích hợp với FM (LSTM-FM) Cái trước thường được sử dụng cho các nhiệm vụ đề xuất Cái sau là một mô hình trình tự kết hợp với FM để dự đoán điểm của các khóa học trong mỗi học kỳ của chương trình
3.3.1 Máy nhân tố hóa (FM)
Máy nhân tố hóa (FM) là một mô hình học máy được sử dụng để dự đoán giá trị đầu ra (output) dựa trên các đặc trưng đầu vào (input) FM hoạt động bằng cách mô hình hóa các tương tác giữa các đặc trưng này, đặc biệt là trong các bộ dữ liệu có đặc điểm về tính tương tác cao
Cụ thể, một mô hình FM thường bao gồm hai thành phần chính:
Tính tuyến tính: Đây là phần của mô hình mô tả mối quan hệ tuyến tính giữa các đặc trưng Trong phần này, mỗi đặc trưng được gán một trọng số tuyến tính riêng để biểu diễn ảnh hưởng của nó đến dự đoán cuối cùng
Tính phi tuyến tính (Factorization): Phần này mô tả mối quan hệ phi tuyến tính giữa các đặc trưng bằng cách sử dụng kỹ thuật phân rã ma trận Cụ thể, mỗi đặc trưng được biểu diễn bằng một vector nhân tử (factor vector), và
sự tương tác giữa các đặc trưng được mô hình hóa thông qua các tích vô hướng của các vector này
Cách thức hoạt động của FM như sau:
Trang 3433
Huấn luyện: Trong quá trình huấn luyện, mô hình sẽ điều chỉnh các trọng
số tuyến tính và các vector nhân tử để tối ưu hóa một hàm mất mát (loss function) dựa trên dữ liệu huấn luyện Quá trình này thường được thực hiện thông qua các thuật toán tối ưu hóa như Gradient Descent
Dự đoán: Sau khi huấn luyện, mô hình có thể được sử dụng để dự đoán giá trị đầu ra cho các mẫu dữ liệu mới bằng cách tính toán tổng của tính tuyến tính và tính phi tuyến tính của các đặc trưng
Đánh giá: Cuối cùng, mô hình có thể được đánh giá dựa trên hiệu suất
dự đoán của nó trên tập dữ liệu kiểm tra hoặc bằng cách sử dụng các phép đo đánh giá như RMSE (Root Mean Square Error) hoặc AUC (Area Under Curve)
v là vector tương ứng với đặc trưng thứ k (k=1,2, ,p)
Phần thứ hai của công thức biểu diễn tất cả các tương tác hai chiều giữa các đặc trưng Cụ thể, nó tính toán sự tương tác giữa từng cặp đặc trưng và kết hợp chúng lại với nhau thông qua các vector v k Điều này cho phép FM học được cả các tương tác tuyến tính và phi tuyến tính giữa các đặc trưng, giúp cải thiện khả năng dự đoán
Tóm lại, FM là một mô hình mạnh mẽ để mô hình hóa các tương tác phức tạp giữa các đặc trưng đầu vào trong các bộ dữ liệu có tính tương tác cao,
và nó có thể được áp dụng trong nhiều ứng dụng khác nhau như hệ thống đề xuất, dự đoán cá nhân hóa và quảng cáo trực tuyến
Trang 3534
3.3.2 Mô hình LSTM-FM
Mô hình LSTM-FM là sự kết hợp giữa mạng nơ-ron dài và ngắn hạn (Long Short-Term Memory - LSTM) và máy nhân tố hóa (Factorization Machine - FM) Mô hình này kết hợp sự linh hoạt của LSTM trong việc xử lý
dữ liệu dạng chuỗi và khả năng mô hình hóa các tương tác phi tuyến tính giữa các đặc trưng
Cụ thể, mô hình LSTM-FM thường bao gồm hai phần chính:
Phần LSTM: LSTM được sử dụng để mô hình hóa dữ liệu dạng chuỗi hoặc có cấu trúc thời gian LSTM có khả năng ghi nhớ thông tin từ quá khứ trong một chuỗi dài và sử dụng thông tin đó để dự đoán giá trị tiếp theo trong chuỗi Điều này làm cho nó phù hợp cho các bài toán như dự đoán chuỗi thời gian, xử lý ngôn ngữ tự nhiên, và nhiều ứng dụng khác
Phần FM: FM được sử dụng để mô hình hóa các tương tác giữa các đặc trưng không có cấu trúc thời gian FM có thể mô hình hóa các tương tác phi tuyến tính giữa các biến đầu vào một cách linh hoạt và hiệu quả
Cách thức hoạt động của mô hình LSTM-FM thường là:
Đầu vào được chia thành hai phần: một phần được đưa vào phần LSTM
để xử lý dữ liệu dạng chuỗi, và một phần khác được đưa vào phần FM để mô hình hóa các tương tác giữa các đặc trưng không có cấu trúc thời gian
Các đặc trưng trong phần FM có thể là các đặc trưng tĩnh (như giới tính, tuổi, ) hoặc đặc trưng động (như thông tin từ chuỗi thời gian trước đó)
Đầu ra của mỗi phần được kết hợp lại để tạo ra dự đoán cuối cùng
Mô hình LSTM-FM thường được áp dụng trong các lĩnh vực như dự đoán chuỗi thời gian, dự đoán cá nhân hóa và các ứng dụng có dữ liệu có cấu trúc và không có cấu trúc đồng thời Đặc biệt, mô hình này phù hợp với các bài toán mà dữ liệu có tính chất phức tạp và đa dạng
Trang 36RMSE đo lường sự chênh lệch giữa điểm dự đoán và điểm thực tế bằng cách tính căn bậc hai của trung bình bình phương của các sai số Điều này có ý nghĩa là RMSE phạt những phương pháp dự đoán tạo ra sai số lớn hơn mức trung bình Nó thường được sử dụng để đánh giá các phương pháp dự đoán trong trường hợp nơi các sai số lớn được coi là không mong muốn và cần được giảm thiểu
MAE đo lường sự chênh lệch trung bình giữa điểm dự đoán và điểm thực
tế bằng cách tính trung bình tuyệt đối của các sai số Điều này có nghĩa là MAE cung cấp một con số trung bình cho sự chênh lệch giữa dự đoán và thực tế mà không quan tâm đến hướng của sai số Nó thường được sử dụng khi việc xác
Trang 373.4.2 Phương pháp đánh giá
Chúng tôi tập trung vào việc đánh giá FM và LSTM-FM với các đặc trưng được định nghĩa trong Phần 3 Có một số biến thể cho cả hai phương pháp tùy thuộc vào việc sử dụng những đặc trưng nào: FM và LSTM-FM mà không có bất kỳ đặc trưng nào ngoài id sinh viên và id môn học cũng được bao gồm (FM và LSTM-FM không có đặc trưng)
Bảng 3.5 Kết quả tổng thể (CSC: Các khóa học khởi đầu)