Ma trận nhầm lẫn trong phân loại dữ liệu bằng giải thuật SVM

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 100 - 106)

Predicted classes

Actual classes 22

Quá trình truy vấn, phân loại, tìm kiếm ngữ nghĩa được thực hiện như lưu đồ cấu trúc hệ thống tìm kiếm ngữ nghĩa ở Hình 4.2. Trong nghiên cứu này, một hệ thống thực nghiệm được xây dựng chạy trên python để thực hiện các bước tiền xử lý query tìm kiếm, sau đĩ một chương trình chạy trên Java dùng để gọi mơ hình phân loại đã được xây dựng sẵn để phân loại query thuộc lớp nào, sau đĩ thực hiện tìm kiếm trên ontology tương ứng trước khi trả kết quả tìm kiếm về cho người dùng. Sơ đồ hệ thống được mơ tả như Hình 4.6.

Hình 4.6: Sơ đồ hệ thống tìm kiếm ngữ nghĩa

Hệ thống được xây dựng sử dụng nhiều cơng cụ, phần mềm. Cụ thể, Java 8 và Python 3.7 là hai ngơn ngữ lập trình; mơi trường lập trình là IDE Spring Tool Suite 3.9; Jena dùng làm thư viện để thao tác với Ontology; Spring MVC Framewrok cung cấp kiến trúc MVC (Model-View-Controller) và các component được sử dụng để phát triển

các ứng dụng web; thực hiện huấn luyện dữ liệu để tạo ra mơ hình phân loại bằng cơng cụ Weka 3.8. Ngồi ra, VnTokenizer cũng sử dụng làm cơng cụ tách từ tiếng Việt; Weka API tích hợp kết quả phân loại vào ứng dụng.

Một ví dụ về kết quả tìm kiếm khi nhập từ khĩa “Tầng presentaion” được minh họa như Hình 4.7.

Hình 4.7: Minh họa về một kết quả tìm kiếm

4.4. Tăng tốc xử lý dữ liệu tìm kiếm bằng kỹ thuật xử lý dữ liệu lớn

Dựa trên các kết quả nghiên cứu trước đây, giải pháp tăng tốc xử lý dữ liệu phục vụ cho tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn được thử nghiệm. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF, biểu diễn văn bản dưới dạng khơng gian véc-tơ, tính độ tương đồng cosine để đo mức độ tương đồng của các từ khĩa trong tài liệu nhằm trả về tài liệu cĩ độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song song rút ngắn khá nhiều thời gian xử lý dữ liệu tìm kiếm so với tìm kiếm truyền thống trong khi độ chính xác khơng thay đổi. Nội dung này được trình bày chi tiết ở Phụ lục 1 của luận án.

4.5. Tổng kết chương

Trong chương này, cách tiếp cận tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản được đề xuất, đĩ là sự kết hợp của độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản. Bên cạnh đĩ, giải pháp tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology cũng được đề xuất. Một giải pháp sử dụng nền tảng Hadoop MapReduce cũng được đề xuất nhằm tăng tốc độ xử lý dữ liệu tìm kiếm. Đối với bài tốn tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, thực nghiệm được triển khai để tính độ tương đồng của một bài báo khoa học gửi đăng với các bài báo đã xuất bản trước đĩ và độ tương đồng giữa hai bài báo cần so sánh. Đối với vấn đề đặt ra là tìm kiếm tài nguyên học tập cĩ giải quyết vấn đề ngữ nghĩa, các giáo trình, bài giảng thuộc 4 lĩnh vực của cơng nghệ thơng tin được sử dụng để làm thực nghiệm cho mơ hình tìm kiếm dựa trên mạng ngữ nghĩa ontology, trong đĩ cĩ kế thừa vấn đề phân loại tài nguyên học tập của chương trước nhằm thu hẹp khơng gian tìm kiếm. Giải pháp tăng tốc xử lý dữ liệu cũng được thử nghiệm nhằm phục vụ cho tìm

kiếm tài nguyên học tập dựa trên các kỹ thuật xử lý dữ liệu lớn giúp cho quá trình xử lý dữ liệu nhanh hơn nhờ sức mạnh của xử lý song song và phân tán của một cụm máy tính. Kết quả thực nghiệm cho thấy, các giải pháp, mơ hình đề xuất là khả thi để áp dụng cho tìm kiếm thơng tin sự kết hợp của độ tương đồng ngữ nghĩa và dựa trên mạng ngữ nghĩa ontology, cũng như khả năng tăng tốc độ xử lý dữ liệu tìm kiếm.

Từ kết quả tìm kiếm, vấn đề đặt ra là làm thế nào để gợi ý tài nguyên học tập phù hợp với năng lực người học. Trước khi đề cập đến giải pháp gợi ý tài nguyên học tập, chương tiếp sẽ đề xuất các mơ hình dự đốn kết quả học tập, làm tiền đề cĩ thể sử dụng cho gợi ý tài nguyên học tập phù hợp với từng người học.

CHƯƠNG 5. MƠ HÌNH DỰ ĐỐN KẾT QUẢ HỌC TẬP

Như đã đề cập, dự đốn kết kết quả học tập làm tiền đề cĩ thể sử dụng cho gợi ý tài nguyên học tập phù hợp với năng lực người học. Vì vậy, xây dựng mơ hình dự đốn kết quả học tập là rất cần thiết, từ đĩ giúp người học chọn lựa tài nguyên, mơn học nào phù hợp với mình.

Trong chương này, các mơ hình dự đốn kết quả học tập với ba cách tiếp cận dựa trên các kỹ thuật học sâu được đề xuất, gồm xây dựng mơ hình dự đốn cho tồn bộ sinh viên sử dụng mạng nơ-ron tích chập CNN, mơ hình dự đốn theo nhĩm năng lực học tập sử dụng mạng nơ-ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mơ hình dự đốn theo từng sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Ngồi ra, kỹ thuật tiền xử lý dữ liệu QTF trước khi đưa vào mơ hình học dự đốn cũng được trình bày. Kết quả các thực nghiệm cho thấy các mơ hình được đề xuất cho kết quả dự đốn khá tốt, cĩ thể áp dụng vào các trường hợp thực tế.

Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT6 (Dien, Tran Thanh and Hai, Nguyen Thanh et al., 2020), CT7 (Dien, Tran Thanh and Hoai-Sang, Luu et al., 2020), CT8 (Dien and Duy-Anh et al., 2021) và CT9 (Dien and Phuoc et

al., 2021).

5.1. Giới thiệu

Kết quả học tập của sinh viên cĩ thể được đo lường thơng qua kết quả đánh giá, chương trình giảng dạy, cũng như việc tốt nghiệp và cĩ việc làm sau khi tốt nghiệp (Mat et al., 2013; Shahiri et al., 2015; Rastrollo-Guerrero et al., 2020). Kết quả học tập của sinh viên là vấn đề quan trọng đối với các cơ sở giáo dục đại học vì đây là tiêu chí đánh giá chất lượng của các viện, trường, đặc biệt trong bối cảnh các trường đang triển khai đào tạo theo học chế tín chỉ thì việc quan tâm đến kết quả học tập của sinh viên càng được coi trọng.

Thời gian gần đây, số lượng sinh viên bị cảnh báo học vụ và buộc thơi học cĩ xu hướng gia tăng. Chẳng hạn, ở Trường Đại học Cần Thơ, trong học kỳ I năm học 2018- 2019, số sinh viên bị cảnh báo học vụ một học kỳ là 886 sinh viên và hai học kỳ là 125 sinh viên, con số này trong học kỳ I năm học 2019-2020 lần lượt là 986 và 196. Một trong những nguyên nhân tình trạng bị cảnh báo học vụ là do sinh viên chưa chọn đúng các mơn học phù hợp. Điều này dẫn đến việc học tập bị kéo dài, làm tăng chi phí cho gia đình, nhà trường và xã hội. Vì vậy, dự đốn kết quả học tập của sinh viên là một chủ đề nghiên cứu quan trọng trong việc khai thác dữ liệu giáo dục, được nhiều nhà nghiên cứu quan tâm.

Hiện nay, cĩ một số cách tiếp cận được đề xuất để dự đốn kết quả học tập của sinh viên. Một số tiếp cận được đề xuất để giải quyết vấn đề dự đốn dựa trên lọc cộng tác như kNN, Matrix Factorization (MF), Biased Matrix Factorization (BMF) để dự

đốn kết quả năng lực học tập của sinh viên (Rendle and Schmidt-Thieme, 2008; Koren et al., 2009; Huynh-Ly and Thai-Nghe, 2013). Ngồi ra, việc ứng dụng các kỹ thuật của hệ thống gợi ý để dự đốn năng lực học tập của sinh viên trong hệ trợ giảng thơng minh cũng được đề xuất (Nguyen Thai-Nghe et al., 2012; Thai-Nghe and Schmidt-Thieme, 2015). Tuy nhiên, các nghiên cứu này thường dự đốn trên tồn bộ tập dữ liệu sinh viên và sử dụng các kỹ thuật truyền thống, chưa dự đốn theo nhĩm năng lực học tập hay dự đốn theo từng cá nhân người học. Ngồi ra, với các tập dữ liệu giàu các thuộc tính thì cần nghiên cứu giải pháp kỹ thuật mới, đặc biệt là các kỹ thuật học sâu để dự đốn hiệu quả và chính xác hơn.

Trong chương này, các cách tiếp cận dự đốn kết quả học tập theo ba mơ hình đã được trình bày, gồm: (1) Mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên sử dụng mạng nơ-ron tích chập CNN; (2) Mơ hình dự đốn kết quả học tập theo nhĩm năng lực học tập sử dụng mạng nơ-ron truyền thẳng đa tầng MLP; (3) Mơ hình dự đốn kết quả học tập theo từng sinh viên sử dụng mạng LSTM. Ngồi ra, kỹ thuật tiền xử lý dữ liệu QTF trước khi đưa vào mơ hình học dự đốn giúp cho các mơ hình học sâu hội tụ tốt hơn cũng được giới thiệu. Kết quả thực nghiệm cho thấy các mơ hình đề xuất cho kết quả dự đốn khá tốt và nĩ cĩ thể được áp dụng trong các trường hợp thực tế khác.

Nội dung tiếp theo của nghiên cứu này gồm: các mơ hình được đề xuất bằng kỹ thuật học sâu để dự đốn kết quả học tập, mơ tả dữ liệu thực nghiệm của từng mơ hình, các kết quả thực nghiệm và cuối cùng là tổng kết chương và một vài nhận xét.

5.2. Khái quát về dự đốn kết quả học tập

Kết quả học tập của sinh viên là một phần thiết yếu trong các cơ sở giáo dục, đặc biệt là giáo dục đại học. Đây là một trong những tiêu chí quan trọng của một trường đại học chất lượng cao. Tuy nhiên, thời gian gần đây, tình trạng một số sinh viên ở các trường cĩ kết quả học tập sa sút, dẫn đến bị cảnh báo học vụ hoặc buộc thơi học đang cĩ chiều hướng gia tăng. Vì vậy, dự đốn kết quả học tập của sinh viên là một chủ đề nghiên cứu quan trọng trong khai thác dữ liệu giáo dục được nhiều nhà nghiên cứu quan tâm (Guo et al., 2015, Tanuar et al., 2018, Altabrawee et al., 2019).

Cĩ nhiều định nghĩa về dự đốn kết quả học tập. Một cách tổng quát, dự đốn kết quả học tập là việc dự đốn khả năng của sinh viên (chẳng hạn như điểm mơn học đạt được) khi giải quyết các nhiệm vụ và yêu cầu được đặt ra bởi người dạy thơng qua tương tác trực tiếp hoặc hệ thống dạy học (Nguyen Thai-Nghe et al., 2012).

Dự đốn kết quả học tập cĩ thể cĩ nhiều cách tiếp cận khác nhau tùy theo nhu cầu dự đốn, dữ liệu sẵn cĩ. Việc dự đốn cĩ thể dựa trên hồ sơ cá nhân (demographic information) hoặc dựa trên kỹ thuật của hệ thống gợi ý (RS).

5.2.1. Dự đốn kết quả học tập dựa trên hồ sơ cá nhân

Phương pháp này dựa trên thơng tin nhân khẩu học như độ tuổi, giới tính, hộ khẩu... để dự đốn kết quả học tập của người học (điểm từng mơn học hoặc điểm trung bình học kỳ...). Ta gọi:

xi (i = 1...n): là các thuộc tính liên quan đến người học.

Trong đĩ, x

y: là điểm mơn học, điểm trung bình học kỳ...

là điể m cầ n dự đốn. Nghiê n c ứu này dự đốn điể m mơ n học của người học dựa vào

Ta cần xây dựng mơ hình dự đốn sao cho:

thuộc tính cĩ sẵn.

5.2.2. Dự đốn kết quả học tập theo kỹ thuật lọc cộng tác của hệ thống gợi ý

Dựa vào kỹ thuật lọc cộng tác của hệ thống gợi ý, bài tốn dự đốn kết quả học tập được phát biểu (problem formulation) như sau: Gọi u (user) là người học (để bảo mật thơng tin thì thơng tin người học được sử dụng dạng mã số, chẳng hạn StudentID);

i (item) là mơn học mà người học tham gia học (item ở đây là mã mơn học CourseID); r (rating) là điểm mà người học đạt được. Một cách tổng quát, bài tốn dự đốn kết

quả học tập cĩ thể được ánh xạ thành vấn đề dự đốn xếp hạng trong hệ thống gợi ý, được biểu diễn như sau:

Người học → User Mơn học → Item Điểm → Ratings

Cho trước một tập dữ liệu D(u, i, r), chúng ta cần xây dựng mơ hình dự đốn nhằm dự đốn kết quả học tập của người học (điểm mơn học, điểm trung bình...).

Chương này dự đốn kết quả mơn học của người học, cụ thể là sinh viên ở một trường đại học, sử dụng phương pháp như mục 5.2.1, tức là dựa vào dữ liệu của các thuộc tính liên quan tới người học để dự đốn kết quả mơn học. Phương pháp ở mục 5.2.2 sẽ được trình bày ở chương tiếp theo về gợi ý tài nguyên học tập.

Tiếp theo, chúng tơi trình bày ba cách tiếp cận dự đốn kết quả học tập của sinh viên gồm dự đốn dựa trên tồn bộ sinh viên, dự đốn trên nhĩm sinh viên cĩ cùng năng lực học tập và dự đốn theo từng sinh viên.

5.3. Mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên5.3.1. Mơ hình đề xuất 5.3.1. Mơ hình đề xuất

Trong nghiên cứu này, kiến trúc học sâu mạng nơ-ron tích chập (CNN) để thực hiện bài tốn dự đốn kết quả học tập của sinh viên (hay người học nĩi chung) được sử dụng. Mạng CNN xây dựng mơ hình dự đốn được chọn vì kỹ thuật này sử dụng khá tốt

cho mơ hình dự đốn với dạng dữ liệu một chiều (1D) và cĩ tính tuần tự theo thời gian (Brownlee, 2018).

Kiến trúc học sâu sử dụng một mạng nơ-ron tích chập CNN trên dữ liệu một chiều cĩ dạng như Hình 5.1. Kiến trúc này nhận đầu vào gồm một chuỗi dữ liệu với 21 thuộc tính đi qua lớp tích chập đầu tiên sử dụng 64 kernels kích thước 3 với bước trượt (stride) là 1.

Hình 5.1: Kiến trúc CNN đề xuất

Kết quả sau lớp tích chập sẽ gồm 64 feature map với độ dài 19 sẽ đi qua hàm ReLU biến các giá trị âm thành 0 và được trải ra thành một mảng với độ dài 1216. Mảng gồm 1216 giá trị này sẽ được tính tốn với hàm sigmoid để cho đầu ra là giá trị từ 0 đến

1.Giá trị này được nhân với 4 để tương ứng với thang điểm 4 thực tế cần dự đốn.

5.3.2. Mơ tả dữ liệu

Để đánh giá mơ hình đề xuất, dữ liệu thực tế tại một trường đại học đa ngành được sử dụng. Tuy nhiên, mơ hình cĩ thể được áp dụng cho các trường đại học, cao đẳng hay trường phổ thơng. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin. Dữ liệu được phân bố thành nhiều tập được mơ tả như Bảng 5.1 với thơng tin về các mẫu và tỷ lệ tập huấn luyện của các đơn vị đào tạo.

Bảng 5.1: Phân bố dữ liệu của các đơn vị đào tạoTập dữ liệu

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 100 - 106)

Tải bản đầy đủ (DOCX)

(159 trang)
w