AUC cho tập dữliệu Turkish_News_Articles

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 77 - 81)

Để kiểm chứng quá trình phân loại, lớp nào được phân loại đúng nhiều nhất và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác, ma trận nhầm lẫn (confusion matrix) của tập dữ liệu School_Text_Books được sử dụng để quan sát hiệu quả của việc phân loại giữa MLP và SVM, được trình bày như trình trong Bảng 3.4.

Bảng 3.4: Ma trận nhầm lẫn giữa MLP và SVM trên tập School_Text_BooksMLP MLP Predicted classes SVM Predicted classes a b c d a b c d Actual classes 283 0 0 0 0 626 8 4 0 7 87 3 1 2 3 762 a = accounts b = biology c = geography d = physics 281 0 0 0 1 632 16 4 0 3 78 1 2 0 4 764 Như kết quả ở Bảng 3.4, MLP hoạt động tốt hơn SVM ở trường hợp lớp này cĩ số lượng mẫu ít hơn nhiều so với các lớp khác. Cụ thể, lớp “geography" cĩ số mẫu rất ít so với các lớp cịn lại (chỉ 98 mẫu) thì tỷ lệ mẫu bị dự đốn nhầm vào lớp khác của giải thuật SVM cao hơn hẳn so với MLP. Điều này cho thấy khi tình trạng mất cân bằng dữ liệu (imbalance) xảy ra thì MLP cho kết quả phân loại khả quan hơn so với SVM trên lớp cĩ ít mẫu. Kết quả này cũng tương tự trên các tập dữ liệu cịn lại. Nghiên cứu này được kỳ vọng áp dụng vào các trường hợp thực tế khi phân loại ở những tập dữ liệu mất cân bằng.

Một trường hợp khác là phân loại nhị phân trên tập dữ liệu Reuters_Newswire cho thấy kết quả tương tự, trong đĩ phương pháp MLP cũng đạt được hiệu suất tốt hơn SVM đối với lớp cĩ ít mẫu hơn (xem Bảng 3.5). Bảng dữ liệu này mơ tả lớp cĩ liên quan (b = 1) hay lớp khơng cĩ liên quan (a = 0). Bảng 3.5 cho thấy số mẫu liên quan ít hơn nhiều so với mẫu khơng liên quan. Trong trường hợp này, mẫu cĩ liên quan (b = 1) chỉ chiếm khoảng 3% so với 97% mẫu khơng liên quan (a = 0), điều này thể hiện sự mất cân bằng rất lớn trong tập dữ liệu. Cũng tương tự như phân nhiều lớp, phân loại nhị phân ở tập dữ liệu mất cân bằng và cĩ ít mẫu thì MLP cho hiệu suất tốt hơn nhiều so sánh với giải thuật SVM.

Bảng 3.5: Ma trận nhầm lẫn giữa MLP và SVM trên tập Reuters_NewswireMLP MLP Predicted classes SVM Predicted classes a b a b Actual classes 2064 13 25 56 a = 0 b = 1 2088 26 1 43

Qua các kết quả thử nghiệm, MLP cĩ hiệu suất tốt hơn SVM trong trường hợp dữ liệu mất cân bằng và phù hợp cho việc dự đốn đối với các lớp cĩ số mẫu nhỏ. Đây cũng là lý do tại sao AUC được chọn làm thước đo đánh giá thay vì sử dụng các độ đo khác.

Về thời gian huấn luyện, đối với các tập dữ liệu được sử dụng trong nghiên cứu này, MLP hồn thành thời gian huấn luyện khơng quá chênh lệch so với các giải thuật học máy khác (chỉ mất vài phút).

3.6. Tổng kết chương

Trong chương này, mơ hình phân loại tài nguyên học tập sử dụng các kỹ thuật khác nhau đã được đề xuất, đặc biệt là kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa tầng MLP. Các thực nghiệm được thực hiện trên năm tập dữ liệu cĩ số lớp, số mẫu khác nhau. Độ đo đánh giá mơ hình phân loại được sử dụng là AUC do một số tập dữ liệu khá mất cân bằng.

Kết quả thực nghiệm cho thấy mạng nơ-ron truyền thẳng đa tầng MLP cĩ hiệu suất phân loại khá tốt so với các giải thuật học máy khác như SVM, cây quyết định... Vì thế, MLP cĩ thể là lựa chọn tốt cho phân loại tài nguyên học tập, đặc biệt đối với dữ liệu mất cân bằng.

Kế thừa kết quả phân loại tài nguyên học tập, chương tiếp theo, tìm kiếm tài nguyên học tập dựa trên tính tốn sự tương đồng về nội dung văn bản và tìm kiếm dựa trên ngữ nghĩa của văn bản được trình bày. Trong đĩ, phân loại tài nguyên học tập là giải pháp nhằm giới hạn khơng gian tìm kiếm, giúp quá trình tìm kiếm nhanh và hiệu quả hơn.

CHƯƠNG 4. MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

Trong chương này, các mơ hình tìm kiếm tài nguyên học tập được trình bày, giúp cho việc tìm kiếm và sử dụng tài nguyên được hiệu quả hơn trong bối cảnh nguồn tài nguyên học tập ngày càng đa dạng và khơng ngừng gia tăng.

Tìm kiếm tài nguyên học tập là yêu cầu khơng thể thiếu trong mơi trường giáo dục. Tuy nhiên người học cịn gặp nhiều khĩ khăn trong tìm kiếm tài nguyên học tập do tên các tài nguyên khi được lưu trữ chưa phản ánh được từ khĩa người dùng mong đợi. Vì vậy, làm cách nào để tìm chính xác các từ khĩa trong nội dung tài nguyên học tập thay vì tìm kiếm thơng thường từ mơ tả dữ liệu hay siêu dữ liệu (meta-data) là yêu cầu cần thiết. Hiện nay, cĩ nhiều nghiên cứu về tìm kiếm tài nguyên học tập theo nội dung đã cho kết quả khá chính xác dựa trên tính tốn trọng số TF-IDF (Term Frequency - Inverse Document Frequency) để biểu diễn văn bản thành dạng khơng gian véc-tơ, tính độ tương đồng cosine để đo mức độ tương đồng của các từ khĩa trong tài liệu nhằm trả về tài liệu cĩ độ tương đồng cao nhất. Ngồi ra, các mơ hình tìm kiếm theo ngữ nghĩa dựa trên miền dữ liệu cũng được quan tâm nhằm cải thiện độ chính xác kết quả tìm kiếm bằng cách “hiểu” ý định của người tìm kiếm.

Để tìm kiếm tài nguyên học tập được hiệu quả, trong chương này hai cách tiếp cận, đĩ là tìm kiếm dựa trên tính tốn sự tương đồng về nội dung văn bản và tìm kiếm dựa trên mạng ngữ nghĩa được đề xuất.

Những kết quả chính của chương này là đề xuất các cách tiếp cận dựa trên tính tốn độ tương đồng văn bản trong hệ thống xử lý đàm thoại của (Li et al., 2004) áp dụng cho vấn đề tìm kiếm tài nguyên học tập. Bài tốn cụ thể là tìm độ tương đồng của một bài báo với tập bài báo được xuất bản, và dựa trên mạng ngữ nghĩa ontology với bài tốn cụ thể là tìm kiếm ngữ nghĩa trên bốn lĩnh vực về cơng nghệ thơng tin. Thực nghiệm cho kết quả tìm kiếm khá tốt trên cả hai cách tiếp cận. Ngồi ra, để kết quả tìm kiếm nhanh hơn trong điều kiện khối lượng tài nguyên ngày càng tăng, giải pháp tăng tốc độ xử lý dữ liệu tìm kiếm bằng kỹ thuật xử lý dữ liệu lớn đã được đề xuất.

Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT3 (Dien et al., 2019), CT4 (Dien et al., 2020) và CT5 ( ctv., 2020).

4.1. Giới thiệu

Cùng với sự phát triển rất nhanh của cơng nghệ thơng tin, ngày càng cĩ nhiều dữ liệu thuộc lĩnh vực giáo dục được cung cấp tại các hệ thống trường học. Đây chính là nguồn tài nguyên đáp ứng nhu cầu học tập của người học (Smith, 2016). Tài nguyên học tập cĩ thể là giáo trình, bài giảng, bài báo khoa học, các tài liệu liên quan tồn tại ở nhiều định dạng khác nhau như tập tin văn bản, trang web… (Al-Khalifa, 2008) được cung cấp trên các hệ thống như học trực tuyến, hệ thống quản lý giáo trình, bài giảng, hệ thống quản lý các cơng bố khoa học…

Đặc biệt trong bối cảnh mà người dạy và người học khĩ tiếp xúc nhau như giai đoạn đại dịch Covid-19, việc học tập trực tuyến ngày càng được nhiều người chọn lựa, dẫn đến nhu cầu tìm kiếm tài nguyên học tập ngày càng gia tăng. Vì vậy, việc đề xuất các mơ hình tìm kiếm tài nguyên học tập trở nên cần thiết, giúp người học tiết kiệm thời gian và cơng sức, giúp việc học hiệu quả hơn.

Trong chương này, các mơ hình tìm kiếm tài nguyên học tập dựa trên sự kết hợp của độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản và mơ hình tìm kiếm dựa trên mạng ngữ nghĩa ontology được đề xuất. Một giải pháp được đề xuất nhằm tăng tốc độ tìm kiếm tài nguyên học tập cũng được đề cập.

Nội dung tiếp theo của chương bao gồm: mơ hình tìm kiếm tài nguyên học tập dựa trên sự kết hợp của độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản, tiếp cận tìm kiếm dựa trên mạng ngữ nghĩa ontology, giải pháp tăng tốc tìm kiếm tài nguyên học tập bằng kỹ thuật xử lý dữ liệu lớn, cuối cùng là tổng kết và các nhận xét về kết quả nghiên cứu.

4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản

Tìm kiếm tài liệu được ứng dụng trong nhiều lĩnh vực, đặc biệt trong lĩnh vực giáo dục. Khi nĩi đến tìm kiếm thơng tin hay tìm kiếm tài liệu làm liên tưởng đến sự tương đồng (similarity) giữa các tài liệu. Về lý thuyết, một tài liệu được cho là tương đồng với một truy vấn nếu như nội dung tài liệu đĩ trả lời được cho nhu cầu thơng tin của người dùng (Truong Quoc-Dinh et al., 2014). Độ tương đồng là một độ đo, giá trị thể hiện sự giống nhau, khác nhau hay sự tương tự của hai cá thể đang đề cập đến. Trong mỗi lĩnh vực, cĩ nhiều cá thể được đem ra so sánh về độ tương đồng giữa chúng nhưng trong lĩnh vực xử lý ngơn ngữ tự nhiên thì cá thể được so sánh chính là từ, câu, đoạn văn và văn bản.

Cĩ nhiều phương pháp tìm kiếm tài liệu dựa trên sự tương đồng. Tác giả (Do Thi Thanh-Nga, 2010) nêu độ tương đồng văn bản dựa trên tập từ chung, theo đĩ văn bản được biểu diễn dưới dạng mơ hình đồ thị, mỗi đỉnh trong đồ thị là một câu trong văn bản, mỗi cạnh nối hai đỉnh trong đồ thị biểu diễn mối liên hệ giữa hai câu. Trọng số của mỗi cạnh chính là giá trị độ tương đồng của hai câu. Độ tương đồng văn bản chủ yếu được tính dựa trên ba phương pháp: khoảng cách Jaro (Winkler, 1990), mơ hình tương phản (Tversky, 1977) hoặc hệ số Jaccard (Jaccard, 1901). Các phương pháp đánh giá độ tương đồng văn bản hiện nay chủ yếu dựa trên hai yếu tố: độ tương đồng ngữ nghĩa của văn bản hay độ tương đồng cosine và độ tương đồng thứ tự của các từ trong văn bản.

Trong nghiên cứu này, để tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, phương pháp tính độ tương đồng văn bản ứng dụng trong hệ thống xử lý đàm thoại (Li et al., 2004) được áp dụng. Cụ thể, nghiên cứu này tính độ tương đồng của một bài báo khoa học gửi đăng với các bài báo đã xuất bản trước đĩ và độ tương đồng giữa hai bài báo cần so sánh.

4.2.1. Mơ hình đề xuất

Để tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, phương pháp kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản được đề xuất. Mơ hình đề xuất được mơ tả như Hình 4.1.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 77 - 81)

Tải bản đầy đủ (DOCX)

(148 trang)
w