Minh họa ma trận nhầm lẫn phâ n2 lớp

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 66)

Actual class

Độ đo MSE, RMSE, MAE: Để đánh giá mơ hình dự đốn, chúng ta cĩ thể sử

dụng các độ đo phổ biến như độ lỗi bình phương trung bình MSE (Mean Square Error), độ lỗi trung bình bình phương RMSE (Root Mean Square Error), độ lỗi tuyệt đối trung bình MAE (Mean Absolute Error).

MSE là độ đo dùng để đo bình phương trung bình của các lỗi, tức là chênh lệch bình phương trung bình giữa các giá trị quan sát được thực tế và giá trị dự đốn. Trong khi đĩ, RMSE là căn bậc hai trung bình của sự khác biệt bình phương giữa giá trị dự đốn và giá trị quan sát thực tế. Với độ lỗi MAE, chúng ta lấy giá trị trung bình các phần dư của giá trị thực tế và giá trị dự đốn. Các độ lỗi này lần lượt biểu diễn bởi các biểu

thức 2.45, 2.46 và 2.47:

MSE =

MAE =

Trong đĩ, yi là giá trị thực tế của mẫu thứ i; mẫu quan sát.

Các độ đo MAE, MSE và RMSE về cơ bản cĩ đặc tính như nhau và thường cho kết quả đánh giá như nhau. Tuy nhiên, theo khuyến nghị của các nhà nghiên cứu, nếu giá trị sai số

nế u các giá trị sai số

=| − �| là căn bậc hai của

trị của RMSE nhỏ hơn nhiều do lấy căn.

2.6. Các nghiên cứu liên quan

Trong những năm gần đây, nhiều nghiên cứu liên quan đến hệ thống gợi ý tài nguyên học tập đã được thực hiện. Các nhĩm giải thuật và các kỹ thuật chính trong hệ thống gợi ý được trình bày ở phần 2.5 của chương này. Một trong những nhiệm vụ của hệ thống gợi ý là tìm kiếm tài nguyên học tập trên hệ thống, trong đĩ tìm kiếm cĩ quan tâm đến ngữ nghĩa. Một vấn đề quan trọng của tìm kiếm tài nguyên học tập là làm sao giới hạn được khơng gian tìm kiếm để quá trình tìm kiếm diễn ra nhanh hơn, hiệu quả hơn. Vì thế, việc phân loại để xác định lĩnh vực của truy vấn khơng thể thiếu trong quá trình tìm kiếm.

Các kỹ thuật phân loại văn bản, tìm kiếm cĩ quan tâm vấn đề ngữ nghĩa, bao gồm tìm kiếm dựa trên độ tương đồng văn bản và tìm kiếm dựa trên mạng ngữ nghĩa ontology, các kỹ thuật trong hệ thống gợi ý đã được trình bày ở các phần 2.2, 2.3, 2.4 và 2.5 của chương này. Dưới đây là tĩm lược các nghiên cứu liên quan đến các vấn đề phân loại, tìm kiếm, dự đốn xếp hạng và gợi ý tài nguyên học tập đã được các cơng trình trước đây đề cập.

2.6.1. Nghiên cứu về phân loại văn bản

Mục đích chính của hệ thống tìm kiếm thơng tin là cung cấp các tài nguyên học tập như mong muốn của người dùng từ khơng gian tìm kiếm rộng lớn. Các hệ thống tìm kiếm sẽ tính tốn độ tương đồng giữa câu truy vấn tìm kiếm và các tài nguyên học tập (hay tài liệu), từ đĩ tìm ra danh sách các tài liệu được sắp xếp theo thứ tự tương tự giảm dần của độ tương đồng. Tuy nhiên, để giới hạn khơng gian tìm kiếm, giúp cho q trình tìm kiếm nhanh và chính xác hơn thì phân loại văn bản nĩi chung và phân loại câu truy vấn (query) nĩi riêng là nhiệm vụ rất quan trọng nhằm gán nhãn vào tập phân loại gồm nhiều chủ đề cho trước (Mishra et al., 2013).

Cĩ nhiều nghiên cứu về phân loại query tập trung vào hướng tiếp cận biểu thức chính quy dựa vào những nguyên tắc ngữ pháp viết tay (hand-written grammar rules) để xác định lớp của câu hỏi đầu vào (Durme et al., 2003). Với cách tiếp cận này, các nghiên

cứu đã đề xuất cách biểu diễn ý nghĩa văn bản ràng buộc, cùng với chiến lược linh hoạt để so khớp các câu hỏi với các đoạn văn bản được tìm kiếm dựa trên sự tương đồng về ngữ nghĩa và quan hệ trọng số giữa các từ. Cách tiếp cận này đã đạt được những thành cơng nhất định nhưng vẫn tồn tại khơng ít hạn chế (Brown, 2004). Xây dựng mơ hình cho phương pháp này tốn nhiều thời gian và cơng sức, cần cĩ sự cộng tác của những chuyên gia trong lĩnh vực ngơn ngữ học khi xây dựng các mẫu câu hỏi. Ngồi ra, các luật ngữ pháp viết tay và văn phạm của từng loại query khơng được linh động, khi cĩ một query mới xuất hiện thì cần phải được cung cấp những luật mới để xử lý. Vấn đề nhập nhằng của ngữ pháp rất khĩ xử lý, phụ thuộc vào đặc điểm của từng ngơn ngữ. Một vấn đề khác là khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hồn tồn các luật trước đĩ nên hệ thống rất khĩ mở rộng.

Một cách tiếp cận mới để phân loại dữ liệu được các nhà nghiên cứu sử dụng nhiều trong thời gian qua là dựa trên kỹ thuật học máy (machine learning). Chẳng hạn, nhĩm tác giả Trần Cao Đệ và Phạm Nguyên Khang (2012) đã sử dụng giải thuật SVM để giải quyết bài tốn phân loại văn bản và so sánh hiệu quả của nĩ với giải thuật cây quyết định. Kết quả cho thấy phân loại với SVM thực sự tốt hơn phân loại bằng cây quyết định. Ngồi ra, việc dùng kỹ thuật phân tích giá trị đơn SVD (Singular Value Decomposition) để phân tích và rút gọn số chiều của khơng gian đặc trưng đã giúp nâng cao hiệu quả phân loại với SVM.

Một nghiên cứu khác của nhĩm tác giả Trần Thị Thu Thảo và Vũ Thị Chinh (2012) là xây dựng mơ-đun tách từ theo mơ hình N-gram, sau đĩ mơ hình hĩa văn bản bằng kỹ thuật TF*IDF. Với tập dữ liệu đã được mơ hình hĩa thành véc-tơ, nhĩm tác giả tiến hành phân loại dựa trên giải thuật Nạve Bayes. Kết quả phân loại đạt được khá khả quan, tuy nhiên nghiên cứu này chưa cĩ những so sánh đánh giá phương pháp Nạve Bayes với các phương pháp phân loại khác.

Bên cạnh các kỹ thuật học giám sát và học khơng giám sát được sử dụng phổ biến, gần đây kỹ thuật học tăng cường (reinforcement learning) cũng được sử dụng vào việc phân loại văn bản. Reinforcement learning là một trong ba kỹ thuật học của machine learning, kỹ thuật này giúp xác định hành vi dựa trên hồn cảnh để đạt được lợi ích cao nhất (maximizing the performance). Các kết quả nghiên cứu cho thấy kỹ thuật học tăng cường phân loại văn bản đạt hiệu quả khơng kém so với học giám sát và học khơng giám sát (Chai et al., 2020; Lin et al., 2020).

Các phương pháp tiếp cận dựa trên kỹ thuật học sâu (deep learning) cũng được thực hiện trong nhiều nghiên cứu. Một nhĩm tác giả đã đề xuất ba kiến trúc cơ bản của mơ hình học sâu để phân loại văn bản gồm mạng niềm tin sâu (Deep Belief Neural - DBN), mạng nơ-ron tích chập (Convolutional Neural Network- CNN) và mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) (Zulqarnain Muhammad et al., 2020). Nghiên cứu này rút ra nhận xét, các mơ hình học sâu là những kỹ thuật cĩ tiềm năng cĩ thể sử dụng để phân loại văn bản. Tuy nhiên, tùy vào tập dữ liệu để cĩ thể quyết định sử

dụng kỹ thuật nào cho phù hợp với mơ hình phân loại. Ngồi ra, cần cĩ sự so sánh giữa kỹ thuật học máy truyền thống và kỹ thuật học sâu để cĩ thể đề xuất kỹ thuật nào phù hợp với dữ liệu thực tế.

2.6.2. Nghiên cứu về tìm kiếm tài liệu

Thực tế trong thời gian qua đã cĩ nhiều cách tiếp cận về tìm kiếm tài liệu. Tuy nhiên, tìm kiếm tài liệu cĩ quan tâm đến vấn đề ngữ nghĩa luơn được chú trọng bởi nĩ đáp ứng tốt hơn nhu cầu của người dùng. Để đáp ứng nhu cầu này, đa số các nhà nghiên cứu đã tiếp cận tìm kiếm dựa trên tính tốn độ tương đồng văn bản, trong đĩ cĩ vấn đề ngữ nghĩa, và tìm kiếm dựa trên mạng ngữ nghĩa.

2.6.2.1. Tìm kiếm dựa trên độ tương đồng văn bản

Tìm kiếm tài liệu thực chất là kiểm tra độ tương đồng của văn bản để đề xuất những tài liệu phù hợp. Vì vậy, đo độ tương đồng văn bản giữa các từ, câu, đoạn văn và văn bản đĩng vai trị quan trọng trong nghiên cứu và ứng dụng liên quan đến văn bản như tìm kiếm thơng tin, phân loại văn bản, nhận biết chủ đề, tạo câu hỏi, trả lời câu hỏi, tĩm tắt văn bản… Phương pháp tính độ tương đồng văn bản được nhĩm tác giả Gomaa and Fahmy (2013) hệ thống lại thành ba phương pháp chính là dựa trên chuỗi (string-based), dựa trên tập ngữ liệu (corpus-based) và dựa trên tri thức (knowledge-based). Độ tương đồng dựa trên chuỗi được sử dụng để tính độ tương đồng về mặt từ vựng, trong khi độ tương đồng dựa trên tập ngữ liệu và độ tương đồng dựa trên tri thức được sử dụng tính độ tương đồng về mặt ngữ nghĩa.

Một giải thuật được đề xuất tính tốn độ tương đồng văn bản dựa vào sự kết hợp thơng tin ngữ nghĩa (semantic) của câu và thứ tự từ (word-order) trong câu (Li et al.,

2004). Đầu tiên, độ tương đồng về ngữ nghĩa giữa hai câu do cấu trúc từ vựng quy định được tính tốn. Sau đĩ, độ tương đồng về trật tự từ do vị trí xuất hiện của từ trong câu quy định cũng được tính tốn. Kết hợp hai độ tương đồng này thơng qua một phép tính để tính tốn độ tương đồng của câu, từ đĩ tính tốn độ tương đồng văn bản. Thực nghiệm cho thấy, giải thuật này được áp dụng trong hệ thống xử lý đàm thoại khá hiệu quả. Tuy nhiên, giải thuật này chỉ dừng lại ở ngơn ngữ tiếng Anh.

Một giải thuật đo độ tương đồng của câu được đề xuất dựa trên đo độ tương đồng về ngữ nghĩa và cú pháp câu, sử dụng mơ hình khơng gian véc-tơ (Gunasinghe et al., 2014). Cĩ hai mối quan hệ trong giải thuật này gồm quan hệ giữa các động từ với các cặp câu, và quan hệ giữa các danh từ với các cặp câu. Một ưu điểm của phương pháp này là cĩ thể được sử dụng cho các câu cĩ độ dài thay đổi. Kết quả thu được là các câu cĩ độ tương đồng phù hợp được xếp hạng từ trên xuống.

Nhĩm tác giả Al-Shamery and Gheni (2016) đề xuất kiểm tra độ tương đồng văn bản dựa trên ngữ nghĩa bằng cách sử dụng các từ đồng nghĩa thay thế cho các từ gốc ban đầu. Nghiên cứu này đã tiền xử lý các từ bằng cách sử dụng phương pháp tách từ và loại bỏ các từ dừng, sau đĩ kiểm tra bằng tập dữ liệu để phát hiện độ tương đồng ngữ

nghĩa thơng qua từ điển WordNet (tiếng Anh) nhằm xác định sự tương đồng ngữ nghĩa dựa trên cơ sở kiến thức.

Sharma et al. (2018) đã đề xuất một phương pháp đo sự tương đồng về ngữ nghĩa giữa các tài liệu bằng cách ánh xạ các từ khĩa như động từ, trạng từ, tính từ thành danh từ, sau đĩ tìm điểm tương đồng giữa các từ được ánh xạ. Kết quả thử nghiệm cho thấy giải thuật đề xuất cho kết quả khá chính xác trong việc phát hiện sự tương đồng ngữ nghĩa giữa các tài liệu.

Một kỹ thuật kiểm tra độ tương đồng dựa trên tri thức ngữ nghĩa đã được đề xuất bởi Wali et al. (2020). Kỹ thuật này phân tích và so sánh văn bản dựa trên cấp phát ngữ nghĩa cho mỗi từ (term) trong câu. Tri thức ngữ nghĩa tạo ra các tham tố ngữ nghĩa (semantic arguments) cho mỗi câu. Kết quả thử nghiệm trên tập dữ liệu cho thấy sự gia tăng đáng kể, vượt qua các phương pháp phát hiện đạo văn trước đây về độ chính xác (Precision) và độ bao phủ (Recall).

Các nghiên cứu trên cho thấy phần lớn các nhà nghiên cứu cho rằng sự tương đồng về biểu diễn ngữ nghĩa của câu và trật tự trong câu quyết định đến độ tương đồng của câu và văn bản (Farouk, 2020). Kết quả kế thừa từ các nghiên cứu này cĩ thể được ứng dụng vào giải quyết bài tốn tìm kiếm tài liệu, cụ thể là tìm kiếm tài nguyên học tập, dựa trên độ tương đồng văn bản. Trong đĩ, đối với tài liệu tiếng Việt cần thực hiện các kỹ thuật tiền xử lý như tách từ, loại bỏ từ dừng..., đặc biệt là phân lớp câu truy vấn (query) và tài nguyên học tập được truy vấn trước khi thực hiện tìm kiếm giúp cho quá trình tìm kiếm nhanh và hiệu quả hơn.

2.6.2.2. Tìm kiếm tài liệu dựa trên mạng ngữ nghĩa ontologies

Các mơ hình tìm kiếm thơng tin dựa trên từ khĩa trong quá khứ gần như bỏ qua thơng tin ngữ nghĩa, vì vậy khĩ đáp ứng nhu cầu người dùng hiện nay. Đối với mơ hình khơng gian véc-tơ thì dựa trên một số quy tắc để mơ hình hĩa văn bản. Mơ hình thực hiện phân tách, lọc và phân loại văn bản và thống kê tần suất từ của văn bản (Mingwei, 2010). Trong khi đĩ, mơ hình xác suất (probabilistic model) chủ yếu dựa vào hoạt động xác suất và luật Bayes để so khớp với thơng tin dữ liệu, trong đĩ các giá trị trọng số của các từ đặc trưng đều cĩ đa giá trị. Mơ hình xác suất sử dụng từ chỉ mục để mơ tả mối quan tâm của người dùng, nghĩa là truy vấn được cá nhân hĩa bởi người dùng. Tuy nhiên, mơ hình này khơng cĩ bộ từ vựng ngữ nghĩa và nhãn tài liệu (Ma et

al., 2016). Vì vậy, các mơ hình tìm kiếm sử dụng miền ontology giúp xử lý và truy

xuất tài liệu được tốt hơn đã được đề xuất. Việc xây dựng hệ thống tìm kiếm là khơng mới, nhưng hướng tiếp cận tìm kiếm dựa trên mạng ngữ nghĩa đang trở thành một lĩnh vực được quan tâm, đặc biệt là ontology và web ngữ nghĩa. Hệ thống tìm kiếm dựa trên ontology thực sự giúp tìm kiếm tri thức ở bất cứ lĩnh vực nào, khắc phục các hạn chế của các phương pháp tiếp cận dựa trên từ khĩa (Ma and Tian, 2015).

Nghiên cứu của Tang and Chen (2015) đề xuất cách tiếp cận tìm kiếm ngữ nghĩa dựa trên ontology cho hệ thống quản lý giáo dục. Đầu tiên, nhĩm tác giả trình bày một

số quy tắc để xây dựng miền ontology từ các tài nguyên học tập của hệ thống quản lý giáo dục, sau đĩ sử dụng phương pháp chú giải ngữ nghĩa (semantic annotation) cho các ontology được xây dựng để thơng tin ngữ nghĩa cĩ thể được sử dụng trong tìm kiếm tài nguyên; cuối cùng giải thuật tìm kiếm ngữ nghĩa dựa trên ontology đã được sử dụng. Kết quả thực nghiệm cho thấy mơ hình tìm kiếm ngữ nghĩa trên tài nguyên học tập này cho kết quả tốt hơn phương pháp tìm kiếm truyền thống đối với các hệ thống quản lý giáo dục.

Trong khi đĩ, Okuboyejo et al. (2018) đề xuất mơ hình tích hợp phục vụ tìm kiếm tài ngun giáo dục được cá nhân hĩa. Mơ hình này khai thác các cơng nghệ gồm ontology, lược đồ chú giải siêu dữ liệu (metadata annotation schemas) và máy tìm kiếm web ngữ nghĩa nhằm cung cấp cho người dùng các tài nguyên học tập phù hợp với sở thích của họ. Mơ hình này cũng kết hợp một giải thuật giúp ưu tiên trả về các kết quả cĩ liên quan; thu thập kết quả đánh giá tài nguyên học tập của người dùng cũng như cơ chế phản hồi để điều chỉnh các kết quả tiếp theo.

Việc đưa ontology vào hệ thống tìm kiếm thơng tin giúp truy xuất thơng tin ngữ nghĩa và đáp ứng tốt hơn nhu cầu truy xuất cá nhân hĩa của người dùng. Chẳng hạn, gần đây một nghiên cứu đã đề xuất mơ hình tìm kiếm thơng tin và cơ sở tri thức miền ontology (domain ontology knowledge base) nhằm cải thiện độ chính xác và hiệu quả việc tìm kiếm (Yu, 2019). Sự kết hợp hệ thống tìm kiếm thơng tin dựa trên ontology nhằm tìm kiếm ngữ nghĩa và một hệ thống tìm kiếm thơng tin dựa trên từ khĩa giúp tính tốn tốt hơn (cĩ độ chính xác và độ bao phủ tốt hơn).

Hiện nay, các hệ thống tìm kiếm trong lĩnh vực giáo dục dựa trên mạng ngữ nghĩa ontologies khơng nhiều, đặc biệt các hệ thống tìm kiếm tài nguyên học tập. Từ các nghiên cứu trước đây cĩ thể ứng dụng để xây dựng hệ thống tìm kiếm tài nguyên học tập bằng ngơn ngữ tiếng Việt. Trong đĩ, câu truy vấn (query) và tài nguyên học tập được xử lý và phân loại trước khi thực hiện tìm kiếm trên miền ontology tương ứng, giúp cho quá trình tìm hiệu quả hơn.

2.6.3. Nghiên cứu về dự đốn xếp hạng và gợi ý

Dự đốn kết quả học tập trở thành nhu cầu quan trọng đối với các trường đại học để hỗ trợ cho người học hay sinh viên đạt được kết quả cao nhất trong học tập. Từ một nghiên cứu tổng quan, một nhĩm tác giả tổng hợp nhiều kết quả nghiên cứu cho thấy

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 66)

Tải bản đầy đủ (DOCX)

(159 trang)
w