Nghiên cứu về tìm kiếm tài liệu

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.6. Các nghiên cứu liên quan

2.6.2. Nghiên cứu về tìm kiếm tài liệu

Thực tế trong thời gian qua đã cĩ nhiều cách tiếp cận về tìm kiếm tài liệu. Tuy nhiên, tìm kiếm tài liệu cĩ quan tâm đến vấn đề ngữ nghĩa luơn được chú trọng bởi nĩ đáp ứng tốt hơn nhu cầu của người dùng. Để đáp ứng nhu cầu này, đa số các nhà nghiên cứu đã tiếp cận tìm kiếm dựa trên tính tốn độ tương đồng văn bản, trong đĩ cĩ vấn đề ngữ nghĩa, và tìm kiếm dựa trên mạng ngữ nghĩa.

2.6.2.1. Tìm kiếm dựa trên độ tương đồng văn bản

Tìm kiếm tài liệu thực chất là kiểm tra độ tương đồng của văn bản để đề xuất những tài liệu phù hợp. Vì vậy, đo độ tương đồng văn bản giữa các từ, câu, đoạn văn và văn bản đĩng vai trị quan trọng trong nghiên cứu và ứng dụng liên quan đến văn bản như tìm kiếm thơng tin, phân loại văn bản, nhận biết chủ đề, tạo câu hỏi, trả lời câu hỏi, tĩm tắt văn bản… Phương pháp tính độ tương đồng văn bản được nhĩm tác giả Gomaa and Fahmy (2013) hệ thống lại thành ba phương pháp chính là dựa trên chuỗi (string-based), dựa trên tập ngữ liệu (corpus-based) và dựa trên tri thức (knowledge-based). Độ tương đồng dựa trên chuỗi được sử dụng để tính độ tương đồng về mặt từ vựng, trong khi độ tương đồng dựa trên tập ngữ liệu và độ tương đồng dựa trên tri thức được sử dụng tính độ tương đồng về mặt ngữ nghĩa.

Một giải thuật được đề xuất tính tốn độ tương đồng văn bản dựa vào sự kết hợp thơng tin ngữ nghĩa (semantic) của câu và thứ tự từ (word-order) trong câu (Li et al.,

2004). Đầu tiên, độ tương đồng về ngữ nghĩa giữa hai câu do cấu trúc từ vựng quy định được tính tốn. Sau đĩ, độ tương đồng về trật tự từ do vị trí xuất hiện của từ trong câu quy định cũng được tính tốn. Kết hợp hai độ tương đồng này thơng qua một phép tính để tính tốn độ tương đồng của câu, từ đĩ tính tốn độ tương đồng văn bản. Thực nghiệm cho thấy, giải thuật này được áp dụng trong hệ thống xử lý đàm thoại khá hiệu quả. Tuy nhiên, giải thuật này chỉ dừng lại ở ngơn ngữ tiếng Anh.

Một giải thuật đo độ tương đồng của câu được đề xuất dựa trên đo độ tương đồng về ngữ nghĩa và cú pháp câu, sử dụng mơ hình khơng gian véc-tơ (Gunasinghe et al., 2014). Cĩ hai mối quan hệ trong giải thuật này gồm quan hệ giữa các động từ với các cặp câu, và quan hệ giữa các danh từ với các cặp câu. Một ưu điểm của phương pháp này là cĩ thể được sử dụng cho các câu cĩ độ dài thay đổi. Kết quả thu được là các câu cĩ độ tương đồng phù hợp được xếp hạng từ trên xuống.

Nhĩm tác giả Al-Shamery and Gheni (2016) đề xuất kiểm tra độ tương đồng văn bản dựa trên ngữ nghĩa bằng cách sử dụng các từ đồng nghĩa thay thế cho các từ gốc ban đầu. Nghiên cứu này đã tiền xử lý các từ bằng cách sử dụng phương pháp tách từ và loại bỏ các từ dừng, sau đĩ kiểm tra bằng tập dữ liệu để phát hiện độ tương đồng ngữ

nghĩa thơng qua từ điển WordNet (tiếng Anh) nhằm xác định sự tương đồng ngữ nghĩa dựa trên cơ sở kiến thức.

Sharma et al. (2018) đã đề xuất một phương pháp đo sự tương đồng về ngữ nghĩa giữa các tài liệu bằng cách ánh xạ các từ khĩa như động từ, trạng từ, tính từ thành danh từ, sau đĩ tìm điểm tương đồng giữa các từ được ánh xạ. Kết quả thử nghiệm cho thấy giải thuật đề xuất cho kết quả khá chính xác trong việc phát hiện sự tương đồng ngữ nghĩa giữa các tài liệu.

Một kỹ thuật kiểm tra độ tương đồng dựa trên tri thức ngữ nghĩa đã được đề xuất bởi Wali et al. (2020). Kỹ thuật này phân tích và so sánh văn bản dựa trên cấp phát ngữ nghĩa cho mỗi từ (term) trong câu. Tri thức ngữ nghĩa tạo ra các tham tố ngữ nghĩa (semantic arguments) cho mỗi câu. Kết quả thử nghiệm trên tập dữ liệu cho thấy sự gia tăng đáng kể, vượt qua các phương pháp phát hiện đạo văn trước đây về độ chính xác (Precision) và độ bao phủ (Recall).

Các nghiên cứu trên cho thấy phần lớn các nhà nghiên cứu cho rằng sự tương đồng về biểu diễn ngữ nghĩa của câu và trật tự trong câu quyết định đến độ tương đồng của câu và văn bản (Farouk, 2020). Kết quả kế thừa từ các nghiên cứu này cĩ thể được ứng dụng vào giải quyết bài tốn tìm kiếm tài liệu, cụ thể là tìm kiếm tài nguyên học tập, dựa trên độ tương đồng văn bản. Trong đĩ, đối với tài liệu tiếng Việt cần thực hiện các kỹ thuật tiền xử lý như tách từ, loại bỏ từ dừng..., đặc biệt là phân lớp câu truy vấn (query) và tài nguyên học tập được truy vấn trước khi thực hiện tìm kiếm giúp cho quá trình tìm kiếm nhanh và hiệu quả hơn.

2.6.2.2. Tìm kiếm tài liệu dựa trên mạng ngữ nghĩa ontologies

Các mơ hình tìm kiếm thơng tin dựa trên từ khĩa trong quá khứ gần như bỏ qua thơng tin ngữ nghĩa, vì vậy khĩ đáp ứng nhu cầu người dùng hiện nay. Đối với mơ hình khơng gian véc-tơ thì dựa trên một số quy tắc để mơ hình hĩa văn bản. Mơ hình thực hiện phân tách, lọc và phân loại văn bản và thống kê tần suất từ của văn bản (Mingwei, 2010). Trong khi đĩ, mơ hình xác suất (probabilistic model) chủ yếu dựa vào hoạt động xác suất và luật Bayes để so khớp với thơng tin dữ liệu, trong đĩ các giá trị trọng số của các từ đặc trưng đều cĩ đa giá trị. Mơ hình xác suất sử dụng từ chỉ mục để mơ tả mối quan tâm của người dùng, nghĩa là truy vấn được cá nhân hĩa bởi người dùng. Tuy nhiên, mơ hình này khơng cĩ bộ từ vựng ngữ nghĩa và nhãn tài liệu (Ma et

al., 2016). Vì vậy, các mơ hình tìm kiếm sử dụng miền ontology giúp xử lý và truy

xuất tài liệu được tốt hơn đã được đề xuất. Việc xây dựng hệ thống tìm kiếm là khơng mới, nhưng hướng tiếp cận tìm kiếm dựa trên mạng ngữ nghĩa đang trở thành một lĩnh vực được quan tâm, đặc biệt là ontology và web ngữ nghĩa. Hệ thống tìm kiếm dựa trên ontology thực sự giúp tìm kiếm tri thức ở bất cứ lĩnh vực nào, khắc phục các hạn chế của các phương pháp tiếp cận dựa trên từ khĩa (Ma and Tian, 2015).

Nghiên cứu của Tang and Chen (2015) đề xuất cách tiếp cận tìm kiếm ngữ nghĩa dựa trên ontology cho hệ thống quản lý giáo dục. Đầu tiên, nhĩm tác giả trình bày một

số quy tắc để xây dựng miền ontology từ các tài nguyên học tập của hệ thống quản lý giáo dục, sau đĩ sử dụng phương pháp chú giải ngữ nghĩa (semantic annotation) cho các ontology được xây dựng để thơng tin ngữ nghĩa cĩ thể được sử dụng trong tìm kiếm tài nguyên; cuối cùng giải thuật tìm kiếm ngữ nghĩa dựa trên ontology đã được sử dụng. Kết quả thực nghiệm cho thấy mơ hình tìm kiếm ngữ nghĩa trên tài nguyên học tập này cho kết quả tốt hơn phương pháp tìm kiếm truyền thống đối với các hệ thống quản lý giáo dục.

Trong khi đĩ, Okuboyejo et al. (2018) đề xuất mơ hình tích hợp phục vụ tìm kiếm tài nguyên giáo dục được cá nhân hĩa. Mơ hình này khai thác các cơng nghệ gồm ontology, lược đồ chú giải siêu dữ liệu (metadata annotation schemas) và máy tìm kiếm web ngữ nghĩa nhằm cung cấp cho người dùng các tài nguyên học tập phù hợp với sở thích của họ. Mơ hình này cũng kết hợp một giải thuật giúp ưu tiên trả về các kết quả cĩ liên quan; thu thập kết quả đánh giá tài nguyên học tập của người dùng cũng như cơ chế phản hồi để điều chỉnh các kết quả tiếp theo.

Việc đưa ontology vào hệ thống tìm kiếm thơng tin giúp truy xuất thơng tin ngữ nghĩa và đáp ứng tốt hơn nhu cầu truy xuất cá nhân hĩa của người dùng. Chẳng hạn, gần đây một nghiên cứu đã đề xuất mơ hình tìm kiếm thơng tin và cơ sở tri thức miền ontology (domain ontology knowledge base) nhằm cải thiện độ chính xác và hiệu quả việc tìm kiếm (Yu, 2019). Sự kết hợp hệ thống tìm kiếm thơng tin dựa trên ontology nhằm tìm kiếm ngữ nghĩa và một hệ thống tìm kiếm thơng tin dựa trên từ khĩa giúp tính tốn tốt hơn (cĩ độ chính xác và độ bao phủ tốt hơn).

Hiện nay, các hệ thống tìm kiếm trong lĩnh vực giáo dục dựa trên mạng ngữ nghĩa ontologies khơng nhiều, đặc biệt các hệ thống tìm kiếm tài nguyên học tập. Từ các nghiên cứu trước đây cĩ thể ứng dụng để xây dựng hệ thống tìm kiếm tài nguyên học tập bằng ngơn ngữ tiếng Việt. Trong đĩ, câu truy vấn (query) và tài nguyên học tập được xử lý và phân loại trước khi thực hiện tìm kiếm trên miền ontology tương ứng, giúp cho quá trình tìm hiệu quả hơn.

Hệ thống gợi ý tài nguyên học tập

Một số kỹ thuật phân loại văn bản