Mở rộng truy vấn

Một phần của tài liệu Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt (Trang 33 - 36)

Mở rộng truy vấn là một vấn đề cần thiết, một bài toán kinh điển trong lĩnh vực truy xuất thông tin nói chung và trong mô hình hệ thống hỏi đáp nói riêng. Đó là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn [3]. Krovetz và Croft [25] đã quan sát thấy phần lớn các lợi ích thu được trong việc tìm kiếm thông tin có độ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối với việc mở rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác hơn, điều đó cho phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để thu được các kết quả hữu ích.

Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn đề đang được các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin. Theo [28] thì có hai định nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là các phần của bài luận bao quanh từ hay đoạn văn và có thể làm sáng tỏ nghĩa của nó”. Định nghĩa thứ hai dựa trên tình huống “ngữ cảnh là các điều kiện tương quan trong đó một điều gì đó tồn tại hay xảy ra”.

Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin, cùng hướng giải quyết làm sao cho hệ thống có thể hiểu nhiều hơn và thông minh hơn khi xử lý truy vấn ban đầu của người dùng, thì yêu cầu về một hệ thống có khả năng tạo ra những truy vấn tương đồng hoặc cùng mục tiêu là bài toán quan trọng.

Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới đã sử dụng ontology WordNet [3]. Một số nhóm khác đã phát triển ontology để phục vụ nhu cầu mở rộng truy vấn. Những định hướng đặc biệt về cấu trúc ontology cần xây dựng bao gồm đề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay đề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương đương (equivalence), hoặc phát triển một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ

26

WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain).

Trong khuôn khổ khóa luận này, chúng tôi đề xuất việc trích rút quan hệ gần nghĩa để mở rộng câu truy vấn trong hệ thống hỏi đáp thực thể tên người cho tiếng Việt. Từ một truy vấn ban đầu của người dùng, mở rộng truy vấn sẽ bổ sung vào đó một số từ, cụm từ hay thuật ngữ gần nghĩa và tạo ra dạng truy vấn mới có thể bao phủ thông tin rộng hơn. Như vậy, tài liệu ứng viên thu nhận sẽ nhiều hơn làm cho tỉ lệ bao phủ thông tin tăng lên tương ứng. Quá trình thêm những từ, cụm từ hay thuật ngữ này có thể thực hiện bằng tay hoặc tự động. Việc mở rộng truy vấn bằng tay đòi hỏi sự am hiểu và thành thạo của con người để đưa ra quyết định, nhằm mồi thêm các thuật ngữ vào truy vấn ban đầu. Đối với việc mở rộng truy vấn tự động, các trọng số được tính cho tất cả các từ, cụm từ hay thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có trọng số cao nhất để đNy vào truy vấn ban đầu. Các hàm tính trọng số khác nhau sẽ cho kết quả khác nhau, do đó hiệu suất phụ thuộc vào cách thức tính các trọng số.

3.2.3. M rng truy vn cho h thng hi đáp thc th tên người tiếng Vit

Một trong những thách thức đối với hệ thống hỏi đáp là tồn tại nhiều câu hỏi giống nhau về cách hỏi, các thành phần câu hỏi chỉ sai khác nhau ở một số từ/cụm từ cũng như kết quả trả lời như nhau. Nguyên nhân dẫn đến vấn này là do các từ/ cụm từ sai khác nói trên là những từ/cụm từ đồng nghĩa/gần nghĩa. Việc phát hiện ra các bộ câu hỏi giống nhau cho phép hệ thống nâng cao tốc độ và chất lượng câu trả lời.

Ví dụ:

Ai là người tìm ra châu Mỹ ? (1) Ai là người phát hiện ra châu Mỹ ? (2)

Trong hai ví dụ trên, hai cụm từ “tìm ra” và “phát hiện” là cặp cụm từ gần nghĩa.

Cả 2 câu trên đều trả về kết quả là : Christopher Columbus.

Có rất nhiều hướng tiếp cận giải quyết vấn đề này, chúng tôi đề xuất việc sử dụng tập các động từ gần nghĩa được tạo ra trong bài toán trích rút quan hệ gần nghĩa nhằm mở rộng tập từ khóa tìm kiếm nâng cao khả năng trích xuất câu trả lời cho người dùng.

Chiến lược như sau: Khi người dùng đặt một câu hỏi có dạng như (1), hệ thống hỏi đáp thực thể tên người tiếng Việt [2] phân tích tạo thành tập từ khóa : “tìm ra”, “châu

Mỹ” ; bằng phương pháp sử dụng tập các từ đồng nghĩa, hệ thống biết rằng cụm từ “tìm

27

bao gồm : “tìm ra”, “phát hiện”, “châu Mỹ”. Truy vấn mới được tạo ra sẽ có dạng : “tìm ra OR phát hiện” + “châu Mỹ”.

Tóm tt chương ba

Trong chương ba, khóa luận đã giới thiệu chi tiết mô hình trích rút quan hệ gần nghĩa. Đồng thời, áp dụng trích rút quan hệ gần nghĩa để mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt. Trong chương tiếp theo, khóa luận sẽ tiến hành thực nghiệm dựa trên mô hình đã xây dựng.

28

Chương 4: Thc nghim và đánh giá

Một phần của tài liệu Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(69 trang)