Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

9 30 0
Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết này trình bày hướng tiếp cận nhằm phát triển động cơ suy diễn cho hệ thống hỏi đáp có hỗ trợ tiếng Việt với trọng tâm là phương pháp suy diễn nội dung trả lời dựa trên giải thuật A* và lý thuyết đồ thị.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Một giải pháp suy diễn câu trả lời hệ thống hỏi đáp thông tin A Solution for Answer Reasoning in QA System Phan Thị Tươi, Nguyễn Chánh Thành Abstract: Question Answering (QA) is an important research field that research groups focus on to develop useful QA system for many languages in the world (English, Chinese, Japanese …) but just few for Vietnamese One of most difficult processings in QA is the answer reasoning applying to natural language question, especially Vietnamese The paper introduces an approach of reasoning answers for Vietnamese question based on Graph Theory and Artificial Intelligence (AI) The experimentation, which is done for Vietnamese questions in initial phase, shows that the proposed approach is feasible for Vietnamese and it can be upgraded more for other languages in future Keywords: reasoning, CG, question answering, QA I GIỚI THIỆU Hỏi đáp thông tin (Question Answering, QA) nhu cầu thiết thực người dùng giới Nhiều phương pháp nhóm nghiên cứu giới vấn đề tiến hành với số kết minh chứng tính khả thi phương pháp Một hướng nghiên cứu QA thực lĩnh vực trí tuệ nhân tạo liên quan đến hệ chuyên gia với số thành cơng định Ngồi ra, với mong muốn cải tiến hệ thống QA nhằm tăng khả xử lý chất lượng nội dung trả lời, nghiên cứu QA phát triển theo hướng kết hợp với ngôn ngữ tự nhiên Hướng nghiên cứu thường kết hợp với số lĩnh vực khác truy xuất thông tin (trực tuyến không trực tuyến), hệ chuyên gia Trong năm 1960, số hệ thống hỏi đáp ngôn ngữ tự nhiên xây dựng Elisa, Lunar, Baseball Các hệ thống QA liên tục hoàn thiện phát triển với ngành ngơn ngữ học tính tốn (Computational Linguistics) hiểu văn (Text Comprehension) thập niên 1970 TREC (trec.nist.gov) thức đưa đề tài hoạt động nghiên cứu năm 1990 hệ thống QA Hiện tồn số hệ thống QA tiếng Anh, AquaLog [1], START [2] Trong nghiên cứu QA, giải pháp suy diễn trả lời câu hỏi ln vấn đề khó khăn phức tạp Một số nghiên cứu giới hạn lại phạm vi xử lý chủ yếu dựa chế so khớp cấu trúc cú pháp câu truy vấn với số mẫu cấu trúc có sẵn, [1], [3], [4], [5], [6], [7] [9] Một số dự án S-CREAM [11] MnM [12] hay AquaLog [1] dùng nhiều kỹ thuật học máy để rút trích quan hệ đối tượng, nhiên làm bán tự động Cơng trình IBM Watson giới thiệu mơt hướng tiếp cận khác dựa ngôn ngữ tự nhiên [10] Nhóm tác giả [13] [14] dùng đồ thị ý niệm để biểu diễn ngữ nghĩa quan hệ thực thể để từ xác định phương án trả lời cho nội dung câu hỏi Ngoài ra, số phần mềm tập trung xử lý suy diễn cho vấn đề tổng quát1, từ ứng dụng vào hệ thống QA để hỗ trợ suy diễn câu trả lời cho nội dung hỏi người dùng, bảng 1, với (*) dạng mã nguồn mở (**) khơng miễn phí Hướng nghiên cứu QA có hỗ trợ truy vấn dạng Liệt kê chi tiết en.wikipedia.org/wiki/Semantic_reasoner - 40 - Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT ngơn ngữ tự nhiên tiếng Việt, cơng trình [19] giới thiệu phương pháp khai thác thông tin sở liệu thơng qua giao diện người dùng có hỗ trợ truy vấn dạng ngôn ngữ tự nhiên.Tuy nghiên cứu tập trung việc phân tích truy vấn theo dạng văn phạm ngữ nghĩa với kết xác 91.91% tạo cú pháp hướng ngữ nghĩa (syntactics-semantic tree), hướng tiếp cận ảnh hưởng đến kỹ thuật phân tích câu hỏi tiếng Việt Ngoài ra, kết [20] trình bày cách tiếp cận dựa thể học để sinh câu trả lời với kết trả lời 95% tập 60 câu hỏi tiếng Việt Phương pháp sinh nội dung tập trung xử lý việc suy diễn dựa quan hệ ngữ nghĩa có thể học để đối sánh ý niệm liên quan đến nội dung nhóm từ nghi vấn Cơng trình [26] giới thiệu nghiên cứu chun sâu mơ hình hệ thống QA hỗ trợ tiếng Việt dựa thể học Trong giải pháp suy diễn câu trả lời tập trung theo hướng sử dụng quan hệ ngữ nghĩa is-a để thực việc tìm kiếm kết phù hợp Kết thực nghiệm khả quan họ cho thấy triển vọng hướng tiếp cận tương lai Tuy nhiên, việc suy diễn tự động có hỗ trợ xử lý bắc cầu cho câu hỏi phức tạp mục tiêu [26] mà vấn đề giới thiệu báo Cách tiếp cận [27], không triển khai cho câu hỏi tiếng Việt hướng đến việc phân tích biểu diễn truy vấn với cốt lõi cụm từ theo dạng đồ thị ý niệm, từ thực việc suy diễn nội dung trả lời đặc biệt có hỗ trợ suy luận bắc cầu, đem lại kết mức 93% 98% cho độ xác độ bao phủ tập thử nghiệm 346 truy vấn Hướng tiếp cận có ảnh hưởng lớn đến nghiên cứu chúng tơi, nhiên việc sinh tự động tồn chuỗi suy luận nội dung trả lời theo phương án hợp lý vấn đề khó mà chúng tơi trình bày hướng giải báo Cơng trình [21] đề xuất phương pháp phi cú pháp phục vụ cho việc hiểu truy vấn ngôn ngữ tự nhiên để hình thành câu hỏi khơng chuẩn mực Phương pháp thực khai thác kiến thức Tập V-1, Số (27), tháng 5/2012 thể học để nhận biết thực thể xác định mối quan hệ họ truy vấn, từ đơn giản hóa quy tắc chuyển đổi từ truy vấn ngôn ngữ tự nhiên dựa việc liên kết chặt chẽ ngôn ngữ tự nhiên đồ thị ý niệm Các cơng trình khác tiếng đồ thị ý niệm ứng dụng [22], [23], [24] [25] cung cấp định hướng tiếp cận hợp lý chặt chẽ, làm sở cho vấn đề nghiên cứu liên quan đến đồ thị ý niệm trình bày báo Từ khảo sát phân tích trên, việc phát triển hệ thống hỏi đáp tiếng Việt sở kế thừa có chọn lọc ưu điểm nghiên cứu liên quan, đặc biệt [1], [14], [21] [27], để từ vận dụng hiệu cho ngơn ngữ tiếng Việt tốn hỏi đáp truy xuất thông tin nhằm hướng đến mục tiêu phát triển hệ thống truy vấn thông tin hỗ trợ ngữ nghĩa tốt Bài báo giới thiệu hướng xử lý suy diễn nội dung câu trả lời cho hệ thống hỏi đáp hướng đến ngữ nghĩa có hỗ trợ tiếng Việt dựa việc phân tích phương án suy diễn xác định từ sở tri thức nội dung câu hỏi phân tích dựa tảng Văn phạm Phụ thuộc ([16], [17] [18]) Nội dung báo trình bày sau: Mục cung cấp góc nhìn tổng quan phương pháp đề xuất nghiên cứu liên quan ngồi nước Mơ hình tổng quát hệ thống QA nêu mục II nhằm giới thiệu tiến trình xử lý câu hỏi trả lời hệ thống đề xuất Mục III trình bày nội dung báo, cách tiếp cận khác đồ thị ý niệm phương pháp suy diễn tự động dựa giải thuật CGBAR, từ tóm lược kết thực nghiệm mục IV Cuối phần kết luận định hướng nghiên cứu chúng tơi II MƠ HÌNH HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT Về chất, hệ thống hỏi đáp tiếng Việt hoạt động lĩnh vực thư viện điện tử nhằm hỗ trợ người dùng tra cứu thông tin chuyên sâu liên quan đến tài liệu khoa học kỹ thuật Hệ thống mơ tả Hình ([17]) - 41 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Bảng Tóm lược phần mềm hỗ trợ suy diễn công bố giới BaseVISor ** Bossam * FaCT * FaCT++ * HermiT * Hoolet * Jena * KAON2 * OntoBroker ** OWLIM ** Pellet ** RacerPro * SweetRules * Giải thuật suy diễn Rulebased, Rete Rulebased Tableau Tableau Hypertableau Firstorder prover Rulebased Resolution & Datalog Rulebased Tableau Tableau Rulebased Phiên 2.0 0.9b45 1.1.8 1.2.4 2.0.2 2.0 2.1 Khơng biết Khơng biết Có Có 2008-0629 Có 2.x/3.x Khơng Khơng biết Có 2.5.4 OWL-DL Entailment Mức độ biểu hỗ trợ cho suy diễn Kiểm tra tính chắn Khơng biết Có OWL: Resolution & Datalog; Flogic: Rule-based (BottomUp, MagicSet, QSQ, DynamicFiltering) 6.0 Có Khơng Có Có Khơng SHIQ SROIQ (D) SROIQ (D) Khơng biết SHIQ (D) OWL: SHIQ (D) (for OntoBroker 6.1); F-logic SHIQ (D-) Khơng biết Có Có Có Có Có Có Rentailment, OWL RL Có SROIQ (D) Khơng biết Có Có Khơng Khơng Khơng Có Có Khơng Khơng Các dạng khác Chưa xong cho OWL DL Có Có Có Khơng Có Có Khơng Có,tự định dạng Có, SWRL & tự định dạng Khơng Khơng Có, SWRL - DL Safe Rules Có, SWRL Có, SWRL DL Safe Rules Có, SWRL, RIF, F-logic, ObjectLogic Có, tự định dạng Có, SWRL -DL Safe Rules Có, SWRL& tự định dạng Có, SWRL, RuleML, Jess Hỗ trợ DIG Hỗ trợ luật Rentailment, OWL RL Có Khơng Có, tự định dạng - 42 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 ví dụ Bộ phận chọn lọc tạo câu trả lời mô–đun cuối giúp hệ thống cung cấp câu trả lời tiếng Việt dạng ngôn ngữ tự nhiên cho người dùng cách thân thiện dễ hiểu Đây chức dự kiến hệ thống hỏi đáp tiếng Việt nhóm tác giả (như [17] [18]) III SUY DIỄN NỘI DUNG TRẢ LỜI Hình Mơ hình hệ thống hỏi đáp tiếng Việt Trong hệ thống này, ba khối chức phân tích câu hỏi tiếng Việt, phân tích xác định nội dung trả lời chọn lọc tạo câu trả lời Trong khối đầu tiên, câu hỏi tiếng Việt người dùng dạng ngôn ngữ tự nhiên phân tích theo trình tự sau đây: - Phân đoạn từ gán nhãn từ loại cho thành phần tương ứng câu hỏi Bước xử lý tạo tiền đề cho tác vụ hệ thống - Phân tích dạng câu hỏi tương ứng dựa từ hỏi thông tin thu thập bước xử lý trước Từ đây, câu hỏi ban đầu tổ chức lưu trữ dạng cấu trúc đồng thời biểu diễn dạng phân tích Thơng qua bước phân tích khối này, tùy theo câu hỏi nhập vào người dùng có dạng đơn giản hay phức tạp mà kết xuất hay nhiều ngôn ngữ (linguistic tuple) tương ứng Ở khái niệm ngôn ngữ biểu diễn cấu trúc lưu trữ câu hỏi ban đầu, thành phần gồm tác nhân, hành vi đối tượng, ví dụ Tùy thuộc vào dạng câu hỏi mà hay thành phần ngôn ngữ biểu thị từ hỏi (nghi vấn) dấu hỏi (ký hiệu “ ? ”) Trong khối kế tiếp, ngôn ngữ đóng vai trị “tế bào” sở tri thức, nên gọi tri thức (knowledge tuple) sở tri thức, hệ thống rút trích tương ứng phù hợp với nội dung từ hỏi ngôn ngữ Khái niệm tri thức dùng để diễn đạt nhóm thơng tin liên quan đến tác nhân, hành vi đối tượng, mô tả Hướng tiếp cận cho việc suy diễn nhóm tác giả đề xuất dựa tảng lý thuyết đồ thị tốn tìm đường đồ thị (trong lĩnh vực trí tuệ nhân tạo tốn rời rạc) Bước hướng tiếp cận xây dựng phát triển đồ thị phân lớp ý niệm Đồ thị đóng vai trị tảng cho phương thức suy diễn tự động bước tiếp theo, giải vấn đề tìm nội dung trả lời cho câu hỏi dựa khả xảy tương ứng với cung đường thích hợp đồ thị ban đầu Đồ thị phân lớp ý niệm Hướng nghiên cứu đồ thị ý niệm (Conceptual Graph) phát triển mạnh với nhiều nhóm nghiên cứu cơng trình liên quan2 Trong báo này, nhóm tác giả trình bày khái niệm Đồ thị phân lớp ý niệm để diễn đạt dạng đồ thị liên thơng có hướng, với tập đỉnh E gồm lớp ý niệm, tập cạnh V gồm quan hệ ngữ nghĩa liên quan đỉnh E Đồ thị ký hiệu Gcc = Đồ thị Gcc minh họa Hình gồm: E={e0:Author, e1:Conference, , e8:Topic} với tập phân lớp ý niệm {Author, Conference, , Topic} V={v8:Topic-4:Paper, v0:Author-4:Paper, , v5:Publication-6:Publisher} Đồ thị Gcc, cạnh ve1-e2 nối đỉnh (đồng thời lớp ý niệm) e1 e2 bổ sung thêm yếu tố trọng lượng, giá trị xác suất điều kiện ý niệm thuộc lớp e2 phụ thuộc vào ý niệm thuộc lớp e1, gọi đồ thị ý niệm có trọng lượng, ký hiệu Gccw = Danh sách chi tiết en.wikipedia.org/wiki/Conceptual_graph - 43 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Hình Đồ thị ý niệm phân lớp Gcc Những dạng đồ thị ứng dụng toán thuộc lĩnh vực khác nhau, xây dựng mục hướng ngữ nghĩa, thiết kế cấu trúc sở tri thức, hay phục vụ tốn tìm kiếm Trong đồ thị Gcc, với hai đỉnh e1 e2 bất kỳ, tồn đường p từ e1 đến e2, tập cung liên kết (cạnh) nối đỉnh trung gian chúng Đường p thể mối quan hệ ngữ nghĩa phần tử thuộc phân lớp e1 với phần tử thuộc phân lớp e2 thông qua quan hệ bắc cầu lớp trung gian Với k đỉnh e1, e2, …, ek Gcc, tồn đường đỉnh dựa trường hợp: - Ba đỉnh nằm “thẳng hàng” đường đi; - Các đỉnh thuộc cung liên kết thuộc đường khác nhau; Ví dụ từ đồ thị Hình 3: - Trường hợp thứ xảy đỉnh e0:Author; e5:Publication e6:Publisher đỉnh nằm đường p: e0:Author-e4:Papere5:Publication-e6:Publisher - Trường hợp thứ hai xảy với đỉnh e0:Author, e3:Keyword, e7:Reference có hai đường liên quan p1: e0:Author-e4:Paper-e3:Keyword p2: e0:Author-e4:Paper-e7:Reference Tương tự, đường pw đồ thị Gccw diễn đạt mối quan hệ ngữ nghĩa có trọng số dựa trị xác xuất tích hợp trị xác suất trung gian Dạng mẫu đồ thị Gcc Từ đồ thị Gcc hay Gccw, hai đỉnh e1 e2 ln tồn đường xun qua đỉnh Tập V-1, Số (27), tháng 5/2012 trung gian theo hướng từ e1 đến e2 hay ngược lại Đường dù theo hướng tạo thành chuỗi quan hệ ngữ nghĩa nối tiếp Chuỗi biểu diễn quan hệ thành phần cốt lõi nội dung hay nhiều câu văn Dẫn đến, câu hỏi hay câu trả lời (liên quan đến nội dung văn bản) gắn liền với khung lõi lớp thông tin liên quan bắc cầu Khung thông tin gọi dạng mẫu Ví dụ dạng mẫu AuthorPaper-Publication-Publisher liên quan đến đường từ đỉnh Author đến Publisher (như Hình 2) Thơng qua đường dạng mẫu xác định, ta tìm dạng mẫu ngược lại3 Ví dụ Publisher-Publication-Paper-Author dạng mẫu ngược tìm từ ví dụ Dựa đồ thị Gcc (hoặc Gccw), tập dạng mẫu xác định thông qua phương án sau: Phương án xây dựng mẫu từ đồ thị Gcc Nhập: đồ thị Gcc đại diện cho ontology O Xuất: tập dạng mẫu biểu diễn phân lớp thông tin O Xử lý: Với i=1 n (n số đỉnh Gcc) 1.1 Tìm tất đường qua i đỉnh Gcc 1.2 Xác định lưu trữ dạng mẫu dựa nút (phân lớp) có đường tìm Trả danh mục lưu trữ dạng mẫu xác định Từ đồ thị Hình 2, tập mẫu xác định Bảng Những dạng mẫu phát triển để xây dựng tập hợp câu hỏi (kiểu Yes/No hay WH) hay câu trả lời hệ thống hỏi đáp Bảng Danh sách mẫu STT … 70 71 72 Các thành phần liên quan Author-Paper Author-Paper-Publication Author-Paper-Publication-Publisher Author-Paper-Reference … Topic-Publication Topic-Publication-Publisher Topic-Paper-Reference Để đơn giản, cần nêu dạng mẫu khơng trình bày dạng mẫu ngược - 44 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Ví dụ, số câu hỏi liên quan dạng mẫu AuthorPaper-Reference như: - WH: Ai viết báo OPQ? - Y/N: Tác giả ABC viết báo OPQ phải không? - WH: Tác giả ABC viết báo OPQ có tham khảo nào? - Y/N: Tác giả ABC viết báo OPQ có tham khảo XYZ khơng? Với câu hỏi dạng chủ động bị động, bước phân tích (xem [18]) nhận dạng thành phần tương ứng nội dung hỏi Tùy thuộc vào thành phần nghi vấn câu hỏi mà dạng mẫu hay dạng mẫu ngược chọn phù hợp Suy diễn nội dung câu trả lời Sau trình phân tích câu hỏi dựa dạng mẫu nêu trên, bước suy diễn tìm nội dung trả lời (trong Hình 1) thực dựa giải thuật suy diễn đường dựa đồ thị (Conceptual Graphbased answering reasoning algorithm, CGBAR) Giải thuật phát triển dựa giải thuật tìm đường lý thuyết đồ thị trí tuệ nhân tạo4 Ở đây, q câu hỏi người dùng, ti mệnh đề hỏi q đồng thời sở để xác định ngôn ngữ, Di tập ngôn ngữ xác định từ q; vik nội dung thành phần ti q tương ứng với phân lớp cik có tính chất aik; cij đỉnh (điểm) đồ thị; n(i) độ dài đường đồ thị tương ứng với ti; Giải thuật CGBAR Nhập: - câu hỏi q có mệnh đề hỏi thành phần Q ={qi}i=1 n, - ontology O chứa tập phân lớp C ={cj}j=1 m Xuất: nội dung trả lời Xử lý: Xây dựng đồ thị Gcc cho tập C ontology O Với mệnh đề hỏi qi (i=1, 2, …, n) 2.1 Di ∅ 2.2 Với thành phần tik mệnh đề hỏi qi 2.2.1 Xác định trị vik, phân lớp cik tính chất aik 2.2.2 Di Di ∪{} Một tham khảo trích từ en.wikipedia.org/wiki/A*_search_algorithm Tập V-1, Số (27), tháng 5/2012 Với Di={ / k=1, 2, …, n(i)} (i=1 n) 3.1 Sắp xếp thứ tự tên lớp cho ci1 liên quan đến vi1 khác rỗng khác từ nghi vấn 3.2 Thực tìm kiếm đường ngắn p điểm đầu ci1 đến điểm cuối cin(i) đồ thị Gcc 3.3 Nếu n(i)=2, thực suy diễn kết hợp kết tìm ti1 liên quan vi1và ti2 liên quan vi2, từ trả kết trung gian chuyển sang bước 3.4 Nếu n(i)>2, thực suy diễn kết hợp kết tìm tik liên quan vik tik+1 liên quan vik+1 (k

Ngày đăng: 25/10/2020, 22:49

Hình ảnh liên quan

Bảng 1. Tóm lược về các phần mềm hỗ trợ suy diễn công bố trên thế giới - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Bảng 1..

Tóm lược về các phần mềm hỗ trợ suy diễn công bố trên thế giới Xem tại trang 3 của tài liệu.
Hình 1. Mô hình hệ thống hỏi đáp tiếng Việt Trong  hệ  thống  này,  ba  khối  chức  năng  chính  là  bộ  phân  tích  câu  hỏi  tiếng  Việt,  bộ  phân  tích  và  xác  định nội dung trả lời và bộ chọn lọc tạo câu trả lời - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Hình 1..

Mô hình hệ thống hỏi đáp tiếng Việt Trong hệ thống này, ba khối chức năng chính là bộ phân tích câu hỏi tiếng Việt, bộ phân tích và xác định nội dung trả lời và bộ chọn lọc tạo câu trả lời Xem tại trang 4 của tài liệu.
Hình 2. Đồ thị các ý niệm phân lớp Gcc - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Hình 2..

Đồ thị các ý niệm phân lớp Gcc Xem tại trang 5 của tài liệu.
Ví dụ từ đồ thị trong Hình 3: - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

d.

ụ từ đồ thị trong Hình 3: Xem tại trang 5 của tài liệu.
Hình 4. Kết quả cài đặt hoàn chỉnh của động cơ suy diễn  - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Hình 4..

Kết quả cài đặt hoàn chỉnh của động cơ suy diễn Xem tại trang 7 của tài liệu.
559448 273360 48.86% Nội  dung  bài  báo  - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

559448.

273360 48.86% Nội dung bài báo Xem tại trang 7 của tài liệu.
Bảng 3. Thống kê dữ liệu đã huấn luyện - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Bảng 3..

Thống kê dữ liệu đã huấn luyện Xem tại trang 7 của tài liệu.
Hình 3. Nội dung giải thuật CGBAR - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Hình 3..

Nội dung giải thuật CGBAR Xem tại trang 7 của tài liệu.
Bảng 4. Kết quả suy diễn nội dung trả lời - Một giải pháp suy diễn câu trả lời trong hệ thống hỏi đáp thông tin

Bảng 4..

Kết quả suy diễn nội dung trả lời Xem tại trang 8 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan