Question Oriented Multi Docu ment Summarization Question Oriented Multi Docu ment Summarization Trần Mai Vũ Giới thiệu • Đặt vấn đề – Duc 2005 2007 – Hệ thống Q&A Start SYSTEM (MIT) Tài liệu • [1] A S[.]
Question-Oriented Multi Document Summarization Trần Mai Vũ Giới thiệu • Đặt vấn đề: – Duc 2005-2007 – Hệ thống Q&A Start SYSTEM (MIT) Tài liệu • [1] A Semantic Free-text Summarization System Using Ontology Knowledge R Verma, University of Houston P Chen, University of Houston-Downtown W Lu, University of Texas-Austin,DUC 07 • [2] Language Model Passage Retrieval for Quest ion-Oriented Multi Document Summarization J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C Yang, National Central University,DUC 07 Mơ hình áp dụng Độ tương đồng ngữ nghĩa • Sử dụng mạng ngữ nghĩa (Tri thức miền) – Wordnet – Wikipedia • Phân tích chủ đề – Hidden topic – Phân tích chủ đề Wordnet -> Sử dụng tri thức miền(Ontology) tương ứng với chủ đề cụ thể để tăng cường ngữ nghĩa Sự tương đồng • Sự tương đồng mạng ngữ nghĩa kiến trúc ontology – Tổ chức theo domain/class chủ đề – Từng domain/class chứa nhiều đối tượng – Giữa đối tượng domain/class có mối liên hệ với [1] • Wordnet • UMLS (Unified Medical Language System) – Metathesaurus – Semantic Network – Specialist lexicon [1] • Quy trình hệ thống – Xây dựng truy vấn từ/khái niệm Wordnet/UMLS – Loại bỏ câu gần – Xác định câu quan trọng việc tính độ đo tương đồng câu dựa vào độ tương đồng từ Mơ hình Q&A đơn giản [2] • Phân đoạn đoạn văn bản/các câu • Phân cụm đoạn văn bản/các câu • Trích chọn đoạn văn bản/các câu tương ứng với câu truy vấn • Sinh tóm tắt cho cụm văn trích chọn [2] • Phân cụm đoạn văn / câu – Sử dụng túi từ – Sử dụng giải thuật Kmean • Trích chọn đoạn văn / câu tương ứng với câu truy vấn – Sử dụng mơ hình ngơn ngữ n-gram (Chen & Goodman 1998) [2] • Sinh tóm tắt cho cụm văn bản: – Rút câu có độ tương đồng cao với tâm cụm (top-1) đưa vào văn tóm tắt – Rút câu có độ khác biệt với văn tóm tắt cụm văn vào văn tóm tắt Tài ngun • Tài ngun – Cơng cụ tính độ tương đồng ngữ nghĩa concept wikipedia – Ontology y tế nhóm Ngân – Cơng cụ tóm tắt đa văn dựa vào giải thuật MMR chủ đề ẩn Mơ hình Các bước triển khai • Phân đoạn câu • Trích chọn câu có độ tương đồng ngữ nghĩa với câu hỏi/câu truy vấn – Sử dụng phương pháp kết hợp độ đo tương đồng ngữ nghĩa wikipedia ontology y tế – Dựa vào ngưỡng xác định để đưa danh sách câu phù hợp Các bước triển khai • Phân cụm câu trả từ trình trước – Sử dụng giải thuật KMEAN (Sử dụng cơng cụ chị Tú&Trang) • Tóm tắt đa văn với cụm liệu – Sử dụng giải pháp báo [2] – Sử dụng MMR