2 Nội dung báo cáo 1 Giới thiệu 2 Độ tương đồng câu 3 Phương pháp tính độ tương đồng câu 4 Áp dụng và kết quả thực nghiệm 5 Kết luận và hướng nghiên cứu tiếp 3 1 Giới thiệu Vai trò độ tương đồng ngữ[.]
Nội dung báo cáo Giới thiệu Độ tương đồng câu Phương pháp tính độ tương đồng câu Áp dụng kết thực nghiệm Kết luận hướng nghiên cứu tiếp Giới thiệu Vai trò độ tương đồng ngữ nghĩa câu • Sự quan tâm đặc biệt hội nghị quốc tế như: DUC… • Áp dụng tốt độ đo làm ứng dụng trở nên “thông minh” Tính cấp thiết độ tương đồng ngữ nghĩa tiếng Việt • Được nêu đề tài cấp nhà nước KC.01.01.06-10 Độ tương đồng câu Độ tương đồng câu gì? Ví dụ: Xét hai câu sau: “Tơi nam sinh” “Tôi nữ sinh” ta thấy hai câu có tương đồng cao Một tài liệu d gồm có n câu: d = s1, s2, , sn Mục tiêu tốn tìm giá trị hàm S(si, sj) với S (0,1), i, j = 1, ,n Hàm S(si, sj) gọi độ đo tương đồng hai câu si sj Độ tương đồng câu Các phương pháp tính độ tương đồng câu Phương pháp sử dụng thống kê Độ đo cosine Phương pháp sử dụng xử lý ngôn ngữ tự nhiên Sử dụng phân tích cấu trúc ngữ pháp Sử dụng mạng ngữ nghĩa từ • • Wordnet corpus Brown corpus Phương pháp tính độ tương đồng câu Mơ hình phương pháp [LLB06] Phương pháp tính độ tương đồng câu Thực qua bước : a Tiền xử lý b Tính độ tương tự từ dựa Wordnet c Độ tương đồng ngữ nghĩa hai câu d Độ tương đồng thứ tự từ câu e Tính độ tương đồng cho tồn câu 3a Tính độ tương tự từ dựa wordnet Vì sử dụng độ tương tự từ? Ví dụ: Teacher educator professional - adult - person - male male child - boy [LLB06] 3a Tính độ tương tự từ dựa Wordnet Kết thực nghiệm độ đo độ tương tự từ dựa Wordnet cho thấy độ đo JCN có độ xác cao [Pad03] Measure Nouns Only All POS Jiang-Conrath(JCN) 0.46 n/a Ex Gloss Overlaps 0.43 0.34 Lin 0.39 n/a Vector 0.33 0.29 Hirst-St.Onge 0.33 0.23 Resnik 0.29 n/a Leacock Chodorow 0.28 n/a9 Độ đo JCN JCN sử dụng nội dung thông tin (Information Content) khái niệm (concept) IC(concept) = –log(P(concept)) với: P(concept) = freq(concept)/N Cơng thức tính khoảng cách ngữ nghĩa hai từ: distance = IC(c1) + IC(c2) – IC(lcs(c1, c2)) Mối quan hệ hai từ c1 c2 sau: Relatedness(c1, c2) = / distance 10 3b Độ tương đồng ngữ nghĩa hai câu Gọi si vector ngữ nghĩa câu Sự giống ngữ nghĩa hai câu hệ số cosin hai vector: Ss s1.s2 || s1 || || s2 || 11 3c.Độ tương đồng thứ tự từ câu Ví dụ: T1: A quick brown dog jumps over the lazy fox T2: A quick brown fox jumps over the lazy dog Gọi r vector thứ tự từ câu Cơng thức để tính độ tương đồng thứ tự từ câu sau: Sr || r1 r2 || || r1 r2 || 12 3d Độ tương đồng toàn câu Sự giống toàn câu kết hơp độ tương tự mặt ngữ nghĩa thứ tự từ câu Với 13 Áp dụng độ tương đồng câu cho tóm tắt văn tiếng Việt Tóm tắt văn tiếng Việt dựa vào câu truy vấn người dùng 14 Quy trình tóm tắt văn Q trình tiền xử lý Lọc nội dung chính, tách câu, loại bỏ câu ngắn Tách từ dựa vào công cụ JvnSegmenter Gán nhãn từ loại dựa vào công cụ VnQtag, chọn từ có nhãn phù hợp Q trình tính tốn độ tượng tự ngữ nghĩa cặp câu Áp dụng phương pháp nêu nêu để tính độ tương đồng câu với câu truy vấn với Wordnet tiếng Việt thô Từ thực nghiệm cho thấy = 0,85 đưa kết độ tương đồng câu cao Quá trình tóm tắt văn Xếp hạng kết Chọn câu với tỷ lệ xác định trước 15 Kết thực nghiệm Câu truy vấn: “Thị trường chứng khoán nước” Đoạn văn 16 Kết thực nghiệm Câu Độ đo [1] 0.54 [2] 0.65 [3] 0.87 [4] 0.74 [5] 0.27 [6] 0.23 17 Kết thực nghiệm Kết quả: Kết tóm tắt Google trả về: 18 Kết luận hướng phát triển tiếp Nghiên cứu áp dụng độ đo tương đồng câu vào xử lý ngôn ngữ tiếng Việt Thử nghiệm thành công độ đo tốn tóm tắt trang web tiếng Việt máy tìm kiếm Cải thiện kết tính tốn độ đo việc xây dựng corpus tiếng Việt (kiểu WordNet) đầy đủ 19 Tài liệu tham khảo [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết hợp phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn tiếng Việt, Một số vấn đề chọn lọc công nghệ thông tin, 2006, 413-421 [MB06] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2006 [PT05] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích tóm tắt nội dung trang web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22 [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C (2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, Document Understanding Conference 2007 (DUC 2007), Rochester, NY, April 26-27, 2007 [Bre99] Darin Brezeale (1999) The Organization of Internet Web pages Using WordNet and Self-Organizing maps, MSc Thesis, The University of Texas at Arlington, USA,1999 20 Tài liệu tham khảo [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (2006) Sentence Similarity Based on Semantic Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8): 1138-1150 [MR06] A A Mohamed, S Rajasekaran, (2006) Query-Based Summarization Based on Document Graphs, Document Understanding Workshop, June 8-9, 2006 (DUC2006),New York Marriott, Brooklyn, New York USA [NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha (2006) Vietnamese Word Segmentation with CRFs and SVMs: An Investigation The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222 [Pad03] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness MSc Thesis, University of Minnesota, Duluth, MN [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005) Semantic Similarity Between Sentences Through Approximate Tree Matching IbPRIA (2) 2005: 638-646 21 ... lý b Tính độ tương tự từ dựa Wordnet c Độ tương đồng ngữ nghĩa hai câu d Độ tương đồng thứ tự từ câu e Tính độ tương đồng cho tồn câu 3a Tính độ tương tự từ dựa wordnet Vì sử dụng độ tương tự... câu sau: Sr || r1 r2 || || r1 r2 || 12 3d Độ tương đồng toàn câu Sự giống toàn câu kết hơp độ tương tự mặt ngữ nghĩa thứ tự từ câu Với 13 Áp dụng độ tương đồng câu cho tóm tắt văn tiếng Việt. .. gọi độ đo tương đồng hai câu si sj Độ tương đồng câu Các phương pháp tính độ tương đồng câu Phương pháp sử dụng thống kê Độ đo cosine Phương pháp sử dụng xử lý ngôn ngữ tự nhiên Sử dụng