ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO KIỂU TÓM LƯỢC

71 306 0
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO KIỂU TÓM LƯỢC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO KIỂU TÓM LƯỢC Tóm tắt văn q trình chắt lọc thông tin quan trọng từ nguồn để tạo ngắn gọn nhằm đáp ứng nhiệm vụ cụ thể người dùng cụ thể Tóm tắt văn làm nhiệm vụ chọn câu hàm chứa ý chính, câu quan trọng nên chất, thuộc lĩnh vực Khai phá văn Tuy nhiên trình chắt lọc, rút gọn cần có áp dụng phương pháp Xử lý ngôn ngữ tự nhiên muốn kết văn dễ đọc, dễ hiểu mang ý nghĩa ngôn ngữ tự nhiên đầu vào Hiện nay, giới có nhiều ứng dụng Tóm tắt văn bản, với mục đích nghiên cứu thương mại Trong việc nghiên cứu, giải tốn tóm tắt văn tiếng Việt bắt đầu quan tâm vài năm gần đa phần sử dụng phương pháp thống kê Nhu cầu cấp thiết cải thiện tính tìm kiếm tăng hiệu đánh mục cho máy tìm kiếm đặt yêu cầu xây dựng hệ thống tóm tắt văn hoàn chỉnh, đáp ứng tốt mục tiêu đặt ra.Trong đồ án em trình bày kết tìm hiểu tốn Tóm tắt văn Lý thuyết cấu trúc diễn ngơn Từ xây dựng hệ thống tóm tắt văn tiếng Việt thử nghiệm, sử dụng kết hợp phương pháp Khai phá văn (thống kê tần suất xuất từ) Xử lý ngôn ngữ tự nhiên (cấu trúc diễn ngôn) Bố cục nội dung đồ án:  Phần 1: Đặt vấn đề định hướng giải pháp Chương I: Tổng quan tốn tóm tắt văn bản, đưa số khái niệm tổng quan tiêu chí đánh giá kết tóm tắt Chương II: Giới thiệu nội dung Lý thuyết cấu trúc diễn ngôn Mann Thompson đề xuất số cải tiến Marcu Trình bày ưu nhược điểm phương pháp cấu trúc diễn ngôn  Phần 2: Các kết đạt Chương I: Phân tích cấu trúc diễn ngơn Chương II: Xây dựng chương trình tóm tắt văn thử nghiệm  Phần kết luận chung Kết đạt hướng phát triển Lời cảm ơn Em xin bày tỏ lịng biết ơn vơ hạn đến tập thể thầy cô giáo trường Đại Học Bách Khoa Hà Nội, suốt năm học vừa qua, trang bị cho em nhiều kiến thức quý báu, cần thiết cho việc hoàn thành đồ án tốt nghiệp Các thầy cô gương mẫu mực tác phong làm việc nghiên cứu để em noi theo Đặc biệt, em xin bày tỏ biết ơn sâu sắc tới PGS.TS Lê Thanh Hương tận tình hướng dẫn em từ ngày đầu nhận đề tài bảo cho em suốt trình làm đồ án Xin gửi lời cảm ơn tới bạn lớp HTTT - K52 , động viên tơi lúc khó khăn ln nhiệt tình trao đổi tài liệu, kiến thức chun mơn kinh nghiệm lúc làm đồ án Cuối cùng, muốn gửi lời cảm ơn sâu sắc đến cha mẹ, gia đình tất bạn bè, người kịp thời động viên giúp đỡ vượt qua khó khăn sống Mục lục Mục lục .3 Danh mục hình vẽ 10 10 Danh mục thuật ngữ 12 Lời mở đầu 13 PHẦN ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 14 Hình 1.1 Các kiểu tóm tắt văn với tỉ lệ tóm tắt khác .15 Hình 1.2: Mơ hình phương pháp quan hệ lẫn 17 Hình 1.3: Liên kết từ vựng 18 Hình 2.1 – Cây mô tả cấu trúc diễn ngôn văn 25 Hình 2.2 – Một số quan hệ diễn ngôn biểu diễn dạng 26 Hình 2.3 – Một văn có nhiều cách phân tích khác 28 Hình 2.4 : Lựa chọn cấu trúc diễn ngôn 28 Hình 2.5 – Cây RS theo đề xuất Marcu .29 PHẦN CÁC KẾT QUẢ ĐẠT ĐƯỢC 29 Hình 2.6 : Tổng quan q trình phân tích diễn ngơn 31 Hình 2.7: Các bước phân đoạn diễn ngôn 32 Hình 2.8 : Sơ đồ thao tác cần thực bước tách câu thành ĐVDNCB 37 Hình 2.9: Xây dựng CTDN cho ĐVDNCB mức câu bước tách 41 Hình 2.10: Giải thuật xác định quan hệ diễn ngơn sử dụng từ hiệu .45 Hình 2.11 : Bộ tuyển mối quan hệ diễn ngôn .46 Hình 2.12: Giải thuật xác định quan hệ diễn ngôn sử dụng độ tương đồng 47 Hình 2.13: Các cấu trúc diễn ngôn thu sau tách xác định quan hệ mức câu 49 Hình 2.14: Các cấu trúc diễn ngôn thu sau tách xác định quan hệ mức câu 50 Hình 2.15: Giải thuật xây dựng văn phạm dạng chuẩn Chomsky từ tập QHDN 54 Hình 2.16: Cây suy dẫn từ ký hiệu S(1, N, status, rel, promotion_set, used_relations) xâu 56 Hình 2.17: Cây cấu trúc diễn ngôn tương ứng với suy dẫn 56 Hình 2.18: Một đoạn văn có tới cấu trúc diễn ngơn 57 Hình 2.19 : Hàm lượng giá 59 Hình 3.1: Các mơ-đun hệ thống tóm tắt văn dưa cấu trúc diễn ngôn 62 Hình 3.2: Ba phương pháp TFIPF, Position Title thực độc lập với phương pháp dựa RST 66 Hình 3.3 : Giao diện chương trình 67 Text : Nội dung văn load từ file xml (File - > Open - >file xml) .67 Percent : Tỷ lệ nén văn (%) 67 Show scores : Hiển thị bảng thống kê độ đo đơn vị văn Đơn vị văn có độ đo cao khả xuất kết tóm tắt lớn 67 Việc lựa chọn trọng số phương pháp người dùng tự lựa chọn thông qua bảng Config Ảnh hưởng phương pháp khác nhau, dẫn đến kết tóm tắt khác 67 Hình 3.4 : Lựa chọn thông số cho phương pháp 68 Hình 3.5 : Bảng thống kê độ đo 68 KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72 Daniel Marcu, The Rhetorical Parsing, Summarization and Generation, of Natural Language Texts, Ph.D Thesis (1997) [page 19-219] 72 Lê Thanh Hương, An approach in automatically generating discourse structure of text PGS.TS Faculty of Information Technology, Hanoi University of Technology, VietNam [page 1-12] 72 Mani & Maybury, Automatic Summarization, ACL 2001 72 Hoàng Trọng Phiến, Ngữ pháp tiếng Việt – Câu, Nhà xuất Đại học Trung học chuyên nghiệp 1980 .72 William.C.Mann, Sandra.A.Thompson, Rhetorical structure theory: A theory of text organization Reprinted from the Structure of Discourse, University of Southern California.[page 2-46] 72 M.Suneetha, S Sameen Fatima , Corpus based Automatic Text Summarization System with HMM Tagger, International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, Volume-1, Issue-3, July 2011 [page 1-6] .72 YihongGong & XinLiu, Generic Text Summarization Using Relevance Measure and Latent Semanti Analysis Proceedings of the 23rd International Conference on Computational Linguistics (Coling2010), [page 869–876], Beijing, August 2010 .72 Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A Crockett (Sentence Similarity Based on Semantic Nets and Corpus Statistics Volume 18 Issue 8, August 2006 [page 1138 – 1150] IEEE Trans .72 Hiroshi ISHII & Rihua LIN & Teiji FURUGORI, A System for Text Summarization Based on Word Importance Measures, Department of Computer Science The University of Electro-Communications 1-5-1 Chofugaoka, Chofu-shi, Tokyo 182-8585, Japan.[page 3-5] 72 10 Wauter Bosma, DiscourseOriented Summarization, 2008 , ISBN978-90-365-2649-4 [page 84-99] 72 11 Martin Hassel, Resource Leanand Portable Automatic Text Summarization (2007), KTH School of Computer Science and Communication , Stockholm [page 712] 72 12 Simone Teufel, Argumentative Zoning: Information Extraction from Scientic Text , University of Edinburgh 1999 [page 129-141] .72 13 Debug and Fix code http://stackoverflow.com/ 72 15 Danh mục Stopword : http://internetmarketing.ctit.vn/seo/thuat-ngu-seo/stopwords-la-gi.html 73 16 Regex : http://docs.oracle.com/javase/tutorial/essential/regex/ .73 PHỤ LỤC 74 Các số biểu thị quan hệ diễn ngôn 74 Tên quan hệ diễn ngôn 74 Hằng số 74 Ý nghĩa 74 LEAF 74 .74 Đây nhãn quan hệ giả, dùng để nút CTDN 74 CAUSE-EFFECT 74 .74 Nhân – 74 CONDITION 74 .74 Điều kiện 74 LIST .74 .74 Liệt kê .74 EXPLANATION 74 .74 Giải thích .74 PARENTHETICAL .74 .74 Chú thích .74 PURPOSE 74 .74 Mục đích 74 JOINT 74 .74 Kết hợp – quan hệ yếu 74 ELABORATION 74 .74 Bổ nghĩa 74 EXAMPLE 74 .74 Ví dụ .74 MANNER 74 10 .74 Cách thức .74 CIRCUMSTANCE .74 11 .74 Hoàn cảnh 74 CONTRAST 74 12 .74 Tương phản 74 SAME-UNIT 74 13 .74 Đây nhãn quan hệ giả, dùng để đơn vị văn phải kết hợp với có nghĩa 74 Một số luật tập luật dùng để tách xác định quan hệ diễn ngôn, tập luật chưa đủ lớn không áp dụng cho tất trường hợp 75 Tập luật LL 75 | B | B | A | | _{vì_}__!_{nên_}_ | | | | -1 | -1 75 | B | B | A | | _{vì_}__!_{,_}_ | | | | -1 | -1 75 | B | B | A | | _{nếu_}__!_{thì_}_ | | | | -1 | -1 75 | B | B | A | | _{nếu_}__!_{,_}_ | | | | -1 | -1 .75 để | B | B | A | | __!_{,_}__{,_}__ | | | | -1 | -1 .75 để | B | B | A | | __!_{,_}__ | | | | -1 | -1.75 để | B | B | A | | _{để_}__!_{,_}_ | | | | -1 | -1 75 với | B | B | A | | __!_{,_}__ | | 10 | | -1 | -1 75 không | M | B | A | | __ | | | | -1 | -1 75 vừa | B | B | A | | _{vừa_}__!_{vừa_}__{lại vừa_}_ | | | | -1 | -1 75 vừa | B | B | A | | _{vừa_}__!_{vừa_}__{vừa_}_ | | | | -1 | -1 .75 vừa | B | B | A | | _{vừa_}__{,_}_!_{vừa_}_ | | | | -1 | -1 75 vừa | B | B | A | | _{vừa_}__!_{vừa_}_ | | | | -1 | -1 75 Tập luật LN 76 | B | N | A | | __!__ | | 11 | | -1 | -1 .76 Tâp luật NL 76 để | N | B | A | | __ | | | | -1 | -1 76 để | N | B | A | | __ | | | | -1 | -1 .76 để | N | B | A | 1|_ _ | | | | -1 | -1 76 | N | B | A | | _ _ | | | | -1 | -1 76 | N | B | A | | _ _ | | | | -1 | -1 76 : | N | B | A | | __!_{:_}_ | | | | -1 | -1 .76 | N | B | A | | __ | | 11 | | -1 | -1 .76 song | B | N | B | | _{song_}___ | | 12 | | | -1 76 | B | N | B | | _{do đó_}_ | | | | | -1 76 tóm lại | B | N | B | | _{do đó_}_ | | | | | -1 76 | N | B | A | | __ | | | | -1 | -1 .76 Danh mục hình vẽ Hình 1.1 Các kiểu tóm tắt văn với tỉ lệ tóm tắt khác .15 Hình 1.2: Mơ hình phương pháp quan hệ lẫn 17 Hình 1.3: Liên kết từ vựng 18 Hình 2.1 – Cây mơ tả cấu trúc diễn ngôn văn 25 Hình 2.2 – Một số quan hệ diễn ngôn biểu diễn dạng 26 Hình 2.3 – Một văn có nhiều cách phân tích khác 28 Hình 2.4 : Lựa chọn cấu trúc diễn ngôn 28 Hình 2.5 – Cây RS theo đề xuất Marcu .29 Hình 2.6 : Tổng quan q trình phân tích diễn ngơn 31 Hình 2.7: Các bước phân đoạn diễn ngôn 32 Hình 2.8 : Sơ đồ thao tác cần thực bước tách câu thành ĐVDNCB 37 Hình 2.9: Xây dựng CTDN cho ĐVDNCB mức câu bước tách 41 Hình 2.10: Giải thuật xác định quan hệ diễn ngôn sử dụng từ hiệu .45 Hình 2.11 : Bộ tuyển mối quan hệ diễn ngôn .46 Hình 2.12: Giải thuật xác định quan hệ diễn ngôn sử dụng độ tương đồng 47 Hình 2.13: Các cấu trúc diễn ngôn thu sau tách xác định quan hệ mức câu 49 Hình 2.14: Các cấu trúc diễn ngơn thu sau tách xác định quan hệ mức câu 50 Hình 2.15: Giải thuật xây dựng văn phạm dạng chuẩn Chomsky từ tập QHDN 54 Hình 2.16: Cây suy dẫn từ ký hiệu S(1, N, status, rel, promotion_set, used_relations) xâu 56 Hình 2.17: Cây cấu trúc diễn ngôn tương ứng với suy dẫn 56 Hình 2.18: Một đoạn văn có tới cấu trúc diễn ngơn 57 10 Ví dụ: Xét đoạn văn đây: [Chỉ vào trưa vĩ độ nhiệt đới, nhiệt độ bề mặt Hỏa đủ ấm để làm tan chút băng,4][ lượng nước nhỏ bị bay lập tức5][ áp suất khí cực nhỏ.6] Tập quan hệ diễn ngôn văn là: Sau áp dụng bước dùng để xây dựng cấu trúc diễn ngôn trên, ta thu cấu trúc diễn ngơn: Hình 2.18: Một đoạn văn có tới cấu trúc diễn ngơn Ta số nguyên nhân dẫn tới nhập nhằng này: - Có văn có nhiều cấu trúc diễn ngơn, phân tích chuyên gia Sự nhập nhằng xuất chất ngôn ngữ biểu diễn văn 57 - Do cách giải toán xây dựng cấu trúc diễn ngơn giống hệt cách tìm suy dẫn văn phạm chuẩn Chomsky Bản thân giải thuật dùng để tìm suy dẫn tiềm ẩn nhập nhằng - Do khơng có đầy đủ thơng tin để xác định xác tập quan hệ diễn ngơn văn bản, từ dẫn tới tuyển quan hệ có nhiều phần tử  số luật văn phạm tăng, khiến ta bắt gặp nhiều trường hợp sử dụng giải thuật tựaCYK làm tăng khả xuất nhập nhằng Để giải vấn đề này, ta sử dụng hướng tiếp cận đánh trọng số cho cấu trúc diễn ngơn theo tiêu chí cuối lựa chọn có trọng số cao Trong mơ-đun Phân tích cấu trúc diễn ngơn hệ thống Tóm tắt văn bản, em sử dụng kết hợp loại trọng số: - Trọng số độ xác quan hệ diễn ngơn Trong số lưu trường score luật thuộc Tập luật xác định quan hệ diễn ngơn Ví dụ: quan hệ diễn ngôn xác định cặp quan hệ từ “vì” – “nên” có độ xác 100% (tương đương với giá trị 1), quan hệ diễn ngôn phương pháp độ tương đồng gán độ xác 30% (tương đương với giá trị 0.3) Theo thước đo này, trọng số diễn ngơn tính tích trọng số quan hệ diễn ngôn tập used_relations nút gốc - Có trường hợp khác sử dụng tập quan hệ diễn ngơn theo thứ tự khác Khi trọng số tính theo thang đo Mặt khác, lối viết văn sử dụng nhiều thực tế lối viết diễn dịch, tức câu sau bổ sung, làm rõ ý cho câu trước Từ đặc điểm này, thấy cấu trúc diễn ngôn văn viết theo lối diễn dịch có xu hướng lệch bên phải Từ đó, ta sử dụng thêm trọng số độ lệch phải để xác định “cây tốt”, “cây xấu” Dưới công thức tính độ lệch phải nhị phân: Theo cách tính cơng thức này, có trọng số lớn lệch phải nhiều Ví dụ: 58 Các a) b) hình 2.18 có độ lệch phải -1; c) d) có độ lệch phải Trong mơ-đun Phân tích cấu trúc diễn ngôn, sau thu diễn ngơn văn bản, chương trình tiến hành lựa chọn có trọng số cao tính theo độ xác quan hệ diễn ngơn sử dụng Nếu có nhiều có trọng số cao ta tiếp tục lựa chọn theo tiêu chí độ lệch phải cao Nếu sau cịn nhiều chương trình lựa chọn danh sách Sinh văn tóm tắt từ cấu trúc diễn ngôn văn gốc 2.1 Hàm lượng giá Sau thu cấu trúc diễn ngôn văn bản, việc đánh giá tầm quan trọng đơn vị diễn ngơn khơng cịn phụ thuộc vào việc văn gồm có từ nào, nói chủ đề gì, viết thứ tiếng Do đến ta hồn tồn áp dụng thước đo chiến lược tóm tắt sử dụng Hệ thống tóm tắt văn tiếng Anh dựa cấu trúc diễn ngôn Dưới cơng thức đệ quy dùng để tính tốn độ quan trọng đơn vị u cấu trúc diễn ngơn D có độ sâu d Hình 2.19 : Hàm lượng giá Ví dụ : Xét cấu trúc diễn ngôn sau : 59 60 Áp dụng công thức ta thu bảng giá trị sau : 2.2 Giải thuật tóm tắt văn Đầu vào : Văn T Số p : ≤ p ≤ 100 Đầu : p% đơn vị văn quan trọng T Các bước thực : Xây dựng cấu trúc diễn ngôn DS T giải thuật phân tích diễn ngơn Xác định thứ tự theo mức độ quan trọng đơn vị DS công thức lượng giá Tiến hành phân cụm đơn vị theo độ quan trọng Chọn n đơn vị danh sách để tạo văn tóm tắt Chú ý đơn vị thuộc cụm phải chọn khơng chọn (Do n giá trị gần p% nhất) Ví dụ : Sau xác định giá trị đo độ quan trọng đơn vị văn bảng trên, ta xếp đơn vị theo thứ tự giảm dần độ quan trọng : > > 3, 10 > 1, 4, 5, 7, > P1, P10 > Giả sử p = 25, ta có văn tóm tắt gồm thành phần 2, 8, (với thứ tự xuất 2, 3, 8) 61 Chương II Xây dựng chương trình thử nghiệm Để minh họa cho kết lý thuyết trên, em xây dựng chương trình tóm tắt văn dựa cấu trúc diễn ngôn, kết hợp với số phương pháp khác TFxIPF, Position, Title, loại bỏ trạng ngữ, loại bỏ thích Tính thử nghiệm chương trình thể kích thước nhỏ tập luật dùng để phân tích cấu trúc diễn ngơn, chưa xử lý nhiều trường hợp thực tế Tóm tắt văn sử dụng cấu trúc diễn ngơn Hình 3.1: Các mơ-đun hệ thống tóm tắt văn dưa cấu trúc diễn ngơn Có thể thấy thành phần quan trọng chương trình mơ-đun phân tích cấu trúc diễn ngơn văn Các bước xây dựng mơ-đun phân tích cấu trúc diễn ngơn trình bày đầy đủ phần lý thuyết Ở ta đề cập tới số thay đổi việc tổ chức tập luật Mô-đun phân tích cấu trúc diễn ngơn sử dụng tập luật LL, LN NN, đó: -LL : tập luật tách vế có chứa từ hiệu 62 -LN : tập luật tách vế thứ chứa từ hiệu, vế thứ hai không chứa từ hiệu -NL : tập luật tách vế thứ khơng chứa từ hiệu, vế thứ hai chứa từ hiệu Để thuận tiện, cài đặt ta gộp Tập luật tách Tập luật xác định QHDN thành tập luật với dạng luật sau: Marker | Pos1 | Pos2 | Link to | Lev | Pattern | Type | Rel | Score | Max Distance | Max distance to salient Trong đó: Marker : quan hệ từ dấu câu (trong số trường hợp cụm từ bất kỳ) Pos1 : vị trí xuất hiệu từ hiệu vế thứ nhất, nhận giá trị: B(đầu), M(giữa) E(cuối) Khi xét luật tập luật NL, ta không quan tâm tới giá trị trường Pos2 : vị trí xuất hiệu từ hiệu vế thứ hai, nhận giá trị: B(đầu), M(giữa) E(cuối) Khi xét luật tập luật LN, ta không quan tâm tới giá trị trường Link to : hướng liên kết, nhận giá trị B(trước) A(sau) Nếu từ hiệu có chức diễn ngơn phạm vi ngồi câu trường dùng để vị trí tương đối đơn vị văn (câu đoạn) có quan hệ diễn ngôn với đơn vị văn chứa từ hiệu Lev : mức đơn vị văn mà từ hiệu có chức diễn ngơn Là số nguyên 3-bits: bit thứ dùng để từ hiệu có chức diễn ngơn mức đoạn, bit thứ hai dùng để từ hiệu có chức diễn ngôn mức câu bit thứ ba dùng để từ hiệu có chức diễn ngơn mức câu Pattern : khuôn dạng Trong trường hợp từ hiệu khơng có chức diễn ngơn mức câu khơng cần quan tâm tới nội dung trường Type : dùng để quan hệ diễn ngôn thuộc loại S-N, N-S hay N-N Rel : tên quan hệ diễn ngôn Score : điểm số phản ánh mức độ chắn việc xác định quan hệ diễn ngôn, nhận giá trị thực từ đến 63 Max Distance : khoảng cách lớn có thể, tính từ đơn vị văn chứa từ hiệu tới đơn vị văn có quan hệ diễn ngơn với Max Distance to Salient : khoảng cách lớn tới đơn vị văn có khả tham gia quan hệ diễn ngơn, tính theo hướng ngược với Link to Giá trị trường Max Distance Max Distance to Salient xác định cách thống kê trường hợp xảy tập ngữ liệu Ví dụ: | B | B | A | | _{vì_}__!_{nên_}_ | S-N | | | -1 | -1 - Luật xét tới xâu xuất từ hiệu “vì” - Đây từ hiệu có chức diễn ngơn mức câu - Cả quan hệ từ đứng đầu vế sau tách - Khuôn dạng để nhận biết xâu _{vì_}__{nên_}_ Nếu xâu xét thỏa mãn khn dạng tách thành vế Ví trí tách trước xuất quan hệ từ “nên” - Quan hệ diễn ngôn vế sau tách CAUSE_EFFECT (nhân – quả), thuộc loại quan hệ S-N - Độ chắn quan hệ 100% | B | N | B | | _{do đó_}_ | S-N | | | | -1 - Luật xét tới xâu xuất từ hiệu “do đó” - Đây từ hiệu có chức diễn ngôn mức câu đoạn Luật nên nằm sau luật mà “do đó” có chức diễn ngôn mức câu để tránh nhầm lẫn - “do đó” xuất đầu xâu - Đơn vị văn có quan hệ với xâu xét nằm phía trước (với giá trị Max Distance 1, đơn vị văn có quan hệ với xâu xét nằm trước nó) - Quan hệ diễn ngôn đơn vị văn CAUSE_EFFECT (nhân – quả), thuộc loại quan hệ S-N - Độ chắn quan hệ 100% 64 Kết hợp với phương pháp khác Để cải thiện hiệu chương trình tóm tắt văn sử dụng CTDN, ta kết hợp độ đo quan trọng tính theo tiếp cận CTDN với độ đo tính từ tiếp cận khác với trọng số phù hợp để có thang đo tồn diện : Score(s) = a.RST(s) + b.Title(s) + c.TFIPF(s) + d.Position(s) Trong việc lựa chọn giá trị (a, b, c, d) ảnh hưởng đến độ xác kết tóm tắt Xác định hệ số: Theo thực nghiệm, có trường hợp tổng hợp phương pháp, kết thu tồi dùng phương pháp riêng rẽ Một số phương pháp phổ biến : - Cố định từ đầu (tất 1) - Do người dùng nhập chọn phương pháp - Học tập ngữ liệu với kết cho trước (thử trọng số xem cho kết tốt nhất) Trong trường hợp này, em sử dụng phương pháp cho phép người dùng tự thiết lập trọng số 65 Hình 3.2: Ba phương pháp TFIPF, Position Title thực độc lập với phương pháp dựa RST Sau thu văn tóm tắt dựa theo phương pháp cho, em thêm bước hậu xử lý Đó loại bỏ thành phần thích, thành phần trạng ngữ dư thừa, để có tóm tắt ngắn gọn, súc tích dễ hiểu Phần trình bày phương pháp loại bỏ trạng ngữ, loại bỏ thích trình bày chi tiết phần lý thuyết 66 Một số hình ảnh chương trình Giao diện hệ thống tóm tắt văn Tiếng Việt sử dụng đồ án sau: Hình 3.3 : Giao diện chương trình  Text : Nội dung văn load từ file xml (File - > Open - >file xml)  Percent : Tỷ lệ nén văn (%)  Show scores : Hiển thị bảng thống kê độ đo đơn vị văn Đơn vị văn có độ đo cao khả xuất kết tóm tắt lớn Việc lựa chọn trọng số phương pháp người dùng tự lựa chọn thông qua bảng Config Ảnh hưởng phương pháp khác nhau, dẫn đến kết tóm tắt khác 67 Hình 3.4 : Lựa chọn thơng số cho phương pháp Hình 3.5 : Bảng thống kê độ đo Đánh giá hệ thống Do chưa xây dựng tập liệu thử nghiệm nên việc đánh giá hệ thống thực thông qua bảng khảo sát Đánh giá hệ thống theo tiêu chí : tỉ lệ nén, tỉ lệ độ đo cho phương pháp Xét văn đầu vào (1.1) (1.2) Ta có bảng khảo sát : 68 Tỉ lệ nén Tỉ lệ độ đo RST :Title+Position : TFIPF (%) Kết tóm tắt 30 0.4 : 0.5 : 0.1 [Điểm bật quan điểm giáo dục lý tưởng cho niên Bác Hồ đưa niên vào tổ chức trị, xã hội Đảng lãnh đạo để vừa giác ngộ lý tưởng cách mạng cho họ, vừa đưa họ vào hoạt động thực tiễn đấu tranh cách mạng toàn dân tộc] [Những niên yêu nước qua huấn luyện, giáo dục, đào tạo Bác Hồ đưa nước hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành cán cách mạng tiên phong đấu tranh giải phóng dân tộc].[Bác Hồ quan tâm giáo dục niên khơng có tinh thần làm chủ nước nhà mà phải thường xuyên rèn luyện, trau dồi đạo đức cách mạng: cần, kiệm, liêm, chính; chí cơng, vơ tư niên phải sức rèn luyện đạo đức cách mạng] 50 0.4 : 0.5 : 0.1 [Điểm bật quan điểm giáo dục lý tưởng cho niên Bác Hồ đưa niên vào tổ chức trị, xã hội Đảng lãnh đạo để vừa giác ngộ lý tưởng cách mạng cho họ, vừa đưa họ vào hoạt động thực tiễn đấu tranh cách mạng toàn dân tộc] [Cuốn sách Ðường kách mệnh tập hợp giảng Nguyễn Ái Quốccho lớp niên ưu tú lý tưởng, đạo đức cách mạng] [Những niên yêu nước qua huấn luyện, giáo dục, đào tạo Bác Hồ đưa nước hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành cán cách mạng tiên phong đấu tranh giải phóng dân tộc].[Bác Hồ quan tâm giáo dục niên khơng có tinh thần làm chủ nước nhà mà phải thường xuyên rèn luyện, trau dồi đạo đức cách mạng: cần, kiệm, liêm, chính; chí cơng, vô tư] , [Bác dặn niên biết yêu thương gia đình, kính trọng ơng bà, cha mẹ, người cao tuổi, nâng đỡ, dìu dắt thiếu nhi, quý trọng hiếu thảo với nhân dân] [Trung với nước, hiếu với dân nội dung đạo đức Bác khuyên nhủ niên cần thực hiện] [thanh niên phải sức rèn luyện đạo đức cách mạng] 30 0.8 : 0.2 : Điểm bật quan điểm giáo dục lý tưởng cho niên Bác Hồ đưa niên vào tổ chức trị, xã hội Đảng lãnh đạo để 69 vừa giác ngộ lý tưởng cách mạng cho họ, vừa đưa họ vào hoạt động thực tiễn đấu tranh cách mạng toàn dân tộc Cuốn sách Ðường kách mệnh tập hợp giảng Nguyễn Ái Quốccho lớp niên ưu tú lý tưởng, đạo đức cách mạng Những niên yêu nước qua huấn luyện, giáo dục, đào tạo Bác Hồ đưa nước hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành cán cách mạng tiên phong đấu tranh giải phóng dân tộc.Bác Hồ quan tâm giáo dục niên khơng có tinh thần làm chủ nước nhà mà phải thường xuyên rèn luyện, trau dồi đạo đức cách mạng: cần, kiệm, liêm, chính; chí cơng, vơ tư , Bác dặn niên biết u thương gia đình, kính trọng ơng bà, cha mẹ, người cao tuổi, nâng đỡ, dìu dắt thiếu nhi, quý trọng hiếu thảo với nhân dân Trung với nước, hiếu với dân nội dung đạo đức Bác khuyên nhủ niên cần thực niên phải sức rèn luyện đạo đức cách mạng 70 KẾT LUẬN Các kết đạt được: Trong trình thực đồ án tốt nghiệp, em tìm hiểu vấn đề liên quan tới toán Tóm tắt văn bản, Lý thuyết cấu trúc diễn ngơn, phương pháp tóm tắt Nghiên cứu vài hệ thống tóm tắt tiếng giới : TextSum, HMM Tagger, Semantic Free-text Summarization System… Đồ án đưa thêm vào bước hậu xử lý để cải thiện kết hệ thống Từ xây dựng chương trình tóm tắt văn tiếng Việt dựa cấu trúc diễn ngơn Tuy nhiên, q trình xây dựng đồ án nhiều điểm chưa đạt : chưa xây dựng tập liệu đủ, chưa có tập liệu chuẩn để áp dụng cho nhiều trường hợp văn bản, đồng thời tiến hành kiểm thử đánh giá hệ thống cách tự động Hướng phát triển: Hệ thống phân tích cấu trúc diễn ngơn mà em xây dựng cải thiện đáng kể độ xác có phân tích cú pháp chuẩn Ở bước xác định quan hệ diễn ngôn ta cài đặt phương pháp sử dụng cặp từ có quan hệ ngữ nghĩa thay cài đặt phương pháp độ tương đồng, hay sử dụng phương pháp có độ xác cao LSA… Mặc dù chưa đưa kết kiểm chứng độ xác hệ thống, với độ xác cao, em hi vọng hướng tiếp cận sử dụng cấu trúc diễn ngôn giúp xây dựng hệ thống tóm tắt văn tiếng Việt thật hiệu hữu ích 71 ... Đọc tóm lược trước đọc chi tiết 14 Văn tóm tắt bao gồm: văn trực tuyến, văn ngoại tuyến, siêu văn bản, Tuỳ theo yêu cầu tóm tắt mà tóm tắt văn phân loại thành nhiều kiểu tóm tắt văn khác nhau: Tóm. .. ngôn” làm đồ án tốt nghiệp cho 13 PHẦN ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP Chương I Tổng quan tóm tắt văn Phát biểu tốn • Cho văn bản, đưa tóm tắt gồm ý văn Bản tóm tắt phải chứa đầy đủ thơng tin quan... tìm kiếm tăng hiệu đánh mục cho máy tìm kiếm đặt yêu cầu xây dựng hệ thống tóm tắt văn hồn chỉnh, đáp ứng tốt mục tiêu đặt ra.Trong đồ án em trình bày kết tìm hiểu tốn Tóm tắt văn Lý thuyết cấu

Ngày đăng: 05/04/2019, 10:44

Từ khóa liên quan

Mục lục

  • Mục lục

  • Danh mục hình vẽ

  • Danh mục thuật ngữ

  • Lời mở đầu

  • PHẦN 1. ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP

    • Chương I. Tổng quan tóm tắt văn bản

      • 1. Phát biểu bài toán

      • 2. Các phương pháp

        • 2.1. Các phương pháp dựa trên kết quả thống kê

        • 2.2. Các phương pháp dựa trên cấu trúc ngữ nghĩa

        • 2.3 Kết hợp các phương pháp khác

        • 3. Đánh giá kết quả

          • 3.1. Các phép đo

          • 3.2. Các phép đánh giá

          • Chương II. Lý thuyết cấu trúc diễn ngôn

            • 1. Các nghiên cứu trước đây về Lý thuyết cấu trúc diễn ngôn

              • 1.1. Grosz và Sidner

              • 1.2. Mann và Thompson

              • 1.3. Daniel Marcu (1997)

              • 1.4. Các nghiên cứu khác

              • 2. Lý thuyết cấu trúc diễn ngôn

                • 2.1 Giới thiệu

                • 2.2 Một số tính chất cơ bản của cấu trúc văn bản

                • 2.3 Lý thuyết cấu trúc diễn ngôn

                • 2.4 Một số hạn chế của lý thuyết cấu trúc diễn ngôn

                • Quy ước :

Tài liệu cùng người dùng

Tài liệu liên quan