1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tự động sinh mục lục cho văn bản

47 236 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 850,43 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Cường XÂY DỰNG MỤC LỤC CHO VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS HÀ QUANG THUỴ HÀ NỘI – 2007 i LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ, người thầy dìu dắt tơi suốt bao năm qua bước đường nghiên cứu khoa học Tôi xin chân thành cảm ơn giúp đỡ góp ý nhiệt tình TS Nguyễn Lê Minh TS Phan Xn Hiếu suốt q trình nghiên cứu hồn thành luận văn Tôi xin chân thành cảm ơn giúp đỡ, tạo điều kiện khuyến khích tơi trình làm việc nghiên cứu tập thể thầy cô anh chị em Bộ mơn Các hệ thống thơng tin Phịng thí nghiệm Công nghệ tri thức Tương tác người máy Và cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2007 Tác giả Nguyễn Việt Cường ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn hoàn thành sở nghiên cứu, tổng hợp phát triển kĩ thuật tóm tắt văn nước giới thực Luận văn không chép nguyên từ nguồn tài liệu khác iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .vii MỞ ĐẦU Chương GIỚI THIỆU BÀI TOÁN 1.1 Bài tốn tóm tắt văn 1.2 Bài toán xây dựng mục lục cho văn 1.3 Phương hướng giải toán 1.4 Các cơng trình liên quan Chương PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ 2.1 Phân đoạn văn 2.2 Các phương pháp phân đoạn văn 2.2.1 Sử dụng mối liên kết từ vựng 2.2.2 Sử dụng mơ hình nhát cắt cực tiểu 13 2.3 Sinh tiêu đề cho văn 17 2.4 Các phương pháp sinh tiêu đề cho văn 18 2.4.1 Phương pháp trích chọn cụm từ 18 2.4.2 Phương pháp hai pha 19 2.5 Tóm tắt chương hai 20 Chương XÂY DỰNG MỤC LỤC CHO VĂN BẢN 21 3.1 Mơ hình tích hợp thuật tốn 21 3.2 Đảm bảo tính hợp lí mục lục 22 3.3 Các phương pháp đánh giá 23 3.3.1 Đánh giá thuật toán phân đoạn 23 Độ đo Pk 24 Độ đo WindowDiff 26 3.3.2 Đánh giá thuật toán sinh tiêu đề 26 3.4 Tóm tắt chương ba 27 iv Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 28 4.1 Môi trường thử nghiệm 28 4.2 Dữ liệu thử nghiệm 29 4.3 Quá trình thử nghiệm 32 4.4 Kết thử nghiệm 32 4.4.1 Kết phân đoạn văn 32 4.4.2 Kết sinh tiêu đề 33 4.5 Đánh giá thử nghiệm 34 4.5 Phương hướng cải tiến 35 4.6 Tóm tắt chương bốn 35 KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 v DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT STT Kí hiệu/Viết tắt Diễn giải TF Term Frequency – Tần suất khái niệm TF * IDF Term Frequency * Inverse Document Frequency vi DANH MỤC CÁC BẢNG Bảng Ví dụ độ tương tự khối văn 11 Bảng Danh sách công cụ phần mềm sử dụng để thử nghiệm 28 Bảng Cấu trúc văn thử nghiệm 29 Bảng Danh sách từ dừng 30 Bảng Tập nhãn từ loại (tập mở) 30 Bảng Tập nhãn từ loại (tập đóng) 31 Bảng Kết phân đoạn văn 32 Bảng Sinh tiêu đề cho phân đoạn gốc 33 Bảng Sinh tiêu đề cho phân đoạn C99 33 Bảng 10 Sinh tiêu đề cho phân đoạn TextTiling 34 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Đồ thị dotplotting cho văn 13 Hình Phân bố độ dài tiêu đề văn theo Reuters-1997 17 Hình Ví dụ đánh giá thuật tốn phân đoạn 24 Hình Cách xác định tham số cho độ đo Pk 25 Hình Kết phân đoạn văn 33 MỞ ĐẦU Trong vài thập kỉ qua, lượng thơng tin số hố ngày nhiều Ban đầu thư viện với sách lưu trữ số hoá, tiếp đến nội dung thơng tin đưa lên Internet nhiều hình thức khác Hơn nữa, với đời World Wide Web thơng tin thực bùng nổ, người ngày muốn có nhiều thơng tin muốn tìm cách để nắm bắt thơng tin nhanh, xác đọng Rất nhiều tốn xử lí ngơn ngữ tự nhiên đặt giải nhằm giúp máy tính hiểu phần văn số hố từ trình bày lại theo hình thức để giúp người tìm kiếm thu thập thơng tin nhanh Các tốn kể đến như: thu nhận thơng tin, phân cụm văn bản, phân lớp văn bản, rút trích thơng tin, hệ thống hỏi đáp, tóm tắt văn bản,… Những toán phần giải thể phần ý nghĩa người sử dụng Ví dụ hệ thống máy tìm kiếm Yahoo!, Google,… giúp người dùng thu thập thông tin theo truy vấn, trả lại trang thông tin tóm tắt nội dung trang thơng tin để giúp người nhanh chóng tìm thơng tin cần Bài tốn tóm tắt văn đời với vai trò giúp người truy cập thơng tin dễ dàng nắm bắt nội dung văn dạng đọng Một ví dụ điển hình tủ chứa thẻ trình bày tóm tắt thơng tin sách thư viện, giúp người đọc tìm kiếm nhanh tới sách cần Hay thời đại thơng tin số hố nay, đầu báo hay trình bày viết dài vấn đề đó, người ta thường đưa thêm vào đoạn tóm tắt ngắn tồn nội dung Tuy nhiên, khơng phải lúc thơng tin tóm tắt có sẵn, phần tóm tắt thực theo phương pháp thủ công tác giả viết Từ đặt vấn đề để tự động hố q trình tóm tắt văn dựa nội dung sẵn có Trên giới có nhiều cơng trình nghiên cứu vấn đề nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích đoạn văn, rút trích vài câu quan trọng rút trích cụm từ có ý nghĩa; từ tóm tắt văn tới tóm tắt phạm vi nhiều văn bản;… Tuy nhiên hầu hết phương pháp áp dụng cho văn tương đối ngắn tin tức, hướng dẫn, trình bày,… khơng có tính chất định vị thơng tin Đối với văn cỡ lớn tài liệu nghiên cứu, sách,… có cơng trình nghiên cứu Trong số có tốn quan tâm đặc biệt thời gian gần đây, tốn xây dựng mục lục cho văn Cơ sở toán thân mục lục tài liệu dài chứa lượng lớn thông tin nội dung văn mà cịn có khả định vị thơng tin bên văn Ngoài tiêu đề nằm mục lục cịn manh tính súc tích cao Với thực tế trình bày trên, luận văn tiến hành nghiên cứu đề xuất phương pháp xây dựng mục lục cho văn thông qua đề tài “Xây dựng mục lục cho văn bản” Mục tiêu luận văn nghiên cứu, giải đề xuất phương pháp giải toán xây dựng mục lục cho văn cỡ trung bình lớn thơng qua cơng trình nghiên cứu giới Cơ sở đề tài kết nghiên cứu công bố giới toán phân đoạn văn toán sinh tiêu đề cho văn Luận văn tiến hành thử nghiệm vài văn với đánh giá chuyên gia nhà ngôn ngữ học để đánh giá tính xác kết đạt Các kết bước đầu đạt cho thấy hướng nghiên cứu luận văn có triển vọng có khả phát triển tiếp thành tốn tổng thể cỡ lớn Ngồi phần mở đầu kết luận, kết cấu luận văn bao gồm chương: - Chương “Giới thiệu toán” tóm tắt số tốn lĩnh vực tóm tắt văn bản, phát biểu toán xây dựng mục cho văn bản, đồng thời phần tích cơng trình có liên quan đưa phương hướng giải - Chương “Các phương pháp giải toán” trình bày phương pháp dùng trình xây dựng mục lục, phân tích điểm mạnh yếu phương pháp - Chương “Xây dựng mục lục cho văn bản” sâu vào việc tích hợp thuật tốn để giải tốn luận văn, đồng thời đề xuất số hướng cải tiến sở lí luận cải tiến - Chương “Thử nghiệm đánh giá” trình bày trình thử nghiệm luận văn kết đạt trình thử nghiệm Đồng thời đưa phân tích đánh giá kết đạt 25 đó: - ref hyp phân đoạn thực tế phân đoạn thuật toán sinh ra; - N số lượng câu; - ⊕ phép toán logic XNOR (cho giá trị số hạng giống nhau); - δ X ( i, j ) hàm cho giá trị câu i câu j nằm phân đoạn cho giá trị khác phân đoạn; - D ( i, j ) phân phối xác suất khoảng cách tập khoảng cách cặp câu chọn ngẫu nhiên Khi áp dụng thực tế vào toán này, khoảng cách D ( i, j ) cố định k, thường lấy độ dài trung bình phân đoạn văn gốc tính theo câu Khi độ đo gọi Pk định nghĩa theo hình thức khác, kết hợp xác suất có điều kiện gọi xác suất miss false alarm xác định Hình 4: p ( error | ref , hyp, k ) = p ( miss | ref , hyp, different ref segments, k ) × p ( different ref segments | ref , k ) + p ( false alarm | ref , hyp, same ref segment , k ) × p ( same ref segment | ref , k ) Hình Cách xác định tham số cho độ đo Pk Tuy nhiên độ đo Pk có số nhược điểm sau: - miss bị tính nhiều false alarm - Khi đường biên thêm vào tạo phân đoạn có kích thước nhỏ k khơng bị tính độ đo - Khi kích thước phân đoạn có biến đổi mạnh thuật tốn khơng bị “phạt” nhiều - Các lỗi xác định biên gần xác bị tính q nhiều - Độ đo thực khơng mang tính độ đo theo phần trăm mà độ đo có giá trị khoảng đến 26 Độ đo WindowDiff Trong [Hearst 2002] đề xuất độ đo cho toán phân đoạn văn gọi WindowDiff, mở rộng độ đo Pk Trong độ đo này, phép toán ⊕ thay khác số lượng đường biên vị trí i i + k ref hyp Nếu khơng có sai khác vị trí i i + k nằm phân đoạn ref hyp Ý nghĩa giải vấn đề có phân đoạn nhỏ thêm vào hyp mà Pk không giải WindowDiff ( ref , hyp ) = ( ∑ b ( refi , refi+k ) − b ( hypi , hypi+k ) N −k ) b ( xi , x j ) biểu diễn số lượng đường biên vị trí i j văn x N số lượng câu văn Các kết thực nghiệm [Hearst 2002] cho thấy độ đo tương đối ổn định kích thước phân đoạn biến đổi tạo cân miss false alarm Tuy nhiên, độ đo cho kết lớn nên khơng cịn độ đo theo phần trăm Do đó, độ đo dùng để so sánh thuật tốn mà khơng thể dùng để đánh giá trực tiếp chất lượng thuật toán 3.3.2 Đánh giá thuật toán sinh tiêu đề Hiện nay, cách đánh giá thuật toán sinh tiêu đề phổ biến so sánh tiêu đề sinh tự động với tiêu đề có sẵn văn mẫu Việc so sánh thực sau hai tiêu đề trải qua bước tiền xử lý bao gồm: - Loại bỏ từ dừng - Đưa từ từ gốc (stemming) Sau đó, việc đánh giá thuật tốn sinh tiêu đề tính dựa ba độ đo phổ biến lĩnh vực học máy độ xác P (precision), độ hồi tưởng R (recall) độ đo F1 ( Fβ với β = 1) Nếu gọi tập hợp từ tiêu đề thuật toán sinh Tgen tập hợp từ tiêu đề gốc tác giả đặt Torg độ đo tính sau: 27 P= Tgen ∩ Torg Tgen ; R= Tgen ∩ Torg Torg ; F1 = 2× P× R P+R Trong T kí hiệu lực lượng tập hợp T hay số phần tử tập hợp T 3.4 Tóm tắt chương ba Trong chương này, luận văn trình bày đề xuất để tích hợp hai bước phân đoạn văn sinh tiêu đề cho văn trình xây dựng mục lục cho văn nhằm tránh dư thừa tài nguyên Tiếp luận văn đưa đề xuất cụ thể việc đảm bảo tính hợp lí mục lục sinh dựa yếu tố “kinh nghiệm” thông qua việc tham khảo mục lục tài liệu sẵn có Cuối cùng, luận văn trình bày phương pháp đánh giá thơng dụng sử dụng cho hai q trình phân đoạn văn sinh tiêu đề cho văn Trong chương tiếp theo, luận văn trình bày thử nghiệm văn khoa học cụ thể để chứng minh tính khả thi triển vọng toán xây dựng mục lục cho văn 28 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thử nghiệm Quá trình thử nghiệm luận văn thực hệ thống máy chủ IBM x3800 Series cài đặt hệ điều hành Debian 4.0 (Etch) với phiên phần mềm Java 1.6.0_01, GCC 4.1.2 Các công cụ phần mềm sử dụng trình thử nghiệm liệt kê mơ tả Bảng Bảng Danh sách công cụ phần mềm sử dụng để thử nghiệm STT Tên phần mềm LT CHUNK Mô tả Tác giả: Edinburgh Language Technology Group Site: http://www.ltg.ed.ac.uk/ Công dụng: Thực gán nhãn từ loại cho từ văn bản, đồng thời nhận diện cụm danh từ cụm động từ TextTiling Tác giả: Marti Hearst Site: http://people.ischool.berkeley.edu/~hearst/ Công dụng: Thực phân đoạn văn sử dụng mối liên kết từ vựng Kết văn phân đoạn tuyến tính C99 Tác giả: Freddy Choi Site: http://www.lingware.co.uk/homepage/freddy.choi/ Công dụng: Phân đoạn văn sử dụng mối liên kết từ vựng kết hợp với đồ thị dotplotting Kết văn phân đoạn tuyến tính SUMMA Tác giả: Marie-Francine Moens Site: http://www.cs.kuleuven.be/~liir/ Công dụng: Sinh tiêu đề cho đoạn văn dựa khái niệm chủ đề câu Trong q trình thực thử nghiệm, tơi có tiến hành chỉnh sửa công cụ SUMMA để phù hợp với toán xây dựng mục lục cho văn thử nghiệm đề xuất nêu chương đảm bảo tính hợp lí mục lục 29 4.2 Dữ liệu thử nghiệm Văn sử dụng để thử nghiệm báo “Generic Topic Segmentation of Document Texts” [Moens 2001] Bài báo bao gồm 1353 từ với 63 câu chia làm mục lớn (khơng tính phần tiêu đề, tóm tắt, lời cảm ơn tài liệu tham khảo) Chi tiết phần trình bày Bảng Bảng Cấu trúc văn thử nghiệm Mục Tiêu đề Câu bắt đầu Câu kết thúc Mô tả Introduction Giới thiệu toán phân đoạn văn Research problem 16 Giới thiệu vấn đề cần nghiên cứu nhiệm vụ báo Methods 17 52 Trình bày phương pháp sử dụng trình phân đoạn văn 3.1 Content terms and their distribution 17 22 Trình bày vấn đề khái niệm phân bố ảnh hưởng tới phân đoạn văn 3.2 Lexical chains 23 29 Mô tả phương pháp sử dụng chuỗi từ vựng để phân đoạn văn 3.3 Topic segmentation 30 45 Trình bày bước thuật tốn phân đoạn văn mà báo trình bày, sử dụng phân bố khái niệm chuỗi từ vựng 3.4 Test corpora 46 52 Trình bày tập liệu thử nghiệm khó khăn việc đánh giá mơ hình Related research 53 60 Giới thiệu số thuật toán phân đoạn văn khác khiếm khuyết thuật tốn Conclusions 61 63 Kết luận báo: đóng góp hướng phát triển Văn chia thành mục lớn với mục số chia làm mục con, đó, với cách phân đoạn tuyến tính ta coi văn chia làm mục Trong phần này, luận văn giới hạn thử nghiệm phương pháp phân đoạn tuyến tính 30 Trong trình loại bỏ từ dừng, luận văn sử dụng tập từ dừng cơng cụ TextTiling MartiHearst có sửa đổi để thêm nhiều từ dừng Danh sách từ dừng sử dụng liệt kê Bảng Bảng Danh sách từ dừng said n't 'm a about above across after afterwards again against all almost alone along already also although always am among amongst amoungst amount an and another any anyhow anyone anything anyway anywhere are around as at back be became because become becomes becoming been before beforehand behind being below beside besides between beyond bill both bottom but by call can cannot cant co computer could couldnt cry de describe detail done down due during each eg eight either eleven else elsewhere empty enough etc even ever every everyone everything everywhere except few fifteen fify fill find fire first five for former formerly forty found four from front full further get give go had has hasnt have he hence her here hereafter hereby herein hereupon hers herself him himself his how however hundred i ie if in inc indeed interest into is it its itself keep last latter latterly least less ltd made many may me meanwhile might mill mine more moreover most mostly move much must my myself name namely neither never nevertheless next nine no nobody none noone nor not nothing now nowhere of off often on once one only onto or other others otherwise our ours ourselves out over own part per perhaps please put rather re same see seem seemed seeming seems serious several she should show side since sincere six sixty so some somehow someone something sometime sometimes somewhere still such system take ten than that the their them themselves then thence there thereafter thereby therefore therein thereupon these they thick thin third this those though three through throughout thru thus to together too top toward towards twelve twenty two un under until up upon us very via was we well were what whatever when whence whenever where whereafter whereas whereby wherein whereupon wherever whether which while whither who whoever whole whom whose why will with within without would yet you your yours yourself yourselves Trong q trình gán nhãn từ loại sử dụng cơng cụ LT CHUNK, tập nhãn từ loại sử dụng tập nhãn thu gọn kế thừa từ tập nhãn Penn Treebank (http://www.cis.upenn.edu/~treebank/) Danh sách nhãn mơ tả trình bày Bảng Bảng Bảng Tập nhãn từ loại (tập mở) Nhãn từ loại Mơ tả Ví dụ JJ adjective green JJR adjective, comparative greener 31 JJS adjective, superlative greenest RB adverb however, usually, naturally, here, good RBR adverb, comparative better RBS adverb, superlative best NN common noun table NNS noun plural tables NNP proper noun John NNPS plural proper noun Vikings VB verb base form take VBD verb past took VBG gerund taking VBN past participle taken VBP verb, present, non-3d take VBZ verb present, 3d person takes FW foreign word d'hoevre Bảng Tập nhãn từ loại (tập đóng) Nhãn từ loại Mơ tả Ví dụ CD cardinal number 1, third CC coordinating conjunction and DT determiner the EX existential there there is IN preposition in, of, like LS list marker 1) MD modal could, will PDT predeterminer both the boys POS possessive ending friend's PRP personal pronoun I, he, it PRP$ possessive pronoun my, his RP particle give up 32 TO to (both "to go" and "to him") to go, to him UH interjection uhhuhhuhh WDT wh-determiner which WP wh-pronoun who, what WP$ possessive wh-pronoun whose WRB wh-adverb where, when 4.3 Quá trình thử nghiệm Quá trình thử nghiệm chia làm hai giai đoạn: - Giai đoạn 1: Phân đoạn văn sử dụng công cụ TextTiling C99 để thu đoạn văn - Giai đoạn 2: Sinh tiêu đề cho đoạn văn công cụ SUMMA Việc sinh tiêu đề cho văn thực cho đoạn văn phân đoạn tự động đoạn văn phân sẵn văn gốc 4.4 Kết thử nghiệm 4.4.1 Kết phân đoạn văn Kết phân đoạn văn trình bày Bảng biểu diễn trực quan Hình Trong Bảng có cột chính, cột tương ứng với cách phân đoạn, cột có cột gồm số thứ tự đoạn văn bản, số thứ tự câu số thứ tự câu cuối văn Bảng Kết phân đoạn văn Văn gốc C99 TextTiling STT Đầu Cuối STT Đầu Cuối STT Đầu Cuối 1 1 1 7 16 17 13 17 22 18 19 14 20 23 29 20 28 21 28 30 45 29 35 29 34 36 45 35 45 33 46 52 46 51 53 60 52 58 61 63 59 63 46 52 53 63 Trong Hình 5, dịng mơ hình phân đoạn có sẵn, dịng thứ mơ hình phân đoạn cơng cụ C99 sinh dịng thứ mơ hình phân đoạn cơng cụ TextTiling sinh Các dấu “-“ thể cho câu, dấu “.” thể vị trí câu đoạn, dấu “|” thể đường biên phân tách đoạn |-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-|-.-.-| |-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-|-.-|-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-| |-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-|-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-|-.-.-.-.-.-.-|-.-.-.-.-.-.-.-.-.-.-| Hình Kết phân đoạn văn 4.4.2 Kết sinh tiêu đề Các kết sinh tiêu đề cho văn trình bày Bảng 8, Bảng Bảng 10 Bảng Sinh tiêu đề cho phân đoạn gốc Phần Tiêu đề thực Tiêu đề sinh Introduction Segmentation text Research problem Representation text 3.1 Content terms and their distribution Terms 3.2 Lexical chains Chains terms 3.3 Topic segmentation Aim topics 3.4 Test corpora Techniques corpora texts evaluation Related research Segmentation terms Conclusions Paper texts Bảng Sinh tiêu đề cho phân đoạn C99 Phần Tiêu đề Câu bắt đầu Câu kết thúc Segmentation text Representation subtopics texts 17 34 Synonyms 18 19 Terms 20 28 Information segmentation 29 35 Step topic 36 45 Techniques corpora texts evaluation 46 51 Addition topics 52 58 Referents 59 63 Bảng 10 Sinh tiêu đề cho phân đoạn TextTiling Phần Tiêu đề Câu bắt đầu Câu kết thúc Segmentation topics Structure text 13 Cues texts 14 20 Terms 21 28 Information segmentation 29 34 Algorithms chains topic 35 45 Techniques corpora texts evaluation 46 52 Segmentation terms 53 63 4.5 Đánh giá thử nghiệm Kết phân đoạn cho thấy chất lượng phân đoạn tương đối khả quan Xét cách trực quan quan sát Hình 5, ta thấy điểm biên thứ 1, 4, 5, không chệch so với văn gốc Điều thể qua độ đo Pk Tuy nhiên hai thuật toán phân đoạn thống chia đoạn văn thứ “Topic Segmentation” làm hai đoạn tách rời với bên “segmentation” bên “topic” Kết sinh tiêu đề luận văn số giáo viên tiếng Anh thuộc Trường Đại học Ngoại ngữ, ĐHQG Hà Nội thẩm định cho kết chấp nhận đơi chỗ cịn mang ý nghĩa chung chung Ví dụ trường hợp sinh tiêu đề cho đoạn thứ văn gốc “Paper Text” vô nghĩa so với “Conclusions” Tuy nhiên điều khơng khó hiểu cách đặt tiêu đề văn tuân theo cách đặt tiêu đề báo Đây vấn đề thuộc yếu tố văn phong Với thuật tốn sinh tiêu đề khơng phụ thuộc miền ứng dụng vấn đề dễ hiểu 35 4.5 Phương hướng cải tiến Các kết thử nghiệm chứng tốn xây dựng mục lục văn khả thi có triển vọng phát triển Các thuật tốn trình bày luận văn tương đối đơn giản hầu hết dựa luật tỏ hiệu thử nghiệm Tuy nhiên ta tăng cường chất lượng thuật tốn thơng qua số cải tiến sau: - Đưa thêm dấu hiệu nhận biết phân đoạn đặc trưng theo ngôn ngữ, ví dụ tiếng Anh ta thường có “In this section”, “As already discussed”,… Các yếu tố mang tính thống kê thực mơ hình thống kê tập văn có sẵn để tìm tập dấu hiệu chuyển chủ đề thông qua câu đoạn văn - Trong trình xây dựng chuỗi token, sử dụng từ gốc token làm giảm nhiễu tăng cường độ xác đo độ tương tự chuỗi token xem xét danh từ tính từ với gốc tương đương - Sử dụng mơ hình học có giám sát bán giám sát để học từ liệu có sẵn với đặc trưng như: danh từ/cụm danh từ câu nào, vị trí câu xuất tiêu đề Việc lựa chọn danh sách từ cho tiêu đề dựa theo mơ hình học với đặc trưng không liên quan đến thân từ giúp cho việc lựa chọn từ quan trọng từ hiếm, chưa xuất liệu học - Để đảm bảo cú pháp tiêu đề, cần thiết phải áp dụng mơ hình xác suất sinh để tạo tiêu đề dễ hiểu quen thuộc Tuy nhiên, để đảm bảo xác cần áp dụng mơ hình cho lĩnh vực khác Việc áp dụng cho loại văn cụ thể giúp tăng độ xác chất lượng mơ hình 4.6 Tóm tắt chương bốn Trong chương này, luận văn trình bày trình thử nghiệm xây dựng mục lục cho văn cụ thể nhằm chứng minh tính khả thi triển vọng toán xây dựng mục lục cho văn Luận văn trình bày mơ hình trực quan để so sánh phân đoạn thuật toán Đồng thời, luận văn đưa số đánh giá cá nhân chuyên gia kết thử nghiệm đưa số phương hướng cải tiến giúp tăng cường chất lượng mơ 36 hình Trong thời gian tiếp theo, tác giả tiếp tục thử nghiệm cải tiến thuật toán để đạt kết cao hướng tới giải triệt để toán phân đoạn đa cấp sinh mục lục cho văn phân đoạn đa cấp 37 KẾT LUẬN Luận văn tiến hành nghiên cứu tìm hiểu toán xây dựng mục lục cho văn Đây tốn lĩnh vực xử lí ngơn ngữ tự nhiên có liên hệ mật thiết với tốn tóm tắt văn Phương pháp giải luận văn chia trình xây dựng mục lục thành hai trình nhỏ phân đoạn văn sinh tiêu đề cho đoạn văn Với trình này, luận văn tiến hành nghiên cứu, tìm hiểu giới thiệu phương pháp để giải vấn đề đồng thời đánh giá ưu điểm khuyết điểm phương pháp Luận văn tiến hành thử nghiệm văn khoa học cụ thể để chứng minh tính khả thi toán Các kết thu tương đối khả quan cho thấy triển vọng phát triển toán Luận văn đưa số đề xuất phương án tích hợp hai q trình để giảm thiểu dư thừa liệu thời gian tính tốn Thêm vào đó, luận văn đề xuất số cải tiến hướng phát triển thời gian tới để đạt kết tốt Một số hướng phát triển luận văn: - Triển khai phân đoạn văn dựa chuỗi từ vựng với hỗ trợ từ WordNet - Cải tiến đưa mô hình thuật tốn cho phép phân đoạn văn đa cấp - Thử nghiệm mơ hình học có giám sát bán giám sát việc sinh tiêu đề cho văn - Triển khai thuật toán cải tiến dựa [Branavan 2007] để đảm bảo tính hợp lí chất lượng mục lục Đây hướng phát triển nêu chương luận văn có tính khả thi cao Việc phát triển toán xây dựng mục lục cho văn có ý nghĩa lớn văn khơng có cấu trúc sẵn, đặc biệt văn dạng âm 38 TÀI LIỆU THAM KHẢO Angheluta R., De Busser R.D., Moens M.F (2002), “The Use of Topic Segmentation for Automatic Summarization”, In Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA Banko M., Mittal V.O., Witbrock M.J (2000), “Headline Generation Based on Statistical Translation”, In Proceedings of the 38th Annual Meeting of the Association of Computational Linguistics, Hong Kong Beeferman D., Berger A., Lafferty J (1999), “Statistical Models for Text Segmentation”, Machine Learning, 34(1-3), pp 177-210 Branavan S.R.K., Deshpande P., Barzilay R (2007), “Generating a Tableof-Contents”, In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics: 544-551, Prague, Czech Republic Choi F (2000), “Advances in domain independent linear text segmentation”, In Proceedings of NAACL '00, pp 26-33, Seattle, USA Church K.W (1993), “Char align: A Program for Aligning Parallel Texts at the Character Level”, In Proceedings of the 31st Annual Meeting of the Association of Computational Linguistics, pp 1-8, Ohio, USA Collins M., Roark B (2004), “Incremental Parsing with the Perceptron Algorithm”, In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics, pp 111-118, Barcelona, Spain Dorr B., Zajic D., Schwartz R (2003), “Hedge Trimmer: A parse-and-trim approach to headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization: 1-8, Edmonton, Canada Elhada N., McKeown K.R (2001), “Towards generating patient specific summaries of medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization, Pittsburgh, PA, USA 10 Hearst M.A (1994), “Multi-paragraph segmentation of expository text”, In Proceedings of the 32nd Annual Meeting of the Association of Computational Linguistics, pp 9-16, New Mexico, USA 11 Hearst M.A (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, Computational Linguistics, 23(1), pp 33-64 39 12 Jin R., Hauptmann A.G (2002), “A New Probability Model for Title Generation”, The 19th International Conference on Computational Linguistics, Taiwan 13 Jones K.S (2007), “Automatic summarising: The state of the art”, Information Processing and Management, doi:10.1016/j.ipm.2007.03.009 14 Malioutov I., Barzilay R (2006), “Minimum Cut Model for Spoken Lecture Segmentation”, In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pp 25-32, Sydney, Australia 15 Pevzner L., Hearst M.A (2002), “A Critique and Improvement of an Evaluation Metric for Text Segmentation”, Computational Linguistics, 28 (1), pp 19-36 16 Teufel S., Moens M (2002), “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp 409-445 17 Witbrock M.J., Mittal V.O (1999), “Ultra-Summarization: A statistical Approach to Generating Highly Condensed Non-Extractive Summaries”, In Proceedings of the 22nd International Conference on Research and Development in Information Retrieval (SIGIR '99), Poster Session, 315-316, USA ... đoạn văn sử dụng công cụ TextTiling C99 để thu đoạn văn - Giai đoạn 2: Sinh tiêu đề cho đoạn văn công cụ SUMMA Việc sinh tiêu đề cho văn thực cho đoạn văn phân đoạn tự động đoạn văn phân sẵn văn. .. dựng mục lục cho văn sau: Cho trước văn bản, cần phải sinh cây, nút đoạn văn tiêu đề đoạn văn tương ứng Quá trình liên quan đến hai toán khác: - Phân đoạn văn (Text Segmentation): phân văn thành... từ phổ biến 2.3 Sinh tiêu đề cho văn So với toàn văn bản, tiêu đề biểu diễn ngắn gọn thông tin văn giúp người đọc nhanh chóng nắm bắt đại ý toàn văn Tự động sinh tiêu đề cho văn toán phức tạp,

Ngày đăng: 26/07/2014, 08:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Angheluta R., De Busser R.D., Moens M.F. (2002), “The Use of Topic Segmentation for Automatic Summarization”, In Proceedings of the 40 th Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA Sách, tạp chí
Tiêu đề: The Use of Topic Segmentation for Automatic Summarization”, "In Proceedings of the 40"th"Annual Meeting of the Association of Computational Linguistics
Tác giả: Angheluta R., De Busser R.D., Moens M.F
Năm: 2002
2. Banko M., Mittal V.O., Witbrock M.J. (2000), “Headline Generation Based on Statistical Translation”, In Proceedings of the 38 th Annual Meeting of the Association of Computational Linguistics, Hong Kong Sách, tạp chí
Tiêu đề: Headline Generation Based on Statistical Translation”, "In Proceedings of the 38"th" Annual Meeting of the Association of Computational Linguistics
Tác giả: Banko M., Mittal V.O., Witbrock M.J
Năm: 2000
3. Beeferman D., Berger A., Lafferty J. (1999), “Statistical Models for Text Segmentation”, Machine Learning, 34(1-3), pp. 177-210 Sách, tạp chí
Tiêu đề: Statistical Models for Text Segmentation”, "Machine Learning
Tác giả: Beeferman D., Berger A., Lafferty J
Năm: 1999
4. Branavan S.R.K., Deshpande P., Barzilay R. (2007), “Generating a Table- of-Contents”, In Proceedings of the 45 th Annual Meeting of the Association of Computational Linguistics: 544-551, Prague, Czech Republic Sách, tạp chí
Tiêu đề: Generating a Table-of-Contents”, "In Proceedings of the 45"th" Annual Meeting of the Association of Computational Linguistics
Tác giả: Branavan S.R.K., Deshpande P., Barzilay R
Năm: 2007
5. Choi F. (2000), “Advances in domain independent linear text segmentation”, In Proceedings of NAACL '00, pp. 26-33, Seattle, USA Sách, tạp chí
Tiêu đề: Advances in domain independent linear text segmentation”, "In Proceedings of NAACL '00
Tác giả: Choi F
Năm: 2000
6. Church K.W. (1993), “Char align: A Program for Aligning Parallel Texts at the Character Level”, In Proceedings of the 31 st Annual Meeting of the Association of Computational Linguistics, pp. 1-8, Ohio, USA Sách, tạp chí
Tiêu đề: Char align: A Program for Aligning Parallel Texts at the Character Level”, "In Proceedings of the 31"st" Annual Meeting of the Association of Computational Linguistics
Tác giả: Church K.W
Năm: 1993
7. Collins M., Roark B. (2004), “Incremental Parsing with the Perceptron Algorithm”, In Proceedings of the 42 nd Annual Meeting of the Association of Computational Linguistics, pp. 111-118, Barcelona, Spain Sách, tạp chí
Tiêu đề: Incremental Parsing with the Perceptron Algorithm”, "In Proceedings of the 42"nd" Annual Meeting of the Association of Computational Linguistics
Tác giả: Collins M., Roark B
Năm: 2004
8. Dorr B., Zajic D., Schwartz R. (2003), “Hedge Trimmer: A parse-and-trim approach to headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization: 1-8, Edmonton, Canada Sách, tạp chí
Tiêu đề: Hedge Trimmer: A parse-and-trim approach to headline generation”, "In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization
Tác giả: Dorr B., Zajic D., Schwartz R
Năm: 2003
9. Elhada N., McKeown K.R. (2001), “Towards generating patient specific summaries of medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization, Pittsburgh, PA, USA Sách, tạp chí
Tiêu đề: Towards generating patient specific summaries of medical articles”, "In Proceedings of NAACL Workshop on Automatic Summarization
Tác giả: Elhada N., McKeown K.R
Năm: 2001
10. Hearst M.A. (1994), “Multi-paragraph segmentation of expository text”, In Proceedings of the 32 nd Annual Meeting of the Association of Computational Linguistics, pp. 9-16, New Mexico, USA Sách, tạp chí
Tiêu đề: Multi-paragraph segmentation of expository text”, "In Proceedings of the 32"nd" Annual Meeting of the Association of Computational Linguistics
Tác giả: Hearst M.A
Năm: 1994
11. Hearst M.A. (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, Computational Linguistics, 23(1), pp. 33-64 Sách, tạp chí
Tiêu đề: TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, "Computational Linguistics
Tác giả: Hearst M.A
Năm: 1997
12. Jin R., Hauptmann A.G. (2002), “A New Probability Model for Title Generation”, The 19 th International Conference on Computational Linguistics, Taiwan Sách, tạp chí
Tiêu đề: A New Probability Model for Title Generation”, "The 19"th" International Conference on Computational Linguistics
Tác giả: Jin R., Hauptmann A.G
Năm: 2002
13. Jones K.S. (2007), “Automatic summarising: The state of the art”, Information Processing and Management, doi:10.1016/j.ipm.2007.03.009 Sách, tạp chí
Tiêu đề: Automatic summarising: The state of the art”, "Information Processing and Management
Tác giả: Jones K.S
Năm: 2007
14. Malioutov I., Barzilay R. (2006), “Minimum Cut Model for Spoken Lecture Segmentation”, In Proceedings of the 21 st International Conference on Computational Linguistics and 44 th Annual Meeting of the ACL, pp. 25-32, Sydney, Australia Sách, tạp chí
Tiêu đề: Minimum Cut Model for Spoken Lecture Segmentation”, "In Proceedings of the 21"st" International Conference on Computational Linguistics and 44"th" Annual Meeting of the ACL
Tác giả: Malioutov I., Barzilay R
Năm: 2006
15. Pevzner L., Hearst M.A. (2002), “A Critique and Improvement of an Evaluation Metric for Text Segmentation”, Computational Linguistics, 28 (1), pp. 19-36 Sách, tạp chí
Tiêu đề: A Critique and Improvement of an Evaluation Metric for Text Segmentation”, "Computational Linguistics
Tác giả: Pevzner L., Hearst M.A
Năm: 2002
16. Teufel S., Moens M. (2002), “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp.409-445 Sách, tạp chí
Tiêu đề: Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, "Computational Linguistics
Tác giả: Teufel S., Moens M
Năm: 2002
17. Witbrock M.J., Mittal V.O. (1999), “Ultra-Summarization: A statistical Approach to Generating Highly Condensed Non-Extractive Summaries”, In Proceedings of the 22 nd International Conference on Research and Development in Information Retrieval (SIGIR '99), Poster Session, 315-316, USA Sách, tạp chí
Tiêu đề: Ultra-Summarization: A statistical Approach to Generating Highly Condensed Non-Extractive Summaries”, "In Proceedings of the 22"nd" International Conference on Research and Development in Information Retrieval (SIGIR '99)
Tác giả: Witbrock M.J., Mittal V.O
Năm: 1999

HÌNH ẢNH LIÊN QUAN

Hình 1. Đồ thị dotplotting cho một văn bản - Tự động sinh mục lục cho văn bản
Hình 1. Đồ thị dotplotting cho một văn bản (Trang 21)
Hình 2. Phân bố độ dài tiêu đề văn bản theo Reuters-1997 - Tự động sinh mục lục cho văn bản
Hình 2. Phân bố độ dài tiêu đề văn bản theo Reuters-1997 (Trang 25)
Hình 4. Cách xác định tham số cho độ đo P k - Tự động sinh mục lục cho văn bản
Hình 4. Cách xác định tham số cho độ đo P k (Trang 33)
Bảng 2. Danh sách các công cụ phần mềm sử dụng để thử nghiệm - Tự động sinh mục lục cho văn bản
Bảng 2. Danh sách các công cụ phần mềm sử dụng để thử nghiệm (Trang 36)
Bảng 3. Cấu trúc văn bản thử nghiệm - Tự động sinh mục lục cho văn bản
Bảng 3. Cấu trúc văn bản thử nghiệm (Trang 37)
Bảng 4. Danh sách từ dừng - Tự động sinh mục lục cho văn bản
Bảng 4. Danh sách từ dừng (Trang 38)
Bảng 6. Tập nhãn từ loại (tập đóng) - Tự động sinh mục lục cho văn bản
Bảng 6. Tập nhãn từ loại (tập đóng) (Trang 39)
Bảng 7. Kết quả phân đoạn văn bản - Tự động sinh mục lục cho văn bản
Bảng 7. Kết quả phân đoạn văn bản (Trang 40)
Bảng 8. Sinh tiêu đề cho phân đoạn gốc - Tự động sinh mục lục cho văn bản
Bảng 8. Sinh tiêu đề cho phân đoạn gốc (Trang 41)
Hình 5. Kết quả phân đoạn văn bản - Tự động sinh mục lục cho văn bản
Hình 5. Kết quả phân đoạn văn bản (Trang 41)
Bảng 10. Sinh tiêu đề cho phân đoạn của TextTiling - Tự động sinh mục lục cho văn bản
Bảng 10. Sinh tiêu đề cho phân đoạn của TextTiling (Trang 42)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w