Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
1,35 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Anh TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin HÀ NỘI - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Anh TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin Cán bộ hƣớng dẫn: TS Nguyễn Phƣơng Thái HÀ NỘI - 2012 VIETNAMNATIONALUNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Viet Anh USING LEXICAL CHAINS FOR TEXT SUMMARIZATION Major: Information Technology Supervisor: PhD Nguyen Phuong Thai HANOI - 2012 LỜI CẢM ƠN Trƣớc tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn Phƣơng Thái, ngƣời đã tận tình hƣớng dẫn em trong suốt quá trình nghiên cứu làm khóa luận tốt nghiệp. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm qua, những kiến thức mà em nhận đƣợc trên giảng đƣờng đại học sẽlàhành trang giúp em vững bƣớc trong tƣơng lai. Em xin chân thành cảm ơn! Sinh Viên Nguyễn Việt Anh 1 TÓM TẮT VĂN BẢN TỰ ĐỘNG SỬ DỤNG XÍCH TỪ VỰNG Nguyễn Việt Anh Khóa QH-2008-I/CQ , ngành Công nghệ thông tin Tóm tắt Khóa luận tốt nghiệp: Hiện nay, với sự bùng nổ của công nghệ thông tin, thông tin ngày một nhiều và phổ biến. Con ngƣời ngày càng phải xử lý nhiều thông tin hơn, trong đó có không ít những thông tin thừa hay không cần thiết, việc xử lý thông tin nhƣ vậy tốn rất nhiều thời gian và công sức. Vấn đề đặt ra là làm sao để giảm chi phí xử lý mà vẫn nắm đƣợc những thông tin cần thiết, quan trọng từ nguồn tin. Tóm tắt văn bản tự động đƣợc ra đời dựa trên ý tƣởng đó. Trên thế giới, vấn đề tóm tắt tự động đã đƣợc nghiên cứu từ rất sớm, từ những năm 50 của thế kỷ trƣớc, và đã có rất nhiều phƣơng pháp tóm tắt văn bản đƣợc đề xuất, trong đó có phƣơng pháp tóm tắt bằng xích từ vựng doBarzilay và Elhadad giới thiệu năm 1997 với ƣu điểm dễ thực hiện và cho kết quả khá khả quan. Do vậy, trong khóa luận này em muốn giới thiệu phƣơng pháp tóm tắt văn bản sử dụng xích từ vựng dựa trên ý tƣởng của Barzilay và Elhadad, các bƣớc thực hiện việc tóm tắt văn bản và giới thiệu chƣơng trình sản phẩm do em viết ra. Từ khóa:Tóm tắt, xích từ vựng. 2 LỜI CAM ĐOAN Em xin cam đoan khóa luận tốt nghiệp: “Tóm tắt văn bản tự động sử dụng xích từ vựng” là công trình nghiên cứu của bản thân. Những phần sử dụng tài liệu tham khảo trong khóa luận đã đƣợc nêu rõ trong phần tài liệu tham khảo. Các số liệu, kết quả trình bày trong khóa luận là hoàn toàn trung thực, nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của khoa và nhà trƣờng. Tác giả khóa luận Nguyễn Việt Anh 3 MỤC LỤC CHƢƠNG 1: BÀI TOÁN TÓM TẮT VĂN BẢN 4 1.1 Giới thiệu bài toán 4 1.2 Đặc điểm của bản tóm tắt 5 1.3 Tóm tắt văn bản bằng xích từ vựng 5 1.4 Ứng dụng của bài toán tóm tắt văn bản 5 CHƢƠNG 2: MỘT SỐ HƢỚNG TIẾP CẬN BÀI TOÁN TÓM TẮT VĂN BẢN 6 2.1 Phƣơng pháp thống kê 6 2.2 Phƣơng pháp máy học 7 2.3 Phƣơng pháp Naïve-Bayes 8 2.4 Phƣơng pháp Decision Tree 8 2.5 Phƣơng pháp phân tích ngôn ngữ tự nhiên 8 Tóm tắt chƣơng 2 10 CHƢƠNG 3: TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG 11 3.1 Giới thiệu và mô hình thực hiện: 11 3.2 Từ điển WordNet 13 3.2.1 Giới thiệu 13 3.2.2 Quan hệ ngữ nghĩa trong WordNet 14 3.2.3 Sử dụng WordNet trong lập trình với ngôn ngữ Java 15 3.3 Xây dựng xích từ vựng và tóm tắt 18 3.3.1 Trích chọn tập các từ ứng cử 18 3.3.2 Xây dựng xích từ vựng 18 3.3.4 Sử dụng xích từ vựng để tóm tắt văn bản 25 Tóm tắt chƣơng 3 26 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 4.1 Môi trƣờng thực nghiệm 27 4.1.1 Môi trƣờng phần cứng 27 4.1.2 Môi trƣờng phần mềm 27 4.2 Dữ liệu thực nghiệm 27 4.3 Phƣơng pháp đánh giá 27 4.4 Đánh giá kết quả thực nghiệm 29 Kết luận 31 PHỤ LỤC 32 TÀI LIỆU THAM KHẢO 34 4 CHƢƠNG 1: BÀI TOÁN TÓM TẮT VĂN BẢN 1.1 Giới thiệu bài toán Tóm tắt văn bản là bài toán của thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đó là quá trình rút trích những thông tin quan trọng nhất từ một hoặc nhiều nguồn để tạo ra phiên bản cô đọng, ngắn gọn phục vụ cho một hoặc nhiều ngƣời dùng cụ thể, haymột hoặc nhiều nhiệm vụ cụ thể [2].Có thể phân loại bài toán tóm tắt văn bản ra nhiều loại tùy theo đặc điểm khác nhau: Theo số lƣợng: Đơn văn bản và Đa văn bản, theo văn bản đầu ra: Trích rút (Extract) và Tóm lƣợc (Abtract). Hiện nay các phƣơng pháp tóm tắt văn bản đa số tập trung vào dạng tóm tắt trích rút câu, tóm tắt văn bản bằng xích từ vựng cũng là một trong số đó. Theo Hovy (1999), Mani (2001), Sparck Jones (1999), quá trình tóm tắt văn bản đƣợc chia ra thành 3 giai đoạn chính: Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn Biến đổi (Transformation): trích chọn những nội dung quan trọng Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm chính, quan trọng của văn bản gốc. Hình 1: Quá trình tóm tắt văn bản 5 1.2 Đặc điểm của bản tóm tắt Giảm nội dung thông tin : lƣợng nội dung trong bản tóm tắt phải ít hơn so với văn bản gốc, nhƣng phải đảm bào vẫn còn những thông tin quan trọng, nổi bật. Mức độ giảm nội dung thông tin đƣợc đo bằng tỷ lệ nén. Hoặc các bản tóm tắt thƣờng có một chiều dài nhất định đƣợc mong muốn. Nội dung thông tin Phải trung thực hoặc tƣơng đƣơng với văn bản nguồn. Phải liên quan, phù hợp với yêu cầu ngƣời dùng Định dạng tốt Phải có định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của từng loại văn bản). Phải có thể đọc và hiểu đƣợc đối với ngƣời dùng. 1.3 Tóm tắt văn bản bằng xích từ vựng Phƣơng pháp đƣợc đề xuất đầu tiên bởi Morris và Hirst năm 1991 và sau đó là Barzilay và Elhadad năm 1997. Phƣơng pháp thuộc kiểu tóm tắt văn đơn văn bản trích xuất câu. Phƣơng pháp này tính sự liên quan giữa những từ quan trọng trong văn bản để xây dựng lên những xích từ vựng, từ những xích đó trích rút câu trong văn bản gốc. Đây là một phƣơn pháp dễ thực hiện nhƣng cho kết quả khả quan. Chi tiết sẽ đƣợc trình bày trong chƣơng 3. 1.4 Ứng dụng của bài toán tóm tắt văn bản Tóm tắt tin tức Hỗ trợ bác sĩ trong điều trị Tóm tắt kết quả tìm kiếm trong các search engine Thu thập dữ liệu thông minh Tóm tắt bài báo khoa học Tóm tắt nội dung hội nghị, cuộc họp Tóm tắt nội dung video, audio, … Trả lời tự động 6 CHƢƠNG 2: MỘT SỐ HƢỚNG TIẾP CẬN BÀI TOÁN TÓM TẮT VĂN BẢN 2.1 Phƣơng pháp thống kê[2] Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật (các bài báo khoa học). Các phƣơng pháp cổ điển thƣờng tập trung vào các đặc trƣng hình thái để tính điểm cho các câu và rút trích các câu quan trọng để đƣa vào tóm tắt. Hƣớng tiếp cận chung cho phƣơng pháp cổ điển đƣợc đề xuất bởi Edmundson(1969) nhƣ sau: Bƣớc 1 Bƣớc 2 Hình 2: Hướng tiếp cận chung cho phương pháp cổ điển Edmundson(1969) [...]... phƣơng pháp sử dụng xích từ vựng để tóm tắt là vì xích từ vựng có tính chất đại diện cho văn bản, tóm tắt dựa trên xích sẽ có khả năng nắm đƣợc nội dung chính của văn bản Nhìn chung, quá trình tóm tắt văn bản gồm 3 bƣớc chính: Bƣớc 1:Trích xuất các từ ứng cử (candidate) Bƣớc 2:Tính toán độ liên quan giữa các từ ứng cử và đƣa từ ứng cử vào xích thích hợp Bƣớc 3:Tìm những xích đủ “mạnh”, với mỗi xích “mạnh”... 3.3.4 Sử dụng xích từ vựng để tóm tắt văn bản Chúng ta đã tìm hiểu cách xây dựng xích từ vựng từ một văn bản nguồn, vấn đề tiếp theo là làm sao để từ những xích đó ta có thể tóm tắt đƣợc văn bản Nhƣ đã nói ở trên, sau quá trình tạo xích thì ta sẽ lấy diễn giải mạnh nhất dùng để tóm tắt, và mỗi một xích trong diễn giải này sẽ dùng để trích xuất ra một câu Nhƣng trong một diễn giải có rất nhiều xích, ... tóm tắt sử dụng xích từ vựng cũng vậy Chƣơng 3 sẽ trình bày rõ ràng, cụ thể hơn về phƣơng pháp này 10 CHƢƠNG 3: TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG 3.1 Giới thiệu và mô hình thực hiện: Xích từ vựng là một đồ thị gồm các từ liên quan đến nhau về ngữ nghĩa, để biết đƣợc 2 từ có liên quan đến nhau hay không ta sử dụng từ điển WordNet, vấn đề này sẽ đƣợc trình bày rõ hơn ở phần sau Sở dĩ phƣơng pháp sử. .. tạo tóm tắt Kết quả đạt đƣợc 51% các câu chính đƣợc xác định, và 74% các câu quan trọng nhất đƣợc xác định Barzilay và Elhadad (1997) Hai tácgiả cũng đã sử dụng một lƣợng đáng kể những phân tích ngôn ngữ trong tóm tắt văn bản dựa trên xích từ vựng (lexical chain) Xích từ vựng là chuỗi các từ liên quan trong văn bản Các bƣớc thực hiện : phân đoạn văn bản, xác định các xích từ vựng và sử dụng. .. của xích đại diện trong văn bản Nhƣ vậy, để tóm tắt văn bản, ta duyệt lại từng câu trong văn bản gốc và trích xuất ra những câu đầu tiên chứa sự xuất hiện thành viên của xích đủ tiêu chuẩn 25 Tóm tắt chƣơng 3 Trong chƣơng 3, khóa luận đã giới thiệu chi tiết phƣơng pháp cũng nhƣ cách thực hiện tóm tắt văn bản bằng xích từ vựng và giới thiệu về cấu trúc chƣơng trình tóm tắt văn bản Trong chƣơng tiếp theo,... Bƣớc đầu thử nghiệm cho thấy chƣơng trình tóm tắt văn bản bằng xích từ vựng cho kết quả khá khả quan Tuy nhiên vẫn có một số nhƣợc điểm: Không xác định đƣợc tỉ lệ tóm tắt mong muốn Phƣơng pháp chƣa tính đến việc sử dụng tiêu đề văn bản để việc tóm tắt đƣợc chính xác hơn vì tiêu đề văn bản thƣờn xác định đề chủ đề chính của văn bản Chƣa tóm tắt đƣợc văn bản tiếng Việt do chƣa có WordNet tiếng Việt,... chọn từ ứng cử không tính đến việc chọn cụm danh từ mà chỉ chọn danh từ đơn nên xích xây dựng lên sẽ chƣa thực sự đại diện cho văn bản Mặt khác ROUGE đánh giá dựa trên sự so sánh giữa 2 văn bản: một do ngƣời tóm tắt và một là do máy tóm tắt, mà văn bản do ngƣời tóm tắt dựa trên ý hiểu, còn văn bản do máy tóm tắt trích xuất cả câu nên vẫn có lƣợng thông tin thừa đƣợc đƣa vào, dẫn đến khi so sánh 2 văn bản. .. sau: Văn bản nguồn input.txt Part-Of-Speech Tagging Tagged.txt Chain.txt Xây dựng xích từ vựng WordNet Diễn giải mạnh nhất (gồm nhiều xích) Mỗi 1 xích trích xuất 1 câu trong văn bản nguồn Output.txt Hình 3: Mô hình thuật toán tóm tắt văn bản sử dụng xích từ 12 vựng 3.2 Từ điển WordNet 3.2.1 Giới thiệu WordNet là một cơ sở dữ liệu từ vựng tiếng Anh lớnđƣợc xây dựng bởi Đại học Princetonbắt đầu từ năm... file này để xây dựng xích ở bƣớc tiếp theo 3.3.2 Xây dựng xích từ vựng Có thể nói đây là bƣớc quan trọng nhất trong quá trình tóm tắt văn bản. Xích từ vựng là một đồ thị gồm các từ có quan hệ với nhau, giữa 2 từ có quan hệ thì sẽ có 1 cạnh nối 2 từ đó Quá trình xây dựng xích đƣợc tiến hành nhƣ sau: Duyệt từng từ ứng cử một, với mỗi từ ứng cử thì xét từng nghĩa của từ đó và tìm xích thích hợp để đƣa... việc tóm tắt văn bản tiếng Việt trở lên khá dễ dàng Vì là tóm tắt trích rút câu nên bản tóm tắt vẫn chƣa thật cô đọng súc tích Hƣớng nghiên cứu trong tƣơng lai, em sẽ tìm hiểu để khắc phục những nhƣợc điểm nêu trên và nghiên cứu thêm những phƣơng pháp tóm tắt văn bản khác để thấy rõ đƣợc ƣu nhƣợc điểm của từng phƣơng pháp, từ đó có thể nâng cao hơn khả năng tóm tắt văn bản 31 PHỤ LỤC A Văn bản gốc