ĐỒ án tốt NGHIỆP đại học NGHIÊN cứu, xây DỰNG CHƯƠNG TRÌNH tự ĐỘNG tóm tắt văn bản

79 987 0
ĐỒ án tốt NGHIỆP đại học NGHIÊN cứu, xây DỰNG CHƯƠNG TRÌNH tự ĐỘNG tóm tắt văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Người đầu tiên tôi muốn gửi lời cảm ơn là thầy giáo hướng dẫn của tôi, Thầy giáo. Thầy đã gợi mở cho tôi những ý tưởng mới, hướng nghiên cứu thích hợp, luôn sẵn sàng giúp khi tôi cần sự giúp đỡ và đặc biệt là luôn luôn động viên để tôi tin rằng mình sẽ thành công. Làm việc với thầy tôi đã học hỏi được phương pháp nghiên cứu khoa học, cách tiếp cận và giải quyết với những vấn đề mới và hơn hết là một cách làm việc nghiêm túc và khoa học. Tôi muốn gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ Thông đã giúp đỡ, chỉ bảo tôi trong suốt quá trình học tập tại trường cũng như làm đồ án tốt nghiệp. Tôi muốn gửi lời cảm ơn tới các anh, chị tại công ty tôi thực tập – công ty Cổ phần Dịch vụ Công nghệ Thông tin NaiSCorp. Mọi người ở công ty đã tạo điều kiện, giúp đỡ tôi trong suốt quá trình thực tập cũng như làm đồ án tốt nghiệp, phòng Ngôn Ngữ đã giúp tôi trong việc đánh giá chất lượng bản tóm tắt. Cuối cùng, tôi muốn gửi lời cảm ơn tới những người thân và bạn bè của tôi – những người đã luôn động viên tôi trong suốt quá trình học tập cũng như làm đồ án tốt nghiệp. 1 TÓM TẮT NỘI DUNG Tự động tóm tắt văn bảntự động xác định những nội dung quan trọng nhất trong một (một số) tài liệu (cùng loại). Đây là một bài toán rất khó, liên quan đến nhiều lĩnh vực khoa học như: trí tuệ nhân tạo, thống kê, ngôn ngữ học, Bài toán này đã được các nhà nghiên cứu trên thế giới tìm hiểu từ những năm 1950, kết quả của những nghiên cứu đó là một số hệ thống tự động tóm tắt văn bản đã được công bố và cho chất lượng khá tốt như SUMMARIST, SweSUM, MEAD, Tuy nhiên, các nghiên cứu và các hệ thống đó chỉ áp dụng cho một số ngôn ngữ như: Tiếng Anh, Tiếng Pháp, Tiếng Nhật,… Mặc dù đã được nghiên cứu nhiều, thu được nhiều thành công nhưng bài toán này vẫn là một thách thức và đang thu hút nhiều sự quan tâm nghiên cứu trên thế giới. Bài toán này sẽ phức tạp hơn rất nhiều với một số ngôn ngữ khác, chẳng hạn như tiếng Việt là bởi vì cấu trúc từ vựng, ngữ pháp của tiếng Việt là rất phức tạp. Bên cạnh đó, với tiếng Việt, do chưa có nhiều nghiên cứu nên thiếu một bộ dữ liệu, một bộ từ điển ngữ nghĩa đầy đủ. Mục tiêu chủ yếu trong nghiên cứu này là nghiên cứu các kỹ thuật tự động tóm tắt văn bản trên thế giới. Sau đó sẽ lựa chọn một số phương pháp và áp dụng vào giải quyết bài toán tự động tóm tắt văn bản cho tiếng Việt. Để áp dụng vào tiếng Việt, chúng tôi thực hiện thêm nhiệm vụ trích rút từ đơn, từ kép (text segmentation). Kết quả các phương pháp sẽ được so sánh, đánh giá với nhau để rút ra phương pháp hiệu quả nhất. Trong nghiên cứu này, chúng tôi thực hiện tóm tắt đơn văn bản tiếng Việt, phương pháp là trích rút các câu quan trọng nhất trong văn bản, loại văn bản chúng tôi chọn là thể loại báo tin tức. Ngoài ra, chúng tôi còn xây dựng một module thực hiện việc tự động sinh dữ liệu huấn luyện nhằm phục vụ cho quá trình huấn luyện, đánh giá kết quả chương trình tự động tóm tắt văn bản. 2 MỤC LỤC LỜI CẢM ƠN 1 TÓM TẮT NỘI DUNG 2 1.1.Phát biểu bài toán 10 1.1.1.Khái niệm chung 10 1.1.2.Phân loại 11 1.1.3.Các tiêu chí đánh giá 15 1.1.4.Giới hạn đề tài 15 1.2.Kết quả đạt được 16 1.3.Bố cục đồ án 16 2.1.Mô hình ngôn ngữ thống kê N-Gram 19 2.2.Mô hình Markov ẩn 21 2.2.1.Quá trình Markov rời rạc 21 2.2.2.Mô hình Markov ẩn 23 2.2.3.Ba bài toán cơ bản được giải quyết bởi HMM 24 2.3.Mô hình Maximum Entropy 25 2.3.1.Lý thuyết Entropy 26 2.3.2.Mô hình học Maximum Entropy 27 3.1.Mô hình bài toán 31 3.1.1.Tiền xử lý 32 3.1.1.1.Loại bỏ từ dừng (stop-word) 33 3.1.1.2.Stemming 34 3.1.1.3.Case folding 35 3.1.2.Biểu diễn văn bản trên máy tính 35 3.1.2.1.Mô hình Boolean 35 3.1.2.2.Mô hình không gian Vector 36 3.1.3.Trích rút các câu từ văn bản gốc 37 3.1.4.Tạo bản tóm tắt 38 3 3.2.Tổng quan các phương pháp tự động tóm tắt văn bản 38 3.2.1.Các phương pháp heuristic 39 3.2.1.1.Phương pháp Keyword (Luhn 1958) 39 3.2.1.2.Phương pháp Title (Edmunson 1969) 40 3.2.1.3.Phương pháp Location (Edmunson 1969) 40 3.2.1.4.Phương pháp Aggregation Similarity 41 3.2.1.5.Phương pháp Cue 41 3.2.2.Phương pháp thống kê (Statistical based approach) 41 3.2.3.Phương pháp học máy 42 3.2.4.Phương pháp kết hợp (Hybrid approach) 43 4.1.Trích rút từ đơn, từ ghép sử dụng mô hình thống kê N-gram 44 4.2.Sinh dữ liệu huấn luyện 46 4.2.1.Sinh dữ liệu huấn luyện sử dụng phương pháp thống kê 46 4.2.2.Sinh dữ liệu huấn luyện sử dụng mô hình Markov ẩn 49 4.2.2.1.Mô hình bài toán 49 4.2.2.2.Các luật heuristic 51 4.2.2.3.Thuật toán Viterbi 53 4.2.3.Đánh giá và so sánh hai phương pháp trên 54 4.3.Tự động tóm tắt văn bản 56 4.3.1.Tự động tóm tắt văn bản sử dụng độ đo TF-IDF 56 4.3.1.1.Độ đo TF-IDF 56 4.3.1.2.Ý tưởng 57 4.3.1.3.Thuật toán 58 4.3.1.4.Nhận xét 60 4.3.2.Kết hợp một số phương pháp heuristics 60 4.3.2.1.Thuật toán 61 4.3.2.2.Nhận xét 64 4.3.3.Phương pháp học máy thống kê MEM 65 4.4.Đánh giá bản tóm tắt 66 4 4.4.1.Độ chính xác (percision) và độ hồi tưởng (Recall) 66 4.4.2.Phương pháp đánh giá độ tương tự về nội dung 67 5.1.Sơ đồ hệ thống 69 5.2.Giới thiệu hệ thống 69 5.3.Tập dữ liệu 71 5.4.Đánh giá quả giữa các phương pháp khác nhau 72 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 5 Danh Sách Hình 6 Danh Sách Bảng Bảng 4. 1. Bảng các luật Heuristics 52 Bảng 4. 2. Kết quả thử nghiệm mô hình thống kê mà Markov ẩn 55 7 Chương I: Giới thiệu Trong những năm gần đây, chúng ta đang được chứng kiến sự phát triển như vũ bão của World-Wide-Web. Theo thống kê của Lyman & Varian năm 2003 có khoảng 4 tỷ trang web đã được indexed bởi Google, khoảng 200TB dữ liệu trên Web [28] Và theo số liệu năm 2007 thì số website được indexed bởi Google đã lên tới 10 tỷ. Trước sự phát triển đó thì một vấn đề đặt ra là làm thế nào con người có thể sử dụng một cách hiệu quả lượng thông tin khổng lồ đó trên Internet? Đã có rất nhiều nghiên cứu trên thế giới nhằm giải quyết bài toán này và đã thu được những kết quả hết sức khả quan. Các nghiên cứu có thể kể đến là: Hệ thống tổ chức, tìm kiếm thông tin (Information Retrieval – IR), gom cụm dữ liệu, trích rút thông tin, trả lời câu hỏi, tóm tắt văn bản…[28] Trong đó tự động tóm tắt văn bản là công cụ rất quan trọng, nó giúp người sử dụng giảm được thời gian xử lý và nhanh chóng có được thông tin cần thiết. Ngày nay, các công cụ tìm kiếm trên Internet đã rất phát triển, hỗ trợ đắc lực người sử dụng tìm kiếm những thông tin cần thiết. Một số công cụ tìm kiếm có thể kể đến như: Google.com, Yahoo.com… và ở Việt Nam có socbay.com.vn, timnhanh.com… Tất cả các công cụ tìm kiếm này đều thực hiện tìm kiếm dựa trên từ khóa và kết quả trả về có thể hàng nghìn, hàng vài trăm nghìn kết quả. Chính lượng kết quả trả nhiều như vậy có thể làm người sử dụng bị choáng ngợp, không biết nên chọn kết quả nào. Do đó, một công việc hết sức cần thiết là giúp người sử dụng sàng lọc được lượng thông tin khổng lồ đó và nhanh chóng chọn được tài liệu thích hợp nhất. Chúng ta thử tưởng tượng, với mỗi kết quả tìm kiếm được có một bản tóm tắt ngắn gọn những nội dung chính hoặc các kết quả trả về được chia thành các nhóm tài liệu khác nhau, với mỗi nhóm có một bản tóm tắt nội dung của nó. Như vậy, 8 thay vì đọc cả tài liệu, người sử dụng chỉ cần đọc bản tóm tắt của nó. Có thể nói, đây là một cách rất tốt giúp người đọc nhanh chóng xác định xem tài liệu đó có phù hợp hay không. Thông thường, các bản tóm tắt được tạo bởi chính tác giả hoặc một chuyên gia tóm tắt văn bản. Khi một chuyên gia thực hiện tóm tắt một văn bản thì họ thường phải đọc hiểu hết tài liệu đó (vì thế phải có đủ kiến thức về lĩnh vực đó) sau đó mới tạo ra bản tóm tắt. Với bản tóm tắt như vậy sẽ bảo đảm tính mạch lạc của văn bản, tuy nhiên nó lại mang tính chủ quan và phụ thuộc vào khả năng của người tóm tắt. Với sự tiến bộ của của công nghệ thông tin, người ta đã thực hiện các nghiên cứu để có thể tự động tạo ra các bản tóm tắt ngắn gọn, đủ ý, súc tích và đặc biệt là trung thành với tác giả. Tuy nhiên, với bản tóm tắt tự động thì sẽ không được mạch lạc như bản tóm tắt của con người. Ngày nay, rất nhiều ứng dụng của tự động tóm tắt văn bản đang được sử dụng trong thực tiễn, chẳng hạn như Search Engine Hits (tóm tắt các kết quả trả về từ Search Engine), trên các thiết bị cầm tay (Hand-Held Devices), và tạo Headline trên ti vi [22].[13] Các nghiên cứu về bài toán này được bắt đầu từ những năm 1950 và nó đặc biệt được chú ý tới trong khoảng 20 năm trở lại đây. Ở nước ta việc nghiên cứu bài toán này cũng đang nhận được sự quan tâm đặc biệt của giới nghiên cứu [3]., tuy nhiên vẫn chưa có một hệ thống tự động tóm tắt văn bản tiếng Việt nào được công bố. Trước ý nghĩa to lớn và thực trạng của việc nghiên cứu bài toán tự động tóm tắt văn bản đó, chúng tôi quyết định chọn đề tài này. Mục tiêu của chúng tôi là nghiên cứu các kỹ thuật tóm tắt văn bản trên thế giới sau đó áp dụng vào tiếng Việt của chúng ta, xây dựng một hệ thống tự động tóm tắt tin tức tiếng Việt. 9 1.1. Phát biểu bài toán 1.1.1. Khái niệm chung Có rất nhiều khái niệm về tự động tóm tắt văn bản, tuy nhiên chúng ta có thể hiểu như sau: Tự động tóm tắt văn bảntự động tạo ra một văn bản mới ngắn gọn nhưng chứa nội dung chính của một (hay một vài) tài liệu (cùng loại) [30] Kích thước của bản tóm tắt được giới hạn là không dài quá ½ kích thước của tài liệu gốc [8].[27] Bài toán tự động tóm tắt văn bản là một bài toán phức tạp vì nó liên quan đến rất nhiều lĩnh vực như: thống kê, ngôn ngữ học, trí tuệ nhân tạo (làm thế nào để máy tính có thể hiểu được ngôn ngữ tự nhiên như con người). Ngoài ra nó còn phụ thuộc vào đặc thù của từng ngôn ngữ. Song đây là một bài toán có ý nghĩa thực tế rất cao đặc biệt trong bối cảnh hiện nay, trước một lượng thông tin khổng lồ trên Internet, mà chủ yếu ở dạng text. Một trong những ứng dụng có ý nghĩa hết sức quan trọng của bài toán này là ứng dụng trong lĩnh vực quốc phòng an ninh. Như chúng ta đã biết, Internet phát triển đem đến cho loài người rất nhiều sự tiện lợi, tuy nhiên sẽ có những mặt trái của nó, sẽ có những cá nhân hoặc tổ chức lợi dụng Internet để phát tán các thông tin không chính xác, phản động. Việc xác định những thông tin nào là có lợi, thông tin nào là không chính xác đòi hỏi phải có một đội ngũ nhân viên xử lý các văn bản. Với sự phát triển của Internet, lượng văn bản được cập nhật lên mạng là vô cùng lớn và nhanh chóng, điều đó dẫn tới vấn đề là liệu các nhân viên chuyên xử lý văn bản đó có xử lý kịp thời không? Chắc chắn là khó có thể xử lý kịp. Do đó, cần phải có các phần mềm trích rút thông tin, gom cụm dữ liệu, tóm tắt văn bản để giúp các nhân viên xử lý văn bản giảm thời gian tìm kiếm, xử lý, phân loại văn bản. 10 [...]... it Chương III Mô hình bài toán tự động tóm tắt văn bản Bài toán tự động tóm tắt văn bản có thể được giải quyết theo rất nhiều phương pháp khác nhau Để có được một cái nhìn tổng quát, trong phần này chúng tôi sẽ trình bày một mô hình chung để giải quyết bài toán, sau đó sẽ trình bày tổng quan các phương pháp tự động tóm tắt văn bản 3.1 Mô hình bài toán Bài toán tự động tóm tắt văn bản bao gồm tóm tắt. .. huấn luyện, ba kỹ thuật tự động tóm tắt văn bản và cuối cùng là kỹ thuật tự động đánh giá chất lượng bản tóm tắt 17 Chương V: Chương này sẽ giới thiệu hệ thống tự động tóm tắt tin tức mà chúng tôi đã xây dựng được, những kết quả thực hiện các phương pháp và các đánh giá, so sánh giữa các phương pháp 18 Chương II Một số kiến thức liên quan Tự động tóm tắt văn bản là một bài toán khó, liên quan đến nhiều... hiện tóm tắt đa văn bản 1.1.2 Phân loại Bài toán tự động tóm tắt văn bản có thể được chia thành nhiều loại tùy theo các tiêu chí khác nhau [30] Với mỗi loại sẽ có những đặc điểm khác nhau nên cần có phương pháp giải quyết khác nhau Sau đây chúng tôi sẽ nêu ra một số lớp bài toán con chủ yếu của bài toán này  Tóm tắt đơn văn bảntóm tắt đa văn bản Tóm tắt đơn văn bản là tạo bản tóm tắt chỉ từ một văn. .. văn bản là tạo bản tóm tắt chỉ từ một văn bản đầu vào, trong khi đó tóm tắt đa văn bản là tạo ra bản tóm tắt từ nhiều văn bản đầu vào cùng loại [19].[27] Bài toán tự động tóm tắt đơn văn bản lại có thể được chia thành hai loại chính đótóm tắt dựa vào trích rút (extraction) và tóm tắt dựa vào tóm lược (abstraction) Ý tưởng chính của việc tóm tắt đơn văn bản dựa vào trích rút là sử dụng một tập các... toán tự động tóm tắt văn bản bao gồm tóm tắt đơn văn bản bằng trích rút, tóm tắt đơn văn bản bằng tóm lược và tóm tắt đa văn bản Trong phần này chúng tôi đưa ra mô hình chung giải quyết bài toán tự động tóm tắt đơn văn bản bằng trích rút Mô hình hệ thống gồm 4 bước như sau: Hình 3 1 Mô hình hệ thống tự động tóm tắt đơnvăn bản bằng trích rút 31 Từ một văn bản đầu vào, nó sẽ được qua bước tiền xử lý với... cực đại được sử dụng thực hiện tóm tắt văn bản Chương III: Trong chương này, chúng tôi sẽ trình bày mô hình chung giải quyết bài toán tự động tóm tắt văn bản Chi tiết các bước thực hiện cũng như các kỹ thuật thường được sử dụng trong mỗi bước Tiếp theo, chúng tôi trình bày tổng quan các kỹ thuật tự động tóm tắt văn bản, từ đó là cơ sở cho chúng tôi lựa chọn một số phương pháp để thực hiện Chương IV: Chương. .. những ý nghĩa hết sức to lớn của bài toán tự động tóm tắt văn bản nên hiện nay nó vẫn được giới học thuật trong và ngoài nước tiếp tục nghiên cứu Đặc biệt khi mà vẫn chưa có một phần mềm nào thực hiện tự động tóm tắt văn bản tiếng Việt thì đề tài này sẽ hứa hẹn nhiều sự quan tâm trong thời gian tới Sự phát triển của các kỹ thuật tự động tóm tắt văn bản được tóm tắt qua các giai đoạn sau [30].: - Từ... từ năm 2000 trở lại đây Bài toán có thể được phát biểu như sau: Tự động tóm tắt đa văn bảntự động tạo ra bản tóm tắt nội dung chính từ một số văn bản cùng loại (cùng chủ đề) Đây là bài toán rất hay, rất có ý nghĩa trong thực tế Chẳng hạn như, sau khi thực hiện các kỹ thuật tự động phân loại, gom cụm kết quả tìm kiếm từ search engine, 12 một chương trình tự động tóm tắt nội dung các tài liệu trong... đó Tóm lược (Abstraction) là tạo ra bản tóm tắt mà chứa một số đơn vị dữ liệu không có trong tài liệu gốc Như vậy, tóm tắt văn bản bằng cách tóm lược thì sẽ rất khó bởi vì nó liên quan đến một lĩnh vực rất khó của xử lý ngôn ngữ tự nhiên đótự động sinh văn bản (text generation) Nếu thực hiện tốt thì cho ta kết quả tóm tắt tốt hơn, lời văn sẽ muợt mà hơn Tuy nhiên, nếu làm không tốt thì câu văn. .. để đánh giá kết quả thực hiện của các phương pháp đã cài đặt 1.3 Bố cục đồ án Bài báo cáo này được tổ chức như sau: 16 Chương I: Giới thiệu về bài toán tự động tóm tắt văn bản, ý nghĩa thực tế của bài toán, phân loại và các tiêu chí đánh giá chất lượng bản tóm tắt Trong phần này chúng tôi cũng đưa ra giới hạn nghiên cứu của đề tài, tóm tắt những kết quả đã đạt được và bố cục của báo cáo Chương II: Chương . toán con chủ yếu của bài toán này.  Tóm tắt đơn văn bản và tóm tắt đa văn bản Tóm tắt đơn văn bản là tạo bản tóm tắt chỉ từ một văn bản đầu vào, trong khi đó tóm tắt đa văn bản là tạo ra bản. bè của tôi – những người đã luôn động viên tôi trong suốt quá trình học tập cũng như làm đồ án tốt nghiệp. 1 TÓM TẮT NỘI DUNG Tự động tóm tắt văn bản là tự động xác định những nội dung quan. hình bài toán 49 4.2.2.2.Các luật heuristic 51 4.2.2.3.Thuật toán Viterbi 53 4.2.3.Đánh giá và so sánh hai phương pháp trên 54 4.3 .Tự động tóm tắt văn bản 56 4.3.1 .Tự động tóm tắt văn bản sử dụng

Ngày đăng: 18/06/2014, 22:16

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • TÓM TẮT NỘI DUNG

  • KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan