Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
3,31 MB
Nội dung
LỜI CẢM ƠN Người đầu tiên tôi muốn gửi lời cảm ơn là thầy giáo hướng dẫn của tôi, Thầy giáo. Thầy đã gợi mở cho tôi những ý tưởng mới, hướng nghiên cứu thích hợp, luôn sẵn sàng giúp khi tôi cần sự giúp đỡ và đặc biệt là luôn luôn động viên để tôi tin rằng mình sẽ thành công. Làm việc với thầy tôi đã học hỏi được phương pháp nghiên cứu khoa học, cách tiếp cận và giải quyết với những vấn đề mới và hơn hết là một cách làm việc nghiêm túc và khoa học. Tôi muốn gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ Thông đã giúp đỡ, chỉ bảo tôi trong suốt quá trìnhhọc tập tại trường cũng như làm đồ ántốt nghiệp. Tôi muốn gửi lời cảm ơn tới các anh, chị tại công ty tôi thực tập – công ty Cổ phần Dịch vụ Công nghệ Thông tin NaiSCorp. Mọi người ở công ty đã tạo điều kiện, giúp đỡ tôi trong suốt quá trình thực tập cũng như làm đồ ántốt nghiệp, phòng Ngôn Ngữ đã giúp tôi trong việc đánh giá chất lượng bảntóm tắt. Cuối cùng, tôi muốn gửi lời cảm ơn tới những người thân và bạn bè của tôi – những người đã luôn động viên tôi trong suốt quá trìnhhọc tập cũng như làm đồ ántốt nghiệp. 1 TÓMTẮT NỘI DUNGTựđộngtómtắtvănbản là tựđộng xác định những nội dung quan trọng nhất trong một (một số) tài liệu (cùng loại). Đây là một bài toán rất khó, liên quan đến nhiều lĩnh vực khoa học như: trí tuệ nhân tạo, thống kê, ngôn ngữ học, Bài toán này đã được các nhà nghiên cứu trên thế giới tìm hiểu từ những năm 1950, kết quả của những nghiên cứu đó là một số hệ thống tựđộngtómtắtvănbản đã được công bố và cho chất lượng khá tốt như SUMMARIST, SweSUM, MEAD, Tuy nhiên, các nghiên cứu và các hệ thống đó chỉ áp dụng cho một số ngôn ngữ như: Tiếng Anh, Tiếng Pháp, Tiếng Nhật,… Mặc dù đã được nghiên cứu nhiều, thu được nhiều thành công nhưng bài toán này vẫn là một thách thức và đang thu hút nhiều sự quan tâm nghiên cứu trên thế giới. Bài toán này sẽ phức tạp hơn rất nhiều với một số ngôn ngữ khác, chẳng hạn như tiếng Việt là bởi vì cấu trúc từ vựng, ngữ pháp của tiếng Việt là rất phức tạp. Bên cạnh đó, với tiếng Việt, do chưa có nhiều nghiên cứu nên thiếu một bộ dữ liệu, một bộ từ điển ngữ nghĩa đầy đủ. Mục tiêu chủ yếu trong nghiên cứu này là nghiên cứu các kỹ thuật tựđộngtómtắtvănbản trên thế giới. Sau đó sẽ lựa chọn một số phương pháp và áp dụng vào giải quyết bài toán tựđộngtómtắtvănbản cho tiếng Việt. Để áp dụng vào tiếng Việt, chúng tôi thực hiện thêm nhiệm vụ trích rút từ đơn, từ kép (text segmentation). Kết quả các phương pháp sẽ được so sánh, đánh giá với nhau để rút ra phương pháp hiệu quả nhất. Trong nghiên cứu này, chúng tôi thực hiện tómtắt đơn vănbản tiếng Việt, phương pháp là trích rút các câu quan trọng nhất trong văn bản, loại vănbản chúng tôi chọn là thể loại báo tin tức. Ngoài ra, chúng tôi còn xâydựng một module thực hiện việc tựđộng sinh dữ liệu huấn luyện nhằm phục vụ cho quá trình huấn luyện, đánh giá kết quả chươngtrìnhtựđộngtómtắtvăn bản. 2 MỤC LỤC LỜI CẢM ƠN 1 TÓMTẮT NỘI DUNG 2 1.1.Phát biểu bài toán 10 1.1.1.Khái niệm chung 10 1.1.2.Phân loại 11 1.1.3.Các tiêu chí đánh giá 15 1.1.4.Giới hạn đề tài 15 1.2.Kết quả đạt được 16 1.3.Bố cục đồán 16 2.1.Mô hình ngôn ngữ thống kê N-Gram 19 2.2.Mô hình Markov ẩn 21 2.2.1.Quá trình Markov rời rạc 21 2.2.2.Mô hình Markov ẩn 23 2.2.3.Ba bài toán cơ bản được giải quyết bởi HMM 24 2.3.Mô hình Maximum Entropy 25 2.3.1.Lý thuyết Entropy 26 2.3.2.Mô hình học Maximum Entropy 27 3.1.Mô hình bài toán 31 3.1.1.Tiền xử lý 32 3.1.1.1.Loại bỏ từdừng (stop-word) 33 3.1.1.2.Stemming 34 3.1.1.3.Case folding 35 3.1.2.Biểu diễn vănbản trên máy tính 35 3.1.2.1.Mô hình Boolean 35 3.1.2.2.Mô hình không gian Vector 36 3.1.3.Trích rút các câu từvănbản gốc 37 3.1.4.Tạo bảntómtắt 38 3 3.2.Tổng quan các phương pháp tựđộngtómtắtvănbản 38 3.2.1.Các phương pháp heuristic 39 3.2.1.1.Phương pháp Keyword (Luhn 1958) 39 3.2.1.2.Phương pháp Title (Edmunson 1969) 40 3.2.1.3.Phương pháp Location (Edmunson 1969) 40 3.2.1.4.Phương pháp Aggregation Similarity 41 3.2.1.5.Phương pháp Cue 41 3.2.2.Phương pháp thống kê (Statistical based approach) 41 3.2.3.Phương pháp học máy 42 3.2.4.Phương pháp kết hợp (Hybrid approach) 43 4.1.Trích rút từ đơn, từ ghép sử dụng mô hình thống kê N-gram 44 4.2.Sinh dữ liệu huấn luyện 46 4.2.1.Sinh dữ liệu huấn luyện sử dụng phương pháp thống kê 46 4.2.2.Sinh dữ liệu huấn luyện sử dụng mô hình Markov ẩn 49 4.2.2.1.Mô hình bài toán 49 4.2.2.2.Các luật heuristic 51 4.2.2.3.Thuật toán Viterbi 53 4.2.3.Đánh giá và so sánh hai phương pháp trên 54 4.3.Tự độngtómtắtvănbản 56 4.3.1.Tự độngtómtắtvănbản sử dụngđộđo TF-IDF 56 4.3.1.1.Độ đo TF-IDF 56 4.3.1.2.Ý tưởng 57 4.3.1.3.Thuật toán 58 4.3.1.4.Nhận xét 60 4.3.2.Kết hợp một số phương pháp heuristics 60 4.3.2.1.Thuật toán 61 4.3.2.2.Nhận xét 64 4.3.3.Phương pháp học máy thống kê MEM 65 4.4.Đánh giá bảntómtắt 66 4 4.4.1.Độ chính xác (percision) và độ hồi tưởng (Recall) 66 4.4.2.Phương pháp đánh giá độ tương tự về nội dung 67 5.1.Sơ đồ hệ thống 69 5.2.Giới thiệu hệ thống 69 5.3.Tập dữ liệu 71 5.4.Đánh giá quả giữa các phương pháp khác nhau 72 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75 5 Danh Sách Hình 6 Danh Sách Bảng Bảng 4. 1. Bảng các luật Heuristics 52 Bảng 4. 2. Kết quả thử nghiệm mô hình thống kê mà Markov ẩn 55 7 Chương I: Giới thiệu Trong những năm gần đây, chúng ta đang được chứng kiến sự phát triển như vũ bão của World-Wide-Web. Theo thống kê của Lyman & Varian năm 2003 có khoảng 4 tỷ trang web đã được indexed bởi Google, khoảng 200TB dữ liệu trên Web [28] Và theo số liệu năm 2007 thì số website được indexed bởi Google đã lên tới 10 tỷ. Trước sự phát triển đó thì một vấn đề đặt ra là làm thế nào con người có thể sử dụng một cách hiệu quả lượng thông tin khổng lồ đó trên Internet? Đã có rất nhiều nghiên cứu trên thế giới nhằm giải quyết bài toán này và đã thu được những kết quả hết sức khả quan. Các nghiên cứu có thể kể đến là: Hệ thống tổ chức, tìm kiếm thông tin (Information Retrieval – IR), gom cụm dữ liệu, trích rút thông tin, trả lời câu hỏi, tómtắtvăn bản…[28] Trong đótựđộngtómtắtvănbản là công cụ rất quan trọng, nó giúp người sử dụng giảm được thời gian xử lý và nhanh chóng có được thông tin cần thiết. Ngày nay, các công cụ tìm kiếm trên Internet đã rất phát triển, hỗ trợ đắc lực người sử dụng tìm kiếm những thông tin cần thiết. Một số công cụ tìm kiếm có thể kể đến như: Google.com, Yahoo.com… và ở Việt Nam có socbay.com.vn, timnhanh.com… Tất cả các công cụ tìm kiếm này đều thực hiện tìm kiếm dựa trên từ khóa và kết quả trả về có thể hàng nghìn, hàng vài trăm nghìn kết quả. Chính lượng kết quả trả nhiều như vậy có thể làm người sử dụng bị choáng ngợp, không biết nên chọn kết quả nào. Do đó, một công việc hết sức cần thiết là giúp người sử dụng sàng lọc được lượng thông tin khổng lồ đó và nhanh chóng chọn được tài liệu thích hợp nhất. Chúng ta thử tưởng tượng, với mỗi kết quả tìm kiếm được có một bảntómtắt ngắn gọn những nội dung chính hoặc các kết quả trả về được chia thành các nhóm tài liệu khác nhau, với mỗi nhóm có một bảntómtắt nội dung của nó. Như vậy, 8 thay vì đọc cả tài liệu, người sử dụng chỉ cần đọc bảntómtắt của nó. Có thể nói, đây là một cách rất tốt giúp người đọc nhanh chóng xác định xem tài liệu đó có phù hợp hay không. Thông thường, các bảntómtắt được tạo bởi chính tác giả hoặc một chuyên gia tómtắtvăn bản. Khi một chuyên gia thực hiện tómtắt một vănbản thì họ thường phải đọc hiểu hết tài liệu đó (vì thế phải có đủ kiến thức về lĩnh vực đó) sau đó mới tạo ra bảntóm tắt. Với bảntómtắt như vậy sẽ bảo đảm tính mạch lạc của văn bản, tuy nhiên nó lại mang tính chủ quan và phụ thuộc vào khả năng của người tóm tắt. Với sự tiến bộ của của công nghệ thông tin, người ta đã thực hiện các nghiên cứu để có thể tựđộng tạo ra các bảntómtắt ngắn gọn, đủ ý, súc tích và đặc biệt là trung thành với tác giả. Tuy nhiên, với bảntómtắttựđộng thì sẽ không được mạch lạc như bảntómtắt của con người. Ngày nay, rất nhiều ứng dụng của tựđộngtómtắtvănbản đang được sử dụng trong thực tiễn, chẳng hạn như Search Engine Hits (tóm tắt các kết quả trả về từ Search Engine), trên các thiết bị cầm tay (Hand-Held Devices), và tạo Headline trên ti vi [22].[13] Các nghiên cứu về bài toán này được bắt đầu từ những năm 1950 và nó đặc biệt được chú ý tới trong khoảng 20 năm trở lại đây. Ở nước ta việc nghiên cứu bài toán này cũng đang nhận được sự quan tâm đặc biệt của giới nghiên cứu [3]., tuy nhiên vẫn chưa có một hệ thống tựđộngtómtắtvănbản tiếng Việt nào được công bố. Trước ý nghĩa to lớn và thực trạng của việc nghiên cứu bài toán tựđộngtómtắtvănbản đó, chúng tôi quyết định chọn đề tài này. Mục tiêu của chúng tôi là nghiên cứu các kỹ thuật tómtắtvănbản trên thế giới sau đó áp dụng vào tiếng Việt của chúng ta, xâydựng một hệ thống tựđộngtómtắt tin tức tiếng Việt. 9 1.1. Phát biểu bài toán 1.1.1. Khái niệm chung Có rất nhiều khái niệm về tựđộngtómtắtvăn bản, tuy nhiên chúng ta có thể hiểu như sau: Tựđộngtómtắtvănbản là tựđộng tạo ra một vănbản mới ngắn gọn nhưng chứa nội dung chính của một (hay một vài) tài liệu (cùng loại) [30] Kích thước của bảntómtắt được giới hạn là không dài quá ½ kích thước của tài liệu gốc [8].[27] Bài toán tựđộngtómtắtvănbản là một bài toán phức tạp vì nó liên quan đến rất nhiều lĩnh vực như: thống kê, ngôn ngữ học, trí tuệ nhân tạo (làm thế nào để máy tính có thể hiểu được ngôn ngữ tự nhiên như con người). Ngoài ra nó còn phụ thuộc vào đặc thù của từng ngôn ngữ. Song đây là một bài toán có ý nghĩa thực tế rất cao đặc biệt trong bối cảnh hiện nay, trước một lượng thông tin khổng lồ trên Internet, mà chủ yếu ở dạng text. Một trong những ứng dụng có ý nghĩa hết sức quan trọng của bài toán này là ứng dụng trong lĩnh vực quốc phòng an ninh. Như chúng ta đã biết, Internet phát triển đem đến cho loài người rất nhiều sự tiện lợi, tuy nhiên sẽ có những mặt trái của nó, sẽ có những cá nhân hoặc tổ chức lợi dụng Internet để phát tán các thông tin không chính xác, phản động. Việc xác định những thông tin nào là có lợi, thông tin nào là không chính xác đòi hỏi phải có một đội ngũ nhân viên xử lý các văn bản. Với sự phát triển của Internet, lượng vănbản được cập nhật lên mạng là vô cùng lớn và nhanh chóng, điều đó dẫn tới vấn đề là liệu các nhân viên chuyên xử lý vănbảnđó có xử lý kịp thời không? Chắc chắn là khó có thể xử lý kịp. Do đó, cần phải có các phần mềm trích rút thông tin, gom cụm dữ liệu, tómtắtvănbản để giúp các nhân viên xử lý vănbản giảm thời gian tìm kiếm, xử lý, phân loại văn bản. 10 [...]... it Chương III Mô hình bài toán tựđộngtómtắtvănbản Bài toán tựđộngtómtắtvănbản có thể được giải quyết theo rất nhiều phương pháp khác nhau Để có được một cái nhìn tổng quát, trong phần này chúng tôi sẽ trình bày một mô hình chung để giải quyết bài toán, sau đó sẽ trình bày tổng quan các phương pháp tựđộngtómtắtvănbản 3.1 Mô hình bài toán Bài toán tựđộngtómtắtvănbản bao gồm tóm tắt. .. huấn luyện, ba kỹ thuật tựđộngtómtắtvănbản và cuối cùng là kỹ thuật tựđộng đánh giá chất lượng bảntómtắt 17 Chương V: Chương này sẽ giới thiệu hệ thống tựđộngtómtắt tin tức mà chúng tôi đã xâydựng được, những kết quả thực hiện các phương pháp và các đánh giá, so sánh giữa các phương pháp 18 Chương II Một số kiến thức liên quan Tựđộngtómtắtvănbản là một bài toán khó, liên quan đến nhiều... hiện tómtắt đa vănbản 1.1.2 Phân loại Bài toán tựđộngtómtắtvănbản có thể được chia thành nhiều loại tùy theo các tiêu chí khác nhau [30] Với mỗi loại sẽ có những đặc điểm khác nhau nên cần có phương pháp giải quyết khác nhau Sau đây chúng tôi sẽ nêu ra một số lớp bài toán con chủ yếu của bài toán này Tómtắt đơn vănbản và tómtắt đa vănbảnTómtắt đơn vănbản là tạo bảntómtắt chỉ từ một văn. .. vănbản là tạo bảntómtắt chỉ từ một vănbản đầu vào, trong khi đótómtắt đa vănbản là tạo ra bảntómtắttừ nhiều vănbản đầu vào cùng loại [19].[27] Bài toán tựđộngtómtắt đơn vănbản lại có thể được chia thành hai loại chính đó là tómtắt dựa vào trích rút (extraction) và tómtắt dựa vào tóm lược (abstraction) Ý tưởng chính của việc tómtắt đơn vănbản dựa vào trích rút là sử dụng một tập các... toán tựđộngtómtắtvănbản bao gồm tómtắt đơn vănbản bằng trích rút, tómtắt đơn vănbản bằng tóm lược và tómtắt đa vănbản Trong phần này chúng tôi đưa ra mô hình chung giải quyết bài toán tựđộngtómtắt đơn vănbản bằng trích rút Mô hình hệ thống gồm 4 bước như sau: Hình 3 1 Mô hình hệ thống tựđộngtómtắt đơnvăn bản bằng trích rút 31 Từ một vănbản đầu vào, nó sẽ được qua bước tiền xử lý với... cực đại được sử dụng thực hiện tómtắtvănbảnChương III: Trong chương này, chúng tôi sẽ trình bày mô hình chung giải quyết bài toán tựđộngtómtắtvănbản Chi tiết các bước thực hiện cũng như các kỹ thuật thường được sử dụng trong mỗi bước Tiếp theo, chúng tôi trình bày tổng quan các kỹ thuật tựđộngtómtắtvăn bản, từđó là cơ sở cho chúng tôi lựa chọn một số phương pháp để thực hiện Chương IV: Chương. .. những ý nghĩa hết sức to lớn của bài toán tựđộngtómtắtvănbản nên hiện nay nó vẫn được giới học thuật trong và ngoài nước tiếp tục nghiên cứu Đặc biệt khi mà vẫn chưa có một phần mềm nào thực hiện tựđộngtómtắtvănbản tiếng Việt thì đề tài này sẽ hứa hẹn nhiều sự quan tâm trong thời gian tới Sự phát triển của các kỹ thuật tựđộngtómtắtvănbản được tómtắt qua các giai đoạn sau [30].: - Từ... từ năm 2000 trở lại đây Bài toán có thể được phát biểu như sau: Tựđộngtómtắt đa vănbản là tựđộng tạo ra bảntómtắt nội dung chính từ một số vănbản cùng loại (cùng chủ đề) Đây là bài toán rất hay, rất có ý nghĩa trong thực tế Chẳng hạn như, sau khi thực hiện các kỹ thuật tựđộng phân loại, gom cụm kết quả tìm kiếm từ search engine, 12 một chươngtrìnhtựđộngtómtắt nội dung các tài liệu trong... đóTóm lược (Abstraction) là tạo ra bảntómtắt mà chứa một số đơn vị dữ liệu không có trong tài liệu gốc Như vậy, tómtắtvănbản bằng cách tóm lược thì sẽ rất khó bởi vì nó liên quan đến một lĩnh vực rất khó của xử lý ngôn ngữ tự nhiên đó là tựđộng sinh vănbản (text generation) Nếu thực hiện tốt thì cho ta kết quả tómtắttốt hơn, lời văn sẽ muợt mà hơn Tuy nhiên, nếu làm không tốt thì câu văn. .. để đánh giá kết quả thực hiện của các phương pháp đã cài đặt 1.3 Bố cục đồ án Bài báo cáo này được tổ chức như sau: 16 Chương I: Giới thiệu về bài toán tựđộngtómtắtvăn bản, ý nghĩa thực tế của bài toán, phân loại và các tiêu chí đánh giá chất lượng bảntómtắt Trong phần này chúng tôi cũng đưa ra giới hạn nghiên cứu của đề tài, tómtắt những kết quả đã đạt được và bố cục của báo cáo Chương II: Chương . toán con chủ yếu của bài toán này. Tóm tắt đơn văn bản và tóm tắt đa văn bản Tóm tắt đơn văn bản là tạo bản tóm tắt chỉ từ một văn bản đầu vào, trong khi đó tóm tắt đa văn bản là tạo ra bản. bè của tôi – những người đã luôn động viên tôi trong suốt quá trình học tập cũng như làm đồ án tốt nghiệp. 1 TÓM TẮT NỘI DUNG Tự động tóm tắt văn bản là tự động xác định những nội dung quan. hình bài toán 49 4.2.2.2.Các luật heuristic 51 4.2.2.3.Thuật toán Viterbi 53 4.2.3.Đánh giá và so sánh hai phương pháp trên 54 4.3 .Tự động tóm tắt văn bản 56 4.3.1 .Tự động tóm tắt văn bản sử dụng