Kết quả các phương pháp sẽ được so sánh, đánh giá với nhau để rút ra phương pháp hiệu quả nhất.Trong nghiên cứu này, chúng tôi thực hiện tóm tắt đơn văn bảntiếng Việt, phương pháp là trí
Trang 1LỜI CẢM ƠN
Người đầu tiên tôi muốn gửi lời cảm ơn là thầy giáo hướng dẫn của
tôi, Thầy giáo Thầy đã gợi mở cho tôi những ý tưởng mới, hướng
nghiên cứu thích hợp, luôn sẵn sàng giúp khi tôi cần sự giúp đỡ và đặcbiệt là luôn luôn động viên để tôi tin rằng mình sẽ thành công Làmviệc với thầy tôi đã học hỏi được phương pháp nghiên cứu khoa học,cách tiếp cận và giải quyết với những vấn đề mới và hơn hết là mộtcách làm việc nghiêm túc và khoa học
Tôi muốn gửi lời cảm ơn tới các thầy cô trong khoa Công nghệThông đã giúp đỡ, chỉ bảo tôi trong suốt quá trình học tập tại trườngcũng như làm đồ án tốt nghiệp
Tôi muốn gửi lời cảm ơn tới các anh, chị tại công ty tôi thực tập –công ty Cổ phần Dịch vụ Công nghệ Thông tin NaiSCorp Mọi người ởcông ty đã tạo điều kiện, giúp đỡ tôi trong suốt quá trình thực tập cũngnhư làm đồ án tốt nghiệp, phòng Ngôn Ngữ đã giúp tôi trong việc đánhgiá chất lượng bản tóm tắt
Cuối cùng, tôi muốn gửi lời cảm ơn tới những người thân và bạn bècủa tôi – những người đã luôn động viên tôi trong suốt quá trình học tậpcũng như làm đồ án tốt nghiệp
Trang 2TÓM TẮT NỘI DUNG
Tự động tóm tắt văn bản là tự động xác định những nội dung quantrọng nhất trong một (một số) tài liệu (cùng loại) Đây là một bài toán rấtkhó, liên quan đến nhiều lĩnh vực khoa học như: trí tuệ nhân tạo, thống
kê, ngôn ngữ học, Bài toán này đã được các nhà nghiên cứu trên thếgiới tìm hiểu từ những năm 1950, kết quả của những nghiên cứu đó làmột số hệ thống tự động tóm tắt văn bản đã được công bố và cho chấtlượng khá tốt như SUMMARIST, SweSUM, MEAD, Tuy nhiên, cácnghiên cứu và các hệ thống đó chỉ áp dụng cho một số ngôn ngữ như:
Tiếng Anh, Tiếng Pháp, Tiếng Nhật,… Mặc dù đã được nghiên cứu
nhiều, thu được nhiều thành công nhưng bài toán này vẫn là một tháchthức và đang thu hút nhiều sự quan tâm nghiên cứu trên thế giới Bàitoán này sẽ phức tạp hơn rất nhiều với một số ngôn ngữ khác, chẳng hạn
như tiếng Việt là bởi vì cấu trúc từ vựng, ngữ pháp của tiếng Việt là rất
phức tạp Bên cạnh đó, với tiếng Việt, do chưa có nhiều nghiên cứu nênthiếu một bộ dữ liệu, một bộ từ điển ngữ nghĩa đầy đủ
Mục tiêu chủ yếu trong nghiên cứu này là nghiên cứu các kỹ thuật
tự động tóm tắt văn bản trên thế giới Sau đó sẽ lựa chọn một số phươngpháp và áp dụng vào giải quyết bài toán tự động tóm tắt văn bản chotiếng Việt Để áp dụng vào tiếng Việt, chúng tôi thực hiện thêm nhiệm
vụ trích rút từ đơn, từ kép (text segmentation) Kết quả các phương pháp
sẽ được so sánh, đánh giá với nhau để rút ra phương pháp hiệu quả nhất.Trong nghiên cứu này, chúng tôi thực hiện tóm tắt đơn văn bảntiếng Việt, phương pháp là trích rút các câu quan trọng nhất trong vănbản, loại văn bản chúng tôi chọn là thể loại báo tin tức Ngoài ra, chúngtôi còn xây dựng một module thực hiện việc tự động sinh dữ liệu huấnluyện nhằm phục vụ cho quá trình huấn luyện, đánh giá kết quả chươngtrình tự động tóm tắt văn bản
Trang 3MỤC LỤC
LỜI CẢM ƠN 1
TÓM TẮT NỘI DUNG 2
Danh Sách Hình 6
Danh Sách Bảng 7
Chương I: Giới thiệu 8
1.1 Phát biểu bài toán 10
1.1.1 Khái niệm chung 10
1.1.2 Phân loại 11
1.1.3 Các tiêu chí đánh giá 15
1.1.4 Giới hạn đề tài 15
1.2 Kết quả đạt được 16
1.3 Bố cục đồ án 17
Chương II Một số kiến thức liên quan 19
2.1 Mô hình ngôn ngữ thống kê N-Gram 19
2.2 Mô hình Markov ẩn 21
2.2.1 Quá trình Markov rời rạc 21
2.2.2 Mô hình Markov ẩn 23
2.2.3 Ba bài toán cơ bản được giải quyết bởi HMM 24
2.3 Mô hình Maximum Entropy 25
2.3.1 Lý thuyết Entropy 26
2.3.2 Mô hình học Maximum Entropy 27
Chương III Mô hình bài toán tự động tóm tắt văn bản 31
3.1 Mô hình bài toán 31
3.1.1 Tiền xử lý 32
3.1.1.1 Loại bỏ từ dừng (stop-word) 33
3.1.1.2 Stemming 34
3.1.1.3 Case folding 35
3.1.2 Biểu diễn văn bản trên máy tính 35
Trang 43.1.2.1 Mô hình Boolean 35
3.1.2.2 Mô hình không gian Vector 36
3.1.3 Trích rút các câu từ văn bản gốc 37
3.1.4 Tạo bản tóm tắt 38
3.2 Tổng quan các phương pháp tự động tóm tắt văn bản 38
3.2.1 Các phương pháp heuristic 39
3.2.1.1 Phương pháp Keyword (Luhn 1958) 39
3.2.1.2 Phương pháp Title (Edmunson 1969) 40
3.2.1.3 Phương pháp Location (Edmunson 1969) 40
3.2.1.4 Phương pháp Aggregation Similarity 41
3.2.1.5 Phương pháp Cue 41
3.2.2 Phương pháp thống kê (Statistical based approach) 41
3.2.3 Phương pháp học máy 42
3.2.4 Phương pháp kết hợp (Hybrid approach) 43
Chương IV Các thuật toán sử dụng 44
4.1 Trích rút từ đơn, từ ghép sử dụng mô hình thống kê N-gram 44
4.2 Sinh dữ liệu huấn luyện 46
4.2.1 Sinh dữ liệu huấn luyện sử dụng phương pháp thống kê 46
4.2.2 Sinh dữ liệu huấn luyện sử dụng mô hình Markov ẩn 49
4.2.2.1 Mô hình bài toán 50
4.2.2.2 Các luật heuristic 51
4.2.2.3 Thuật toán Viterbi 54
4.2.3 Đánh giá và so sánh hai phương pháp trên 54
4.3 Tự động tóm tắt văn bản 56
4.3.1 Tự động tóm tắt văn bản sử dụng độ đo TF-IDF 56
4.3.1.1 Độ đo TF-IDF 56
4.3.1.2 Ý tưởng 57
4.3.1.3 Thuật toán 58
4.3.1.4 Nhận xét 60
Trang 54.3.2 Kết hợp một số phương pháp heuristics 60
4.3.2.1 Thuật toán 61
4.3.2.2 Nhận xét 64
4.3.3 Phương pháp học máy thống kê MEM 65
4.4 Đánh giá bản tóm tắt 66
4.4.1 Độ chính xác (percision) và độ hồi tưởng (Recall) 66
4.4.2 Phương pháp đánh giá độ tương tự về nội dung 67
Chương V Xây dựng chương trình thử nghiệm và Đánh giá kết quả 69
5.1 Sơ đồ hệ thống 69
5.2 Giới thiệu hệ thống 69
5.3 Tập dữ liệu 71
5.4 Đánh giá quả giữa các phương pháp khác nhau 72
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75
TÀI LIỆU THAM KHẢO 76
Trang 6Danh Sách Hình
Hình 2 1 Xích Markov có 5 trạng thái (S1, S2, S3, S4, S5) 21
Hình 2.2 Mô hình Markov ẩn bậc 1 24
Hình 3 1 Mô hình hệ thống tự động tóm tắt đơnvăn bản bằng trích rút 31
Hình 3 2 Tiền xử lý văn bản 32
Hình 3 3 Mô hình không gian Vector 36
Hình 4 1 Ví dụ về chuỗi vị trí có thể của một đoạn (4 từ) tóm tắt 51
Hình 4.2 Mô hình Markov sinh dữ liệu huấn luyện 53
Hình 4 3 Sơ đồ kết quả thử nghiệm mô hình thống kê và markov ẩn 56
Hình 4 4 Sơ đồ phương pháp kết hợp các phương pháp heuristics 62
Hình 5 1 Sơ đồ hệ thống 69
Hình 5 2 Giao diện thực hiện chức năng tóm tắt tin tức dạng file *.txt 70
Hình 5 3 Giao diện thực hiện tóm tắt tin tức trực tuyến 70
Hình 5 4 Giao diện module sinh dữ liệu huấn luyện 71
Hình 5 5 Giao diện thực hiện huấn luyện theo mô hình Entropy cực đại 71
Hình 5 6 Kết quả thử nghiệm các phương pháp tóm tắt văn bản 73
Trang 7Danh Sách Bảng
Bảng 2 1 Bảng xác suất chuyển trong dự báo thời tiết 22
Bảng 4 2 Kết quả thử nghiệm mô hình thống kê mà Markov ẩn 55
Bảng 5 1 Kết quả thử nghiệm các phương pháp tóm tắt văn bản 73
Trang 8Chương I: Giới thiệu
Trong những năm gần đây, chúng ta đang được chứng kiến sự pháttriển như vũ bão của World-Wide-Web Theo thống kê của Lyman &Varian năm 2003 có khoảng 4 tỷ trang web đã được indexed bởiGoogle, khoảng 200TB dữ liệu trên Web [28]. Và theo số liệu năm
2007 thì số website được indexed bởi Google đã lên tới 10 tỷ Trước sự
phát triển đó thì một vấn đề đặt ra là làm thế nào con người có thể sử dụng một cách hiệu quả lượng thông tin khổng lồ đó trên Internet? Đã
có rất nhiều nghiên cứu trên thế giới nhằm giải quyết bài toán này và đãthu được những kết quả hết sức khả quan Các nghiên cứu có thể kểđến là: Hệ thống tổ chức, tìm kiếm thông tin (Information Retrieval –IR), gom cụm dữ liệu, trích rút thông tin, trả lời câu hỏi, tóm tắt vănbản…[28] Trong đó tự động tóm tắt văn bản là công cụ rất quan trọng,
nó giúp người sử dụng giảm được thời gian xử lý và nhanh chóng cóđược thông tin cần thiết
Ngày nay, các công cụ tìm kiếm trên Internet đã rất phát triển, hỗtrợ đắc lực người sử dụng tìm kiếm những thông tin cần thiết Một sốcông cụ tìm kiếm có thể kể đến như: Google.com, Yahoo.com… và ởViệt Nam có socbay.com.vn, timnhanh.com… Tất cả các công cụ tìmkiếm này đều thực hiện tìm kiếm dựa trên từ khóa và kết quả trả về cóthể hàng nghìn, hàng vài trăm nghìn kết quả Chính lượng kết quả trảnhiều như vậy có thể làm người sử dụng bị choáng ngợp, không biếtnên chọn kết quả nào Do đó, một công việc hết sức cần thiết là giúpngười sử dụng sàng lọc được lượng thông tin khổng lồ đó và nhanhchóng chọn được tài liệu thích hợp nhất Chúng ta thử tưởng tượng, vớimỗi kết quả tìm kiếm được có một bản tóm tắt ngắn gọn những nộidung chính hoặc các kết quả trả về được chia thành các nhóm tài liệu
Trang 9khác nhau, với mỗi nhóm có một bản tóm tắt nội dung của nó Như vậy,thay vì đọc cả tài liệu, người sử dụng chỉ cần đọc bản tóm tắt của nó.
Có thể nói, đây là một cách rất tốt giúp người đọc nhanh chóng xácđịnh xem tài liệu đó có phù hợp hay không
Thông thường, các bản tóm tắt được tạo bởi chính tác giả hoặc mộtchuyên gia tóm tắt văn bản Khi một chuyên gia thực hiện tóm tắt mộtvăn bản thì họ thường phải đọc hiểu hết tài liệu đó (vì thế phải có đủkiến thức về lĩnh vực đó) sau đó mới tạo ra bản tóm tắt Với bản tóm tắtnhư vậy sẽ bảo đảm tính mạch lạc của văn bản, tuy nhiên nó lại mang
tính chủ quan và phụ thuộc vào khả năng của người tóm tắt.
Với sự tiến bộ của của công nghệ thông tin, người ta đã thực hiệncác nghiên cứu để có thể tự động tạo ra các bản tóm tắt ngắn gọn, đủ ý,
súc tích và đặc biệt là trung thành với tác giả Tuy nhiên, với bản tóm
tắt tự động thì sẽ không được mạch lạc như bản tóm tắt của con người.Ngày nay, rất nhiều ứng dụng của tự động tóm tắt văn bản đangđược sử dụng trong thực tiễn, chẳng hạn như Search Engine Hits (tómtắt các kết quả trả về từ Search Engine), trên các thiết bị cầm tay(Hand-Held Devices), và tạo Headline trên ti vi [22].[13].
Các nghiên cứu về bài toán này được bắt đầu từ những năm 1950
và nó đặc biệt được chú ý tới trong khoảng 20 năm trở lại đây Ở nước
ta việc nghiên cứu bài toán này cũng đang nhận được sự quan tâm đặcbiệt của giới nghiên cứu [3]., tuy nhiên vẫn chưa có một hệ thống tựđộng tóm tắt văn bản tiếng Việt nào được công bố
Trước ý nghĩa to lớn và thực trạng của việc nghiên cứu bài toán tự động tóm tắt văn bản đó, chúng tôi quyết định chọn đề tài này Mục tiêu của chúng tôi là nghiên cứu các kỹ thuật tóm tắt văn bản trên thế giới sau đó áp dụng vào tiếng Việt của chúng ta, xây dựng một hệ thống tự động tóm tắt tin tức tiếng Việt.
Trang 101.1 Phát biểu bài toán
1.1.1 Khái niệm chung
Có rất nhiều khái niệm về tự động tóm tắt văn bản, tuy nhiên chúng
ta có thể hiểu như sau: Tự động tóm tắt văn bản là tự động tạo ra một văn bản mới ngắn gọn nhưng chứa nội dung chính của một (hay một vài) tài liệu (cùng loại) [30]. Kích thước của bản tóm tắt được giới hạn
là không dài quá ½ kích thước của tài liệu gốc [8].[27].
Bài toán tự động tóm tắt văn bản là một bài toán phức tạp vì nóliên quan đến rất nhiều lĩnh vực như: thống kê, ngôn ngữ học, trí tuệnhân tạo (làm thế nào để máy tính có thể hiểu được ngôn ngữ tự nhiênnhư con người) Ngoài ra nó còn phụ thuộc vào đặc thù của từng ngônngữ Song đây là một bài toán có ý nghĩa thực tế rất cao đặc biệt trongbối cảnh hiện nay, trước một lượng thông tin khổng lồ trên Internet, màchủ yếu ở dạng text Một trong những ứng dụng có ý nghĩa hết sức quantrọng của bài toán này là ứng dụng trong lĩnh vực quốc phòng an ninh.Như chúng ta đã biết, Internet phát triển đem đến cho loài người rấtnhiều sự tiện lợi, tuy nhiên sẽ có những mặt trái của nó, sẽ có những cánhân hoặc tổ chức lợi dụng Internet để phát tán các thông tin khôngchính xác, phản động Việc xác định những thông tin nào là có lợi,thông tin nào là không chính xác đòi hỏi phải có một đội ngũ nhân viên
xử lý các văn bản Với sự phát triển của Internet, lượng văn bản đượccập nhật lên mạng là vô cùng lớn và nhanh chóng, điều đó dẫn tới vấn
đề là liệu các nhân viên chuyên xử lý văn bản đó có xử lý kịp thờikhông? Chắc chắn là khó có thể xử lý kịp Do đó, cần phải có các phầnmềm trích rút thông tin, gom cụm dữ liệu, tóm tắt văn bản để giúp cácnhân viên xử lý văn bản giảm thời gian tìm kiếm, xử lý, phân loại vănbản
Trang 11Chính vì những ý nghĩa hết sức to lớn của bài toán tự động tóm tắtvăn bản nên hiện nay nó vẫn được giới học thuật trong và ngoài nướctiếp tục nghiên cứu Đặc biệt khi mà vẫn chưa có một phần mềm nàothực hiện tự động tóm tắt văn bản tiếng Việt thì đề tài này sẽ hứa hẹnnhiều sự quan tâm trong thời gian tới.
Sự phát triển của các kỹ thuật tự động tóm tắt văn bản được tómtắt qua các giai đoạn sau [30].:
- Từ năm 1950 đến những năm 1970 sử dụng kỹ thuật thống kê
- Những năm 1980 sử dụng kỹ thuật của trí tuệ nhân tạo
Tóm tắt đơn văn bản và tóm tắt đa văn bản
Tóm tắt đơn văn bản là tạo bản tóm tắt chỉ từ một văn bản đầu vào,trong khi đó tóm tắt đa văn bản là tạo ra bản tóm tắt từ nhiều văn bản
đầu vào cùng loại [19].[27]. Bài toán tự động tóm tắt đơn văn bản lại có
thể được chia thành hai loại chính đó là tóm tắt dựa vào trích rút (extraction) và tóm tắt dựa vào tóm lược (abstraction)
Ý tưởng chính của việc tóm tắt đơn văn bản dựa vào trích rút là sửdụng một tập các đặc trưng câu (đoạn) xác định, dựa vào các đặc trưng
đó để tính trọng số cho các câu (đoạn), sau đó sẽ thực hiện chuẩn hóa
Trang 12các trọng số đó, cuối cùng là trích rút ra các câu có trọng số cao nhất –cũng là những câu quan trọng nhất Các đặc trưng thường được sử dụng
đó là vị trí câu (đoạn) trong văn bản (Edmundson 1969), tần số từ và cụm từ (Luhn 1958), các cụm từ khóa (ví dụ: “it is important to note”)
(Edmundson 1969) Các kỹ thuật trích rút ngày càng được phát triểntinh vi hơn, chẳng hạn như áp dụng các phương pháp học máy để xácđịnh xem câu nào nên được trích chọn Một số kỹ thuật học máy được
áp dụng là: Kupiec, Pedersen, and Chen (1995) đã sử dụng mạngBayesian để thực hiện tóm tắt các báo cáo khoa học; Aone et al (1999)
và Lin (1999) đã thử nghiệm các phương pháp học máy khác nhau và sosánh kết quả của chúng với nhau;… Ngoài ra có một số các nghiên cứukhác lại dựa vào ngôn ngữ học [27].
Các kỹ thuật tóm tắt đơn văn bản không phải trích rút thì được xếpvào loại tóm lược Witbrock và Mittal (1999) thực hiện chọn ra một tập
các từ (word) từ tài liệu gốc, sau đó tổ chức các từ này thành các câu sử
dụng mô hình ngôn ngữ n-gram Jing và McKeown (1999) thực hiện kỹthuật “cut and paste” các đoạn trong tài liệu gốc, sau đó sẽ kết hợp cácđoạn đã trích rút được để tạo bản tóm tắt Ngoài ra một phương phápkhác là từ các câu đã trích rút, sẽ thực hiện cắt bỏ phần dư thừa của mỗicâu, sau đó bản tóm tắt được sinh ra bằng cách hoặc là sử dụng các câu
đã được tối giản hoặc kết hợp một số câu tối giản thành câu mới Mộtnghiên cứu theo hướng này đó là của Knight và Macru (2000) [27]..Bài toán tóm tắt đa văn bản là bài toán mới được nghiên cứukhoảng từ năm 2000 trở lại đây Bài toán có thể được phát biểu như
sau: Tự động tóm tắt đa văn bản là tự động tạo ra bản tóm tắt nội dung chính từ một số văn bản cùng loại (cùng chủ đề) Đây là bài toán rất
hay, rất có ý nghĩa trong thực tế Chẳng hạn như, sau khi thực hiện các
kỹ thuật tự động phân loại, gom cụm kết quả tìm kiếm từ search engine,
Trang 13một chương trình tự động tóm tắt nội dung các tài liệu trong mỗi cụm,hoặc một hệ thống tổng hợp tin tức từ các trang web tin tức khác nhau.Bài toán tự động tóm tắt đa văn bản có ba vấn đề chính cần đượcgiải quyết đó là [14].: một là, nhận ra các thông tin dưa thừa; hai là số lượng văn bản đầu vào và kích thước bản tóm tắt; ba là bản tóm tắt phải
bảo đảm tính mạch lạc Đây thật sự là ba thách thức lớn bởi vì:
- Với vấn đề thứ nhất: Vì các văn bản đầu vào là cùng loại (cùng
chủ đề) nên nó sẽ chứa những câu quan trọng ở các văn bản khácnhau nhưng có nội dung tương tự nhau Các câu này lại có thểđược tạo bởi các cách sử dụng từ ngữ khác nhau Vấn đề đặt ra làlàm thế nào để biết được hai câu đó có nội dung tương tự nhau Đểgiải quyết vấn đề này, một loạt các độ đo đã được sử dụng, mộtphương pháp phổ biến được đề xuất bởi McKeown et al (1999);Radev, Jing và Budzikowska (2000); Macru và Gerber (2001) là
đo sự liên quan giữa các cặp câu được trích rút từ mỗi tài liệu, sau
đó sử dụng kỹ thuật gom cụm để nhận ra chủ đề của các thông tinchung
- Với vấn đề thứ hai: Khi mà số lượng văn bản đầu vào càng lớn
thì bộ nhớ sử dụng càng nhiều, tốc độ thực hiện sẽ giảm Điều
quan trọng nữa là bản tóm tắt với kích thước bao nhiêu là đủ (chứa được nội dung chính của các văn bản)?
- Với vấn đề thứ ba: Việc tạo bản tóm tắt mạch lạc là một vấn đề
khó vì nó liên quan đến một vấn đề rất khó là hiểu ngôn ngữ tự nhiên
Tóm tắt bằng trích rút (extraction) và tóm lược (abstraction)
Tóm tắt bằng trích rút (extract) là tạo bản tóm tắt từ các đơn vị dữ liệu (một cụm từ, một câu, một đoạn…) trong tài liệu gốc Sau đó chúng ta tổ chức lại các đơn vị dữ liệu đã trích rút để tạo thành bản tóm
Trang 14tắt Nếu đơn vị dữ liệu là các câu thì việc tổ chức các câu này có thểtheo thứ tự các câu đó trong tài liệu gốc, câu nào xuất hiện trước thì đặttrước, câu nào xuất hiện sau thì đặt sau Hoặc có thể tổ chức các câutheo mức độ quan trọng (trọng số) của các câu đó.
Tóm lược (Abstraction) là tạo ra bản tóm tắt mà chứa một số đơn
vị dữ liệu không có trong tài liệu gốc
Như vậy, tóm tắt văn bản bằng cách tóm lược thì sẽ rất khó bởi vì
nó liên quan đến một lĩnh vực rất khó của xử lý ngôn ngữ tự nhiên đó là
tự động sinh văn bản (text generation) Nếu thực hiện tốt thì cho ta kết
quả tóm tắt tốt hơn, lời văn sẽ muợt mà hơn Tuy nhiên, nếu làm khôngtốt thì câu văn sẽ rất lủng củng Cách thực hiện dễ hơn là trích rút, vớicách thực hiện này có thể tạo ra bản tóm tắt bằng các kết nối các đơn vịtrích rút được Điều này có thể dẫn tới lời văn không được mượt mà.Chúng ta cần phải có các kỹ thuật để làm trơn (smoothing) để tạo bảntóm tắt được mạch lạc, dễ hiểu
Tóm tắt chỉ định và tóm tắt thông tin
Tóm tắt chỉ định là tạo ra bản tóm tắt với mục đích giúp người sử
dụng quyết định có nên đọc tài liệu đó không [30].? Dạng tóm tắt nàyđược ứng dụng trong các hệ thống tìm kiếm thông tin (google,yahoo…)
Còn tóm tắt thông tin là tạo ra bản tóm tắt chứa đầy đủ những
những nội dung chính của tài liệu, nó có thể được dùng để thay thế tàiliệu gốc Dạng tóm tắt này thường được ứng dụng để trợ giúp cácchuyên viên xử lý văn bản, giúp họ giảm thời gian xử lý một khối lượngvăn bản lớn
Trang 151.1.3 Các tiêu chí đánh giá
Đi kèm với việc tóm tắt văn bản thì việc đánh giá chất lượng củabản tóm tắt cũng là một vấn đề cần phải được nghiên cứu Để đánh giáchất lượng một bản tóm tắt người ta thường dựa vào các tiêu chí sau:
Độ rút gọn: Là tỷ lệ giữa kích thước bản tóm tắt trên kích thước
tài liệu gốc Kích thước của tài liệu có thể đo bằng số câu, số từ,
số ký tự,…
Độ chính xác: Thể hiện xem bản tóm tắt có thể hiện chính xác
nội dung chính của tài liệu gốc hay không
Độ liên kết: Là thể hiện xem bản tóm tắt có “trơn” hay không?
Nghĩa là bản tóm tắt phải bảo đảm về mặt văn học, nó phải liềnmạch, không rời rạc, lủng củng
trình bày theo cách diễn giải (nêu nội dung chính trước rồi mới đến các
nội dung đơn lẻ); các bài báo tin tức thì các nội dung chính thường xuất
hiện ở đầu hoặc cuối mỗi bài báo, mỗi đoạn của bài báo Chính từnhững đặc điểm đó cho thấy rằng sẽ khó có một hệ thống tự động tómtắt văn bản nào mà có thể thực hiện tốt cho tất cả các thể loại Các hệthống tự động tóm tắt văn bản thường chỉ áp dụng cho một thể thể loạitài liệu cụ thể nào đó
Trong đề tài này chúng tôi tập trung nghiên cứu tự động tóm tắt đơn văn bản tiếng Việt dựa vào trích rút câu, thể loại văn bản được
Trang 16chọn là các bài báo tin tức Lý do chọn các bài báo tin tức là: Thứ nhất,
các bài báo tin tức là sẵn có trên mạng Internet Đây là một điểm rấtquan trọng bởi vì việc thu thập một số lượng lớn văn bản về một thể
loại cụ thể nào đó không phải là vấn đề đơn giản; thứ hai, việc tóm tắt
các bài báo tin tức có ý nghĩa thực tế rất cao, giúp người đọc tiết kiệmđược thời gian mà vẫn có được những thông tin cần thiết, ngoài rachúng ta có thể sử dụng kết quả tóm tắt để tiến hành tổng hợp, phâncụm các bài báo tin tức từ các trang web tin tức khác nhau, đặc biệt nótrợ giúp cho chính người viết báo, người biên tập báo…
1.2 Kết quả đạt được
Như đã trình bày ở trên, tự động tóm tắt văn bản là một bài toánphức tạp Tuy nhiên, trong một thời gian nghiên cứu không dài chúngtôi cũng đã thu được những kết quả nhất định Những kết quả chúng tôi
TF- Xây dựng bộ dữ liệu kiểm thử bằng cách nhờ các chuyên gia ngônngữ và một số bạn sinh viên tạo bản tóm tắt bằng trích rút các câuquan trọng
Sử dụng độ đo PR để đánh giá kết quả thực hiện của các phươngpháp đã cài đặt
Trang 171.3 Bố cục đồ án
Bài báo cáo này được tổ chức như sau:
Chương I: Giới thiệu về bài toán tự động tóm tắt văn bản, ý nghĩa
thực tế của bài toán, phân loại và các tiêu chí đánh giá chất lượng bảntóm tắt Trong phần này chúng tôi cũng đưa ra giới hạn nghiên cứu của
đề tài, tóm tắt những kết quả đã đạt được và bố cục của báo cáo
Chương II: Chương này trình bày một số mô hình cơ bản mà sẽ
được sử dụng trong đồ án này Mô hình chúng tôi giới thiệu đầu tiên là
mô hình thống kê N-gram, mô hình này sẽ được áp dụng giải bài toán
text segmentation Tiếp theo chúng tôi sẽ trình bày những lý thuyết cơ
bản về hai mô hình học máy thống kê: Mô hình Markov ẩn và mô hìnhEntropy cực đại Mô hình Markov ẩn sẽ được sử dụng trong việc sinh
dữ liệu huấn luyện, còn mô hình Entropy cực đại được sử dụng thựchiện tóm tắt văn bản
Chương III: Trong chương này, chúng tôi sẽ trình bày mô hình
chung giải quyết bài toán tự động tóm tắt văn bản Chi tiết các bướcthực hiện cũng như các kỹ thuật thường được sử dụng trong mỗi bước.Tiếp theo, chúng tôi trình bày tổng quan các kỹ thuật tự động tóm tắtvăn bản, từ đó là cơ sở cho chúng tôi lựa chọn một số phương pháp đểthực hiện
Chương IV: Chương này chúng tôi trình bày kỹ các phương pháp,
các kỹ thuật và thuật toán được sử dụng trong nghiên cứu này và trongchương trình ứng dụng của chúng tôi Trong chương này, các thuật toánđược sử dụng sẽ được trình bày một cách chi tiết Các vấn đề sẽ đượctập trung giải quyết trong phần này gồm có: giải quyết bài toán textsegmentation sử dụng mô hình N-gram, kỹ thuật sinh tự động sinh dữ
Trang 18liệu huấn luyện, ba kỹ thuật tự động tóm tắt văn bản và cuối cùng là kỹthuật tự động đánh giá chất lượng bản tóm tắt.
Chương V: Chương này sẽ giới thiệu hệ thống tự động tóm tắt tin
tức mà chúng tôi đã xây dựng được, những kết quả thực hiện cácphương pháp và các đánh giá, so sánh giữa các phương pháp
Trang 19Chương II Một số kiến thức liên quan
Tự động tóm tắt văn bản là một bài toán khó, liên quan đến nhiềulĩnh vực khác nhau Hai lĩnh vực liên quan chủ yếu là ngôn ngữ học vàtrí tuệ nhân tạo Trong phần này chúng tôi sẽ trình bày một số kiến thứcthuộc hai lĩnh vực này mà sẽ được sử dụng trong phần tiếp theo Vấn đềđầu tiên sẽ được trình bày là mô hình ngôn ngữ thống kê N-Gram [1].,tiếp theo là hai mô hình học máy thống kê Hidden Markov Model(HMM) [20].[26].[9].[10]. và Maximum Entropy Model (MEM) [22].[24] [25].[29].
2.1 Mô hình ngôn ngữ thống kê N-Gram
Mô hình thống kê N-Gram về bản chất là mô hình Markov bậc N-1.Theo mô hình này thì một từ đơn thứ N có liên quan đến N-1 từ đơntrước đó, thậm chí do N-1 từ đơn trước đó quy định với một xác suấtnào đó [1]
Trong tiếng Việt, từ được xác định là có nghĩa có thể là từ đơn, từ ghép đôi hoặc ghép ba, ghép bốn hoặc nhiều hơn Ví dụ, “tôi”, “học”,
“nhà” là các từ đơn; “tôi tớ”, “học hành”, “nhà cửa” là các từ ghép đôi;
“trường đại học”, “bộ quốc phòng” là các từ ghép ba Xét về góc độngữ nghĩa thì các cụm từ bộ ba trở lên gồm các từ bộ đôi và từ đơn kếthợp lại [1]. Do vậy, trong nghiên cứu này chúng tôi sẽ nghiên cứu hai
loại N-Gram là: unigram (đơn) và bigram (đôi) là đủ để thống kê và xét
ngữ nghĩa của từ
Trong các văn bản tiếng Việt thì từ ghép chiếm tỷ lệ cao hơn từ đơn Đưa ra một câu tiếng Việt, chúng ta có thể dễ dàng xác định được đâu là từ đơn, đâu là từ ghép Tuy nhiên, để máy tính có thể làm được
điều này thì lại là một bài toán không đơn giản Trong lĩnh vực khai phá
dữ liệu văn bản, bài toán này được gọi là text segmentation Với cách
tiếp cận thống kê ngôn ngữ theo mô hình N-Gram, chúng ta có thể xác
định được từ đơn, từ ghép trong mỗi câu trong văn bản Có nghĩa là nó
Trang 20có thể giải quyết cho bài toán text segmentation Sau đây chúng tôi sẽ
trình bày những kiến thức cơ bản về mô hình thống kê ngôn ngữ N-Gram
Những kiến thức này sẽ được sử dụng trong thuật toán trích rút từ đơn,
từ ghép tiếng Việt.
Ước lượng xác suất n-gram
Xác suất mô hình n-gram được ước lượng bằng việc thống kê
(đếm) dãy các từ với số lượng lớn các văn bản trên nhiều lĩnh vực khác
nhau Nói chung, càng nhiều, càng phong phú càng tốt
Gọi C(w) là số lần xuất hiện của từ w trong tổng số N từ Xác suấtước lượng là:
N
w C w
P( ) ( )Cách tính này mở rộng cho mô hình n-gram với
N
w w w C w
w w
n
)
( )
2
Dự đoán từ kế tiếp
Để dự đoán khả năng xuất hiện của từ thứ n khi đã biết n-1 từ trước
đó chúng ta sử dụng xác suất có điều kiện như sau:
)
(
)
( )
| (
1 2 1
2 1 1
2 1
n
n n
n
w w w C
w w w C w
w w w P
Tính xác suất của cụm từ
Cho một cụm từ , xác suất của cụm từ này được tínhtheo công thức xác suất có điều kiện Bayes như sau:
Trang 212.2 Mô hình Markov ẩn
Mô hình Markov ẩn được mở rộng từ khái niệm mô hình Markov
Để hiểu được mô hình Markov ẩn, trước hết chúng ta cần phải hiểuđược quá trình Markov Trong phần này chúng tôi sẽ trình bày nhữngkiến thức cơ bản về quá trình Markov rời rạc, sau đó sẽ trình bày về môhình Markov ẩn
2.2.1 Quá trình Markov rời rạc
Xét một hệ thống mà tại mỗi thời điểm hệ ở một trạng thái trongmột tập N trạng thái khác nhau S1, S2, …, SN [26].
Ví dụ: Một hệ thống gồm N = 5 trạng thái được mô phỏng như hình sau:
Hình 2 1 Xích Markov có 5 trạng thái (S 1 , S 2 , S 3 , S 4 , S 5 )
Quá trình Markov là quá trình mà hệ thống chuyển từ trạng tháinày sang trạng thái khác chỉ phụ thuộc vào n trạng thái trước đó Quátrình Markov bậc n có nghĩa là có n trạng thái có tác động đến việcchọn trạng thái tiếp theo Mô hình Markov đơn giản nhất là mô hìnhMarkov bậc một, nghĩa là việc thay đổi trạng thái chỉ phụ thuộc vàotrạng thái hiện tại và trạng thái ngay trước nó Nghĩa là:
) (
, ) ,
Trang 22Gọi a ij là xác suất chuyển trạng thái, tại thời điểm t-1 hệ ở trạng thái q i chuyển sang trạng thái q j tại thời điểm t Ma trận A = {a ij } được
gọi là ma trận xác suất chuyển
Quá trình này còn được gọi là một mô hình Markov quan sát được
bởi vì đầu ra của quá trình là một tập các trạng thái tại mỗi thời điểm.Trong đó mỗi trạng thái tương ứng với một sự kiện có thể quan sát được
Ví dụ 1: Mô hình đèn giao thông tại các ngã tư, hệ thống gồm 3
đèn {đỏ, xanh, vàng} tương ứng với 3 trạng thái của hệ thống Trong
mô hình này chúng ta thấy rõ ràng là trạng thái của hệ thống tại thời
điểm t chỉ phụ thuộc vào trạng thái của hệ thống tại thời điểm t-1 Nếu
hệ thống tại thời điểm t-1 đang ở trạng thái đèn đỏ thì trạng thái của hệ thống tại thời điểm t sẽ phải là đèn xanh Chúng ta nhận thấy rằng việc
chuyển trạng thái là đã được xác định, nghĩa là nếu hiện tại đèn đỏ thìthời điểm tiếp theo hệ sẽ chuyển sang đèn xanh với xác suất là 1
Ví dụ 2: Về việc dự báo thời tiết cho mỗi ngày Giả sử thời tiết cho
mỗi ngày có 3 dạng {Nắng, Mưa, Mây), không như trong ví dụ 1, việc
chuyển trạng thái thời tiết với xác suất có giá trị trong khoảng [0, 1].Giả sử ta có ma trận xác suất chuyển như sau:
Thờitiếtngàyhômqua
Thời tiết ngày hôm nay
Nắng 0.5 0.25 0.25Mây 0.375 0.125 0.375Mưa 0.125 0.625 0.375
Bảng 2 1 Bảng xác suất chuyển trong dự báo thời tiết
Trang 23Nghĩa là, nếu ngày hôm qua trời Nắng thì hôm nay trời Nắng vớixác suất 0.5, Mây và Mưa với cùng xác suất 0.25 Chúng ta cũng thấyrằng tổng xác suất trên một cột là bằng 1.
Để hệ thống hoạt động được thì chúng ta cần phải có bước khởitạo, cụ thể là khởi tạo trạng thái thời tiết Chúng ta sử dụng một vectorkhởi tạo gọi là vector Chẳng hạn như chúng ta khởi tạo ( 1 , 0 , 0 )
tương ứng với (Nắng, Mây, Mưa) nghĩa là chúng ta biết rằng ngày đầu
tiên trời nắng
Vậy một quá trình Markov đặc trưng bởi các tham số sau:
- Các trạng thái Ví dụ {Nắng, Mây, Mưa}
- Vector khởi tạo
tập trạng thái thứ nhất quan sát được là {tập trạng thái của tảo biển} và tập trạng thái thứ hai không quan sát được (ẩn) là {tập trạng thái thời tiết} Chúng ta cần đưa ra một thuật toán giúp người này dự báo thời
tiết từ tảo biển
Như vậy, trong trường hợp này chuỗi các trạng thái quan sát đượcliên quan xác suất đến quá trình ẩn Chúng ta sẽ mô hình quá trình này
sử dụng mô hình Markov ẩn
Trang 24Kiến trúc của mô hình Markov ẩn bậc 1.
Hình 2.2 Mô hình Markov ẩn bậc 1
Trong đó:
- Biến ngẫu nhiên x(t) là trạng thái ẩn tại thời điểm t
- Biến ngẫu nhiên y(t) là quan sát tại thời điểm t
Định nghĩa HMM: Một mô hình Markov ẩn là một bộ ba ( ,A,B)trong đó
- : Vector của xác suất trạng thái khởi tạo
- A = (a ij ) là ma trận xác suất chuyển, a ij = P(q t = S j |q t-1 = S i );
- B = (b ij ) với b ij = P(y i |x j ) là xác suất quan sát y i khi hệ ở trạng
thái x j
2.2.3 Ba bài toán cơ bản được giải quyết bởi HMM
Có ba bài toán cơ bản được giải quyết bằng mô hình Markov ẩn là:
Evaluation, Decoding, Learning Trong phần này chúng tôi chỉ phát
biểu ba bài toán này Phương pháp giải quyết chi tiết cho các bài toánnày có trong tài liệu [26]. Trong phần tiếp theo chúng tôi sẽ áp dụng
bài toán Decoding trong việc sinh dữ liệu huấn luyện.
Evaluation
Phát biểu bài toán: Cho mô hình Markov ẩn , và một chuỗi các
quan sát O = {o 1 , o 2 , … o T } Hãy tính xác suất chuỗi quan sát O được
sinh ra bởi mô hình
Trang 25Bài toán này được giải quyết bằng cách sử dụng thuật toán
Forward-Backward (tiến-lùi)
Decoding
Phát biểu bài toán: Cho mô hình Markov ẩn , và một chuỗi các
quan sát O = {o 1 , o 2 , … o T } Hãy tính chuỗi các trạng thái ẩn tốt nhất của mô hình để có chuỗi quan sát O.
Bài toán này được giải quyết bằng cách sử dụng thuật toán Viterbi
Learning
Phát biểu bài toán: Cho mô hình Markov ẩn , và một chuỗi các
quan sát O = {o 1 , o 2 , … o T } Chúng ta cần thay đổi các biến của mô hình
)
,
,
(A B như thế nào để P(O| ) đạt giá trị lớn nhất
2.3 Mô hình Maximum Entropy
Có rất nhiều bài toán trong xử lý ngôn ngữ tự nhiên (NLP-NaturalLanguate Processing) có thể được phát biểu lại thành bài toán phân loạithống kê [22]. Mục đích của bài toán phân loại thống kê này là ước
lượng xác suất lớp a xuất hiện với ngữ cảnh (context) c Ngữ cảnh c
trong NLP thường gồm các từ, có trường hợp là danh sách các từ đơn,
có trường hợp là danh sách từ đơn kết hợp với nhãn từ vựng của nó.Tùy theo từng bài toán mà xây dựng ngữ cảnh khác nhau Bài toán phânloại này có thể được giải quyết bằng cách tính xác suất có điều kiện
p(a|c) (xác suất lớp a xuất hiện với điều kiện là xuất hiện ngữ cảnh c).
Trong một tập văn bản lớn thì chúng ta có thể trích rút ra một số thông
tin chung của cả a và c Tuy nhiên, sẽ không bao giờ đủ để tính p(a|c) cho tất cả các cặp (a, c) bởi vì ngữ cảnh c thường phân phối thưa trên
tập dữ liệu Để giải quyết vấn đề này, mô hình Maximum Entropy làmột sự lựa chọn tốt
Trang 26Trong phần này tôi sẽ giới thiệu những nét cơ bản về lý thuyếtEntropy, sau đó sẽ giới thiệu mô hình học Maximum Entropy [22].[24] [25].[29].
2.3.1 Lý thuyết Entropy
Entropy thông tin
Trong lý thuyết thông tin, entropy mô tả mức độ hỗn loạn trong tínhiệu lấy từ một biến ngẫu nhiên Nói một cách khác entropy cũng chỉ ra
có bao nhiêu thông tin trong tín hiệu với thông tin là các phần không
hỗn loạn ngẫu nhiên của tín hiệu Entropy của một biến ngẫu nhiên rời
rạc X = {x 1 , x 2 , …, x n } được tính theo công thức sau:
p X
I E X H
) ( log ) ( ))
( ( ) (Trong đó:
I(X) là nội dung thông tin của X P(x i ) = Pr(X = x i ) là xác suất xảy ra giá trị x i
Entropy điều kiện
Entropy của Y với điều kiện X xác định lượng entropy còn lại củabiến ngẫu nhiên Y khi giá trị của biến ngẫu nhiên X đã biết Ký hiệu làH(Y|X) Entropy điều kiện được định nghĩa theo công thức sau:
X x
x y p x y p
x y p x y p x p
x X Y H x p X
Y H
)
| ( log ) , (
)
| ( log )
| ( ) (
)
| ( ) ( )
| (
Các ràng buộc đối với phân phối mô hình
Trang 27Các ràng buộc đối với phân phối mô hình được thiết lập bằng cách
thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện Các ràng buộc được ký hiệu là f, f i tương ứng với ràng buộc thứ i
Ví dụ: Chẳng hạn chúng ta cần xác định xem những câu nào làquan trọng (sẽ được trích rút) trong một tài liệu Khi đó câu được xem
là quan trọng phải thỏa mãn một số các ràng buộc nhất định Chẳng hạnnhư: câu được xem là quan trọng nếu nó ở vị trí đầu tiên của tài liệu vàchứa từ 6 đến 20 từ
Nguyên lý Entropy cực đại (Principle maximum entropy)
Nguyên lý entropy cực đại được đưa ra lần đầu tiên bởi E.T Jaynes
vào năm 1957 Tư tưởng chủ đạo của nguyên lý này là phải xác định một phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã biết từ thực nghiệm, và không đưa thêm bất kỳ một giả thiết nào khác.
Điều này có nghĩa là phân phối mô hình phải thỏa mãn mọi ràng buộcrút ra từ thực nghiệm và phải gần nhất với phân phối đều có nghĩa làcực đại hóa entropy điều kiện (bởi vì tính đều của một phân phối được
đo bằng entropy của nó)
2.3.2 Mô hình học Maximum Entropy
Định nghĩa
Gọi T {(a1,c1), (a2,c2), , (a i,c i), , (a N,c N)} là tập dữ liệu huấn
luyện Mỗi cặp (a i , c i ) được gọi là một mẫu, N là số lượng mẫu trong dữ
liệu huấn luyện
Định nghĩa các đặc trưng như là các hàm f :AC 0 , 1 Nghĩa là
một đặc trưng f(a, c) lấy thông tin trong c sử dụng để dự báo a Giả sử p’(a, c) là xác suất quan sát được của cặp (a, c) trong tập dữ liệu huấn
Trang 28luyện f 1 , f 2 , …, f k là k đặc trưng trong tập dữ liệu huấn luyện E p’ f j là kỳ
vọng quan sát được của đặc trưng f j:
c a
j j
p f p a c f a c E
a
j j
p f p a c f a c p a p c a f a c E
, ,
' ' ( , ) ( , ) ' ( ) * ( | ) * ( , )
Phân phối mô hình p* thống nhất với phân phối thực nghiệm p’ khi
và chỉ khi kỳ vọng của mọi đặc trưng theo phân phối mô hình p* phải
bằng kỳ vọng của đặc trưng đó trong mô hình thực nghiệm Nghĩa là:
j
p
j
p f E f
E * ' Sử dụng nguyên lý entropy cực đại thì p* phải thỏa mãn
điều kiện sau:
c a
j j
p
j p j p
P p
c a p c a p c p p
H
c a f c a p c p f
E
k j f E f E p P
p H p
, ,
'
)
| ( log )
| ( ) ( ' )
(
) , ( )
| ( ) ( '
}
1 ,
| {
) ( max arg
*
Với mỗi đặc trưng f j ta đưa vào một thừa số largraian i Chúng
ta định nghĩa hàm largraian như sau:
c a
c a p c a p p
L
,
)
| ( log ) , ( ' )
Phân phối p*(a|c) làm cực đại độ đo entropy H(p) và thỏa mãn n
ràng buộc dạng E p*f j E p'f j cũng sẽ làm cực đại hàm L ( p) [22].(theo
lý thuyết thừa số Largraian) Từ phương trình (1) ta có:
Trang 29j
c f j
k
j
c a f j
j
j
c Z
c Z c a p
1
) , ( 1
) , (
) (
) (
1 )
| (
1 )
| (
| {
) ( max arg
*
1
) , (
c f j
Q q
j
c Z c a p Q
q L p
Ước lượng các biến
Phương pháp đơn giản nhất để ước lượng mô hình entropy cực đại
là sử dụng thuật toán Generalized Iterative Scaling (GIS) Ý tưởng của
thuật toán này như sau: Đặt K i = E p’ f i, i tối ưu tìm được bằng cách cậpnhật liên tục phân phối mô hình p Nó bắt đầu với một giá trị i tùy ý,thuật toán sẽ cập nhật i bằng cách so sánh E p f i với giá trị K i trong đó
p là phân phối mô hình hiện tại Sau đó phân phối p lại được ước lượng
lại với giá trị i mới Quá trình lặp cho đến khi p hội tụ
Trang 30Thuật toán cụ thể như sau:
Thuật toán: GIS
Input: Tập các đặc trưng f 1 , f 2 ,…,f k và các phân phối thực nghiệm p’(a,c)
Output: Các giá trị i tối ưu, mô hình p* tối ưu
i
t i
k i i
t i t
k i i
t i t
t
c a f c
Z
c a f c
Z c a p
) , ( exp(
) (
) , ( exp(
) (
1 )
| (
1
1
Trang 31Chương III Mô hình bài toán tự động tóm tắt văn bản
Bài toán tự động tóm tắt văn bản có thể được giải quyết theo rấtnhiều phương pháp khác nhau Để có được một cái nhìn tổng quát,trong phần này chúng tôi sẽ trình bày một mô hình chung để giải quyếtbài toán, sau đó sẽ trình bày tổng quan các phương pháp tự động tóm tắtvăn bản
3.1 Mô hình bài toán
Bài toán tự động tóm tắt văn bản bao gồm tóm tắt đơn văn bản
bằng trích rút, tóm tắt đơn văn bản bằng tóm lược và tóm tắt đa văn
bản Trong phần này chúng tôi đưa ra mô hình chung giải quyết bàitoán tự động tóm tắt đơn văn bản bằng trích rút Mô hình hệ thống gồm
4 bước như sau:
Tạo bản tóm tắt
Summarization system
Hình 3 1 Mô hình hệ thống tự động tóm tắt đơnvăn bản bằng trích rút
Trang 32Từ một văn bản đầu vào, nó sẽ được qua bước tiền xử lý với mục
đích làm sạch dữ liệu đầu vào Dữ liệu sau khi đã được làm sạch sẽ
được biểu diễn lại dưới một dạng khác thuận tiện cho quá trình thực
hiện Các thuật toán khác nhau sẽ được sử dụng trong bước trích rút câu với mục đính để đánh trọng số cho các câu theo mức độ quan trọng
của câu đó trong tài liệu, một danh sách các câu và trọng số tương ứngcủa nó sẽ được tính, sau đó chúng ta trích rút ra k câu có trọng số caonhất Cuối cùng chúng ta sẽ thực hiện việc kết hợp các câu đã đượctrích rút thành bản tóm tắt Chi tiết việc thực hiện và các thuật toánđược áp dụng cho mỗi bước sẽ được trình bày chi tiết trong phần này
3.1.1 Tiền xử lý
Mục đích của bước này là để loại bỏ nhiễu và giảm số chiều (làmsạch dữ liệu) khi biểu diễn văn bản trên máy tính [15].[16]. Các phéptoán trong bước này có thể được biểu diễn trong hình sau:
Chuyển tất cả về dạng chữa in thường
Hình 3 2 Tiền xử lý văn bản
Trang 333.1.1.1 Loại bỏ từ dừng (stop-word)
Từ dừng là những từ mà thường xuyên xuất hiện trong các tài liệu
nhưng không có liên quan tới nội dung của tài liệu Theo Luhn (1958)thì các từ xuất hiện với tần số cao trong một tài liệu thì sẽ chứa nộidung chính của tài liệu Các từ dừng lại là các từ thường xuyên xuấthiện trong tài liệu (ví dụ từ “a”, “the” trong tiếng Anh hay từ “và”,
“các” trong tiếng Việt) Từ điều này chúng ta có thể thấy rằng việc lại
bỏ từ dựng là một bước quan trọng, nó giúp cho việc đánh giá mức độquan trọng của các từ (cụm từ) chính xác hơn Ngoài ra, việc loại bỏcác từ dừng sẽ làm giảm số lượng từ trong tài liệu giảm kích thướctài liệu giảm được kích thước (bộ nhớ) khi biểu diễn nó lên máytính
Để thực hiện việc loại bỏ từ dừng người ta thực hiện bằng cách lập
ra một danh sách tất cả các từ dừng (từ đơn, từ ghép) Sau đó, chúng ta
sẽ đối chiếu các từ (cụm từ) trong tài liệu với danh sách từ dừng này,nếu một từ (cụm từ) trong tài liệu xuất hiện trong danh sách từ dừng thì
nó sẽ được loại bỏ Với tiếng Anh đã có rất nhiều danh sách từ dừngđược đưa ra Một danh sách từ dừng của Microsoft mà chúng ta có thể
dễ dàng tìm được trong bộ MSDN 2005 với số lượng 134 từ Với tiếngViệt, chúng tôi tự xây dựng một bộ dữ liệu từ dừng bằng cách dịch các
từ dừng tiếng Anh trong bộ MSDN 2005 sang tiếng Việt, với mỗi từtiếng Anh khi được dịch sang tiếng Việt có thể được dịch thành nhiều
từ đồng nghĩa (từ đơn hoặc từ ghép) Phương pháp của chúng tôi là vớimỗi từ tiếng Anh sẽ được dịch thành một danh sách các từ đồng nghĩatiếng Việt Để giúp việc dịch, chúng tôi sử dụng bộ từ điển LAC VIETMTD2002-EVA Kết quả chúng tôi thu được một danh sách từ dừng với
số lượng 314 từ Thực tế việc sử dụng danh sách từ dừng này cho hiệuquả khá tốt
Trang 343.1.1.2 Stemming
Như chúng ta đã biết, ở một số ngôn ngữ như tiếng Anh, Pháp, Ý,Tây Ban Nha,… một từ có thể có nhiều biến cách thông qua một số biếnđổi Ví dụ, trong tiếng Anh với từ “stem” có thể gồm một số biến cách
như: “stemmer”, “stemming”, “stemmed” Stemming là quá trình biến
đổi các biến cách của các từ (word) về dạng từ gốc của chúng Chẳnghạn, trong ví dụ trên, chúng ta cần phải xác định được rằng “stemmer”,
“stemming” và “stemmed” có chung một dạng từ gốc là “stem” Quá
trình stemming thường được sử dụng trong các search engines và một số
lĩnh vực trong NLP
Việc nghiên cứu các thuật toán để thực hiện stemming được chính
xác và bảo đảm tốc độ là một vấn đề cần thiết Bài báo được công bốđầu tiên về vấn đề này được viết bởi Julie Beth Lovins năm 1968 Sau
đó, một bài báo khác được công bố bởi Martin Porter vào 7/1980 Kỹthuật được trình bày trong bài báo này được sử dụng rộng rãi và đã trở
thành một thuật toán chuẩn cho quá trình stemming trong tiếng Anh.
Dr Porter đã được nhận được giải Tony Kent Strix award (giải thưởnghàng năm cho đóng góp nổi bật trong lĩnh vực IR (Information
Retrieval)) vì những đóng góp của ông trong stemming và IR.
Ngoài ra còn có một số thuật toán khác nhau thực hiện stemming cho tiếng Anh Brute Force thực hiện bằng cách sử dụng một bảng chứa
các quan hệ giữa từ gốc và các dạng biến cách của nó Để stem một từ,thực hiện việc so khớp với các biến cách trong bảng này, nếu tìm thấythì từ gốc tương ứng được xác định Một thuật toán khác là giải thuậtloại bỏ hậu tố (suffix stripping) Thuật toán này sử dụng một bảng chứacác luật (ví dụ, từ kết thúc với “ed” thì loại “ed”), các luật này sẽ thựcthi trên các từ để thu về dạng từ gốc Điểm yếu của giải thuật này là chỉ
áp dụng các luật lên các từ mà không xét đến từ loại (part of speech)
Trang 35của nó Điểm yếu này được giải quyết bằng thuật toán củaLemmatisation Giải thuật này trước hết là xác định từ loại của từ đó,sau đó mới áp dụng các luật với từ loại tương ứng Ngoài ra còn một sốphương pháp khác.
3.1.1.3 Case folding
Bước này thực hiện chuyển tất cả các ký tự về cùng một dạng (chữ
in thường hoặc chữ in hoa)
3.1.2 Biểu diễn văn bản trên máy tính
Các văn bản chúng ta có là dạng phi cấu trúc Để có thể thực hiện
xử lý các văn bản này, người ta thường tìm cách biểu diễn văn bản vềdạng có cấu trúc Trong phần này chúng tôi sẽ trình bày 2 mô hình được
sử dụng phổ biến nhất: Mô hình Boolean [17]., Mô hình không gianvector (Vector space model) [18]. Ngoài ra, tùy theo mục đích sử dụng
mà có những cách biểu diễn khác nữa
3.1.2.1 Mô hình Boolean
Trong mô hình này, một văn bản được xem như là một tập cácTerm, mỗi Term có một trọng số là 0 hoặc 1 Bằng 1 nếu Term đó xuấthiện trong tài liệu, bằng 0 nếu ngược lại Mỗi Query có thể được biểudiễn dưới dạng các biểu thức boolean Sau đó các query này sẽ đượcchuyển về dạng chuẩn DNF (Disjunctive Normal Form) Từ đó chúng ta
có thể tính được mức độ liên quan giữa query với mỗi tài liệu [17]. Tuynhiên, kết quả trả về chỉ cho chúng ta biết được là có liên quan haykhông (1 hay 0)
Nhược điểm của mô hình Boolean [17].
Kết quả trả về khi đánh giá độ liên quan giữa hai văn bản chỉ
ở dạng nhị phân 0 hoặc 1 Vì vậy với bài toán cần sắp xếp
Trang 36các tài liệu theo mức độ liên quan là không thể thực hiệnđược.
Kết quả trả về khi thực hiện truy vấn thì hoặc quá ít, hoặcquá nhiều
Khắc phục
Mô hình tập mờ
Mô hình Boolean mở rộng
3.1.2.2 Mô hình không gian Vector
Một mô hình khác để khắc phục nhược điểm của mô hình Boolean
đó là mô hình không gian Vector Theo mô hình này, mỗi tài liệu đượcbiểu diễn thành một Vector nhiều chiều [18]. Việc chọn số chiều là tùythuộc vào từng cách giải quyết bài toán Một cách chọn số chiều là bằng
số Term phân biệt trong tập tài liệu Khi chọn số chiều như vậy sốchiều rất lớn (Trong bước tiền xử lý sẽ làm giảm bớt số chiều) Trọng
số cho các Term lúc này không phải chỉ mang giá trị 0 hoặc 1 nữa mà
nó sẽ được gán trọng số tùy theo cách giải quyết của từng người
Xét ví dụ với một tập gồm n tài liệu, chúng ta sẽ biểu diễn chúngtheo mô hình không gian Vector bằng ma trận Term-Document
Trang 37Wij là trọng số của Term j trong tài liệu i.
Wij = 0 nếu Term j không có ý nghĩa trong tài liệu i, hoặc đơn giản
là nó không có mặt trong tài liệu i
Mô hình không gian Vector là mô hình được sử dụng rộng rãi nhất
Điểm quan trọng nhất trong việc xây dựng mô hình này là đánh trọng
số cho các Term Trọng số của các Term phản ánh mức độ quan trọng
của Term đó trong một tài liệu Việc đánh trọng số cho các Term là rấtquan trọng, nó quyết định tới chất lượng của các bước xử lý về sau
Ưu điểm
Đơn giản
Phương pháp dựa trên cơ sở Toán học
Xem xét cả tần số xuất hiện Term cục bộ (tf) và toàn cục (idf).
Có khả năng phân hạng kết quả
Cho phép thực hiện hiệu quả cho tập tài liệu lớn
Nhược điểm
Thiếu thông tin về ngữ nghĩa
Thiếu thông tin về cấu trúc
Giả thiết các Term là độc lập
Trang 38Vấn đề đặt ra ở đây là đánh trọng số cho các câu này như thế nào?Câu trả lời là có rất nhiều cách, rất nhiều phương pháp được áp dụng đểgiải quyết vấn đề này như các phương pháp Thống kê hay Heuristic(Title, Location, Frequency…), các phương pháp học máy (Cây quyếtđịnh, mạng neural, mạng Baysian, logic mờ…).
Trong phần sau chúng tôi sẽ trình bày kỹ hơn việc thực hiện cácphương pháp này như thế nào
Trong nghiên cứu này, để tạo bản tóm tắt chúng tôi thực hiện nhưsau:
- Bản tóm tắt chứa các câu được sắp xếp theo đúng thứ tự câu đótrong tài liệu gốc
- Nếu hai câu mà chỉ cách nhau một câu được trích rút thì bản tómtắt sẽ gồm cả 3 câu đó
- Các câu được chọn sẽ được rút gọn bằng cách loại bỏ đi các chúthích Thuật toán đơn giản là loại bỏ đi các phần trong câu nằmtrong dấu ngoặc đơn “()” hoặc dấu ghạch nối “- -“
3.2 Tổng quan các phương pháp tự động tóm tắt văn bản
Nhiệm vụ của việc trích rút câu là xác định xem những câu nào làquan trọng nhất trong một tài liệu hoặc một tập tài liệu Các phương
Trang 39pháp được sử dụng để thực hiện việc trích rút câu có thể được chiathành các loại cơ bản sau: Phương pháp heuristic, phương pháp dựa vàotri thức (Knowledge based approach), shallow based approach, phươngpháp thống kê, các phương pháp kết hợp (hybrid approaches)
3.2.1 Các phương pháp heuristic
Cách tiếp cận truyền thống chủ yếu dựa trên các phương phápheuristic Dưới đây là một số các phương pháp heuristic [22].[12].[6] [11].
3.2.1.1 Phương pháp Keyword (Luhn 1958)
Dựa vào các nhận xét sau:
Các từ thường xuyên xuất hiện trong một tài liệu thì sẽ chứa chủ
đề của tài liệu đó
Các từ mà xuất hiện trong nhiều tài liệu là các từ không quantrọng
Từ nhận xét trên, trọng số cho mỗi từ được tính theo công thứcsau:
i
df
N tf