1.4.1. PageRank
PageRank [15] là thuật toỏn được sử dụng trong cụng cụ tỡm kiếm của Google (Google Search). Về bản chất PageRank là phõn bố xỏc suất, được sử dụng để biểu diễn khả năng khi một người bấm chuột ngẫu nhiờn vào liờn kết và sẽ dẫn tới trang Website đú. PageRank được tớnh theo cụng thức sau:
( ) ( ) 1 ( ) ( ) j i j i p M p j PageRank p d PageRank p d N L p (1.23) trong đú: - N là tổng số trang. - M p( )i là tập hợp cỏc trang liờn kết đến pi. - dlà hằng số (thụng thường d được chọn bằng 0,85). - PageRank p( )i : là PageRank của pi.
- L p( )j : là số lượng cỏc liờn kết trỏ ra trong pj.
1.4.2. TextRank
TextRank [14] là một thuật toỏn túm tắt văn bản trớch rỳt theo hướng tiếp cận khụng giỏm sỏt dựa trờn đồ thị, được xõy dựng dựa trờn thuật toỏn PageRank. TextRank coi mỗi cõu là một đỉnh trong đồ thị thay vỡ mỗi đỉnh là một trang Website như trong thuật toỏn PageRank và tớnh độ tương đồng giữa hai cõu dựa vào số từ trựng của 2 cõu. Sau đú, đưa ra một ngưỡng để chọn ra số cõu liờn quan của từng cõu.
1.4.3. LexRank
LexRank [11] là một hướng tiếp cận khụng giỏm sỏt, trong đú sử dụng ý tưởng của thuật toỏn PageRank để xỏc định tầm quan trọng của cỏc cõu trong văn bản. LexRank sử dụng độ đo Cosine của cỏc vộc tơ tf-idf để xỏc định trọng số của một cõu như sau:
2 w, w, w w , 2 2 x , x y , y x y ( , ) i i i i i i x y x y x y x y tf tf idf tf idf Cosine x y tf idf tf idf (1.24) trong đú:
- x, y: là hai cõu cần đo độ tương đồng.
- tfw,x: là tần suất xuất hiện của từ w trong cõu x. - tfw,y: là tần suất xuất hiện của từ w trong cõu y. - idfw: là độ quan trọng của từ w.
Cụng thức này biểu diễn khoảng cỏch giữa hai cõu x và y. Phộp đo độ tương đồng này được sử dụng để xõy dựng ma trận tương đồng là đồ thị tương đồng giữa cỏc cõu. LexRank đo lường độ quan trọng của cỏc cõu trong đồ thị bằng cỏch xem xột tầm quan trọng tương đối của nú với cỏc cõu lõn cận. Để trớch rỳt cỏc cõu quan
21
trọng nhất từ ma trận tương đồng, cần sử dụng một giỏ trị ngưỡng. Một giỏ trị ngưỡng được sử dụng để lọc ra cỏc mối quan hệ giữa cỏc cõu cú trọng số nhỏ hơn ngưỡng. Kết quả là một tập con của đồ thị tương đồng ban đầu và ta cú thể chọn cỏc nỳt cú trọng số cao nhất. Một nỳt được chọn sẽ đại diện cho một cõu túm tắt của văn bản.
1.4.4. Lead-Based
Trong văn bản là tin tức, cỏc cõu ở đầu văn bản thường sẽ mang nhiều ý nghĩa quan trọng. Phương phỏp Lead-k [6] chỉ đơn giản là lấy k (k: nguyờn, dương) cõu đầu tiờn trong văn bản làm bản túm tắt. Đõy là phương phỏp túm tắt đơn giản nhưng cú độ chớnh xỏc khỏ cao nờn cỏc nghiờn cứu túm tắt văn bản dạng tin tức thường chọn phương phỏp Lead-klàm phương phỏp cơ sở để đỏnh giỏ so sỏnh.
1.5. Cỏc bộ dữ liệu thử nghiệm
Để cú cơ sở lựa chọn số lượng cõu hoặc số từ cho bản túm tắt sinh ra của cỏc mụ hỡnh túm tắt đề xuất, cỏc bộ dữ liệu sử dụng để thử nghiệm cho cỏc mụ hỡnh đề xuất được phõn tớch thống kờ cỏc thụng tin quan trọng và được trỡnh bày như dưới đõy. Thụng tin về thời gian thu thập cỏc bộ dữ liệu thử nghiệm và biểu đồ biểu diễn phõn bố độ dài trung bỡnh nội dung văn bản nguồn, văn bản bản túm tắt tương ứng theo số cõu, số từ của cỏc bộ dữ liệu được trỡnh bày chi tiết ở Phụ lục B trong phần Phụ lục.
1.5.1. Cỏc bộ dữ liệu văn bản tiếng Anh
1.5.1.1. Bộ dữ liệu CNN/Daily Mail
Bộ dữ liệu CNN/Daily Mail [71] gồm 312.085 bài bỏo tin tức (trong đú bộ CNN cú 92.579 bài bỏo tin tức, bộ Daily Mail cú 219.506 bài bỏo tin tức) được thu thập từ cỏc bỏo CNN và Daily Mail, mỗi bài bỏo cú cỏc cõu chớnh (highlights) đi kốm do người viết bài bỏo tự viết được sử dụng làm bản túm tắt tham chiếu. Luận ỏn sử dụng phương phỏp phõn chia bộ dữ liệu của Hermann và cộng sự [71] cho cỏc tập dữ liệu huấn luyện, kiểm tra và đỏnh giỏ khi thử nghiệm cỏc mụ hỡnh (Bảng 1.3). Cỏc cõu chớnh của mỗi văn bản được sử dụng làm cơ sở để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.
CNN Daily Mail
Huấn
luyện Kiểm tra
Đỏnh
giỏ
Huấn
luyện Kiểm tra
Đỏnh
giỏ
Số lượng văn bản 90.266 1.220 1.093 196.961 12.148 10.397 Kớch thước từ vựng 118.497 208.045
Bảng 1.3. Phương phỏp phõn chia bộ dữ liệu CNN/Daily Mail
Bảng 1.4 là cỏc thụng tin thống kờ túm tắt của hai bộ dữ liệu CNN và Daily Mail theo số lượng cõu và số lượng từ.
22
Bộ dữ liệu CNN Daily Mail
Văn bản nguồn
Số lượng cõu trung bỡnh 31,86 26,24 Số lượng từ trung bỡnh 643,79 680,86 Khoảng phõn bố theo số cõu 14 19 13 40 Khoảng phõn bố theo số từ 316 971 369 991 Văn bản túm tắt
Số lượng cõu trung bỡnh 3,55 3,78 Số lượng từ trung bỡnh 41,67 50,44 Khoảng phõn bố theo số cõu 2 4 2 4 Khoảng phõn bố theo số từ 32 50 30 70
Bảng 1.4. Thống kờ cỏc thụng tin của hai bộ dữ liệu CNN và Daily Mail
Bộ dữ liệu này được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.
1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002
Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] được cụng bố bởi tổ chức NIST tại Hội thảo DUC. Cỏc bộ dữ liệu này cú thể sử dụng cho túm tắt đơn văn bản và túm tắt đa văn bản (gồm túm tắt hướng trớch rỳt và hướng túm lược).
Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập cỏc văn bản nguồn, cỏc bản túm tắt khỏc nhau sử dụng cho túm tắt đa văn bản (mỗi bản túm tắt cú độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản túm tắt sử dụng cho túm tắt đơn văn bản cú độ dài 100 từ.
Luận ỏn chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm túm tắt đơn văn bản hướng trớch rỳt nờn luận ỏn sẽ đi phõn tớch thống kờ cỏc thụng tin của văn bản nguồn, bản túm tắt sử dụng cho túm tắt đơn văn bản. Bảng 1.5 dưới đõy là cỏc thụng tin thống kờ của hai bộ dữ liệu theo số lượng cõu và số lượng từ.
Bộ dữ liệu DUC 2001 DUC 2002
Văn bản nguồn
Số lượng cõu trung bỡnh 41.51 26,41 Số lượng từ trung bỡnh 887.12 534,71 Khoảng phõn bố theo số cõu 15 68 13 40 Khoảng phõn bố theo số từ 321 1.453 278 791 Văn bản túm tắt
Số lượng cõu trung bỡnh 4,69 5,30 Số lượng từ trung bỡnh 92,47 99,65 Khoảng phõn bố theo số cõu 3 6 4 7 Khoảng phõn bố theo số từ 85 99 95 105
Bảng 1.5. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho túm tắt đơn văn bản
23
Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đơn văn bản tiếng Anh hướng trớch rỳt đề xuất.
1.5.1.3. Bộ dữ liệu DUC 2004
Bộ dữ liệu DUC 2004 [74] được phỏt triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm cú trung bỡnh 10 văn bản và cú 4 bản túm tắt đi kốm do cỏc chuyờn gia của NIST tạo ra.
Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn
bố theo số cõu Khoảng phõn bố theo số từ
Văn bản nguồn 25,45 564,12 11 41 211 917 Văn bản túm tắt 6,54 104,43 4 8 99 109
Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mụ hỡnh túm tắt đa văn bản tiếng Anh hướng túm lược đề xuất.
1.5.1.4. Bộ dữ liệu DUC 2007
Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main task và Update task (pilot):
- Main task: Bao gồm 45 chủ đề, trong đú mỗi chủ đề nằm trong một thư mục riờng biệt. Mỗi chủ đề cú trung bỡnh 25 văn bản liờn quan dưới dạng 25 tập tin, đi kốm với mỗi chủ đề là 4 bản túm tắt khỏc nhauđến từ 4 đơn vị đỏnh giỏ NIST. Mỗi bản túm tắt thể hiện đầy đủ thụng tin của mỗi chủ đề. Cỏc bản túm tắt này sẽ được sử dụng để đỏnh giỏ chất lượng bản túm tắt của cỏc mụ hỡnh thử nghiệm.
- Update task (pilot): Khỏc với tập dữ liệu Main task, mỗi bản túm tắt trong
Update task chỉ chứa khoảng 100 từ với giả định rằng người dựng đó đọc qua một số văn bản trước đú rồi. Update task cú xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn bản. Với mỗi chủ đề, cỏc văn bản được sắp xếp theo trỡnh tự thời gian và sau đú được phõn chia thành 3 tập A, B và C. Trong 25 văn bản của mỗi chủ đề, cú xấp xỉ 10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C.
Bảng 1.7 là cỏc thụng tin thống kờ túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn
bố theo số cõu Khoảng phõn bố theo số từ
Văn bản nguồn 20,78 421,84 4 36 114 728 Văn bản túm tắt 13,08 243,75 10 16 231 255
Bảng 1.7. Thống kờ cỏc thụng tin túm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007
24
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cỏc mụ hỡnh túm tắt đa văn bản tiếng Anh hướng trớch rỳt và hướng túm lược đề xuất.
1.5.2. Cỏc bộ dữ liệu văn bản tiếng Việt
1.5.2.1. Bộ dữ liệu Baomoi
Bộ dữ liệu cho túm tắt văn bản tiếng Việt cú tờn là ‘Baomoi’. Bộ dữ liệu này được tạo ra bằng cỏch thu thập cỏc bài bỏo từ trang bỏo điện tử Việt Nam (http://baomoi.com). Mỗi bài bỏo bao gồm ba phần: Tiờu đề, túm tắt và bài bỏo. Do chưa cú nguồn dữ liệu nào tốt hơn nờn bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt vào thời điểm này. Bộ dữ liệu Baomoi cú xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đú: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đỏnh giỏ), được chia thành 1.000 bản ghi, mỗi bản ghi gồm hơn 1.000 văn bản được tỏch nhau bởi kớ tự ‘#‘. Mỗi văn bản cú cấu trỳc gồm 3 phần:
- Phần tiờu đề: là đoạn đầu tiờn, gồm 1 cõu ngắn. - Phần túm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 cõu dài. - Phần nội dung: là đoạn cuối cựng.
Phần nội dung và phần túm tắt tương ứng được sử dụng làm văn bản nguồn và bản túm tắt cho bài toỏn túm tắt văn bản. Cỏc phần này được sử dụng để huấn luyện và đỏnh giỏ độ chớnh xỏc cho cỏc mụ hỡnh thử nghiệm.
Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn
bố theo số cõu Khoảng phõn bố theo số từ
Văn bản nguồn 11,56 532,65 3 20 145 920 Văn bản túm tắt 1,28 38,90 1 2 22 55
Bảng 1.8. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Baomoi
Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đơn văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất của luận ỏn.
1.5.2.2. Bộ dữ liệu 200 cụm
Bộ dữ liệu [76] gồm 200 cụm (trong luận ỏn sẽ gọi là bộ dữ liệu
Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 đến 5 văn bản, trung bỡnh 3,16 văn bản, 2 bản túm tắt. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:
- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được thu thập từ trang
baomoi.com và được phõn bố trờn khoảng từ 8 đến 10 chủ đề gồm thế giới, xó hội, văn húa, khoa học và cụng nghệ, kinh tế, giải trớ, thể thao, giỏo dục, phỏp luật, sức khỏe.
25
- Sinh bản túm tắt: Bản túm tắt cho cỏc cụm văn bản được xõy dựng bởi hai cộng tỏc viờn độc lập.
Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn
bố theo số cõu Khoảng phõn bố theo số từ
Văn bản nguồn 14,86 477,95 5 23 168 786 Văn bản túm tắt 4,71 178,56 3 6 125 231
Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.
1.5.2.3. Bộ dữ liệu ViMs
Bộ dữ liệu ViMs [77] gồm 300 cụm, mỗi cụm cú trung bỡnh 6,48 văn bản, số lượng văn bản trong mỗi cụm nằm trong khoảng từ 4 đến 10 văn bản cựng chủ đề và 2 bản túm tắt tương ứng được tạo bởi 2 người khỏc nhau bảo đảm chất lượng bản túm tắt tốt nhất cú thể. Bộ dữ liệu được tạo thủ cụng bởi con người, trong đú việc xõy dựng bộ dữ liệu được nhúm tỏc giả xử lý gồm hai bước:
- Thu thập và phõn cụm cỏc văn bản: Dữ liệu được nhúm tỏc giả thu thập từ trang news.google.com (Google News) tiếng Việt, nhúm tỏc giả chỉ thu thập từ cỏc nguồn mở thay vỡ toàn bộ nguồn từ Google News (vỡ lý do bản quyền). Cỏc văn bản thu thập gồm cỏc chủ đề: thế giới, kinh tế, tin tức trong nước, giải trớ, thể thao.
- Sinh bản túm tắt: Hai người túm tắt với sự hỗ trợ của phần mềm MDSWriter [78] tạo ra bản túm tắt cho cỏc cụm văn bản đó thu thập.
Bảng 1.10 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu ViMs theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu.
Thụng tin Loại văn bản Số lượng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn
bố theo số cõu Khoảng phõn bố theo số từ
Văn bản nguồn 12,54 390,45 5 19 165 615 Văn bản túm tắt 5,35 220,94 3 7 144 296
Bảng 1.10. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu ViMs
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho cỏc mụ hỡnh túm tắt đa văn bản tiếng Việt hướng trớch rỳt và hướng túm lược đề xuất.
1.6. Kết luận chương 1
Với mục tiờu của đề tài, chương này đó trỡnh bày một số kiến thức cơ sở liờn quan đến đề tài nghiờn cứu như sau:
26
- Tổng quan về bài toỏn túm tắt văn bản và một số vấn đề liờn quan như phõn loại bài toỏn túm tắt văn bản gồm túm tắt đơn văn bản, túm tắt đa văn bản, túm tắt