5 Kết luận và hướng phát triển
3.13 Quy trình đánh giá toàn bộ mô hình tóm tắt đa văn bản tóm lược
Khác với bước hai, final model nhận đầu vào là bản tóm tắt trích rút (sinh ra từ mô hình tóm tắt đa văn bản trích rút) được sử dụng để tạo ra bản tóm tắt tóm lược cuối cùng (thay vì dùng để huấn luyện như bước hai).
Chương 4
Cài đặt, thử nghiệm và đánh giá 4.1 Công cụ và môi trường cài đặt
Phần cứng sử dụng gồm:
• Máy tính cá nhân: core i7 thế hệ thứ 8 với 16G ram.
• Google Colab Pro: xấp xỉ 25G ram.
Ngoài ra, một số thư viện đặc biệt được sử dụng trong các thử nghiệm bao gồm:
• Ngôn ngữ lập trình: Python.
• VnCoreNlp: dùng để tách từ trong ngôn ngữ tiếng Việt.
• Nltk: dùng để tách câu; lấy gốc từ đối với tiếng Anh.
• Scikit-learn: triển khai thuật toán K-means.
• Rouge: đánh giá chất lượng bản tóm tắt sinh ra từ mô hình tự động.
• Tensorflow: xây dựng mô hình tóm tắt đơn văn bản tóm lược. 4.2 Chuẩn bị dữ liệu
Để có cái nhìn khách quan về mô hình tóm tắt đa văn bản trích rút, bộ dữ liệu tiếng Anh Duc2007 được sử dụng để so sánh bản tóm tắt sinh ra từ mô hình với các phương pháp truyền thống và các phương pháp hiện đại trên thế giới. Ngoài ra, các bộ dữ liệu tiếng Việt cũng sẽ được giới thiệu chi tiết trong mục này.
4.2.1 Bộ dữ liệu Duc2007Cấu trúc bộ dữ liệu Cấu trúc bộ dữ liệu
Duc2007[24] bao gồm: bộ dữ liệu Main task và bộ dữ liệu Update task (pilot).
Main task bao gồm 45 chủ đề trong đó mỗi chủ đề này chứa 25 tài liệu liên quan và đi kèm với mỗi chủ đề là 4 bản tóm tắt khác nhau. Mỗi chủ đề được tóm tắt lại bằng 4 bản tóm tắt độc lập với xấp xỉ 250 từ. Bộ dữ liệu này thường được sử dụng để đánh giá chất lượng mô hình tóm tắt văn bản tự động bao gồm cả bài toán trích rút và tóm lược. Với đặc điểm này, tập dữ liệu Main task là phù hợp để đánh giá chất lượng mô hình tóm tắt đa trích rút trong phạm vi luận văn này.
• Update task (pilot)
Update task bao gồm khoảng10chủ đề, trong đó, mỗi chủ đề bao gồm 25tài liệu liên quan. Ba tập con là A, B và C tách được từ mỗi chủ đề và được sắp xếp theo trình tự thời gian. Trong đó, tập A chứa khoảng 10 tài liệu, tập B chứa khoảng 8 tài liệu và tập C chứa khoảng 7 tài liệu với time(A)< time(B)< time(C).
Như vậy, tập dữ liệu Update task được dùng cho bài toán tóm tắt theo trình tự thời gian và không phù hợp trong phạm vi nghiên cứu này.
4.2.2 Bộ dữ liệu Báo mới
Tập dữ liệuBáo mới sử dụng có hơn một triệu văn bản được thu thập từ chính trang
baomoi.com, nhưng trong số đó có rất nhiều tài liệu bị lỗi. Do vậy, trong phạm vi luận văn này, tập báo mới em sử dụng được chia làm hai tập: training set (tập dữ liệu huấn luyện - xấp xỉ 800.000 tài liệu) và test set (tập dữ liệu thử nghiệm - xấp xỉ 20.000 tài liệu).
Cấu trúc của một tài liệu bao gồm:
• Phần tiêu đề (heading): dòng đầu tiên.
• Phần tóm tắt (summary): dòng thứ hai.
• Phần tài liệu (article): phần còn lại.
Trong đó: lượng token trong mỗi tài liệu xấp xỉ 596 tokens; lượng token trung bình trong mỗi bản tóm tắt xấp xỉ 11 tokens.
4.2.3 Bộ dữ liệu của tác giả Trần Mai Vũ
Tác giả Trần Mai Vũ đã công bố tập dữ liệu bao gồm 200 clusters[32], trong đó mỗi cụm chứa:
• 2-5 tài liệu (xấp xỉ 495 tokens trên mỗi tài liệu).
• 2 bản tóm tắt (xấp xỉ 181 tokens trên mỗi bản tóm tắt).
Dữ liệu được tạo nên hoàn toàn bởi con người, trong đó việc xây dựng bộ dữ liệu 200 clusters được nhóm tác giả tiến hành theo hai bước sau:
• Bước một: chuẩn bị dữ liệu (thu thập và phân cụm các tài liệu), trong đó dữ liệu được thu thập từ trangbaomoi.com và được phân phối trên khoảng8−10chủ đề (thế giới; xã hội; văn hóa; khoa học và công nghệ; kinh tế; giải trí; thể thao; giáo dục; pháp luật; sức khỏe).
• Bước hai: bản tóm tắt cho các cụm tài liệu thu thập được từ bước một được xây dựng bởi hai cộng tác viên.
4.2.4 Bộ dữ liệu Vims
Tập dữ liệu Vims[21] bao gồm 300 cụm, trong đó mỗi cụm bao gồm:
• 4-10 tài liệu (xấp xỉ 481 tokens trên mỗi tài liệu).
• 2 bản tóm tắt (xấp xỉ 223 tokens trên mỗi bản tóm tắt).
Dữ liệu được tạo bởi con người, trong đó việc xây dựng bộ dữ liệu được nhóm tác giả tiến hành như sau:
• Bước một: dữ liệu được nhóm tác giả thu thập từnews.google.com (Google News) với tiếng Việt, trong đó vì lý do bản quyền nên nhóm tác giả chỉ thu thập từ các nguồn mở thay vì toàn bộ nguồn từ Google News. Các tài liệu thu thập rơi vào nhiều chủ đề như: thế giới; kinh tế; tin tức trong nước; giải trí; thể thao.
• Bước hai: hai người chú thích với sự hỗ trợ của hệ thống MDSWriter[11] tiến hành tạo ra bản tóm tắt một cách độc lập cho các cụm tài liệu thu thập được từ bước một.
4.3 Tiền xử lý dữ liệu và đánh giá mô hình tóm tắtTiền xử lý dữ liệu Tiền xử lý dữ liệu
• Các ký tự đặc biệt là không cần thiết trong quá trình véc tơ hóa dữ liệu vì vậy ta sẽ xóa bỏ các ký tự đặc biệt trong tập dữ liệu ban đầu.
• Lấy gốc từ (đối với dữ liệu tiếng Anh): dữ liệu sử dụng để đo hiệu quả của mô hình tóm tắt đa văn bản trích rút được viết trên ngôn ngữ tiếng Anh (ngôn ngữ biến hình). Vì vậy việc lấy gốc từ là cần thiết, lấy gốc từ không chỉ làm giảm kích thước từ điển mà còn cải thiện chất lượng bản tóm tắt đầu ra.
• Tách từ (đối với dữ liệu tiếng Việt): một từ ghép trong tiếng Việt có thể là kết hợp của hai hay nhiều từ đơn. Thậm chí một số từ đơn đứng riêng lẻ là hoàn toàn vô nghĩa, vì vậy ta cần tiến hành tách từ trong các tài liệu trước khi véc tơ hóa dữ liệu.
• Chuẩn hóa dấu (đối với tiếng Việt): dấu (thanh) là một thành phần không thể thiếu trong tiếng Việt nhưng việc đặt đúng vị trí của dấu trong 1 từ còn nhiều khác biệt. Chính vì vậy, việc chuẩn hóa lại dấu nhằm giảm thiểu kích cỡ từ điển cũng như giúp mô hình có thể dễ dành "học" hơn.
• Những câu quá ngắn thường không mang thông tin, vì vậy ta sẽ xóa bỏ những câu này.
Đánh giá mô hình tóm tắt
Độ đo Rouge được sử dụng để đánh giá chất lượng các mô hình thử nghiệm trong phạm vi luận văn này. Để có kết quả so sánh chính xác đối với các phương pháp trên thế giới, cấu hình của Rouge trên tập dữ liệu Duc2007 đã được cộng đồng cố định. Cấu hình Rouge trên Duc2007:
Trong đó:
• -n 2: chỉ tính ROUGE-1 và ROUGE-2.
• -m: áp dụng Poter Stemmer.
• -2 4: tính toán Skip Bigram (ROUGE-S) với số từ bỏ qua lớn nhất là 4.
• -u: bao gồm unigram trong Skip Bigram (ROUGE-S).
• -c 95: sử dụng 95% mức độ tin cậy.
• -r 1000: chạy 1000 lần với độ tin cậy 95%.
• -f A: kết quả được tính trên nhiều mô hình.
• -p 0.5: tính toán trọng số F1-score với α= 0.5.
• -t 0: sử dụng đơn vị mô hình như đơn vị đếm.
• -d: in các trọng số tính toán được.
• -l 250: giới hạn số từ là 250 khi lấy để đánh giá trong bản tóm tắt bởi hệ thống. Ngoài ra, để đánh giá chất lượng mô hình tóm tắt đa văn bản trích rút đối với các tập dữ liệu 200 clusters, em sử dụng thông số sau:
ROUGE-1.5.5.pl -n 2 -m -2 4 -l 181 -u -c 95 -r 1000 -f A -p 0.5 -t 0 -a
Để đánh giá chất lượng mô hình tóm tắt đa văn bản trích rút đối với các tập dữ liệu Vims, em sử dụng thông số sau:
ROUGE-1.5.5.pl -n 2 -m -2 4 -l 190 -u -c 95 -r 1000 -f A -p 0.5 -t 0 -a
Ngoài ra, để đánh giá chất lượng mô hình tóm tắt đa văn bản tóm lược, em sử dụng lõi tính toán chuẩn của thư viện ROUGE như sau:
ROUGE-1.5.5.pl -c 95 -2 -1 -U -r 1000 -n 4 -w 1.2 -a -m
4.4 Đánh giá chất lượng mô hình
4.4.1 Kết quả của mô hình tóm tắt đa văn bản trích rút trêntập dữ liệu Duc2007 tập dữ liệu Duc2007
Mô hình tóm tắt đề xuất và kết quả đánh giá trên bộ dữ liệu Duc2007 đã được công bố trong bài báo "Extractive Multi-document Summarization using K-means, Centroid- based Method, MMR, and Sentence Position[19]" tại hội nghị SOICT[30] lần thứ 10.
Kết quả với kịch bản thử nghiệm
Các tham số đã sử dụng trong các kịch bản thử nghiệm:
• Kịch bản một: thử nghiệm mô hình tóm tắt đa văn bản trích rút trong đó sử dụng thuật toán K-means kết hợp với vị trí tương đối (n_clusters= 16 cụm khởi tạo cho thuật toán K-means; véc tơ câu với ndim = 256 chiều).
• Kịch bản hai: thử nghiệm mô hình tóm tắt đa văn bản trích rút sử dụng thuật toán K-means kết hợp với vị trí câu trong tài liệu "Position" (n_clusters= 16 cụm khởi tạo cho thuật toán K-means; véc tơ câu với ndim = 256 chiều).
• Kịch bản ba: thử nghiệm mô hình tóm tắt đa văn bản trích rút sử dụng thuật toán K-means kết hợp MMR và Position (n_clusters = 21 cụm khởi tạo cho thuật toán K-means, véc tơ câu với ndim = 256 chiều và λ= 0.6cho thuật toán MMR).
• Kịch bản bốn: thử nghiệm mô hình tóm tắt đa văn bản trích rút sử dụng thuật toán K-means kết hợp Centroid-based, MMR và Position (n_clusters= 50 cụm khởi tạo cho thuật toán K-means, véc tơ câu với ndim = 256chiều, λ= 0.6cho thuật toán MMR và θsim = 0.95cho centroid-based).
Kịch bản Rouge-1 (%) Rouge-2 (%) Rouge-L (%) K-means + vị trí tương đối 37.81 7.30 34.64
K-means + Position 38.11 7.87 34.86 K-means + MMR + Posi-
tion 38.82 8.15 35.53
K-means + Centroid-based
+ MMR + Position 40.39 9.53 37.05
Bảng 4.1: Kết quả của mô hình tóm tắt đa văn bản trích rút với bốn kịch bản[19] Về mặt số liệu, có thể thấy rằng việc sử dụng kết hợp các phương pháp trong mô hình tóm tắt đa văn bản trích rút đề xuất là hiệu quả trên bộ dữ liệu Duc2007. Cụ thể, F1- Score trong Rouge-1 đã tăng2.58%; F1-Score trong Rouge-2 đă tăng 2.23% và F1-Score trong Rouge-L đã tằng2.41%.
Kết quả của một số phương pháp cơ sở
Mô hình tóm tắt đa văn bản trích rút cho kết quả cải thiện đáng kể so với các phương pháp khi sử dụng đơn lẻ (cài đặt trên cùng tập dữ liệu).
Phương pháp Rouge-1 (%) Rouge-2 (%) Rouge-L (%)
LexRank 37.52 8.14 34.18
Centroid-based 38.95 9.08 35.50
MMR 34.50 5.34 31.78
K-means + Centroid-based
+ MMR + Position 40.39 9.53 37.05
Kết quả của phương pháp so với các mô hình trên thế giới
Kết quả được lấy từ các nghiên cứu đã được các nhóm tác giả khác công bố: Phương pháp Rouge-1 (%) Rouge-2 (%) Rouge-L (%)
Random[7] 32.028 5.432 29.127 Lead[7] 31.446 6.151 26.575 DSDR-Non[7] 39.573 7.439 35.335 PV-DM[15] 39.826 8.514 K-means + Centroid-based + MMR + Position 40.39 9.53 37.05
Bảng 4.3: Kết quả của một số phương pháp trên thế giới[19]
Mô hình tóm tắt đa trích rút đề xuất có kết quả cải thiện hơn các phương pháp truyền thống, các phương pháp khi sử dụng đơn lẻ và một vài phương pháp khác trên thế giới như DSDR, PV-DM,. . . Chứng tỏ việc kết hợp các phương pháp để loại bỏ sự chồng chéo thông tin và loại bỏ những cụm chứa ít thông tin là hiệu quả đối với tập dữ liệu Duc2007 (Rouge-L của phương pháp PV-DM không được nhóm tác giả công bố).
4.4.2 Kết quả của mô tính tóm tắt đa trích rút trên bộ dữ liệutiếng Việt tiếng Việt
Kết quả trên bộ dữ liệu 200 clusters và Vims
Những tham số sử dụng: số cụmn_clusters= 17;độ dài bản tóm tắtlen_summary = 9;λ= 0.6và θsim = 0.95. Bộ dữ liệu Rouge-1 (%) Rouge-2 (%) Rouge-L (%) 200 clusters Recall 58.778 42.093 54.260 200 clusters Presicion 48.380 34.494 44.568 200 clusters F1-score 52.682 37.626 48.574 Vims Recall 51.432 31.315 47.134 Vims Presicion 45.648 27.812 41.860 Vims F1-score 47.885 29.181 43.905
Bảng 4.4: Kết quả của mô hình tóm tắt đa trích rút trên tập 200 clusters và Vims Từ kết quả, ta có thể nhận định rằng mô hình tóm tắt đa văn bản trích rút có thể trích xuất tốt các câu có nội dung quan trọng trong tập dữ liệu ban đầu.
4.4.3 Kết quả của mô hình tóm tắt đơn văn bản tóm lược trên bộ dữ liệu Báo mới
Một số tham số đặc biệt sử dụng cho mô hình tóm tắt đơn văn bản tóm lược: tốc độ học learning_rate = 0.15; số bước n_interations = 60000; kích thước tìm kiếm beam_size = 4 (trong quá trình sinh bản tóm tắt); kích thước từ điển vocab_size = 200000;số lượng dữ liệu trên mỗi bước huấn luyện batch_size= 48.
Bộ dữ liệu Rouge-1 (%) Rouge-2 (%) Rouge-L (%) Báo mới Recall 31.017 15.596 25.246 Báo mới Presicion 22.983 11.365 18.424 Báo mới F1-score 25.212 12.521 20.338 Bảng 4.5: Kết quả của mô hình tóm tắt đơn tóm lược trên tập Báo mới
Từ kết quả, ta có thể nhận định rằng mô hình tóm tắt đơn văn bản tóm lược có thể tóm tắt được nội dung quan trọng trong tập dữ liệu ban đầu.
4.4.4 Kết quả của mô hình tóm tắt đa văn bản tóm lược trênbộ dữ liệu 200 clusters bộ dữ liệu 200 clusters
Một số tham số đặc biệt sử dụng cho việc huấn luyện lại mô hình tóm tắt đơn văn bản tóm lược: learning_rate=0.15; n_interations=600; beam_size=4 (trong quá trình sinh bản tóm tắt); vocab_size=200000; batch_size=4.
Bộ dữ liệu Mô hình Rouge-1
(%) Rouge-2 (%) Rouge-L (%) 200 clusters Pretrain model Recall 16.286 10.389 12.774 200 clusters Pretrain model Presicion 62.455 40.712 48.845 200 clusters Pretrain model F1-score 25.376 16.242 19.875 200 clusters Final model Recall 26.429 15.976 19.722 200 clusters Final model Presicion 58.472 35.894 43.690 200 clusters Final model F1-score 35.166 21.342 26.248 Bảng 4.6: Kết quả của mô hình tóm tắt đa văn bản tóm lược trên tập 200 clusters
Từ kết quả, ta có thể nói rằng việc huấn luyện lại mô hình tóm tắt đơn tóm lược với tập dữ liệu Vims mang lại kết quả đáng kể. Cụ thể: với Rouge-1: F1-score tăng xấp xỉ 10%; Rouge-2: F1-score tăng xấp xỉ 5%; Rouge-L: tăng xấp xỉ 7%.
Để thấy rõ hơn độ cải thiện trong kết quả tóm tắt sau khi huấn luyện lại mô hình, ta xem một vài ví dụ dưới đây:
Ví dụ 1
• Bản tóm tắt trước khi huấn luyện lại trên bộ Vims:
lionel messi vừa ghi được bàn thắng đầu tiên từ một pha " bóng sống " trên đất italia ( bàn gỡ hòa 1 - 1 trong top 10 vđv được yêu thích tại mỹ .
lionel messi vừa ghi được bàn thắng đầu tiên từ một pha " bóng sống " trên đất italia ( bàn gỡ hòa 1 - 1 trong trận đấu với milan tại champions league vào đêm qua ) , cầu thủ nhỏ con này đã lọt vào top 10 danh sách các vận động viên thể thao có nhiều fan nhất tại mỹ . theo một cuộc nghiên cứu được tiến hành kéo dài trong vòng 1 năm của hệ thống thể thao mỹ , espn , chân sút barca đứng thứ 7 trong bản danh sách này và anh là cầu thủ đầu tiên chen chân được vào top
• Bản tóm tắt của con người:
Theo một cuộc nghiên cứu được tiến hành kéo dài trong vòng 1 năm của hệ thống thể thao Mỹ, ESPN, chân sút Barca đứng thứ 7 trong top 10 VĐV được yêu thích tại Mỹ. Tuy nhiên, Messi là cầu thủ bóng đã đầu tiên "phá vỡ" trong bảng xếp hạng top 10, một điều khá bất ngờ và đáng chú ý bởi bóng đá không phải là môn thể thao được ưa chuộng tại Mỹ và mới chỉ được phổ biến trong những năm gần đây. Được