Cỏc bộ dữ liệu van bản tiếng Việt

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 37 - 38)

1.5.2.1. Bộ dữ liệu Baomoi

Bộ dữ liệu cho túm tắt van bản tiếng Việt cú tờn là ‘Baomoi’. Bộ dữ liệu này duợc tạo ra bằng cỏch thu thập cỏc bài bỏo từ trang bỏo diện tử Việt Nam (http://baomoi.com). Mỗi bài bỏo bao gồm ba phần: Tiờu dề, túm tắt và bài bỏo. Do chua cú nguồn dữ liệu nào tốt hon nờn bộ dữ liệu Baomoi là lựa chọn tốt duợc sử dụng làm bộ dữ liệu thử nghiệm cho cỏc mụ hỡnh túm tắt don van bản tiếng Việt vào thời diểm này. Bộ dữ liệu Baomoi cú xấp xỉ 4GB dữ liệu bao gồm 1.000.847 van bản (trong dú: 900.847 mẫu duợc sử dụng dể huấn luyện, 50.000 mẫu dể kiểm tra và 50.000 mẫu dể dỏnh giỏ), duợc chia thành 1.000 bản ghi, mỗi bản ghi gồm hon 1.000 van bản duợc tỏch nhau bởi kớ tự ‘#‘. Mỗi van bản cú cấu trỳc gồm 3 phần:

- Phần tiờu dề: là doạn dầu tiờn, gồm 1 cõu ngắn.

- Phần túm tắt: là doạn kế tiếp, gồm từ 1 dến 2 cõu dài. - Phần nội dung: là doạn cuối cựng.

Phần nội dung và phần túm tắt tuong ứng duợc sử dụng làm van bản nguồn và bản túm tắt cho bài toỏn túm tắt van bản. Cỏc phần này duợc sử dụng dể huấn luyện và dỏnh giỏ dộ chớnh xỏc cho cỏc mụ hỡnh thử nghiệm.

Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số luợng cõu và số luợng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại van bản Số luợng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Van bản nguồn 11,56 532,65 3 ữ 20 145 ữ 920

Van bản túm tắt 1,28 38,90 1 ữ 2

22 ữ 55

Bảng 1.8. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Baomoi

Bộ dữ liệu Baomoi duợc sử dụng dể thử nghiệm cho cỏc mụ hỡnh túm tắt don van bản tiếng Việt huớng trớch rỳt và huớng túm luợc dề xuất của luận ỏn.

1.5.2.2. Bộ dữ liệu 200 cụm

Bộ dữ liệu [76] gồm 200 cụm (trong luận ỏn sẽ gọi là bộ dữ liệu

Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 dến 5 van bản, trung bỡnh 3,16 vanbản, 2 bản túm tắt. Bộ dữ liệu duợc tạo thủ cụng bởi con nguời, trong dú việc xõy dựng bộ dữ liệu duợc nhúm tỏc giả xử lý gồm hai buớc:

- Thu thập và phõn cụm cỏc van bản: Dữ liệu duợc thu thập từ trang

baomoi.com và duợc phõn bố trờn khoảng từ 8 dến 10 chủ dề gồm thế giới, xó hội, van húa, khoa học và cụng nghệ, kinh tế, giải trớ, thể thao, giỏo dục, phỏp luật, sức khỏe.

- Sinh bản túm tắt: Bản túm tắt cho cỏc cụm van bản duợc xõy dựng bởi hai cộng tỏc viờn dộc lập.

Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số luợng cõu và số luợng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại van bản Số luợng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Van bản nguồn 14,86 477,95 5 ữ 23 168 ữ 786

Van bản túm tắt 4,71 178,56 3 ữ 6

125 ữ 231

Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV

Bộ dữ liệu này sẽ duợc sử dụng dể thử nghiệm cho cỏc mụ hỡnh túm tắt da van bản tiếng Việt huớng trớch rỳt và huớng túm luợc dề xuất.

1.5.2.3. Bộ dữ liệu ViMs

Bộ dữ liệu ViMs [77] gồm 300 cụm, mỗi cụm cú trung bỡnh 6,48 van bản, số luợng van bản trong mỗi cụm nằm trong khoảng từ 4 dến 10 van bản cựng chủ dề và 2 bản túm tắt tuong ứng duợc tạo bởi 2 nguời khỏc nhau bảo dảm chất luợng bản túm tắt tốt nhất cú thể. Bộ dữ liệu duợc tạo thủ cụng bởi con nguời, trong dú việc xõy dựng bộ dữ liệu duợc nhúm tỏc giả xử lý gồm hai buớc:

- Thu thập và phõn cụm cỏc van bản: Dữ liệu duợc nhúm tỏc giả thu thập từ trang

news.google.com (Google News) tiếng Việt, nhúm tỏc giả chỉ thu thập từ cỏc nguồn mở thay vỡ toàn bộ nguồn từ Google News (vỡ lý do bản quyền). Cỏc van bản

thu thập gồm cỏc chủ dề: thế giới, kinh tế, tin tức trong nuớc, giải trớ, thể thao.

- Sinh bản túm tắt: Hai nguời túm tắt với sự hỗ trợ của phần mềm MDSWriter [78] tạo ra bản túm tắt cho cỏc cụm van bản dó thu thập.

Bảng 1.10 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu ViMs theo số luợng cõu và số luợng từ trờn toàn bộ bộ dữ liệu.

Thụng tin Loại van bản Số luợng cõu trung bỡnh Số từ trung bỡnh Khoảng phõn

bố theo số cõu Khoảng phõn bố theo số từ

Van bản nguồn 12,54 390,45 5 ữ 19 165 ữ 615

Van bản túm tắt 5,35 220,94 3 ữ 7

144 ữ 296

Bảng 1.10. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu ViMs

Bộ dữ liệu này sẽ duợc sử dụng dể thử nghiệm cho cỏc mụ hỡnh túm tắt da van bản tiếng Việt huớng trớch rỳt và huớng túm luợc dề xuất.

Một phần của tài liệu Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 37 - 38)