Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail

Một phần của tài liệu LATS-TuanLM (Trang 35)

Bộ dữ liệu này được sử dụng để thử nghiệm cho các mơ hình tóm tắt đơn văn bản tiếng Anh hướng trích rút và hướng tóm lược đề xuất.

1.5.1.2. Bộ dữ liệu DUC 2001 và DUC 2002

Hai bộ dữ liệu DUC 2001 [72] và DUC 2002 [73] được công bố bởi tổ chức NIST tại Hội thảo DUC. Các bộ dữ liệu này có thể sử dụng cho tóm tắt đơn văn bản và tóm tắt đa văn bản (gồm tóm tắt hướng trích rút và hướng tóm lược).

Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập các văn bản nguồn, các bản tóm tắt khác nhau sử dụng cho tóm tắt đa văn bản (mỗi bản tóm tắt có độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản tóm tắt sử dụng cho tóm tắt đơn văn bản có độ dài 100 từ. Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập các văn bản nguồn, các bản tóm tắt khác nhau sử dụng cho tóm tắt đa văn bản (mỗi bản tóm tắt có độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản tóm tắt sử dụng cho tóm tắt đơn văn bản có độ dài 100 từ.

Luận án chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm tóm tắt đơn văn bản hướng trích rút nên luận án sẽ đi phân tích thống kê các thơng tin của văn bản nguồn, bản tóm tắt sử dụng cho tóm tắt đơn văn bản. Bảng 1.5 dưới đây là các thông tin thống kê của hai bộ dữ liệu theo số lượng câu và số lượng từ.

Bộ dữ liệu DUC 2001 DUC 2002

Văn bản nguồn

Số lượng câu trung bình 41.51 26,41 Số lượng từ trung bình 887.12 534,71 Khoảng phân bố theo số câu 15  68 13  40 Khoảng phân bố theo số từ 321  1.453 278  791 Văn bản tóm tắt Số lượng câu trung bình 4,69 5,30

Số lượng từ trung bình 92,47 99,65 Khoảng phân bố theo số câu 3  6 4  7 Khoảng phân bố theo số từ 85  99 95  105

Bảng 1.5. Thống kê các thơng tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản

Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mơ hình tóm tắt đơn văn bản tiếng Anh hướng trích rút đề xuất.

1.5.1.3. Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] được phát triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm có trung bình 10 văn bản và có 4 bản tóm tắt đi kèm do các chuyên gia của NIST tạo ra.

Bảng 1.6 là các thơng tin thống kê tóm tắt của bộ dữ liệu DUC 2004 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu.

Thơng tin Loại văn bản Số lượng câu trung bình Số từ trung bình Khoảng phân bố theo số câu Khoảng phân bố theo số từ Văn bản nguồn 25,45 564,12 11  41 211  917 Văn bản tóm tắt 6,54 104,43 4  8 99  109

Bảng 1.6. Thống kê các thơng tin tóm tắt của bộ dữ liệu DUC 2004

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mơ hình tóm tắt đa văn bản tiếng Anh hướng tóm lược đề xuất.

1.5.1.4. Bộ dữ liệu DUC 2007

Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main task và Update task

(pilot):

- Main task: Bao gồm 45 chủ đề, trong đó mỗi chủ đề nằm trong một thư mục riêng biệt. Mỗi chủ đề có trung bình 25 văn bản liên quan dưới dạng 25 tập tin, đi kèm với mỗi chủ đề là 4 bản tóm tắt khác nhau đến từ 4 đơn vị đánh giá NIST. Mỗi bản tóm tắt thể hiện đầy đủ thơng tin của mỗi chủ đề. Các bản tóm tắt này sẽ được sử dụng để đánh giá chất lượng bản tóm tắt của các mơ hình thử nghiệm.

- Update task (pilot): Khác với tập dữ liệu Main task, mỗi bản tóm tắt trong

Update task chỉ chứa khoảng 100 từ với giả định rằng người dùng đã đọc qua một

số văn bản trước đó rồi. Update task có xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn bản. Với mỗi chủ đề, các văn bản được sắp xếp theo trình tự thời gian và sau đó được phân chia thành 3 tập A, B và C. Trong 25 văn bản của mỗi chủ đề, có xấp xỉ 10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C.

Bảng 1.7 là các thông tin thống kê tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu.

Thông tin Loại văn bản Số lượng câu trung bình Số từ trung bình Khoảng phân bố theo số câu Khoảng phân bố theo số từ Văn bản nguồn 20,78 421,84 4  36 114  728 Văn bản tóm tắt 13,08 243,75 10  16 231  255

Bảng 1.7. Thống kê các thơng tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm các mơ hình tóm tắt đa văn bản tiếng Anh hướng trích rút và hướng tóm lược đề xuất.

1.5.2. Các bộ dữ liệu văn bản tiếng Việt

1.5.2.1. Bộ dữ liệu Baomoi

Bộ dữ liệu cho tóm tắt văn bản tiếng Việt có tên là ‘Baomoi’. Bộ dữ liệu này

được tạo ra bằng cách thu thập các bài báo từ trang báo điện tử Việt Nam (http://baomoi.com). Mỗi bài báo bao gồm ba phần: Tiêu đề, tóm tắt và bài báo. Do chưa có nguồn dữ liệu nào tốt hơn nên bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho các mơ hình tóm tắt đơn văn bản tiếng Việt vào thời điểm này. Bộ dữ liệu Baomoi có xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đó: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đánh giá), được chia thành 1.000 bản ghi, mỗi bản ghi gồm hơn 1.000 văn bản được tách nhau bởi kí tự ‘#‘. Mỗi văn bản có cấu trúc gồm 3 phần:

- Phần tiêu đề: là đoạn đầu tiên, gồm 1 câu ngắn. - Phần tóm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 câu dài. - Phần nội dung: là đoạn cuối cùng.

Phần nội dung và phần tóm tắt tương ứng được sử dụng làm văn bản nguồn và bản tóm tắt cho bài tốn tóm tắt văn bản. Các phần này được sử dụng để huấn luyện và đánh giá độ chính xác cho các mơ hình thử nghiệm.

Bảng 1.8 là các thơng tin thống kê tóm tắt của bộ dữ liệu Baomoi theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu.

Thơng tin

Loại văn bản

Số lượng câu

trung bình trung bìnhSố từ bố theo số câuKhoảng phân Khoảng phânbố theo số từ

Văn bản nguồn 11,56 532,65 3  20 145  920 Văn bản tóm tắt 1,28 38,90 1  2 22  55

Bảng 1.8. Thống kê các thơng tin tóm tắt của bộ dữ liệu Baomoi

Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho các mơ hình tóm tắt đơn văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất của luận án.

1.5.2.2. Bộ dữ liệu 200 cụm

Bộ dữ liệu [76] gồm 200 cụm (trong luận án sẽ gọi là bộ dữ liệu

bản, 2 bản tóm tắt. Bộ dữ liệu được tạo thủ cơng bởi con người, trong đó việc xây dựng bộ dữ liệu được nhóm tác giả xử lý gồm hai bước:

- Thu thập và phân cụm các văn bản: Dữ liệu được thu thập từ trang

baomoi.com và được phân bố trên khoảng từ 8 đến 10 chủ đề gồm thế giới, xã hội,

văn hóa, khoa học và cơng nghệ, kinh tế, giải trí, thể thao, giáo dục, pháp luật, sức khỏe.

- Sinh bản tóm tắt: Bản tóm tắt cho các cụm văn bản được xây dựng bởi hai cộng tác viên độc lập.

Bảng 1.9 là các thơng tin thống kê tóm tắt của bộ dữ liệu Corpus_TMV theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu.

Thông tin

Loại văn bản

Số lượng câu

trung bình trung bìnhSố từ bố theo số câuKhoảng phân Khoảng phânbố theo số từ

Văn bản nguồn 14,86 477,95 5  23 168  786 Văn bản tóm tắt 4,71 178,56 3  6 125  231

Bảng 1.9. Thống kê các thơng tin tóm tắt của bộ dữ liệu Corpus_TMV

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho các mơ hình tóm tắt đa văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất.

1.5.2.3. Bộ dữ liệu ViMs

Bộ dữ liệu ViMs [77] gồm 300 cụm, mỗi cụm có trung bình 6,48 văn bản, số lượng văn bản trong mỗi cụm nằm trong khoảng từ 4 đến 10 văn bản cùng chủ đề và 2 bản tóm tắt tương ứng được tạo bởi 2 người khác nhau bảo đảm chất lượng bản tóm tắt tốt nhất có thể. Bộ dữ liệu được tạo thủ cơng bởi con người, trong đó việc xây dựng bộ dữ liệu được nhóm tác giả xử lý gồm hai bước:

- Thu thập và phân cụm các văn bản: Dữ liệu được nhóm tác giả thu thập từ trang news.google.com (Google News) tiếng Việt, nhóm tác giả chỉ thu thập từ các nguồn mở thay vì tồn bộ nguồn từ Google News (vì lý do bản quyền). Các văn bản thu thập gồm các chủ đề: thế giới, kinh tế, tin tức trong nước, giải trí, thể thao.

- Sinh bản tóm tắt: Hai người tóm tắt với sự hỗ trợ của phần mềm MDSWriter [78] tạo ra bản tóm tắt cho các cụm văn bản đã thu thập.

Bảng 1.10 là các thơng tin thống kê tóm tắt của bộ dữ liệu ViMs theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu.

Thông tin

Loại văn bản

Số lượng câu

trung bình trung bìnhSố từ bố theo số câuKhoảng phân Khoảng phânbố theo số từ

Văn bản nguồn 12,54 390,45 5  19 165  615 Văn bản tóm tắt 5,35 220,94 3  7 144  296

Bảng 1.10. Thống kê các thơng tin tóm tắt của bộ dữ liệu ViMs

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho các mơ hình tóm tắt đa văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất.

1.6. Kết luận chương 1

Với mục tiêu của đề tài, chương này đã trình bày một số kiến thức cơ sở liên quan đến đề tài nghiên cứu như sau:

- Tổng quan về bài tốn tóm tắt văn bản và một số vấn đề liên quan như phân loại bài tốn tóm tắt văn bản gồm tóm tắt đơn văn bản tóm tắt đa văn bản, tóm tắt văn bản hướng trích rút, tóm tắt văn bản hướng tóm lược, các bước thực hiện trong tóm tắt văn bảnđặc trưng của văn bản thường được sử dụng trong các hệ thống tóm tắt văn bản. Các vấn đề này đã mở ra định hướng nghiên cứu cho luận án.

- phương pháp đánh giá văn bản tóm tắt tự động.

- Các phương pháp ghép văn bản trong tóm tắt đa văn bản.

- Các phương pháp tóm tắt văn bản hướng trích rút cơ sở được sử dụng để so sánh với các mơ hình tóm tắt văn bản đề xuất.

- Cuối cùng, luận án giới thiệu và phân tích các bộ dữ liệu được sử dụng để thử nghiệm cho các mơ hình tóm tắt văn bản đề xuất.

Các kiến thức cơ sở liên quan trong chương 1 được trình bày trong các cơng trình nghiên cứu đã cơng bố của luận án. Các kiến thức trình bày trong chương này là cơ sở để đề xuất và phát triển các nghiên cứu của luận án. Trong chương 2, luận án sẽ trình bày các kiến thức nền tảng được sử dụng để phát triển các phương pháp tóm tắt văn bản đề xuất.

Chương 2. CÁC KIẾN THỨC NỀN TẢNG

Chương này trình bày các kiến thức nền tảng sử dụng để phát triển các phương pháp tóm tắt văn bản trong luận án bao gồm các kỹ thuật học sâu cơ sở như mạng Perceptron nhiều lớp, mạng nơ ron tích chập, mạng nơ ron hồi quy và các biến thể của mạng nơ ron hồi quy, cơ chế chú ý, mơ hình Transformer, các mơ hình ngơn ngữ dựa trên học sâu được huấn luyện trước như phương pháp word2vec, mơ hình BERT, BERT đa ngơn ngữ, các mơ hình tối ưu của BERT, BERT thu nhỏ để véc tơ hóa văn bản. Chương này cũng trình bày các thuật tốn được sử dụng trong các mơ hình tóm tắt đề xuất như học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thơng tin trùng lặp. Những kiến thức trình bày trong chương này là cơ sở cho việc phát triển các đề xuất trong các chương tiếp theo.

2.1. Các kỹ thuật học sâu cơ sở

2.1.1. Mạng Perceptron nhiều lớp

Mạng MLP là mạng nơ ron có một hoặc nhiều lớp ẩn thường được sử dụng trong các bài toán phân loại. Kiến trúc mạng MLP đơn giản nhất là mạng truyền thẳng. Hình 2.1 minh họa mơ hình mạng MLP một lớp ẩn và mạng MLP nhiều lớp ẩn:

Hình 2.1. Mơ hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79]

Khi mạng nơ ron có nhiều lớp thì thời gian tính tốn sẽ tăng lên đáng kể nên mạng MLP thường được huấn luyện bởi giải thuật lan truyền ngược (Back Propagation Algorithm) [80] để giảm thời gian huấn luyện. Mạng MLP với kiến trúc mạng linh hoạt đã đạt được độ hiệu quả cao trong các bài toán về xử lý văn bản, ảnh, video. Kiến trúc của mạng thường được xây dựng dựa vào kinh nghiệm thực tế và thực nghiệm.

2.1.2. Mạng nơ ron tích chập

2.1.2.1. Giới thiệu mạng nơ ron tích chập

Mạng nơ ron tích chập (CNN - Convolutional Neural Network) [81,82,83,84] là một trong những mơ hình học sâu phổ biến hiện nay giúp chúng ta xây dựng được những ứng dụng thống thơng minh với độ chính xác cao, đặc biệt là trong xử lý ảnh, xử lý tiếng nói, xử lý âm thanh,… Đây là một trong những mạng nơ ron truyền thẳng đặc biệt, xử lý dữ liệu dạng lưới. Mạng CNN là một mạng nơ ron đơn giản sử dụng phép tích chập trong các phép nhân ma trận tại ít nhất một trong các lớp của nó. Trong CNN, các lớp liên kết với nhau thơng qua cơ chế tích chập (convolution). Lớp tiếp theo là kết quả nhân chập từ lớp trước đó nên ta có được các kết nối cục bộ. Mỗi lớp được áp dụng một bộ lọc khác nhau. Trong quá trình huấn luyện, CNN sẽ tự động học các tham số cho các bộ lọc. Hình 2.2 minh họa một kiến trúc CNN trong bài tốn phân loại ảnh.

Hình 2.2. Một kiến trúc CNN cho bài toán phân loại ảnh [84]

Kiến trúc mạng CNN gồm các lớp cơ bản sau:

Lớp tích chập (Convolution): Đây là lớp quan trọng nhất trong mạng thể hiện ý

tưởng xây dựng của mạng. Lớp này sử dụng một bộ lọc xếp chồng vào một vùng trong ma trận dữ liệu và thực hiện tính tốn nhân chập giữa bộ lọc và giá trị dữ liệu trong vùng mà nó xếp chồng. Bộ lọc sẽ lần lượt được dịch chuyển theo một giá trị bước trượt (stride) chạy dọc theo ma trận dữ liệu và quét dữ liệu. Các trọng số ban đầu của bộ lọc được khởi tạo ngẫu nhiên và được điều chỉnh trong quá trình huấn luyện mơ hình.

Lớp kích hoạt phi tuyến (ReLU - Rectified Linear Unit): Lớp ReLU thường

được thiết kế ngay sau lớp tích chập. Lớp này thực hiện chuyển tồn bộ các giá trị âm trong kết quả của lớp tích chập thành giá trị 0, để tạo tính phi tuyến cho mơ hình.

Lớp lấy mẫu (Pooling): Thực hiện lấy mẫu dữ liệu, lớp này thường được thiết

kế sau lớp tích chập và lớp ReLU để làm giảm kích thước dữ liệu đầu ra mà vẫn giữ được các thông tin quan trọng của dữ liệu đầu vào. Lớp Pooling sử dụng một cửa sổ trượt quét qua toàn bộ ma trận dữ liệu, mỗi lần trượt theo một bước trượt (stride) cho trước. Khi cửa sổ trượt trên dữ liệu, chỉ có một giá trị được xem là giá trị đại diện cho thông tin dữ liệu tại vùng đó (giá trị mẫu) được giữ lại. Các phương thức phổ biến trong lớp Pooling là Max Pooling (lấy giá trị lớn nhất), Min Pooling (lấy

giá trị nhỏ nhất) và Average Pooling (lấy giá trị trung bình). Hình 2.3 minh họa việc tính tốn với phương thức Avarage Pooling và Max Pooling.

Một phần của tài liệu LATS-TuanLM (Trang 35)

Tải bản đầy đủ (DOCX)

(194 trang)
w