Mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình tóm

Một phần của tài liệu LATS-TuanLM (Trang 125 - 166)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

5.3. Các mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình

5.3.2. Mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình tóm

tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS

Để phát triển mơ hình tóm tắt đa văn bản hướng tóm lược, trước hết G văn bản của tập văn bản nguồn đầu vào Dmul ( ,D D1 2,..., ,....,Di DG) (mỗi văn bản Di có H

câu, H có giá trị thay đổi tùy thuộc vào từng văn bản) được ghép thành 1 văn bản lớn gọi là “siêu văn bản” và siêu văn bản này được coi như một đơn văn bản

'

11 12 1 21 22 2

( , ,..., , , ,..., ...., )

H H GH

D s s s s s s s gồm N’ câu (với N’ là tổng số câu của tập

văn bản đầu vào Dmul). Giả sử văn bản D' được viết lại thành '

'

1 2

( , ,..., ,...., )

i H

D s s s s , với si là câu thứ i trong văn bản D', H' là số lượng câu của

văn bản D'). Bên cạnh đó, văn bản D' này cũng được biểu diễn dưới dạng '

11 12 1 21 22 2

( , ,..., , , ,..., ,...., )

L L GL

D x x x x x x x (mỗi văn bản Di có L từ, L có giá trị thay

đổi tùy thuộc vào từng văn bản) và được viết lại thành D' ( , ,..., ,...., )x x1 2 xi xJ , với

i

x là từ thứ i trong văn bản D', J là số lượng từ của văn bản D'. Như vậy, để tóm tắt đa văn bản Dmul ta đi tóm tắt đơn văn bản D' và đây chính là bài tốn tóm tắt đơn văn bản hướng tóm lược cần giải quyết đối với văn bản D'. Sau đó, sử dụng mơ hình tóm tắt đơn văn bản hướng tóm lược đã đề xuất PG_Feature_ASDS ở chương 4 để tóm tắt văn bản D' (lúc này mơ hình PG_Feature_ASDS được coi như mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước). Bản tóm tắt tóm lược của D' sinh ra gồm T từ được biểu diễn là Y ( , ,..., ,...., )y y1 2 yi yT chính là bản tóm

tắt tóm lược biểu diễn nội dung của tập đa văn bản đầu vào Dmul, với: yiDi hoặc

i i

y D (lúc này từ được lấy từ bộ từ vựng).

Để tăng hiệu quả cho mơ hình tóm tắt đa văn bản, mơ hình tóm tắt đơn văn bản được huấn luyện trước PG_Feature_ASDS được tinh chỉnh bằng việc huấn luyện tiếp trên các bộ dữ liệu thử nghiệm của bài tốn tóm tắt đa văn bản hướng tóm lược tương ứng. Mơ hình tóm tắt đa văn bản hướng tóm lược này được đặt tên là mơ hình

PG_Feature_AMDS. Mơ hình đề xuất PG_Feature_AMDS được thử nghiệm trên

các bộ dữ liệu tóm tắt đa văn bản tiếng Anh, tiếng Việt cho kết quả tốt và có thể áp dụng hiệu quả cho tóm tắt đa văn bản tiếng Anh và tiếng Việt.

5.3.2.2. Các thành phần của mơ hình

a) Mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước

Mơ hình tóm tắt đơn văn bản hướng tóm lược đã đề xuất PG_Feature_ASDS ở chương 4 (Hình 4.2) được sử dụng để phát triển mơ hình tóm tắt đa văn bản hướng tóm lược. Mơ hình này được xem như mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước (pre-trained PG_Feature_ASDS).

b) Các đặc trưng đề xuất thêm mới cho mơ hình

Đặc trưng vị trí câu (POSI)

Với văn bản đầu vào xx x x1, , ,....,2 3 xJ có H câu, véc tơ x được viết lại là  11, 21, 31,...., 

J H

x x x x x ; trong đó: xjh là từ thứ j ở câu thứ h. Từ véc tơ x, ta xác

định được 1 véc tơ có độ dài bằng véc tơ x biểu diễn vị trí của câu chứa từ đó:

1,1,1,..., , 

POSI

x h h

Do bộ giải mã sử dụng mạng LSTM để dự đốn một từ dựa vào từ trước đó nên đối với các văn bản dài thì thơng tin ở phần đầu văn bản sẽ bị “quên” dẫn đến nội dung sẽ tập trung ở cuối văn bản. Chính vì thế, mơ hình sử dụng thêm đặc trưng vị trí câu xPOSI và xử lý cập nhật nâng trọng số chú ý của các từ của các câu ở đầu văn bản lên bằng cách chia trọng số chú ý của từ cho vị trí câu xPOSI tương ứng của nó.

Đặc trưng tần suất xuất hiện của từ

Với các văn bản có độ dài khác nhau, có những từ xuất hiện nhiều trong các văn bản dài thay vì xuất hiện trong các văn bản ngắn nên tần suất xuất hiện của từ t

trong văn bản d được tính theo cơng thức sau:

 

f t,d TF( t )

T

; trong đó: t là một từ trong văn bản d, f(t,d) là số lần xuất hiện của

t trong văn bản d, T là tổng số từ trong văn bản.

Với véc tơ biểu diễn văn bản đầu vào xx x x11, 21, 31,....,xJ H; trong đó: xjh là

từ thứ j ở câu thứ h, ta xác định được véc tơ biểu diễn TF là:

 ( 11), ( 21), ( 31),...., ( )

TF J H

x TF x TF x TF x TF x . Giá trị TF biểu diễn mức độ quan

trọng của từ trong văn bản nên mơ hình sử dụng thêm đặc trưng TF và xử lý cập nhật nâng trọng số của từ lên bằng cách nhân trọng số chú ý của từ với xTF tương

ứng để giúp mơ hình chú ý vào các từ quan trọng.

Độ đo MMR

Điểm MMR thể hiện được độ tương đồng của từ với chủ đề văn bản và tính dư thừa thơng tin đối với bản tóm tắt hiện có.

Với véc tơ biểu diễn văn bản đầu vào xx x x11, 21, 31,....,xJ H ; trong đó: xjh là

từ thứ j ở câu thứ h, véc tơ biểu diễn MMR được xác định là:

 

R  ( 11), ( 21), ( 31),...., ( )

MM J H

x MMR x MMR x MMR x MMR x

Tại thời điểm đánh giá mơ hình, điểm MMR được đưa vào để tính giá trị phân

bố chú ý.

Như vậy, giá trị phân bố chú ý được tính lại sau khi thêm 3 đặc trưng mới như sau:

- Trong giai đoạn huấn luyện mơ hình: Tính tốn theo cơng thức (4.25) và công thức (4.8) ở trên.

- Trong giai đoạn đánh giá mơ hình: Tính tốn theo cơng thức (5.9) dưới đây và công thức (4.8) ở trên.     ( ) tanh . .  �  T e d

align align j t align e tj TF MMR POSI v W h h b s x x x (5.9) c) Phương pháp PG - MMR

Phương pháp PG – MMR [147] mô tả khung lặp thực hiện tóm tắt đa văn bản dưới dạng một siêu văn bản được kết hợp từ tập các văn bản đầu vào để sinh ra bản tóm tắt. Trong mỗi bước lặp, phương pháp PG - MMR chọn ra k câu có điểm cao nhất dựa theo nguyên tắc của phương pháp MMR, k câu này được sử dụng làm đầu vào cho mạng sinh từ - sao chép từ để sinh ra một câu tóm tắt. Tiếp theo, điểm của các câu đầu vào được cập nhật lại dựa trên độ tương đồng với các câu của văn bản

đầu vào (độ quan trọng) và các câu đã tóm tắt trong các bước lặp trước (độ dư thừa). Câu giống với câu đã được sinh tóm tắt trước đó hơn sẽ nhận điểm thấp hơn. Việc chọn k câu thông qua phương pháp PG - MMR giúp cho mơ hình sinh từ - sao chép từ xác định được nội dung của câu nguồn chưa đưa vào bản tóm tắt, từ đó giải quyết được vấn đề trùng lặp thơng tin khi tóm tắt văn bản dài.

Hình 5.6. Minh họa phương pháp PG-MMR (k=2) [147]

Để mơ hình sinh từ - sao chép từ hoạt động hiệu quả khi sử dụng k câu nguồn chọn được để thực hiện tóm tắt mà khơng cần huấn luyện lại mơ hình, các tham số được điều chỉnh trong quá trình đánh giá như sau:

Giá trị phân bố chú ý phụ thuộc vào k câu được chọn: Nếu từ thuộc k câu được chọn thì sẽ được tính theo cơng thức (4.8) ở chương 4, trong các trường hợp cịn lại thì sẽ bằng 0 như sau: 0,   ��� � � � e tj e tjnew ,n�u t� j k c�u ���c ch�n trong c�c tr��ng h�p c�n l�i (5.10) Trong phương pháp PG-MMR, các câu không được chọn gọi là các câu bị

“tắt” (“mute”).

Độ tương đồng và độ dư thừa của câu nguồn trong phương pháp PG - MMR được tính tốn theo cơng thức (2.44) của phương pháp MMR đề xuất đã trình bày ở chương 2.

5.3.2.3. Mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất

Mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất được trình bày chi tiết trong Hình 5.7.

Mơ hình sử dụng phương pháp MMR để trích rút các câu đại diện từ siêu văn bản được kết hợp từ tập văn bản nguồn đầu vào và tận dụng mơ hình mã hóa - giải mã (ở đây là mạng Pointer-Generator) để tóm tắt các câu này thành bản tóm tắt tóm lược và lặp lại cho đến khi đạt ngưỡng xác định. Mơ hình đề xuất sử dụng mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước trên các bộ dữ liệu tóm tắt đơn văn bản hướng tóm lược tương ứng.

- Mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS được huấn luyện trước trên các bộ dữ liệu tóm tắt đơn văn bản hướng tóm lược tương ứng đã đề xuất ở chương 4 (gọi là mơ hình pre-trained PG_Feature_ASDS).

- Mơ hình PG-MMR [147] áp dụng trong tóm tắt đa văn bản: Để tương thích với mơ hình tóm tắt đơn văn bản pre-trained PG_Feature_ASDS, mơ hình PG- MMR [147] được xử lý thêm các đặc trưng tần suất xuất hiện của từ TF và vị trí câu trong văn bản POSI.

Hình 5.7. Mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS

Đối với bộ giải mã, cần chia thành hai giai đoạn là: Huấn luyện mơ hình và sinh bản tóm tắt vì khi huấn luyện mơ hình ta sử dụng giá trị đầu ra thực tế làm đầu vào cho bộ giải mã, cịn sinh bản tóm tắt là giai đoạn sau khi đã huấn luyện xong mơ hình pre-trained PG_Feature_ASDS và sử dụng mơ hình này để dự đốn kết quả đầu ra. Do không biết được kết quả đầu ra thực tế như trong giai đoạn huấn luyện nên mơ hình sử dụng thuật tốn tìm kiếm Beam để tìm ra kết quả phù hợp nhất.

Các đặc trưng đề xuất thêm mới vào từng giai đoạn như sau:

- Giai đoạn huấn luyện mơ hình pre-trained PG_Feature_ASDS (mơ hình này là đầu vào cho phương pháp PG-MMR): Đề xuất thêm các đặc trưng tần suất xuất hiện của từ TF và vị trí câu POSI vào khi tính điểm chú ý của từ trong văn bản.

- Giai đoạn đánh giá mơ hình (xử lý bởi phương pháp PG-MMR): Thêm các đặc trưng TF, POSI và MMR để tính điểm chú ý áp dụng cho từng đơn văn bản trong siêu văn bản trước khi đưa vào thuật tốn tóm tắt đa văn bản.

Dựa trên thuật tốn tóm tắt của mơ hình trong [147], thuật tốn tóm tắt của mơ hình đề xuất được mơ tả dưới đây.

Thuật tốn 5.3: PG-MMR cho tóm tắt đa văn bản tóm lược Đầu vào:

- Dữ liệu đơn văn bản (SD); - Dữ liệu đa văn bản (MD);

Đầu ra: Bản tóm tắt của tập đa văn bản (Summary); Thuật toán:

1: Huấn luyện mơ hình Pointer – Generator với SD;

2: Tính tốn I(Si) và R(Si) tương ứng là các điểm độ quan trọng và độ dư thừa của các câu nguồn đầu vào Si  MD; 3: MMR(Si)  λI(Si) với tất cả các câu nguồn;

4: Summary  {};

5: t  chỉ số (index) của các từ trong bản tóm tắt; 6: While t < Lmax do //Lmax là độ dài tối đa bản tóm tắt; 7: Chọn k câu với điểm MMR cao nhất;

8: Tính

e tjnew

a

theo công thức (4.5), (4.6) và (5.10);

9: Chạy giải mã PG cho từng bước để nhận được {wt}; //w là bản tóm tắt Summary từ k câu

10: Summary  Summary + {wt}; //Summary là bản tóm tắt 11: If wt là ký hiệu kết thúc câu then

12: R(Si)  Sim(Si,Summary), i;

13: MMR(Si)  λI(Si) − (1 − λ)R(Si), i; 14: End if;

15: End While; 16: Return;

5.3.2.4. Mơ hình huấn luyện đề xuất

Trong q trình thử nghiệm mơ hình tóm tắt đa văn bản sử dụng mơ hình pre- trained PG_Feature_ASDS, nhận thấy các kết quả thu được của mơ hình chưa cao như mong muốn. Do đó, mơ hình đề xuất tinh chỉnh mơ hình pre-trained PG_Feature_ASDS bằng việc huấn luyện tiếp mơ hình pre-trained PG_Feature_ASDS trên các bộ dữ liệu tóm tắt đa văn bản tương ứng (các bộ dữ liệu tóm tắt đa văn bản được sử dụng để huấn luyện tiếp mơ hình khác biệt với các bộ dữ liệu sẽ sử dụng để đánh giá mơ hình). Các giai đoạn huấn luyện và đánh giá cho mơ hình tóm tắt đa văn bản hướng tóm lược được biểu diễn chi tiết như trong hình 5.8 dưới đây, bao gồm 3 giai đoạn:

(1) Giai đoạn 1: Huấn luyện mơ hình tóm tắt đơn văn bản hướng tóm lược ban đầu PG_Feature_ASDS để được mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước (mơ hình pre-trained PG_Feature_ASDS).

Mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trên bộ dữ liệu CNN/Daily Mail (tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) để được mơ hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước sử dụng cho mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất.

(2) Giai đoạn 2: Huấn luyện tiếp mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS trên các bộ dữ liệu tóm tắt đa văn bản tương ứng.

Do số lượng câu của bản tóm tắt tham chiếu của các bộ dữ liệu CNN/Daily Mail và Baomoi nhỏ nên mơ hình pre-trained PG_Feature_ASDS thường sinh ra bản tóm tắt có số lượng câu nhỏ nên độ dài của bản tóm tắt ngắn, trong khi các bộ dữ liệu sử dụng để đánh giá cho mơ hình tóm tắt đa văn bản (bộ dữ liệu DUC 2004 đối với tiếng Anh, Corpus_TMV đối với tiếng Việt) có bản tóm tắt tham chiếu dài hơn. Nhận thấy bộ dữ liệu DUC 2007 và DUC 2004 có các đặc điểm giống nhau nên mơ hình pre-trained PG_Feature_ASDS được đề xuất huấn luyện tiếp trên bộ dữ liệu DUC 2007 (tiếng Anh); bộ dữ liệu ViMs và Corpus_TMV có đặc điểm giống nhau nên mơ hình pre-trained PG_Feature_ASDS được đề xuất huấn luyện tiếp trên bộ dữ liệu ViMs (tiếng Việt) để sinh ra bản tóm tắt dài hơn và cải thiện chất lượng bản tóm tắt sinh ra.

(3) Giai đoạn 3: Đánh giá mơ hình tóm tắt đa văn bản hướng tóm lược.

Các văn bản của bộ dữ liệu DUC 2004 (tiếng Anh), Corpus_TMV (tiếng Việt) được sử dụng làm đầu vào cho mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS để sinh ra bản tóm tắt tóm lược cuối cùng.

Hình 5.8. Các giai đoạn huấn luyện mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS

5.3.2.5. Thiết kế thử nghiệm

a) Các bộ dữ liệu thử nghiệm sử dụng trong mơ hình

Mơ hình đề xuất được thử nghiệm trên các bộ dữ liệu với các mục đích như sau:

Đối với văn bản tiếng Anh

- Bộ dữ liệu CNN/Daily Mail: Sử dụng để huấn luyện mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS được sử dụng làm mơ hình tóm tắt được huấn luyện trước cho mơ hình đề xuất.

- Bộ dữ liệu DUC 2007: Sử dụng để huấn luyện tiếp mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS được huấn luyện trước.

- Bộ dữ liệu DUC 2004: Đây là bộ dữ liệu được sử dụng để đánh giá mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS cho tóm tắt văn bản tiếng Anh.

- Bộ dữ liệu Baomoi: Sử dụng để huấn luyện mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS được sử dụng làm mơ hình tóm tắt được huấn luyện trước cho mơ hình đề xuất.

- Bộ dữ liệu ViMs: Sử dụng để huấn luyện tiếp mơ hình tóm tắt đơn văn bản PG_Feature_ASDS được huấn luyện trước.

- Bộ dữ liệu Corpus_TMV: Đây là bộ dữ liệu được sử dụng để đánh giá mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS cho tóm tắt văn bản tiếng Việt.

b) Tiền xử lý dữ liệu

Các bộ dữ liệu văn bản đầu vào được tiền xử lý sử dụng thư viện Stanford

CoreNLP đối với tiếng Anh, thư viện VNCoreNLP đối với tiếng Việt. Trước hết,

các bộ dữ liệu thử nghiệm được xử lý tách lấy phần nội dung, loại bỏ các văn bản có độ dài ngắn, xóa các ký tự, từ đặc biệt mà khơng có nhiều ý nghĩa trong các văn

Một phần của tài liệu LATS-TuanLM (Trang 125 - 166)

Tải bản đầy đủ (DOCX)

(194 trang)
w