Mụ hỡnh túm tắt đa văn bản hướng túm lược dựa trờn mụ hỡnh túm

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 123 - 163)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

5.3. Cỏc mụ hỡnh túm tắt đa văn bản hướng túm lược dựa trờn mụ hỡnh

5.3.2. Mụ hỡnh túm tắt đa văn bản hướng túm lược dựa trờn mụ hỡnh túm

túm tắt đơn văn bản hướng túm lược được huấn luyện trước PG_Feature_AMDS

Để phỏt triển mụ hỡnh túm tắt đa văn bản hướng túm lược, trước hết G văn bản của tập văn bản nguồn đầu vào Dmul (D D1, 2,...,Di,....,DG) (mỗi văn bản DiH

cõu, H cú giỏ trị thay đổi tựy thuộc vào từng văn bản) được ghộp thành 1 văn bản lớn gọi là “siờu văn bản” và siờu văn bản này được coi như một đơn văn bản

'

11 12 1 21 22 2

( , ,..., , , ,..., ...., )

H H GH

D s s s s s s s gồm N’ cõu (với N’ là tổng số cõu của tập

văn bản đầu vào Dmul). Giả sử văn bản D' được viết lại thành

'

'

1 2

( , ,..., ,...., )

i H

D s s s s , với si là cõu thứ i trong văn bản D', H' là số lượng cõu của văn bản D'). Bờn cạnh đú, văn bản D' này cũng được biểu diễn dưới dạng

'

11 12 1 21 22 2

( , ,..., , , ,..., ,...., )

L L GL

D x x x x x x x (mỗi văn bản Di cú L từ, L cú giỏ trị thay đổi tựy thuộc vào từng văn bản) và được viết lại thành '

1 2

( , ,..., ,...., )

i J

D x x x x , với

i

x là từ thứ i trong văn bản D', J là số lượng từ của văn bản D'. Như vậy, để túm tắt đa văn bản Dmul ta đi túm tắt đơn văn bản D' và đõy chớnh là bài toỏn túm tắt đơn văn bản hướng túm lược cần giải quyết đối với văn bản D'. Sau đú, sử dụng mụ

hỡnh túm tắt đơn văn bản hướng túm lược đó đề xuất PG_Feature_ASDS ở chương 4 để túm tắt văn bản D' (lỳc này mụ hỡnh PG_Feature_ASDS được coi như mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước). Bản túm tắt túm lược của D' sinh ra gồm T từ được biểu diễn là Y ( ,y y1 2,..., ,....,yi yT) chớnh là bản túm tắt túm lược biểu diễn nội dung của tập đa văn bản đầu vào Dmul, với: yiDi hoặc

i i

y D (lỳc này từ được lấy từ bộ từ vựng).

Để tăng hiệu quả cho mụ hỡnh túm tắt đa văn bản, mụ hỡnh túm tắt đơn văn bản được huấn luyện trước PG_Feature_ASDS được tinh chỉnh bằng việc huấn luyện

tiếp trờn cỏc bộ dữ liệu thử nghiệm của bài toỏn túm tắt đa văn bản hướng túm lược tương ứng. Mụ hỡnh túm tắt đa văn bản hướng túm lược này được đặt tờn là mụ hỡnh

PG_Feature_AMDS. Mụ hỡnh đề xuất PG_Feature_AMDS được thử nghiệm trờn

cỏc bộ dữ liệu túm tắt đa văn bản tiếng Anh, tiếng Việt cho kết quả tốt và cú thể ỏp dụng hiệu quả cho túm tắt đa văn bản tiếng Anh và tiếng Việt.

5.3.2.2. Cỏc thành phần của mụ hỡnh

a) Mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước

Mụ hỡnh túm tắt đơn văn bản hướng túm lược đó đề xuất PG_Feature_ASDS ở chương 4 (Hỡnh 4.2) được sử dụng để phỏt triển mụ hỡnh túm tắt đa văn bản hướng túm lược. Mụ hỡnh này được xem như mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước (pre-trained PG_Feature_ASDS).

b) Cỏc đặc trưng đề xuất thờm mới cho mụ hỡnh

Đặc trưng vị trớ cõu (POSI)

Với văn bản đầu vào xx x x1, 2, 3,....,xJ cú H cõu, vộc tơ x được viết lại là

 11, 21, 31,...., 

J H

x x x x x ; trong đú: xjh là từ thứ j ở cõu thứ h. Từ vộc tơ x, ta xỏc

định được 1 vộc tơ cú độ dài bằng vộc tơ x biểu diễn vị trớ của cõu chứa từ đú:

1,1,1,..., , 

POSI

x h h .

dung sẽ tập trung ở cuối văn bản. Chớnh vỡ thế, mụ hỡnh sử dụng thờm đặc trưng vị trớ cõu xPOSI và xử lý cập nhật nõng trọng số chỳ ý của cỏc từ của cỏc cõu ở đầu văn bản lờn bằng cỏch chia trọng số chỳ ý của từ cho vị trớ cõu xPOSI tương ứng của nú.

Đặc trưng tần suất xuất hiện của từ

Với cỏc văn bản cú độ dài khỏc nhau, cú những từ xuất hiện nhiều trong cỏc văn bản dài thay vỡ xuất hiện trong cỏc văn bản ngắn nờn tần suất xuất hiện của từ t

trong văn bản d được tớnh theo cụng thức sau:  

f t ,d TF( t )

T

 ; trong đú: t là một từ trong văn bản d, f(t,d) là số lần xuất hiện của

t trong văn bản d, T là tổng số từ trong văn bản.

Với vộc tơ biểu diễn văn bản đầu vào xx11,x21,x31,....,xJ H; trong đú: xjh là từ thứ j ở cõu thứ h, ta xỏc định được vộc tơ biểu diễn TF là:

 ( 11), ( 21), ( 31),...., ( )

TF J H

x TF x TF x TF x TF x . Giỏ trị TF biểu diễn mức độ quan

trọng của từ trong văn bản nờn mụ hỡnh sử dụng thờm đặc trưng TF và xử lý cập

nhật nõng trọng số của từ lờn bằng cỏch nhõn trọng số chỳ ý của từ với xTF tương ứng để giỳp mụ hỡnh chỳ ý vào cỏc từ quan trọng.

Độ đo MMR

Điểm MMR thể hiện được độ tương đồng của từ với chủ đề văn bản và tớnh dư thừa thụng tin đối với bản túm tắt hiện cú.

Với vộc tơ biểu diễn văn bản đầu vào xx11,x21,x31,....,xJ H; trong đú: xjh là từ thứ j ở cõu thứ h, vộc tơ biểu diễn MMR được xỏc định là:

 

R  ( 11), ( 21), ( 31),...., ( )

MM J H

x MMR x MMR x MMR x MMR x

Tại thời điểm đỏnh giỏ mụ hỡnh, điểm MMR được đưa vào để tớnh giỏ trị phõn

bố chỳ ý.

Như vậy, giỏ trị phõn bố chỳ ý được tớnh lại sau khi thờm 3 đặc trưng mới như sau:

- Trong giai đoạn huấn luyện mụ hỡnh: Tớnh toỏn theo cụng thức (4.25) và cụng thức (4.8) ở trờn.

- Trong giai đoạn đỏnh giỏ mụ hỡnh: Tớnh toỏn theo cụng thức (5.9) dưới đõy và cụng thức (4.8) ở trờn.     ( ) tanh . .    T e d

align align j t align

e tj TF MMR POSI v W h h b s x x x (5.9) c) Phương phỏp PG - MMR

Phương phỏp PG – MMR [147] mụ tả khung lặp thực hiện túm tắt đa văn bản dưới dạng một siờu văn bản được kết hợp từ tập cỏc văn bản đầu vào để sinh ra bản túm tắt. Trong mỗi bước lặp, phương phỏp PG - MMR chọn ra k cõu cú điểm cao nhất dựa theo nguyờn tắc của phương phỏp MMR, k cõu này được sử dụng làm đầu vào cho mạng sinh từ - sao chộp từ để sinh ra một cõu túm tắt. Tiếp theo, điểm của cỏc cõu đầu vào được cập nhật lại dựa trờn độ tương đồng với cỏc cõu của văn bản đầu vào (độ quan trọng) và cỏc cõu đó túm tắt trong cỏc bước lặp trước (độ dư thừa). Cõu giống với cõu đó được sinh túm tắt trước đú hơn sẽ nhận điểm thấp hơn. Việc chọn k cõu thụng qua phương phỏp PG - MMR giỳp cho mụ hỡnh sinh từ - sao

chộp từ xỏc định được nội dung của cõu nguồn chưa đưa vào bản túm tắt, từ đú giải quyết được vấn đề trựng lặp thụng tin khi túm tắt văn bản dài.

Hỡnh 5.6. Minh họa phương phỏp PG-MMR (k=2) [147]

Để mụ hỡnh sinh từ - sao chộp từ hoạt động hiệu quả khi sử dụng k cõu nguồn chọn được để thực hiện túm tắt mà khụng cần huấn luyện lại mụ hỡnh, cỏc tham số được điều chỉnh trong quỏ trỡnh đỏnh giỏ như sau:

Giỏ trị phõn bố chỳ ý phụ thuộc vào k cõu được chọn: Nếu từ thuộc k cõu được chọn thỡ sẽ được tớnh theo cụng thức (4.8) ở chương 4, trong cỏc trường hợp cũn lại thỡ sẽ bằng 0 như sau: 0,       e tj e tjnew

, nếu từ j k câu được chọn trong các trường hợp còn lại

(5.10) Trong phương phỏp PG-MMR, cỏc cõu khụng được chọn gọi là cỏc cõu bị “tắt” (“mute”).

Độ tương đồng và độ dư thừa của cõu nguồn trong phương phỏp PG - MMR được tớnh toỏn theo cụng thức (2.44) của phương phỏp MMR đề xuất đó trỡnh bày ở chương 2.

5.3.2.3. Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất

Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất được trỡnh bày chi tiết trong Hỡnh 5.7.

Mụ hỡnh sử dụng phương phỏp MMR để trớch rỳt cỏc cõu đại diện từ siờu văn bản được kết hợp từ tập văn bản nguồn đầu vào và tận dụng mụ hỡnh mó húa - giải mó (ở đõy là mạng Pointer-Generator) để túm tắt cỏc cõu này thành bản túm tắt túm lược và lặp lại cho đến khi đạt ngưỡng xỏc định. Mụ hỡnh đề xuất sử dụng mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước trờn cỏc bộ dữ liệu túm tắt đơn văn bản hướng túm lược tương ứng.

Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất gồm 2 thành phần chớnh: - Mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được huấn luyện trước trờn cỏc bộ dữ liệu túm tắt đơn văn bản hướng túm lược tương ứng đó đề xuất ở chương 4 (gọi là mụ hỡnh pre-trained PG_Feature_ASDS).

MMR [147] được xử lý thờm cỏc đặc trưng tần suất xuất hiện của từ TF và vị trớ cõu trong văn bản POSI.

Hỡnh 5.7. Mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất PG_Feature_AMDS

Đối với bộ giải mó, cần chia thành hai giai đoạn là: Huấn luyện mụ hỡnh và sinh bản túm tắt vỡ khi huấn luyện mụ hỡnh ta sử dụng giỏ trị đầu ra thực tế làm đầu vào cho bộ giải mó, cũn sinh bản túm tắt là giai đoạn sau khi đó huấn luyện xong mụ hỡnh pre-trained PG_Feature_ASDS và sử dụng mụ hỡnh này để dự đoỏn kết quả đầu ra. Do khụng biết được kết quả đầu ra thực tế như trong giai đoạn huấn luyện nờn mụ hỡnh sử dụng thuật toỏn tỡm kiếm Beam để tỡm ra kết quả phự hợp nhất.

Cỏc đặc trưng đề xuất thờm mới vào từng giai đoạn như sau:

- Giai đoạn huấn luyện mụ hỡnh pre-trained PG_Feature_ASDS (mụ hỡnh này là đầu vào cho phương phỏp PG-MMR): Đề xuất thờm cỏc đặc trưng tần suất xuất hiện của từ TF và vị trớ cõu POSI vào khi tớnh điểm chỳ ý của từ trong văn bản.

- Giai đoạn đỏnh giỏ mụ hỡnh (xử lý bởi phương phỏp PG-MMR): Thờm cỏc đặc trưng TF, POSI và MMR để tớnh điểm chỳ ý ỏp dụng cho từng đơn văn bản

trong siờu văn bản trước khi đưa vào thuật toỏn túm tắt đa văn bản.

Dựa trờn thuật toỏn túm tắt của mụ hỡnh trong [147], thuật toỏn túm tắt của mụ hỡnh đề xuất được mụ tả dưới đõy.

Thuật toỏn 5.3: PG-MMR cho túm tắt đa văn bản túm lược Đầu vào:

- Dữ liệu đơn văn bản (SD); - Dữ liệu đa văn bản (MD);

Đầu ra: Bản túm tắt của tập đa văn bản (Summary); Thuật toỏn:

1: Huấn luyện mụ hỡnh Pointer – Generator với SD;

2: Tớnh toỏn I(Si) và R(Si) tương ứng là cỏc điểm độ quan

trọng và độ dư thừa của cỏc cõu nguồn đầu vào Si  MD; 3: MMR(Si)  λI(Si) với tất cả cỏc cõu nguồn;

4: Summary  {};

5: t  chỉ số (index) của cỏc từ trong bản túm tắt; 6: While t < Lmax do //Lmax là độ dài tối đa bản túm tắt; 7: Chọn k cõu với điểm MMR cao nhất;

8: Tớnh atjnewe theo cụng thức (4.5), (4.6) và (5.10);

9: Chạy giải mó PG cho từng bước để nhận được {wt}; //w

là bản túm tắt Summary từ k cõu

10: Summary  Summary + {wt}; //Summary là bản túm tắt

11: If wt là ký hiệu kết thỳc cõu then 12: R(Si)  Sim(Si,Summary), i;

13: MMR(Si)  λI(Si) − (1 − λ)R(Si), i; 14: End if;

15: End While; 16: Return;

5.3.2.4. Mụ hỡnh huấn luyện đề xuất

Trong quỏ trỡnh thử nghiệm mụ hỡnh túm tắt đa văn bản sử dụng mụ hỡnh pre- trained PG_Feature_ASDS, nhận thấy cỏc kết quả thu được của mụ hỡnh chưa cao như mong muốn. Do đú, mụ hỡnh đề xuất tinh chỉnh mụ hỡnh pre-trained PG_Feature_ASDS bằng việc huấn luyện tiếp mụ hỡnh pre-trained PG_Feature_ASDS trờn cỏc bộ dữ liệu túm tắt đa văn bản tương ứng (cỏc bộ dữ liệu túm tắt đa văn bản được sử dụng để huấn luyện tiếp mụ hỡnh khỏc biệt với cỏc bộ dữ liệu sẽ sử dụng để đỏnh giỏ mụ hỡnh). Cỏc giai đoạn huấn luyện và đỏnh giỏ cho mụ hỡnh túm tắt đa văn bản hướng túm lược được biểu diễn chi tiết như trong hỡnh 5.8 dưới đõy, bao gồm 3 giai đoạn:

(1) Giai đoạn 1: Huấn luyện mụ hỡnh túm tắt đơn văn bản hướng túm lược ban đầu PG_Feature_ASDS để được mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước (mụ hỡnh pre-trained PG_Feature_ASDS).

Mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trờn bộ dữ liệu CNN/Daily Mail (tiếng Anh) và bộ dữ liệu Baomoi (tiếng Việt) để được mụ hỡnh túm tắt đơn văn bản hướng túm lược được huấn luyện trước sử dụng cho mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất.

(2) Giai đoạn 2: Huấn luyện tiếp mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS trờn cỏc bộ dữ liệu túm tắt đa văn bản tương ứng.

Do số lượng cõu của bản túm tắt tham chiếu của cỏc bộ dữ liệu CNN/Daily Mail và Baomoi nhỏ nờn mụ hỡnh pre-trained PG_Feature_ASDS thường sinh ra bản túm tắt cú số lượng cõu nhỏ nờn độ dài của bản túm tắt ngắn, trong khi cỏc bộ dữ liệu sử dụng để đỏnh giỏ cho mụ hỡnh túm tắt đa văn bản (bộ dữ liệu DUC 2004 đối với tiếng Anh, Corpus_TMV đối với tiếng Việt) cú bản túm tắt tham chiếu dài hơn. Nhận thấy bộ dữ liệu DUC 2007 và DUC 2004 cú cỏc đặc điểm giống nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS được đề xuất huấn luyện tiếp trờn bộ dữ liệu DUC 2007 (tiếng Anh); bộ dữ liệu ViMs và Corpus_TMV cú đặc điểm giống nhau nờn mụ hỡnh pre-trained PG_Feature_ASDS được đề xuất huấn luyện tiếp trờn bộ dữ liệu ViMs (tiếng Việt) để sinh ra bản túm tắt dài hơn và cải thiện chất lượng bản túm tắt sinh ra.

(3) Giai đoạn 3: Đỏnh giỏ mụ hỡnh túm tắt đa văn bản hướng túm lược.

Cỏc văn bản của bộ dữ liệu DUC 2004 (tiếng Anh), Corpus_TMV (tiếng Việt) được sử dụng làm đầu vào cho mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất PG_Feature_AMDS để sinh ra bản túm tắt túm lược cuối cựng.

Hỡnh 5.8. Cỏc giai đoạn huấn luyện mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất PG_Feature_AMDS

5.3.2.5. Thiết kế thử nghiệm

a) Cỏc bộ dữ liệu thử nghiệm sử dụng trong mụ hỡnh

Mụ hỡnh đề xuất được thử nghiệm trờn cỏc bộ dữ liệu với cỏc mục đớch như sau:

Đối với văn bản tiếng Anh

- Bộ dữ liệu CNN/Daily Mail: Sử dụng để huấn luyện mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được sử dụng làm mụ hỡnh túm tắt được huấn luyện trước cho mụ hỡnh đề xuất.

- Bộ dữ liệu DUC 2007: Sử dụng để huấn luyện tiếp mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được huấn luyện trước.

- Bộ dữ liệu DUC 2004: Đõy là bộ dữ liệu được sử dụng để đỏnh giỏ mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất PG_Feature_AMDS cho túm tắt văn bản tiếng Anh.

Đối với văn bản tiếng Việt

- Bộ dữ liệu Baomoi: Sử dụng để huấn luyện mụ hỡnh túm tắt đơn văn bản hướng túm lược PG_Feature_ASDS được sử dụng làm mụ hỡnh túm tắt được huấn luyện trước cho mụ hỡnh đề xuất.

- Bộ dữ liệu ViMs: Sử dụng để huấn luyện tiếp mụ hỡnh túm tắt đơn văn bản PG_Feature_ASDS được huấn luyện trước.

- Bộ dữ liệu Corpus_TMV: Đõy là bộ dữ liệu được sử dụng để đỏnh giỏ mụ hỡnh túm tắt đa văn bản hướng túm lược đề xuất PG_Feature_AMDS cho túm tắt

văn bản tiếng Việt.

b) Tiền xử lý dữ liệu

Cỏc bộ dữ liệu văn bản đầu vào được tiền xử lý sử dụng thư viện Stanford CoreNLP đối với tiếng Anh, thư viện VNCoreNLP đối với tiếng Việt. Trước hết,

cỏc bộ dữ liệu thử nghiệm được xử lý tỏch lấy phần nội dung, loại bỏ cỏc văn bản cú độ dài ngắn, xúa cỏc ký tự, từ đặc biệt mà khụng cú nhiều ý nghĩa trong cỏc văn bản, lấy từ gốc đối với dữ liệu tiếng Anh để giảm kớch thước của bộ từ vựng và cải

Một phần của tài liệu (Luận án tiến sĩ) nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 123 - 163)