Giới thiệu bài tốn tóm tắt đa văn bản và hướng tiếp cận

Một phần của tài liệu LATS-TuanLM (Trang 108 - 109)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

5.1. Giới thiệu bài tốn tóm tắt đa văn bản và hướng tiếp cận

Ngày nay, khối lượng tin tức được cung cấp trên mạng Internet rất lớn. Có nhiều tin tức đề cập đến cùng một chủ đề với một số chi tiết sửa đổi. Nhu cầu tóm tắt tất cả các tin tức này để có thơng tin ngắn gọn về chủ đề được đặt ra và tóm tắt đa văn bản là một giải pháp cho vấn đề này. Tóm tắt đa văn bản với mục đích tạo ra một bản tóm tắt duy nhất mang đầy đủ thơng tin của tất cả các văn bản nguồn, bản tóm tắt phải tránh sự trùng lặp thơng tin giữa các văn bản có cùng nội dung. Ngồi ra, vấn đề thiếu dữ liệu thử nghiệm cho bài tốn tóm tắt đa văn bản cũng gây ra nhiều khó khăn. Có thể nói, thách thức của tóm tắt đa văn bản đặt ra lớn hơn rất nhiều so với bài tốn tóm tắt đơn văn bản. Bài tốn tóm tắt đa văn bản có thể được chia thành 2 loại được phát biểu như sau:

Bài tốn tóm tắt đa văn bản hướng trích rút: Cho tập đa văn bản gồm G văn

bản liên quan đến cùng chủ đề được biểu diễn là Dmul ( ,D D1 2,..., ,....,Di DG); trong đó: Di là văn bản thứ i trong tập đa văn bản. Mỗi văn bản Di gồm H câu

1 2

( , ,..., ,...., )

i i i ij iH

D s s s s , trong đó: sij là câu thứ j của văn bản Di trong tập đa văn

văn bản hướng trích rút là tạo ra một bản tóm tắt ngắn gọn S từ tập văn bản Dmul gồm M câu được biểu diễn là S ( , ,..., ,....,s s1' 2' si' sM' ) (với M < Tổng số câu của tập đa văn bản Dmul), trong đó: si'�D jj, 1,G. Để giải quyết bài tốn tóm tắt đa văn

bản hướng trích rút này, luận án tiếp cận theo hướng đưa bài tốn tóm tắt đa văn bản hướng trích rút về bài tốn phân cụm văn bản và giải quyết các thách thức đặt ra của bài tốn tóm tắt đa văn bản. Phương pháp tóm tắt đa văn bản hướng trích rút đề xuất được trình bày chi tiết trong phần 5.2 dưới đây.

Bài tốn tóm tắt đa văn bản hướng tóm lược: Cho tập đa văn bản Dmul gồm G

văn bản liên quan đến cùng chủ đề được biểu diễn là Dmul ( ,D D1 2,..., ,....,Di DG); trong đó: Di là văn bản thứ i trong tập đa văn bản. Mỗi văn bản Di được biểu diễn

dưới dạng là Di ( ,x xi1 i2,..., ,....,xij xiL), với: xij là từ thứ j của văn bản Di, L là số

lượng từ của văn bản Di có giá trị thay đổi tùy thuộc vào từng văn bản. Bản tóm tắt

tóm lược S của tập đa văn bản Dmul được sinh ra gồm T từ được biểu diễn là 1 2

( , ,..., ,...., )

i T

Y y y y y ; với: i1,T,yiDi hoặcyiDi (lúc này từ được lấy từ bộ

từ vựng). Để giải quyết bài tốn tóm tắt đa văn bản hướng tóm lược, luận án triển khai tiếp cận theo hai phương pháp là:

- Phương pháp 1: Đưa bài tốn tóm tắt đa văn bản hướng tóm lược về bài tốn tóm tắt đơn văn bản hướng tóm lược bằng cách ghép các văn bản trong tập đa văn bản thành một “siêu văn bản”, siêu văn bản này được coi như đơn văn bản và áp dụng các kỹ thuật tóm tắt đơn văn bản hướng tóm lược đã đề xuất để sinh bản tóm tắt tóm lược cuối cùng.

- Phương pháp 2: Đưa bài tốn tóm tắt đa văn bản hướng tóm lược về bài tốn tóm tắt đơn văn bản hướng tóm lược bằng cách tóm tắt từng đơn văn bản của tập đa văn bản để được bản tóm tắt, sau đó ghép các bản tóm tắt này thành một “siêu văn bản”. Siêu văn bản này được coi như một đơn văn bản và áp dụng các kỹ thuật tóm

tắt đơn văn bản hướng tóm lược đã đề xuất để sinh bản tóm tắt tóm lược cuối cùng. Hai phương pháp tóm tắt đa văn bản hướng tóm lược này sẽ được trình bày trong phần 5.3.

Một phần của tài liệu LATS-TuanLM (Trang 108 - 109)

Tải bản đầy đủ (DOCX)

(194 trang)
w