Độ tương đồng ngữ nghĩa giữa câu và ứng dụng trong tóm tắt văn bản tự động

MỤC LỤC

Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản

Bài toán tóm tắt văn bản

Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào. Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể và tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể. Với cách phân loại này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng văn bản quy định.

Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu. Những hệ thống này được biết như các hệ thống multi- document summarization.Tóm tắt nhiều nguồn văn bản dựa trên việc nối nhiều văn bản với nhau. Tóm tắt general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản mà nội dung của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó.

Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó. Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (ví dụ : .doc, .txt)… Những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt cho văn bản đơn. Quá trình tóm tắt cụ thể sẽ xét mối liên hệ, sự tương đồng giữa các thành phần trong văn bản với câu truy vấn để tìm ra các phần quan trọng trong văn bản.

Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau. Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt.

Các phương pháp tóm tắt văn bản đơn

Những thông tin trong văn bản có thể là tần số từ trong văn bản, đầu đề của văn bản, vị trí câu, cụm từ gợi ý, … Trích rút các phần quan trọng trong văn bản là kỹ thuật phổ biến được sử dụng trong tóm tắt văn bản. Phương pháp dựa trên cơ sở giả thiết rằng: tần số của từ xuất hiện trong bài báo là một độ đo hữu ích về nghĩa của từ; vị trí tương đối của các từ có nghĩa trong phạm vi một câu cũng là độ đo hữu ích về nghĩa của từ. Phương pháp tóm tắt của Edmundson [11] dựa vào kỹ thuật trích rút các phần quan trọng văn bản sử dụng tổng hợp bốn thông tin gồm: các cụm từ gợi ý, từ khóa, title và vị trí của câu.

Edmundson là người đầu tiên chỉ ra các từ trong title và heading thường xuất hiện nhiều trong các câu quan trọng hơn các câu không quan trọng. Phương pháp đơn giản là dựa trên giả thiết rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn các câu xuất hiện ở giữa hoặc cuối văn bản. Mặc dù hiệu suất của phương pháp này phụ thuộc vào kiểu văn bản và tỉ lệ tóm tắt, phương pháp vẫn có khả năng nhận dạng khoảng 33% các câu quan trọng trong văn bản [9].

Từ ví dụ trên, phương pháp trích rút phần quan trọng trong văn bản sử dụng thông tin vị trí câu đòi hòi: Các câu quan trọng được đặt ở các vị trí “phụ thuộc vào kiểu văn bản”; những vị trí này có thể đuợc tìm thấy tự động thông qua việc huấn luyện [19]. Mục tiêu của tóm tắt văn bản là lấy thông tin, trích rút nội dung và biểu diễn những nội dung quan trọng nhất cho người sử dụng theo một form nào đó. - Bước đầu tiên, tạo ra các câu giả bi-gram bằng cách tổ hợp hai câu kề nhau (adjacent) để giải quyết vấn đề rời rạc đặc trưng (feature sparseness); vấn đề này xuất hiện nếu tóm tắt văn bản trích chọn đặc trưng chỉ từ một câu.

- Ở bước thứ hai, chia các câu giả bi-gram thành mỗi câu đơn gốc và biểu diễn trích chọn các câu quan trọng bằng phương pháp Aggregation Similarity. Bởi vì phương pháp Aggregation Similarity (độ tương đồng kết hợp) ước lượng các phần quan trọng nhất của câu bằng việc tính toán độ tương đồng của tất cả các câu khác trong một tài liệu, phương pháp Aggregation Similarity hiệu quả hơn sau khi xóa bỏ đi các câu nhiễu. Trọng số của một câu được tính bằng tổng độ tương đồng của câu đó với tất cả các vectors câu khác trong mô hình không gian vector tài liệu.

Để xác định hiệu quả của phương pháp tổ hợp hai bước, bài báo [13] so sánh hiệu suất của phương pháp tổ hợp hai bước với các phương pháp khác như Title, Location, và DOCUSUM.

Hình 2. Giá trị trung bình của các phương pháp [11]

Độ tương đồng câu và phương pháp tính độ tương đồng câu

Phương pháp để đo độ tương đồng câu

Về mặt cấu trúc, một đoạn văn bản gồm nhiều câu, mỗi câu được tạo thành bởi một chuỗi các từ mang các thông tin cần thiết. - Dựa vào tập từ chung đồng thời sử dụng wordnet ta sẽ ước tính được độ tương đồng về ngữ nghĩa cho các từ trong mỗi câu với tập từ chung .Từ đó đưa ra được vector ngữ nghĩa cho hai câu. Vì một đoạn văn bản gồm nhiều câu và mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữ nghĩa khi xét cho một văn bản.

Độ tương tự giữa các từ có ý nghĩa trong các bài toán trích chọn thông tin từ corpus và trong NLP được dùng để hỗ trợ cho việc biên soạn các từ điển từ đồng nghĩa. Ví dụ đối với hai từ boy và teacher, khi xét mối quan hệ giữa 2 từ này trên tập corpus wordnet ta có thể xây dựng được một cấu trúc cây thể hiện mối quan hệ ngữ nghĩa giữa hai từ thông qua các nút khác như trong hình vẽ. Sự giống nhau về toàn bộ câu được định nghĩa là sự kết hơp giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu.

Mục tiêu chính là làm thế nào để thu được lợi từ các nguồn tài nguyên lớn của dữ liệu trực tuyến nhằm tăng tính ngữ nghĩa trong việc tính độ tương đồng câu. Phương pháp tiếp cận vấn đề dựa trên cơ sở các nghiên cứu thành công gần đây của mô hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) … Ý tưởng cơ bản của mô hình là với mỗi lần học, ta tập hợp một tập dữ liệu lớn được gọi là “Universal dataset” và xây dựng một mô hình học trên cả dữ liệu học và một tập giàu các topic ẩn được tìm ra từ tập dữ liệu đó. Về bản chất, LDA là một mô hình Bayesian 3 cấp (three-level hierarchical Bayes model: corpus level, document level, word level) trong đó mỗi phần của một tập hợp được mô hình như một mô hình trộn hữu hạn trên cơ sở tập các xác suất topic.

Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi 1, các tham số tương ứng với các topic và term mới tăng lên 1. Với mỗi câu, sau khi inference topic sẽ nhận được các phân phối xác suất của topic trên câu và phân phối xác suất của từ trên topic. Ở đây, không cần phải tìm phân phối xác suất từ đối với topic vì ở mức P(topic|câu), kết quả tóm tắt mang tính ngữ nghĩa bao quát hơn.

Với hai câu thứ i và j, chúng ta sử dụng độ đô cosine để tính độ tương đồng giữa hai câu đã được làm giàu với Hidden Topic.

Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16]

Đề xuất mô hình tóm tắt và kết quả thực nghiệm

Đề xuất mô hình tóm tắt

- Dựa vào một ngưỡng tỷ lệ tóm tắt cho trước, chọn ra được một số lượng các câu có trọng số cao nhất.

1 người VN mất tiền vì 'nước thần'

Áp dụng quy trình tóm tắt ở mục 4.1, tính được độ tương đồng lần lượt giữa các câu trong văn bản và trọng số của từng câu. Đầu năm nay, anh chàng này đã dạy một người Việt Nam cách làm giàu chỉ qua một đêm. Theo cách làm này, một số tiền mặt được xếp chung với một lượng giấy trắng, nhúng vào một chất lỏng đặc biệt để qua đêm.”.

Sau khi nghe theo lời khuyên, nạn nhân đã mất sạch cả tiền mặt và mất luôn dấu vết của "thầy phù thủy" khi thức dậy vào sáng hôm sau. Từ thực nghiệm, có thể thấy rằng, mô hình tóm tắt sử dụng Hidden Topic cho kết quả khả quan mặc dù các câu trả về vẫn chưa thể hiện ngữ nghĩa một cách súc tích ngắn gọn. Tỷ lệ trích rút sẽ chỉ ra số lượng câu được chọn cho văn bản tóm tắt.

Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic]