Tóm tắt văn bản tự động

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt (Trang 32 - 33)

Do sự bùng nổ của các văn bản điện tử trực tuyến, trong suốt thập kỷ qua, có rất nhiều nghiên cứu thú vị về tóm tắt văn bản tự động. Một số ứng dụng ban đầu đã được ghi nhận. Ví dụ, Google cung cấp một bản tóm tắt ngắn gọn cho mỗi tài liệu được lưu trữ ở dạng rời rạc có liên quan đến truy vấn từ. Một ví dụ khác là NewsInEssence (http://www.newsinessence.com/) có thể tóm tắt tin bài từ nhiều nguồn tin bài khác nhau.

Có hai nhóm phương pháp tóm tắt tự động chính: phương pháp thống kê và phương pháp ngôn ngữ. Phương pháp thống kê được sử dụng rộng rãi vì nó không phụ thuộc vào thể loại tài liệu. Luhn (Luhn, 1958) là người đầu tiên phát triển phương pháp này dựa trên tần số của từ. Các nhà nghiên cứu sau đó mở rộng cách làm việc của Luhn để xử lý với nhiều thuộc tính hơn, ví dụ như tiêu đề (Edmundson,1969), vị trí câu (Hovy & Lin, 1997), cụm từ chỉ thị (Hovy & Lin, 1997), chiều dài câu (Kupiec, Pedersen, & Chen, 1995) v.v. Các phương pháp ngôn ngữ đưa ra một cách tóm tắt khác. Các phương pháp điển hình bao gồm cấu trúc luận (Mann & Thompson, 1988; Marcu, 1999), và chuỗi từ vựng (Barzilay & lhadad,1997).

Gần đây, khả năng thu thập được một số lượng lớn các tài liệu trực tuyến nên nhu cầu cho tóm tắt đa văn bản (Multi-Document Summarization - MDS) ngày càng tăng. Thay vì chỉ tập trung các tài liệu duy nhất, MDS được thực hiện để xử lý nhiều tài liệu có liên quan với nhau, ví dụ như các tin bài liên quan đến một sự kiện từ nhiều nguồn khác nhau. Hướng tiếp cận tóm tắt đa văn bản phổ biến nhất là tổng hợp theo nhóm. Cách tiếp cận tổng hợp theo nhóm đầu tiên phân chia một tập tài liệu vào trong một số nhóm tài liệu hoặc nhóm các câu không chồng chéo. Việc tổng hợp sau đó được thực hiện một cách riêng biệt trong mỗi nhóm. Hạn chế của phương pháp tiếp cận tổng hợp theo nhóm khi áp dụng trong phạm vi đánh giá của khách hàng như sau:

- Số lượng các cụm rất khó xác định mà không có kiến thức trước từ tập các nhận xét. Cách lựa chọn số lượng không phù hợp chắc chắn sẽ đưa vào những thông tin không cần thiết và làm giảm hiệu quả.

- Trong tổng hợp theo nhóm, tập tài liệu được chia vào các cụm không chồng chéo, mỗi cụm được giả sử là thảo luận về một chủ đề. Tuy nhiên, trong một thế giới thực tập hợp các đánh giá, các chủ đề thường bị trùng lặp với nhau

nhau. Mỗi chủ đề có liên quan đến các đánh giá khác nhau. Tương tự như vậy, mỗi đánh giá trong một tập các thảo luận về một số chủ đề thay vì chỉ một chủ đề, bởi vì khách hàng thường nhận xét về các khía cạnh khác nhau của một sản phẩm hơn là chỉ tập trung vào một khía cạnh.

Để giải quyết những hạn chế của phương pháp tổng hợp theo nhóm, luận văn này tập trung vào cách tiếp cận tổng hợp dựa trên cấu trúc chủ đề của các đánh giá.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(51 trang)