Bài toán tóm tắt văn bản

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 32)

Tóm tắt văn bản chính thức được nghiên cứu lần đầu tiên vào năm 1958 bởi Luhn (1958) [57], tiếp theo đó là Edmundson (1969) [28]. Tóm tắt văn bản được quan tâm và nghiên cứu tích cực trong những năm gần đây cùng với sự bùng nổ thông tin trên web. Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn (hoặc nhiều nguồn) và tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể, cho người dùng cụ thể [60]. Tóm tắt văn bản có thể áp dụng cho từng văn bản lẫn tập văn bản (các văn bản cùng chung chủ đề). Tóm tắt tập văn bản có độ phức tạp cao hơn rất nhiều so với tóm tắt từng văn bản vì phải giải quyết nhiều vấn đề như: chi phí thuật toán, thông tin phải được tổng hợp, chọn lọc từ nhiều văn bản và phải đảm bảo tính súc tích, cô đọng, không trùng lắp thông tin.

Nội dung của bản tóm tắt phụ thuộc vào nhu cầu của người dùng. Bản tóm tắt theo truy vấn tập trung vào câu truy vấn của người dùng và rút trích các thông tin liên quan đến câu truy vấn này từ văn bản. Ngược lại bản tóm tắt tổng quát cố gắng bao quát đầy đủ các nội dung và bảo toàn cấu trúc chung của văn bản gốc.

Bản tóm tắt có thể có dạng trích lược (extract) hoặc tóm lược (abstract). Bản tóm tắt dạng trích lược gồm tập các câu từ văn bản gốc. Trong bản tóm tắt dạng tóm lược, nội dung của văn bản gốc được viết lại, có thể chứa những câu hoàn toàn mới so với văn bản gốc, những câu ngắn gọn hơn, trau chuốt hơn nhưng vẫn chuyển tải đầy đủ nội dung của tài liệu. Mặc dù các bản tóm tắt do người dùng biên soạn thường không ở dạng trích lược, nhưng phần lớn các nghiên cứu hiện này đều tập trung vào tóm tắt theo dạng trích lược. Tóm lược văn bản đòi hỏi nhiều ở những tri thức chuyên sâu và

liên quan đến ngôn ngữ học, mà đặc biệt là các thành tựu của lĩnh vực xử lý ngôn ngữ tự nhiên. Đó là lý do khiến bản tóm lược hiện nay chưa đạt kết quả tốt như bản trích lược. Thật sự bài toán tóm tắt dạng trích lược chưa đạt đến mức độ hoàn chỉnh và các nghiên cứu đi theo hướng này còn hạn chế. Các công cụ tóm lược hiện tại thường dựa trên các thành phần trích lược đã xử lý trước. Kết quả đầu ra của quá trình trích lược sẽ được cắt, dán hay tổng hợp và tạo ra bản tóm lược [44], [49], [97].

Bài toán tóm tắt văn bản hiện nay thường có khuynh hướng nghiêng về dạng trích lược và sẽ được trình bày kỹ trong phần tiếp theo dưới đây. Mục đích của tóm tắt dạng trích lược là xác định và lựa chọn các câu quan trọng nhất trong văn bản để tạo thành bản tóm tắt. Từ đây trở đi, trong luận án sẽ gọi bản tóm tắt dạng trích lược là bản tóm tắt. Có thể phân loại các phương pháp tóm tắt dạng trích lược theo các tiếp cận: sử dụng đặc trưng ngôn ngữ [66], [70], đặc trưng Heuristic [28], [57], thống kê [29], [50], [79] và kết hợp của các phương pháp trên [33], [83], [46].

Trong các tiếp cận này, mặc dù phương pháp sử dụng đặc trưng Heuristic được nghiên cứu từ những năm 50 nhưng ý tưởng đó vẫn còn được sử dụng rộng rãi tại thời điểm hiện nay. Từ những năm 90 đến nay, các hướng tiếp cận khác dựa trên thống kê, các phương pháp máy học và lý thuyết đồ thị trở thành tiêu điểm của các nghiên cứu, đạt được nhiều kết quả khả quan và trở thành hướng tiếp cận chính cho bài toán tóm tắt dạng trích lược.

Đánh giá chất lượng bản tóm tắt là vấn đề khá khó khăn và phức tạp. Một bản tóm tắt đạt yêu cầu khi nó thỏa các điều kiện sau: chuyển tải được toàn bộ nội dung chính của văn bản một cách gãy gọn, thể hiện phải mạch lạc, không bị trùng lắp hay dư thừa thông tin. Nhưng làm sao đánh giá được những tiêu chí này thì vẫn còn là một câu hỏi khó. Một số phương pháp đánh giá đã được đề xuất như đánh giá dựa trên độ tương tự về nội dung (độ đo cosine), đánh giá dựa trên độ chính xác (Precision), độ bao phủ (Recall). Độ chính xác là phần trăm số câu của bản tóm tắt cần đánh giá trùng với bản tóm tắt chuẩn, còn độ bao phủ là tỷ lệ giữa số câu trùng nhau với số câu

Gần đây, các tác giả [54] đã xây dựng công cụ ROUGE (Recall Oriented Understudy for Gisting Evaluation), một công cụ đánh giá tóm tắt sử dụng phương pháp n-gram. Ý tưởng chính là xác định sự tương tự giữa các bản tóm tắt dựa trên số lượng n-gram trùng nhau. Đây là phương pháp đánh giá tự động có độ chính xác cao, độc lập ngôn ngữ và gần như tương đồng với đánh giá của con người. Công cụ ROUGE được sử dụng phổ biến trong các nghiên cứu về tóm tắt văn bản trên thế giới (xem Phụ lục A.3).

Phần dưới đây sẽ trình bày chi tiết phương pháp tóm tắt sử dụng Heuristic và các phương pháp khác. Nhiều kỹ thuật tóm tắt khác được khảo sát trong [60], [86] và tổng quan các hệ thống tóm tắt cùng với đặc trưng và kỹ thuật sử dụng có thể xem trong [13].

Một phần của tài liệu Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng (Trang 32)

Tải bản đầy đủ (PDF)

(162 trang)