Một số hệ thống tóm tắt văn bản trên thế giới

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 56 - 60)

c. Mô hình tập thô dung sai

3.4.Một số hệ thống tóm tắt văn bản trên thế giới

Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng dụng tóm tắt văn bản. Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác nhau. Có thể kể ra một số ứng dụng Tóm tắt văn bản tiêu biểu như sau :

SUMMARIST

Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc). Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp và Indonesia.

SweSUM

Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công nghệ hoàng gia Thụy Điển. SweSUM có thể tóm tắt các văn bản có ngôn ngữ vùng Scandinavi như Thụy

Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nha và cả tiếng Iran.

Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ

SumUM

Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada. SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt..

FJCL

Hệ thống Rút trích văn bản tiếng Nhật được phát triển trong phòng nghiên cứu Ikeda của trường đại học Gifu. Đây là một hệ thống sử dụng các phương pháp áp dụng cho hệ ngôn ngữ đơn âm tiết (monosyllabic language system) như tiếng Nhật, Hàn Quốc, Trung Quốc và Việt Nam.

Pertinence Summarizer

Hệ thống tóm tắt tin tức đa ngôn ngữ trực tuyến nổi tiếng. Hiện tại để thử nghiệm khả năng của mình, Pertinence đã được tích hợp với Google và tóm tắt tự động

danh sách tìm kiếm trả về từ Google thông qua câu truy vấn đưa vào. Chúng ta có thể thử nghiệm hệ thống này trên trang web : www.pertinence.net .

MEAD

Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ. Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt văn bản cho ngôn ngữ mà ta muốn. Ngoài ra MEAD cũng cung cấp các công cụ để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng. MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của Tổ chức Khoa học quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07..

Microsoft Word AutoSummary

Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft Word từ phiên bản Word '97. Chúng ta có thể thử bằng cách chọn Tools - AutoSummarize trên thanh công cụ (có thể khác tùy vào phiên bản). Công cụ này cho phép chúng ta chọn thông số về độ rút gọn, trích rút hay sinh tiêu đề...

Ngoài ra còn các hệ thống Tóm tắt văn bản nổi tiếng khác như ANES hay SUMMONS. Tuy nhiên tại Việt Nam hiện nay chưa có một nghiên cứu và ứng dụng Tóm tắt văn bản chính thức nào.

3.5. Kết chương

Như vậy, một ứng dụng tóm tắt văn bản thường đi qua ba pha chính : Ở pha phân tích, các câu quan trọng, chứa đựng ý chính sẽ được chọn ra thông qua các phương pháp trích rút. Sang pha Biến đổi, các câu này sẽ được rút gọn từng câu một, kết quả ta sẽ được một mảng các câu quan trọng và ngắn gọn. Ở pha Hiển thị cuối cùng, dựa trên các thông tin ban đầu về liên kết giữa các đoạn và câu, chúng ta sinh ra văn bản mới, là phiên bản rút gọn của văn bản đầu vào.

Một ứng dụng Rút trích chỉ gồm hai pha : pha Phân tích và Pha Hiển thị. Trong đó, qua pha Hiển thị, các câu quan trọng được xếp lại theo thứ tự ban đầu, không có liên kết về cú pháp và ngữ nghĩa. Điều này sẽ nảy sinh một số vấn đề về độ dễ đọc dễ hiểu của văn bản kết quả. Một ứng dụng Tóm lược, ngược lại, thực hiện các công việc của cả ba pha, và đạt được kết quả mang tính tự nhiên hơn.

Ngoài ra, việc đánh giá tóm tắt là một công việc vô cùng quan trọng, là một phần không thể thiếu trong khi cài đặt các giải thuật và xây dựng ứng dụng tóm tắt cũng đã được em đề cập đến bằng những khái niệm cơ bản nhất.

Thông qua những tìm hiểu và nghiên cứu về bài toán Tóm tắt văn bản và các đặc trưng ngôn ngữ của tiếng Việt, em quyết định sẽ xây dựng một hệ Tóm lược văn bản tiếng Việt tự động. Chương sau sẽ nói rõ hơn về các thuật toán cài đặt các vấn đề lý thuyết cơ bản mà em đã nêu ra ở những chương trước và việc tích hợp các module Phân tích, Biến đổi, Hiển thị thành một ứng dụng Tóm lược hoàn chỉnh.

Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT

Chương này em xin trình bày về VTAS. Ứng dụng Tóm lược văn bản tiếng Việt. VTAS được cài đặt các thuật toán hiện thực hóa các vấn đề lý thuyết đã nêu ở các chương trước:

 Vấn đề tiền xử lý và mô hình hóa văn bản.

 Chọn câu quan trọng và rút gọn các câu này theo các phương pháp khác nhau, hiển thị kết quả.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 56 - 60)