Nhận xét, đánh giá

Về mặt chất lượng văn bản tĩm tắt:

Theo kết quả đánh giá khi sử dụng độ đo ROUGE ta thấy rằng những văn bản đầu ra của hệ thống đã cĩ sự đồng nhất khá lớn đối với văn bản tĩm tắt mẫu.

Bằng trực quan, khi trực tiếp quan sát các văn bản đầu ra của hệ thống thì thực tế đối với mục đích trơi chảy thì các văn bản đầu ra của hệ thống cịn cĩ nhiều hạn chế bởi cách thức tĩm tắt là trích rút câu nên các câu được trích rút cịn rời rạc chưa cĩ sự liên kết chặt chẽ về mặt ngữ nghĩa, nhưng với mục đích tĩm gọn nội dung thì văn bản tĩm tắt đã đáp ứng khá tốt.

Về mặt thời gian

Hệ thống tĩm tắt cĩ thời gian chạy chậm, do một số thuật tốn chưa được tối ưu. Thời gian chạy của hệ thống tỷ lệ thuận với độ dài của văn bản đầu vào.

Khả năng ứng dụng của hệ thống

Hệ thống cĩ khả năng thực hiện tĩm tắt hiệu quả đối với các văn bản ngắn và trung bình như các bài báo, tin tức trên Internet.

Hệ thống cĩ thể được tích hợp trong các cơng cụ thu thập thơng tin dạng văn bản để cĩ thể đưa ra được nhiều thơng tin chính xác tới người dùng.

KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết luận

Cĩ thể thấy bài tốn TTVB là bài tốn cĩ giá trị ứng dụng rất lớn. Với sự phát triển của các kho dữ liệu khổng lồ và các kỹ thuật nâng cao khả năng tính tốn của máy mĩc, các ứng dụng của TTVB sẽ được thực hiện ngày càng nhiều hơn theo nhu cầu của con người. Các kỹ thuật TTVB nĩi chung và TTVB tiếng Việt nĩi riêng sẽ cịn được nghiên cứu và phát triển thêm trong khoảng thời gian tới.

Đề tài nghiên cứu này đã đưa ra và giải quyết được một số vấn đề sau:

- Nghiên cứu lý thuyết tổng quan về TTVB, các phương pháp về xu hướng giải quyết bài tốn.

- Phân tích các kỹ thuật cĩ thể áp dụng cho bài tốn TTVB tiếng Việt

- Xây dựng một hệ thống TTVB tiếng Việt cĩ sử dụng đến những kỹ thuật đã trình bày ở trên.

- Thơng qua các thử nghiệm và đánh giá cho thấy hệ thống đạt được kết quả tương đối tốt trên một số dữ liệu thử nghiệm, từ đĩ hứa hẹn cĩ thể triển khai được trong thực tế.

2. Khuyến nghị

Hệ thống Tĩm tắt văn bản tiếng Việt sau khi hồn thiện và đưa vào hoạt động thực tế cĩ thể hỗ trợ chúng ta rất nhiều trong quá trình tìm kiếm và chắt lọc thơng tin. Tuy nhiên để hệ thống cĩ thể hoạt động tốt trong thực tế thì cần phải phân tích và xử lý kỹ hơn về cú pháp, ngữ nghĩa tiếng Việt .

Hướng phát triển của hệ thống trong tương lai:

- Xử lý chặt chẽ hơn nữa về cú pháp, ngữ nghĩa tiếng Việt.

- Thực hiện thử nghiệm với các tập dữ liệu lớn hơn, ở nhiều lĩnh vực hơn, để cĩ cái nhìn chính xác hơn về hệ thống.

- Triển khai hệ thống trong một ứng dụng thực tế để đánh giá khả năng ứng dụng thực tiễn của hệ thống.

TÀI LIỆU THAM KHẢO TIẾNG VIỆT

[1]. Đỗ Phúc, Hồng Kiếm, (2004), Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tĩm tắt nội dung”, Tạp chí Bưu chính viễn thơng, chuyên san các cơng trình nghiên cứu, triển khai viễn thơng & CNTT, số 13.

[2]. Lê Thanh Hương. 2014. Nghiên cứu một số phương pháp tĩm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt. Đề tài cấp Bộ mã số B2012 - 01 – 24.

[3]. Lương Chi Mai và Hồ Tú Bảo (2009). Báo cáo Tổng kết đề tài KC.01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nĩi và văn bản tiếng Việt"và Về xử lý tiếng Việt trong cơng nghệ thơng tin (2006),Viện Cơng nghệ Thơng tin, Viện Khoa học và Cơng nghệ Việt Nam, 2009.

[4]. Phạm Thị Thu Uyên, Hồng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy, (2008), Độ đo tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tĩm tắt văn bản tiếng Việt, Hội thảo Quốc Gia Một số vấn đề chọn lọc về Cơng nghệ thơng tin và truyền thơng lần thứ XI, Huế.

[5]. Trần Mai Vũ,(2009), Tĩm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ, ĐH Quốc Gia Hà Nội - Đại học Cơng nghệ

TIẾNG ANH

[6]. Barry Schiffman (2007). Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007.

[7]. Barzilay R., McKeown K., and Elhadad M. Information fusion in the context of multidocument summarization, Proceedings of the 37thannual meeting of the

Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999.

[8]. J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000),

International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000).

[9]. Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.

[10]. Partha Lal, Text Summarization, Doctor thesis, 07/2002

[11]. Regina Barzilay and Michael Elhadad. Using Lexical Chains for Text Summarization, In Advances in Automatic TextSummarization (Inderjeet Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 19

[12]. Udo Hahn, Automated Text Summarization- Methods, Systems, Evaluatio..

Các cơng cụ sử dụng

[13]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương, vnTokenizer.

[14]. Lê Hồng Phương, Hồ Vĩnh Tường, vnSentdetector.

Website

Giản lược về cấu trúc câu (Syntactic Condensation)

Phương pháp hiển thị phân đoạn