Hệ thống gồm cĩ 2 giao diện:
Giao diện chính
Hình 5. Giao diện chính của hệ thống
Cách sử dụng chương trình
Bước 1: Nhập văn bản cần tĩm tắt
Bước 2: Lựa chọn tỉ lệ cần để tĩm tắt văn bản Bước 3: Thực hiện xử lý văn bản
+ Kết quả hiển thị theo thứ tự các câu trong văn bản + Kết quả hiển thị theo thứ tự của giá trị trọng số câu Bước 4: Nhấn nút Thực hiện để bắt đầu tĩm tắt
Sau khi tĩm tắt xong thì kết quả tĩm tắt sẽ được lưu trữ lại theo để thực hiện truy xuất dữ liệu sau này.
Chọn tỉ lệ tĩm tắt Ch ọn v ăn bả n c ần tĩ m tắt Chạy chương trình
Hình 6. Giao diện trọng số câu 4.2. Kiểm thử, đánh giá
4.2.1. Bộ dữ liệu mẫu
Bộ dữ liệu mẫu sử dụng cho quá trình kiểm thử trong luận văn này gồm 70 văn bản với các bản tĩm tắt tương ứng được sử dụng trong đề tài cấp bộ của PGS.TS Lê Thanh Hương [2]. Các văn bản tĩm tắt trong chương trình sẽ được chọn tỉ lệ phần trăm để cĩ độ dài tương đương với bản tĩm tắt mẫu để kết quả đánh giá được chính xác
Các văn bản trong tập ngữ liệu được lấy từ các trang web tin tức tiếng Việt (như Dantri, VnExpress, v.v…) và các bản tin trên trang web của Bộ Khoa học Cơng nghệ. Các bản tin trên các báo điện tử được lấy từ các lĩnh vực chính trị, khoa học giáo dục, kinh tế, văn hĩa và xã hội. Độ dài của các bản tin từ 300 đến 1000 từ. Các bản tin này đã được loại bỏ các hình ảnh, các liên kết đến các văn bản khác, chỉ giữ lại phần nội dung thơng tin. Bản tĩm tắt cĩ độ dài xấp xỉ 100 từ.
4.2.2. Phương pháp sử dụng cho việc đánh giá
Sử dụng phương pháp đánh giá ROUGE cho việc đánh giá hệ thống tĩm tắt tự động mà luận văn xây dựng. Bởi nĩ là phương pháp đánh giá phổ biến được sử dụng nhiều cho đánh giá tĩm tắt đơn văn bản.
4.2.3. Các kết quả kiểm thử
Thực hiện kiểm thử văn bản mẫu như đã giới thiệu ở trên. Kiểm thử sử dụng độ đo ROUGE với n-grams là 1,2,3,4.
Để hiểu rõ hơn cho hệ thống của mình tơi xin đưa ra một ví dụ minh họa đầu vào, đầu ra của hệ thống tĩm tắt văn bản:
Văn bản đầu vào:
“Thắt” chi tiêu, gửi ngân hàngSau 4 năm khủng hoảng kinh tế, dịng tiền từ khu vực dân cư vào các khu vực bất động sản và kinh doanh giảm mạnh, thay vào đĩ, trở thành một trong những cứu cánh cho huy động của các tổ chức tín dụng giai đoạn này.Báo cáo của Ủy ban Giám sát Tài chính Quốc gia (NFSC) vừa cơng bố mới đây cho thấy, tình trạng tăng trưởng kinh tế thấp, tổng cầu nền kinh tế yếu đã tác động mạnh đến xu hướng đầu tư của hộ gia đình.Kết quả khảo sát của cơ quan này cho thấy, trong vịng 1 năm kể từ tháng 3/2012 đến tháng 2/2013, đầu tư vào bất động sản và sản xuất kinh doanh đều suy giảm mạnh.Nếu đầu năm 2012 cĩ tới trên 25% số người được hỏi cho biết đang đầu tư vào thị trường bất động sản thì tại thời điểm tháng 3/2013 chỉ cĩ 10% đầu tư vào khu vực này. Tại khu vực sản xuất kinh doanh, chỉ cĩ 8% cho biết đang đầu tư vào hoạt động này trong năm 2013, giảm 32% so với thời điểm tháng 2 năm ngối là 40%. Thay vào đĩ, khu vực hộ gia đình cĩ xu hướng chuyển dịng tiền vào ngoại tệ và đầu tư khác.Qua khảo sát, NSFC cũng cho biết, trong giai đoạn 2008-2012 , tiền gửi ngân hàng của hộ gia đình (hay huy động từ khu vực dân cư) tăng khá ổn định đã hỗ trợ tích cực về thanh khoản cho hệ thống các TCTD trong nước.Theo đĩ, nếu như năm 2012, huy động từ khu vực dân cư tăng 22,01% thì đến 30/4/2013, tỷ lệ này vẫn đạt 21,9% so với cùng kỳ năm trước. Cơ cấu huy động dân cư/tổng tài sản các TCTD đã tăng 7,96 điểm phần trăm từ 27,32% năm 2008 lên 35,29% năm 2012, và đáng lưu ý đây là
giai đoạn hệ thống TCTD gặp phải nhiều khĩ khăn về khả năng thanh tốn. NSFC nhận xét, chính khu vực dân cư là một trong những cứu cánh cho các TCTD giai đoạn này. Tuy nhiên, vì thu nhập của hộ gia đình bị ảnh hưởng bởi suy thối kinh tế và sự đình trệ của khu vực doanh nghiệp nên tốc độ tăng huy động từ khu vực này từ 2011 vẫn bị giảm. Bên cạnh đĩ, xu hướng thắt chặt chi tiêu của hộ gia đình đã gĩp phần khiến khu vực doanh nghiệp khĩ phục hồi. Đồng thời, thay đổi hành vi của khu vực hộ gia đình theo hướng giảm sản xuất và cung ứng dịch vụ cũng là một trong những nguyên nhân khiến phân khúc bán lẻ của thị trường bất động sản tiếp tục suy giảm và chưa cĩ dấu hiệu phục hồi trong 4 tháng đầu năm 2013.
Văn bản mẫu kiểm thử
Ủy ban Giám sát Tài chính Quốc gia cho biết tình trạng tăng trưởng kinh tế thấp, tổng cầu nền kinh tế yếu đã tác động mạnh đến xu hướng đầu tư của hộ gia đình. Đầu tư vào bất động sản và sản xuất kinh doanh đều suy giảm mạnh. Thay vào đĩ, là xu hướng chuyển dịng tiền vào ngoại tệ và đầu tư khác. Trong đĩ, tiền gửi ngân hàng của hộ gia đình tăng khá ổn định đã hỗ trợ tích cực về thanh khoản cho hệ thống các TCTD trong nước.
Văn bản kết quả của hệ thống
“Thắt” chi tiêu, gửi ngân hàng Sau 4 năm khủng hoảng kinh tế, dịng tiền từ khu vực dân cư vào các khu vực bất động sản và kinh doanh giảm mạnh, thay vào đĩ, trở thành một trong những cứu cánh cho huy động của các tổ chức tín dụng giai đoạn này. Báo cáo của Ủy ban Giám sát Tài chính Quốc gia (NFSC) vừa cơng bố mới đây cho thấy, tình trạng tăng trưởng kinh tế thấp, tổng cầu nền kinh tế yếu đã tác động mạnh đến xu hướng đầu tư của hộ gia đình
Kết quả kiểm thử bằng độ đo ROUGE
N-GRAM-1: 0.4112781954887219 N-GRAM-2: 0.3785496183206107 N-GRAM-3: 0.32961240310077516 N-GRAM-4: 0.30519685039370075
4.2.4. Nhận xét, đánh giá
Về mặt chất lượng văn bản tĩm tắt:
Theo kết quả đánh giá khi sử dụng độ đo ROUGE ta thấy rằng những văn bản đầu ra của hệ thống đã cĩ sự đồng nhất khá lớn đối với văn bản tĩm tắt mẫu.
Bằng trực quan, khi trực tiếp quan sát các văn bản đầu ra của hệ thống thì thực tế đối với mục đích trơi chảy thì các văn bản đầu ra của hệ thống cịn cĩ nhiều hạn chế bởi cách thức tĩm tắt là trích rút câu nên các câu được trích rút cịn rời rạc chưa cĩ sự liên kết chặt chẽ về mặt ngữ nghĩa, nhưng với mục đích tĩm gọn nội dung thì văn bản tĩm tắt đã đáp ứng khá tốt.
Về mặt thời gian
Hệ thống tĩm tắt cĩ thời gian chạy chậm, do một số thuật tốn chưa được tối ưu. Thời gian chạy của hệ thống tỷ lệ thuận với độ dài của văn bản đầu vào.
Khả năng ứng dụng của hệ thống
Hệ thống cĩ khả năng thực hiện tĩm tắt hiệu quả đối với các văn bản ngắn và trung bình như các bài báo, tin tức trên Internet.
Hệ thống cĩ thể được tích hợp trong các cơng cụ thu thập thơng tin dạng văn bản để cĩ thể đưa ra được nhiều thơng tin chính xác tới người dùng.
KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết luận
Cĩ thể thấy bài tốn TTVB là bài tốn cĩ giá trị ứng dụng rất lớn. Với sự phát triển của các kho dữ liệu khổng lồ và các kỹ thuật nâng cao khả năng tính tốn của máy mĩc, các ứng dụng của TTVB sẽ được thực hiện ngày càng nhiều hơn theo nhu cầu của con người. Các kỹ thuật TTVB nĩi chung và TTVB tiếng Việt nĩi riêng sẽ cịn được nghiên cứu và phát triển thêm trong khoảng thời gian tới.
Đề tài nghiên cứu này đã đưa ra và giải quyết được một số vấn đề sau:
- Nghiên cứu lý thuyết tổng quan về TTVB, các phương pháp về xu hướng giải quyết bài tốn.
- Phân tích các kỹ thuật cĩ thể áp dụng cho bài tốn TTVB tiếng Việt
- Xây dựng một hệ thống TTVB tiếng Việt cĩ sử dụng đến những kỹ thuật đã trình bày ở trên.
- Thơng qua các thử nghiệm và đánh giá cho thấy hệ thống đạt được kết quả tương đối tốt trên một số dữ liệu thử nghiệm, từ đĩ hứa hẹn cĩ thể triển khai được trong thực tế.
2. Khuyến nghị
Hệ thống Tĩm tắt văn bản tiếng Việt sau khi hồn thiện và đưa vào hoạt động thực tế cĩ thể hỗ trợ chúng ta rất nhiều trong quá trình tìm kiếm và chắt lọc thơng tin. Tuy nhiên để hệ thống cĩ thể hoạt động tốt trong thực tế thì cần phải phân tích và xử lý kỹ hơn về cú pháp, ngữ nghĩa tiếng Việt .
Hướng phát triển của hệ thống trong tương lai:
- Xử lý chặt chẽ hơn nữa về cú pháp, ngữ nghĩa tiếng Việt.
- Thực hiện thử nghiệm với các tập dữ liệu lớn hơn, ở nhiều lĩnh vực hơn, để cĩ cái nhìn chính xác hơn về hệ thống.
- Triển khai hệ thống trong một ứng dụng thực tế để đánh giá khả năng ứng dụng thực tiễn của hệ thống.
TÀI LIỆU THAM KHẢO TIẾNG VIỆT
[1]. Đỗ Phúc, Hồng Kiếm, (2004), Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tĩm tắt nội dung”, Tạp chí Bưu chính viễn thơng, chuyên san các cơng trình nghiên cứu, triển khai viễn thơng & CNTT, số 13.
[2]. Lê Thanh Hương. 2014. Nghiên cứu một số phương pháp tĩm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt. Đề tài cấp Bộ mã số B2012 - 01 – 24.
[3]. Lương Chi Mai và Hồ Tú Bảo (2009). Báo cáo Tổng kết đề tài KC.01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nĩi và văn bản tiếng Việt"và Về xử lý tiếng Việt trong cơng nghệ thơng tin (2006),Viện Cơng nghệ Thơng tin, Viện Khoa học và Cơng nghệ Việt Nam, 2009.
[4]. Phạm Thị Thu Uyên, Hồng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy, (2008), Độ đo tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tĩm tắt văn bản tiếng Việt, Hội thảo Quốc Gia Một số vấn đề chọn lọc về Cơng nghệ thơng tin và truyền thơng lần thứ XI, Huế.
[5]. Trần Mai Vũ,(2009), Tĩm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ, ĐH Quốc Gia Hà Nội - Đại học Cơng nghệ
TIẾNG ANH
[6]. Barry Schiffman (2007). Summarization for Q&A at Columbia University for DUC 2007, In Document Understanding Conference 2007 (DUC07), Rochester, NY, April 26-27, 2007.
[7]. Barzilay R., McKeown K., and Elhadad M. Information fusion in the context of multidocument summarization, Proceedings of the 37thannual meeting of the
Association for Computational Linguistics: 550–557, New Brunswick, New Jersey, 1999.
[8]. J Larocca Neto, AD Santos, CAA Kaestner, and AA Freitas, (2000),
International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000).
[9]. Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.
[10]. Partha Lal, Text Summarization, Doctor thesis, 07/2002
[11]. Regina Barzilay and Michael Elhadad. Using Lexical Chains for Text Summarization, In Advances in Automatic TextSummarization (Inderjeet Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 19
[12]. Udo Hahn, Automated Text Summarization- Methods, Systems, Evaluatio..
Các cơng cụ sử dụng
[13]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương, vnTokenizer.
[14]. Lê Hồng Phương, Hồ Vĩnh Tường, vnSentdetector.
Website