Kết quả thực nghiệm - ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA H- 123docz.net

Nội dung trang web tóm tắt

1 người VN mất tiền vì 'nước thần'

Một người Việt Nam ở Nauy đã mất 180.000 kroner (35.000 USD) vì tin rằng, nếu trộn lượng tiền mặt này với một thứ nước lỏng đặc biệt, số tiền sẽ tự sinh ra gấp đôi.

Trong tuần này, một người đàn ông 32 tuổi có quốc tịch Pháp sẽ phải ra hầu tòa ở Oslo vì bị cáo buộc tội lừa đảo bằng "nước thần".

Đầu năm nay, anh chàng này đã dạy một người Việt Nam cách làm giàu chỉ qua một đêm. Theo cách làm này, một số tiền mặt được xếp chung với một lượng giấy trắng, nhúng vào một chất lỏng đặc biệt để qua đêm. Sáng hôm sau, số tiền sẽ tự sinh ra gấp đôi.

Sau khi nghe theo lời khuyên, nạn nhân đã mất sạch cả tiền mặt và mất luôn dấu vết của "thầy phù thủy" khi thức dậy vào sáng hôm sau. Vào ngày 3/3, "thầy phù thủy" trên đã bị bắt khi tìm mọi cách rời khỏi Nauy với 200.000 kroner trong hành lý.

Áp dụng quy trình tóm tắt ở mục 4.1, tính được độ tương đồng lần lượt giữa các câu trong văn bản và trọng số của từng câu.

Trường hợp không sử dụng Hidden Topic, trọng số của từng câu như bảng sau:

Câu Trọng số 1 2.547 2 1.902 3 2.342 4 2.247 5 1.479 6 1.802 7 1.913 8 1.937 9 1.668 10 1.766

Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic]

Với tỷ lệ trích xuất 30% có kết quả tóm tắt như sau:

“Một người Việt Nam ở Nauy đã mất 180.000 kroner (35.000 USD) vì tin rằng, nếu trộn lượng tiền mặt này với một thứ nước lỏng đặc biệt, số tiền sẽ tự sinh ra gấp đôi. Đầu năm nay, anh chàng này đã dạy một người Việt Nam cách làm giàu chỉ qua một đêm. Theo cách làm này, một số tiền mặt được xếp chung với một lượng giấy trắng, nhúng vào một chất lỏng đặc biệt để qua đêm.”

Trường hợp không sử dụng Hidden Topic, trọng số của từng câu: Câu Trọng số 1 1.765 2 1.000 3 1.209 4 1.194 5 1.354 6 1.414 7 1.386 8 1.294 9 1.000 10 1.105

Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic]

Tương tự, với tỷ lệ trích xuất 30%, có kết quả tóm tắt:

“Một người Việt Nam ở Nauy đã mất 180.000 kroner (35.000 USD) vì tin rằng, nếu trộn lượng tiền mặt này với một thứ nước lỏng đặc biệt, số tiền sẽ tự sinh ra gấp đôi. Sau khi nghe theo lời khuyên, nạn nhân đã mất sạch cả tiền mặt và mất luôn dấu vết của "thầy phù thủy" khi thức dậy vào sáng hôm sau. Vào ngày 3/3, "thầy phù thủy" trên đã bị bắt khi tìm mọi cách rời khỏi Nauy với 200.000 kroner trong hành lý.”

Nhận xét, đánh giá

Từ thực nghiệm, có thể thấy rằng, mô hình tóm tắt sử dụng Hidden Topic cho kết quả khả quan mặc dù các câu trả về vẫn chưa thể hiện ngữ nghĩa một cách súc tích ngắn gọn. Những câu có trọng số cao nhất sẽđược trích rút cho tóm tắt. Tỷ lệ trích rút sẽ chỉ ra số lượng câu được chọn cho văn bản tóm tắt.

Kết luận và hướng phát triển của khóa luận

Với nhu cầu thực tiễn về các ứng dụng tóm tắt văn bản hiện nay, khóa luận đã tập trung nghiên cứu về bài toán tóm tắt văn bản nói chung và tóm tắt văn bản đơn nói riêng. Các kết quả cụ thể mà khóa luận đạt được là:

- Khảo sát, nghiên cứu các phương pháp tóm tắt văn bản; áp dụng độ đo tương đồng câu vào trong tóm tắt.

- Khóa luận cũng đã đề xuất được một mô hình tóm tắt văn bản đơn dựa trên tính toán độ tương đồng câu có sử dụng Hidden Topic.

- Thử nghiệm mô hình đã đề xuất và cho được kết quả ban đầu khả quan.

Do hạn chế về thời gian và kiến thức sẵn có, khóa luận mới chỉ dừng lại ở mức thử nghiệm mô hình. Với những kết quả thực nghiệm ban đầu, sẽ cần tiếp tục hoàn thiện phương pháp tóm tắt để nâng cao hiệu suất tóm tắt.

Bên cạnh đó, tìm hiểu s ự khác nhau giữa văn bản đơn và đa văn bản. Từđó áp dụng phương pháp tính độ tương đồng câu vào trong tóm tắt đa văn bản. Mục tiêu cụ thể là tiếp tục tăng tính ngữ nghĩa cho phương pháp tính độ tương đồng câu áp dụng vào bài toán tóm tắt đa văn bản.

Tài liệu tham khảo

Tiếng Việt

[1] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006). Kết hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của công nghệ thông tin, 2006, 413-421.

[2] Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006.

[3] Đỗ Phúc, Hồ Anh Thư (2005). Rút trích và tóm tắt nội dung trang web tiếng Việt,

Phát triển khoa học - công nghệ, 2005, 8/(10):13-22

[4] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy. Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt (gui Hoi nghi Hue).

Tiếng Anh

[5] Dang Thanh Hai, Nguyen Thu Trang, Ha Quang Thuy. The Graph of Concepts based Text Summarization, College of Technology, Vietnam National University, Hanoi.

[6] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, 17th International World Wide Web Conference, 2008.

[7] Le Nguyen Minh (2004). Statistical Machine Learning Approaches to Cross Language Text Summarization, PhD thesis in School of Information Science Japan Advanced Institute of Science and Technology, September 2004.

[8] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha (2006). Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222.

[9] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C. (2007). UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, Document Understanding Conference 2007 (DUC 2007), Rochester, NY, April 26-27, 2007.

[10] Dan Cohen. Automatic Text Summarization. Seminar in Natural Language Programming and Computational Linguistics. http://www.cs.tau.ac.il/~nachumd/NLP/. [11] H. Edmundson. New methods in automatic abstracting. Journal of ACM, 16(2):264-- 285, 1969.

[12] Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques, 2nd ed. The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, March 2006. ISBN 1-55860-901-6.

[13] Wooncheol Jung, Youngjoong Ko, and Jungyun Seo (2004). Automatic Text Summarization Using Two-step Sentence Extraction, Proceedings of Asian Information Retrieval Symposium (AIRS 2004), in Beijing, China, pp.43-48, Oct, 2004.

[14] Daniel Jurafsky, and James H. Martin, 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall.

[15] H.P.Luhn. The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159–165,1958.

[16] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett (2006). Sentence Similarity Based on Semantic Nets and Corpus Statistics. IEEE Trans. Knowl. Data Eng. 18(8): 1138-1150

[17] A. A. Mohamed, S. Rajasekaran, (2006). Query-Based Summarization Based on Document Graphs, Document Understanding Workshop, June 8-9, 2006 (DUC2006),New York Marriott, Brooklyn, New York USA.

[18] Inderjeet Mani and Mark T. Maybury (eds). Advances in Automatic Text Summarization. MIT Press, 1999. ISBN 0-262-13359-8. 442 pp.

[19] Manabu Okumura. Text Summarization. Asian Applied Natural Language Processing for Linguistics Diversity and Language Resource Development (ADD2),

Thailand Science Park, 2007.

[20] Siddharth Patwardhan (2003). Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN.

[21] P. Senellart and V. D. Blondel (2008). Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M. W. Berry and M. Castellanos, editors): 25–44. Springer-Verlag, January 2008.

[22] Pierre Senellart (2007). Understanding the Hidden Web, PhD thesis in Computer science, Université Paris-Sud, Orsay, France, December 2007.

[23] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey (2006). Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94- 98.

Các công cụ sử dụng

[24] Phan Xuân Hiếu. JGibbsLDA. http://gibbslda.sourceforge.net/, School of Information Sciences Tohoku University.

[25] Nguyễn Cẩm Tú, Phan Xuân Hiếu. JvnSegmenter.