Cơ sở dữ liệu của hệ thống

Một phần của tài liệu Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát (Trang 48 - 57)

Cơ sở dữ liệu của hệ thống mô tả các thông tin lưu trữ của hệ thống trong cơ sở dữ liệu. Bao gồm thông tin văn bản trong tập dữ liệu (Text_Instructor), bảng từ điển chứa các từ (Vocabulary_Smr), bảng từ dừng (Tbl_stopword), Hình 3.5 dưới đây mô tả cơ sở dữ liệu của hệ thống rút gọn câu tiếng Việt.

Hình 3.5. Cơ sở dữ liệu của hệ thống 3.3.3. Một số giao diện chính của hệ thống

3.3.3.1. Giao diện chính

Hệ thống rút gọn câu tiếng Việt có hai pha chính. Giao diện dưới đây mô tả giao diện của pha huấn luyện. Các văn bản được học để cập nhật trọng số vào cơ sở dữ liệu của hệ thống.

Hình 3.6. Giao diện huấn luyện của hệ thống

Hình 3.7 dưới đây mô tả giao diện người dùng khi rút gọn câu

Hình 3.7. Kết quả rút gọn câu

Hình 3.8 dưới đây mô tả phần quản lý trong hệ thống. Đây chính là phần lưu trong cơ sở dữ liệu của hệ thống hay còn gọi là kho ngữ liệu gồm nhiều văn bản khác nhau.

Hình 3.8. Cửa sổ chọn file

3.3.3.2. Quản lý từ điển

Hình 3.9 dưới đây mô tả chức năng quản lý bộ từ điển danh từ. Các tính năng quản lý bao gồm: thêm danh từ, sửa danh từ, xóa danh từ, cập nhật danh từ.

3.4. Kết quả thực nghiệm

Đối với tóm tắt kiểu trích rút câu, để đánh giá kết quả thực nghiệm có thể sử dụng các độ đo recall hoặc precision để đánh giá độ chính xác của hệ thống đối với kết quả được cho bởi con người. Tuy nhiên, với hệ thống tóm tắt dựa trên rút gọn câu, ta phải đánh giá dựa trên một phần phương pháp thủ công. Có 2 độ đo chính được sử dụng trong đánh giá rút gọn câu:

- Độ đo trùng lặp về các từ trích rút dùng độ đo precision. - Độ đo ngữ pháp của câu.

Dựa trên độ đo trên, việc thực hiện đánh giá cần được lưu trữ trên bảng dữ liệu với các thông số: Độ chính xác và độ ngữ pháp của câu.

Việc thực nghiệm được tiến hành trên 30 văn bản với 100 câu gốc. Đánh giá câu được thực hiện độc lập bởi kết quả của hệ thống và kết quả của con người:

- Đánh giá độ chính xác:

 100 câu gốc được in trên phiếu và đưa tới nhiều người khác nhau để tiến hành rút gọn thủ công.

 Tiếp theo sử dụng công thức precision để tính độ trùng lặp giữa các từ trong từng câu được lựa chọn bởi hệ thống và con người

 Đánh giá độ ngữ pháp:

 100 câu gốc được rút gọn bởi hệ thống đưa nhiều người đánh giá.

 Độ ngữ pháp mỗi câu được tính theo điểm trung bình của các đánh giá.

 Đánh giá với 4 mức: Tốt, Khá, Trung bình, Kém.

Bảng 3.2 dưới đây mô phỏng yêu cầu thực nghiệm đối với 100 câu gốc.

Bảng 3.2. Bảng thực nghiệm STT ID câu Độ chính xác Độ ngữ pháp 1 11 0.8 0.8 2 112 0.73 0.8 3 314 0.82 0.6 4 506 0.891 0.8 …. …. … …

Độ ngữ pháp được số hóa từ các đánh giá theo tiêu chuẩn: Tốt: 0.8-1, Khá: 0.7-0.8, Trung bình: 0.5-0.6, Kém:<0.5.

3.5 Kết luận chương 3

Trong chương này, luận văn đã trình bày chi tiết từ phân tích thiết kế của hệ thống và các giao diện của hệ thống. Các chức năng chính của hệ thống cũng được mô tả rõ ràng, đầy đủ.

So sánh kết quả của hệ thống được luận văn xây dựng với các kết quả được rút gọn cho bởi con người, sau khi tổng hợp, các tiêu chí đặt ra khi đánh giá rút gọn câu đều nằm trên mức 0.7, do đó phương pháp cũng như hệ thống được xây dựng có thể đảm bảo và gần với kết quả được đánh giá bởi con người.

KẾT LUẬN

Tóm tắt văn bản ngày càng trở nên có ý nghĩa hơn khi lượng thông tin trả về từ các hệ thống tra cứu là quá lớn. Dựa trên các hệ thống tóm tắt văn bản, các công ty, doanh nghiệp, tổ chức, cá nhân có thể tìm thấy được những nội dung quan trọng từ trong luồng thông tin quá lớn trên Internet.

Xây dựng tốt một hệ thống tóm tắt văn bản là tiền đề của những hệ thống khai phá dữ liệu trên web khi kết hợp với hệ thống tra cứu thông minh trực tuyến, hoặc tóm tắt các thông tin báo chí hàng ngày gửi về trên các điện thoại di động cho người dùng muốn quan tâm.

Trong luận văn này tôi đã nghiên cứu phương pháp xây dựng hệ thống tóm tắt văn bản tiếng Việt dựa phương pháp học không giám sát, khắc phục những khó khăn về chi phí xây dựng kho ngữ liệu, thời gian và chi phí khi huấn luyện, đồng thời cho kết quả rút gọn chấp nhận được.

Trong tương lai, chúng tôi hướng tới xây dựng một hệ thống tra cứu thông tin tích hợp tóm tắt văn bản để trả về các kết quả cho người dùng một cách tối ưu nhất theo đúng nội dung mà người dùng cần tìm kiếm.

TÀI LIỆU THAM KHẢO

I. Tiếng Việt

1. Lương Chi Mai, Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt, Chương trình KH&CN cấp nhà nước KC01/06-10, Đề tài KC01/06-10, 2009.

2. Đỗ Phúc, Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung. Tạp chí bưu chính viễn thông và CNTT.

3. Hà Quang Thụy, Giáo trình Khai phá dữ liệu web. Nhà xuất bản giáo dục Việt Nam

II. Tiếng Anh

4. Ha Nguyen Thi Thu, Quynh Nguyen Huu, Cuong Do Duc, “A novel important word based sentence reduction method for Vietnamese text”, Proc. of IEEE on Intellectual Technology in Industrial Practice, pp 401-405, China – Changsha September 2010.

5. Dipanjan Das and Andre F.T. Martins (2007). A Survey on Automatic Text Summarization

6. Chin-Yew Lin and Eduard Hovy “The Potential and Limitations of Automatic Sentence Extraction for Summarization”. In Proceedings of the HLT-NAACL 2003 Workshop on Automatic Summarization, May 30 to June 1, 2003, Edmonton,Canada.

7. Hongyan Jing and Kathleen R. McKeown. “Cut and paste based text summarization”. In Proceedings of the 1st Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-2000), pages 178–185, 2000.

8. Thanh Le Ha, Quyet Thang Huynh, Chi Mai Luong, “A Primary Study on Summarization of Documents in Vietnamese”, Proceeding of the First International Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-17, 2005.

9. Nguyen, M.L.; Shimazu, A.; Horiguchi, S.; Ho, B.T.; Fukushi, M. (2004). Probabilistic Sentence Reduction Using Support Vector Machines. In the Proceedings of the 20th international conference on Computational Linguistics. 10. KNIGHT, K. AND MARCU, D. 2002. Summarization beyond sentence

extraction: A probabilistic approach to sentence compression. Artif. Intell. 139, 1 , 91-107, 2002.

11. M.L. Nguyen and S. Horiguchi, “A Sentence Reduction Using Syntax Control”, Proc. Of 6th Information Retrieval with Asian Language, pp. 139-146, 2003.

12. Cohn, T., & Lapata, M. (2008). Sentence compression beyond word deletion. In Proceed-ings of the 22nd International Conference on Computational Linguistics, pp. 137-144,Manchester, UK.

13. Galley, M., & McKeown, K. (2007). Lexicalized Markov grammars for sentence compression.In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics, pp. 180-187,Rochester, NY.

14. Daniel Jurafsky & James, Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition, 2007.

15. Nguyen, M. L., Horiguchi, S., Shimazu, A., & Ho, B. T. (2004). Example- based sentence reduction using the hidden markov model. ACM Transactions on Asian Language Information Processing, 3 (2), 146-158. 16. Clarke, J., & Lapata, M. (2008). Global inference for sentence

compression: An integer linear programming approach. Journal of Articial Intelligence Research, 31, 399-429.

17. Grael J., & Knight, K. (2004). Training tree transducers. In Proceedings of the 2004 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pp. 105-112, Boston, MA.

18. C. Hori and S. Furui, A Statistical Approach to Automatic Speech Summarization, EURASIP Journal on Applied Signal Processing 2003, pp 128-139.

19. C.Hori et al., Automatic Speech Summarization Based on Word Significance and Linguistic Likelihood, Proc. ICASSP 2000, vol.III, pp.1579-1582, Istanbul.

20. Daniel Jurafsky & James, Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition, Chap. 6, Chap. 17, Chap. 22, Chap.23, Draft of June 2007. 21. David M. Zajic, Jimmy Lin, Sentence Compression as a Component of a

Multi-Document Summarization System, In Proceedings of the 2006 Document Understanding Conference (DUC-2006) at NLT/NAACL 2006, June 2006, New York.

22. Ha. N.T.T, Quynh. N.H, Method of Sentence Reduction in Vietnamese Text Based on Determining Likelihood Substring, International Conference on Intelligent Network and Computing, Vol.2, pp. 215-219, November, 2010.

23. Ha. N.T.T, Quynh. N.H, A novel important word based sentence reduction method for Vietnamese text, Proc. on Intellectual Technology in Industrial Practice, pp. 401-406, 2010.

24. Ha Nguyen Thi Thu, Quynh Nguyen Huu, A Semi- Supervised Learning Method Combine With Dimensionality Reduction in Vietnamese Text Summarization, International Journal of Innovative Computing, Information and Control, Vol. 9, Issue 12, 2013.

25. Ha Nguyen Thi Thu, Quynh Nguyen Huu, An Opimization Text Summarization method based on Naive Bayes and topic word for Single Syllable Language, IAENG International Journal of Computer Science (Acepted).

26. Knight, K. (1999). Decoding complexity in word-replacement translation models. Computational Linguistics, 25 (4), 607- 615.

27. Knight, K., & Marcu, D. (2002). Summarization beyond sentence extraction: a probabilistic approach to sentence compression. Articial Intelligence, 139 (1), 91-107.

28. Turner, J., & Charniak, E. (2005). Supervised and unsupervised learning for sentence compression. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pp. 290-297, Ann Arbor, MI. 29. Nils J. Nilson, Introduction to Machine Learning,

http://ai.stanford.edu/~nilsson

30. Tom M. Mitchell, Machine Learning, Mc GrawHill, 1997 (2005), http://www.cs.cmu.edu/~tom/mlbook.html 31. Website 32. http://labs.baomoi.com/demoTS.aspx 33. http://swesum.nada.kth.se/index-eng.html 34. http://textcompactor.com/ 35. http://vlsp.vietlp.org:8080/demo/ 36. http://www1.cs.columbia.edu/~hjing/sumDemo/FociSum/

37. Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159-165.

38. Baxendale, P. (1958). Machine-made index for technical literature - an xperiment.IBM Journal of Research Development, 2(4):354-361.

39. Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159-165.

Một phần của tài liệu Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sát (Trang 48 - 57)

Tải bản đầy đủ (PDF)

(57 trang)