Trong phần này chúng tôi sẽ thử nghiệm phương pháp đối với các đoạn văn được lấy từ hai trang “vnexpress.net” và “vietnamnet.vn”. Phần mềm thử nghiệm được thiết kế và xây dựng đơn giản, thuận tiện cho việc sử dụng. Theo đó, chúng ta có thể nhập trực tiếp hai đoạn văn cần đánh giá hoặc chọn từ hai tệp tin văn bản (hình vẽ 1). Bộ trọng số được thiết lập cho thử nghiệm là (0.6, 0.3, 0.1), với mong muốn đặt ưu tiên cao nhất cho yếu tố đánh giá về véc-tơ đặc trưng ngữ nghĩa (0.6), tiếp đến là véc-tơ đặc trưng cấu trúc thứ tự các từ (0.3) và cuối cùng là đánh giá dựa trên ma trận so sánh theo nhóm từ loại (0.1).
Như đã đề cập, chúng ta sử dụng các kết quả tách từ vựng tiếng Việt cũng như phương pháp dịch tự động Việt-Anh và đánh giá độ tương tự cặp từ vựng tiếng Anh nên kết quả các bước xử lý này sẽ ảnh hưởng lớn đến kết quả cuối cùng. Ở đây, để minh họa cho phương pháp đánh giá được giới thiệu ở phần trước và giảm thiểu sai số của các bước tiền xử lý, chúng tôi thiết kế tích hợp phần hỗ trợ xử lý bởi người thử nghiệm để đưa vào các tinh chỉnh nhằm đạt kết quả phù hợp của các bước tách từ vựng, dịch tự động Việt-Anh.
Hình 3.1 : Chương trình thử nghiệm đánh giá độ tương tự văn bản Văn bản được dùng để đánh giá (xem hình vẽ 1) gồm 2 câu cho mỗi văn bản, đó là “Biểu tình phản đối Trung Quốc gây tiếng vang trên báo quốc tế” và
thấy hai văn bản này khá gần giống nhau vì chúng đều cùng nói đến một sự việc là sự phản ứng của người dân trước hành động đặt dàn khoan HD981 tại vùng biển Việt Nam của Trung Quốc. Kết quả đánh giá thử nghiệm với độ tương tự là 0.69 cho thấy phương pháp cho kết quả trong trường hợp này là phù hợp.
Trong trường hợp thứ hai, 2 văn bản gồm “Một cơn giông bão dữ dội chỉ còn cách Trường Sa khoảng năm bảy dặm. Đừng chần chừ chống bão.” và “Một cơn bão dông ác liệt chỉ còn cách Trường Sa khoảng dăm bảy dặm. Đừng do dự chống bão.”. Về ngữ nghĩa, ta thấy hai văn bản này gần như giống nhau (cỡ xấp xỉ 1.0). Phương pháp cho kết quả đánh giá độ tương tự là 0.94 phản ánh phù hợp với trực quan cảm nhận của chúng ta.
Trường hợp thứ ba, 2 văn bản gồm “Trong nhiệm kỳ này, các cơ quan ở TƯ và địa phương sẽ tiến hành lấy phiếu tín nhiệm trong năm 2014; việc lấy phiếu tín nhiệm đối với các đồng chí Bộ Chính trị, Ban Bí thư sẽ tiến hành sau khi lấy phiếu tín nhiệm của QH đối với các chức danh do QH khoá XIII bầu hoặc phê chuẩn.” và “Thay vì ngăn cản tàu Việt Nam ở vị trí cách giàn khoan 8-10 hải lý như trước, ngày 14/5, tàu Trung Quốc bảo vệ giàn khoan bằng việc tập trung tàu ở cự ly 6,5 hải lý.”. Về ngữ nghĩa, hai văn bản này gần như không có điểm chung và sự giống nhau giữa chúng. Tuy nhiên, ở đây kết quả phương pháp cho ra độ tương tự hai văn bản này là 0.56. Sở dĩ có độ tương tự cao như vậy là do cộng hưởng của các sai số có thể trong các giai đoạn xử lý bao gồm tách từ tiếng Việt, dịch tự động từ tiếng Việt sang tiếng Anh, độ đo tương tự ngữ nghĩa của cặp từ vựng tiếng Anh. Và tất nhiên, phương pháp đánh giá độ tương tự đề cập của bài báo cũng là một trong số nhiều phương pháp, dẫn đến có thể còn những hạn chế nhất định.
Trường hợp thứ 4, đánh giá độ tương tự hai văn bản “Nó nói sao cậu không đến” và “Nó đến sao cậu không nói”. Hai câu này có tập các từ vựng là giống nhau nhưng khác nhau về thứ tự của các từ trong câu. Về ngữ nghĩa, hai câu này mang ý nghĩa khác nhau và do đó trực quan có thể thấy mức độ tương tự của chúng là thấp. Một số phương pháp, chẳng hạn trong [???], không đề cập đến yếu tố cấu trúc thứ tự của các từ trong câu nên kết quả cho bằng 1. Phương pháp của bài báo, có sử dụng đánh giá cấu trúc thứ tự các từ trong câu, cho kết quả tương đối phù hợp, SIMS = 1, SIMO = 0.69 và SIMP = 1, vậy kết quả chung theo trọng số (0.6,0.3,0.1) là 0.91.
Trường hợp thứ 5, đánh giá độ tương tự hai văn bản “Tôi sở hữu một loài gia cầm” và “Tôi có một con gà”. Về ngữ nghĩa, hai câu này có mối quan hệ với nhau, đó là quan hệ giữa cái cụ thể (con gà) và cái tổng thể (loài gia cầm). Trực
quan cho thấy chúng tượng tự nhau ở mức trên 0.5. Phương pháp của bài báo cho kết quả 0.79 là khá phù hợp.
Trường hợp thứ 6, 7 và 8 tương ứng là các cặp văn bản gồm: “Trận chung kết World Cup 2014 là cơ hội để Argentina và Đức kết thúc cơn khát danh hiệu vô địch thế giới ám ảnh họ suốt 28 năm và 24 năm qua.” và “Trận chung kết World Cup 2014 không chỉ có những cá nhân xuất sắc, mà còn là cuộc chiến giữa hai thế hệ vàng của bóng đá Đức và Argentina. Trận chiến ở Maracana sẽ đưa ra câu trả lời, vàng nào cứng hơn”; “Với mức thu nhập trung bình gần 2.000 USD/năm của người dân hiện nay thì so với khối tài sản của người siêu giàu 35 triệu USD thì một người dân thường muốn trở thành siêu giàu phải mất 17.500 năm thu nhập” và “Với mức thu nhập trung bình 2.000 USD/năm hiện nay thì so với khối tài sản của người siêu giàu, một người dân thường muốn trở thành siêu giàu phải mất 17.500 năm thu nhập”; “Máy bay Vietnam Airlines và Jetstar Pacific đã ở cự ly rất gần nhau trên một đường băng (350m). Máy bay VNA vừa hạ cánh, chiếc còn lại (JPA) đang quay đầu tại vòng cua để chuẩn bị cất cánh. Người cho phép máy bay cất cánh khi đó là ai?” và “Cục Hàng không vừa quyết định đình chỉ Giám đốc Công ty quản lý bay miền Trung sau sự cố 2 máy bay của Vietnam Airlines và Jetstar Pacific suýt đụng nhau ở sân bay Đà Nẵng ngày 27/6”. Kết quả thử nghiệm của các cặp văn bản này được thể hiện trong bảng 3 ở sau.
Để thấy rõ hơn những kết quả thử nghiệm có tính thực tế, bài báo đã so sánh với những đánh giá của tập thể con người với từng cặp văn bản được dùng. Theo đó, chúng tôi lấy ý kiến của 50 người khác nhau về mức độ giống nhau của các cặp văn bản, sau đó tính giá trị trung bình trên những ý kiến này cho mỗi cặp trong bảng sau (cột NTB). Trong bảng này, chúng ta bỏ qua các cặp văn bản ở trường hợp 4 và 5, không lấy ý kiến khảo sát vì chúng quá đơn giản. So sánh với kết quả thử nghiệm của bài báo (cột OMT) cho thấy tất cả các trường hợp của phương pháp thử nghiệm có mức độ tương đồng cao hơn khảo sát nhưng hầu hết có sự tương đồng nhất định ở cả hai kết quả (cột Diff cho thấy sự khác biệt giữa kết quả thử nghiệm so với khảo sát, dấu + thể hiện sự tăng lên của kết quả thử nghiệm). Tuy vậy, ở cặp văn bản của trường hợp thứ 3 có sự khác biệt khá lớn, lên đến 53.5%. Trường hợp thứ nhất có sự khác biệt là 33.4%. Điều này cho thấy những hạn chế của phương pháp do phụ thuộc vào việc sử dụng các kết quả trung gian như bộ dịch tự động.
Trường hợp 1 35.6 69.0 +33.4 Trường hợp 2 79.6 94.0 +14.4 Trường hợp 3 02.5 56.0 +53.5 Trường hợp 6 54.3 58.6 +04.3 Trường hợp 7 87.9 91.0 +03.1 Trường hợp 8 44.9 63.5 +18.6
Bảng 3.1. Kết quả thử nghiệm và so sánh với khảo sát thực tế
PHẦN III: KẾT LUẬN & KIẾN NGHỊ III.1. Kết luận
Trong đề tài này, chúng tôi đã nghiên cứu về các phương pháp đánh giá độ tương đồng văn bản trong ngôn ngữ tự nhiên, trên cơ sở đó giới thiệu phương pháp đánh giá độ tương tự văn bản tiếng Việt có sử dụng đến 3 yếu tố là độ tương tự dựa trên véc-tơ đặc trưng ngữ nghĩa, độ tương tự dựa trên cấu trúc thứ tự các từ vựng trong văn bản và độ tương tự dựa trên ma trận so sánh cặp từ vựng theo nhóm từ loại. Kết hợp cả ba yếu tố nhằm giảm thiểu các trường hợp suy biến của phương pháp và làm tăng hiệu quả đánh giá.
Qua thử nghiệm chúng ta thấy phương pháp đề xuất cho kết quả khá phù hợp trong các trường hợp, tránh được một số trường hợp suy biến. Tuy nhiên, phương pháp này phụ thuộc vào kết quả của các xử lý trung gian như việc tách từ vựng tiếng Việt, dịch từ tiếng Việt sang tiếng Anh và đánh giá độ tương tự của cặp từ vựng tiếng Anh. Khi kết quả của các bước xử lý này cho sai số lớn sẽ dẫn đến sự cộng hưởng sai số làm cho kết quả đánh giá độ tương tự văn bản của phương pháp trong bài báo giảm nhiều.
Đây là một kết quả bước đầu của chúng tôi, một lĩnh vực khá hay và đã được nhiều tác giả nghiên cứu nhưng nhóm nghiên cứu chúng tôi mới bắt tay vào nghiên cứu nên còn những hạn chế nhất định. Hy vọng với những phân tích ở trên, một trong những nội dung nghiên cứu tiếp của chúng tôi là tìm phương pháp đánh giá độ tương tự ngữ nghĩa giữa các cặp từ vựng tiếng Việt nhằm hạn chế sử dụng các xử lý trung gian dẫn đến sai số cộng hưởng. Một hướng khác đó là đưa phương pháp vào vận dụng trong thực tiễn nhằm đánh giá mức độ sao chép của các nội dung bài báo, kết quả công trình nghiên cứu, bài luận… trong các lĩnh vực như giáo dục, xuất bản.
III.2. Kiến nghị
Với những nghiên cứu bước đầu và có được một số kết quả khả quan của đề tài. Nhóm nghiên cứu nhận thấy, như đã đề cập ở phần cấp thiết, nhằm nâng cao hơn nữa chất lượng đào tạo và trong đó đặc biệt chú trọng đến việc học thực, làm thực về chuyên môn đối với sinh viên, chúng ta cần có một hệ thống trợ giúp cho việc kiểm tra đánh giá thực chất kết quả học thuật của sinh viên qua các bài viết, bài luận, bài kiểm tra...
Hệ thống này có thể khai thác sử dụng các công cụ có sẵn trên thị trường, tuy nhiên để đồng bộ với các hệ thống quản lý đào tạo và hệ thống thư viện thì
TÀI LIỆU THAM KHẢO
Tiếng Việt
[V1]. Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006.
[V2]. Cao Hoàng Trụ, Nguyễn Lê Minh. Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc. Pages 11. 2006
[V3]. Phan Thị Tươi, Nguyễn Quang Châu, Cao Hoàng Trụ. Gán nhãn từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất. Tạp chí phát triển KH&CN, tập 9, số 2 -2006
[V4]. Nguyễn Cẩm Tú, Phan Xuân Hiếu, JvnSegmenter -
http://jvnsegmenter.sourceforge.net, Đại học Công nghệ -Đại học Quốc gia Hà Nội.
[V5]. [Tha14] Trần Ngọc Anh, Nguyễn Phương Thái, Một số phép đo độ tương tự ngữ nghĩa tiếng Việt, Kỷ yếu hội thảo khoa học hướng tới việc xây dựng mạng từ tiếng Việt – Đề tài Khoa học công nghệ cấp Nhà nước: “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lý văn bản tiếng Việt”, pp. 59-75, 2014.
[V6]. [Nga10] Đỗ Thị Thanh Nga, Tính toán độ tượng tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ, Luận văn thạc sỹ, ĐHCN - ĐHQGHN, 2010. [V7]. [Ha12] Phan Thị Hà, Nghiên cứu xây dựng, chuẩn hóa và khai thác kho ngữ
liệu từ nguồn Internet cho xử lý tiếng Việt, Luận án tiến sĩ, Học viện BCVT, 2012.
[V8]. [Wiki] http://vi.wikipedia.org/
Tiếng Anh
[A1]. [Kri06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey (2006). Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94-98
[A2]. [Zha08] Palakorn Achananuparp, Xiaohua Hu, Xiaohua Zhou, Xiaodan Zhang, Utilizing Sentence Similarity and Question Type Similarity to
Response to Similar Questions in Knowledge-Sharing Community, Proceedings of QAWeb 2008 Workshop, Beijing, China, 2008.
[A3]. [Nan10] Sheetal A. Takale, Sushma S. Nandgaonkar, Measuring Semantic Similarity between Words Using Web Documents, (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 1, No.4, pp. 78-85, 2010.
[A4]. [Che13] Xianying HUANG, Jinpeng ZHANG, Hongyang CHEN, Weiwei CHEN, Research on Text Similarity Algorithm Based on Paragraph Random Walk, Journal of Computational Information Systems, vol.9, no.22, pp. 9103– 9110, 2013.
[A5]. [She12] Yuhua Li, Zuhair Bandar, David McLean and James O’Shea, A Method for Measuring Sentence Similarity and its Application to Conversational Agents, In: The 17th International FLAIRS Conference, Florida, USA. AAAI Press. 6, 2012.
[A6]. [She06] Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 18, NO. 8, pp.1138-1150, 2006.
[A7]. [Mih07] Ravi Sinha and Rada Mihalcea, Unsupervised Graph-based Word Sense Disambiguation Using Measures of Word Semantic Similarity, Proceeding ICSC '07 Proceedings of the International Conference on Semantic Computing, Pages 363-369, 2007.
[A8]. [Pta12] Tomás Ptácek, Advanced Methods for Sentence Semantic Similarity, Master Thesis, University of West Bohemia - Department of Computer Science and Engineering, 2012.
[A9]. [Zah12] A. S. Bin-Habtoor and M. A. Zaher, A Survey on Plagiarism Detection Systems, International Journal of Computer Theory and Engineering Vol. 4, No. 2, 2012.
[A10]. [Abu12] Ahmed Hamza Osman, Naomie Salim, and Albaraa Abuobieda, Survey of Text Plagiarism Detection, Computer Engineering and Applications Vol. 1, No. 1, June 2012.