Kết quả so sánh

Với dữ liệu thực nghiệm trên, giả định với ngưỡng so sánh 0.7 (tự nhập vào từ bàn phím) các đoạn văn có độ tương đồng với đoạn văn nhập vào cao hơn ngưỡng được tô đậm.

4. Đánh giá kết quả thực nghiệm

Trên cơ sở kết quả thực nghiệm, có thể nhận thấy rằng việc giải quyết bài toán phát hiện nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ là có tính khả thi. Tuy vậy vẫn còn nhiều vấn đề cần được nghiên cứu để giải quyết như (1) xác định giá trị ngưỡng sao cho tối ưu, (2) trong trường hợp một vấn đề mới đưa ra xin ý kiến nếu ma trận ban đầu xây dựng chưa có những tài liệu đề cập tới vấn đề này độ chính xác không cao, (3) chưa xử lý được các tình huống phủ định trong tiếng Việt, ví dụ “Đa số nhất trí với phương án được xin ý kiến” với “Đa số không nhất trí với phương án được xin ý kiến” hay “Chúng ta không quyết vấn đề này” với “Chúng ta không thể không quyết vấn đề này”.

KẾT LUẬN

Đề tài của luận văn là nghiên cứu các giải pháp tự động phân tích nội dung giống nhau trong tổng hợp ý kiến thảo luận, góp ý trong Hội nghị. Bài toán cũng xuất phát từ thực tế trong công tác tổng hợp ý kiến thảo luận tổ ở các Hội nghị Ban Chấp hành Trung ương. Hiện tại, Văn phòng Trung ương Đảng đã xây dựng và đưa vào sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương phục vụ công tác tổng hợp các ý kiến của Trung ương thảo luận tại tổ về các vấn đề, chủ trương hết sức quan trọng đối với đất nước. Phần mềm Hỗ trợ tổng hợp ý kiến đã góp phần nâng cao chất lượng, thời gian tổng hợp, giúp lãnh đạo Văn phòng Trung ương và những cán bộ làm công tác tổng hợp có thể xem xét, đánh giá lại những kết quả đã tổng hợp, từ đó không ngừng nâng cao chất lượng biên tập, tổng hợp; đồng thời góp phần nâng cao hiệu quả hoạt động của các hệ thống công nghệ thông tin trong cơ quan.

Một hạn chế của phần mềm Hỗ trợ tổng hợp ý kiến là chưa pháp hiện nội dung trùng thừa trong bản tổng hợp. Việc giải quyết trùng thừa này có ý nghĩa rất quan trọng trong việc hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương. Nó giúp việc tổng hợp được nhanh chóng, chính xác từ khâu biên bản chi tiết, biên bản tổng hợp của 1 tổ và biên bản tổng hợp của tất cả các tổ.

Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương đồng của câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng nhau trong bản tổng hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý kiến dựa trên các thuật toán về xử lý ngôn ngữ tự nhiên. Luận văn đã xây dựng chương trình thực nghiệm cho kết quả tốt, chứng minh khả năng có thể áp dụng giải pháp vào giải quyết bài toán thực tế.

Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau:

- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng độ chính xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng Việt. Kết hợp các bài

toán tính độ tương đồng và phủ định trong tiếng Việt để có giải pháp tối ưu giải quyết vấn đề phát hiện nội dung góp ý giống nhau trong quá trình tổng hợp ý kiến góp ý tại các Hội nghị.

- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ thuật phát hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp tại các Hội nghị Trung ương.

Trong quá trình thực hiện, chắc chắn Luận văn sẽ còn nhiều hạn chế và thiếu sót. Do vậy, tôi mong nhận được sự góp ý của thầy cô và đồng nghiệp quan tâm đến đề tài. Những ý kiến quý báu đó sẽ giúp Luận văn của tôi được hoàn thiện hơn và mang tính thực tiễn cao để có thể áp dụng vào thực tế công tác tại Văn phòng Trung ương Đảng.

Tài liệu tham khảo

Tiếng Việt

1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông tin & truyền thông Đại học Cần Thơ, tr 49-56.

2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức, Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81.

3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr 44 – 46.

4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.

5. https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016.

6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.

Tiếng Anh

7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 .

8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6), pp 391-407.

9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions on Knowledge Discovery from Data, Vol. 2, No.2, Article 10.

10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge.

11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14.

12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL. 18, NO. 8 .

13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpus- based and Knowledge-based Measures of Text Semantic Similarity.

14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese Sentence Similarity Based on Concept”, IFIP International Federation for Information Processing 2014 .

15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and clustering in Vietnamese web documents, Master Thesis, Universtiy of Engineering and Technology, Vietnam National University, Hanoi.

16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of Multipel Sentences.

17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information Content Metric for Semantic Similarity in WordNet.

18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring Semantic Similarity between Words Using Web Documents”, WWW2007: Track:Semantic Web.

19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007),

Comparing Wikipedia and German WordNet by Evaluating Semantic Relatedness on Multipe Datasets.

20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia Category Graph for NLP Applications.

Ma trận được xây dựng lại với k=2