Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm và một hệ tìm kiếm tiếng Việt Nguyễn Thị Thu Chung Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60.48.05 Người hướng dẫn: PGS.TS Hà Quang Thụy Năm bảo vệ: 2011 Abstract: Trình bày các vấn đề khái quát, tổng quan về độ tương tự câu truy vấn. Nghiên cứu các hướng tiếp cận khác nhau, nhằm giải quyết bài toán tính độ tương tự câu truy vấn trong máy tìm kiếm, đó là các phương pháp: phương pháp thống kê, phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm. Đề xuất một cải tiến về việc đưa thêm giá trị trọng số cho các liên kết web để nâng cao độ chính xác của kết quả trả về. Xây dựng phần mềm thực nghiệm thi hành mô hình đề xuất, thực thi việc tạo thành truy vấn mới. Thực nghiệm, luận văn sử dụng cách đánh giá định tính, lấy 10 cặp câu truy vấn tương tự nhau đầu tiên trong khối dữ liệu đưa vào thực nghiệm để đánh giá đồng thời tạo ra câu truy vấn tổng hợp để cùng đưa vào truy vấn tại máy tìm kiếm Google tiếng Việt, thấy kết quả trả về là phù hợp với kết quả tính độ tương tự của các truy vấn tương ứng Keywords: Tìm kiếm thông tin; Nhận dạng mẫu hình; Tin học; Câu truy vấn Content MỞ ĐẦU Tìm kiếm thông tin trên web là nhu cầu không thể thiếu trên thế giới cũng như ở Việt Nam. Với tốc độ phát triển internet rất nhanh chóng và mạnh mẽ tại Việt Nam, theo báo cáo mới đây – tháng 4/2011 của Netcitizens [20], Việt Nam là quốc gia có tỷ lệ tăng trưởng Internet nhanh nhất trong khu vực và nằm trong số các quốc gia có tỷ lệ tăng trưởng cao nhất thế giới. Từ năm 2000 đến nay số người sử dụng Internet đã nhân lên khoảng 120 lần. Việc sử dụng trang web tìm kiếm chiếm 92% trên tổng các hoạt động trực tuyến [20]. Trong bối cảnh, lượng thông tin trên Internet ngày càng lớn và cập nhật kịp thời như hiện tại thì người dùng càng cần một công cụ để tìm kiếm những thông tin họ cần một cách hiệu quả nhất. Trong các hệ thống tìm kiếm, hầu hết các truy vấn đặt ra là từ khóa, cụm từ khóa hoặc là một đoạn văn bản ngắn. Biểu diễn lại, làm truy vấn phù hợp hơn là một bài toán đặc trưng trong các hệ tìm kiếm, trong đó mở rộng truy vấn (query expansion) và biểu diễn truy vấn có tính tương tự (query similarity) là hai giải pháp điển hình nhất. Nhiều công trình nghiên cứu về tính tương tự truy vấn cũng như tính tương tự của các văn bản ngắn đã được công bố, chẳng hạn như [18][7][1][8]. Tính tương tự văn bản không chỉ hỗ trợ việc biểu diễn lại truy vấn mà còn được sử dụng trong nhiều bài toán khác, chẳng hạn như bài toán phân cụm truy vấn. 2 Luận văn với đề tài “Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt” thực hiện khảo sát, nghiên cứu các phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm. Từ đó đưa ra hướng phát triển cho phương pháp tính độ tương tự truy vấn phù hợp để áp dụng thử nghiệm vào một hệ tìm kiếm tiếng Việt. Đồng thời, luận văn cũng tiến hành đánh giá ở bước cuối cùng để đưa ra so sánh giữa việc tìm kiếm thông thường trên máy tìm kiếm tiếng Việt với việc sử dụng tính độ tương tự truy vấn để đưa ra câu trả lời. Trong thời gian tiếp theo, luận văn sẽ nghiên cứu để áp dụng tính độ tương tự câu hỏi và áp dụng vào hệ tìm kiếm thực thể Tiếng Việt. Luận văn được trình bày thành bốn chương, nội dung được trình bày sơ bộ như dưới đây: Chương 1. Bài toán tính độ tương tự truy vấn trong máy tìm kiếm Chương 2. Các phương pháp tính độ tương tự truy vấn Chương 3. Mô hình đề xuất và thực nghiệm Phần kết luận: Tổng kết, tóm lược nội dung và kết quả đạt được của luận văn. References Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam. [2] Nguyễn Thị Thu Chung (2009). Xây dựng danh bạ web Tiếng Việt với phương pháp phân cụm phân cấp văn bản, Khóa luận đại học, Trường Đại học Công nghệ, ĐHQGHN. [3] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy (2009). Xây dựng danh bạ web tiếng Việt với phân cụm phân cấp văn bản, Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XII, Đồng Nai, 5-7/8/2009. Tài liệu tiếng Anh [4] Amac Herdagdelen, Massimiliano Ciaramita, Daniel Mahler, Maria Holmqvist, Keith Hall, Stefan Riezler, Enrique Alfonseca (2010). Generalized syntactic and semantic models of query reformulation, SIGIR 2010: 283-290. [5] Bodo Billerbeck (2005). Efficient Query Expansion, PhD Thesis, RMIT University, Australia. [6] Caroline Gherbaoui (2008). Similarity Measures for Query Expansion in TopX, Master Thesis, Universität des Saarlandes. [7] Donald Metzler, Susan T. Dumais, Christopher Meek (2007). Similarity Measures for Short Segments of Text, ECIR 2007: 16-27. [8] Eui-Kyu Park, Seong-In Moon, Dong-Yul Ra, Myung-Gil Jang (2002). Web Document Retrieval Using Sentence-Query Similarity, TREC 2002. [9] Fan Yang, Bin An, Xizhao Wang (2009), Co – clustering for queries and corresponding advertisement, Machine Learning and Cybernetics, International Conference on 2009. 3 [10] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro(2005), Semantic Similarity Between Sentences Through Approximate Tree Matching. IbPRIA (2) 2005: 638-646. [11] Fu, L., Goh, H. L., Foo, S. B., & Na, J. C. (2003). Collaborative querying through a hybrid query clustering approach. Conference on Asian Digital Libraries (6th:2003:Malaysia). [12] Ji-Rong Wen, Jian – Yun Nie, Hong-Jiang Zhang (2002), Query Clustering Using User Logs, ACM Transactions on Information Systems, Vol. 20, No. 1, January 2002. [13] Jose R. Perez-Aguera, Lourdes Araujo (2008). Comparing and Combining Methods for Automatic Query Expansion, Advances in Natural Language Processing and Applications Research in Computing Science, 33: 177-188. [14] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008). Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, 17 th International World Wide Web Conference, 2008. [15] Ricardo Baeza-Yates, Carlos Hurtado, Marcelo Mendoza (2004), Query Recommendation Using Query Logs in Search Engines, In Current Trends in Database Technology - EDBT 2004 Workshops, Vol. 3268/2004 (18 November 2004), pp. 588- 596. [16] Siddharth Patwardhan (2003). Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN. [17] Wen-tau Yih, Christopher Meek (2007). Improving Similarity Measures for Short Segments of Text. Microsoft Research One Microsoft Way Redmond, WA 98052, USA, 2007, pp 1489-1494. [18] Wesley W. Chu, Guogen Zhang (1997). Associative query answering via query feature similarity, Intelligent Information Systems (IIS '97): 405-409. [19] Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett (2006), Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE Trans. on Knowl. and Data Eng. 18(8): pp 1138-1150. [20] http://sites.google.com/site/netcitizens/ [21] http://itim.vn/users/home [22] http://en.wikipedia.org/wiki/Query_expansion [23] http://www.google.com.vn/ . với đề tài Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm vào một hệ tìm kiếm thực thể tiếng Việt” thực hiện khảo sát, nghiên cứu các phương. luận văn sẽ nghiên cứu để áp dụng tính độ tương tự câu hỏi và áp dụng vào hệ tìm kiếm thực thể Tiếng Việt. Luận văn được trình bày thành bốn chương, nội dung được trình bày sơ bộ như dưới đây:. Nghiên cứu, phát triển phương pháp tính độ tương tự truy vấn trong hệ tìm kiếm và ứng dụng thử nghiệm và một hệ tìm kiếm tiếng Việt Nguyễn Thị