1. 3 Tóm tắt chương
4.2.3. Thực nghiệm và đánh giá kết quả tìm kiếm trả về thông qua việc mở rộng
việc mở rộng truy vấn
Để thực hiện đánh giá kết quả của việc mở rộng truy vấn, luận văn thực hiện so sánh kết quả và số lượng trả về của hệ thống giữa câu truy vấn ban đầu và câu truy vấn mở rộng. Nhằm thấy được hiệu quả của phương pháp trên, chúng tôi thực hiện lựa chọn câu truy vấn ban đầu không quá phổ dụng, chẳng hạn câu truy vấn ban đầu là “Trạng Lường”. Với câu truy vấn “Trạng Lƣờng”, thông qua việc mở rộng truy vấn được thực hiện theo phương pháp trên, ta có câu truy vấn mở rộng là “Trạng lƣờng” OR “Lƣơng Thế Vinh”.
Chúng tôi thực hiện công việc trên sử dụng máy tìm kiếm Google, đánh giá theo các tiêu chí sau:
Số lƣợng trang web tìm đƣợc
Thực hiện nhập câu truy vấn “Trạng lường” và “trạng lường” OR “lương thế vinh” vào máy tìm kiếm Google, ta xác định được số lượng trang web kết quả trả về. Cụ thể về kết quả theo hình 14 bên dưới.
Bảng 14. Số lƣợng trang web tìm đƣợc khi thực hiện tìm kiếm
Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”
Số lƣợng trang web trả về theo Google
26.800 2.440.000
Số lƣợng trang web có nội dung khác nhau
Máy tìm kiếm Google có thể ước lượng được số lượng trang web có nội dung khác nhau khi tìm kiếm một câu truy vấn. Vì vậy, luận văn thực hiện đánh giá số lượng trang web kết quả trả về có nội dung khác nhau khi nhập hai câu truy vấn trên. Cụ thể về kết quả theo bảng 15 bên dưới.
Bảng 15. Số lƣợng trang web có nội dung khác nhau
Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”
Số lƣợng trang web từ Google 26.800 2.440.000 Số lƣợng trang web khác nhau 584 836
- Với câu truy vấn “trạng lƣờng”, đến trang hiện thị kết quả thứ 59 sẽ gặp thông báo từ Google như sau: Ðể hiển thị cho b ạn những kết quả thích hợp nhất, chúng tôi đã loại b ỏ những kết quả tương tự với 584 kết quả đã được hiển thị. Nếu muốn, bạn có thể lặp lại quá trình tìm kiếm bao gồm c ả những kết quả đã bị loại bỏ.
- Tương tự, với câu truy vấn "trạng lƣờng" OR "lƣơng thế vinh", trang thứ 84 sẽ gặp thông báo: Để hiển thi ̣ cho bạn những kết quả thích hợp nhất, chúng tôi đã loại bỏ những kết quả tương tự với 836 kết quả đã được iển thi ̣. Nếu muốn, bạn có thể lặp lại quá trình tìm kiếm bao gồm cả những kết quả đã bi ̣ loại bỏ.
Số lƣợng trang web thực sự chứa cụm từ truy vấn
Thực hiện kiểm tra và thống kê số trang web có nội dung thực sự chứa câu truy vấn. Kết quả được thể hiện trong bảng 16
Bảng 16. Số lƣợng trang web thực sự chứa cụm từ truy vấn
Câu truy vấn trạng lƣờng trạng lƣờng or lƣơng thế vinh
Số lượng trang web thực sự chứa trong 50 trang web đầu tiên
49 50
Số lượng trang web thực sự chứa trong 100 trang web đầu tiên
92 100
Số lượng trang web thực sự chứa trong 200 trang web đầu tiên
167 198
Số lượng trang web thực sự chứa trong 500 trang web đầu tiên
311 489
Số lượng trang web thực sự chứa trong 650 trang web đầu tiên
380 563
Nhận xét: Với câu truy vấn mở rộng, số lượng kết quả trả về từ máy tìm kiếm nhiều hơn, đồng thời số lượng trang web thực sự chứa cụm từ cần tìm kiếm cũng nhiều hơn. Dựa vào các kết quả của bảng 13, 14,15, ta có thể nhận thấy việc áp dụng mở rộng truy vấn đạt kết quả cao và chính xác hơn.
Kết luận
Nhu cầu tìm kiếm thông tin thông qua Máy tìm kiếm cho ngôn ngữ tiếng Việt ngày càng trở nên cần thiết nhằm khai thác các thông tin hiệu quả. Nhiều bài toán và các phương pháp được đưa ra, bài toán Mở rộng truy vấn là một phần trong số đó. Để xác định phương pháp phù hợp cho bài toán Mở rộng truy vấn với ngôn ngữ tiếng Việt là một phần quan trọng trong quá trình xây dựng một hệ thống tìm kiếm
Luận văn tiếp cận vấn đề trên, tiến hành nghiên cứu và lựa chọn phương pháp xây dựng đồ thị khái niệm dựa vào lịch sử giao dịch của người dùng nhằm phục vụ cho việc giải quyết bài toán Mở rộng truy vấn nhằm tích hợp vào hệ thống tìm kiếm tiếng Việt.
Luận văn đã đạt được những kết quả sau:
- Trình bày một cách có hệ thống một số nội dung liên quan trực tiếp tới bài toán mở rộng truy vấn trong hệ thống tìm kiếm như Xử lý truy vấn đầu vào, Thu thập dữ liệu, Xếp hạng tài liệu để làm rõ ý nghĩa và nội dung của bài toán mở rộng truy vấn trong hệ thống tìm kiếm.
- Phân tích ba phương pháp chính mở rộng câu hỏi là Phương pháp thủ công [13], Phương pháp tự động [1,8, 17], Phương pháp kết hợp [4, 13, 16]. Qua xem xét điều kiện về bộ công cụ xử lý tiếng Việt và kho ngữ liệu tiếng Việt, luận văn định hướng vào phương pháp kết hợp để mở rộng truy vấn tiếng Việt..
- Đề nghị một mô hình Mở rộng truy vấn tiếng Việt dựa trên phương pháp sử dụng tập query log [4]. Thông qua đồ thị khái niệm được xây dựng từ tập các mối quan hệ giữa các câu truy vấn tiếng Việt, luận văn áp dụng mô hình đề nghị vào Hệ thống tìm kiếm tiếng Việt Google.
- Kết quả ban đầu của thực nghiệm cho thấy, tập câu truy vấn mở rộng chứa nhiều thông tin liên quan tới câu truy vấn, có thể hỗ trợ cho người dùng trong việc tìm kiếm chính xác được thông tin mong muốn. Đồng thời, kết quả trả về từ máy tìm kiếm khi nhập các câu truy vấn mở rộng có độ chính xác và số lượng kết quả cao hơn.
Do hạn chế về thời gian và kiến thức có sẵn, luận văn mới chỉ dừng lại ở mức thử nghiệm mô hình trên một số câu truy vấn và áp dụng kết quả đánh giá của bài toán Mở rộng truy vấn vào hệ thống tìm kiếm tiếng Việt. Trong thời gian tới, tiến hành thực nghiệm trên nhiều câu truy vấn có trong tập query log của Google, đồng thời thực hiện tích hợp module Mở rộng truy vấn vào một hệ thống tìm kiếm thực thể tiếng Việt nhằm đáp ứng nhu cầu tìm kiếm của người dùng.
Tài liệu tham khảo Tiếng Anh.
1. Abdullah M. Moussa and Rehab F. Abdel-Kader (2011), QASYO: A Question Answering System for YAGO Ontology (http://www.sersc.org/journals/ IJDTA/ vol4_no2/9.pdf )
2. Alan R. Aronson (1996), Query Expansion Using the UMLS Metathesaurus, Ph.D thesis, National Library of Medicine.
3. Anand Arun Atre (2007), Meta-Search Engine based on Query-Expansion Using Latent Semantic Analysis and Probabilistic Latent Semantic Analysis, Master
thesis.
4. Bruno M. Fonseca, Paulo Golgher, Bruno Pôssas, Berthier Ribeiro-Neto, Nivio Ziviani (2005), Concept-based interactive query expansion, The 14th ACM
international conference on Information and knowledge management: 696 – 703, 2005.
5. David Eichmann (1994), The RBSE Spider – Balancing Effective Search Against Web Load. In Proceedings of the First International World Wide Web Conference,
1994.
6. Daniel Rocco, James Caverlee, Ling Liu, Terence Critchlow (2005), Posters: Exploiting the Deep Web with DynaBot : Matching, Probing, and Ranking. Special
interest tracks and posters of the 14th international conference on World Wide Web, May 2005
7. E. N. Efthimiadis (1996). Query expansion, Annual Review of Information
Systems and Technology, 31:121–187 (http://faculty.washington.edu/efthimis/pubs /Pubs/qe-arist/QE-arist.html ).
8. Ellen M. Voorhees (1993), Using wordnet to disambiguate word senses for text retrieval. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 16th annual international ACM SIGIR conference on
Research and development in information retrieval, pp.171–180. Pennsylvania, United States. 1993.
9. Fabian M. Suchanek, Gjergji Kasneci, Gerhard Weikum (2007), Yago: A Large Ontology from Wikipedia and WordNet. MPI–I–2007–5-003 December 2007
10. Franc A. Grootjen, Theo P. Van Der Weide (2006), Conceptual query expansion.
Data & Knowledge Engineering, Volume 56, Issue 2 (February 2006), pp.174–193. 2006. ISSN: 0169-023X.
11. Ismail Fahmi (2009). Automatic term and relation extraction for medical question
answering system, PhD Thesis, the University of Groningen
12. Kristina Nilsson, Hans Hjelm, Henrik Oxhammar (2005), SUiS–cross-language ontology driven information retrieval in a restricted domain. Proceedings of the
15th Nodalida Conference, pp.139-145. 2005. [online] http://www.ling.su.se/staff /hans/artiklar/nilsson05suis.pdf .
13. Hadi Amiri, Abolfazl Ale Ahmad, Masoud Rahgozar, Farhad Oroumchian (2008),
Query Expansion Using Wikipedia Concept Graph, University of Wollongong in
Dubai – Papers 2008.
14. Huy Nguyen (2010), Mobile search engine using Clustering and Query expansion, Master thesis, San Jose State University, 01/2010
15. Markey, Karen; Cochrane, Pauline Atherton (1981). Online Training and Practice
Manual for ERIC Database Searchers, 2nd edn, Syracuse University, N.Y.
October 1981. ERIC Clearinghouse on Information Resources.
16. Sarmento, L., Teixeira, J., Oliveira, E. (2008). Experiments with query expansion in the raposa (fox) question answering system, In: Borri, F., Nardi, A., Peters, C.
(eds.) Working Notes for the CLEF 2008 Workshop, Aarhus, Denmark, September
17-19 (2008)
17. Rila Mandala, Tokunaga Takenobu, Tanaka Hozumi (1998). The use of WordNet in
information retrieval. Proceedings of Coling-ACL '98 Workshop, pp.191–197.
1998.
18. Robert Krovetz, W. Bruce Croft (1992). Lexical ambiguity and information retrieval. ACM Transactions on Information Systems (TOIS), Volume 10,
Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188
19. Sean McGettrick, Query Expansion, www.ist.psu.edu/faculty_pages/giles/IST497/ presentations/McGettrick.ppt
20. Sérgio Matos, Joel P Arrais, João Maia-Rodrigues, José Luis Oliveira (2010).
Concept-based query expansion for retrieving gene related publications from MEDLINE, BMC Bioinformatics 2010, 11:212.
21. Weining Qian, Hailei Qian, Li Wei, Yan Wang, and Aoying Zhou (2001). Structure-based Query Expansion for XML Search Engine. In Proc. Of 11th International Conference of New Information Technology, pp. 235-242, Beijing, China, 2001.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from