Đánh giá kết quả thực nghiệm

Đánh giá kết quả của một danh sách các từ khố là một việc làm rất khĩ khăn trong thời điểm hiện tại. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các chuyên gia ngơn ngữ, hay người quản trị website. Những từ khố phải mang ý nghĩa cao, nĩi lên được nội dung của trang web. Các từ khố phải là những từ khố phải nĩi lên được những cái riêng của trang web.

Với lượng trang web được sinh từ khĩa khá nhiều cả bằng tiếng Việt và tiếng Anh, tơi cĩ một số nhận xét như sau. Các trang tiếng Anh thường được tổ chức tốt hơn, với ít lỗi HTML. Phương pháp áp dụng độ quan trọng của thẻ HTML cĩ ưu điểm hơn các phương pháp khác với các từ khĩa sinh ra thỏa mãn các tính chất phổ biến cũng như đặc trưng của trang web. Nĩ tốt đối với cả trang web dạng portal và các trang web dạng dữ liệu tập trung.

Trong thực nghiệm này, đối với phương pháp dùng đồ thị web, do thời gian cĩ hạn nên tơi chỉ giới hạn số từ khĩa trả về. Thời gian để chạy cho một trang với phương pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm: google, yahoo, altavista ), các kết quả trả về thường lớn. Hơn thế nữa các kết quả này lại trùng nhau về từ khĩa nhiều, xảy ra tình trạng tải các trang về lớn nhưng sinh ra từ khĩa lại ít. Phương pháp này là một đánh giá tốt của người dùng, người viết trên các trang web khác khi nghĩ về trang web cần sinh từ khĩa. Nếu cĩ thời gian để xét trên tồn bộ các trang cĩ liên kết trỏ tới, kết quả của phương pháp sẽ tốt hơn.

Đối với log chúng tơi sử dụng, số lượng trang web trong nĩ chỉ chiếm lượng nhỏ của Internet, cho nên đối với một số trang tiếng Anh khơng xuất hiện trong log, hoặc xuất hiện ít làm cho kết quả sinh từ khĩa chưa được đa dạng. Phương pháp này đã được áp dụng trong các phần mềm sinh từ khĩa nổi tiếng như GoogleAdwords [31]. Nếu cĩ những log lớn, thì việc phân tích sẽ cho nhiều kết quả thêm, nâng cao sự chính xác và nhiều sự lựa chọn từ khĩa.

Kết luận

Khĩa luận đã hệ thống hĩa được các vấn đề của bài tốn trích xuất từ khĩa cho trang web bao gồm khảo sát về các từ khĩa trong các ứng dụng, cách tiếp cận bài tốn kèm theo các đánh giá nhận xét. Đặc biệt, khĩa luận đã nêu ra một số phương pháp mới áp dụng trên dữ liệu web: độ quan trọng của các thẻ trong HTML, đồ thị web. Đồng thời, khĩa luận cũng đã đề xuất ra một mơ hình thực thi bằng việc sử dụng việc phân tích trực tiếp trên các trang dựa vào nguồn thơng tin sẵn cĩ, chứ khơng cần phải mất thời gian học. Thực nghiệm trên dữ liệu tiếng Anh, và tiếng Việt cho kết quả khá khả quan. Các nội dung chính của khĩa luận được đề cập tĩm lược dưới đây.

Khảo sát các ứng dụng của từ khĩa trong các dịch vụ quảng cáo trên máy tìm kiếm, trong tìm kiếm thơng tin, trong hoạt động quảng bá web, phân loại web. Và tơi cũng đã trình bày những khĩ khăn, thách thức của bài tốn đối với miền dữ liệu Web, đồng thời cũng phân tích những lợi điểm mà web đem lại.

Trình bày cơ bản về các phương pháp trích xuất từ khĩa trong các văn bản, một số phương pháp học máy, sử dụng log đã áp dụng trên dữ liệu web. Tơi cũng đã so sánh, kết hợp nhiều phương pháp khác nhau để cĩ thể phân tích và đưa ra phương pháp riêng.

Khĩa luận đưa ra được hướng giải quyết bài tốn theo cách tiếp cận khơng chỉ dựa trên nội dung của trang, mà cịn xét đến các thơng tin khác liên quan đến trang web như : đồ thị web, log. Khĩa luận cũng trình bày được mơ hình thực thi cụ thể cho các phương pháp, từ đĩ cĩ thể dễ dàng mã hĩa.

Kết quả thực nghiệm, quá trình thực nghiệm được trình bày chi tiết. Nhiều thực nghiệm đã được thực hiện nhiều lần để cĩ thể tìm ra được mơ hình tốt nhất, và kết quả của khĩa luận cũng đạt được khả quan, cĩ thể áp dụng trong thực tế.

Hướng phát triển tiếp theo

Mặc dù kết quả thu được của khĩa luận là đáng khích lệ và khá tốt nhưng do thời gian cĩ hạn việc ước lượng các trọng số cho các phương pháp cĩ thể chưa được tối ưu. Trong thời gian tới, tơi sẽ tiến hành thu thập thêm các dữ liệu và hồn thiện những gì cịn thiếu sĩt của các mơ đun đã đề xuất.

Cũng trên cơ sở đã đạt được của khĩa luận, tơi dự định xây dựng một hệ thống hồn thiện để tích hợp vào các máy tìm kiếm, và các trang báo với độ chính xác cao hơn, tiện dụng và thời gian chạy nhanh hơn.

Bài tốn trích xuất từ khĩa cho trang web là bài tốn mới và nhiều phần cịn liên quan đến ngữ nghĩa, xử lý ngơn ngữ tự nhiên. Tơi sẽ cố gắng tìm hiểu thêm các lĩnh vực liên quan như tĩm tắt văn bản tự động, nâng cao chất lượng tìm kiếm trang web với từ khĩa....

Tài liệu tham khảo.

Tiếng Việt

[1] Phạm Thị Thu Uyên, Hồng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tĩm tắt văn bản Tiếng Việt, Cơng trình Sinh viên Nghiên cứu khoa học 03/2008

[2] Website: http://vietseo.net

[3] Website: http://vi.wikipedia.org/wiki/HTML [4] SEO http://vi.wikipedia.org/wiki/SEO/

Tiếng Anh

[5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG. Automatic Keyword Extraction from Documents Using Conditional Random Fields. China. Journal of Computational Information Systems4:3(2008) 1169- 1180.

[6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from http://instruct.uwo.ca/gplis/677/texnet32/wwwnet32.htm

[7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description Construction. Informing Science; 2003, Vol. 6, p1-12, 12p

[8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword Extraction For Internet News Articles. International Journal of Innovative Computing, Information and Control Volume 4,Number 4,April 2008.

[9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning. Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999.

[10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW Conf., 1997.

[11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf. Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714.

[12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM. 1969.

[13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of research development.

[14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web through connectivity. Proc. 6th WWW Conf., 1997.

[15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM , 1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May 1997.

[16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative filtering for sponsoreed search term recommendation. In Second Workshop on Sponsored Search Auctions, 2006.

[17] M. Sahami and T. Heilman. A web-based kernel function for matching short text snippets. In International Conference on Machine Learning, 2005.

[18] Mori Junichiro, Matsuo Yutaka, Ishizuka Mitsuru, Faltings Boi. Keyword extraction from the Web for Personal Metadata Annotation.Proceedings of the4th International Workshop on Knowledge Markup and Semantic Annotation, (ISWC2004) (2004), pp. 51-60.

[19] P. D. Turney, Learning Algorithms for Keyphrase Extraction, Information Retrieval, 1999.

[20] Qiang Yang, Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang, HongKong Univ of Science and Technology.

[21] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search engine.Proc. 7th WWW Conf.,1998.

[22] S. Chakrabarti and B. Dom, and P. Indyk. Enhanced hypertext classication using hyperlinks. Proc. ACM SIGMOD, 1998.

[23] S. R. Kumar, P. Raghavan, S. Rajagopalan, and A.Tomkins. Trawling emerging cyber-communities automatically. Proc. 8th WWW Conf., 1999.

[24] Soumen Chakrabarti, Data mining for hypertext : A tutorial survey. Volume 1. ACM- 2000.

[25] Vibhanshu Abhishek , Kartik Hosanagar, Keyword generation for search engine advertising using semantic similarity between terms, Proceedings of the ninth international conference on Electronic commerce, August 19-22, 2007, Minneapolis, MN, USA.

[26] Wen-Tau Yih, Joshua Goodman and Vitor Carvalho, Finding Advertising Keywords on Web Pages WWW-06 (The 15th International World Wide Web Conference), June 2006.

[27] Y. MATSUO,M. Ishizuka.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information.International Journal on Artificial Intelligence Tools.2003.

[28] Yasin Uzun. Keyword Extraction Using Naive Bayes. Bilkent University, Department of Computer Science, Turkey.

[29] Yi-fang Brook Wu , Quanzhi Li , Razvan Stefan Bot , Xin Chen, Domain-specific keyphrase extraction, Proceedings of the 14th ACM international conference on Information and knowledge management, October 31-November 05, 2005, Bremen, Germany.

[30] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction Of Chinese Document Using Small World Structure. Department of Computer Science, University of Science and Technology of China.

[31] Google Adwords http://adword.google.com [32] Overture http://searchmaketing.yahoo.com

50 [34] Tf,IDF http://en.wikipedia.org/wiki/Tf-idf [35] Web_portal http://en.wikipedia.org/wiki/Web_portal/ [36] Website: http://searchengineguide.com [37] Website: http://webmasterworld.com [38] WordNet http://wordnet.princenton.edu Cơng cụ và dữ liệu sử dụng

[39] MSN search engine logs. (supported by DAIS Lab, University of Illinois at Urbarna Champaign).

[40] Trang web Tiếng Việt: http://dmoz.org/Tiếng_Việt/

[41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing Toolkit”. [42] Website : http://developers.sun.com/downloads/ [43] Website: http://vietbao.vn [44] Website: http://baomoi.com [45] Website: http://google.com [46] Website: http://search.yahoo.com [47] Website: http://altavista.com

Sử dụng đồ thị web

Nội dung của phương pháp