6. Cấu trúc của luận vă n
3.4.3.2. Thử nghiệm trên 24h với chuyên mục tuyển dụng Cơng nghệ
Chuyên mục thứ hai là tuyển dụng cơng nghệ thơng tin (tuyển dụng việc làm) trong ngành Cơng nghệ thơng tin (CNTT) – một chuyên mục rất hẹp và cĩ số lượng
khá ít. Ngồi phân biệt với các chủ đề khác biệt khác, Crawler cịn phải phân biệt với các tin tức về CNTT và tuyển dụng việc làm trong các ngành khác như tài chính ngân hàng, y khoa, marketing…
Thử nghiệm dừng khi hệ thống download được 22668 tài liệu. Phương pháp học tăng cường tiếp tục thể hiện hiệu suất vượt trội so với hai phương pháp khác trong giai đoạn ban đầu. Cụ thể, với 1500 tài liệu đúng chủ đề đầu tiên, hệ thống học tăng cường cần duyệt khoảng 7500 trang trong khi đĩ focused crawler cần khoảng 10500 trang và breadth-first crawler cần khoảng 16500 trang. Tuy nhiên, tới cuối cuộc thử
nghiệm, focused crawler tỏ ra hiệu quả hơn so với phương pháp học tăng cường.
0 1000 2000 3000 4000 5000 0 1000 5000 10000 15000 20000 22668 Số tài liệu tải về S ố t ài li ệ u đ ún g c h ủ đề
Breadth-first Focused Reinforcement
Hình 3.11: Kết quả thử nghiệm trên 24h với chuyên mục "tuyển dụng cơng nghệ
thơng tin".
Lý do mà focused crawler tỏ ra hiệu quả hơn so với phương pháp học tăng cường ở cuối cuộc thử nghiệm là: Để tìm được "mỏ" link, từ trang chủ, Crawler phải
đi theo chủ đề tuyển dụng thơng thường rồi tới chuyên mục CNTT. Điều này phương pháp học tăng cường làm khá hiệu quả và bắt đầu khai thác mỏ link tìm được sớm nhất. Tới khi tìm được mỏ link, focused crawler tỏ ra khả năng khai thác của mình hiệu quả hơn do trong mỏ link của trang 24h, cĩ rất ít quảng cáo và link trỏ tới các chuyên mục khác. Việc đánh đồng link trong mỏ thể hiện sự hợp lý do cĩ rất ít nhiễu, trong khi học tăng cường tiếp tục phải phân tích anchor text của từng link và text của tồn bộ trang web chứa link đĩ. Ngồi ra do sai số của bộ phân loại văn bản trong trường hợp này cũng khiến cho học tăng cường khơng khai thác hiệu quả.
KẾT LUẬN VÀ KIẾN NGHỊ
Các kết quả thử nghiệm thu được đã cho thấy việc tích hợp modul phân loại văn bản dùng vector hỗ trợ và modul tách từ tiếng Việt sử dụng automata hữu hạn trạng thái xác định kết hợp xác suất thống kê với modul thu thập thơng tin dùng ý tưởng của lý thuyết về học tăng cường đã đáp ứng được mục đích của luận văn đã đề ra. Mục
đích này cũng đã phần nào đề xuất được một phương pháp mới trong việc thu thập tài liệu trong đĩ cĩ tài liệu tiếng Việt theo lĩnh vực chuyên sâu. Kết quả thử nghiệm cũng là một bằng chứng cho thấy việc ứng dụng kỹ thuật học máy (qua phương pháp học tăng cường kết hợp với SVM) là hồn tồn phù hợp với bài tốn thu thập thơng tin của hệ thống tìm kiếm thơng tin theo lĩnh vực chuyên sâu. Hệ thống cĩ khả năng hoạt động trên mơi trường tiếng Việt. Do đĩ, hệ thống cĩ thể phục vụ tốt cho người dùng tiếng Việt. Cùng với chi phí đầu tư cĩ thể chấp nhận được và khả năng linh hoạt của hệ
thống hồn tồn cĩ thể giúp cho các cơ quan, tổ chức xây dựng và duy trì cổng thơng tin điện tửđể tìm kiếm thơng tin về một lĩnh vực chuyên sâu khi cĩ nhu cầu.
Với đề tài này, chúng tơi mong muốn trong thời gian tới, nhĩm làm việc sẽ
hồn thiện và nâng cao độ chính xác của bộ tách từ và nâng cao hiệu quả cho bộ phân loại văn bản bằng cách kết hợp ưu điểm của các phương pháp hiện cĩ; tiếp tục tìm hiểu và phát triển về ranking của bộ Indexer kết hợp với AIR để tính điểm xếp hạng cho tài liệu theo một câu truy vấn; bổ sung các chức năng khơi phục dấu tiếng Việt và chuyển đổi định dạng văn bản với các bảng mã khác nhau về cùng bảng mã UTF-8 cho bộ Searcher. Đặc biệt, thực hiện một hướng mới là xây dựng bộ Crawler cĩ khả năng học trực tuyến (online) hoặc tích hợp modul crawler tập trung với modul crawler học tăng cường trong khi hoạt động. Điều này hứa hẹn sẽ cải thiện được hiệu suất và độ
chính xác của hệ thống thu thập thơng tin theo lĩnh vực chuyên sâu trong tương lai gần.
TÀI LIỆU THAM KHẢO
[1] Andrew McCallum, Kamal Nigam, Jason Rennie, and Kristie Seymore (1999),
Building domain-specific search engines with machine learning techniques, In AAAI-99 Sping sumposium on Intelligent Agents in Cyberspace.
[2] Aixin Sun, EePeng Lim and WeeKeong Ng (2002), "Web Classification Using Support Vector Machine", WIDM'02, McLean, Virginia, USA. Copyright 2002 ACM 1-58113-492-4/02/0011 ... , trang 2.
[3] Babaria Rashmin N (2007), Focused Crawling, A Project Report SubMitted In Partial Fulfilment of the Requirements for the Degree of Master of Engineering. [4] Ching-Chi Hsu, Fan Wu (2006), "Topic-specific crawling on the Web with the
measurements of the relevancy context graph", Inf. Syst. 31(4-5), 232-246.
[5] Chih-Hao Tsai (2006), "MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm", Copyright © 1996-2006 Chih-Hao Tsai (Email: hao520@yahoo.com).
[6] Chih-Wei Hsu and Chih-Jen Lin (2002), "A Comparison of Methods for Multiclass Support Vector Machines", IEEE Transactions On Neural Networks, Vol. 13, No. 2, March 2002.
[7] Doug Cutting, 2004, Lucene in Action, A guide to the Java search engine, Printed in the United States of America
[8] Eyal Even-Dar and Yishay Mansour (2003), "Learning Rates for Q-learning", Journal of Machine Learning Research 5 (2003) 1-25, trang 4.
[9] Filippo Menczer, Gautam Pant and Padmini Srinivasan (2004), Topical Web Crawlers: Evaluating Adaptive Algorithms, ACM Transactions on Internet Technology, Vol. 4, No. 4, Pages 378–419, trang 388-392.
[10]Filippo Menczer, Gautam Pant, Padmini, Srinivasan, Miguel E. Ruiz (2001), "Evaluating topic-driven web crawlers", Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information, (New Orleans, Louisiana, United States), 241-249.
[11]Gautam Pant (2004), Learning to crawler: Classifier-Guided Topical Crawlers, Of a thesis submitted in partial fulfillment of the requirements for the Doctor of Philosophy degree in Business Administration in the Graduate College of The University of Iowa, trang 36.
[12]Ginny Mak (2000), The Implementation of Support Vector Machines using the Sequential Minimal Optimization Algorithm, School of Computer Science McGill University, Montreal, Canada, A Master’s Project Submitted in Partial Fulfilment of Requirements for the Master of Science Degree, Copyright c 2000 by Ginny Mak All rights reserved
[13]Jan Daciuk, Bruce W. Watson, Stoyan Mihov, Richard E. Watson (2000), "Incremental Construction of Minimal Acyclic Finite-State Automata", Association for Computational Linguistics, Volume 26, Number 1, trang 51- 52. [14]Jason Rennie and Andrew Kachites McCallum (1999), "Using Reinforcement
Learning to Spider the Web Efficiently", Proceedings of the Sixteenth International Conference on Machine Learning (ICML).
[15]John C. Platt (1998), Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, In Technical Report MST-TR-98-14. Microsoft research, trang 3-4.
[16]John C. Platt, Nello Cristianini, John Shawe-Taylor (2000), "Large margin DAG’s for multiclass classification", S.A. Solla, T.K. Leen and K.-R. M¨uller (eds.), 547–553, MIT Press.
[17]Jun Yan, Ning Liu, Benyu Zhang, Shuicheng Yan, Zheng Chen, Qian sheng Cheng, Weiguo Fan, Wei-Ying Ma (2005), "OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization", SIGIR’05, Salvador, Brazil. Copyright 2005 ACM 1-59593-034-5/05/0008...
[18]Luís Torgo and Jỗo Gama (1997), "Regression using classification algorithms", Intelligent Data Analysis, 1(4), LIACC - University of Porto.
[19]Michelangelo Diligenti, Frans Coetzee, Steve Lawrence, C. Lee Giles, Marco Gori (2000), "Focused Crawling Using Context Graphs", Proceedings of the 26th International Conference on Very Large Data Bases, (Sept.2000). 527-534.
[20]Porter, (1980), Porter stemmer in Java - An algorithm for suffix stripping, Program, Vol. 14, No. 3, pp 130-137.
[21]Qiang Wu và Ding-Xuan Zhou (2005), "SVM Soft Margin Classifiers: Linear Programming versus Quadratic Programming",
[22]Richard S. Sutton and Andrew G. Barto (2005), Reinforcement Learning: An Introduction, A Bradford Book, The MIT Press Cambridge, Massachusetts London, England.
[23]Stoyan Mihov, Sv. Kliment Ohridski, Fakultet Po, Matematika I Informatika, Kniga Matematika I Mehanika, Annuaire De, L'universite De Sofia, St. Kliment Ohridski (1997), Direct building of minimal automata for given list, In Annuaire de l'Universitd de Sofia "St. KI. Ohridski", volume 91, book 1, pages 38-40. [24]Soumen Chakrabarti, Martin Van Den Berg, Byron Dom (1999), "Focused
crawling: A new approach to topic-specific web resource discovery. Computer Networks, 31(11-16):1623 – 1640, Published by Elsevier Science B.V. All rights reserved, at http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.83.9370 [25]Tom M. Mitchell (1997), Machine Learning, New York, trang 374-383.
[26]Tom White, foreword by Doug Cutting (2009), Hadoop: The Definitive Guide, Copyright © 2009 Tom White. All rights reserved. Printed in the United States of America, trang 1.
[27] (26), trang 18-31. [28](26), trang 428,
[29]Watson, Bruce W (1995), Taxonomies and Toolkits of Regular Language Algorithms, Ph.D. thesis, Eindhoven University of Technology, the Netherlands. Available at www.OpenFIRE.org, trang 26//43.
[30]Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly (2009), "Finite- state description of Vietnamese reduplication", The 7th Workshop on Asian Language Resources, In conjunction with ACL-IJCNLP 2009, Suntec City, Singapore, , trang 4-6.
[31]Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), "Vietnamese Word Segmentation". Faculty of Information Technology National University of HCM City.
[32]Lê Hà An (2003), "A method for word segmentation in Vietnamese",
[33]Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM", Tạp chí BCVT & CNTT.
[34]Phan Xuân Hiếu, Lê Minh Hồng, Nguyễn Cẩm Tú (2008), "Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê",
[35]Nguyễn Thanh Hùng (2006), "Hướng tiếp cận mới trong việc tách từđể phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet", Tạp chí BCVT & CNTT.
[36]Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), "Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, , trang 6,7.
[37]Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, và Hồ Tường Vinh (2008), A Hybrid Approach to Word Segmentation of Vietnamese Texts, C. Martín-Vide, F. Otto, and H. Fernau (Eds.): LATA 2008, LNCS 5196, pp. 240– 249. © Springer-Verlag Berlin Heidelberg 2008.
[38]Vũ Đình Thi, Nguyễn Ngọc Đức, Lê Đại Dương, Trần Đức Khánh (2010), "Efficiently Crawl Topical Vietnamese Web Pages using Machine Learning Techniques", IEEE – RIVF ( Submitted).