Hệ thống search engine được xây dựng đã đáp ứng được các yêu cầu sau: - Mô hình lại được một hệ thông search engine thực.
- Đã áp dụng được giải thuật phân chia tài liệu vào việc đánh chỉ mục cho tài liệu.
Tuy nhiên do thời gian và khả năng có hạn nên hệ thông được xây dựng vẫn còn nhiều thiếu thiếu sót sau đây là một số hạn chế:
- Do thiếu điều kiện kiểm thử nên hệ thống chỉ mới được chạy thử với số lượng tài liệu nhỏ.
- Do chưa có một bộ tài liệu về các topic chuẩn của tiếng anh nên việc phân nhóm dữ liệu chưa thể đạt kết quả cao.
- Trong quá trình index chưa áp dụng được các thuật toán trích xuất thông tin có độ chính xác cao.
- Chưa áp dụng được việc tính toán và xử lý song song vào hệ thống. 1 điểm rất quan trọng trong các hệ thống Search Engine
2. Kết luận
Các kết quả đạt được:
Tác giả đã thu được nhiều kiến thức về lập trình, khai thác tốt hơn những hỗ trợ của ngôn ngữ lập trình C#, thư viện mã nguồn mở Lucene. Đặc biệt là củng cố những kiến thức đã học được và có thêm những kinh nghiệm, kiến thức trong quá trình nghiên cứu tìm hiểu như:
- Có thêm kiến thức về Search Engine - Cách thức xây dựng một hệ thống Crawl - Các kiến thức về giải thuật và xử lý ngôn ngữ
Những hạn chế:
Trong quá trình làm đề tài này. Tuy đã rất cố gắng, nhưng tác giả đã không thể tránh khỏi một số thiếu sót và hạn chế. Đó chính là những hạn chế đã được tác giả đề cập đến trong phần đánh giá về hệ thống.
Hướng phát triển:
- Tác giả thấy rằng từ mô hình Search Engine đã xây dựng tác giả hoàn toàn có thể phát triển thành một hệ thống tổng hợp tin tức. Ngoài ra có điều kiện thì tác giả sẽ nghiên cứu thêm về các giải thuật trích xuất thông tin, xử lý ngôn ngữ để áp dụng vào hệ thống.
- Xây dựng Search Engine xử lý ngôn ngữ tiếng Việt
Tài liệu tham khảo:
2. Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer, ISBN 3540378812
3. "Internet History - Search Engines" (from Search Engine Watch),
Universiteit Leiden, Netherlands, September 2001
4. Cho, Junghoo; Hector Garcia-Molina (2002). "Parallel
crawlers". Proceedings of the 11th international conference on World Wide Web. Honolulu, Hawaii, USA: ACM. pp. 124–
135.doi:10.1145/511446.511464. ISBN1-58113-449-5. Retrieved
2009-03-23
5. Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the
web". ACM Computing Surveys (ACM Press) 32 (2): 144–
173. doi:10.1145/358923.358934.
6. Donald E. Knuth. The art of computer programming, volume 3: (2nd
ed.) sorting and searching, Addison Wesley Longman Publishing Co. Redwood City, CA, 1998.
7. Basic Vector Space Search Engine Theory LA 2600 – January 2,
2004 - presented by Vidiot
8. Lawrence, Steve; C. Lee Giles (1999-07-08). "Accessibility of
information on the web". Nature 400 (6740): 107.
doi:10.1038/21987. PMID10428673.
9. Vector space mode –Wikipedia 10.Web Crawler- Wikipedia
11.Index (Search Engine) –Wikipedia
12.Lucene in action- Erik Hatcher and Otis Gospodnetić ,ISBN
1932394281
13. Web Search –Wikipedia