Đánh giá tổng quan về hệ thống

Một phần của tài liệu Tìm hiểu các hệ thống search engine và xây dựng a simple search engine (Trang 48 - 51)

Hệ thống search engine được xây dựng đã đáp ứng được các yêu cầu sau: - Mô hình lại được một hệ thông search engine thực.

- Đã áp dụng được giải thuật phân chia tài liệu vào việc đánh chỉ mục cho tài liệu.

Tuy nhiên do thời gian và khả năng có hạn nên hệ thông được xây dựng vẫn còn nhiều thiếu thiếu sót sau đây là một số hạn chế:

- Do thiếu điều kiện kiểm thử nên hệ thống chỉ mới được chạy thử với số lượng tài liệu nhỏ.

- Do chưa có một bộ tài liệu về các topic chuẩn của tiếng anh nên việc phân nhóm dữ liệu chưa thể đạt kết quả cao.

- Trong quá trình index chưa áp dụng được các thuật toán trích xuất thông tin có độ chính xác cao.

- Chưa áp dụng được việc tính toán và xử lý song song vào hệ thống. 1 điểm rất quan trọng trong các hệ thống Search Engine

2. Kết luận

Các kết quả đạt được:

Tác giả đã thu được nhiều kiến thức về lập trình, khai thác tốt hơn những hỗ trợ của ngôn ngữ lập trình C#, thư viện mã nguồn mở Lucene. Đặc biệt là củng cố những kiến thức đã học được và có thêm những kinh nghiệm, kiến thức trong quá trình nghiên cứu tìm hiểu như:

- Có thêm kiến thức về Search Engine - Cách thức xây dựng một hệ thống Crawl - Các kiến thức về giải thuật và xử lý ngôn ngữ

Những hạn chế:

Trong quá trình làm đề tài này. Tuy đã rất cố gắng, nhưng tác giả đã không thể tránh khỏi một số thiếu sót và hạn chế. Đó chính là những hạn chế đã được tác giả đề cập đến trong phần đánh giá về hệ thống.

Hướng phát triển:

- Tác giả thấy rằng từ mô hình Search Engine đã xây dựng tác giả hoàn toàn có thể phát triển thành một hệ thống tổng hợp tin tức. Ngoài ra có điều kiện thì tác giả sẽ nghiên cứu thêm về các giải thuật trích xuất thông tin, xử lý ngôn ngữ để áp dụng vào hệ thống.

- Xây dựng Search Engine xử lý ngôn ngữ tiếng Việt

Tài liệu tham khảo:

2. Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer, ISBN 3540378812

3. "Internet History - Search Engines" (from Search Engine Watch),

Universiteit Leiden, Netherlands, September 2001

4. Cho, Junghoo; Hector Garcia-Molina (2002). "Parallel

crawlers". Proceedings of the 11th international conference on World Wide Web. Honolulu, Hawaii, USA: ACM. pp. 124–

135.doi:10.1145/511446.511464. ISBN1-58113-449-5. Retrieved

2009-03-23

5. Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the

web". ACM Computing Surveys (ACM Press) 32 (2): 144–

173. doi:10.1145/358923.358934.

6. Donald E. Knuth. The art of computer programming, volume 3: (2nd

ed.) sorting and searching, Addison Wesley Longman Publishing Co. Redwood City, CA, 1998.

7. Basic Vector Space Search Engine Theory LA 2600 – January 2,

2004 - presented by Vidiot

8. Lawrence, Steve; C. Lee Giles (1999-07-08). "Accessibility of

information on the web". Nature 400 (6740): 107.

doi:10.1038/21987. PMID10428673.

9. Vector space mode –Wikipedia 10.Web Crawler- Wikipedia

11.Index (Search Engine) –Wikipedia

12.Lucene in action- Erik Hatcher and Otis Gospodnetić ,ISBN

1932394281

13. Web Search –Wikipedia

Một phần của tài liệu Tìm hiểu các hệ thống search engine và xây dựng a simple search engine (Trang 48 - 51)

Tải bản đầy đủ (DOC)

(51 trang)
w