Hướng phát triển trong tương lai

Một phần của tài liệu Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX. (Trang 68)

C. SVMHeader Parse

3.Hướng phát triển trong tương lai

Các hệ thống thu thập, quản lý và hỗ trợ tìm kiếm tài liệu khoa học kỹ thuật hỗ trợ tốt ngôn ngữ tiếng Việt hiện nay vẫn chưa có, đặc biệt là hỗ trợ tìm kiếm tiếng Việt theo ngữ nghĩa. Với yêu cầu tiếng Việt, ta có những hướng phát triển tiếp theo như sau:

• Cần có 2 server riêng, một hỗ trợ tiếng Anh và 1 hỗ trợ tiếng Việt.

• Can thiệp ở bộ parsing, cụ thể là ở các service phân tách văn bản.

• Can thiệp ở bộ indexing, cụ thể là solr.

• Can thiệp ở các đoạn code hiển thị để support tốt mã tiếng Việt.

Ngoài ra, hệ thống cần thêm những chức năng mới để nâng cao kết quả tìm kiếm

• Tìm kiếm theo hướng người dùng: dựa trên những thông tin về người dùng cũng như các kết quả tìm kiếm trong quá khứ để khoanh vùng kết quả, cho ra kết quả chuẩn xác hơn đối với từng người dùng.

• Hỗ trợ liên kết theo Citation: từ 1 Citation có thể tìm tất cả các tài liệu liên kết tới nó. Việc này sẽ giúp người dùng mở rộng hướng tìm kiếm nhưng vẫn theo chủ đề đang quan tâm.

TÀI LIỆU THAM KHẢO

[1] Automatic Document Metadata Extraction Using Support Vector Machines, in

Proceedings of ACM/IEEE Joint Conference on Digital Libraries (JCDL 2003):

37-48, 2003.

[2] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. ParsCit: a CRF-based citation parser. In development.

[3] CiteSeerX - A Scalable Autonomous Scientific Digital Library, Huajing Li Isaac G. Councill Levent Bolelli Ding Zhou Yang Song Wang-Chien Lee Anand Sivasubramaniam C. Lee Giles.

[4] CiteSeer-API: Towards Seamless Resource Location and Interlinking for Digital Libraries, Yves Petinot, C. Lee Giles, Vivek Bhatnagar, Pradeep B.Teregowda, Hui Han, Isaac Councill.

[5] Indexing and Retrieval of Scientific Literature, Steve Lawrence, Kurt Boolacker, C.Lee Giles , NEC Research Institute.

[6] A Service-Oriented Architecture for Digital Libraries, Yves Petinot, C. Lee Giles, Vivek Bhatnagar, Pradeep B. Teregowda, Hui Han, Isaac Councill.

[7] Conditional Random Fields : An Introduction . Hanna M.Wallach ,Feb 24 2004 . [8] Document Transformation System from Papers to XML Data Based on Pivot

XML Document Method,Yasuto ISHITANI, Corporate Research & Development Center, Toshiba Corporation.

[9] Phân loại văn bản bằng phương pháp Support vector machine , Lương Thị Minh Hồng; Người hướng dẫn khoa học: Nguyễn Linh Giang.

[10] Tìm kiếm thông tin dựa theo ngữ cảnh trên môi trường di động, Đồ án tốt nghiệp K47, Đỗ thị Ngọc Quỳnh. [11] http://en.wikipedia.org/wiki/SeerSuite [12] http://sourceforge.net/projects/citeseerx/ [13] http://citeseerx.ist.psu.edu [14] http://google.com [15] http://crfpp.sourceforge.net/ [16] http://svmlight.joachims.org/

[17] An Introduction to Heritrix - An open source archival quality web crawler - Gordon Mohr, Michael Stack, Igor Ranitovic, Dan Avery and Michele Kimpton.

Một phần của tài liệu Xây dựng hệ thống thu thập, quản lý tài liệu khoa học dựa trên CiteSeerX. (Trang 68)