Ta cần xây dựng một hệ thống quản lý tài liệu khoa học dựa trên mô hình hệ thống tìm kiếm thông tin trên web. Bên cạnh các chức năng của một hệ tìm kiếm chung là biểu diễn lưu trữ dữ liệu, đánh chỉ mục, thu thập, thêm mới tài liệu, đối sánh tìm kiếm thì hệ quản lý tài liệu khoa học còn cần thêm phần xử lý trích chọn thông tin đặc trưng tham chiếu của tài liệu, giúp cho việc tìm kiếm theo các đặc trưng, tham chiếu đó đạt hiệu quả. Sau đây là mô hình kiến trúc tổng quan của hệ thống:
Miêu tả thành phần hoạt động:
• Thu thập thông tin: Tài liệu được thu thập vào kho dữ liệu của hệ thống qua
2 cách:
o Tự động thu thập trên Web: Thành phần Crawler tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu.
o Người dùng thêm vào: người sử dụng có thể thêm tài liệu vào hệ thống bằng cách cung cấp đường link đến tài liệu. Hệ thống sau đó sẽ tự duyệt đường link để tìm tài liệu và các tài liệu liên kết tới tài liệu này qua đường link trong đó nhờ bộ Crawler.
• Lưu trữ, cập nhật tài liệu : Tài liệu được lưu trong kho dữ liệu của hệ thống.
Kho dữ liệu sẽ lưu trữ các tài liệu thu thập được ở dạng gốc, hỗ trợ cho người dùng tải về cùng với các thông tin được xử lý trích chọn như các bảng cơ sở dữ liệu, mô tả đặc trưng, tham chiếu, các chỉ mục, … giúp người dùng tìm kiếm.
Người dùng có thẩm quyền sẽ được phép chỉnh sửa nội dung, thông tin đặc trưng của tài liệu (sửa lỗi, cập nhật, xóa) giúp tài liệu chuẩn hóa, hoàn thiện.
• Trích rút thông tin : Tài liệu thu thập về được bộ phận phân tách dữ liệu
trích chọn những thông tin về đặc trưng, tham chiếu, lưu vào trong các bảng cơ sở dữ liệu của kho dữ liệu. Bộ phân tách dữ liệu bao gồm một số thành phần cơ bản như trích rút nội dung (chuyển định dạng từ file pdf,ps sang file
text), kiểm tra phần tài liệu tham khảo của bài viết, trích chọn thông tin metadata và citatons của nó…
• Xử lý tìm kiếm : Những yêu cầu tìm kiếm của người dùng được biểu diễn bằng các câu truy vấn và đối sánh với thông tin đã xử lý để trả về kết quả phù hợp. Hệ thống cũng tiến hành đánh chỉ mục cho nội dung bài viết, cho metadata, citations của nó giúp cho tìm kiếm nhanh, chính xác hơn.