Mô hình hệ thống của CiteSeerX

Hình 16: Kiến trúc CiteSeerX

Ta sẽ tìm hiểu tổng quan về kiến trúc mới của CiteSeerX. Kiến trúc mới về cơ bản gồm 3 lớp :

Storage Layer : đảm nhận việc quản lý và điều khiển truy cập tới các đối tượng

lưu trữ dữ liệu trên máy chủ lưu trữ. Những đối tượng này được quản lý bởi hệ thống quản lý đối tượng số. Mỗi đối tượng số đi kèm theo nó một file mô tả các metadata của đối tượng. nhằm tăng hiệu năng, phần lớn dữ liệu được lấy ra từ các đối tượng ( ví dụ citation graph ) sẽ được lưu trong cơ sở dữ liệu để tăng tốc độ truy cập. Còn các tài liệu đã được phân tích, sẽ được lưu ở ổ cứng dưới dạng thô, và được liên kết với các bản ghi đối tượng.

Application Layer : là tập hợp của module và server trong CiteSeerX

Naming Server : điểm nổi bật trong kiến trúc phân tán của CiteSeerX cho phép tăng hiệu năng của hệ thống bằng cách liên kết nhiều máy chủ trên mạng lại với nhau. Một naming server sẽ đảm nhiệm việc phân phối yêu cầu tới máy chủ thích hợp, để tránh tình trạng quá tải ở một số máy chủ.

Logging Server : tận dụng các logging service riêng lẽ để gom lại và quản lý các

file log. Logging Server là nơi tạo ra và lưu trữ các file log. Mỗi module đang làm việc đều có 1 logging agent làm nhiệm vụ gửi các sự kiện tới logging server.

Crawling Server : crawl dữ liệu về nơi chứa tài liệu đã được quy định trước.

Những tài liệu được xác định thuộc lĩnh vực công nghệ thông tin sẽ được chuyển sang cho Storage Access and Management Interface để chuyển vào máy chủ lưu trữ.

Storage Access and Management Interface : cung cấp giao diện liên kết tới máy

chủ lưu trữ để thực hiện nhiều mục đích. Đầu tiên, để có thể truy nhập ngay lập tức tới máy chủ lưu trữ, nó cung cấp một chuẩn mặc định cho các phương thức cần truy nhập vào máy chủ lưu trữ. Bên cạnh đó, một bộ điều khiển sẽ điều khiển việc truy cập đến nơi lưu trữ thông tin. Cuối cùng, nó đảm nhận vai trò như là một bộ định nghĩa và trả về địa chỉ của các máy chủ lưu trữ, cung cấp một cơ chế mềm dẻo để nâng cấp, cân bằng tải, và bảo trì hệ thống dữ liệu.

Application Servers : cung cấp một giao diện web cho phép người dùng có thể

truy cập tới các module của hệ thống, cũng như các module của nhà cung cấp thứ 3.

User Interface Layer : cung cấp một lớp trừu tượng, đóng vai trò như một web

interface của CiteSeerX và nằm giữa user interface và các application module. Bằng cách này, chúng ta có nhiều giải pháp cho việc cập nhật các thuật toán mới mà không cần băn khoăn tới việc tương thích giữa giao diện người dùng với các trang cá nhân hóa của người dùng.

Bên cạnh các đề xuất về kiến trúc mới, CiteSeerX tiếp tục nâng cấp các dịch vụ đã có để tăng hiệu quả và tính thân thiện với người sử dụng. Các dịch vụ mới đang được tích hợp vào hệ thống :

CiteSeer – Specific Services : những dịch vụ giá trị gia tăng, góp phần tăng

thêm hiệu quả khi sử dụng. Nó cho phép xử lý tìm kiếm thông qua các trích dẫn. Tập hợp của những dịch vụ này bao gồm : metadata extraction service, citation graph service, indexing service, metadata service, electronic repository service, electronic conversion service, duplicate identification...

Acknowledgement Extraction : một thuật toán mới vừa được phát triển, cho

Distributed Usage Logging Service : ngôn ngữ dựa trên XML cho phép quản lý và tìm kiếm thông tin hoạt động của hệ thống. Nó gom việc quản lý và thu thập các logfile vào một đối tượng.

MyCiteSeer : đối tượng các truy vấn nhằm mục tiêu nâng cao hiệu năng tìm

kiếm. Một truy vấn từ một người dùng, sẽ được dựa trên từ khóa, các sở thích của người dùng, cũng như thói quen tìm kiếm, vấn đề quan tâm trong phiên làm việc hiện tại.

Phân dòng dựa trên Support Vector Machine(SVM )

Định biên trên dòng đa tác giả