Giới thiệu về CiteSeerX

1.1 Dự án SeerSuite

Có nhiều công cụ được cộng đồng mạng phát triển hỗ trợ cho việc xây dựng hệ thống quản lý tìm kiếm và trích rút thông tin từ tài liệu và SeerSuite là một trong

những bộ công cụ thông dụng được người phát triển sử dụng. Nó là bộ các công cụ

mã nguồn mở được viết bằng Java và được chia sẻ miễn phí tại

http://www.sourgeforge.net. Nó cung cấp một số dịch vụ, kĩ thuật, bộ dữ liệu và

phần mềm ứng dụng hỗ trợ tạo thư viện số quản lý, tìm kiếm tài liệu như

CiteSeerX, ChemXSeer, ArchSeer,…

Mỗi công cụ trong SeerSuite là một dịch vụ, module riêng rẽ có thể thực hiện các tác vụ riêng hay tích hợp vào các ứng dụng khác nhau nhằm tạo ra hệ thống quản lý lớn, hỗ trợ đa tính năng, linh hoạt, hiệu quả. Các công cụ đó một số là kết quả nghiên cứu của giáo sư, giảng viên trường đại học Pennsylvania State University, một số được cộng động mạng phát triển và cung cấp miễn phí.

Để có thể sử dụng và xây dựng cài đặt hệ thống quản lý tìm kiếm tài liệu khoa học dựa trên bộ mã mở SeerSuite yêu cầu người phát triển cần có những hiểu biết, kinh nghiệm về một số phần mềm ứng dụng để cài đặt, cấu hình, xây dựng các thành phần chức năng cho hệ thống.

1.2 Dự án CiteSeer

CiteSeer là một dự án mã nguồn mở, với mục tiêu phát triển một thư viện số về các tài liệu khoa học, bao gồm search engine với khả năng tự động tìm – tải dữ liệu và đánh chỉ mục cho các tài liệu khoa học, đặc biệt là các tài liệu trong lĩnh vực công nghệ thông tin.

Điểm đáng chú ý của CiteSeer chính là Autonomous Citation Indexing – ACI – tập trung vào việc trích rút ra các citation ( trích dẫn ) từ những tài liệu khoa học dựa trên các khuôn mẫu tài liệu đã có. Ngoài ra, CiteSeer tự động tìm kiếm và tải về máy chủ các tài liệu khoa học tồn tại trên mạng. Sau khi một tài liệu mới được tải về, nó sẽ được phân tích nhằm mục đích trích rút ra được các thông tin trích dẫn và các metadata ( siêu dữ liệu – những dữ liệu quan trọng của văn bản ) của tài liệu đấy. Sau đó, tài liệu và các citation được đánh chỉ mục để phục vụ cho việc truy vấn từ phía người sử dụng, thông qua giao diện truy vấn người dùng – web interface.

Từ khi dự án được bắt đầu vào năm 1997 cho đến nay, CiteSeer đã có hơn 730 000 tài liệu với hơn 8 triệu citation. CiteSeer đón nhận hơn 800 000 lượt truy cập mỗi ngày, và được hơn 100 000 thành viên chính thức truy cập mỗi tháng, cũng như

xấp xỉ 30 gigabytes dữ liệu lưu thông mỗi ngày. Tuy nhiên, xuất phát từ nhu cầu ngày càng tăng cao về khả năng của hệ thống và sự giới hạn của kiến trúc hiện tại đã khiến những nhà nghiên cứu và phát triển phải thiết kế một kiến trúc mới đảm bảo cho việc dễ dàng mở rộng lưu trữ và an toàn trong vận hành.

Hình 13: Kiến trúc CiteSeer

Đồng thời, khi nhìn lại mục tiêu đặt ra lúc ban đầu của dự án CiteSeer đó là không chỉ phát triển một thư viện số mà còn cần phải có một nền tảng hệ thống linh hoạt, để có thể phục vụ cho nghiên cứu và phát triển các chức năng mới ( các thuật toán khai phá dữ liệu, tìm kiếm thông tin mới... ). Khi có một nền tảng kiến trúc linh hoạt, các nhà nghiên cứu và phát triển đã dễ dàng khi nghiên cứu và thử nghiệm các thuật toán mới.

Nhưng với kiến trúc hiện tại của CiteSeer là kiến trúc monolithic ( nguyên khối ) đã làm giảm sự thuận tiện trong việc quản trị và sửa chữa cũng như làm tăng chi phí vận hành hệ thống.

1.3 Dự án CiteSeerX

Dựa trên thiết kế mới về dữ liệu, CiteSeerX ra đời nhằm khắc phục những nhược điểm tồn tại trong kiến trúc cũ của CiteSeer, với những đặc tính mới :

Extended Data Models : được phát triển từ cách tiếp cận tài liệu cũ, CiteSeerX

thêm vào author và venue vào trong bản ghi hệ thống. Những bản ghi này sẽ ngang hàng về mặt ý nghĩa với tài liệu, và được liên kết với tài liệu.

Virtual Documents : một ý tưởng rất hay của CiteSeerX. Trên thực tế, có nhiều

tài liệu, ta chỉ biết tới nó thông qua danh sách các trích dẫn hay là danh sách các bài báo. Và như thế, ta không thể tìm thấy những tài liệu đấy trên hệ thống. Điều này dẫn tới khái niệm virtual documents, làm chức năng giữ chỗ cho những tài liệu chưa đầy đủ về nội dung, và cho phép hệ thống cập nhật lại thông tin nếu tìm thấy nội dung đầy đủ của tài liệu.

Hình 14: Virtual Document

Digital Objects : để tăng sự mềm dẻo trong vấn đề xử lý các định dạng file và

các kiểu lưu trữ, ta có khái niệm digital object. Nó khác với các đối tượng lưu trữ vật lý của hệ thống. Thay vì sử dụng trực tiếp đối tượng vật lý và chỉ có một kết nối duy nhất tới đối tượng tại một thời điểm, các digital object sẽ được tạo ra và cho phép nhiều kết nói liên kết tới các object vừa tạo. Các kết nối này chỉ cho phép client read-only đối với tài liệu. Bằng cách này, một nơi lưu trữ - tức là cùng một file tài liệu khoa học - có thể được sử dụng bởi nhiều client cùng một lúc.

Tính tới thời điểm này, CiteSeerX đang có hơn 1,599,903 tài liệu cùng hơn 31,041,147 citations. Không chỉ vậy, nó đã vươn lên đứng thứ 2 trong bảng xếp hạng của Web of World Repositories.

Phân dòng dựa trên Support Vector Machine(SVM )

Định biên trên dòng đa tác giả