.1 – So sánh các hệ thống thư viện điện tử- 123docz.net

Hệ thống Ưu điểm Nhược điểm

IEEEXplore Là thư viện số nổi tiếng trong lĩnh

Cung cấp nhiều tài liệu chất lượng do IEEE và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

hạn chế trong số các tài liệu bởi lĩnh vực và bởi nguồn tài liệu. Nhiều tính năng hỗ trợ người dùng cịn thiếu. ACM Là thư viện số nổi tiếng trong lĩnh

vực công nghệ thông tin.

Cung cấp nhiều tài liệu chất lượng do ACM và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

Có lập chỉ mục và cho phép tìm kiếm hay duyệt các tài liệu ở các nguồn khác.

Là thư viện tính phí. Số lượng tài liệu bị hạn chế trong số các tài liệu bởi lĩnh vực. Nguồn tài liệu khơng đầy đủ.

Nhiều tính năng hỗ trợ người dùng còn thiếu. SpringerLink Là thư viện số nổi tiếng trong nhiều

lĩnh vực.

Cung cấp nhiều tài liệu chất lượng do nhiều tác giả, tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.

Là thư viện tính phí. Nguồn tài liệu khơng đầy đủ.

Nhiều tính năng hỗ trợ người dùng còn thiếu. MAS Là thư viện số lớn và miễn phí,

được hỗ trợ bởi một cơng ty lớn mạnh là Micorsoft.

Có số lượng chỉ mục khá lớn ở nhiều lĩnh vực khác nhau được thu thập từ nhiều nguồn, có chất lượng cao.

Dữ liệu được tổ chức tốt, tiện lợi sử dụng.

Có nhiều tính năng hay, đột phá, giao diện đẹp, dễ sử dụng.

Đang là phiên bản thử nghiệm nên một số lĩnh vực thiếu dữ liệu. Không phải tài liệu nào cũng có nội dung văn bản đầy đủ.

Google Scholar Là thư viện số lớn và miễn phí, được hỗ trợ bởi một cơng ty lớn mạnh là Google.

Số lượng chỉ mục rất lớn. Dữ liệu đa dạng về lĩnh vực và nguồn, nguồn dữ liệu rộng lớn trên internet.

Dữ liệu không được tổ chức tốt như MAS. Giao diện và các tính năng khơng tốt bằng MAS.

CiteSeerX Là thư viện số lớn và miễn phí, được phát triển bởi các chuyên gia đầu ngành trong lĩnh vực phân tích trích dẫn, trích xuất thơng tin. Dữ liệu đa dạng về lĩnh vực và nguồn, nguồn dữ liệu rộng lớn trên internet.

Được phát triển mở, cung cấp nhiều tài nguyên và sự hỗ trợ cho những nhà nghiên cứu khác trong việc xây dựng các thư viện điện tử khác.

Áp dụng nhiều cơng nghệ mới và tốt nhất, có nhiều tính năng hay.

Số lượng chỉ mục vẫn bị hạn chế vì cơ chế crawl dữ liệu là có chọn lọc. Giao diện và một số chức năng không tốt bằng MAS.

Các thư viện này đều có nhiều tính năng tốt với sự đầu tư, hỗ trợ của các tổ chức hay công ty lớn mạnh. Mỗi thư viện đều có ưu điểm riêng của nó, tuy nhiên có một xu thế xuất hiện gần đây là các thư viện miễn phí đang ngày càng nhiều và hồn thiện hơn, miễn phí cũng chính là cách để các thư viện mới tiếp cận người dùng và tăng tính cạnh tranh của mình.

Một thư viện với nhiều tính năng tốt và có các tính năng độc đáo so với các thư viện khác sẽ được đánh giá cao và dễ dàng thành công. Để thực hiện điều này, một thư viện cần phải được phát triển tốt và thử nghiệm nâng cấp ccac1 tính năng mới thường xun. Ngồi ra nếu một thư viện có các tính năng đặc thù dành cho một cộng đồng người dùng nào đó thì sẽ dễ thành cơng trong cộng đồng đó, trong trường hợp đề tài này thì đó chính là cộng đồng các nhà nghiên cứu ở Việt Nam.

3.5 Cách tiếp cận của đề tài

Từ những phân tích ở trên, đề tài đề xuất xây dựng một hệ thống thư viện điện tử chuyên ngành công nghệ thơng tin phục vụ mục đính nghiên cứu thử nghiệm các tính năng mới và ứng dụng trong thực tế. Để xây dựng hệ thống này, đề tài sẽ thu thập một lượng lớn dữ liệu chỉ mục sau đó sẽ tiến hành thử nghiệm nhiều phương pháp xếp hạng khác nhau, từ đó đưa ra các tính năng tốt

Các phương pháp xếp hạng và các chỉ số xếp hạng cần được đánh giá thực tế và thử nghiệm ở nhiều khía cạnh khác nhau để xác định các cách sử dụng phù hợp.

Các hệ thống thư viện điện tử lớn hiện nay đều ở phạm vi thế giới, không hỗ trợ đặc thù cho quốc gia hay cộng đồng nghiên cứu nào, vì vậy một đất nước có cộng đồng nghiên cứu phát triển chưa mạnh như Việt Nam sẽ bị thiếu sót về dữ liệu và gây khó khăn cho các nhà nghiên cứu tìm hiểu, đánh giá về hoạt động nghiên cứu khoa học trong nước. Hệ thống thư viện điện tử trong đề tài sẽ tăng tính cạnh tranh bằng cách cung cấp một tính năng đặc thù cho thị trường Việt Nam đó là hỗ trợ dữ liệu về cộng đồng nghiên cứu khoa học ở Việt Nam, trên dữ liệu này, hệ thống thư viện điện tử sẽ tiến hành thử nghiệm các chỉ số và xây dựng các tính năng mới cho cộng đồng nghiên cứu trong nước.

CHƯƠNG 4: HIỆN THỰC HỆ THỐNG 4.1 Mở đầu 4.1 Mở đầu

Sau khi đã khảo sát, đánh giá các thư viện điện tử hiện có cùng với nền tảng của chúng, việc tiếp theo là xây dựng một hệ thống ứng dụng mới đáp ứng các nhu cầu của riêng mình. Để xây dựng hệ thống, trước tiên cần có dữ liệu, dữ liệu này sẽ được thu thập nhờ web crawler từ nguồn MAS. Dữ liệu sau đó sẽ được tính tốn, tổ chức lại cho tốt. Cuối cùng hệ thống thư viện điện tử sẽ được xây dựng với các tính năng cần thiết. Hệ thống này được xây dựng lên vừa để phục vụ mục đích nghiên cứu tiếp theo của đề tài, vừa có thể triển khai ứng dụng trong thực tế. Đề tài này sẽ thử nghiệm một thư viện điện tử với sự giới hạn là các tài liệu thuộc lĩnh vực công nghệ thơng tin.

4.2 Chương trình thu thập dữ liệu

4.2.1 Khảo sát hiện trạng

Nguồn dữ liệu chỉ mục các bài báo khoa học hiện nay có thể được thu thập từ trên mạng internet dùng web crawler. Việc thu thập dữ liệu ban đầu có thể được thực hiện dễ dàng nhất ở các trang web của các hệ thống thư viện điện tử. Như đã trình bày ở trên, hiện tại có rất nhiều thư viện điện tử chứa các thông tin về bài báo khoa học, sau khi đánh giá các hệ thống đó, chúng tơi quyết định chọn MAS để lấy dữ liệu đầu tiên vì các ưu điểm của nó mà chủ yếu là dữ liệu được tổ chức tốt. Trong tương lai, dữ liệu sẽ được nhập chung với dữ liệu mà DBLP10 cung cấp, sau đó chúng tơi sẽ phát triển thêm chương trình lấy dữ liệu từ các trang khác.

Trong MAS, dữ liệu được tổ chức thành sáu loại đối tượng chính, đó là tác giả (Author), bài báo khoa học (Publication), Hội nghị (Conference), Tờ báo (Journal), Tổ chức (Organization), Từ khóa (Keyword). MAS hỗ trợ nhiều cách

khác nhau để lấy được dữ liệu của các đối tượng này. Một trong các cách là duyệt qua danh sách các đối tượng lần lượt theo ba tiêu chí là: theo lĩnh vực nghiên cứu (Domain), theo lĩnh vực con của lĩnh vực nghiên cứu (Subdomain) và theo năm (Year). Ngồi ra MAS cịn hỗ trợ truy cập thẳng vào trang nội dung của một đối tượng nào đó nếu biết địa chỉ url của nó trong hệ thống. Ta cũng có thể lấy danh sách các đối tượng bằng cách sử dụng chức năng tìm kiếm.

Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS.

Để duyệt qua danh sách các đối tượng, MAS sử dụng url theo phương thức get với cấu trúc nhất định, nhờ vậy có thể tự sinh ra url thích hợp để lấy danh sách này. Từ danh sách, có thể trích xuất thơng tin địa chỉ của từng đối tượng để đi đến trang web về đối tượng đó. Nội dung của các trang này có cấu trúc html đặc trưng, có thể dựa vào đó để phân tích và rút trích thơng tin cần thiết. Thơng tin sau khi lấy được sẽ được lưu vào cơ sở dữ liệu cục bộ.

4.2.2 Phân tích thiết kế

Trong số các cách lấy dữ liệu đã đề cập ở trên thì cách duyệt qua danh sách các đối tượng theo lĩnh vực con (subdomain) là phù hợp nhất để lấy số lượng

lớn dữ liệu, vì kết quả sẽ ít bị trùng lắp, đây cũng là cách duy nhất có thể lấy thơng tin về lĩnh vực của mỗi bài viết. Đối tượng chính cần duyệt qua là các bài viết, các đối tượng khác sẽ được lấy dựa trên sự liên kết đến từng bài viết, ví dụ như mối quan hệ được viết bởi, mối quan hệ xuất bản tại…

Mơ hình hoạt động của chương trình như sau:

Dữ liệu cần lấy chỉ nằm trên một số trang web nhất định, vì vậy crawler được thiết kế sẽ là một dạng crawler tập trung, nó sẽ chỉ tập trung lấy về các trang web chứa dữ liệu cần thiết. Các trang web này không tồn tại sẵn mà chỉ được sinh ra như là kết quả của các câu truy vấn phù hợp, vì vậy crawler sẽ là dạng crawler cho deep web, tức là nó sẽ phải crawl theo các url truy vấn phù hợp được sinh ra chứ không phải chỉ dựa vào các liên kết giữa các trang web với nhau.

Quá trình crawl dữ liệu được tiến hành với nền tảng là một tập các lĩnh vực con cần lấy dữ liệu, chương trình sẽ dựa vào mẫu các url để sinh ra một tập các

MAS Danh sách subdomain Dữ liệu Nội dung html Các mẫu Xử lý Danh sách url URL query Phân tích html

url hạt giống (seeds). Quá trình sẽ duyệt qua các url hạt giống này để đi đến trang danh sách các bài viết, sau đó nó sẽ duyệt qua danh sách các bài viết này để đi đến trang thơng tin chi tiết của bài báo, sau đó nó sẽ đi theo các liên kết ngữ nghĩa của bài báo để lấy về những thông tin liên quan đến bài báo đó. Q trình này được tiến hành theo phương pháp duyệt theo chiều sâu (Depth-First Search), tuy nhiên độ sâu bị giới hạn bởi loại liên kết, nói cách khác về mặt logic nó giống như là duyệt qua các bài báo theo chiều rộng (Breadth-First Search).

Q trình thu thập dữ liệu có thể chia làm 4 bước như sau:

Bước 1: Tạo danh sách url nền tảng.

Từ danh sách các subdomain, và các pattern đã định nghĩa trước, chương trình sinh ra các url nền tảng để duyệt qua các bài viết ở từng lĩnh vực. Danh sách các subdomain được lấy từ trang MAS, các pattern được định nghĩa thông qua việc nghiên cứu mẫu url của trang MAS, các pattern sẽ được liệt kê chi tiết sau đây.

Bước 2: Tải các trang html.

Đầu tiên, chương trình sẽ lấy các url từ danh sách url nền tảng, request lên trang MAS và trả về trang html tương ứng. Khi quá trình crawl đã bắt đầu, chương trình sẽ trích url từ các trang html trước đó để tiếp tục request các trang html về.

Bước 3: Phân tích các trang html.

Khi đã nhận được các trang html, chương trình sẽ tiến hành phân tích nội dung html để lấy các dữ liệu cần thiết. Q trình phân tích được thực hiện dựa vào các pattern của trang html được xác định dựa vào việc phân tích bằng tay các trang html mẫu. Q trình phân tích các trang html này cũng sẽ trích ra các url cần thiết, bổ sung chúng vào danh sách các url sẽ request tiếp theo.

Bước 4: Lưu dữ liệu.

Sau khi thu nhận được dữ liệu cần thiết, chương trình sẽ lưu chúng vào cơ sở dữ liệu để sử dụng lâu dài.

Trong khi crawl, chương trình cũng sẽ phải tránh sự trùng lắp dữ liệu, kiểm tran trùng lắp có thể thực hiện theo nhiều cách khác nhau, như phân biệt tài liệu bằng tên kết hợp với năm phát hành, phân biệt tác giả bằng họ và chữ cái viết tắt tên cùng với một số luật heuristic. Đối với dữ liệu thu thập từ trang MAS, để đơn giản, ta có thể sử dụng cơ chế phân biệt có sẵn của MAS. MAS phân biệt các đối tượng khác nhau bằng cách gán id duy nhất, id này được thể hiện trong địa chỉ url của đối tượng, nghĩa là url của mỗi đối tượng trong trang MAS cũng duy nhất, từ đó ta có thể so sánh url để tránh trùng lắp khi crawl.

Mẫu các url được sử dụng trong tồn bộ chương trình được cho trong bảng sau:

.1 – So sánh các hệ thống thư viện điện tử

.5 – Giải thuật xác định khoảng cách k

6– Mơ phỏng định nghĩa h-index