Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực MAS.
Hình 2.23 – Xem thơng tin bổ sung về tổ chức của tác giả MAS.
2.5.6 Google Scholar
Google Scholar được cung cấp bởi công ty Google. Google Scholar là một thư viện miễn phí cung cấp chức năng tìm kiếm các tài liệu học thuật cho mọi người dùng [GS][GSH].
Tên hệ thống Google Scholar
Địa chỉ http://scholar.google.com
Loại thư viện
Google Scholar là một thư viện miễn phí, nội dung chủ yếu là do Google tự động thu thập trên mạng internet về bằng web crawler, ngồi ra, người dùng cũng có thể đề nghị Google thu thập tài liệu của mình.
Google Scholar có các tính năng tương tự như máy tìm kiếm Google trên web trong cách lập chỉ mục, tìm kiếm và hiển thị thông tin, tuy nhiên nội dung lập chỉ mục chỉ tập trung vào các tài liệu học thuật.
Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu có sẵn, đi đến nguồn của tài liệu, ngồi ra cịn thể thể tìm hiểu về các thuộc tính khác như số trích dẫn của tài liệu, các mối quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn…
Các chức năng
Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên
internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo khoa học, bằng sáng chế, tạp chí, văn bản luật …
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn.
Chức năng tìm kiếm nâng cao: Google Scholar hỗ trợ các tiêu chí tìm kiếm tài liệu theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI.
Chức năng tìm kiếm bài báo liên quan: Google Scholar có hỗ trợ chức năng liệt kê những bài báo có liên quan hay tương tự với bài báo đang duyệt, thể hiện ở phần “Related articles”.
Chức năng thông báo bằng email cho người dùng về các kết quả tìm kiếm mới
Chức năng trích xuất thơng tin trích dẫn: người dùng có thể xem và xuất thơng tin trích dẫn của một tài liệu nào đó ra.
Chức năng theo dõi hoạt động khoa học của chính mình:
người dùng có thể theo dõi số lượng trích dẫn và các chỉ số xếp hạng của mình.
Cách xếp hạng kết quả tìm kiếm
Máy tìm kiếm Google Scholar hoạt động tương tự máy tìm kiếm Google, kết quả tìm kiếm cũng được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng tồn cục của đối tượng đó.
cũng tun bố rằng họ lập chỉ mục các tài liệu sao cho kết quả có lợi nhất cho đa số người dùng.
Các loại tài liệu bao gồm các bài báo khoa học, báo cáo nghiên cứu, luận văn, luận án, sách, các bằng sáng chế, các văn bản công bố của các cơ quan, các văn bản luật, các trang web học thuật…
Các tài liệu này được thu thập từ mọi nơi trên internet, bao gồm các nơi lưu trữ chính thức của tài liệu, và cả các hệ thống thư viện số khác cả miễn phí lẫn tính phí. Tuy nhiên các tài liệu sau không được lập chỉ mục: các tài liệu quá nhỏ bé, hoặc khơng có tựa đề, hoặc khơng có tác giả, hoặc được lưu trữ ở các trang web mà sự truy xuất đòi hỏi phải đăng nhập phức tạp.
Số lượng cụ thể của các tài liệu không được công bố, và phụ thuộc mật thiết vào số lượng tài liệu có thể thấy được trên internet. Tuy nhiên có thể nói Google Scholar lập chỉ mục nhiều tài liệu nhất, mặc dù bị hạn chế ở các tài liệu lâu năm trước vì chúng ít xuất hiện trên internet.
Sau đây là một số hình ảnh về Google Scholar:
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar.
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data”.
2.5.7 CiteSeerX
CiteSeerX, được nâng cấp lên từ CiteSeer, là một hệ thống thư viện điện tử được cung cấp bởi trường khoa học và công nghệ thuộc đại học bang Pennsylvania [CS][CSH].
Bảng sau thể hiện thông tin chi tiết của CiteSeerX:
Bảng 2.6 – Thông tin chi tiết về CiteSeerX.
Tên hệ thống CiteSeerX
Địa chỉ http://citeseerx.ist.psu.edu
Loại thư viện
CiteSeerX cung cấp các các tài liệu miễn phí tới người dùng theo một chứng nhận mở “Creative Commons Attribution- NonCommercial-ShareAlike 3.0 Unported License”, cho phép người dùng được tìm kiếm, xem thơng tin chỉ mục, xem và tải các văn bản tài liệu được cung cấp trên CiteSeerX. Ngồi ra, dự án CiteSeerX cịn cung cấp cho người dùng những công cụ hỗ trợ việc nghiên cứu và xây dựng các thư viện số, ví dụ các thuật tốn, dữ liệu, các cơng nghệ…
Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu có sẵn, đi đến nguồn của tài liệu, ngồi ra cịn thể thể tìm hiểu về các thuộc tính khác như số trích dẫn của tài liệu, các mối quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn…
Các chức năng
Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên
internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo khoa học, bằng sáng chế, tạp chí, văn bản luật …
CiteSeerX hiển thị phần nội dung tìm kiếm được dùng trong tài liệu, do đó nâng cao hiệu quả tìm kiếm. CiteSeerX cho phép xem các ngữ cảnh trích dẫn trong các tài liệu.
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn.
Chức năng tìm kiếm nâng cao: CiteSeerX hỗ trợ các tiêu chí
tìm kiếm tài liệu theo nội dung tài liệu, tựa đề, nội dung phần tổng quan, tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản, từ khóa.
Chức năng tìm kiếm bài báo liên quan: CiteSeerX có hỗ trợ
chức năng liệt kê những bài báo có liên quan hay tương tự với bài báo đang duyệt về mặt nội dung và mặt trích dẫn. Chức năng này hoạt động dựa trên thuật tốn CCIDF để tìm các bài báo tương đồng về mặt trích dẫn.
Autonomous Citation Indexing (ACI): tự động tạo chỉ mục
trích dẫn.
Thống kê trích dẫn: CiteSeerX thống kê trích dẫn cho tất cả
các tài liệu được tham khảo, không chỉ các tài liệu được lập chỉ mục.
Liên kết tham khảo: CiteSeerX cho phép duyệt cơ sở dữ liệu
CiteSeerX có chức năng thơng báo cho người dùng nêu có các trích dẫn mới đến một tài liệu nào đó, hoặc có tài liệu mới thuộc loại người dùng mong muốn.
CiteSeerX có thể được duyệt theo các tài liệu liên quan, dựa trên nội dung của tài liệu và các trích dẫn.
Cách xếp hạng kết quả tìm kiếm
Máy tìm kiếm CiteSeerX dựa trên lõi là máy tìm kiếm Solr, là một dự án con của Lucene. Kết quả tìm kiếm cũng được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng tồn cục của đối tượng đó.
Nội dung Nội dung dữ liệu và siêu dữ liệu của CiteSeerX được thu thập tự động bằng cách sử dụng web crawler với cơ chế crawl chọn lọc từ một số nguồn nhất định, dữ liệu trên CiteSeerX vẫn đang được cập nhật liên tục, tập trung vào lĩnh vực khoa học thơng tin và máy tính.
Sau chi crawl về, CiteSeerX tiến hành phân tích các tài liệu crawl được để lấy thông tin metadata cần thiết.
Số lượng cụ thể của các tài liệu không được công bố, và phụ thuộc mật thiết vào số lượng tài liệu mà crawler của CiteSeerX tiếp cận được.
Sau đây là các hình ảnh minh họa cho CiteSeerX:
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX.
CHƯƠNG 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 3.1 Mở đầu 3.1 Mở đầu
Đề tài này có mục tiêu là nghiên cứu thử nghiệm và ứng dụng một hệ thống thư viện điện tử tốt, đáp ứng nhu cầu của người dùng, đặc biệt là người dùng trong nước. Để làm được điều này, trước tiên cần khảo sát, đánh giá các cơ sở lý thuyết hiện có của hệ thống thư viện điện tử cũng như các hệ thống thư viện điện tử hiện có.Những phương pháp và cách đánh giá được khảo sát ở trên có một số ưu điểm và nhược điểm nhất định. Các hệ thống hiện có cũng có một số điểm mạnh và hạn chế riêng. Có một số hạn chế có tính đặc thù đối với người dùng Việt Nam. Chương này sẽ trình bày một số hướng cải tiến, chỉnh sửa để xây dựng được một hệ thống thư viện điện tử có thể đáp ứng tốt hơn nhu cầu của người dùng.
3.2 Thảo luận về các chỉ số xếp hạng
Các chỉ số ở trên đều dựa trên phân tích trích dẫn, điều đấy có nghĩa là số lượng các trích dẫn trong các chỉ số này rất quan trọng. Trích dẫn thường được xem như một sự bỏ phiếu tín nhiệm của tác giả cho tác phẩm được trích dẫn. Tuy nhiên khơng phải lúc nào điều này cũng đúng. Có nhiều trường hợp tác giả khơng chọn trích dẫn tác phẩm xuất sắc nhất mà trích dẫn tác phẩm phổ biến nhất, điều này đôi khi là do khả năng tiếp cận thơng tin của tác giả hoặc do thói quen làm việc của tác giả. Có một số trường hợp các trích dẫn có tính chất thiên vị, chẳng hạn như trích dẫn một tác phẩm của người quen, hay tác phẩm của người trong một nhóm nội bộ. Một số tác phẩm có thể được trích dẫn một cách khơng có chủ ý vì nó khơng phải là phần trọng tâm của nghiên cứu, lúc này trích dẫn khơng liên quan đến việc tác giả tín nhiệm tác phẩm đó hay khơng. Có một số trường hợp trích dẫn đến một tác phẩm nào đó như là một phản ví dụ, hay một trường hợp sai, lúc này sự trích dẫn như là một sự bỏ phiếu bất tín nhiệm.
xác hơn khi áp dụng phân tích mạng để xếp hạng từng đối tượng về độ phổ biến của nó, như trong thuật toán PopRank. Tuy nhiên cần lưu ý rằng trong phân tích mạng như vậy, độ phổ biến của một đối tượng không đồng nghĩa với chất lượng, ví dụ như một tác phẩm nổi tiếng hơn khơng hẳn là nó hay hơn, một tác giả nổi tiếng hơn khơng hẳn là có chất lượng nghiên cứu tốt hơn.
Ta cũng lưu ý rằng mỗi chỉ số có ý nghĩa riêng của nó và nên được dùng đúng cách. Những chỉ số thuộc h-type indexes chủ yếu nhằm đánh giá mặt số lượng tác phẩm, tức là năng suất làm việc của tác giả. Những chỉ số thuộc a- type indexes chủ yếu nhằm đánh giá tầm ảnh hưởng của các tác phẩm tốt nhất của tác giả, tức là chất lượng làm việc của tác trong một số ít tác phẩm tốt nhất. Hai chỉ số này phản ánh hai khía cạnh khác nhau trong việc đánh giá một tác giả, một tổ chức, một đơn vị xuất bản, vì vậy để đánh giá tốt hơn nên áp dụng đồng thời nhiều chỉ số ở cả hai loại. Các chỉ số ở hai loại này bổ trợ nhau khá tốt cho việc đánh giá [BM+2009].
Cần phải lưu ý rằng cách tốt nhất và duy nhất để đánh giá đầy đủ, đúng đắn một tác giả hay một tác phẩm là đánh giá thực tế qua hiệu quả hoạt động, hiệu quả sử dụng trong đời sống thực. Tuy nhiên, nếu làm vậy số lượng các đặc trưng hay số chiều thông tin cần ghi nhận là quá lớn, thời gian cần thiết để ghi nhận chúng cũng q lớn, vì vậy khối lượng cơng việc đánh giá là quá lớn đến mức không chấp nhận được, các chỉ số đánh giá ra đời là để khắc phục vấn đề này. Mỗi chỉ số chỉ yêu cầu một số đặc trưng thông tin nhất định, tức là nó chiếu thơng tin tổng thể lên một số chiều nhất định, điều này sẽ giúp việc đánh giá trở nên khả thi, tuy nhiên cũng vì vậy mà những chỉ số này khơng thể hiện được hết đầy đủ các thơng tin, vì vậy chỉ nên coi chúng là những con số hỗ trợ việc đánh giá. Những chỉ số này ln có điểm mạnh và điểm yếu riêng, việc lựa chọn các chỉ số nào và phối hợp sử dụng sao cho hiệu quả là nhiệm vụ của mỗi hệ thống thư viện điện tử.
3.3 Thảo luận về các phương pháp xếp hạng
Ở trên đề tài đã khảo sát PageRank và PopRank, đây đều là các thuật toán xếp hạng độ phổ biến tốt. PageRank đã ra đời khá lâu và được ứng dụng thành
cơng thực tế trong máy tìm kiếm Google Search. Thuật tốn PageRank cũng có thể được dùng trong việc phân tích mạng và xếp hạng một loại đối tượng nào đấy, với điều kiện là các đối tượng này phải thuần nhất và các liên kết cũng thuần nhất. Từ đó ta thấy PageRank cũng có thể ứng dụng để tính độ phổ biến của các bài báo khoa học, nhưng phải giới hạn đối tượng tham gia vào tính tốn chỉ có bài báo khoa học và liên kết tham gia vào tính tốn chỉ có liên kết trích dẫn. Điều này làm hạn chế độ chính xác khi xếp hạng. PopRank và các thuật toán tương tự như PopRank đưa vào tính tốn của mình nhiều loại đối tượng và nhiều loại liên kết khác nhau. Những tác giả của PopRank khi đề xuất thuật tốn này đã so sánh trực tiếp nó với PageRank và kết quả thử nghiệm cho thấy nó tốt hơn PageRank trong việc xếp hạng độ phổ biến các bài báo khoa học. Tuy nhiên tác giả đã không so sánh PopRank với các thuật tốn có cùng ý tưởng khác, ngồi ra tập dữ liệu dùng trong việc tính tốn, đánh giá cũng khá nhỏ để có thể có kết luận mạnh (45 đối tượng dùng để tính tốn, 22 đối tượng dùng để đánh giá). Trong q trình tính tốn PopRank, có một phần quan trọng là gán giá trị của các hệ số truyền, PopRank gán các hệ số này theo một thuật toán heuristic với khá nhiều sự phỏng đốn, vì vậy việc thử nghiệm nhiều nhiều hơn rất cần thiết để bảo đảm thuật toán heuristic này hoạt động tốt.
Như đã nói ở phần trên, độ phổ biến của một đối tượng không đồng nghĩa với chất lượng của đối tượng đó, tuy nhiên xếp hạng độ phổ biến là một tham khảo tốt để xếp hạng chất lượng các đối tượng khi việc xếp hạng chính xác chất lượng là khơng thể.
3.4 Phân tích cải tiến các hệ thống thư viện điện tử
Các hệ thống thư viện điện tử nổi tiếng đã được khảo sát ở các phần trên, ở đây đề tài đưa ra một sự so sánh giữa các hệ thống đó:
Bảng 3.1 – So sánh các hệ thống thư viện điện tử.
Hệ thống Ưu điểm Nhược điểm
IEEEXplore Là thư viện số nổi tiếng trong lĩnh
Cung cấp nhiều tài liệu chất lượng do IEEE và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.
hạn chế trong số các tài liệu bởi lĩnh vực và bởi nguồn tài liệu. Nhiều tính năng hỗ trợ người dùng còn thiếu. ACM Là thư viện số nổi tiếng trong lĩnh
vực công nghệ thông tin.
Cung cấp nhiều tài liệu chất lượng do ACM và các tổ chức hợp tác phát hành hay sở hữu nên đầy đủ nội dung và chính thức.
Có lập chỉ mục và cho phép tìm kiếm hay duyệt các tài liệu ở các nguồn khác.
Là thư viện tính phí. Số lượng tài liệu bị hạn chế trong số các tài liệu bởi lĩnh vực. Nguồn tài liệu khơng đầy đủ.
Nhiều tính năng hỗ trợ người dùng còn thiếu. SpringerLink Là thư viện số nổi tiếng trong nhiều
lĩnh vực.
Cung cấp nhiều tài liệu chất lượng