c) Nhận xét
Có nhiều thuật toán đã được đề xuất để khắc phục các hạn chế của PageRank trong việc xếp hạng các đối tượng trong đồ thị có nhiều loại mối quan hệ khác nhau. Trong đó PopRank là nổi bật nhất. PopRank bao gồm trong nó PageRank và nó cũng tính đến hệ số truyền dẫn khác nhau cho các loại liên kết giữa các loại đối tượng khác nhau.
PopRank ban đầu đã được áp dụng để xếp hạng các đối tượng trong lĩnh vực thư viện điện tử như bài báo khoa học, tác giả,…
2.4 Các chỉ số xếp hạng phổ biến
2.4.1 Giới thiệu
Việc xếp hạng, đánh giá chất lượng làm việc của các nhà khoa học, các tổ chức hay các tờ báo khoa học là một trong số những cơng việc chính của ngành phân tích các tài liệu. Để làm việc này, các nhà khoa học đã xây dựng nhiều phương pháp cùng với nhiều độ đo của các chỉ số xếp hạng khác nhau. Các chỉ số đó ban đầu đơn giản chỉ là số lượng tác phẩm khoa học, số lượng trích dẫn, số trích dẫn trung bình trên một tác phẩm. Đến vài năm gần đây, hàng loạt chỉ số mới đã được đề xuất và được ứng dụng rộng rãi. Mở đầu với h-index, sau đó các chỉ số ra đời trong nỗ lực cải tiến h-index như g-index, m-quotient, h(2)- index, đây là nhóm các chỉ số thiên về tính số lượng tác phẩm cốt lõi nhận được nhiều trích dẫn, gọi chung là h-type indexes. Cịn có các chỉ số khác cũng được phát triển dựa trên ý tưởng h-index nhưng thiên về tính mức độ ảnh hưởng của nhóm các tác phẩm cốt lõi như a-index, m-index, r-index, ar-index, hw-index, chúng được gọi chung là a-type indexes [BM+2008].
Ngồi ra cịn có nhiều chỉ số khác đã và đang được xây dựng, ở đây luận văn chỉ khảo sát các chỉ số quan trọng và phổ biến nhất đề cập ở trên.
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators)
a) Tổng số bài báo khoa học
Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn. Tổng số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ chức hay quốc gia đang xét.
b) Tổng số trích dẫn
Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của bài báo khoa học đó, nó thể hiện bài báo đó phổ biến tới mức nào trong cộng đồng khoa học. Tổng số lượng trích dẫn của các bài báo của một tác giả nào đó thể hiện tầm ảnh hưởng của tác giả đó, tổng số lượng trích dẫn cao hơn thường
đồng nghĩa với việc tác giả đó có tầm ảnh hưởng lớn hơn, có uy tín lớn hơn. Tổng số lượng trích dẫn của một tổ chức cũng thể hiện tầm ảnh hưởng của tổ chức đó.
c) Hệ số ảnh hưởng (Impact factor)
a. Giới thiệu
Độ đo impact factor, thường được gọi là IF, là một độ đo phản ánh số lượng tham khảo trung bình đến những bài báo trong một tờ báo khoa học nào đó. Impact factor thể hiện một độ quan trọng tương đối của một tờ báo so với những tờ báo khác trong cùng lĩnh vực, tờ báo có impact factor cao hơn được coi như quan trọng hơn tờ báo có impact factor thấp hơn. Impact factor được đề xuất bởi Eugene Garfield, người sáng lập viện khoa học thông tin (Institute for Scientific Information – ISI) bây giờ là một phần của Thomson Reuters. Độ đo impact factor được tính mỗi năm cho các tờ báo nằm trong danh sách báo cáo trích dẫn các tờ báo của Thomson Reuters [WikiIF].
b. Định nghĩa
Impact factor của một tờ báo trong một năm được tính bằng cách lấy số lần trích dẫn trung bình trong năm đó của các bài báo được xuất bản trong hai năm trước đó thuộc tờ báo đang xét.
Ví dụ ta tính impact factor cho tờ báo X trong năm 2011, đặt:
A = số lần tham khảo tới các bài báo thuộc tờ báo X xuất bản năm 2009, 2010 bởi các bài báo trong các tờ báo được lập chỉ mục trong năm 2011.
B = số bài báo thuộc tờ báo X xuất bản năm 2009, 2010. Khi đó, impact factor của tờ báo X năm 2011 = A / B.
Lưu ý rằng một tờ báo mới lập chỉ mục sẽ được tính impact factor sau năm thứ ba, kết quả sẽ có được vào đầu năm thứ tư sau khi tất cả các bài báo năm thứ ba đã được xuất bản.
Impact factor là một chỉ số khá đơn giản dùng để so sánh độ quan trọng giữa các tờ báo trong cùng một lĩnh vực nhất định. Impact factor được tính tốn bởi Thomson Reuters cho hơn 11000 tờ báo trong cơ sở dữ liệu của họ.
Impact factor là chỉ số tốt nhất trong ba chỉ số phân tích tài liệu chuẩn, nó kết hợp cả số lượng bài báo lẫn số lượng trích dẫn để tạo ra một chỉ số trung bình trích dẫn của các bài báo khoa học trong tờ báo khoa học từ đó có thể đánh giá tổng hợp cả hiệu suất làm việc và tầm ảnh hưởng ở từng tờ báo.
Tuy nhiên, impact factor cũng cịn tồn tại nhiều thiếu sót, có thể chia chúng ra ba loại là tính hợp lệ, những chính sách khiến impact factor thay đổi, và việc sử dụng impact factor sai mục đích.
Tính hợp lệ của impact factor yếu vì nó là trung bình số học của các trích dẫn trên một bài báo, tuy nhiên theo lý thuyết thì đó là phân phối Bradford, sự không phù hợp giữa lý thuyết và thực nghiệm làm cho impact factor khơng chính xác để đánh giá các trích dẫn. Thực tế danh sách xếp hạng các tờ báo được tính bởi impact factor cũng khơng hồn tồn trùng khớp với danh sách có được do các chuyên gia xếp hạng.
Một tờ báo có thể có chính sách đặc biệt để làm tăng impact factor của nó, ví dụ như xuất bản nhiều những bài báo có khả năng được trích dẫn cao, và hạn chế xuất bản những bài báo ít có khả năng được trích dẫn. Ngồi ra, một tờ báo có thể có một số chính sách u cầu tác giả phải trích dẫn các bài báo xuất bản trong tờ báo đó. Những chính sách này làm cho impact factor khơng phản ánh đúng mức độ quan trọng của tờ báo.
Impact factor là chỉ số được tạo ra để đánh giá các đối tượng là các tờ báo khoa học, nó khơng phù hợp để đánh giá một bài báo hay một tác giả đơn lẻ, mọi sự đánh giá này đều có thể sai vì impact factor là giá trị trung bình cho cả tờ báo, trong đó có những bài báo được trích dẫn rất nhiều, có những bài báo ít được trích dẫn, tượng tự có những tác giả được trích dẫn rất nhiều, có những tác giả rất ít được trích dẫn [WikiIF].
2.4.3 H-type indexes
a) H-Index
a. Giới thiệu
H-index được đề xuất bởi Jorge E. Hirsch, một nhà vật lý tại UCSD, như một chỉ số so sánh tương đối các nhà vật lý với nhau. H-index được tạo ra nhằm mục đích đo lường cả số lượng các bài báo của một tác giả và hiệu quả ảnh hưởng của các bài báo đó trong cộng đồng khoa học. Chỉ số này được tính tốn dựa trên một tập các bài báo được trích dẫn cao nhất của một tác giả và số lượng tham khảo đến chúng. H-index có thể dùng để so sánh chất lượng nghiên cứu khoa học của hai nhà khoa học thuộc cùng một lĩnh vực bất kì, nó cịn có thể dùng để so sánh giữa hai nhóm các nhà khoa học, như giữa các trường đại học hay giữa các quốc gia theo một lĩnh vực nào đó [WikiHI].
b. Định nghĩa
Chỉ số h-index dựa trên phân phối của các trích dẫn đến các bài bài của tác giả đang xét. Theo Hirsch thì: “Một tác giả có h-index = h khi có h bài báo khoa học của người đấy có ít nhất h trích dẫn mỗi bài báo, và các bài báo cịn lại có ít hơn h trích dẫn mỗi bài.” [Hir2005]. H-index được xây dựng dựa trên một mơ hình quen thuộc trong lý thuyết số là hình vng Durfee [WikiDS]. Hình sau mơ tả định nghĩa này của h-index: