Định nghĩa trên của Hirsch khơng hồn tồn chính xác, vì nó khơng bao qt hết các trường hợp. Ta xét ví dụ sau:
Tác phẩm Số trích dẫn A 5 B 3 C 3 D 3 E 1
Theo định nghĩa ban đầu của Hirsch, ta khơng tìm được giá trị h-index nào cho tập các bài viết này. H-index khơng phải là ba, vì có ba tác phẩm có lớn hơn hay bằng ba trích dẫn, nhưng các tác phẩm còn lại khơng phải đều có ít hơn 3 trích dẫn. Một định nghĩa chính xác hơn cho h-index được cho như sau: “Một tác giả có h-index = h khi các tác phẩm của người đó được sắp xếp theo danh sách thứ tự giảm dần số trích dẫn, và có h tác phẩm ở đầu có ít nhất h trích dẫn mỗi tác phẩm, và bài báo thứ (h+1) có ít hơn (h+1) trích dẫn.” [Rou2006]. Nói cách khác, tác giả có h-index = h khi h là số nguyên lớn nhất
thỏa có h tác phẩm có ít nhất h trích dẫn mỗi tác phẩm đó. Khi tính tốn, các tác phẩm sẽ được sắp xếp theo thứ tự giảm dần số trích dẫn để cơng việc đơn giản hơn.
Trong nghiên cứu của mình [Hir2005], Hirsch đã chỉ ra rằng chỉ số h-index có liên quan rõ ràng đến việc một nhà khoa học có đạt được các giải thưởng khoa học khơng, ví dụ như giải Nobel. Vì chỉ số h-index có phụ thuộc vào số lượng bài báo khoa học của một tác giả nên nó cũng phụ thuộc vào số năm nghiên cứu khoa học của tác giả đó.
H-index của một tác giả có thể được tính từ nguồn dữ liệu là một cơ sở dữ liệu các bài báo khoa học trích dẫn nhau của các tác giả trong nhiều lĩnh vực. Việc tính tốn dựa trên việc đếm các trích dẫn của mỗi bài báo, ta sẽ sắp xếp các bài báo của một tác giả theo thứ tự giảm dần số lượng trích dẫn, sau đó đếm để xác định số lượng bài báo h có lượng trích dẫn mỗi bài lớn hơn hay bằng h. Giải thuật tính h có thể cho như sau:
// Calculate h-index for each author.
Input: Tập các bài viết. Output: h-index của tác giả. Begin
Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn.
h = 0;
while (h < số bài viết) {
c = số trích dẫn của bài viết thứ (h + 1); if (c >= (h + 1))
h++;
else break; }
h-index = h;
End
H-index của một tổ chức hay một quốc gia có thể được tính bằng cách coi như có một tác giả trừu tượng đại diện cho toàn bộ các tác giả trong tổ chức hay quốc gia. Mỗi bài báo khoa học phải được xác định cụ thể thuộc về tác giả trừu tượng nào. Việc tính tốn cịn lại hoàn toàn tương tự như tính tốn cho một tác giả đơn lẻ.
c. Nhận xét
H-index khá hiệu quả khi dùng để so sánh, đánh giá các tác giả vì nó đã bao gồm cả hai yếu tố số lượng bài báo và số lượng tham khảo cho mỗi bài báo tức là nó bao gồm cả yếu tố số lượng và chất lượng kết quả nghiên cứu của tác giả. H-index đã được chính tác giả kiểm chứng trong một nghiên cứu khác của mình [Hir2007] là có thể dùng dự đoán khá tốt những thành công trong sự nghiệp khoa học tương lai của một tác giả. Trong một số nghiên cứu thực nghiệm khác [BW+2008], h-index cũng cho thấy nó tốt hơn nhiều so với các chỉ số phân tích tài liệu chuẩn trong việc đánh giá chất lượng công việc của các nhà khoa học.
H-index có nhiều ưu điểm nổi bật sau [Rou2008]: Nó là một chỉ số đơn giản về mặt tốn học.
Nó là một chỉ số mạnh (robust) vì nó khơng bị ảnh hưởng hoặc chỉ bị ít bởi một vài sai sót nhỏ của việc thu thập dữ liệu.
H-index giúp tránh được những trường hợp bất thường, ví dụ như chỉ có một vài bài được trích dẫn rất nhiều, hay là có rất nhiều bài viết nhưng lại ít được trích dẫn.
Kết quả tính tốn h-index trên các cơ sở dữ liệu khác nhau thường khác nhau vì chúng thường khơng đầy đủ hoặc có nhiều trích dẫn ảo [MY2007]. Ví dụ như Scopus thiếu nhiều bài báo, Web of Knowledge thiếu nhiều bài trước 1996, Google Scholar thiếu nhiều bài trước 1990.
H-index bị ràng buộc bởi số lượng tác phẩm được xuất bản. Nếu một tác giả xuất bản ít tác phẩm có chất lượng, được trích dẫn nhiều thì tác giả đó cũng khơng thể có h-index lớn hơn số tác phẩm của mình. Ví dụ nhà tốn học người Pháp Évariste Galois, cha đẻ của lý thuyết Galois và lý thuyết nhóm sẽ mãi chỉ có h-index = 2. Trong bài báo của mình [Hir2005], Hirsch cũng đã chỉ ra rằng h-index chỉ phù hợp để đánh giá các tác giả trong cùng một bối cảnh trong sự nghiệp của họ.
H-index khó có thể dùng để đánh giá các tác giả mới vì nó chỉ có thể tăng lên sau một khoảng thời gian dài, cịn các tác giả đã có nhiều bài viết và được trích dẫn nhiều thì có thể nghỉ ngơi mà h-index vẫn tăng lên.
H-index khơng tính đến việc một bài báo có thể có nhiều tác giả.
H-index bỏ qua thông tin trong phần danh sách tên các tác giả, mà trong một số lĩnh vực là quan trọng.
H-index coi sách và bài báo khoa học là như nhau, điều đó khơng đúng với một số ngành như khoa học xã hội.
H-index không quan tâm đến ngữ cảnh của trích dẫn. Đây cũng là vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.
H-index khơng tính đến một số trường hợp đặc biệt như hiệu ứng Matthew [WikiME], và sự thiên vị trong một số trích dẫn, thao túng trích dẫn bằng cách tự trích dẫn, hay trích dẫn tạo ra bởi các cơng cụ tự động như SCIgen [WikiSCI]. Đây cũng là một vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.
H-index khơng có giá trị lẻ mà nó chỉ có số ngun nên sẽ kém độ chính xác khi so sánh.
H-index không bao giờ giảm, nó cũng ít nhạy cảm với số lượng trích dẫn nhận được.
Từ khi h-index ra đời, nhiều tác giả đã tìm cách cải tiến nó, chỉnh sửa cho phù hợp với các trường hợp cụ thể để hạn chế các thiếu sót và đạt hiệu quả cao
hơn. Nhiều chỉ số khác nhau đã được đề xuất dựa trên h-index, nổi bật trong số đó có thể kể đến g-index.
b) G-Index
a. Giới thiệu
G-index được đề xuất bởi Leo Egghe vào năm 2006 như là một sự cải tiến của h-index. Theo Egghe [Egg2006], g-index ra đời nhằm khắc phục các điểm yếu về việc h-index bị giới hạn bởi số lượng tác phẩm của nhà khoa học, và về việc có thể có một số tác phẩm rất quan trọng, được trích dẫn rất nhiều nhưng một khi đã được tính đến trong h-index thì nó cũng khơng đóng góp gì hơn so với các tác phẩm có số trích dẫn ít hơn khác.
b. Định nghĩa
G-index được định nghĩa cho một tập tác phẩm bất kì, nó được định nghĩa như sau: “Một tập các tác phẩm có g-index = g nếu g tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn lớn hơn hay bằng g2, và (g+1) tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn nhỏ hơn (g+1)2.” [Egghe2006]. Nếu tập các tác phẩm là của một tác giả thì g-index tính được là của tác giả đó, tương tự, g-index có thể tính cho một tổ chức hay một tờ báo.
G-index có thể được tính theo giải thuật sau:
// Calculate g-index for a set of papers.
Input: Tập các bài viết. Output: g-index.
Begin
Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn.
g = 0; cs = 0;
if (g < số bài viết) {
cs += số trích dẫn của bài viết thứ (g + 1); } if (cs >= ((g + 1) * (g + 1))) g++; else break; } g-index = g; End
Theo định nghĩa của g-index, ta thấy g-index có các tính chất sau: Một tập các bài viết bất kì ln tồn tại duy nhất một giá trị g-index. Giá trị g-index luôn lớn hơn hoặc bằng h-index [Egghe2006].
Nếu số lượng tác phẩm quá ít nhưng lại có nhiều trích dẫn, để tính g-index ta sẽ tạo ra các tác phẩm ảo với số trích dẫn bằng khơng, bổ sung vào tập bài viết, nhờ vậy g-index không bị giới hạn bởi số bài viết. Khi đó ta có
⌊√ ⌋
c. Nhận xét
G-index là một trong số những cải tiến tốt nhất của h-index. G-index đặc biệt hiệu quả hơn h-index khi đánh giá các tác giả thuộc nhóm các nhà nghiên cứu chọn lọc, họ chỉ xuất bản một số ít tác phẩm nhưng rất có giá trị và được trích dẫn nhiều [CB2008]. G-index có những ý tưởng tương tự như h-index và vẫn giữ được những ưu điểm của h-index. Tuy nhiên g-index cũng còn nhiều hạn chế chung của các chỉ số dựa trên việc đếm trích dẫn.
Các chỉ số khác sẽ được trình bày ngắn gọn sau đây.
Trong bài báo đầu tiên của mình về h-index [Hir2005], Hirsch đã đề cử một chỉ số để so sánh hai tác giả mà không bị ảnh bởi thời gian tham gia nghiên cứu khoa học của mỗi người. Chỉ số đó được gọi là m-quotient và được định nghĩa như sau:
Với:
m là m-quotient h là h-index
y là số năm kể từ khi bài báo đầu tiên được xuất bản.
M-quotient có cơ sở tốn học là mơ hình ngẫu nhiên cho quá trình hoạt động khoa học và số trích dẫn của một tác giả [Bur2007]. M-quotient được cho là khá hiệu quả để so sánh hai tác giả có thâm niên nghiên cứu khoa học khác nhau và dự đoán triển vọng của các nhà khoa học trẻ.
d) H(2)-Index
H(2)-index được đề xuất bởi Marek Kosmulski vào năm 2006. Tương tự g- index, trong định nghĩa h(2)-index thì các tác phẩm có nhiều trích dẫn cũng được tính quan trọng hơn. H(2)-index được định nghĩa như sau: “Một tác giả có h(2)-index = h(2) khi h(2) là một số nguyên lớn nhất thỏa tác giả đó có h(2) tác phẩm có ít nhất [h(2)]2 trích dẫn mỗi tác phẩm.” [Kos2006].
H(2)-index cũng bị hạn chế bởi số lượng tác phẩm giống như h-index. Dễ dàng nhận thấy rằng h(2)-index luôn nhỏ hơn hay bằng h-index. Khi phân tích các tài liệu, ln cần kiểm tra để tránh nhầm lẫn các trường hợp các tác phẩm của các tác giả có cùng họ tên. H(2)-index giúp giảm giảm nhẹ vấn đề này vì số lượng tác phẩm thỏa h(2)-index nhỏ nên số tác phẩm cần kiểm tra cũng nhỏ.
2.4.4 A-type indexes
a) A-Index
A-index là một chỉ số được hình thành sau h-index, sự ra đời của a-index cũng là một trong những nỗ lực cải tiến h-index. Các chỉ số thuộc nhóm h-type indexes nhằm xác định vùng các tác phẩm được trích dẫn nhiều nhất và số lượng của chúng [Bur2007a]. Đối với h-index, vùng các các tác phẩm này chứa h tác phẩm được trích dẫn nhiều nhất, nó được Rousseau gọi là Hirsch core [Rou2006]. A-index không giống với các chỉ số thuộc nhóm h-type indexes, a- index nhằm xác định tầm ảnh hưởng của các tác phẩm thuộc vùng Hirsch core này. A-index lúc đầu được đề xuất bởi Jin vào năm 2006 [Jin2006], tuy nhiên tác giả chưa đặt một cái tên chính thức, sau đó nó được đề cập đến với tên a- index bởi Rousseau vào năm 2006 [Rousseau2006]. Sau khi a-index ra đời, có nhiều chỉ số khác cũng nhằm xác định tầm ảnh hưởng của các bài báo thuộc nhóm có nhiều trích dẫn nhất, chúng được xếp vào nhóm a-type indexes.
b. Định nghĩa
Theo ý tưởng của Jin [Jin2006], a-index là số trích dẫn trung bình mỗi tác phẩm trong Hirsch core nhận được, a-index có thể được định nghĩa như sau:
∑
Với:
a là a-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm. cj là số trích dẫn của tác phẩm j.
c. Nhận xét
A-index cải tiến h-index về mặt quan tâm hơn đến số trích dẫn của các tác phẩm nằm trong Hirsch core, tuy nhiên nó lại quá nhạy cảm với một vài tác phẩm có số trích dẫn cao bất thường, vì vậy nó khơng tốt để đánh giá trong một số trường hợp.
Sau đây luận văn giới thiệu ngắn gọn các chỉ số thuộc loại a-indexes khác.
M-index được đề xuất bởi Bornmann và các cộng sự vào năm 2008. Các tác giả đã lưu ý rằng phân phối của các trích dẫn của các tác phẩm thường là xiên, vì vậy điểm ở giữa chứ khơng phải giá trị trung bình của các trích dẫn đấy nên được dùng để đo xu hướng trung tâm. Vì vậy các tác giả đã đề xuất m-index là giá trị ở giữa của số các trích dẫn của các tác phẩm thuộc Hirsch core.
c) R-Index
R-index được đề xuất bởi Jin và các cộng sự năm 2007 [JL+2007]. Jin và cộng sự đã lưu ý rằng khi tính a-index, các tác giả có h-index lớn sẽ chịu thiệt thịi vì tổng số trích dẫn đã bị chia cho h-index. Vì vậy Jin và cộng sự đề xuất cải tiến bằng cách thay vì chia cho h-index thì sẽ rút căn tổng số trích dẫn này. Ta có:
√∑
Với:
r là r-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm. cj là số trích dẫn của tác phẩm j.
R-index cũng như a-index, rất nhạy cảm với những trường hợp có một vài tác phẩm có số trích dẫn cao bất thường.
d) AR-Index
AR-index được Jin và các cộng sự đề xuất để bổ sung với r-index [JL+2007]. AR-index được đề xuất nhằm thể hiện sự thay đổi thể hiện của các tác giả theo thời gian, nó bao gồm thêm số năm kể từ khi tác phẩm được xuất bản. AR-index có thể tính như sau:
√∑
Với:
ar là ar-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm. cj là số trích dẫn của tác phẩm j.
a là số năm kể từ khi xuất bản tác phẩm j.
Tức là là trung bình số trích dẫn mỗi năm của tác phẩm j.
e) Hw-Index
Hw-index được phát triển bởi Egghe và Rousseau [ER2008] vào năm 2007. Hw-index cải tiến h-index để nhạy cảm hơn với sự thay đổi thể hiện của tác giả theo thời gian. Hw-index có hai dạng, liên tục và rời rạc. Dạng liên tục được định nghĩa như sau:
√∫ √
Với:
là hw-index.
là nghiệm của phương trình: ∫
[ ] [ ]
là h-index, là nghiệm duy nhất của phương trình
Dạng rời rạc được định nghĩa như sau:
√∑
Với
là hw-index.
2.5 Các hệ thống liên quan
2.5.1 Giới thiệu
Hiện nay trên thế giới có nhiều thư viện số được phát triển với nhiều mục đích khác nhau [WikiDB&SE]. Các thư viện có thể phục vụ mục đích nghiên cứu của người thành lập, ví dụ Microsoft Academic Search; hoặc dùng trong một cộng đồng nghiên cứu nào đó, ví dụ Anthropological Literature9 dùng chính cho nội bộ đại học Harvard; hoặc có thể là để quản lý và bán các tài liệu có bản quyền, ví dụ IEEEXplore, ACM, SpringerLink… Các thư viện cũng có thể chia ra loại tính phí và loại miễn phí, tuy nhiên cũng có nhiều cấp độ miễn phí khác nhau như miễn phí tìm kiếm, duyệt nhưng tính phí nội dung, miễn phí phần tổng quan, miễn phí một số tài liệu…
Mỗi thư viện thường gồm một cơ sở dữ liệu chứa thông tin chỉ mục về các tài liệu, các tác giả, và các đối tượng khác, nhiều thư viện có chứa cả nội dung