Các chỉ số phân tích tài liệu chuẩn (Standard bibl- 123docz.net

a) Tổng số bài báo khoa học

Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn. Tổng số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ chức hay quốc gia đang xét.

b) Tổng số trích dẫn

Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của bài báo khoa học đó, nó thể hiện bài báo đó phổ biến tới mức nào trong cộng đồng khoa học. Tổng số lượng trích dẫn của các bài báo của một tác giả nào đó thể hiện tầm ảnh hưởng của tác giả đó, tổng số lượng trích dẫn cao hơn thường

đồng nghĩa với việc tác giả đó có tầm ảnh hưởng lớn hơn, có uy tín lớn hơn. Tổng số lượng trích dẫn của một tổ chức cũng thể hiện tầm ảnh hưởng của tổ chức đó.

c) Hệ số ảnh hưởng (Impact factor)

a. Giới thiệu

Độ đo impact factor, thường được gọi là IF, là một độ đo phản ánh số lượng tham khảo trung bình đến những bài báo trong một tờ báo khoa học nào đó. Impact factor thể hiện một độ quan trọng tương đối của một tờ báo so với những tờ báo khác trong cùng lĩnh vực, tờ báo có impact factor cao hơn được coi như quan trọng hơn tờ báo có impact factor thấp hơn. Impact factor được đề xuất bởi Eugene Garfield, người sáng lập viện khoa học thông tin (Institute for Scientific Information – ISI) bây giờ là một phần của Thomson Reuters. Độ đo impact factor được tính mỗi năm cho các tờ báo nằm trong danh sách báo cáo trích dẫn các tờ báo của Thomson Reuters [WikiIF].

b. Định nghĩa

Impact factor của một tờ báo trong một năm được tính bằng cách lấy số lần trích dẫn trung bình trong năm đó của các bài báo được xuất bản trong hai năm trước đó thuộc tờ báo đang xét.

Ví dụ ta tính impact factor cho tờ báo X trong năm 2011, đặt:

A = số lần tham khảo tới các bài báo thuộc tờ báo X xuất bản năm 2009, 2010 bởi các bài báo trong các tờ báo được lập chỉ mục trong năm 2011.

B = số bài báo thuộc tờ báo X xuất bản năm 2009, 2010. Khi đó, impact factor của tờ báo X năm 2011 = A / B.

Lưu ý rằng một tờ báo mới lập chỉ mục sẽ được tính impact factor sau năm thứ ba, kết quả sẽ có được vào đầu năm thứ tư sau khi tất cả các bài báo năm thứ ba đã được xuất bản.

Impact factor là một chỉ số khá đơn giản dùng để so sánh độ quan trọng giữa các tờ báo trong cùng một lĩnh vực nhất định. Impact factor được tính toán bởi Thomson Reuters cho hơn 11000 tờ báo trong cơ sở dữ liệu của họ.

Impact factor là chỉ số tốt nhất trong ba chỉ số phân tích tài liệu chuẩn, nó kết hợp cả số lượng bài báo lẫn số lượng trích dẫn để tạo ra một chỉ số trung bình trích dẫn của các bài báo khoa học trong tờ báo khoa học từ đó có thể đánh giá tổng hợp cả hiệu suất làm việc và tầm ảnh hưởng ở từng tờ báo.

Tuy nhiên, impact factor cũng còn tồn tại nhiều thiếu sót, có thể chia chúng ra ba loại là tính hợp lệ, những chính sách khiến impact factor thay đổi, và việc sử dụng impact factor sai mục đích.

Tính hợp lệ của impact factor yếu vì nó là trung bình số học của các trích dẫn trên một bài báo, tuy nhiên theo lý thuyết thì đó là phân phối Bradford, sự không phù hợp giữa lý thuyết và thực nghiệm làm cho impact factor không chính xác để đánh giá các trích dẫn. Thực tế danh sách xếp hạng các tờ báo được tính bởi impact factor cũng không hoàn toàn trùng khớp với danh sách có được do các chuyên gia xếp hạng.

Một tờ báo có thể có chính sách đặc biệt để làm tăng impact factor của nó, ví dụ như xuất bản nhiều những bài báo có khả năng được trích dẫn cao, và hạn chế xuất bản những bài báo ít có khả năng được trích dẫn. Ngoài ra, một tờ báo có thể có một số chính sách yêu cầu tác giả phải trích dẫn các bài báo xuất bản trong tờ báo đó. Những chính sách này làm cho impact factor không phản ánh đúng mức độ quan trọng của tờ báo.

Impact factor là chỉ số được tạo ra để đánh giá các đối tượng là các tờ báo khoa học, nó không phù hợp để đánh giá một bài báo hay một tác giả đơn lẻ, mọi sự đánh giá này đều có thể sai vì impact factor là giá trị trung bình cho cả tờ báo, trong đó có những bài báo được trích dẫn rất nhiều, có những bài báo ít được trích dẫn, tượng tự có những tác giả được trích dẫn rất nhiều, có những tác giả rất ít được trích dẫn [WikiIF].

2.4.3 H-type indexes

a) H-Index

a. Giới thiệu

H-index được đề xuất bởi Jorge E. Hirsch, một nhà vật lý tại UCSD, như một chỉ số so sánh tương đối các nhà vật lý với nhau. H-index được tạo ra nhằm mục đích đo lường cả số lượng các bài báo của một tác giả và hiệu quả ảnh hưởng của các bài báo đó trong cộng đồng khoa học. Chỉ số này được tính toán dựa trên một tập các bài báo được trích dẫn cao nhất của một tác giả và số lượng tham khảo đến chúng. H-index có thể dùng để so sánh chất lượng nghiên cứu khoa học của hai nhà khoa học thuộc cùng một lĩnh vực bất kì, nó còn có thể dùng để so sánh giữa hai nhóm các nhà khoa học, như giữa các trường đại học hay giữa các quốc gia theo một lĩnh vực nào đó [WikiHI].

b. Định nghĩa

Chỉ số h-index dựa trên phân phối của các trích dẫn đến các bài bài của tác giả đang xét. Theo Hirsch thì: “Một tác giả có h-index = h khi có h bài báo khoa học của người đấy có ít nhất h trích dẫn mỗi bài báo, và các bài báo còn lại có ít hơn h trích dẫn mỗi bài.” [Hir2005]. H-index được xây dựng dựa trên một mô hình quen thuộc trong lý thuyết số là hình vuông Durfee [WikiDS]. Hình sau mô tả định nghĩa này của h-index:

Hình 2.6 – Mô phỏng định nghĩa h-index.

Định nghĩa trên của Hirsch không hoàn toàn chính xác, vì nó không bao quát hết các trường hợp. Ta xét ví dụ sau:

Tác phẩm Số trích dẫn A 5 B 3 C 3 D 3 E 1

Theo định nghĩa ban đầu của Hirsch, ta không tìm được giá trị h-index nào cho tập các bài viết này. H-index không phải là ba, vì có ba tác phẩm có lớn hơn hay bằng ba trích dẫn, nhưng các tác phẩm còn lại không phải đều có ít hơn 3 trích dẫn. Một định nghĩa chính xác hơn cho h-index được cho như sau: “Một tác giả có h-index = h khi các tác phẩm của người đó được sắp xếp theo danh sách thứ tự giảm dần số trích dẫn, và có h tác phẩm ở đầu có ít nhất h trích dẫn mỗi tác phẩm, và bài báo thứ (h+1) có ít hơn (h+1) trích dẫn.” [Rou2006]. Nói cách khác, tác giả có h-index = h khi h là số nguyên lớn nhất

thỏa có h tác phẩm có ít nhất h trích dẫn mỗi tác phẩm đó. Khi tính toán, các tác phẩm sẽ được sắp xếp theo thứ tự giảm dần số trích dẫn để công việc đơn giản hơn.

Trong nghiên cứu của mình [Hir2005], Hirsch đã chỉ ra rằng chỉ số h-index có liên quan rõ ràng đến việc một nhà khoa học có đạt được các giải thưởng khoa học không, ví dụ như giải Nobel. Vì chỉ số h-index có phụ thuộc vào số lượng bài báo khoa học của một tác giả nên nó cũng phụ thuộc vào số năm nghiên cứu khoa học của tác giả đó.

H-index của một tác giả có thể được tính từ nguồn dữ liệu là một cơ sở dữ liệu các bài báo khoa học trích dẫn nhau của các tác giả trong nhiều lĩnh vực. Việc tính toán dựa trên việc đếm các trích dẫn của mỗi bài báo, ta sẽ sắp xếp các bài báo của một tác giả theo thứ tự giảm dần số lượng trích dẫn, sau đó đếm để xác định số lượng bài báo h có lượng trích dẫn mỗi bài lớn hơn hay bằng h. Giải thuật tính h có thể cho như sau:

// Calculate h-index for each author.

Input: Tập các bài viết.

Output: h-index của tác giả.

Begin

Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn.

h = 0;

while (h < số bài viết) {

c = số trích dẫn của bài viết thứ (h + 1); if (c >= (h + 1))

h++;

else break; }

h-index = h;

End

H-index của một tổ chức hay một quốc gia có thể được tính bằng cách coi như có một tác giả trừu tượng đại diện cho toàn bộ các tác giả trong tổ chức hay quốc gia. Mỗi bài báo khoa học phải được xác định cụ thể thuộc về tác giả trừu tượng nào. Việc tính toán còn lại hoàn toàn tương tự như tính toán cho một tác giả đơn lẻ.

c. Nhận xét

H-index khá hiệu quả khi dùng để so sánh, đánh giá các tác giả vì nó đã bao gồm cả hai yếu tố số lượng bài báo và số lượng tham khảo cho mỗi bài báo tức là nó bao gồm cả yếu tố số lượng và chất lượng kết quả nghiên cứu của tác giả. H-index đã được chính tác giả kiểm chứng trong một nghiên cứu khác của mình [Hir2007] là có thể dùng dự đoán khá tốt những thành công trong sự nghiệp khoa học tương lai của một tác giả. Trong một số nghiên cứu thực nghiệm khác [BW+2008], h-index cũng cho thấy nó tốt hơn nhiều so với các chỉ số phân tích tài liệu chuẩn trong việc đánh giá chất lượng công việc của các nhà khoa học.

H-index có nhiều ưu điểm nổi bật sau [Rou2008]:  Nó là một chỉ số đơn giản về mặt toán học.

 Nó là một chỉ số mạnh (robust) vì nó không bị ảnh hưởng hoặc chỉ bị ít bởi một vài sai sót nhỏ của việc thu thập dữ liệu.

 H-index giúp tránh được những trường hợp bất thường, ví dụ như chỉ có một vài bài được trích dẫn rất nhiều, hay là có rất nhiều bài viết nhưng lại ít được trích dẫn.

Kết quả tính toán h-index trên các cơ sở dữ liệu khác nhau thường khác nhau vì chúng thường không đầy đủ hoặc có nhiều trích dẫn ảo [MY2007]. Ví dụ như Scopus thiếu nhiều bài báo, Web of Knowledge thiếu nhiều bài trước 1996, Google Scholar thiếu nhiều bài trước 1990.

 H-index bị ràng buộc bởi số lượng tác phẩm được xuất bản. Nếu một tác giả xuất bản ít tác phẩm có chất lượng, được trích dẫn nhiều thì tác giả đó cũng không thể có h-index lớn hơn số tác phẩm của mình. Ví dụ nhà toán học người Pháp Évariste Galois, cha đẻ của lý thuyết Galois và lý thuyết nhóm sẽ mãi chỉ có h-index = 2. Trong bài báo của mình [Hir2005], Hirsch cũng đã chỉ ra rằng h-index chỉ phù hợp để đánh giá các tác giả trong cùng một bối cảnh trong sự nghiệp của họ.

 H-index khó có thể dùng để đánh giá các tác giả mới vì nó chỉ có thể tăng lên sau một khoảng thời gian dài, còn các tác giả đã có nhiều bài viết và được trích dẫn nhiều thì có thể nghỉ ngơi mà h-index vẫn tăng lên.

 H-index không tính đến việc một bài báo có thể có nhiều tác giả.

 H-index bỏ qua thông tin trong phần danh sách tên các tác giả, mà trong một số lĩnh vực là quan trọng.

 H-index coi sách và bài báo khoa học là như nhau, điều đó không đúng với một số ngành như khoa học xã hội.

 H-index không quan tâm đến ngữ cảnh của trích dẫn. Đây cũng là vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.

 H-index không tính đến một số trường hợp đặc biệt như hiệu ứng Matthew [WikiME], và sự thiên vị trong một số trích dẫn, thao túng trích dẫn bằng cách tự trích dẫn, hay trích dẫn tạo ra bởi các công cụ tự động như SCIgen [WikiSCI]. Đây cũng là một vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.

 H-index không có giá trị lẻ mà nó chỉ có số nguyên nên sẽ kém độ chính xác khi so sánh.

 H-index không bao giờ giảm, nó cũng ít nhạy cảm với số lượng trích dẫn nhận được.

Từ khi h-index ra đời, nhiều tác giả đã tìm cách cải tiến nó, chỉnh sửa cho phù hợp với các trường hợp cụ thể để hạn chế các thiếu sót và đạt hiệu quả cao

hơn. Nhiều chỉ số khác nhau đã được đề xuất dựa trên h-index, nổi bật trong số đó có thể kể đến g-index.

b) G-Index

a. Giới thiệu

G-index được đề xuất bởi Leo Egghe vào năm 2006 như là một sự cải tiến của h-index. Theo Egghe [Egg2006], g-index ra đời nhằm khắc phục các điểm yếu về việc h-index bị giới hạn bởi số lượng tác phẩm của nhà khoa học, và về việc có thể có một số tác phẩm rất quan trọng, được trích dẫn rất nhiều nhưng một khi đã được tính đến trong h-index thì nó cũng không đóng góp gì hơn so với các tác phẩm có số trích dẫn ít hơn khác.

b. Định nghĩa

G-index được định nghĩa cho một tập tác phẩm bất kì, nó được định nghĩa như sau: “Một tập các tác phẩm có g-index = g nếu g tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn lớn hơn hay bằng g2, và (g+1) tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn nhỏ hơn (g+1)2.” [Egghe2006]. Nếu tập các tác phẩm là của một tác giả thì g-index tính được là của tác giả đó, tương tự, g-index có thể tính cho một tổ chức hay một tờ báo.

G-index có thể được tính theo giải thuật sau:

// Calculate g-index for a set of papers.

Input: Tập các bài viết.

Output: g-index.

Begin

Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn.

g = 0; cs = 0;

if (g < số bài viết) {

cs += số trích dẫn của bài viết thứ (g + 1); } if (cs >= ((g + 1) * (g + 1))) g++; else break; } g-index = g; End

Theo định nghĩa của g-index, ta thấy g-index có các tính chất sau: Một tập các bài viết bất kì luôn tồn tại duy nhất một giá trị g-index. Giá trị g-index luôn lớn hơn hoặc bằng h-index [Egghe2006].

Nếu số lượng tác phẩm quá ít nhưng lại có nhiều trích dẫn, để tính g-index ta sẽ tạo ra các tác phẩm ảo với số trích dẫn bằng không, bổ sung vào tập bài viết, nhờ vậy g-index không bị giới hạn bởi số bài viết. Khi đó ta có

⌊√ ⌋

c. Nhận xét

G-index là một trong số những cải tiến tốt nhất của h-index. G-index đặc biệt hiệu quả hơn h-index khi đánh giá các tác giả thuộc nhóm các nhà nghiên cứu chọn lọc, họ chỉ xuất bản một số ít tác phẩm nhưng rất có giá trị và được trích dẫn nhiều [CB2008]. G-index có những ý tưởng tương tự như h-index và vẫn giữ được những ưu điểm của h-index. Tuy nhiên g-index cũng còn nhiều hạn chế chung của các chỉ số dựa trên việc đếm trích dẫn.

Các chỉ số khác sẽ được trình bày ngắn gọn sau đây.

Trong bài báo đầu tiên của mình về h-index [Hir2005], Hirsch đã đề cử một chỉ số để so sánh hai tác giả mà không bị ảnh bởi thời gian tham gia nghiên cứu khoa học của mỗi người. Chỉ số đó được gọi là m-quotient và được định nghĩa như sau:

Với:

 m là m-quotient  h là h-index

 y là số năm kể từ khi bài báo đầu tiên được xuất bản.

Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric

Association for Computing Machinery (ACM)

Thảo luận về các chỉ số xếp hạng