Tầm ảnh hưởng

Một phần của tài liệu TÌM tầm ẢNH HƯỞNG của bài báo KHOA học TRONG MẠNG TRÍCH dẫn (Trang 36 - 40)

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT

2.1. Một số định nghĩa liên quan đến đề tài

2.1.3. Tầm ảnh hưởng

2.1.3.1. Tầm ảnh hưởng của một bài báo

Tầm ảnh hưởng có thể được định nghĩa là năng lực của một nhà nghiên cứu có ảnh hưởng đến ý kiến, ý tưởng, phương pháp thử nghiệm, hoặc lựa chọn các đề tài nghiên cứu của nhà nghiên cứu khác. Trong nghiên cứu khoa học, tầm ảnh hưởng đồng nghĩa với tầm quan trọng. Các nhà nghiên cứu được đánh giá là có ảnh hưởng thường được chọn cho các khoản tài trợ, sự ưu đãi... để hỗ trợ cho các chương trình nghiên cứu của họ. Tầm ảnh hưởng có thể được dùng như một thước đo để đánh giá công việc và kết quả nghiên cứu. Thước đo tầm ảnh hưởng tốt hơn giúp các tổ chức đưa ra quyết định tốt hơn và cải tiến các qui trình khác nhau như: tuyển dụng, tài trợ kinh phí, khuyến mãi và trao các giải thưởng... (S. Bergsma, R. L. Mandryk, G. McCalla, 2014)

Tầm ảnh hưởng của một bài báo có thể được xác định bằng hai cách:

- Đếm số lượng bài báo tham khảo đến bài báo gốc trực tiếp hoặc gián tiếp.

- Dùng thuật toán PageRank.

2.1.3.2. Đếm số lượng bài báo tham khảo

Để xác định tầm ảnh hưởng của một bài báo ta có thể đếm số lượng bài báo tham khảo đến bài báo gốc trực tiếp hoặc gián tiếp. Đây là cách đơn giản nhất, dù tính chính xác khơng cao nhưng nó cũng có ý nghĩa nhất định. Với cách này, ta có thể chia tầm ảnh hưởng thành ba loại:

1. Tầm ảnh hưởng theo chiều rộng (hay tầm ảnh hưởng trực tiếp): được xác định bằng số lượng bài báo tham khảo trực tiếp đến bài báo gốc. Nói cách khác, tầm ảnh hưởng theo chiều rộng chính là bậc trong của đỉnh đại diện cho bài báo trên đồ thị.

Ví dụ, như trong Hình 2.3, tầm ảnh hưởng theo chiều rộng của bài báo A là 3, của bài báo E là 2, của bài báo I là 1, của bài báo H là 0.

3. tiếp): được xác định bằng số lượng bài báo lớn nhất tham khảo gián

tiếp đến

bài báo gốc theo một hướng trên đồ thị. Nói cách khác, tầm ảnh hưởng theo

chiều sâu chính là đường đi dài nhất đến bài báo gốc từ một bài báo

trên đồ

thị.

Ví dụ, như trong Hình 2.3, tầm ảnh hưởng theo chiều sâu của bài báo A là 3, của bài báo D là 2, của bài báo I là 1, của bài báo H là 0.

3. Độ lan tỏa của một bài báo: được xác định bằng số lượng bài báo tham khảo đến bài báo gốc trực tiếp hoặc gián tiếp. Đặt số này là n. Như vậy, n càng lớn thì độ lan tỏa của bài báo càng lớn. Ngồi ra, ta có thể xem xét đến yếu tố thời gian để xác định độ lan tỏa nhanh hay chậm. Hai bài báo có cùng độ lan tỏa, nhưng bài báo lan tỏa nhanh chứng tỏ nó hấp dẫn và quan trọng hơn bài báo lan tỏa chậm.

Hình 2.3 - Ví dụ tầm ảnh hưởng của bài báo trong mạng trích dẫn.

Ví dụ, như trong Hình 2.3, độ lan tỏa của bài báo A là 9 vì có 9 bài báo tham khảo trực tiếp hoặc gián tiếp đến bài báo A là B, D, E, J, K, G, H, I, L; độ lan tỏa của bài báo D là 4 vì có 4 bài báo tham khảo trực tiếp hoặc gián tiếp đến bài báo D là G, H, I, L.

Tầm ảnh hưởng theo chiều rộng có ý nghĩa quan trọng hơn tầm ảnh hưởng theo chiều sâu vì mối quan hệ trích dẫn. Khi hai bài báo có mối quan hệ trích dẫn trực tiếp thì chắc chắn chúng có mối quan hệ gần gũi hơn về ý tưởng, ngữ nghĩa... so với hai bài báo có quan hệ gián tiếp.

Độ lan tỏa có ý nghĩa quan trọng hơn tầm ảnh hưởng theo chiều rộng vì nó bao gồm cả tầm ảnh hưởng theo chiều rộng và chiều sâu.

2.1.3.3. Dùng thuật toán PageRank

PageRank (PR) là thuật toán nổi tiếng được Google sử dụng để xếp hạng các trang web trong kết quả của cơng cụ tìm kiếm. PageRank được tạo ra bởi Larry Page và Sergey Brin trong khi họ là nghiên cứu sinh tiến sĩ tại Stanford và ban đầu được dùng để đo tầm quan trọng của các trang web, tuy nhiên nó có thể dùng để đo tầm quan trọng của các

đỉnh trong bất kỳ đồ thị có hướng nào do sự tương đồng về cấu trúc (Chambers,

2015).

PageRank hoạt động bằng cách đếm số lượng và tính tốn chất lượng cạnh đến một đỉnh để xác định mức độ quan trọng của đỉnh đó trong đồ thị. Nó sử dụng giả thiết cơ bản là các đỉnh quan trọng hơn nhiều khả năng sẽ nhận được nhiều cạnh đến hơn từ các đỉnh khác.

Hình 2.4 — Đồ thị trước và sau khi thực hiện thuật toán PageRank.

Sau khi thực hiện thuật toán PageRank, mỗi đỉnh trên đồ thị sẽ được gán một giá trị PageRank biểu diễn thứ hạng, hay tầm quan trọng, của từng đỉnh. Hình 2.4 trình bày đồ thị trước và sau khi thực hiện thuật tốn PageRank. Trong đó: A,B, C... là nhãn của

đỉnh; 0.15, 0.73, 0.21... là PageRank của đỉnh.

Lúc đầu mỗi đỉnh được gán một giá trị PageRank như nhau là 1/N, N là số đỉnh trong đồ thị. Mỗi cạnh đến một đỉnh sẽ được tính như một yếu tố làm tăng thêm giá trị PageRank cho đỉnh đó. Một đỉnh có cạnh đến từ đỉnh có giá trị PageRank cao thì giá trị PageRank của đỉnh đó cũng sẽ cao (en.wikipedia.org, 2017).

Thuật toán PageRank cụ thể như sau (Michael S. Malak, Robin East, 2016): 1. Gán giá trị PageRank là 1/N cho tất cả các đỉnh trong đồ thị, N là số đỉnh trong

đồ thị. 2. Lặp:

PR(v)

a. Ứng với mỗi đỉnh v, truyền giá trị M dọc theo mỗi cạnh đi ra; PR(v) là giá trị PageRank của đỉnh v, M là bậc ngoài của đỉnh v.

b. Ở mỗi đỉnh nhận giá trị PageRank từ các đỉnh kề với nó, tính tổng các giá trị PageRank nhận được để tạo thành giá trị PageRank mới cho nó.

c. Nếu tất cả giá trị PageRank trong đồ thị không thay đổi đáng kể so với lần lặp trước thì thốt khỏi vịng lặp.

Hình 2.5 — Chất lượng của quan hệ tham khảo

hưởng của một bài báo chính xác hơn phương pháp đếm số lượng bài báo tham khảo là

có xét đến yếu tố chất lượng của quan hệ tham khảo. Một bài báo

được tham khảo từ

một bài báo có giá trị PageRank cao thì giá trị PageRank của bài báo đó cũng sẽ

cao. Như trong Hình 2.5, bài báo C chỉ có bài báo B, có PageRank cao là

0.85, tham khảo

nên PageRank của C cũng cao là 0.87, lớn hơn PageRank của D là 0.53, dù D có tới 3 bài

báo E, G, H tham khảo. Chính vì vậy trong đề tài này tơi sẽ dùng PageRank, như là một

thước đo chính, để xác định tầm ảnh hưởng của một bài báo khoa học trong mạng trích

dẫn, tuy nhiên vẫn dùng những thước đo đã phân tích ở trên để tiện tham khảo.

Một phần của tài liệu TÌM tầm ẢNH HƯỞNG của bài báo KHOA học TRONG MẠNG TRÍCH dẫn (Trang 36 - 40)

Tải bản đầy đủ (DOCX)

(145 trang)
w