Mơ hình đồ thị xác suất phụ thuộc thời gian TPFG

Một phần của tài liệu Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá (Trang 28)

Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học

2.4. Mơ hình đồ thị xác suất phụ thuộc thời gian TPFG

Theo Chi Wang và cộng sự (2010) [4], xem xét vấn đề quan hệ hướng dẫn như là vấn đề về tính hạng xác suất. Các tác giả giới thiệu và đề xuất mơ hình đồ thị xác suất phụ thuộc thời gian (Time-constrained Probabilistic Factor Graph – TPFG) trong mạng cộng tác.

Người hướng dẫn và thời gian hướng dẫn được mơ hình hóa như xác suất kết hợp của các biến Nn là tác giả với ràng buộc về thời gian. Thuận lợi của thuật tốn là tối ưu hóa được xác suất kết hợp và thu được số điểm xếp hạng cho q trình chuyển thơng điệp trên mạng.

Mục này sẽ tập trung làm rõ một vài định nghĩa, công thức, ký hiệu áp dụng trong mơ hình và kèm theo đó là một vài giả thiết ràng buộc để phục vụ cho việc xử lý về sau.

2.4.1. Một số định nghĩa và công thức

Trong chương này, chúng tôi biểu diễn một số công thức và đưa ra định nghĩa của những ký hiệu sử dụng trong toàn báo cáo:

Xây dựng G:

Đầu vào của bài toán là mạng cộng tác phức hợp phụ thuộc thời gian, được biểu

diễn:

VWX = V? = ?5 ∪ ?&, ZX

Trong đó:

• [\ = V:K, … , :0]X là tập các bài báo được cơng bố, trong đó :J là bài báo được công bố trong thời gian J.

• [^ = VDK, … , D0_X là danh sách các tác giả.

E là danh sách các cạnh. Mỗi cạnh J` ∈ Z là đường liên kết giữa bài báo :J và tác giả D`, có nghĩa là D` là một tác giả của :J.

17

Xây dựng G’:

Mạng phức hợp không đồng nhất ban đầu có thể được chuyển đổi sang mạng đồng nhất chỉ chứa trực tiếp tên các giả Wb:

Wb = ?b, Zb, V:.J`X/Oc ∈ de, V:2J`X/Oc ∈ de

Trong đó:

• [b = VDf, … , D0_X là danh sách các tác giả (bao gồm cả nút ảo Df là đỉnh của cây tư vấn (advising tree).

• g′ là tập hợp các bản ghi cộng tác.

Mỗi cạnh ′J` = i, j ∈ Zb là đường liên kết nối hai người là đồng tác giả ai và aj khi giữa họ có bài cơng bố chung được cơng bố, và có 2 vector liên kết với cạnh này là

\klm Fà \nlm:

\klm: Pub_year_vector

\nlm: Pub_num_vector

Hai vector này có cùng độ dài, biểu diễn thời gian mà các tác giả công bố nghiên cứu và số bài báo đồng tác giả mà họ có trong thời gian đó.

Ví dụ:

:.J` = 1999,2000,2001, :2J` = 2,3,4 chỉ ra rằng, hai tác giả ai và aj là đồng tác giả của 2,3,4 bài báo trong lần lượt các năm 1999, 2000 và 2001.

Tương tự như thế, hai vector pyi và pni lần lượt biểu diễn năm công bố và số lượng bài báo cơng bố trong năm đó của tác giả ai. Hai vector pyi và pni có thể nhận được từ pyij và pnij.

Giả sử tác giả DJ có người hướng dẫn DTO, trong đó .J là một biến Nn. Nếu DJ được hướng dẫn bởi D`, sử dụng J`, J` để ký hiệu khoảng thời gian hướng dẫn. Nếu ai không

được hướng dẫn bởi bất kỳ người nào, đặt .J = 0 và người hướng dẫn trực tiếp của DJ là

18

Để tìm mối quan hệ người cố vấn – người được hướng dẫn, không những chỉ

quyết định giá trị cho biến Nn .J cho mỗi tác giả ai mà còn phải đánh giá và ước lượng thời gian bắt đầu JTO và thời gian kết thúc JTO. Tuy nhiên, việc đánh giá này gặp một số khó khăn như: mục đích tìm kiếm là để tìm ra được những người hướng dẫn là tiến sỹ, nhưng thực tế, đây là vấn đề phức tạp hơn tìm kiếm một người người cố vấn tiến sỹ trong số những người đồng tác giả bởi vì: có nhiều người hướng dẫn giống như là người tổng cố vấn, đồng hướng dẫn tiến sỹ…. Ngoài ra, một người hướng dẫn có thể khơng xuất hiện trong cơ sở dữ liệu.

Bởi vậy, Chi Wang và cộng sự (2010) [4] chọn một mơ hình xác suất để xếp hạng và đánh giá hàm likelihood cho các người hướng dẫn tiềm năng của mối tác giả. Biểu diễn J` là xác suất mà aj trở thành người hướng dẫn của ai. Giảm bớt số lượng các tác giả được đánh giá xếp hạng, mang lại nhiều lợi ích để giữ lại những cặp cố vấn – hướng dẫn tiềm năng.

Xây dựng H’

Các tác giả xây dựng một đồ thị con <b ⊂ ′ bằng cách loại bỏ đi một vài cạnh từ đồ thị G’ và giữ lại những cạnh liên kết trực tiếp từ người được hướng dẫn tới người cố vấn “tiềm năng” của họ. Do đó, <′ = ?b, Zb

* Fà Zb

* ⊂ Zb. Sau đó, sẽ trích xuất được đồ thị phi chu trình H’ (DAG _ Directed Acyclic Graph) từ G’.

Trong đồ thị H’, tập chỉ số của những người hướng dẫn tiềm năng của tác giả ai

được định nghĩa là tJ = Vj|J` ∈ Z′*} (ví dụ Y3 = {0, 1}. Tương ứng là tập những người

được hướng dẫn tiềm năng được định nghĩa là tJUK= Vj|`J ∈ Z′*}.

Đầu ra đồ thị H:

Như thế, công việc sẽ trờ thành tìm các giá trị J`, J`, J`cho mỗi cặp quan hệ hướng dẫn tiềm năng i, j ∈ Z′*. Như thế, đầu ra sẽ là đồ thị phi chu trình:

u = ?b, Zb

19

Quá trình chuyển đổi được mơ tả ở hình bên dưới:

Hình 6: Minh họa đồ thị chuyển đổi [4]

Sau khi tạo được đồ thị H, số điểm xếp hạng có thể được dự đoán ở những quan hệ người cố vấn – người được hướng dẫn giữa những người đồng tác giả DJ, D`.

Một cách đơn giản để dự đoán là sẽ lấy ra top k người hướng dẫn tiềm năng nhất của ai và kiểm tra những nơi mà aj là một trong những số đó thỏa mãn J` > Jf hoặc

20

Việc chọn dữ liệu đầu vào chứa một số dữ liệu để huấn luyện sẽ quyết định đến tham số. Nếu khơng có dữ liệu huấn luyện, có thể dùng các giá trị theo kinh nghiệm.

2.4.2. Một số giả thiết ràng buộc

a) ∀| ≤ } ≤ n^, ~k} < ‚} < ~} (1)

Giả thiết này cho biết tại thời điểm (t) trong khoảng thời gian x cơng bố bài báo, x có thể là người được hướng dẫn hoặc không được hướng dẫn.

Mỗi khi x bắt đầu hướng dẫn cho một người khác thì sẽ khơng bao giờ hướng dẫn lại, tức là x không thể hướng dẫn y tại năm t1 nếu x đang hướng dẫn bởi p tại thời thời điểm t1.

Nếu x hướng dẫn y, tại thời điểm y được hướng dẫn bởi x là khoảng thời gian [t1 – t2], với t1 < t2.

Nếu y được hướng dẫn bởi x trong khoảng thời gian [t1 – t2], y không thể được hướng dẫn bởi một ai khác trong thời gian đó.

b) ∀| ≤ } ≤ n^ , \kk}| < \k}| (2)

Giả thiết này có nghĩa là với mỗi cặp người cố vấn – hướng dẫn, người cố vấn thường có thời gian công bố các công trình khoa học sớm hơn người được hướng dẫn.

:.NK biểu diễn thành phần đầu tiên của vector :.N.

Giả thiết thứ nhất là một ràng buộc về thời gian quan trọng để xác định sự tương quan giữa một người cố vấn và người hướng dẫn của người láng giềng.

Ví dụ: Xét a4 là đồng tác giả hai bài công bố với a3. Tuy nhiên, a3 có khả năng cao

để trở thành người được hướng dẫn bởi a1 trong năm 2001, trong khi a4 mới bắt đầu cộng tác với a3, cho nên a3 khơng hướng dẫn a4 trong thời gian đó. Như thế ta sẽ có a1 có khả năng là người hướng dẫn của a3, cịn a3 khơng hướng dẫn a4 mà chỉ là người cộng tác với a4.

Giả thiết thứ hai sẽ quyết định tất cả các tác giả trong mạng có được thứ tự định nghĩa bởi mối quan hệ hướng dẫn xảy ra. Điều này làm cho việc kiểm tra tính khơng đối xứng dễ dàng hơn. Với tính bắc cầu, nếu a1 → a3 có khả năng là một cặp người cố vấn – hướng dẫn, và bởi vậy, a3 → a5 và tiếp đó là a1 → a5 cũng có khả năng là cặp quan hệ hướng dẫn – cố vấn, trong khi a5 → a1 thì khơng phải là một cặp quan hệ.

21

Theo thứ tự như thế, đồ thị ứng viên H’ được đảm bảo đúng là đồ thị phi chu trình (DAG – Directed Acyclic Graph). Đồ thị phi chu trình là đồ thị có hướng và khơng có chu trình (khơng có các vịng kín), được tạo thành bởi tập các đỉnh và các cạnh, mỗi cạnh nối với một đỉnh khác. Như vậy, sẽ khơng có cách nào để bắt đầu từ một đỉnh v và đi theo trình tự của các cạnh mà cuối cùng lại quay trở lại v một lần nữa.

Các giả thiết nêu trên sẽ được sử dụng trong q trình xử lý về sau để tính giá trị hàm likelihood cho mối quan hệ tiềm năng, sử dụng một số tri thức nhận biết được từ các giả thiết. Chi Wang (2010) [4] đề xuất hai pha xử lý để giải quyết vấn đề khai thác mối quan hệ hướng dẫn – cố vấn:

22

2.5. Mơ hình xử lý

Ở pha thứ 1: Sẽ tiến hành tiền xử lý mạng cộng tác phân cấp để sinh đồ thị ứng viên H’. Bước này bao gồm quá trình chuyển đổi từ G sang mạng dồng nhất G’, xây dựng từ G’ tới H’, và cuối cùng là ước lượng tính tốn khả năng (likelihood) địa phương cho mỗi cạnh của H’. Sau đó, sẽ là dự đốn các quan hệ hướng dẫn dựa vào việc lựa chọn giá trị địa phương tối ưu.

Ở pha thứ 2: Những mối quan hệ tiềm năng sẽ được mơ hình xác suất. Độ likelihood (đo khả năng) địa phương và ràng buộc thời gian được kết hợp trong mơ hình xác suất kết hợp với tất cả mọi biến Nn. Giá trị xác suất kết hợp là tối đa và số điểm xếp hạng của các mối quan hệ tiềm năng sẽ được tính tốn. Q trình xây dựng đồ thị H cũng kết thúc ở đây.

a) Pha 1: Tiền xử lý

Mục đích là để sinh ra đồ thị ứng viên H’ và giảm bớt khơng gian tìm kiếm trong khi người hướng dẫn không bị loại bỏ trong mọi trường hợp.

Trước hết, cần tích hợp các thông tin trong mạng cộng tác phức hợp sang mạng lưới tác giả đồng nhất G’. Giữ lại những cạnh cho biết có khả năng đó là mối quan hệ hướng dẫn từ G’, và xác định hướng cho những cạnh đó. Để sinh ra G’, cần xử lý từng bài báo một trong mạng.

Với mỗi bài báo :J ∈ ?5, xây dựng mỗi cạnh giữa mỗi cặp và cập nhật vector :.

và :2. Độ phức tạp của quá trình này là ƒ ∑ JL

5O∈…] ), với di là bậc của pi trong đồ thị G.

Tiếp đó sẽ loại bỏ các quan hệ cố vấn – hướng dẫn không phù bằng cách:

Với mỗi cạnh J` thuộc ′, DJ Fà D` có sự cộng tác. Quyết định D` là người hướng dẫn tiềm năng của DJ, các điều kiện sẽ được kiểm tra. Đầu tiên, giả thiết (2) sẽ được sử

dụng để kiểm tra. Chỉ khi D` có thời gian cơng bố bắt đầu cơng bố sớm hơn DJ, khả năng đây là cặp quan hệ hướng dẫn – cố vấn sẽ được xem xét.

23

Thứ hai, kiểm tra điều kiện \km|+ † > \klm|. Nếu vậy, theo hệ quả tất yếu của giả

thiết (1), chúng ta sẽ biết rằng khi DJvà D` bắt đầu cộng tác thì D` chưa hồn thành cấp độ học, và như thế sẽ bị loại trừ. Tiếp theo, tính tốn độ đo Kulczynski cho các bài công bố trong mỗi năm trong khoảng thời gian từ lúc bắt đầu cộng tác đến lúc kết thúc sự cộng tác đó. Độ đo được định nghĩa:

‡ˆ‰Šlm‚ = ∑ :2J` ‹ 5TOcŒ+ 2 ∑ 1 :2J‹ 5TOŒ+ + ∑ 1 :2 ` ‹ 5TcŒ+ (2.10)

Độ đo này để so sánh độ tương đồng giữa hai công bố của các tác giả.

Tính độ đo IR trong mỗi năm tương ứng với độ đo Kulczynski. IR là độ đo để đo độ không cân bằng của sự xuất hiện aj cho ai và ngược lại. Cơng thức tính:

Žlm‚ = ∑ :2` ‹− ∑ :2J‹ 5TOŒ+ 5TcŒ+ ∑ :2J‹ 5TOŒ+ + ∑ :2`‹ 5TcŒ+ − ∑ :2J`‹ 5TOcŒ+ (2.11) IR là độ đo không cân bằng giữa j|iFà i|j, tức là đo độ không cân bằng của sự xuất hiện D` cho DJ. và ngược lại.

Nếu giá trị đầu tiên trong dãy IR là âm, nó chỉ ra cho biết DJ công bố nhiều bài báo hơn D` trước khi họ cộng tác. Trong trường hợp này, sẽ xét khả năng D` không phải là người hướng dẫn của DJ.

Với những cặp đã thỏa mãn tất cả mọi điều kiện, sẽ xây dựng cạnh nối trực tiếp từ

DJ đến D` trong H’. Thêm vào đó, tác giả tính tốn thời gian bắt đầu và thời gian kết thúc cho quá trình hướng dẫn. cũng như giá trị hàm likelihood J` đánh giá khả năng D` trở thành người hướng dẫn của DJ. Thời gian bắt đầu J` được ước lượng là thời gian lúc họ bắt đầu cộng tác, còn thời gian kết thúc được ước lượng tại thời điểm mà độ đo Kulc bắt đầu giảm. Điều này là trực quan, giống như một sinh viên sau khi tốt nghiệp thì mối quan hệ và tương quan với người hướng dẫn của mình sẽ là giảm tạm thời trong thời gian đó.

24

Sau khi ước lượng đươc các giá trị J` Fà J` tiến hành tính tốn giá trị trung bình của độ đo Kulc và IR trong khoảng thời gian đó, và giá trị trung bình đó chính là

giá trị hàm likelihood địa phương. Cơng thức tính như sau:

‰lm = ∑*+Oc+/'Oc2 9‘’J`+ + “”J`+

J` − J` + 1 (2.12)

Đến đây, quá trình xử lý cho mỗi cạnh J` thuộc ′ kết thúc. Độ phức tạp của quá

trình tính tốn là ƒz. Độ phức tạp của q trình chuyển bD2E <′ là ƒz, trong đó

là số cạnh của đồ thị ′.

b) Pha 2: Mơ hình TPFG

Từ đồ thị ứng viên H’, sẽ biết được những người hướng dẫn “tiềm năng” của mối tác giả cùng với độ đo. Tuy nhiên vẫn có nhiều vấn đề khó khăn để chỉ ra ai là người hướng dẫn trong một tập những người cố vấn. Cần phải xây dựng mơ hình mà trong đó có sự kết hợp chặt chẽ giữa cấu trúc thông tin và các giả thiết ràng buộc và phân tích quan hệ giữa các liên kết. Chi Wang và cộng sự đề xuất mơ hình TPFG [4]:

Với mỗi node DJ, có 3 biến sẽ được thể hiện: .J, J, J. Giả sử đã có hàm đặc trưng địa phương E.J, J, J được định nghĩa với các nút đã qui định.

Để mơ hình xác suất cho tất cả các biến trong mạng, chúng ta định nghĩa hàm đặc trưng:

34.J, J, JX&O ∈ …_w = • S E.1 J, J, J

&O ∈ …_ (2.13)

Với ∀DJ ∈ ?&, TO < J < J, trong đó K

– là xác suất kết hợp tiêu chuNn.

Để tìm ra giá trị có khả năng xảy ra nhất trong số tất cả các biến Nn, cần ước lượng được giá trị xác suất lớn nhất trong số đó. Để đánh giá với kích thước của khơng gian tìm kiếm thực thể, cho mỗi tác giả là một ứng viên C và thời gian hướng dẫn trong khoảng thời gian T, sau đó sẽ kết hợp các biến có kích cỡ hàm mũ (CT2)na. Điều này gây ra nhiều khó khăn cho việc tìm kiếm. Mặt khác, nếu muốn lấy giá trị cực đại cho hàm đặc trưng

25

V.J, J, J X = arg max

TO,*+O,/'OE.J, J, J (2.14)

Bằng cách nào đó, J Fà J được chọn làm giá trị của .J, thì với mỗi .J được chọn, các giá trị đó sẽ được nhận tương ứng. Có thể tính tốn được thời gian hướng dẫn tốt nhất stij và edij với mỗi yi = j. Đó là lý do việc đơn giản hóa trong mục đích tìm người hướng dẫn. Sau khi V.JX đã được tối ưu hóa, giá trị của chúng là tương quan với nhau. So

Một phần của tài liệu Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá (Trang 28)

Tải bản đầy đủ (PDF)

(68 trang)