Học mơ hình

Một phần của tài liệu Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá (Trang 39 - 44)

Chương 1 Giới thiệu về quan hệ cố vấn – hướng dẫn khoa học

2.6. Học mơ hình

Để làm tăng giá trị hàm mục tiêu (hàm số liên hệ mục tiêu – biến số cần tối ưu hóa với biến số lựa chọn trong bài tốn tối ưu hóa) và tính tốn độ đo xếp hạng theo mỗi cạnh thuộc đồ thị ứng viên ′ , cần lập luận và đưa ra được giá trị xác suất kết hợp cực đại trong TPFG bằng cách sử dụng cơng thức (*). Các tác giả giới thiệu thuật tốn cho đồ thị một cách tổng quan, đưa ra những hạn chế và tiếp đó là đề xuất thuật tốn của mình.

a) Thuật tốn TPFG

Thuật tốn sum-product (như đã trình bày ở mục 2.5) gặp nhiều khó khăn do yêu cầu mỗi nút cần phải chờ tất các các thông điệp được gửi đến. Trong khi đó, thuật tốn suy diễn mơ hình xác suất phụ thuộc thời gian TPFG chỉ cần một số nút sẽ chờ trong khi chu trình vẫn hoạt động.

Ví dụ:

Trong hình (8), tại thời điểm bắt đầu, các nốt L, ¡, ¢, .f có thể gửi thơng điệp tới .L, .¡, .¢, f bởi vì chúng cùng có bậc 1. Thơng điệp được gửi qua sẽ bị giữ lại bởi vì mỗi nốt phải đợi ít nhất hai thơng điệp khác. Để giải quyết vấn đề này, chúng tôi sắp xếp các thông được được chuyển vào một mơ hình giống như đã được quyết định bởi H’. Mỗi nút DJ có tập các đỉnh con cháu tJUK và tập các đỉnh cha ông tJ.

28

Hình 8: Sơ đồ truyền thông điệp ở hai pha [4]

Trong pha thứ nhất: Thông điệp chuyển từ người được hướng dẫn tới người cố vấn, và sau đó, thơng điệp quay trở lại từ người cố vấn tới người được hướng dẫn. Có hai loại thơng điệp trong pha thứ nhất: £ƠO→TO, £Tc, ¦2E đó j ∈ tJ . Thông điệp từ

` i .J sinh ra và chỉ gửi đi khi nào mà tất các các thông điệp từ các nút con của nó đến. Và .J ngay lập tức gửi tất cả thông điệp từ nút cha ông J , j ∈ tJ.

Trong pha thứ hai: Có hai loại thơng điệp: £TO, ÊƠc→TO, ¦2E đó j ∈ tJ cho mỗi chiều đảo ngược trên cạnh giống như pha thứ nhất. Q trình chuyển thơng điệp được miêu tả như hình (8).

ÊƠO →TOM = *+ max

O /'Oâ,TJlog JN + A ÊT

eêO vTew

eO (2.19)

£TOÔcM = ÊÔO→TOM (2.20)

£TOÔOM = A ÊÔc →TOM

29 £ƠO→TOM = *+Œc ă /'max c«c,∀TŒ—`log `Tc+ £TcƠc v.`w + A £T Œe→ªO vTŒew ‹e∈šO›œ (2.22)

Sau q trình chuyển thông điệp trong hai pha, chúng tôi tập hợp hai thơng điệp trên cạnh bất kỳ và tính tốn giá trị hàm biên duyên:

J` = max 3v.K, … , .0_ ¬.J = j

= exp£ƠO→TOj + £TO j (2.23)

Tuy nhiên, thuật toán vẫn cịn có nhiều bước tính tốn dư thừa. Thơng điệp được gửi đi giữa nút hàm và nút biến là những giá trị hàm mà cần được lưu trữ trong các vector. Một vài thông điệp không bao giờ được sử dụng trong suốt q trình kết hợp, và mộ tsố thơng tin chỉ đơn giản là được truyền từ một nút biến đến nút hàm tương ứng thíc hợp của nó. Thơng tin có thể được truyền lan rộng giữa các tác giả, và luồng thơng tin có

thể được lưu trữ với mỗi tác giả trong hai vector: một vector gửi đi và một vector nhận

thơng tin. Thứ tự q trình truyền thông tin được minh họa thông qua số cạnh. Bằng cách này, có thể tiết kiệm được cả khơng gian và thời gian.

Cải tiến của sự truyền thông tin là được phân chia thành hai pha. Ở pha thứ nhất, thông tin gửi senti , được truyền từ một trong số những nút cha ông của chúng. Ở pha thứ hai, thông tin được quay trở lại từ nút cha ông recvi được lưu trữ trong mỗi nút. Sau khi kết thúc hai pha, mỗi nút sẽ thu thập hai vector và tính tốn được độ xếp hạng cuối cùng.

Cơng thức tính điểm xếp hạng (ranking score):

~n‚lm = log J` + A *+â ă /'Oc ®, N¯Jmax ~n‚‹N

30

°~Š±lm= `e∈šc,/'max

cce² *+Oc ³’F``e + log ``e + A N,*+â /'max

cce đ, N¯`~n‚‹N ‹∈ šO›œ,‹¯J ´ + A max `e∈š©’FN`e + A max Ne∈šŒ,*+Œ©e ă /'õce đ, NeN~nNe â,J N O,N`e (2.25) lm = exp ~n‚lm + °~Š±lm (2.26)

Trong thuật tốn mới, thơng tin được lan truyền bằng cách sử dụng ngăn xếp – hàng đợi. Trong pha thứ nhất, mỗi nút sẽ được đưa vào hàng đợi và tính tốn vector

2J. Trong pha thứ hai, quét hàng đợi từ đuôi trở lại đầu coi như đó là một ngăn xếp và tính tốn ’FJ. Sau đó, tiêu chuNn hóa các kết quả và tổng hợp chúng để tính số điểm xếp hạng (ranking score). Thời gian chạy của thuật toán được đánh giá là ƒ∑ Jb

J 0_

J—K , trong đó J và b

J là bậc vào và bậc ra của mỗi nốt DJ trong đồ thị <′.

Thuật toán:

Input: u′ = ?b, Zb*, VvJ`, J`, J`wXJ,`∈ dex

Output: u = ?b, Zb*, VvJ`, J`, J`wXJ,`∈ dex

Calculate the logarithm of local feature function J`; Initialize all 2J` as log J`;

Initialize a counter for each node ’¦‘2J ← |tJUK|;

Initialize a stack – queue Q, enqueue all the nodes x, ’¦‘2N = 0; repeat

i ← the head of Q;

increament the head pointer Q by 1; foreach Ei, j, j¶tJ do

Update 2J` according to Eq (2.24);

31

If ’¦‘2`== 0) then enqueue j; end;

end;

until the head of Q is 0;

Treat Q is a stack, let top points to the tail; repeat

Pop the top element of Q to j; if(j == 0) then ’F`f ← 0

end else

foreach jb ∈ t` ¦

Collect ’F``bD2 2``b¦ ’¦£:‘ ``; according to Eq(2.26) and prepare to compute ’F``b;

end else

foreach i ∈ t`UK do

Computer ’FJ` according Eq(2.25); end

Until Q is not empty;

Generate u = ?b, Zb*, VvJ`, J`, J`wXJ,`∈ dex

Bảng 2-1: Thuật tốn suy diễn TPFG

Tóm tắt chương hai

Giới thiệu các nghiên cứu và các hướng tiếp cận giải quyết bài tốn trích chọn quan hệ giữa các thực thể trong mạng cộng tác: học tự động mối quan hệ tác giả từ cơ sở dữ liệu mục lục, xếp hạng các ứng viên dựa trên phân tích chỉ dẫn khoa học, dự báo mối quan hệ đồng tác giả trong mạng cộng tác. Chương này tập trung vào việc giới thiệu mơ hình xác suất đồ thị phụ thuộc thời gian do Chi Wang và cộng sự (2010) [4] đề xuất. Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mơ hình thực nghiệm một phần mơ hình hệ thống được các tác giả xây dựng.

32

Một phần của tài liệu Trích chọn tự động quan hệ cố vấn - hướng dẫn khoa học dựa trên mô hình đồ thị xác suất phụ thuộc thời gian và thử nghiệm đánh giá (Trang 39 - 44)

Tải bản đầy đủ (PDF)

(68 trang)