Chương 2. Một số phương pháp phát hiện vai trò trong mạng xã hội
2.2 Mô hình Role-Author-Recipient-Topic phát hiện vai trò và chủ đề trong mạng xã hội
McCallum và cộng sự [6] đề xuất mô hình ART (Author-Recipient-Topic) tìm chủ đề giữa các cặp người gửi – người nhận thông qua nội dung các email, sử dụng mô hình LDA (Latent Dirichlet Allocation). Kết quả đầu ra của mô hình này là các chủ đề và các cặp người gửi – người nhận có trao đổi email về chủ đề với phân phối xác suất tương ứng. Một nhóm các chủ đề tương đồng có thể xác định một vai trò. Do đó, để khai phá tốt hơn vai trò của người gửi, các tác giả đã mở rộng mô hình bằng cách bổ sung thêm các biến ẩn. Mô hình mở rộng là RART (Role-Author-Recipient-Topic), phát hiện vai trò của từng người trong mạng bằng cách phân cụm độ tương đồng giữa mọi người. Độ tương đồng này được đánh giá bằng cách sử dụng hiệu quả phân phối chủ đề có điều kiện. Việc phân cụm được thực hiện đồng thời với việc phát hiện chủ đề bằng việc sử dụng các biến ẩn cho vai trò người gửi và người nhận.
Một người có thể có nhiều vai trò, ví dụ một người vừa có thể là giáo sư, vừa là nhà leo núi. Mỗi vai trò tương ứng với một tập các chủ đề, và các chủ đề này có thể chồng lên nhau. Ví dụ, chủ đề về giáo sư có thể là về nghiên cứu thuộc tính, thời gian hội họp, đề nghị tài trợ, và các mối quan hệ bạn bè; Chủ đề về leo núi có thể gồm các đặc trưng về núi, thiết bị leo núi, và cũng bao gồm thời gian hội họp và quan hệ bạn bè.
Trong RART, tác giả, vai trò và nội dung văn bản được mô hình đồng thời. Mỗi tác giả có một phân phối đa thức trên tập vai trò. Mỗi người gửi và người nhận được ánh xạ tới một số vai trò, và một chủ đề được chọn dựa trên những vai trò này. Do đó, chúng ta có một mô hình phân cụm, trong đó sự xuất hiện của các chủ đề là những dữ liệu cơ bản và tập hợp các chủ đề tương đồng xác định một vai trò. Mỗi cặp vai trò người gửi và vai trò người nhận có một phân phối đa thức trên các chủ đề, và mỗi chủ đề có một phân phối đa thức trên các từ.
Hình 2.1: Ba mô hình tham số RART [6]
Nhóm tác giả đã đưa ra 3 mô hình sử dụng các chiến lược khác nhau để kết hợp các biến ẩn. Trong mô hình RART1, vai trò được gán riêng rẽ cho mỗi từ. Với mô hình này, mỗi người có thể thay đổi vai trò trong chuỗi email. Trái lại, ở mô hình RART2, mỗi người chỉ có một vai trò nhất định trong suốt chuỗi email. Mỗi người nhận tin nhắn chọn một vai trò, và sau đó với mỗi từ, một người nhận với trò tương ứng được chọn trên điều kiện lựa chọn chủ đề. Ở mô hình RART3, người nhận chia sẻ vai trò chung, vai trò này sau đó được sử dụng làm điều kiện lựa chọn mỗi từ trong tin nhắn. Mô hình này có thể giúp nắm bắt được thực tế là vai trò của một người có thể phụ thuộc vào những người nhận khác nhưng cũng ngăn cản những người khác nhận một vai trò.
Sau đây sẽ mô tả chi tiết các mô hình RART.
T: Tập chủ đề.
R: Tập vai trò.
A: Tập tài khoản email.
D: Tập nội dung email.
Nd: Số từ đặc trưng cho email d.
Ở quá trình duyệt mỗi email trong mô hình RART1, một người gửi ad và một tập người nhận rd được quan sát. Để sinh mỗi từ, một người nhận x được chọn từ tập rd. Vai trò g cho người gửi và vai trò h cho người nhận x được sinh ra từ 2 hàm phân phối đa thức 𝛹𝑎𝑑 và 𝛹𝑥 tương ứng. Tiếp theo, một chủ đề z được chọn từ một phân phối chủ đề 𝜃𝑔, được xác định cho mỗi cặp vai trò người gửi – vai trò người nhận (g,h). Cuối cùng, từ w được sinh ra bằng cách lấy mẫu từ hàm phân phối đa thức xác định chủ để 𝛷𝑧.
Các tham số 𝛼, 𝛽 và γ, người gửi 𝑎𝑑 và tập người nhận 𝒓𝒅 cho mỗi email d được cho trước. Phân phối có điều kiện của hỗn hợp chủ đề 𝜃𝑖𝑗 cho mỗi cặp vai trò người gửi – vai trò người nhận (i, j), vai trò 𝛹𝑘 cho mỗi người gửi k, tập từ 𝛷𝑡 cho mỗi chủ đề t, tập người nhận x, tập vai trò người gửi g, tập vai trò người nhận h, tập chủ đề z và tập từ w được tính bởi công thức sau:
P Θ, Φ, Ψ, 𝐱, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
= p(𝜃ij|𝛼) p(𝜙t|𝛽)
T
t=1 R
j=1 R
i=1
p(𝜓k|𝛾) P(xdi|rd)P(gdi|ad)
Nd
i=1 D
d=1 A
k=1
P(hdi|xdi)P(zdi|𝜃gdihdi)P(wdi|𝜙zdi) Với mô hình RART2, vai trò gd cho người gửi và tập vai trò hd cho tập người
nhận được sinh ra từ 2 hàm phân phối đa thức 𝛹𝑎𝑑 và 𝛹𝑟𝑑 tương ứng. Để sinh mỗi từ, một vai trò người nhận h được chọn từ tập vai trò hd. Phân phối có điều kiện của mô hình RART2 được tính bởi công thức sau:
P Θ, Φ, Ψ, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
= p(𝜃ij|𝛼) p(𝜙t|𝛽)
T
t=1 R
j=1 R
i=1
p(𝜓k|𝛾) P(hd|rd)P(gd|ad)
Nd
i=1 D
d=1 A
k=1
P(hdi|hd)P(zdi|𝜃gdhdi)P(wdi|𝜙zdi) Với mô hình RART3, tập người nhận có cùng vai trò hd và không thay đổi trong
mỗi email. Tương tự như trên, phân phối có điều kiện của hỗn hợp chủ đề 𝜃𝑖𝑗 cho mỗi cặp vai trò người gửi – vai trò người nhận (i, j), vai trò 𝛹𝑘 cho mỗi người gửi k, tập từ 𝛷𝑡 cho mỗi chủ đề t, tập vai trò người gửi g, tập vai trò người nhận h, tập chủ đề z và tập từ w được tính bởi công thức sau:
P Θ, Φ, Ψ, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
= p(𝜃ij|𝛼) p(𝜙t|𝛽)
T R
R
p(𝜓k|𝛾) P(hd|rd)P(gd|ad)
Nd D A
P(zdi|𝜃gdhd)P(wdi|𝜙zdi)
Để thực thi mô hình RART, nhóm tác giả sử dụng thuật toán lấy mẫu Gibbs. Mô hình RART1 được thực nghiệm với tập dữ liệu email của chính tác giả McCallum, bao gồm 23,488 emails của 825 người, được gửi và nhận bởi McCallum từ tháng 1 đến tháng 10 năm 2014.
Để đơn giản hoá thủ tục lấy mẫu, thay vì phải thực hiện việc lấy mẫu 2 lần cho mỗi tập biến ấn của vai trò người gửi và vai trò người nhận, các tác giả đã tiến hành huấn luyện mô hình ART trước, sau đó sử dụng mẫu để gán chủ đề và người nhận cho mỗi từ. Ở bước tiếp theo, chủ đề và người nhận được xem như là đã quan sát được.
Hình 2.2: Ví dụ về 2 vai trò từ tập dữ liệu email McCallum với 50 chủ đề và 15 nhóm [6]
Kết quả thực nghiệm cho thấy mô hình RART có thể phát hiện những thông tin vai trò hữu ích. Ví dụ, những người dùng nổi bật nhất trong Vai trò 3 (Hình 2.2) đều là nhân viên của phòng IT tại UMass CS, ngoại trừ Allan, tuy nhiên ông lại là giáo sư chủ nhiệm ban tính toán của các bộ phận. Vai trò 4 là nhóm những người làm việc tại dự án SRI CALO. Trên thực tế, phần lớn những người này là các nhà nghiên cứu làm việc trong dự án CALO, và nhiều người trong số họ làm tại SRI. Người gửi majordomo gửi các email từ danh sách thư điện tử SRI CALO. Tài khoản email mgervasio và melinda.gervasio thực chất là của cùng một người.
Hình 2.3: Ví dụ về phân phối vai trò của 2 người trong tập dữ liệu email McCallum [6]
Một mục tiêu khác của RART là có thể phát hiện được nhiều vai trò của một người. Ví dụ, allan (James Allan) có vai trò trong việc “hỗ trợ IT”, nhưng cũng có vai trò như là một “thành viên của Trung tâm thu nhận thông tin thông minh”, đồng thời ông còn là người “cấp đề xuất”, và là một “nhà nghiên cứu ngôn ngữ tự nhiên”. Mặc dù không phải là một thành viên của dự án SRI CALO nhưng Allan làm các nghiên cứu liên quan đến CALO, vì thế đây có thể là lý do mà CALO xuất hiện trong tập vai
trò của ông với một xác suất rất thấp. Có thể nói tốp 5 vai trò của Allan hoàn toàn trùng khớp với thực tế.