Pha gán vai trò phân cấp

Một phần của tài liệu Phát hiện vai trò trong mạng xã hội 04 (Trang 35 - 40)

Sau khi các đối tượng được phân vào các nhóm có vai trò giống nhau, chúng tôi tiếp tục tiến hành gán vai trò “cấp trên – cấp dưới” cho các cặp đối tượng trong mỗi nhóm. Quá trình phát hiện mối quan hệ phân cấp này là riêng rẽ cho từng nhóm vai trò. Ở pha này có quan tâm nhiều hơn đến cấu trúc liên kết giữa các đối tượng, vì vậy chúng tôi sử dụng cấu trúc đồ thị để mô hình hoá dữ liệu. Về cơ bản, pha này sử dụng mô hình TPFG [31] để phát hiện và xếp hạng vai trò nhưng có một số thay đổi phù hợp với đặc trưng dữ liệu của bài toán.

3.2.2.1 Mô hình hoá

Tương tự như mô hình của Wang và cộng sự, chúng tôi biểu diễn dữ liệu theo mô hình đồ thị và biến đổi qua 4 bước:

Bước 1:

Mạng các email được biểu diễn dưới dạng đồ thị G gồm tập các đỉnh V và cạnh E:

={ ∪ , }

Trong đó:

- = { 1, … . , } là tập hợp các emailvới là email được gửi tại thời điểm

.

- = { 1, … . , } là tập hợp những người có cùng vai trò R.

- E là tập hợp các cạnh. Mỗi cạnh ∈ tương ứng với là một tác giả (người gửi hoặc nhận) của .

Ở đây, chỉ bao gồm các email được gửi đi hoặc nhận được của những người nằm

trong nhóm vai trò R.

Bước 2:

Biến đổi đồ thị không đồng nhất G thành độ thị đồng nhất G’ chỉ chứa đỉnh là các tác giả của các email:

′ = ( ′, ′, { } ∈ ′, { } ∈ ′)

Trong đó:

- ′ = { 0, … , } là tập hợp các tác giả (bao gồm cả nút ảo a0là gốc của câyđồ thị).

- Mỗi cạnh ′= ( , )∈ kết nối 2 đỉnh và khi và chỉ khi 2 người này có trao đổi email với nhau.

- và là 2 véc tơ tương ứng với độ dài cạnh, xác định năm mà 2 người có trao đổi

email và số email mà 2 người trao đổi trong năm đó.

Tương tự, ta liên kết với mỗi tác giả 2 véc tơ và tương ứng là năm có trao đổi

email và số email của ai. Hai véc tơ này có thể lấy được từ và

Bước 3:

Xây dựng đồ thị ’ từ ’ ( ’ ⊂ ’) bằng cách bỏ đi một số cạnh của ’ và nối các cạnh còn lại trực tiếp từ người là cấp dưới tới người có khả năng là cấp trên. ′ = ′, ′, ′ ⊂ ′

Để tìm mối quan hệ cấp trên – cấp dưới, chúng ta không những phải quyết định giá trị biến ẩn cho mỗi tác giả , mà còn phải ước lượng năm bắt đầu và kết thúc mối quan hệ , .

Cũng giống như [31], chúng tôi sử dụng mô hình xác suất để xếp hạng khả năng một người là cấp trên của một người khác.

Xác định là khả năng người là cấp trên của .

Trong ’, chỉ số tập hợp những người có khả năng là cấp trên của người được xác định bởi = { |∈ ′}. Tương ứng, chỉ số tập hợp những người có khả năng là cấp dưới được xác định bởi −1= { |∈ ′}.

Hình 3.1: Biến đổi đồ thị

Bước 4:

Nhiệm vụ là tìm ,,

Đầu ra là đồ thị = (′, ′

Điểm xếp hạng có thể được sử dụng để dự đoán mối quan hệ cấp trên – cấp dưới giữa các cặp tác giả bằng cách lấy top k người có khả năng là cấp trên của và kiểm tra xem có phải là cấp trên không khi >0 hay > với là ngưỡng, ví dụ = 0.5. Độhồi tưởng @( , ) được sử dụng để biểu diễn phương pháp này.

3.2.2.2 Một số giả định

Với sự hiểu biết về các đặc trưng của dữ liệu, chúng tôi đưa ra một số giả định sau đây nhằm hỗ trợ quá trình biến đổi từ đồ thị ’ sang ’.

- Với mỗi cặp cấp trên – cấp dưới, người có vai trò là cấp trên thường có lịch

sử trao đổi email nhiều hơn cấp dưới.

- Người có vai trò là cấp trên thường có số lượng liên kết đến các thành viên

khác trong nhóm nhiều hơn.

- Nếu người x là cấp trên của y thì thời gian y là cấp dưới của x là một khoảng

thời gian liên tiếp từ t1 đến t2.

3.3.2.3 Gán vai trò

Quá trình gán vai trò được thực hiện qua 2 giai đoạn.

Giai đoạn 1: Tiền xử lý

Mục đích của giai đoạn này là nhằm xây dựng đồ thị ’ và giảm không gian tìm kiếm. Đầu tiên, chúng ta cần xây dựng đồ thị ’

bằng việc xử lý từng email. Với mỗi email, chúng ta tạo một cạnh giữa các cặp người gửi – người nhận và cập nhật véc tơ , tương ứng.

Đồ thị H’ được tạo ra từ việc loại bỏ các cạnh không giống mối quan hệ cấp trên – cấp dưới bằng cách kiểm tra điều kiện thoả mãn các giả định và một số luật khác dựa trên hiểu biết về mối quan hệ phân cấp. Các luật này được xây dựng dựa trên độ đo

kulc IR cho mỗi cặp người gửi – người nhận. Wang và các cộng sự đã đưa ra 4 luật để áp dụng cho mối quan hệ người hướng dẫn – người được hướng dẫn. Tuy nhiên, chúng tôi thấy rằng việc áp dụng luật R3 [31] - mối quan hệ cộng tác giữa người hướng dẫn – người được hướng dẫn phải lâu hơn 1 năm là không hợp lý cho mối quan hệ cấp trên – cấp dưới. Vì vậy, trong mô hình này, chúng tôi chỉ sử dụng 3 trong số 4 luật của [31]. Một người được xem là không phải cấp trên của nếu thoả mãn một trong các luật sau:

• R1: IRijt<0 trong chuỗi {IRijt}t trong suốt quá trình cộng tác của aiaj

• R2: chuỗi {kulcijt}t không tăng lên trong suốt thời gian cộng tác.

• R3: pyj1+ 2 > pyij1

Sau khi loại bỏ được các cạnh không giống mối quan hệ cấp trên – cấp dưới, được nối với bởi một cạnh có hướng từ tới .

Năm bắt đầu được ước lượng bằng năm mà hai người bắt đầu có trao đổi email.

Năm kết thúc được ước lượng bằng năm mà độ đo kulc bắt đầu giảm hoặc kulc rất

khác so với năm trước và sau đó. Độ đo cục bộ đo khả năng là cấp trên của được tính

dựa vào độ đo kulc, IR và trung bình của 2 độ đo trên:

Giai đoạn 2: Tính hạng và xác định thời gian mối quan hệ

Sau khi xây dựng được đồ thị ’, tiến hành tính hạng là khả năng là cấp trên của và thời gian bắt đầu, kết thúc mối quan hệ: , . Trong

giai đoạn này, chúng tôi áp dụng hoàn toàn các bước trong mô hình TPFG của Wang và cộng sự đã được trình bày ở mục 2.2.

Tóm tắt chương 3

Chương 3 đã trình bày tưởng chính của mô hình đề xuất phát hiện vai trò phân cấp của các cặp nhân viên từ dữ liệu các email. Trong chương này, chúng tôi cũng đã giới thiệu chi tiết các pha trong mô hình cũng như chỉ ra các điểm giống và khác nhau giữa mô hình đề xuất và mô hình cơ sở.

Trong chương tiếp theo, luận văn sẽ tiến hành thực nghiệm một phần của mô hình đề xuất và đánh giá các kết quả đạt được.

Chương 4. Thực nghiệm và đánh giá

Do hạn chế về mặt thời gian, trong khuôn khổ luận văn này, chúng tôi chỉ tiến hành thực nghiệm một phần của mô hình đề xuất, cụ thể là pha phân cụm vai trò theo mô hình RART. Phần còn lại sẽ được tiến hành trong những nghiên cứu tiếp theo.

Một phần của tài liệu Phát hiện vai trò trong mạng xã hội 04 (Trang 35 - 40)

Tải bản đầy đủ (DOCX)

(49 trang)
w