Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
3,04 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ KIM DUNG PHÁT HIỆN VAI TRÒ TRONG MẠNG XÃ HỘI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ KIM DUNG PHÁT HIỆN VAI TRÒ TRONG MẠNG XÃ HỘI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI HÀ NỘI - 2015 Lời cam đoan Tôi xin cam đoan luận văn “Phát vai trò mạng xã hội" công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hoàn toàn công việc riêng Luận văn hoàn thành thời gian học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 25 tháng 10 năm 2015 Học viên Lê Thị Kim Dung i Lời cảm ơn Lời đầu tiên, xin gửi lời cám ơn sâu sắc đến TS Đặng Thanh Hải tận tình hướng dẫn suốt trình thực Luận văn Tôi xin gửi lời cám ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ anh chị em phòng nghiên cứu KTLab nhiệt tình động viên giúp đỡ hoàn thành Luận văn Tôi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu Trường Đại học Công Nghệ Tôi xin cảm ơn bạn lớp cao học K17 đồng nghiệp công ty DeNA ủng hộ, khuyến khích tạo điều kiện cho suốt trình học tập trường Cuối không phần quan trọng, muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè, người thân yêu bên cạnh, động viên giúp đỡ không trình thực Luận văn mà suốt đời Hà Nội, ngày 25 tháng 10 năm 2015 Học viên Lê Thị Kim Dung ii Tóm tắt nội dung Phân tích phát vai trò mạng xã hội nhà khoa học quan tâm nghiên cứu từ sớm phát triển không ngừng với bùng nổ trang mạng xã hội Hiện nay, nội dung quan tâm rộng rãi giới kinh doanh lợi ích mà mang lại cho kinh tế Bên cạnh xác định vai trò người hay nhóm người vai trò xã hội, phát vai trò cặp đối tượng vấn đề quan tâm đặc biệt Đầu tiên, luận văn khảo sát công trình nghiên cứu toán khai phá vai trò mạng xã hội, đặc biệt phát vai trò cặp đối tượng phân cụm vai trò dựa nội dung chủ đề [31][6] Sau đó, luận văn đề xuất mô hình phát vai trò phân cấp cặp nhân viên dựa vào liệu email Mô hình kết hợp hai pha phát vai trò, pha phân cụm nhân viên có công việc tương tự vào cụm vai trò, pha thực gán vai trò phân cấp cho cặp nhân viên cụm Mô hình sử dụng nội dung truyền tin mạng cấu trúc mạng việc phát vai trò Luận văn bước đầu tiến hành thực nghiệm pha mô hình đề xuất cho tập liệu Enron email Quá trình thực nghiệm cho kết độ xác trung bình Fmeasure cho 12 vai trò tập liệu 61.9% Bên cạnh đó, kết thực nghiệm cho thấy mô hình phát tốt nhiều vai trò người iii Mở đầu Phát vai trò mạng xã hội toán quan trọng ý nghĩa lĩnh vực phân tích mạng xã hội mà mang lại nhiều lợi ích kinh doanh Sự hình thành phát triển không ngừng trang mạng xã hội cộng đồng kéo theo số lượng không nhỏ công trình nghiên cứu vai trò thực thể mạng, chẳng hạn [1][3][28][29][32] Thời gian gần đây, công bố công trình nghiên cứu phát vai trò nhóm người mối quan hệ hai người có xu tăng nhanh, số nghiên cứu bật [2][5][6][18][31] Luận văn tốt nghiệp với đề tài Phát vai trò mạng xã hội nhằm khảo sát, phân tích mô hình phát vai trò, đồng thời trình bày mô hình phát vai trò phân cấp thi hành giải pháp phân cụm vai trò mô hình thử nghiệm Luận văn gồm nội dung sau: Chương 1: Giới thiệu mạng xã hội toán phát vai trò mạng xã hội nhằm giới thiệu khái quát mạng xã hội, cấu trúc lịch sử phát triển mạng xã hội toán phát vai trò mạng xã hội Chương 2: Một số phương pháp phát vai trò mạng xã hội trình bày khái quát số mô hình phát vai trò Đồng thời, chương chi tiết tìm hiểu mô hình phát vai trò dựa vào nội dung chủ đề mô hình phát vai trò hai đối tượng sử dụng đồ thị tham số xác suất phụ thuộc thời gian Chương 3: Phát vai trò phân cấp nhân viên từ tập liệu emails đưa mô hình phát vai trò cấp – cấp nhóm người có vai trò, áp dụng mô hình tìm hiểu chương Trong chương trình bày chi tiết pha bước thực mô hình Chương 4: Thực nghiệm đánh giá tiến hành cài đặt pha mô hình đề xuất đánh giá kết đạt Phần kết luận tóm lược kết đạt nêu rõ đóng góp luận văn, đồng thời định hướng số hướng nghiên cứu thời gian tới iv Mục Lục Lời cam đoan i Lời cảm ơn ii Tóm tắt nội dung iii Mở đầu iv Mục Lục v Danh mục hình vẽ vi Danh mục bảng biểu vii Danh mục viết tắt viii Danh sách thuật ngữ ix Chương Giới thiệu mạng xã hội toán phát vai trò mạng xã hội 1.1 Giới thiệu mạng xã hội 1.2 Lịch sử phân tích mạng xã hội 1.3 Bài toán phát vai trò mạng xã hội Chương Một số phương pháp phát vai trò mạng xã hội 2.1 Tổng quan số phương pháp phát vai trò mạng xã hội 2.2 Mô hình Role-Author-Recipient-Topic phát vai trò chủ đề mạng xã hội 2.3 Mô hình phát vai trò người hướng dẫn – người hướng dẫn từ mạng báo nghiên cứu khoa học 13 Chương Phát vai trò phân cấp nhân viên từ tập liệu emails 22 3.1 Phương pháp tiếp cận 22 3.2 Mô hình triển khai đề xuất 22 3.2.1 Pha phân cụm vai trò 23 3.2.2 Pha gán vai trò phân cấp 23 Chương Thực nghiệm đánh giá 28 4.1 Môi trường thành phần hệ thống phần mềm 28 4.2 Tập liệu thử nghiệm 28 4.3 Thực nghiệm 29 4.4 Đánh giá kết 30 Kết luận 33 Tài liệu tham khảo 34 v Danh mục hình vẽ Hình 1.1: Ba cấu trúc biểu diễn mạng xã hội [5] Hình 1.2: Một ví dụ "sociogram" [10] Hình 2.1: Ba mô hình tham số RART [6] .10 Hình 2.2: Ví dụ vai trò từ tập liệu email McCallum với 50 chủ đề 15 nhóm [6] 12 Hình 2.3: Ví dụ phân phối vai trò người tập liệu email McCallum [6] .12 Hình 2.4: Biến đổi đồ thị mô hình TPFG [31] .15 Hình 2.5: Cây đồ thị biểu diễn biến ẩn hàm tham số [31] 19 Hình 2.6: Hai giai đoạn trình chuyển tiếp thông điệp [31] 20 Hình 2.7: Độ xác mô hình với P@(2,𝜃): 𝑇 𝑇+𝐹 [31] 21 Hình 3.1: Biến đổi đồ thị .25 Hình 4.1: Một email người dùng Brawner 29 Hình 4.2: Ví dụ minh hoạ liệu đầu pha tiền xử lý 30 Hình 4.3: Độ xác F-measure 12 vai trò 31 vi Danh mục bảng biểu Bảng 1: Cấu hình phần cứng 28 Bảng 2: Các phần mềm sử dụng 28 Bảng 3: Hai vai trò bật liệu Enron 31 Bảng 4: Một ví dụ phân phối vai trò 32 vii Danh mục viết tắt STT Viết tắt Thuật ngữ TPFG Đồ thị tham số xác suất phụ thuộc thời gian IR Tỷ lệ cân Kulc Độ đo Kulczinski LDA Latent Dirichlet Allocation ART Author – Recipient – Topic RART Role – Author – Recipient – Topic viii Chương Phát vai trò phân cấp nhân viên từ tập liệu emails Một số công trình nghiên cứu điển hình phát vai trò mạng xã hội trình bày chương trước cho kết khả quan với độ xác cao Dựa kết này, tiếp tục phát triển ứng dụng mô hình vào miền liệu riêng biệt (emails công ty/tổ chức) nhằm phát vai trò mức cao – vai trò phân cấp Chương trình bày chi tiết cụ thể pha mô hình triển khai đề xuất 3.1 Phương pháp tiếp cận Mô hình RART [6] phát vai trò chủ đề mạng xã hội cho đầu tập vai trò mà nhóm người đảm nhận chủ đề thường thảo luận nhóm với xác suất tương ứng Vai trò cho biết công việc người thông qua chủ đề mà người thường trao đổi Tuy nhiên, thực tế, việc biết người có tầm ảnh hưởng lớn nhóm người có công việc có ý nghĩa thiết thực nhiều Do đó, dựa kết mô hình RART, luận văn đề xuất mô hình phát vai trò mức cao nhằm tìm người có tầm ảnh hưởng cao (leader) nhóm người có vai trò (cùng công việc) có kết hợp sử dụng mô hình TPFG [31] 3.2 Mô hình triển khai đề xuất Đầu vào: - Dữ liệu email bao gồm nội dung thông tin người gửi, người nhận thời gian gửi công ty hay tổ chức Đầu ra: - Các cụm vai trò đồ thị tương ứng xếp hạng vai trò “cấp – cấp dưới” cho thực thể cụm Mô hình gồm pha: - Pha phân cụm vai trò: Dựa vào nội dung email để phát chủ đề trao đổi người gửi người nhận, phân cụm đối tượng vào nhóm người có vai trò công việc - Pha gán vai trò phân cấp: Phát vai trò phân cấp “cấp – cấp dưới” dựa vào mối quan hệ qua lại hai người, xây dựng đồ thị xếp hạng vai trò nhằm tìm người quan trọng nhóm Người có vai trò quan trọng người quản lý cao nhóm 22 3.2.1 Pha phân cụm vai trò Mục tiêu pha phân cụm vai trò sử dụng hiệu phân phối chủ đề để đánh giá độ tương đồng đối tượng, phát vai trò đồng cấp cách phân cụm đối tượng sử dụng độ tương đồng Ví dụ, người thường nhận email yêu cầu cài đặt phần mềm, diệt virus, cài đặt mạng cho có vai trò “hỗ trợ IT” Những người thường có phân phối xác suất cao cho chủ đề Ở pha này, chí phát người có vai trò giống mà mô hình đồ thị họ liên kết đến liên kết đến nhóm người khác [6] trình phân cụm thực riêng rẽ thuật toán phân cụm sau áp dụng mô hình ART để phát chủ đề người gửi người nhận, thực đồng thời với trình phát chủ đề cách thêm vào biến ẩn cho vai trò người gửi vai trò người nhận mô hình RART Tuy nhiên, nhận thấy việc phân cụm đồng thời giúp giảm thiểu sai số sinh mô hình ART thuật toán phân cụm Hơn nữa, công ty hay tổ chức, cá nhân đảm nhận lúc nhiều vai trò Trong thực nghiệm, [6] chứng minh mô hình RART phát nhiều vai trò người tốt Vì vậy, pha này, tiến hành phân cụm sử dụng mô hình RART 3.2.2 Pha gán vai trò phân cấp Sau đối tượng phân vào nhóm có vai trò giống nhau, tiếp tục tiến hành gán vai trò “cấp – cấp dưới” cho cặp đối tượng nhóm Quá trình phát mối quan hệ phân cấp riêng rẽ cho nhóm vai trò Ở pha có quan tâm nhiều đến cấu trúc liên kết đối tượng, sử dụng cấu trúc đồ thị để mô hình hoá liệu Về bản, pha sử dụng mô hình TPFG [31] để phát xếp hạng vai trò có số thay đổi phù hợp với đặc trưng liệu toán 3.2.2.1 Mô hình hoá Tương tự mô hình Wang cộng sự, biểu diễn liệu theo mô hình đồ thị biến đổi qua bước: Bước 1: Mạng email biểu diễn dạng đồ thị G gồm tập đỉnh V cạnh E: 𝐺 = { 𝑉𝑝 ∪ 𝑉𝑎 , 𝐸 } Trong đó: 23 - 𝑉 𝑝 = {𝑝1 , … , 𝑝𝑛 𝑝 } tập hợp email với 𝑝𝑖 email gửi thời điểm 𝑡𝑖 - 𝑉 𝑎 = {𝑎1 , … , 𝑎𝑛 𝑎 } tập hợp người có vai trò R - E tập hợp cạnh Mỗi cạnh 𝑒𝑖𝑗 ∈ 𝐸 tương ứng với 𝑎𝑗 tác giả (người gửi nhận) 𝑝𝑖 Ở đây, 𝑉 𝑝 bao gồm email gửi nhận người nằm nhóm vai trò R Bước 2: Biến đổi đồ thị không đồng G thành độ thị đồng G’ chứa đỉnh tác giả email: 𝐺′ = (𝑉′, 𝐸′, {𝑝𝑦𝑖𝑗 }𝑒𝑖𝑗 ∈ 𝐸′, {𝑝𝑛𝑖𝑗 }𝑒𝑖𝑗 ∈ 𝐸′) Trong đó: - 𝑉′ = {𝑎0 , … , 𝑎𝑛 𝑎 } tập hợp tác giả (bao gồm nút ảo a0 gốc đồ thị) - Mỗi cạnh 𝑒′𝑖𝑗 = (𝑖, 𝑗) ∈ 𝐸 kết nối đỉnh 𝑎𝑖 𝑎𝑗 người có trao đổi email với - 𝑝𝑦𝑖𝑗 𝑝𝑛𝑖𝑗 véc tơ tương ứng với độ dài cạnh, xác định năm mà người có trao đổi email số email mà người trao đổi năm Tương tự, ta liên kết với tác giả véc tơ 𝑝𝑦𝑖 𝑝𝑛𝑖 tương ứng năm có trao đổi email số email Hai véc tơ lấy từ 𝑝𝑦𝑖𝑗 𝑝𝑛𝑖𝑗 Bước 3: Xây dựng đồ thị 𝐻’ từ 𝐺’ (𝐻’ ⊂ 𝐺’) cách bỏ số cạnh 𝐺’ nối cạnh lại trực tiếp từ người cấp tới người có khả cấp 𝐻 ′ = 𝑉 ′ , 𝐸′𝑠 , 𝐸′𝑠 ⊂ 𝐸′ Để tìm mối quan hệ cấp – cấp dưới, phải định giá trị biến ẩn 𝑦𝑖 cho tác giả 𝑎𝑖 , mà phải ước lượng năm bắt đầu kết thúc mối quan hệ 𝑠𝑡𝑖𝑦 𝑖 , 𝑒𝑑𝑖𝑦 𝑖 Cũng giống [31], sử dụng mô hình xác suất để xếp hạng khả người cấp người khác Xác định 𝑟𝑖𝑗 khả người 𝑎𝑗 cấp 𝑎𝑖 Trong 𝐻’, số tập hợp người có khả cấp người 𝑎𝑖 xác định 𝑌𝑖 = {𝑗|𝑒𝑖𝑗 ∈ 𝐸′𝑠 } Tương ứng, số tập hợp người có khả cấp xác định 𝑌𝑖−1 = {𝑗|𝑒𝑗𝑖 ∈ 𝐸′𝑠 } 24 Hình 3.1: Biến đổi đồ thị Bước 4: Nhiệm vụ tìm 𝑟𝑖𝑗 , 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 cho cặp cấp – cấp (𝑖, 𝑗) ∈ 𝐸′𝑠 Đầu đồ thị 𝐻 = (𝑉 ′ , 𝐸 ′ 𝑠 , {(𝑟𝑖𝑗 , 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 )}(𝑖,𝑗 )∈𝐸′ 𝑠 ) Điểm xếp hạng sử dụng để dự đoán mối quan hệ cấp – cấp cặp tác giả cách lấy top k người có khả cấp 𝑎𝑖 kiểm tra xem 𝑎𝑗 có phải cấp không 𝑟𝑖𝑗 > 𝑟𝑖0 hay 𝑟𝑖𝑗 > 𝜃 với 𝜃 ngưỡng, ví dụ 𝜃 = 0.5 Độ hồi tưởng 𝑃@(𝑘, 𝜃) sử dụng để biểu diễn phương pháp 3.2.2.2 Một số giả định Với hiểu biết đặc trưng liệu, đưa số giả định sau nhằm hỗ trợ trình biến đổi từ đồ thị 𝐺’ sang 𝐻’ - Với cặp cấp – cấp dưới, người có vai trò cấp thường có lịch sử trao đổi email nhiều cấp - Người có vai trò cấp thường có số lượng liên kết đến thành viên khác nhóm nhiều - Nếu người x cấp y thời gian y cấp x khoảng thời gian liên tiếp từ t1 đến t2 25 3.3.2.3 Gán vai trò Quá trình gán vai trò thực qua giai đoạn Giai đoạn 1: Tiền xử lý Mục đích giai đoạn nhằm xây dựng đồ thị 𝐻’ giảm không gian tìm kiếm Đầu tiên, cần xây dựng đồ thị 𝐺’ việc xử lý email Với email, tạo cạnh cặp người gửi – người nhận cập nhật véc tơ 𝑝𝑦, 𝑝𝑛 tương ứng Đồ thị H’ tạo từ việc loại bỏ cạnh không giống mối quan hệ cấp – cấp cách kiểm tra điều kiện thoả mãn giả định số luật khác dựa hiểu biết mối quan hệ phân cấp Các luật xây dựng dựa độ đo kulc IR cho cặp người gửi – người nhận Wang cộng đưa luật để áp dụng cho mối quan hệ người hướng dẫn – người hướng dẫn Tuy nhiên, thấy việc áp dụng luật R3 [31] - mối quan hệ cộng tác người hướng dẫn – người hướng dẫn phải lâu năm không hợp lý cho mối quan hệ cấp – cấp Vì vậy, mô hình này, sử dụng số luật [31] Một người 𝑎𝑗 xem cấp 𝑎𝑖 thoả mãn luật sau: • R1: IRijt pyij1 Sau loại bỏ cạnh không giống mối quan hệ cấp – cấp dưới, 𝑎𝑖 nối với 𝑎𝑗 cạnh có hướng từ 𝑎𝑖 tới 𝑎𝑗 Năm bắt đầu ước lượng năm mà hai người bắt đầu có trao đổi email Năm kết thúc ước lượng năm mà độ đo kulc bắt đầu giảm kulc khác so với năm trước sau Độ đo cục đo khả 𝑎𝑗 cấp 𝑎𝑖 tính dựa vào độ đo kulc, IR trung bình độ đo trên: 𝑙𝑖𝑗 = 𝑡 𝑠𝑡 𝑖𝑗 ≤𝑡≤𝑒𝑑 𝑖𝑗 (𝑘𝑢𝑙𝑐𝑖𝑗 + 𝐼𝑅𝑖𝑗𝑡 ) 2(𝑒𝑑𝑖𝑗 − 𝑠𝑡𝑖𝑗 + 1) Giai đoạn 2: Tính hạng xác định thời gian mối quan hệ Sau xây dựng đồ thị 𝐻’, tiến hành tính hạng 𝑟𝑖𝑗 khả 𝑎𝑗 cấp 𝑎𝑖 thời gian bắt đầu, kết thúc mối quan hệ: 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 Trong giai đoạn này, áp dụng hoàn toàn bước mô hình TPFG Wang cộng trình bày mục 2.2 26 Tóm tắt chương Chương trình bày tưởng mô hình đề xuất phát vai trò phân cấp cặp nhân viên từ liệu email Trong chương này, giới thiệu chi tiết pha mô điểm giống khác mô hình đề xuất mô hình sở Trong chương tiếp theo, luận văn tiến hành thực nghiệm phần mô hình đề xuất đánh giá kết đạt 27 Chương Thực nghiệm đánh giá Do hạn chế mặt thời gian, khuôn khổ luận văn này, tiến hành thực nghiệm phần mô hình đề xuất, cụ thể pha phân cụm vai trò theo mô hình RART Phần lại tiến hành nghiên cứu 4.1 Môi trường thành phần hệ thống phần mềm Cấu hình phần cứng Chỉ số Thành phần CPU 2.4 GHz Intel Core i5 RAM 8GB OS Mac OS X 10.9.5 Bộ nhớ 250GB Bảng 1: Cấu hình phần cứng Các công cụ phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn Node.js https://nodejs.org/en/ gcc https://gcc.gnu.org/ boost http://www.boost.org/ make http://www.gnu.org/software/make/manual /make.html sublime text http://www.sublimetext.com/ Bảng 2: Các phần mềm sử dụng Ngoài công cụ trên, tiến hành cài đặt mô đun xử lý dựa ngôn ngữ javascript C/C++ - create_doc.js: Mô đun viết ngôn ngữ javascript sử dụng cho việc tiền xử lý liệu, thực việc đọc file email riêng rẽ nhiều thư mục tổng hợp lại file, đồng thời loại bỏ từ vô nghĩa - art.h: Thực việc lấy mẫu phân cụm theo mô hình ART - rr.h: Thực việc phân cụm vai trò theo mô hình RART 4.2 Tập liệu thử nghiệm Dữ liệu thử nghiệm tập email công ty Enron – công ty tiếng Mỹ lĩnh vực lượng, hàng hoá dịch vụ, bị phá sản vào năm 2001 28 Đây tập liệu tiếng sử dụng nhiều nhà nghiên cứu Dữ liệu Enron công khai cho mục đích nghiên cứu tải từ trang web: http://www.cs.cmu.edu/~enron/ Tập liệu bao gồm 500000 emails khoảng 150 nhân viên Email nhân viên lưu trữ thư mục có nhiều thư mục tương ứng với phân loại email người dùng tuỳ chọn Mỗi file liệu chứa đầy đủ thông tin địa email người gửi, địa email người nhận, thời gian gửi, nội dung email số thông tin khác định dạng email 4.3 Thực nghiệm Tiền xử lý liệu Để giảm bớt việc trùng lặp mà thu thập đầy đủ email, lấy email thư mục sent nhân viên Có hai người xuất hai lần với địa email khác loại bỏ người Chúng lọc email trao đổi nhân viên Enron thực nghiệm email Hình 4.1: Một email người dùng Brawner Với email, trích xuất thông tin người gửi, người nhận nội dung email Tương tự [6], để lấy phần nội dung email, bỏ phần nội dung thư chuyển tiếp xuất sau dòng “forwarded massage” mốc thời gian Để loại bỏ phân biệt chữ viết hoa, từ chuyển thành chữ viết thường Trong thực nghiệm McCallum cộng lấy từ dãy chữ Ngoài ra, xây dựng từ vựng gồm từ có chức ngữ pháp, loại bỏ từ khỏi liệu nội dung 29 Để đánh giá độ xác mô hình, loại bỏ người mà thông tin cụ thể vị trí công việc Kết thu tập liệu bao gồm 11830 email 108 người, có 37612 từ Cuối cùng, liệu gộp vào file với dòng email có định dạng: Mỗi trường cách dấu “cách”, từ cách dấu “:” Hình 4.2: Ví dụ minh hoạ liệu đầu pha tiền xử lý Phân cụm vai trò Bởi Gibbs sampling thuật toán lấy mẫu phổ biến, cài đặt đơn giản hiệu nên chọn sử dụng thuật toán trình lấy mẫu Tuy nhiên, việc lấy mẫu riêng rẽ cho tập biến ẩn vai trò người gửi – vai trò người nhận phức tạp Vì vậy, McCallum cộng đưa chiến lược hiệu sử dụng mô hình ART [6] Đầu tiên, mô hình ART huấn luyện để có lựa chọn chủ đề lựa chọn người nhận cho từ Do đó, bước tiếp theo, chủ đề người nhận xem quan sát Trong trình thực nghiệm này, tiến hành theo cách Trong thực nghiệm mô hình ART, McCallum cộng [6] nhận thấy việc lựa chọn tham số đầu vào không ảnh hưởng lớn đến kết mô hình nên cố định giá trị 𝛼 = 50/𝑇 𝛽 = 0.1 Do đó, cố định giá trị tiến hành huấn luyện ART với T = 50 topic Sau lấy mẫu vai trò cho người nhận theo từ có chủ đề mà người nhận gán với 12 nhóm vai trò 4.4 Đánh giá kết Để đánh giá kết thử nghiệm hiệu thuật toán mô hình sử dụng độ đo F- measure Nó kết hợp của độ đo xác độ đo hồi tưởng Độ đo xác ký hiệu π số lượng người có vai trò 30 với cụm vai trò tổng số người cụm Độ đo hồi tưởng ký hiệu ρ số người phù hợp với vai trò tìm tổng số người thực tế phù hợp với vai trò Do độ đo F tính sau: F= 2𝜋𝜌 𝜋+𝜌 Chúng đặt tên cho nhóm vai trò dựa vào từ xuất vai trò hiểu biết vị trí công việc tập liệu Tốp người có phân phối vai trò > 0.1 cho vai trò lựa chọn để đánh giá độ xác Kết sau: F-measure 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Hình 4.3: Độ xác F-measure 12 vai trò Độ xác trung bình việc phát vai trò đạt 61.9%, Vai trò (Phụ trách vấn đề pháp lý) có độ xác cao (76.9%), Vai trò 10 (Quản lý) có độ xác thấp 54.1% Vai trò “Nhân viên mua/bán hàng (trader)” 0.418662 Bass (trader) Forney (manager, real time trading desk) 0.374849 0.360097 Dean (trader) 0.307181 Kuykendall (trader) Stepenovitch (vice president, energy 0.280439 marketting and trading Florida) Sanders (vice president, wholesale services)0.233179 0.211752 Fossum (vice president) 0.201946 McCarty (employee) Vai trò “Phụ trách pháp lý(regulatory affairs)” Corman (vice president, regulatory affairs) 0.392585 Dasovich (government relation executive) 0.388959 0.29148 Lokey (manager, regulatory affairs) 0.247706 Keavey (employee) Steffes (vice president, government affairs) 0.199571 Shapiro (vice president, regulatory affairs) 0.122598 0.120181 May (director) 0.112069 Keiser (employee) Bảng 3: Hai vai trò bật liệu Enron 31 Bảng liệt kê số người bật vai trò Vai trò nhóm “nhân viên phụ trách việc mua bán hàng” Tốp người có xác suất cao nhóm có vai trò công việc giống hoàn toàn trùng khớp với vai trò nhóm Vai trò nhóm người “phụ trách vấn đề pháp lý” Phần lớn người nhóm có công việc liên quan đến phủ (government affairs) pháp lý (regulatory affairs), hai công việc liên quan đến vấn đề tương tự stepenovitch (Joe Stepenovitch) 0.280439 Vai trò (nhân viên mua/bán hàng) Vai trò (cung cấp dịch vụ lượng) 0.142052 0.102593 Vai trò 11 (nhân viên marketing) 0.080045 Vai trò 10 (người quản lý) kaminski (Vince Kaminski) Vai trò (người quản lý rủi ro) Vai trò 10 (người quản lý) Vai trò (nhân viên hành chính) Vai trò (chuyên viên phân tích tiền tệ) 0.339667 0.114014 0.078384 0.072446 Bảng 4: Một ví dụ phân phối vai trò Một ví dụ phân phối vai trò người thể Bảng Stepenovitch có vai trò “nhân viên mua/bán hàng”, bên cạnh đó, người “người cung cấp dịch vụ lượng” “nhân viên marketing” Ngoài ra, Stepenovitch có vai trò “người quản lý” Những vai trò hoàn toàn trùng khớp với công việc thực tế Một ví dụ khác Kaminski, người có phân phối vai trò cao vai trò “người quản lý rủi ro”, đồng thời ông có vai trò “người quản lý” Tuy nhiên, vai trò “nhân viên hành chính” “chuyên viên phân tích tiền tệ” không liên quan tới công việc ông Có lẽ mà phân phối xác suất cho vai trò thấp 32 Kết luận Với phát triển không ngừng trang mạng xã hội mang lại nguồn liệu đa dạng phong phú người dùng Internet, nhu cầu hiểu biết vai trò người dùng cần thiết mang lại nhiều lợi ích kinh doanh Tuy nghiên cứu khai phá vai trò mạng xã hội quan tâm từ lâu, lĩnh vực nhiều thách thức vấn đề cần phải giải Nắm bắt nhu cầu đó, luận văn tiến hành nghiên cứu mô hình phát vai trò áp dụng thử nghiệm vào mô hình phát vai trò phân cấp dựa vào liệu emails Kết đạt luận văn Luận văn tiến hành khảo sát khai phá liệu mạng xã hội toán phát vai trò mạng xã hội Luận văn tìm hiểu số công trình nghiên cứu phát vai trò mạng xã hội Trong đó, luận văn sâu vào nghiên cứu mô hình phát vai trò người hướng dẫn – người hướng dẫn mạng thông tin báo khoa học mô hình RART phát vai trò chủ đề mạng xã hội Dựa nghiên cứu đó, luận văn đề xuất mô hình triển khai nhằm phát vai trò phân cấp nhân viên từ tập liệu emails Luận văn tiến hành cài đặt thực nghiệm pha mô hình đề xuất cho tập liệu Enron email Kết thực nghiệm cho thấy mô hình có độ xác 61.9% việc phát 12 vai trò Ngoài ra, mô hình cho kết tốt việc phát nhiều vai trò người Định hướng nghiên cứu Trong khuôn khổ luận văn này, dừng lại việc đưa mô hình đề xuất thực nghiệm pha mô hình Trong thời gian tới, tiếp tục thực nghiệm phần lại mô hình, đồng thời xem xét hướng nghiên cứu bổ sung thêm đặc trưng chủ đề pha gán vai trò phân cấp để nâng cao độ xác giảm thiểu việc bỏ sót cặp quan hệ 33 Tài liệu tham khảo Tiếng Việt [1] Đinh Thị Hương Một mô hình tìm kiếm vai trò mạng xã hội Twitter Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN, 2014 Tiếng Anh [2] Nitin Agarwal, Huan Liu, Lei Tang, Philip S Yu: Modeling blogger influence in a community Social Netw Analys Mining 2(2): 139-162 (2012) [3] N Agarwal and H Liu Blogosphere: research issues, tools, and applications SIGKDD Exploration, 10(1):18–31, 2008 IEEE Press [3] L.A Adamic, J Zhang, E Bakshy, and M.S Ackerman Knowledge sharing and yahoo answers: everyone knows something In: Proceeding of the International Conference on World Wide Web (WWW’08), pages 665–674, Beijing, China, 2008 ACM Press [4] D.M Blei, A.Y Ng, and M.I Jordan Latent dirichlet allocation Journal of Machine Learning Research, 3:993–1022, 2003 JMLR [5] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta, 2010 [6] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and Role Discovery in Social Networks with Experiments on Enron and Academic Email J Artif Intell Res (JAIR) 30: 249-272 (2007) [7] P Doreian, V Batagelj, and A Ferligoj Generalized blockmodeling Cambridge University Press, 2005 [8] B Dom, I Eiron, A Cozzi, and Y Zhang Graph-based ranking algorithms for email expertise analysis In: Proceedings of the SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD’03), pages 42–48, San Diego, California, USA, 2003 ACM Press [9] A Daud, J Li, L Zhou, and F Muhammad A generalized topic modeling approach for maven search In: Proceedings of the Advances in Data and Web Management (APWeb WAIM’09), pages 138–149, Suzhou, China, 2009 Springer [10] L Freeman Visualizing social networks Journal of Social Structure, 1(1), 2000 [11] A Farahat, N K Ahmed, and U Dholakia, “Does a daily deal promotion signal a distressed business? an empirical investigation of small business survival,” in Proc Economics Web Search Social Netw., 2013, pp 1–8 34 [12] Mathilde Forestier, Anna Stavrianou, Julien Velcin, and Djamel A Zighed Roles in social networks: methodologies and research issues Journal Web Intelligence and Agent Systems Volume 10 Issue 1, 2012 [13] Robert A Hanneman, Mark Riddle: Introduction to social network methods Published in digital form at http://faculty.ucr.edu/~hanneman/ 2005 [14] M.S Handcock, A.E Raftery, and J.M Tantrum Model-based clustering for social networks Journal of the Royal Statistical Society: Series A (Statistics in Society), 170(2):301–354, 2007 Wiley Online Library [15] J Moreno Who shall survive, New York: Beacon Press 1934 [16] S Milgram The small world problem Psychology Today, 1(1):60–67, 1967 [17] R Merton Social Theory and Social Structure New York, NY, USA: Simon & Schuster, 1968 [18] M Maia, J Almeida, and V Almeida Identifying user behavior in online social networks In Proceedings of the 1st Workshop on Social Network Systems,SocialNets '08, pages 1-6, New York, NY, USA, 2008.ACM [19] P Mahadevan, D Krioukov, M Fomenkov, X Dimitropoulos, A Vahdat, et al., “The internet as-level topology: Three data sources and one definitive metric,” ACM SIGCOMM Comput Commun Rev., vol 36, no 1, pp 17–26, 2006 [20] K Lewin Principles of topological psychology, McGraw-Hill, 1936 [21] T Parsons “Illness and the role of the physician: A sociological perspective,” Amer J Orthopsychiatry., vol 21, no 3, pp 452–460, 1951 [22] A Pal and S Counts Identifying topical authorities in microblogs In WSDM, pages 45-54, 2011 [23] Ryan A Rossi and Nesreen K Ahmed: Role Discovery in Networks IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL 27, NO 4, APRIL 2015 [24] R A Rossi, S Fahmy, and N Talukder, “A multi-level approach for evaluating internet topology generators,” in Proc IFIP Netw Conf., 2013, pp 1–9 [25] J Scott Social network analysis: A handbook, Sage, London 2nd edition(2000) [26] J Scripps, P.N Tan, and A.H Esfahanian Node roles and community structure in networks In: Proceedings of the Workshop on Web Mining and Social Network Analysis (WebKDD/SNAKDD’07), pages 26–35, San Jose, California, USA, 2007 ACM Press 35 [27] M Steyvers, P Smyth, M Rosen-Zvi, and T Griffiths Probabilistic author-topic models for information discovery In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’04), pages 306– 315, Seattle, WA, USA, 2004 ACM Press [28] Ramine Tinati, Leslie Carr, Wendy Hall, Jonny Bentwood “Identifying Communicator Roles in Twitter”, WWW 2012 – MSND'12 Workshop [29] Vanesa Junquero-Trabado, David Dominguez-Sal (2012) Building a role search engine for social media WWW (Companion Volume) 2012: 1051-1060 [30] H T Welser, D Cosley, G Kossinets, A Lin, F Dokshin, G Gay, and M Smith Finding social roles in wikipedia In Proceedings of the 2011 iConference, iConference '11, pages 122-129, New York, NY, USA, 2011 ACM [31] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010) Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212 [32] H.T Welser, E Gleave, D Fisher, and M Smith Visualizing the signatures of social roles in online discussion groups Journal of Social Structure, 8(2):1–31, 2007 36 [...]... toán phát hiện vai trò trong mạng xã hội Chương 2 của luận văn sẽ giới thiệu một số công trình nghiên cứu phát hiện vai trò trong mạng xã hội Đồng thời sẽ trình bày chi tiết phương pháp nổi bật phát hiện vai trò phân cấp giữa các cặp đối tượng trong xã hội và phương pháp phát hiện vai trò cũng như chủ đề dựa trên nội dung trao đổi trong mạng 7 Chương 2 Một số phương pháp phát hiện vai trò trong mạng xã. .. vai trò trong mạng xã hội Như đã trình bày ở chương trước, phát hiện vai trò trong mạng xã hội đã được quan tâm nghiên cứu và phát triển trong nhiều lĩnh vực Chương này sẽ tập trung giới thiệu chi tiết một số công trình nghiên cứu điển hình về phát hiện vai trò trong mạng xã hội dựa vào nội dung và cấu trúc mạng 2.1 Tổng quan về một số phương pháp phát hiện vai trò trong mạng xã hội Cùng với sự gia tăng... gần đây, mạng xã hội ngày càng trở nên phong phú và quen thuộc với người dùng Internet Chương này tập trung làm rõ các khái niệm về mạng xã hội, đồng thời giới thiệu sơ bộ về lịch sử phân tích mạng xã hội và bài toán phát hiện vai trò trong mạng xã hội 1.1 Giới thiệu về mạng xã hội Mạng xã hội là một cấu trúc xã hội được tạo thành từ các nút và các cung mà mỗi nút (một thực thể xã hội) được liên kết... trị Gần đây, bài toán phát hiện vai trò đã được nghiên cứu trong một số mạng như mạng xã hội trực tuyến, mạng công nghệ, mạng sinh học, đồ thị web, mạng email Trong khi khái niệm phát hiện vai trò thực sự quan trọng trong khai phá đồ thị và phân tích thăm dò, nó cũng có thể có ích trong nhiều ứng dụng thực tế [23] Ví dụ, vai trò có thể được sử dụng để phát hiện các bất thường trong mạng công nghệ như... nên các mạng xã hội Mức độ của sự tương tác giữa những người dùng định nghĩa vai trò xã hội, mà có thể được mô tả như vị trí, hành vi, hay định danh ảo [12] Những vai trò này có thể được phát triển trong mạng xã hội thông qua các trao đổi email, thảo luận trên các diễn đàn hay nhóm tin tức Usenet, và họ tiếp tục thay đổi và phát triển theo thời gian Phát hiện vai trò xuất hiện đầu tiên trong xã hội học... Network Mạng xã hội 2 Actor Tác nhân 3 Vector-valued Véc tơ giá trị 4 Clique Đảng phái /Hội, nhóm 5 Social Role Vai trò xã hội 6 Jointly likelihood objective function Hàm mục tiêu khả năng xảy ra đồng thời 7 Weak tie hypothesis Giả thiết liên kết yếu 8 Topology Cấu trúc 9 Email Thư điện tử ix Chương 1 Giới thiệu về mạng xã hội và bài toán phát hiện vai trò trong mạng xã hội Trong những năm gần đây, mạng xã. .. nổ với tốc độ phát triển nhanh chóng cả về số lượng và kích thước của mạng xã hội, ví dụ sự phát triển không ngừng của World Wide Web và mạng xã hội Facebook, vấn đề quản lý thông tin xã hội trở nên khó khăn hơn Dó đó, cần thiết phải áp dụng các kỹ thuật khoa học máy tính đến các mạng xã hội để phân tích cấu trúc hiệu quả và chính xác hơn 1.3 Bài toán phát hiện vai trò trong mạng xã hội Với sự ra đời... tăng nhanh chóng của các mạng xã hội, đã có rất nhiều công trình nghiên cứu về bài toán phát hiện vai trò trong mạng xã hội được công bố Các nghiên cứu này rất đa dạng, bao gồm cả khai phá cấu trúc mạng xã hội và khai phá nội dung trong mạng Daud và cộng sự [9] đã nghiên cứu nội dung những bài công bố khoa học tại các hội nghị nhằm tìm kiếm vai trò chuyên gia Mỗi tác giả trong một hội nghị được biểu diễn... hình máy tìm kiếm vai trò trong mạng xã hội Twitter, có bổ sung thêm một số vai trò và đặc trưng Về cơ bản, các nghiên cứu phát hiện vai trò trong mạng xã hội thường sử dụng các mô hình xác suất và các kỹ thuật phân tích mạng để phân tích cấu trúc, nội dung thông tin trao đổi và các hoạt động của người dùng trong mạng nhằm tìm ra những cá nhân nổi bật hoặc những nhóm người có vai trò tương tự nhau... được các tác giả phát triển và sử dụng trong ứng dụng tìm kiếm chuyên gia Arnetminer (http://arnetminer.org/) Tóm tắt chương 2 Chương 2 đã giới thiệu hai công trình nghiên cứu hiệu quả, điển hình nhất nhằm phát hiện vai trò trong mạng xã hội Đồng thời cũng trình bày chi tiết một phương pháp nổi bật phát hiện vai trò phân cấp giữa các cặp đối tượng trong xã hội và phương pháp phát hiện vai trò cũng như ... phát vai trò mạng xã hội nhằm giới thiệu khái quát mạng xã hội, cấu trúc lịch sử phát triển mạng xã hội toán phát vai trò mạng xã hội Chương 2: Một số phương pháp phát vai trò mạng xã hội trình... Chương Giới thiệu mạng xã hội toán phát vai trò mạng xã hội 1.1 Giới thiệu mạng xã hội 1.2 Lịch sử phân tích mạng xã hội 1.3 Bài toán phát vai trò mạng xã hội Chương... phát vai trò mạng xã hội 2.1 Tổng quan số phương pháp phát vai trò mạng xã hội 2.2 Mô hình Role-Author-Recipient-Topic phát vai trò chủ đề mạng xã hội 2.3 Mô hình phát vai