Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
3,06 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ KIM DUNG PHÁT HIỆN VAI TRÒ TRONG MẠNG XÃ HỘI LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ KIM DUNG PHÁT HIỆN VAI TRỊ TRONG MẠNG XÃ HỘI Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI HÀ NỘI - 2015 TIEU LUAN MOI download : skknchat@gmail.com Lời cam đoan Tơi xin cam đoan luận văn “Phát vai trị mạng xã hội" cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hồn tồn cơng việc riêng tơi Luận văn hồn thành thời gian học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 25 tháng 10 năm 2015 Học viên Lê Thị Kim Dung i TIEU LUAN MOI download : skknchat@gmail.com Lời cảm ơn Lời đầu tiên, xin gửi lời cám ơn sâu sắc đến TS Đặng Thanh Hải tận tình hướng dẫn tơi suốt q trình thực Luận văn Tơi xin gửi lời cám ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ anh chị em phòng nghiên cứu KTLab nhiệt tình động viên giúp đỡ tơi hồn thành Luận văn Tơi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu Trường Đại học Công Nghệ Tôi xin cảm ơn bạn lớp cao học K17 đồng nghiệp cơng ty DeNA ủng hộ, khuyến khích tạo điều kiện cho tơi suốt q trình học tập trường Cuối không phần quan trọng, muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè, người thân u ln bên cạnh, động viên giúp đỡ không trình thực Luận văn mà cịn suốt đời Hà Nội, ngày 25 tháng 10 năm 2015 Học viên Lê Thị Kim Dung ii TIEU LUAN MOI download : skknchat@gmail.com Tóm tắt nội dung Phân tích phát vai trò mạng xã hội nhà khoa học quan tâm nghiên cứu từ sớm phát triển không ngừng với bùng nổ trang mạng xã hội Hiện nay, nội dung quan tâm rộng rãi giới kinh doanh lợi ích mà mang lại cho kinh tế Bên cạnh xác định vai trị người hay nhóm người vai trò xã hội, phát vai trò cặp đối tượng vấn đề quan tâm đặc biệt Đầu tiên, luận văn khảo sát cơng trình nghiên cứu tốn khai phá vai trò mạng xã hội, đặc biệt phát vai trò cặp đối tượng phân cụm vai trò dựa nội dung chủ đề [31][6] Sau đó, luận văn đề xuất mơ hình phát vai trò phân cấp cặp nhân viên dựa vào liệu email Mơ hình kết hợp hai pha phát vai trò, pha phân cụm nhân viên có cơng việc tương tự vào cụm vai trò, pha thực gán vai trò phân cấp cho cặp nhân viên cụm Mơ hình sử dụng nội dung truyền tin mạng cấu trúc mạng việc phát vai trò Luận văn bước đầu tiến hành thực nghiệm pha mơ hình đề xuất cho tập liệu Enron email Quá trình thực nghiệm cho kết độ xác trung bình Fmeasure cho 12 vai trò tập liệu 61.9% Bên cạnh đó, kết thực nghiệm cho thấy mơ hình phát tốt nhiều vai trò người iii TIEU LUAN MOI download : skknchat@gmail.com Mở đầu Phát vai trò mạng xã hội tốn quan trọng khơng có ý nghĩa lĩnh vực phân tích mạng xã hội mà cịn mang lại nhiều lợi ích kinh doanh Sự hình thành phát triển không ngừng trang mạng xã hội cộng đồng kéo theo số lượng không nhỏ cơng trình nghiên cứu vai trị thực thể mạng, chẳng hạn [1][3][28][29][32] Thời gian gần đây, cơng bố cơng trình nghiên cứu phát vai trị nhóm người mối quan hệ hai người có xu tăng nhanh, số nghiên cứu bật [2][5][6][18][31] Luận văn tốt nghiệp với đề tài Phát vai trị mạng xã hội nhằm khảo sát, phân tích mơ hình phát vai trị, đồng thời trình bày mơ hình phát vai trị phân cấp thi hành giải pháp phân cụm vai trò mơ hình thử nghiệm Luận văn gồm nội dung sau: Chương 1: Giới thiệu mạng xã hội tốn phát vai trị mạng xã hội nhằm giới thiệu khái quát mạng xã hội, cấu trúc lịch sử phát triển mạng xã hội tốn phát vai trị mạng xã hội Chương 2: Một số phương pháp phát vai trị mạng xã hội trình bày khái qt số mơ hình phát vai trị Đồng thời, chương chi tiết tìm hiểu mơ hình phát vai trị dựa vào nội dung chủ đề mơ hình phát vai trị hai đối tượng sử dụng đồ thị tham số xác suất phụ thuộc thời gian Chương 3: Phát vai trò phân cấp nhân viên từ tập liệu emails đưa mơ hình phát vai trị cấp – cấp nhóm người có vai trị, áp dụng mơ hình tìm hiểu chương Trong chương trình bày chi tiết pha bước thực mô hình Chương 4: Thực nghiệm đánh giá tiến hành cài đặt pha mơ hình đề xuất đánh giá kết đạt Phần kết luận tóm lược kết đạt nêu rõ đóng góp luận văn, đồng thời định hướng số hướng nghiên cứu thời gian tới iv TIEU LUAN MOI download : skknchat@gmail.com Mục Lục Lời cam đoan i Lời cảm ơn ii Tóm tắt nội dung iii Mở đầu iv Mục Lục v Danh mục hình vẽ vi Danh mục bảng biểu vii Danh mục viết tắt viii Danh sách thuật ngữ ix Chương Giới thiệu mạng xã hội tốn phát vai trị mạng xã hội 1.1 Giới thiệu mạng xã hội 1.2 Lịch sử phân tích mạng xã hội 1.3 Bài tốn phát vai trị mạng xã hội Chương Một số phương pháp phát vai trò mạng xã hội 2.1 Tổng quan số phương pháp phát vai trò mạng xã hội 2.2 Mơ hình Role-Author-Recipient-Topic phát vai trị chủ đề mạng xã hội 2.3 Mơ hình phát vai trị người hướng dẫn – người hướng dẫn từ mạng báo nghiên cứu khoa học 13 Chương Phát vai trò phân cấp nhân viên từ tập liệu emails 22 3.1 Phương pháp tiếp cận 22 3.2 Mơ hình triển khai đề xuất 22 3.2.1 Pha phân cụm vai trò 23 3.2.2 Pha gán vai trò phân cấp 23 Chương Thực nghiệm đánh giá 28 4.1 Môi trường thành phần hệ thống phần mềm 28 4.2 Tập liệu thử nghiệm 28 4.3 Thực nghiệm 29 4.4 Đánh giá kết 30 Kết luận 33 Tài liệu tham khảo 34 v TIEU LUAN MOI download : skknchat@gmail.com Danh mục hình vẽ Hình 1.1: Ba cấu trúc biểu diễn mạng xã hội [5] Hình 1.2: Một ví dụ "sociogram" [10] Hình 2.1: Ba mơ hình tham số RART [6] .10 Hình 2.2: Ví dụ vai trò từ tập liệu email McCallum với 50 chủ đề 15 nhóm [6] 12 Hình 2.3: Ví dụ phân phối vai trò người tập liệu email McCallum [6] .12 Hình 2.4: Biến đổi đồ thị mơ hình TPFG [31] .15 Hình 2.5: Cây đồ thị biểu diễn biến ẩn hàm tham số [31] 19 Hình 2.6: Hai giai đoạn trình chuyển tiếp thơng điệp [31] 20 Hình 2.7: Độ xác mơ hình với P@(2,𝜃): 𝑇 𝑇+𝐹 [31] 21 Hình 3.1: Biến đổi đồ thị .25 Hình 4.1: Một email người dùng Brawner 29 Hình 4.2: Ví dụ minh hoạ liệu đầu pha tiền xử lý 30 Hình 4.3: Độ xác F-measure 12 vai trò 31 vi TIEU LUAN MOI download : skknchat@gmail.com Danh mục bảng biểu Bảng 1: Cấu hình phần cứng 28 Bảng 2: Các phần mềm sử dụng 28 Bảng 3: Hai vai trò bật liệu Enron 31 Bảng 4: Một ví dụ phân phối vai trị 32 vii TIEU LUAN MOI download : skknchat@gmail.com Danh mục viết tắt STT Viết tắt Thuật ngữ TPFG Đồ thị tham số xác suất phụ thuộc thời gian IR Tỷ lệ cân Kulc Độ đo Kulczinski LDA Latent Dirichlet Allocation ART Author – Recipient – Topic RART Role – Author – Recipient – Topic viii TIEU LUAN MOI download : skknchat@gmail.com Chương Phát vai trò phân cấp nhân viên từ tập liệu emails Một số cơng trình nghiên cứu điển hình phát vai trị mạng xã hội trình bày chương trước cho kết khả quan với độ xác cao Dựa kết này, tiếp tục phát triển ứng dụng mơ hình vào miền liệu riêng biệt (emails công ty/tổ chức) nhằm phát vai trò mức cao – vai trị phân cấp Chương trình bày chi tiết cụ thể pha mơ hình triển khai đề xuất 3.1 Phương pháp tiếp cận Mô hình RART [6] phát vai trị chủ đề mạng xã hội cho đầu tập vai trị mà nhóm người đảm nhận chủ đề thường thảo luận nhóm với xác suất tương ứng Vai trị cho biết công việc người thông qua chủ đề mà người thường trao đổi Tuy nhiên, thực tế, việc biết người có tầm ảnh hưởng lớn nhóm người có cơng việc có ý nghĩa thiết thực nhiều Do đó, dựa kết mơ hình RART, luận văn đề xuất mơ hình phát vai trị mức cao nhằm tìm người có tầm ảnh hưởng cao (leader) nhóm người có vai trị (cùng cơng việc) có kết hợp sử dụng mơ hình TPFG [31] 3.2 Mơ hình triển khai đề xuất Đầu vào: - Dữ liệu email bao gồm nội dung thông tin người gửi, người nhận thời gian gửi công ty hay tổ chức Đầu ra: - Các cụm vai trò đồ thị tương ứng xếp hạng vai trò “cấp – cấp dưới” cho thực thể cụm Mơ hình gồm pha: - Pha phân cụm vai trò: Dựa vào nội dung email để phát chủ đề trao đổi người gửi người nhận, phân cụm đối tượng vào nhóm người có vai trị cơng việc - Pha gán vai trò phân cấp: Phát vai trò phân cấp “cấp – cấp dưới” dựa vào mối quan hệ qua lại hai người, xây dựng đồ thị xếp hạng vai trị nhằm tìm người quan trọng nhóm Người có vai trị quan trọng người quản lý cao nhóm 22 TIEU LUAN MOI download : skknchat@gmail.com 3.2.1 Pha phân cụm vai trị Mục tiêu pha phân cụm vai trò sử dụng hiệu phân phối chủ đề để đánh giá độ tương đồng đối tượng, phát vai trò đồng cấp cách phân cụm đối tượng sử dụng độ tương đồng Ví dụ, người thường nhận email yêu cầu cài đặt phần mềm, diệt virus, cài đặt mạng cho có vai trị “hỗ trợ IT” Những người thường có phân phối xác suất cao cho chủ đề Ở pha này, chí phát người có vai trị giống mà mơ hình đồ thị họ khơng có liên kết đến liên kết đến nhóm người khác [6] q trình phân cụm thực riêng rẽ thuật toán phân cụm sau áp dụng mơ hình ART để phát chủ đề người gửi người nhận, thực đồng thời với q trình phát chủ đề cách thêm vào biến ẩn cho vai trò người gửi vai trò người nhận mơ hình RART Tuy nhiên, chúng tơi nhận thấy việc phân cụm đồng thời giúp giảm thiểu sai số sinh mơ hình ART thuật toán phân cụm Hơn nữa, cơng ty hay tổ chức, cá nhân đảm nhận lúc nhiều vai trò Trong thực nghiệm, [6] chứng minh mơ hình RART phát nhiều vai trò người tốt Vì vậy, pha này, chúng tơi tiến hành phân cụm sử dụng mơ hình RART 3.2.2 Pha gán vai trò phân cấp Sau đối tượng phân vào nhóm có vai trị giống nhau, chúng tơi tiếp tục tiến hành gán vai trị “cấp – cấp dưới” cho cặp đối tượng nhóm Q trình phát mối quan hệ phân cấp riêng rẽ cho nhóm vai trị Ở pha có quan tâm nhiều đến cấu trúc liên kết đối tượng, chúng tơi sử dụng cấu trúc đồ thị để mơ hình hố liệu Về bản, pha sử dụng mô hình TPFG [31] để phát xếp hạng vai trị có số thay đổi phù hợp với đặc trưng liệu tốn 3.2.2.1 Mơ hình hố Tương tự mơ hình Wang cộng sự, chúng tơi biểu diễn liệu theo mơ hình đồ thị biến đổi qua bước: Bước 1: Mạng email biểu diễn dạng đồ thị G gồm tập đỉnh V cạnh E: 𝐺 = { 𝑉𝑝 ∪ 𝑉𝑎 , 𝐸 } Trong đó: 23 TIEU LUAN MOI download : skknchat@gmail.com - 𝑉 𝑝 = {𝑝1 , … , 𝑝𝑛 𝑝 } tập hợp email với 𝑝𝑖 email gửi thời điểm 𝑡𝑖 - 𝑉 𝑎 = {𝑎1 , … , 𝑎𝑛 𝑎 } tập hợp người có vai trị R - E tập hợp cạnh Mỗi cạnh 𝑒𝑖𝑗 ∈ 𝐸 tương ứng với 𝑎𝑗 tác giả (người gửi nhận) 𝑝𝑖 Ở đây, 𝑉 𝑝 bao gồm email gửi nhận người nằm nhóm vai trị R Bước 2: Biến đổi đồ thị không đồng G thành độ thị đồng G’ chứa đỉnh tác giả email: 𝐺′ = (𝑉′, 𝐸′, {𝑝𝑦𝑖𝑗 }𝑒𝑖𝑗 ∈ 𝐸′, {𝑝𝑛𝑖𝑗 }𝑒𝑖𝑗 ∈ 𝐸′) Trong đó: - 𝑉′ = {𝑎0 , … , 𝑎𝑛 𝑎 } tập hợp tác giả (bao gồm nút ảo a0 gốc đồ thị) - Mỗi cạnh 𝑒′𝑖𝑗 = (𝑖, 𝑗) ∈ 𝐸 kết nối đỉnh 𝑎𝑖 𝑎𝑗 người có trao đổi email với - 𝑝𝑦𝑖𝑗 𝑝𝑛𝑖𝑗 véc tơ tương ứng với độ dài cạnh, xác định năm mà người có trao đổi email số email mà người trao đổi năm Tương tự, ta liên kết với tác giả véc tơ 𝑝𝑦𝑖 𝑝𝑛𝑖 tương ứng năm có trao đổi email số email Hai véc tơ lấy từ 𝑝𝑦𝑖𝑗 𝑝𝑛𝑖𝑗 Bước 3: Xây dựng đồ thị 𝐻’ từ 𝐺’ (𝐻’ ⊂ 𝐺’) cách bỏ số cạnh 𝐺’ nối cạnh lại trực tiếp từ người cấp tới người có khả cấp 𝐻 ′ = 𝑉 ′ , 𝐸′𝑠 , 𝐸′𝑠 ⊂ 𝐸′ Để tìm mối quan hệ cấp – cấp dưới, phải định giá trị biến ẩn 𝑦𝑖 cho tác giả 𝑎𝑖 , mà phải ước lượng năm bắt đầu kết thúc mối quan hệ 𝑠𝑡𝑖𝑦 𝑖 , 𝑒𝑑𝑖𝑦 𝑖 Cũng giống [31], sử dụng mơ hình xác suất để xếp hạng khả người cấp người khác Xác định 𝑟𝑖𝑗 khả người 𝑎𝑗 cấp 𝑎𝑖 Trong 𝐻’, số tập hợp người có khả cấp người 𝑎𝑖 xác định 𝑌𝑖 = {𝑗|𝑒𝑖𝑗 ∈ 𝐸′𝑠 } Tương ứng, số tập hợp người có khả cấp xác định 𝑌𝑖−1 = {𝑗|𝑒𝑗𝑖 ∈ 𝐸′𝑠 } 24 TIEU LUAN MOI download : skknchat@gmail.com Hình 3.1: Biến đổi đồ thị Bước 4: Nhiệm vụ tìm 𝑟𝑖𝑗 , 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 cho cặp cấp – cấp (𝑖, 𝑗) ∈ 𝐸′𝑠 Đầu đồ thị 𝐻 = (𝑉 ′ , 𝐸 ′ 𝑠 , {(𝑟𝑖𝑗 , 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 )}(𝑖,𝑗 )∈𝐸′ 𝑠 ) Điểm xếp hạng sử dụng để dự đoán mối quan hệ cấp – cấp cặp tác giả cách lấy top k người có khả cấp 𝑎𝑖 kiểm tra xem 𝑎𝑗 có phải cấp không 𝑟𝑖𝑗 > 𝑟𝑖0 hay 𝑟𝑖𝑗 > 𝜃 với 𝜃 ngưỡng, ví dụ 𝜃 = 0.5 Độ hồi tưởng 𝑃@(𝑘, 𝜃) sử dụng để biểu diễn phương pháp 3.2.2.2 Một số giả định Với hiểu biết đặc trưng liệu, đưa số giả định sau nhằm hỗ trợ trình biến đổi từ đồ thị 𝐺’ sang 𝐻’ - Với cặp cấp – cấp dưới, người có vai trị cấp thường có lịch sử trao đổi email nhiều cấp - Người có vai trị cấp thường có số lượng liên kết đến thành viên khác nhóm nhiều - Nếu người x cấp y thời gian y cấp x khoảng thời gian liên tiếp từ t1 đến t2 25 TIEU LUAN MOI download : skknchat@gmail.com 3.3.2.3 Gán vai trị Q trình gán vai trị thực qua giai đoạn Giai đoạn 1: Tiền xử lý Mục đích giai đoạn nhằm xây dựng đồ thị 𝐻’ giảm không gian tìm kiếm Đầu tiên, cần xây dựng đồ thị 𝐺’ việc xử lý email Với email, tạo cạnh cặp người gửi – người nhận cập nhật véc tơ 𝑝𝑦, 𝑝𝑛 tương ứng Đồ thị H’ tạo từ việc loại bỏ cạnh không giống mối quan hệ cấp – cấp cách kiểm tra điều kiện thoả mãn giả định số luật khác dựa hiểu biết mối quan hệ phân cấp Các luật xây dựng dựa độ đo kulc IR cho cặp người gửi – người nhận Wang cộng đưa luật để áp dụng cho mối quan hệ người hướng dẫn – người hướng dẫn Tuy nhiên, thấy việc áp dụng luật R3 [31] - mối quan hệ cộng tác người hướng dẫn – người hướng dẫn phải lâu năm không hợp lý cho mối quan hệ cấp – cấp Vì vậy, mơ hình này, sử dụng số luật [31] Một người 𝑎𝑗 xem cấp 𝑎𝑖 thoả mãn luật sau: • R1: IRijt pyij1 Sau loại bỏ cạnh không giống mối quan hệ cấp – cấp dưới, 𝑎𝑖 nối với 𝑎𝑗 cạnh có hướng từ 𝑎𝑖 tới 𝑎𝑗 Năm bắt đầu ước lượng năm mà hai người bắt đầu có trao đổi email Năm kết thúc ước lượng năm mà độ đo kulc bắt đầu giảm kulc khác so với năm trước sau Độ đo cục đo khả 𝑎𝑗 cấp 𝑎𝑖 tính dựa vào độ đo kulc, IR trung bình độ đo trên: 𝑙𝑖𝑗 = 𝑡 𝑠𝑡 𝑖𝑗 ≤𝑡≤𝑒𝑑 𝑖𝑗 (𝑘𝑢𝑙𝑐𝑖𝑗 + 𝐼𝑅𝑖𝑗𝑡 ) 2(𝑒𝑑𝑖𝑗 − 𝑠𝑡𝑖𝑗 + 1) Giai đoạn 2: Tính hạng xác định thời gian mối quan hệ Sau xây dựng đồ thị 𝐻’, tiến hành tính hạng 𝑟𝑖𝑗 khả 𝑎𝑗 cấp 𝑎𝑖 thời gian bắt đầu, kết thúc mối quan hệ: 𝑠𝑡𝑖𝑗 , 𝑒𝑑𝑖𝑗 Trong giai đoạn này, chúng tơi áp dụng hồn tồn bước mơ hình TPFG Wang cộng trình bày mục 2.2 26 TIEU LUAN MOI download : skknchat@gmail.com Tóm tắt chương Chương trình bày tưởng mơ hình đề xuất phát vai trò phân cấp cặp nhân viên từ liệu email Trong chương này, giới thiệu chi tiết pha mơ điểm giống khác mơ hình đề xuất mơ hình sở Trong chương tiếp theo, luận văn tiến hành thực nghiệm phần mơ hình đề xuất đánh giá kết đạt 27 TIEU LUAN MOI download : skknchat@gmail.com Chương Thực nghiệm đánh giá Do hạn chế mặt thời gian, khuôn khổ luận văn này, tiến hành thực nghiệm phần mơ hình đề xuất, cụ thể pha phân cụm vai trị theo mơ hình RART Phần lại tiến hành nghiên cứu 4.1 Môi trường thành phần hệ thống phần mềm Cấu hình phần cứng Chỉ số Thành phần CPU 2.4 GHz Intel Core i5 RAM 8GB OS Mac OS X 10.9.5 Bộ nhớ 250GB Bảng 1: Cấu hình phần cứng Các cơng cụ phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn Node.js https://nodejs.org/en/ gcc https://gcc.gnu.org/ boost http://www.boost.org/ make http://www.gnu.org/software/make/manual /make.html sublime text http://www.sublimetext.com/ Bảng 2: Các phần mềm sử dụng Ngồi cơng cụ trên, chúng tơi tiến hành cài đặt mô đun xử lý dựa ngôn ngữ javascript C/C++ - create_doc.js: Mô đun viết ngôn ngữ javascript sử dụng cho việc tiền xử lý liệu, thực việc đọc file email riêng rẽ nhiều thư mục tổng hợp lại file, đồng thời loại bỏ từ vô nghĩa - art.h: Thực việc lấy mẫu phân cụm theo mơ hình ART - rr.h: Thực việc phân cụm vai trị theo mơ hình RART 4.2 Tập liệu thử nghiệm Dữ liệu thử nghiệm tập email công ty Enron – công ty tiếng Mỹ lĩnh vực lượng, hàng hoá dịch vụ, bị phá sản vào năm 2001 28 TIEU LUAN MOI download : skknchat@gmail.com Đây tập liệu tiếng sử dụng nhiều nhà nghiên cứu Dữ liệu Enron cơng khai cho mục đích nghiên cứu tải từ trang web: http://www.cs.cmu.edu/~enron/ Tập liệu bao gồm 500000 emails khoảng 150 nhân viên Email nhân viên lưu trữ thư mục có nhiều thư mục tương ứng với phân loại email người dùng tuỳ chọn Mỗi file liệu chứa đầy đủ thông tin địa email người gửi, địa email người nhận, thời gian gửi, nội dung email số thông tin khác định dạng email 4.3 Thực nghiệm Tiền xử lý liệu Để giảm bớt việc trùng lặp mà thu thập đầy đủ email, lấy email thư mục sent nhân viên Có hai người xuất hai lần với địa email khác loại bỏ người Chúng lọc email trao đổi nhân viên Enron thực nghiệm email Hình 4.1: Một email người dùng Brawner Với email, chúng tơi trích xuất thơng tin người gửi, người nhận nội dung email Tương tự [6], để lấy phần nội dung email, bỏ phần nội dung thư chuyển tiếp xuất sau dòng “forwarded massage” mốc thời gian Để loại bỏ phân biệt chữ viết hoa, từ chuyển thành chữ viết thường Trong thực nghiệm McCallum cộng lấy từ dãy chữ Ngồi ra, chúng tơi cịn xây dựng từ vựng gồm từ có chức ngữ pháp, loại bỏ từ khỏi liệu nội dung 29 TIEU LUAN MOI download : skknchat@gmail.com Để đánh giá độ xác mơ hình, chúng tơi loại bỏ người mà khơng có thơng tin cụ thể vị trí cơng việc Kết thu tập liệu bao gồm 11830 email 108 người, có 37612 từ Cuối cùng, liệu gộp vào file với dòng email có định dạng: Mỗi trường cách dấu “cách”, từ cách dấu “:” Hình 4.2: Ví dụ minh hoạ liệu đầu pha tiền xử lý Phân cụm vai trị Bởi Gibbs sampling thuật tốn lấy mẫu phổ biến, cài đặt đơn giản hiệu nên chọn sử dụng thuật tốn q trình lấy mẫu Tuy nhiên, việc lấy mẫu riêng rẽ cho tập biến ẩn vai trò người gửi – vai trò người nhận phức tạp Vì vậy, McCallum cộng đưa chiến lược hiệu sử dụng mơ hình ART [6] Đầu tiên, mơ hình ART huấn luyện để có lựa chọn chủ đề lựa chọn người nhận cho từ Do đó, bước tiếp theo, chủ đề người nhận xem quan sát Trong trình thực nghiệm này, chúng tơi tiến hành theo cách Trong thực nghiệm mơ hình ART, McCallum cộng [6] nhận thấy việc lựa chọn tham số đầu vào không ảnh hưởng lớn đến kết mơ hình nên cố định giá trị 𝛼 = 50/𝑇 𝛽 = 0.1 Do đó, cố định giá trị tiến hành huấn luyện ART với T = 50 topic Sau chúng tơi lấy mẫu vai trị cho người nhận theo từ có chủ đề mà người nhận gán với 12 nhóm vai trị 4.4 Đánh giá kết Để đánh giá kết thử nghiệm hiệu thuật tốn mơ hình chúng tơi sử dụng độ đo F- measure Nó kết hợp của độ đo xác độ đo hồi tưởng Độ đo xác ký hiệu π số lượng người có vai trò 30 TIEU LUAN MOI download : skknchat@gmail.com với cụm vai trò tổng số người cụm Độ đo hồi tưởng ký hiệu ρ số người phù hợp với vai trị tìm tổng số người thực tế phù hợp với vai trò Do độ đo F tính sau: F= 2𝜋𝜌 𝜋+𝜌 Chúng tơi đặt tên cho nhóm vai trò dựa vào từ xuất vai trị hiểu biết vị trí cơng việc tập liệu Tốp người có phân phối vai trò > 0.1 cho vai trò lựa chọn để đánh giá độ xác Kết sau: F-measure 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Hình 4.3: Độ xác F-measure 12 vai trị Độ xác trung bình việc phát vai trị đạt 61.9%, Vai trị (Phụ trách vấn đề pháp lý) có độ xác cao (76.9%), Vai trị 10 (Quản lý) có độ xác thấp 54.1% Vai trị “Nhân viên mua/bán hàng (trader)” 0.418662 Bass (trader) Forney (manager, real time trading desk) 0.374849 0.360097 Dean (trader) 0.307181 Kuykendall (trader) Stepenovitch (vice president, energy 0.280439 marketting and trading Florida) Sanders (vice president, wholesale services)0.233179 0.211752 Fossum (vice president) 0.201946 McCarty (employee) Vai trò “Phụ trách pháp lý(regulatory affairs)” Corman (vice president, regulatory affairs) 0.392585 Dasovich (government relation executive) 0.388959 0.29148 Lokey (manager, regulatory affairs) 0.247706 Keavey (employee) Steffes (vice president, government affairs) 0.199571 Shapiro (vice president, regulatory affairs) 0.122598 0.120181 May (director) 0.112069 Keiser (employee) Bảng 3: Hai vai trò bật liệu Enron 31 TIEU LUAN MOI download : skknchat@gmail.com Bảng liệt kê số người bật vai trò Vai trị nhóm “nhân viên phụ trách việc mua bán hàng” Tốp người có xác suất cao nhóm có vai trị cơng việc giống hồn tồn trùng khớp với vai trị nhóm Vai trị nhóm người “phụ trách vấn đề pháp lý” Phần lớn người nhóm có cơng việc liên quan đến phủ (government affairs) pháp lý (regulatory affairs), hai công việc liên quan đến vấn đề tương tự stepenovitch (Joe Stepenovitch) 0.280439 Vai trò (nhân viên mua/bán hàng) Vai trò (cung cấp dịch vụ lượng) 0.142052 0.102593 Vai trò 11 (nhân viên marketing) 0.080045 Vai trò 10 (người quản lý) kaminski (Vince Kaminski) Vai trò (người quản lý rủi ro) Vai trò 10 (người quản lý) Vai trò (nhân viên hành chính) Vai trị (chun viên phân tích tiền tệ) 0.339667 0.114014 0.078384 0.072446 Bảng 4: Một ví dụ phân phối vai trị Một ví dụ phân phối vai trò người thể Bảng Stepenovitch có vai trị “nhân viên mua/bán hàng”, bên cạnh đó, người cịn “người cung cấp dịch vụ lượng” “nhân viên marketing” Ngồi ra, Stepenovitch cịn có vai trị “người quản lý” Những vai trị hồn tồn trùng khớp với cơng việc thực tế Một ví dụ khác Kaminski, người có phân phối vai trị cao vai trò “người quản lý rủi ro”, đồng thời ơng cịn có vai trị “người quản lý” Tuy nhiên, vai trị “nhân viên hành chính” “chun viên phân tích tiền tệ” khơng liên quan tới cơng việc ơng Có lẽ mà phân phối xác suất cho vai trò thấp 32 TIEU LUAN MOI download : skknchat@gmail.com Kết luận Với phát triển không ngừng trang mạng xã hội mang lại nguồn liệu đa dạng phong phú người dùng Internet, nhu cầu hiểu biết vai trò người dùng cần thiết mang lại nhiều lợi ích kinh doanh Tuy nghiên cứu khai phá vai trò mạng xã hội quan tâm từ lâu, lĩnh vực nhiều thách thức vấn đề cần phải giải Nắm bắt nhu cầu đó, luận văn tiến hành nghiên cứu mơ hình phát vai trị áp dụng thử nghiệm vào mơ hình phát vai trị phân cấp dựa vào liệu emails Kết đạt luận văn Luận văn tiến hành khảo sát khai phá liệu mạng xã hội tốn phát vai trị mạng xã hội Luận văn tìm hiểu số cơng trình nghiên cứu phát vai trò mạng xã hội Trong đó, luận văn sâu vào nghiên cứu mơ hình phát vai trị người hướng dẫn – người hướng dẫn mạng thông tin báo khoa học mơ hình RART phát vai trò chủ đề mạng xã hội Dựa nghiên cứu đó, luận văn đề xuất mơ hình triển khai nhằm phát vai trị phân cấp nhân viên từ tập liệu emails Luận văn tiến hành cài đặt thực nghiệm pha mơ hình đề xuất cho tập liệu Enron email Kết thực nghiệm cho thấy mơ hình có độ xác 61.9% việc phát 12 vai trị Ngồi ra, mơ hình cịn cho kết tốt việc phát nhiều vai trò người Định hướng nghiên cứu Trong khuôn khổ luận văn này, dừng lại việc đưa mơ hình đề xuất thực nghiệm pha mơ hình Trong thời gian tới, chúng tơi tiếp tục thực nghiệm phần cịn lại mơ hình, đồng thời xem xét hướng nghiên cứu bổ sung thêm đặc trưng chủ đề pha gán vai trị phân cấp để nâng cao độ xác giảm thiểu việc bỏ sót cặp quan hệ 33 TIEU LUAN MOI download : skknchat@gmail.com Tài liệu tham khảo Tiếng Việt [1] Đinh Thị Hương Một mơ hình tìm kiếm vai trị mạng xã hội Twitter Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN, 2014 Tiếng Anh [2] Nitin Agarwal, Huan Liu, Lei Tang, Philip S Yu: Modeling blogger influence in a community Social Netw Analys Mining 2(2): 139-162 (2012) [3] N Agarwal and H Liu Blogosphere: research issues, tools, and applications SIGKDD Exploration, 10(1):18–31, 2008 IEEE Press [3] L.A Adamic, J Zhang, E Bakshy, and M.S Ackerman Knowledge sharing and yahoo answers: everyone knows something In: Proceeding of the International Conference on World Wide Web (WWW’08), pages 665–674, Beijing, China, 2008 ACM Press [4] D.M Blei, A.Y Ng, and M.I Jordan Latent dirichlet allocation Journal of Machine Learning Research, 3:993–1022, 2003 JMLR [5] Jiyang Chen, Community Mining-Discovery Communities in Social Network, Thesis, University of Alberta, 2010 [6] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and Role Discovery in Social Networks with Experiments on Enron and Academic Email J Artif Intell Res (JAIR) 30: 249-272 (2007) [7] P Doreian, V Batagelj, and A Ferligoj Generalized blockmodeling Cambridge University Press, 2005 [8] B Dom, I Eiron, A Cozzi, and Y Zhang Graph-based ranking algorithms for email expertise analysis In: Proceedings of the SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD’03), pages 42–48, San Diego, California, USA, 2003 ACM Press [9] A Daud, J Li, L Zhou, and F Muhammad A generalized topic modeling approach for maven search In: Proceedings of the Advances in Data and Web Management (APWeb WAIM’09), pages 138–149, Suzhou, China, 2009 Springer [10] L Freeman Visualizing social networks Journal of Social Structure, 1(1), 2000 [11] A Farahat, N K Ahmed, and U Dholakia, “Does a daily deal promotion signal a distressed business? an empirical investigation of small business survival,” in Proc Economics Web Search Social Netw., 2013, pp 1–8 34 TIEU LUAN MOI download : skknchat@gmail.com [12] Mathilde Forestier, Anna Stavrianou, Julien Velcin, and Djamel A Zighed Roles in social networks: methodologies and research issues Journal Web Intelligence and Agent Systems Volume 10 Issue 1, 2012 [13] Robert A Hanneman, Mark Riddle: Introduction to social network methods Published in digital form at http://faculty.ucr.edu/~hanneman/ 2005 [14] M.S Handcock, A.E Raftery, and J.M Tantrum Model-based clustering for social networks Journal of the Royal Statistical Society: Series A (Statistics in Society), 170(2):301–354, 2007 Wiley Online Library [15] J Moreno Who shall survive, New York: Beacon Press 1934 [16] S Milgram The small world problem Psychology Today, 1(1):60–67, 1967 [17] R Merton Social Theory and Social Structure New York, NY, USA: Simon & Schuster, 1968 [18] M Maia, J Almeida, and V Almeida Identifying user behavior in online social networks In Proceedings of the 1st Workshop on Social Network Systems,SocialNets '08, pages 1-6, New York, NY, USA, 2008.ACM [19] P Mahadevan, D Krioukov, M Fomenkov, X Dimitropoulos, A Vahdat, et al., “The internet as-level topology: Three data sources and one definitive metric,” ACM SIGCOMM Comput Commun Rev., vol 36, no 1, pp 17–26, 2006 [20] K Lewin Principles of topological psychology, McGraw-Hill, 1936 [21] T Parsons “Illness and the role of the physician: A sociological perspective,” Amer J Orthopsychiatry., vol 21, no 3, pp 452–460, 1951 [22] A Pal and S Counts Identifying topical authorities in microblogs In WSDM, pages 45-54, 2011 [23] Ryan A Rossi and Nesreen K Ahmed: Role Discovery in Networks IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL 27, NO 4, APRIL 2015 [24] R A Rossi, S Fahmy, and N Talukder, “A multi-level approach for evaluating internet topology generators,” in Proc IFIP Netw Conf., 2013, pp 1–9 [25] J Scott Social network analysis: A handbook, Sage, London 2nd edition(2000) [26] J Scripps, P.N Tan, and A.H Esfahanian Node roles and community structure in networks In: Proceedings of the Workshop on Web Mining and Social Network Analysis (WebKDD/SNAKDD’07), pages 26–35, San Jose, California, USA, 2007 ACM Press 35 TIEU LUAN MOI download : skknchat@gmail.com [27] M Steyvers, P Smyth, M Rosen-Zvi, and T Griffiths Probabilistic author-topic models for information discovery In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’04), pages 306– 315, Seattle, WA, USA, 2004 ACM Press [28] Ramine Tinati, Leslie Carr, Wendy Hall, Jonny Bentwood “Identifying Communicator Roles in Twitter”, WWW 2012 – MSND'12 Workshop [29] Vanesa Junquero-Trabado, David Dominguez-Sal (2012) Building a role search engine for social media WWW (Companion Volume) 2012: 1051-1060 [30] H T Welser, D Cosley, G Kossinets, A Lin, F Dokshin, G Gay, and M Smith Finding social roles in wikipedia In Proceedings of the 2011 iConference, iConference '11, pages 122-129, New York, NY, USA, 2011 ACM [31] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010) Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212 [32] H.T Welser, E Gleave, D Fisher, and M Smith Visualizing the signatures of social roles in online discussion groups Journal of Social Structure, 8(2):1–31, 2007 36 TIEU LUAN MOI download : skknchat@gmail.com ... phát vai trị mạng xã hội nhằm giới thiệu khái quát mạng xã hội, cấu trúc lịch sử phát triển mạng xã hội tốn phát vai trị mạng xã hội Chương 2: Một số phương pháp phát vai trị mạng xã hội trình bày... Chương Giới thiệu mạng xã hội tốn phát vai trị mạng xã hội 1.1 Giới thiệu mạng xã hội 1.2 Lịch sử phân tích mạng xã hội 1.3 Bài tốn phát vai trị mạng xã hội Chương... phát vai trò mạng xã hội 2.1 Tổng quan số phương pháp phát vai trị mạng xã hội 2.2 Mơ hình Role-Author-Recipient-Topic phát vai trị chủ đề mạng xã hội 2.3 Mơ hình phát vai