Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng

172 7 0
Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN HỒ TRUNG THÀNH PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÀNH PHỐ HỒ CHÍ MINH - 2018 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN HỒ TRUNG THÀNH PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ VÀ ỨNG DỤNG Chuyên ngành Khoa học máy tính Mã số: 62.48.01.01 Phản biện 1: PGS.TS Hồ Bảo Quốc Phản biện 2: PGS.TS Quản Thành Thơ Phản biện 3: PGS.TS Đinh Điền Phản biện độc lập 1: PGS.TS Dương Tuấn Anh Phản biện độc lập 2: GS.TS Nguyễn Thanh Thủy Phản biện độc lập 3: PGS.TS Nguyễn Lê Minh NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐỖ PHÚC THÀNH PHỐ HỒ CHÍ MINH - 2018 LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành sâu sắc đến Thầy PGS.TS Đỗ Phúc, người Thầy ln tận tình hướng dẫn, động viên định hướng cho suốt làm nghiên cứu sinh hồn thành luận án Tơi mong muốn bày tỏ lịng biết ơn đến GS.TS Phan Thị Tươi, PGS.TS Trần Văn Lăng, PGS.TS Đỗ Văn Nhơn, PGS TS Quản Thành Thơ, PGS TS Nguyễn Phi Khứ, PGS.TS Hồ Bảo Quốc, PGS.TS Nguyễn Đình Thn, PGS.TS Nguyễn Hồng Tú Anh, TS Dương Minh Đức TS Ngơ Thanh Hùng có lời khun q báo cho tơi buổi báo cáo chuyên đề, tiểu luận tổng quan, báo cáo học thuật đơn vị chun mơn q trình viết luận án Tôi xin chân thành gửi lời cảm ơn đến Thầy/Cơ phản biện có lời nhận xét góp ý vơ q báo để tơi hồn thành luận án Tiếp theo, tơi xin gửi lời cảm ơn đến Q lãnh đạo, Thầy/Cơ Trường Đại học Công nghệ thông tin giúp đỡ, đóng góp ý kiến q báo cho tơi suốt trình học tập, nghiên cứu hỗ trợ thủ tục hồn thành luận án Sự biết ơn tơi xin gửi đến Q lãnh đạo, Thầy/Cơ Trường Đại học Kinh tế Luật nơi công tác, tạo điều kiện cho tơi hồn thành luận án Kế đến, xin cảm ơn đến anh chị nghiên cứu sinh bạn nhóm nghiên cứu phân tích mạng xã hội có ý đóng góp q báo cho tơi q trình nghiên cứu Cuối cùng, xin gửi lời cảm ơn sâu sắc đến Cha, Mẹ, Vợ hai trai sát cánh, động viên chăm sóc tơi để tơi hồn thành luận án i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, báo cáo, kết nghiên cứu luận án trung thực chưa công bố công trình khác ngoại trừ cơng trình, tư liệu trích dẫn phần tài liệu tham khảo Tác giả luận án Hồ Trung Thành ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH .viii DANH MỤC BẢNG x DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ xii TÓM TẮT xiv ABSTRACT xv TỔNG QUAN VỀ LUẬN ÁN 1 Động nghiên cứu Mục tiêu nghiên cứu Sơ đồ nghiên cứu tổng thể luận án Đóng góp luận án Bố cục luận án 10 CHƯƠNG PHÂN TÍCH MẠNG XÃ HỘI VÀ CÁC NGHIÊN CỨU LIÊN QUAN 12 1.1 Giới thiệu chương 12 1.2 Khái niệm mạng xã hội 13 1.3 Phương pháp phân tích mạng xã hội 14 1.3.1 Khái niệm phân tích mạng xã hội 14 1.3.2 Phân tích MXH theo hướng phân tích nội dung 15 1.3.3 Phân tích MXH dựa theo mơ hình chủ đề 17 1.3.3.1 Khái niệm chủ đề 17 1.3.3.2 Mơ hình chủ đề phân tích MXH 18 1.3.3.3 Một số mơ hình chủ đề 19 iii 1.4 Lý thuyết mạng Bayes phân bố xác suất 21 1.4.1 Lý thuyết mạng Bayes 21 1.4.2 Phân bố Dirichlet – hàm Gamma – hàm Beta 23 1.4.3 Phân bố hậu nghiệm 24 1.4.4 Lý thuyết phương pháp lấy mẫu Gibbs 25 1.4.4.1 Lý thuyết xích Markov 25 1.4.4.2 Kỹ thuật lấy mẫu Gibbs 26 1.5 Các nghiên cứu liên quan đến phân tích MXH dựa theo mơ hình chủ đề 27 1.5.1 Khám phá chủ đề quan tâm cá nhân MXH 28 1.5.1.1 Khái niệm chủ đề quan tâm cá nhân 28 1.5.1.2 Mơ hình Author mơ hình Author-Topic 28 1.5.1.3 Mơ hình khám phá chủ đề ART 29 1.5.1.4 Mơ hình Dynamic Topic Model 31 1.5.1.5 Mơ hình Topic-Over-Time 31 1.5.1.6 Mơ hình Author-Topic-Time 32 1.5.2 Các nghiên cứu liên quan khám phá chủ đề quan tâm cộng đồng MXH 32 1.5.2.1 Mơ hình khám phá nhóm GT 32 1.5.2.2 Mơ hình khám phá cộng đồng CUT 32 1.5.2.3 Mơ hình khám phá cộng đồng CART 33 1.5.2.4 Mô hình Author-Topic-Community 33 1.6 Nhận định chung động lực nghiên cứu 34 CHƯƠNG KHÁM PHÁ VÀ GÁN NHÃN CHỦ ĐỀ ẨN TỪ THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI 38 2.1 Giới thiệu chương 38 iv 2.2 Khám phá chủ đề ẩn từ thông điệp MXH áp dụng mơ hình chủ đề 38 2.2.1 Khái niệm vector chủ đề 39 2.2.2 Khái niệm vector thông điệp 39 2.2.3 Phát biểu toán khám phá chủ đề ẩn từ thông điệp MXH 39 2.3 Mơ hình chủ đề LDA 40 2.3.1 Phân bố xác suất liên hợp cho mơ hình LDA 42 2.3.2 Kỹ thuật lấy mẫu Gibbs cho mô hình LDA 43 2.4 Thử nghiệm khám phá chủ đề ẩn mô hình LDA 48 2.4.1 Mô tả liệu thử nghiệm 49 2.4.2 Tiền xử lý thông điệp tiếng Việt 51 2.4.3 Thử nghiệm mơ hình LDA liệu diễn đàn mạng xã hội Facebook 52 2.4.4 Thử nghiệm mơ hình LDA liệu trang báo điện tử VnExpress.net 53 2.4.5 Hạn chế mơ hình LDA 54 2.5 Phương pháp gán nhãn chủ đề ẩn 54 2.5.1 Ý tưởng phương pháp gán nhãn cho chủ đề ẩn 54 2.5.2 Xây dựng phân cấp chủ đề 57 2.5.2.1 Khái niệm phân cấp chủ đề 57 2.5.2.2 Quy trình xây dựng phân cấp chủ đề 58 2.5.3 Thử nghiệm phương pháp gán nhãn đánh giá kết 62 2.6 Kết luận chương 67 CHƯƠNG KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CÁ NHÂN DỰA THEO MƠ HÌNH CHỦ ĐỀ 69 3.1 Giới thiệu chương 69 3.2 Khám phá chủ đề quan tâm cá nhân MXH theo thời gian 69 3.2.1 Khái niệm chủ đề quan tâm cá nhân theo thời gian 69 v 3.2.2 Bài toán khám phá chủ đề quan tâm cá nhân MXH có yếu tố thời gian 70 3.3 Mơ hình khám phá chủ đề quan tâm cá nhân theo thời gian 71 3.3.1 Xây dựng mô hình TART 71 3.3.2 Phân bố xác suất liên hợp cho mơ hình TART 73 3.3.3 Kỹ thuật lấy mẫu Gibbs cho mơ hình TART 77 3.4 Thử nghiệm mơ hình TART thảo luận kết 80 3.4.1 Mô tả liệu thử nghiệm 80 3.4.2 Thử nghiệm mơ hình TART liệu diễn đàn sinh viên MXH 84 3.4.3 Thử nghiệm mơ hình TART liệu trang báo điện tử VnExpress.net 89 3.4.4 Khảo sát thay đổi chủ đề quan tâm cá nhân theo thời gian 91 3.4.5 Tổng hợp so sánh mơ hình TART với mơ hình LDA ART 93 3.4.5.1 So sánh tham số mơ hình 93 3.4.5.2 So sánh kết thử nghiệm 94 3.5 Kết luận chương 97 CHƯƠNG KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CỘNG ĐỒNG DỰA THEO MƠ HÌNH CHỦ ĐỀ 99 4.1 Giới thiệu chương 99 4.2 Khám phá cộng đồng mạng xã hội 100 4.3 Xây dựng phương pháp khám phá cộng đồng dựa theo mơ hình chủ đề 101 4.3.1 Ý tưởng khám phá cộng đồng 101 4.3.2 Phương pháp gom cụm vấn đề trực quan hóa liệu 103 4.3.3 Xây dựng phương pháp khám phá cộng đồng 105 4.3.4 Phát biểu toán khám phá chủ đề quan tâm cộng đồng MXH 106 4.4 Thử nghiệm phương pháp khám phá cộng đồng 108 4.4.1 Mô tả liệu thử nghiệm 108 vi 4.4.2 Chuẩn hoá vector nhập 110 4.4.3 Thử nghiệm phương pháp khám phá cộng đồng 110 4.4.4 Khảo sát biến thiên số cộng đồng dựa lớp Kohonen 114 4.5 Phân tích biến thiên đặc trưng cộng đồng theo thời gian 115 4.5.1 Sự biến thiên đặc trưng cộng đồng 116 4.5.2 Phương pháp phân tích biến thiên đặc trưng cộng theo thời gian 116 4.5.3 Kết thử nghiệm 117 4.6 Đánh giá kết thử nghiệm phương pháp khám phá cộng đồng 118 4.6.1 Đánh giá kết thông qua khảo sát hệ số Precision, Recall độ đo F 118 4.6.2 Đánh giá kết thông qua so sánh với phương pháp gom cụm K-Medoids 120 4.7 Kết luận chương 123 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 124 Kết luận 124 Hạn chế hướng phát triển 125 DANH MỤC CÁC CƠNG BỐ CHÍNH 128 DANH MỤC CÁC CÔNG BỐ LIÊN QUAN 129 THAM GIA ĐỀ TÀI 129 TÀI LIỆU THAM KHẢO 130 PHỤ LỤC 1: CÂY PHÂN CẤP CHỦ ĐỀ a PHỤ LỤC 2: XÂY DỰNG PHẦN MỀM PHÂN TÍCH MẠNG XÃ HỘI d PHỤ LỤC 3: DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ TỰ ĐẶC BIỆT ĐƯỢC DÙNG TRONG THÔNG ĐIỆP TRÊN MXH j PHỤ LỤC QUY TRÌNH LẤY DỮ LIỆU m vii DANH MỤC HÌNH Hình Mối liên kết xã hội cá nhân (actors) MXH Hình Sơ đồ nghiên cứu tổng thể luận án Hình 1.1 Mơ hình MXH 13 Hình 1.2 Mơ hình PLSI khám phá chủ đề ẩn 19 Hình 1.3 Chủ đề thơng điệp chia sẻ trao đổi MXH 28 Hình 1.4 Mơ hình sinh ART 30 Hình 1.5 Mơ hình Topic over Time (TOT) 31 Hình 1.6 Mơ hình ATT 32 Hình 2.1 Một ví dụ kết khám phá chủ đề ẩn từ thơng điệp mơ hình chủ đề 40 Hình 2.2 Mơ hình LDA phân bố xác suất liên hợp 41 Hình 2.3 Một số ví dụ nội dung trao đổi cá nhân MXH 50 Hình 2.4 Tổ chức hệ thống chủ đề trang báo điện tử VnExpress.net 50 Hình 2.5 Tổ chức viết nội dung bình luận trang báo điện tử VnExpress.net 50 Hình 2.6 Phương pháp gán nhãn chủ đề ẩn 55 Hình 2.7 Phân cấp chủ đề tập từ đặc trưng thuộc chủ đề 58 Hình 2.8 Quy trình phát triển ontology 59 Hình 2.9 Phương pháp xây dựng phân cấp chủ đề trường đại học dựa theo phương pháp xây dựng ontology 61 Hình 2.10 Một phần phân cấp chủ đề trường đại học 61 Hình 2.11 Một phần phân cấp chủ đề trang báo điện tử VnExpress.net 62 Hình 3.1 Mơ hình TART khám phá chủ đề quan tâm cá nhân theo thời gian 72 Hình 3.2 Lịch sử thơng điệp gửi theo năm kho ngữ liệu thu thập 81 Hình 3.3 Lịch sử số cá nhân tham gia gửi nhận thông điệp theo tháng năm 82 Hình 3.4 Lịch sử thơng điệp gửi nhận cá nhân 82 Hình 3.5 Lịch sử thơng điệp đươc gửi nhận giai đoạn từ năm 2011 đến năm 2015 83 Hình 3.6 Lịch sử số cá nhân tham gia gửi nhận thông điệp theo tháng năm từ năm 2011 đến năm 2015 84 Hình 3.7 Lịch sử thông điệp gửi nhận cá nhân 84 Hình 3.8 Kết phân tích thay đổi khả xuất từ “sinh_viên” chủ đề “Giáo dục” 87 Hình 3.9 Kết phân tích 15 chủ đề thời gian từ tháng 01 đến tháng 12 năm 2015 87 viii c PHỤ LỤC 2: XÂY DỰNG PHẦN MỀM PHÂN TÍCH MẠNG XÃ HỘI 2.1 Giới thiệu phần mềm Phần mềm phân tích mạng xã hội phát triển đến phiên V1.5 (ngày 30-7-2016) nghiên cứu sinh tác giả có đóng góp ý kiến thầy hướng dẫn thành viên nhóm nghiên cứu phân tích mạng xã hội Ngơn ngữ sử dụng để xây dựng phần mềm C# thuộc hệ thống phần mềm Microsoft Visual Studio 2014 Hệ quản trị CSDL SQL Server 2014 Bên cạnh đó, liệu thơng điệp liệu huấn luyện lưu trữ theo định dạng *.text Các mơ hình, phương pháp qui trình sơ đồ nghiên cứu tổng thể luận án (hình 1, phần tổng quan) tích hợp đầy đủ thực hệ thống phần mềm phân tích MXH Kết thử nghiệm phần mềm thể công bố gắn với mơ hình phương pháp luận án xây dựng Bên cạnh đó, phương pháp đánh giá kết thực mơ hình phương pháp cài đặt hệ thống phần mềm Phần mềm đáp ứng yêu cầu đặc để thực mục tiêu nghiên cứu luận án 2.2 Tổ chức sở liệu Cơ sở liệu tổ chức cấu trúc cho hai nguồn liệu: diễn đàn MXH trường đại học trang báo điện tử VnExpress.net Dưới mơ hình tổ chức sở liệu Hệ quản trị CSDL SQL Server 2014 d Hình Tổ chức sở liệu phân tích MXH 2.3 Một số hình phần mềm phân tích MXH Hình Màn hình khởi động để lựa chọn CSDL phân tích e Hình Danh mục chức xây dựng triển khai phần mềm Hình Màn hình phân tích biến thiên chủ đề quan tâm cá nhân theo thời gian f Hình Màn hình phân tích mơ hình TART g Hình Màn hình huấn luyện mạng nơron Kohonen để khám phá cộng đồng với input tập vector chủ đề quan tâm cá nhân Hình Kết khám phá cộng đồng quan tâm chủ đề trình bày trực quan Hình Kết khám phá chủ đề cộng đồng quan tâm h Hình Màn hình quản lý thơng điệp i PHỤ LỤC 3: DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ TỰ ĐẶC BIỆT ĐƯỢC DÙNG TRONG THÔNG ĐIỆP TRÊN MXH Dưới danh mục từ viết tắt ký hiệu đặc biệt cá nhân MXH sử dụng để viết nội dung thơng điệp Sau thu thập, phần mềm phân tích MXH thực tiền xử lý liệu có việc ánh xạ ký tự đặc biệt, từ viết tắt có thơng điệp sang từ rõ nghĩa Việc giúp cho việc khám phá chủ đề với tập từ đặc trưng rõ STT Từ viết tắt ký hiệu đặc biệt Nghĩa Sv sinh viên stt trạng thái (status) Cmt bình luận (comment) Ad quản trị viên (admin, administrator) Mem thành viên (member) Rela mối quan hệ (relationship) Pr quảng cáo (public relation) Cfs tự thổ lộ (confession) 19 đêm (one night) 10 29 tối (tonight) 11 Ib (hay inb) nhắn tin riêng (inbox) 12 FA cô đơn (forever alone) 13 FB facebook 14 FC fan club 15 PS tái bút 16 5ting cố lên (fighting) 17 OMG trời 18 LOL cười sảng khoái (Laugh Out Loud) 19 sr xin lỗi (sorry) j 20 plz làm ơn (please) 21 Bff bạn thân (best friend forever) 22 YOLO bạn sống (You only live one) Nghĩa là: sống hết mình, cháy với ước mơ theo đuổi ước mơ tới cùng, quí trọng sinh mạng đừng bỏ phí thời gian để nhìn lại nuối tiếc 23 ACC tài khoản (account) 24 AHBP anh hùng bàn phím 25 ASAP sớm tốt (As soon as possible) 26 ATSM ảo tưởng sức mạnh 27 AVA ảnh đại diện (avatar) 28 GATO ghen ăn tức 29 G9 ngủ ngon (goodnight) 30 KLQ không liên quan 31 PM tin nhắn riêng (private message) 32 QTQĐ trời đất 33 RIP rest in peace (an nghỉ) 34 TY tình yêu 35 NY người yêu 36 Troll chơi đểu 37 VK vợ 38 CK chồng 39 :) cười (smile) 40 :D cười to (big smile) k 41 :( buồn (sad) 42 :P bối rối 43 ;) đá lông nheo 44 :O ngạc nhiên 45 -_- khơng cảm xúc 46 >:O nhăn nhó 47 ;* hôn 48 :( khó chịu 51 :v Troll 52 :/ buồn 53 (y) like 55 (^^^) cá mập 56 s.Attributes.Contains("class") && s.Attributes["class"].Value == "block_mid_new").FirstOrDefault();  Descendants: Phương thức thuộc lớp HtmlNode cho phép truy vấn đệ quy toàn nội dung tag mà muốn xét, phương thức để lấy tồn nội dung trang VnExpress.net Thơng tin trả từ hàm nội dung Báo, tác giả báo, nội dung thảo luận báo, tác giả thảo luận list = roof.Descendants("div") Where(s => s.Attributes.Contains("class") && s.Attributes["class"].Value == "block_image_news width_common") ToList(); Bước 4: Lưu liệu VnExpress.net vào hệ thống Local Server Cuối cùng, lưu liệu lấy online vào offline(Local server) nhằm tăng tốc độ phân tích liệu sử dụng liệu thời điểm sau tải n Trên mạng xã hội Facebook Bước Bước Đăng ký tài khoản Developer Tạo ứng dụng Developer Facebook Facebook Bước Bước Tham chiếu thư viện Spring Social Cấu hình tương tác Graph Explorer Project Bước Bước Lưu liệu Facebook vào hệ thống Tiến hành lấy liệu Facebook Local Server Cơ sở liệu Chi tiết bước: Bước 1: Đăng ký tài khoản Developer Facebook Tại bước vào trang developer mà Facebook cung cấp cho lập trình viên: https://developers.facebook.com/ để lấy thông tin trao đổi Facebook Bước 2: Tạo ứng dụng Developer Facebook Khi đăng ký tài khoản developer thành công, phải tiến hành tạo ứng dụng Developer Facebook: Vào menu Apps Sau chọn Create a New App: Tiến hành đặt tên nhấn nút Create App o Bước 3: Cấu hình tương tác Graph Explorer Bước nhằm mục đích lựa chọn quyền cho phép truy suất lấy thông tin Facebook, tùy vào sách Facebook mà có loại tin lấy hay không lấy Từ cấu hình này, Facebook cấp cho Access Token để lập trình lấy thơng tin tự động: Bước 4: Tham chiếu thư viện Spring Social Project Để lập trình lấy thơng tin tự động, có nhiều thư viện cung cấp theo cách thống Spring Social Project xem thư viện hiệu phép lập trình viên kết hợp với Access Token để lấy thông tin từ Facebook Để có thư viện Spring Social Project vào: http://projects.spring.io/spring-social Trong có nhiều thư viện để truy suất tới nhiều mạng xã hội khác có Facebook: Vào Spring Social Facebook để tải thư viện: p  Spring Social Facebook ver 1.0.3  jackson-core-asl ver 1.9.13  jackson-databind ver 2.3.2  jackson-mapper-lgpl ver 1.9.13 Bước 5: Tiến hành lấy liệu Facebook Để lấy loại thông tin khác nhâu Facebook sử dụng hàm sau: Khởi tạo facebook object với access token xác: Facebook facebook = new FacebookTemplate (access token); Để lấy thông tin post facebook: facebook.feedOperations(); Để lấy comment facebook: facebook.commentOperations(); Để lấy kiện facebook: facebook.eventOperations(); Để lấy bạn bè facebook: facebook.friendOperations(); Bước 6: Lưu liệu Facebook vào hệ thống Local Server Cuối lưu liệu thu thập online vào offline (Local server) nhằm tăng tốc độ phân tích liệu sử dụng liệu thời điểm sau thu thập q ... 1.3.1 Khái niệm phân tích mạng xã hội 14 1.3.2 Phân tích MXH theo hướng phân tích nội dung 15 1.3.3 Phân tích MXH dựa theo mơ hình chủ đề 17 1.3.3.1 Khái niệm chủ đề ... mơ hình Thời gian-Tác giả-Người nhận -Chủ đề (mơ hình TART) dựa theo mơ hình chủ đề Nhiệm vụ mơ hình TART khám phá chủ đề quan tâm phân tích vai trị cá nhân chủ đề thông điệp trao đổi mạng xã hội; ... nghiên cứu phân tích MXH dựa theo mơ hình chủ đề Mơ hình chủ đề thực khám phá chủ đề cách gom cụm từ đồng (cùng xuất hiện) tập ngữ liệu [24] 1.3.3 Phân tích MXH dựa theo mơ hình chủ đề 1.3.3.1

Ngày đăng: 08/08/2021, 17:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan