1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng

34 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 1,49 MB

Nội dung

Luận án xây dựng hai mục tiêu chính và các nhiệm vụ nghiên cứu cụ thể. Trong đó, luận án xây dựng các mô hình và phương pháp trong phân tích MXH dựa theo mô hình chủ đề (Topic model) để khám phá chủ đề quan tâm, vai trò của cá nhân và cộng đồng trên MXH theo từng giai đoạn thời gian.

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN HỒ TRUNG THÀNH PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ VÀ ỨNG DỤNG Chun ngành Khoa học máy tính Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÀNH PHỐ HỒ CHÍ MINH - 2018 Cơng trình hồn thành Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP.HCM Người hướng dẫn khoa học: PGS TS Đỗ Phúc Phản biện 1: PGS.TS Hồ Bảo Quốc Phản biện 2: PGS.TS Quản Thành Thơ Phản biện 3: PGS.TS Đinh Điền Phản biện độc lập 1: PGS.TS Dương Tuấn Anh Phản biện độc lập 2: GS.TS Nguyễn Thanh Thủy Phản biện độc lập 3: PGS.TS Nguyễn Lê Minh Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường tại: Phòng A116, Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP HCM, Khu phố 6, Phường Linh Trung, Quận Thủ Đức, TP HCM Vào lúc 14 00 ngày 22 tháng 01 năm 2018 Có thể tìm luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Trường Đại học Công nghệ Thông tin, ĐHQG-HCM TỔNG QUAN VỀ LUẬN ÁN Động nghiên cứu Mục tiêu phân tích mạng xã hội (MXH) phân tích tương tác người, tổ chức với khám phá thông tin, tri thức ẩn thông qua tương tác [27][28][41][59] Xu hướng gần đây, nghiên cứu tập trung vào khai thác phân tích MXH MXH phát triển nhanh chóng cho phép cá nhân, tổ chức tương tác dễ dàng Chính MXH tạo nên không lệ thuộc vào không gian thời gian giao tiếp cá nhân cộng đồng Mỗi cá nhân MXH kết bạn trò chuyện với cá nhân khác MXH Một số MXH trực tuyến điển Facebook, LinkedIn, MySpace, Twitter Các MXH mang lại lượng lớn liệu thông điệp trao đổi cá nhân thông qua liên kết xã hội Có thể biểu diễn liệu cấu trúc đồ thị MXH nội dung liệu thông tin trao đổi thành viên MXH bao gồm liệu thơng điệp, liệu đa phương tiện, Đây nguồn liệu để phân tích MXH tìm thơng tin, tri thức ẩn chứa đựng liệu MXH Thông điệp cá nhân trao đổi MXH, diễn đàn hay hệ thống e-mail có pha trộn nhiều chủ đề Chủ đề thông điệp cá nhân quan tâm trao đổi chia sẻ tạo nên lan truyền thông tin từ cá nhân đến cá nhân khác hình thành cộng đồng MXH quan tâm đến chủ đề Khai thác chủ đề quan tâm cá nhân phân tích mối liên kết xã hội cá nhân qua thông điệp, liệu trao đổi công việc nhiều thách thức, đặc biệt chủ đề thường xuyên thay đổi theo thời gian chủ đề trao đổi thường xuyên, liên tục khoảng thời gian Bên cạnh đó, chủ đề thơng điệp thảo luận khác tuỳ theo sở thích, hành vi, mức độ quan tâm, trao đổi cá nhân theo giai đoạn thời gian Khám phá chủ đề quan tâm phân tích vai trị cá nhân MXH thách thức đặt cho toán với mục tiêu trả lời câu hỏi “cá nhân trao đổi chủ đề MXH theo thời gian?”, “mức độ quan tâm cá nhân đến chủ đề cụ thể nào?”, “có cá nhân quan tâm đến chủ đề?”, “chủ đề quan tâm nhiều nhất?” “có thay đổi quan tâm đến chủ đề cá nhân theo giai đoạn thời gian?” Bên cạnh việc khám phá vai trò cá nhân MXH, thách thức khác đặt phân tích MXH để khám phá nhóm cá nhân (cộng đồng) quan tâm chủ đề theo giai đoạn thời gian Khám phá nhóm cá nhân hay khám phá cộng đồng cách để nhận biết nhóm cá nhân có mối liên kết xã hội với MXH chủ đề quan tâm, đồng thời giúp hiểu quan tâm cá nhân cộng đồng MXH theo chủ đề cụ thể Những thay đổi xảy cộng đồng thường liên quan đến đặc trưng cộng đồng như: chủ đề quan tâm, số cá nhân tham gia cộng đồng, mức độ quan tâm chủ đề cộng đồng thời điểm khác nhau, thay đổi chủ đề quan tâm cộng đồng dẫn đến thay đổi hành vi, quan tâm trao đổi chủ đề cá nhân cộng đồng Vấn đề đặt làm để khám phá cộng đồng cá nhân quan tâm đến hay nhóm chủ đề thơng qua nội dung thông điệp trao đổi tập cá nhân MXH? Với hay nhóm chủ đề cụ thể có cộng đồng MXH quan tâm trao đổi? Sự biến thiên chủ đề quan tâm cá nhân tham gia cộng đồng? Tìm giải pháp cho câu hỏi rõ ràng việc không đơn giản kết nghiên cứu giúp cho việc phân tích khám phá chủ đề cá nhân quan tâm hay tìm cá nhân có ảnh hưởng cộng đồng để phục vụ cho chiến lược phát triển quản lý cộng đồng cá nhân công ty, tổ chức hay quốc gia; hiểu cá nhân để thực chiến lược tiếp thị hiệu quả, phát triển loại hình đào tạo trực tuyến trường đại học, Mục tiêu nghiên cứu Từ động nghiên cứu trên, luận án xây dựng hai mục tiêu nhiệm vụ nghiên cứu cụ thể Trong đó, luận án xây dựng mơ hình phương pháp phân tích MXH dựa theo mơ hình chủ đề (Topic model) để khám phá chủ đề quan tâm, vai trò cá nhân cộng đồng MXH theo giai đoạn thời gian Cụ thể hai mục tiêu sau: (i) Xây dựng mơ hình khám phá gán nhãn chủ đề quan tâm cá nhân MXH dựa theo mô hình chủ đề có yếu tố thời gian phân tích biến thiên chủ đề quan tâm cá nhân Nhiệm vụ nghiên cứu mục tiêu (i) bao gồm: Xây dựng phương pháp gán nhãn chủ đề quan tâm cá nhân theo thời gian dựa phân cấp chủ đề (Topic Taxonomy) - Xây dựng mô hình TART dựa theo mơ hình chủ đề để khám phá chủ đề quan tâm phân tích vai trị cá nhân MXH chủ đề quan tâm cụ thể theo giai đoạn thời gian (ii) Xây dựng phương pháp khám phá cộng đồng (gom cụm cá nhân có đặc trưng: chủ đề, mức độ thời gian quan tâm chủ đề) MXH dựa - theo mơ hình chủ đề có yếu tố thời gian phân tích biến thiên đặc trưng cộng đồng MXH Nhiệm vụ nghiên cứu mục tiêu (ii) bao gồm: - Xây dựng phương pháp khám phá cộng đồng MXH có chủ đề quan tâm theo giai đoạn thời gian Xây dựng phương pháp khảo sát biến thiên đặc trưng cộng đồng Trong đó, luận án tập trung vào hai đặc trưng chủ đề quan tâm cá nhân tham gia cộng đồng Các đối tượng trọng tâm nghiên cứu luận án: - - Mơ hình chủ đề LDA Các phương pháp, mơ hình phân tích MXH dựa theo mơ hình chủ đề Các liên kết xã hội: chủ đề thông điệp cá nhân trao đổi MXH Vai trò (cá nhân cộng đồng): cá nhân người gửi, người nhận, chủ đề cộng đồng nhóm cá nhân có quan tâm trao đổi chủ đề Thời gian cá nhân quan tâm đến chủ đề thông qua liên kết xã hội thông điệp Từ hai mục tiêu nhiệm vụ nghiên cứu, hai tốn đặt phạm vi luận án, bao gồm: Bài toán Khám phá chủ đề quan tâm cá nhân dựa theo mơ hình chủ đề có yếu tố thời gian Xây dựng mơ hình TART dựa theo mơ hình chủ đề để khám phá chủ đề quan tâm phân tích vai trị cá nhân MXH theo giai đoạn thời gian xây dựng phương pháp gán nhãn chủ đề ẩn dựa phân cấp chủ đề [CB02][CB03][CB04][CB05] [CB09] Bài toán chia làm hai toán nhỏ: (i) Bài toán 1.1 Khám phá gán nhãn chủ đề ẩn từ thơng điện MXH; (ii) Bài tốn 1.2 Khám phá chủ đề quan tâm cá nhân MXH có yếu tố thời gian Nội dung thực toán 1.1 bao gồm: - Nghiên cứu cho trường hợp liệu thông điệp tiếng Việt MXH Thông điệp MXH chứa đựng nhiều từ viết tắt, từ không rõ nghĩa, ký hiệu Trước phân tích thơng điệp, luận án phải tiến hành tiền xử lý liệu cách lọc từ dừng (stopwords) hệ thống từ - viết tắt ký hiệu ánh xạ sang từ rõ nghĩa, từ hiểu nội dung thơng điệp để phân tích Các nghiên cứu truyền thống xem thơng điệp thuộc chủ đề Tuy nhiên, theo tiếp cận mơ hình chủ đề, thơng điệp ẩn nhiều chủ đề chủ đề đặc trưng tập từ đồng (cùng xuất hiện) thông điệp Như vậy, vấn đề đặt làm để khám phá chủ đề ẩn thông điệp? - Chủ đề ẩn khám phá từ thông điệp chưa gán nhãn (tên chủ đề) Như vậy, để gán nhãn rõ chủ đề trao đổi, toán 1.1 xây dựng phương pháp xây dựng phân cấp chủ đề phương pháp học máy SVM để gán nhãn chủ đề Bài toán 1.1 trình bày chi tiết chương Nội dung thực Bài toán 1.2 bao gồm: - Xây dựng mơ hình Khám phá chủ đề, phân tích mức độ quan tâm chủ đề cá nhân - Phân tích vai trị cá nhân quan tâm chủ đề MXH theo giai đoạn thời gian - Dùng yếu tố thời gian để chia nhỏ yếu tố mơ hình ART tập cá nhân gửi, tập cá nhân nhận, tập chủ đề tìm thay đổi chủ đề quan tâm cá nhân tập thông điệp theo khoảng thời gian so với chủ đề quan tâm kho ngữ liệu thông điệp - Khảo sát biến thiên chủ đề quan tâm cá nhân để giai đoạn thời gian cá nhân quan tâm đến chủ đề Tìm chủ đề cá nhân quan tâm nhiều MXH Bài toán 1.2 trình bày chi tiết chương Bài tốn Khám phá chủ đề quan tâm cộng đồng dựa theo mơ hình chủ đề có yếu tố thời gian Xây dựng phương pháp khám phá cộng đồng MXH có chủ đề quan tâm theo giai đoạn thời gian phương pháp khảo sát biến thiên đặc trưng cộng đồng [CB01][CB06][CB10] Nội dung thực toán bao gồm: - Một cộng đồng quan tâm nhiều chủ đề chủ đề có nhiều cộng đồng quan tâm Theo tính chất MXH, nhiều người trao đổi với nhiều người khác hay số chủ đề mà không chịu giới hạn không gian thời gian Mục tiêu tìm đặc trưng cộng đồng bao gồm: chủ đề quan tâm, số cá nhân mức độ quan tâm đến chủ đề cụ thể Các đặc trưng cộng đồng thay đổi theo giai đoạn thời gian Vì vậy, khảo sát biến thiên đặc trưng chủ đề như: số lượng chủ đề quan tâm, số cá nhân tham gia cộng đồng thời gian để tìm xu quan tâm chủ đề cá nhân cộng đồng MXH - Trực quan hoá kết khám phá cộng đồng vấn đề xem xét tốn - Xây dựng phương pháp phân tích biến thiên đặc trưng cộng đồng Bài toán trình bày chi tiết chương - Sơ đồ nghiên cứu tổng thể luận án M2 Khám phá chủ đề tiềm ẩn thông điệp dựa theo mơ hình chủ đề (mơ hình LDA) M1 Tiền xử lý liệu (lọc liệu, tách từ gán nhãn từ loại) Th u thập Thông tin cá nhân Kho liệu mạng xã hội (thông điệp thông tin cá nhân) Kho tập ngữ liệu thông điệp qua bước tiền xử lý Tập liệu huấn luyện để gán nhãn Tập vector chủ đề quan tâm cá nhân theo thời gian M6 Khảo sát biến thiên đặc trưng cộng đồng M3 Thực phương pháp gán nhãn cho chủ đề tiềm ẩn (mơ hình LDA + phân cấp chủ đề + phương pháp SVM) Tập chủ đề có nhãn M4 Khám phá vai trò gửi nhận cá nhân chủ đề quan tâm theo thời gian (mô hình TART) M5 : Khám phá cộng đồng cá nhân MXH dựa theo mơ hình chủ đề (TART) kết hợp mạng nơ ron Kohonen Khảo sát biến thiên chủ đề quan tâm cá nhân Hình Sơ đồ nghiên cứu tổng thể luận án - Hình trình bày quy trình nghiên cứu luận án Sơ đồ chia làm mơđun Đóng góp luận án Áp dụng mơ hình chủ đề vào phân tích MXH để khám phá chủ đề từ nội dung thông điệp MXH Kết thể công bố [CB07][CB08][CB09] Luận án xây dựng phương pháp kết hợp khám phá chủ đề từ mối liên kết xã hội thông điệp cá nhân trao đổi MXH gán nhãn chủ đề dựa phân cấp chủ đề Phương pháp làm tảng cho nghiên cứu việc khám phá chủ đề, phân tích nội dung gán nhãn chủ đề nhằm tìm tri thức - - từ mối liên kết xã hội Kết thể công bố [CB03][CB04] Xây dựng mơ hình TART để khám phá vai trị cá nhân quan tâm chủ đề dựa theo mô hình chủ đề có yếu tố thời gian Mơ hình đóng vai trị quan trọng việc tìm liên kết xã hội cá nhân MXH dựa theo mơ hình chủ đề thơng qua việc phân tích chủ đề thơng điệp Kết thể công bố [CB02][CB05] Xây dựng phương pháp khám phá cộng đồng cá nhân dựa theo mô hình chủ đề Phương pháp khám phá cộng đồng kết hợp mơ hình TART phương pháp mạng nơron Kohonen để khám phá cộng đồng cá nhân có chủ đề quan tâm Xây dựng phương pháp phân tích biến thiên đặc trưng cộng đồng MXH theo giai đoạn thời gian Kết thể công bố [CB01][CB06][CB10] - Để tiến hành thử nghiệm, luận án xây dựng hệ thống phần mềm phân tích MXH thực đầy đủ mô-đun sơ đồ nghiên cứu tổng thể luận án (hình phần tổng quan) từ mô-đun thu thập, tiền xử lý liệu, thực nghiệm khám phá gán nhãn chủ đề ẩn, thực nghiệm mơ hình TART phương pháp khám phá cộng đồng Bố cục luận án Luận án cấu trúc thành chương sau: Giới thiệu tổng quan luận án; Chương trình bày phân tích MXH nghiên cứu liên quan, nhận định chung động lực nghiên cứu; Chương trình bày chi tiết mơ hình LDA, kỹ thuật lấy mẫu Gibbs cho mơ hình LDA, đề xuất phương pháp gán nhãn chủ đề; Chương trình bày việc phát triển mơ hình khám phá chủ đề quan tâm, phân tích vai trị cá nhân MXH có yếu tố thời gian (Temporal ART TART) đề xuất phương pháp phân tích biến thiên chủ đề quan tâm cá nhân MXH; Chương trình bày chi tiết đề xuất phương pháp khám phá cộng đồng dựa mơ hình chủ đề có yếu tố thời gian Trong đó, luận án khai thác mơ hình TART kết hợp với mạng nơron Kohonen để đề xuất phương pháp gom cụm cá nhân (khám phá cộng đồng) dựa đặc trưng cá nhân MXH chủ đề quan tâm, xác suất thời gian quan tâm; Tiếp theo phần kết luận, đóng góp luận án hướng phát triển phần cuối phụ lục CHƯƠNG PHÂN TÍCH MẠNG XÃ HỘI VÀ CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Giới thiệu chương Mục tiêu phân tích MXH khám phá thông tin tri thức ẩn từ liên kết xã hội cá nhân, cộng đồng Phân tích MXH giúp nhà nghiên cứu, nhà quản lý hiểu rõ mối quan hệ đối tượng, khám phá tri thức tìm đặc trưng, hành vi nguy MXH từ liên kết xã hội để phục vụ cho công tác nghiên cứu quản lý Ban đầu, phương pháp phân tích MXH thường tập trung vào việc tìm hiểu tương tác cá nhân MXH mà chưa quan tâm tới nội dung thông tin chia sẻ Tuy nhiên, nhu cầu thực tế mà việc phân tích MXH theo hướng nội dung ngày nhiều nghiên cứu quan tâm Phân tích MXH để hiểu nội dung thơng điệp trao đổi MXH cá nhân, xác định cộng đồng MXH, phân tích lan truyền thông tin MXH, ứng dụng MXH đồng tác giả để phân tích tìm lĩnh vực nghiên cứu nhà khoa học đăng tải báo khoa học tìm kiếm chủ đề yêu thích, khai thác thái độ, suy nghĩ hành vi cá nhân thông qua nội dung thảo luận MXH, ứng dụng phân tích vấn đề trị MXH quân đội, phân tích vấn đề hạt nhân 1.2 Khái niệm mạng xã hội MXH cấu trúc xã hội người, có liên hệ trực tiếp hay gián tiếp với thông qua liên kết xã hội thông qua việc quan tâm vấn đề xã hội Theo Stanley Wasserman Katherine Faust, 1994, MXH phản ánh mối quan hệ cá nhân xã hội giới thực vào máy tính được biểu diễn dạng đồ thị MXH mơ hình hóa đồ thị G = (V,E) với V tập cá nhân (actor), E tập liên kết xã hội (social link) cá nhân: - Mỗi cá nhân v  V có đặc trưng, vai trị giống hay khác - Mỗi liên kết e  E có loại liên kết khác như: liên kết trao đổi thơng tin, kết bạn, thích, chia sẻ,… - MXH cung cấp liệu với lượng lớn thông qua liên kết xã hội - MXH ứng dụng nhiều lĩnh vực kinh tế, giáo dục, trị, xã hội,… Trong MXH, cá nhân liên thông qua liên kết xã hội hay gọi liên kết xã hội Liên kết xã hội chia làm hai loại: liên kết xã hội trực tiếp liên kết xã hội gián tiếp Liên kết xã hội trực tiếp thông qua việc kết bạn trực tiếp hay gửi nhận thơng điệp trực tiếp Hình 1.1 biểu diễn mơ hình MXH Hình 1.1 Mơ hình MXH Đối với liên kết xã hội gián tiếp thông qua trung gian hay nhiều bạn để kết bạn Để xây dựng mối quan hệ cá nhân MXH cụ thể, trước tiên cần phải có phương pháp biểu diễn liệu phù hợp Trong thực tế, biểu diễn MXH thường biểu diễn dạng đồ thị, phương pháp có ưu điểm biểu diễn dạng hình thái MXH 1.3 Phương pháp phân tích mạng xã hội 1.3.1 Khái niệm phân tích mạng xã hội Phân tích MXH (Social Network Analysis - SNA) phương pháp phân tích liên kết xã hội người với người hay người tổ chức Quay trở lại nghiên cứu trước đây, SNA thực phương pháp lý thuyết đồ thị ứng dụng nhiều lĩnh vực phân tích tâm lý tổ chức, xã hội học nhân học SNA tập trung vào bốn mục tiêu: (i) trực quan hoá giao tiếp mối quan hệ khác người với người hay người với tổ chức biểu đồ; (ii) nghiên cứu yếu tố ảnh hưởng đến mối quan hệ tuổi tác, tảng đào tạo liên quan, ) nghiên cứu mối tương quan mối quan hệ Điều thực kỹ thuật thống kê truyền thống phân tích mối tương quan, phương sai, phân tích yếu tố; (iii) rút trích thơng tin khám phá tri thức liệu thông điệp ; (iv) mục tiêu thứ tư SNA tạo khuyến nghị để cải thiện giao tiếp người quy trình làm việc tổ chức 1.3.2 Phân tích MXH theo hướng phân tích nội dung 1.3.3 Phân tích MXH dựa theo mơ hình chủ đề 1.3.3.1 Khái niệm chủ đề (topic) Một số thuật ngữ khái niệm liên quan đến mơ hình chủ đề: 2.5.2.1 Khái niệm phân cấp chủ đề Cây phân cấp chủ đề (Topic Taxonomy) cấu trúc phân cấp thực thể (các lớp hay chủ đề) Các lớp xếp dựa loại quan hệ chacon khơng có ràng buộc thuộc tính cấp cấu trúc phân cấp Mục đích phân cấp chủ đề dùng phân lớp tri thức 2.5.2.2 Quy trình xây dựng phân cấp chủ đề 2.5.3 Thử nghiệm phương pháp gán nhãn đánh giá kết Bảng 2.8 Trình bày chủ đề gán nhãn (4 vector chủ đề) dựa phân cấp chủ đề Cấp Chủ đề 1: Hoạt động đồn hội Từ Xác suất cơng_tác 0.01197 đại_học 0.01051 tuổi 0.01051 trường 0.00903 năm_học 0.00860 học 0.00827 sinh_viên 0.00631 chuyên 0.00616 đoàn 0.00614 hoạt_động 0.00579 trẻ 0.00543 tình_nguyện 0.00524 tham_gia 0.00510 phong_trào 0.00417 đồn_viên 0.00373 Cấp Cấp Chủ đề 2: Câu lạc Xác Từ suất đại_học 0.01306 học_thuật 0.01259 tham_gia 0.01053 nghiên_cứu 0.00969 thể_thao 0.00928 sinh_viên 0.00905 tinh_thần 0.00818 kỹ_năng 0.00740 đại_học 0.00644 bóng_đá 0.00633 giao_tiếp 0.00581 thi 0.00482 ngoại_ngữ 0.00419 chương 0.00419 hoạt_động 0.00414 Cấp Chủ đề 3: Hội sinh viên Chủ đề 4: Đoàn niên Xác Từ Từ Xác suất suất hội 0.01339 tình 0.02464 xã_hội 0.01292 hoạt_động 0.02261 tư_tưởng 0.01194 người 0.02002 phòng 0.01072 thanh_niên 0.01712 olympic 0.01069 sinh_viên 0.01459 cờ 0.01046 đại_hội 0.01346 hội_thi 0.01003 học_sinh 0.01313 chung_kết 0.00844 cống_hiến 0.01274 thời_đại 0.00773 chương_trình 0.01188 kỹ_năng 0.00752 kỹ_năng 0.01172 sinh_viên 0.00725 đoàn 0.01165 liên 0.00722 trưởng_thành 0.01122 thành_tích 0.00614 0.01025 bản_lĩnh 0.00559 nguyện 0.00772 về_nguồn 0.00515 chiến_dịch 0.00767 Về đánh giá kết quả: luận án áp dụng hệ số Precision, Recall, độ đo F (Fmeasure) để đánh giá kết gán nhãn chủ đề ẩn 2.6 Kết luận chương Trong chương 2, luận án xây dựng mơ hình khám phá, phân lớp để gán nhãn chủ đề lĩnh vực phân tích MXH rút trích thơng tin dựa theo mơ hình chủ đề thử nghiệm kho ngữ liệu thông điệp tiếng Việt thu thập từ diễn đàn, Đóng góp chương 2: (1) xây dựng phân cấp chủ đề gồm tập khái niệm trường đại học tập từ đặc trưng cho chủ đề phân cấp chủ đề, (2) áp dụng mơ hình chủ đề LDA để khám phá chủ đề ẩn từ tập thông điệp MXH, (3) dùng phương pháp học máy SVM dựa tập liệu huấn luyện phân cấp chủ đề để phân lớp thông điệp gán nhãn chủ đề ẩn Mơ hình cho kết tốt, mơ hình phương pháp thực chương tích hợp hệ thống phần mềm SNA luận án xây dựng để tự động làm liệu, tự động khám phá gán nhãn chủ đề ẩn với độ xác cao 18 CHƯƠNG KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CÁ NHÂN DỰA THEO MƠ HÌNH CHỦ ĐỀ 3.1 Giới thiệu chương Trong chương này, luận án trình bày mơ hình khám phá chủ đề quan tâm cá nhân có yếu tố thời gian, phân tích ưu điểm hạn chế mơ hình Dựa sở đó, luận án đề xuất phát triển mơ hình khám phá chủ đề quan tâm phân tích vai trò cá nhân quan tâm đến chủ đề có yếu tố thời gian dựa theo mơ hình chủ đề, gọi mơ hình TART hay mơ hình Thời gian-Tác giả-Người nhận-Chủ đề Kết chương thể cơng bố [CB05] xây dựng mơ hình TART dựa theo mơ hình chủ đề nhằm phân tích chủ đề quan tâm vai trị cá nhân có yếu tố thời gian, khai thác mơ hình TART để khám phá cộng đồng [CB01] khám phá chủ đề cá nhân quan tâm nhiều MXH thể [CB02] 3.2 Khám phá chủ đề quan tâm cá nhân MXH theo thời gian 3.2.1 Khái niệm chủ đề quan tâm cá nhân theo thời gian 3.2.2 Bài toán khám phá chủ đề quan tâm cá nhân MXH có yếu tố thời gian Cho: MXH G = , V tập cá nhân E tập liên kết xã hội cá nhân Gọi 𝒟 tập thông điệp cá nhân trao đổi MXH, Z chủ đề quan tâm cá nhân trao đổi thông điệp thông qua liên kết xã hội, K số lượng chủ đề , thời gian mà cá nhân trao đổi thông điệp Tìm: (i) Vector chủ đề quan tâm cá nhân < f(vi1), f(vi2),…, f(vik) > theo giai đoạn thời gian, thành phần f(vik) phản ánh xác suất quan tâm chủ đề Zk actor vj thông điệp d Mỗi giai đoạn thời gian Ti, actor vi có xác suất quan tâm chủ đề Zk khác Ta có, thành phần f(vik) actor vector < f(vi1) ,f(vi2) ,…, f(vik)> khác Nghĩa ta phải tìm phân bố xác suất: phân bố Z (chủ đề) x W (từ): ∅zw, phân bố A (tác giả) x Z (chủ đề): ϴaz, phân bố R (cá nhân nhận) x Z (chủ đề): ϴrz, phân bố Z (chủ đề) x T (thời gian): 𝜓𝑧𝑡 (ii) Sự biến thiên chủ đề quan tâm cá nhân theo thời gian 3.3 Mơ hình khám phá chủ đề quan tâm cá nhân theo thời gian 3.3.1 Xây dựng mơ hình TART Mơ hình TART (Temporal-Author-Recipient-Topic) [CB05] hình 3.1 xây dựng dựa theo mơ hình LDA ART, mơ hình TART giải hạn chế tồn trình bày phần 1.6 19 Nhiệm vụ mơ hình TART (hình 3.1): o Khám phá chủ đề quan tâm cá nhân MXH có yếu tố thời gian Nghĩa tìm tập actor vector có yếu tố thời gian o Phân tích vai trị cá nhân tham gia mạng xã hội dựa theo mơ hình chủ đề có yếu tố thời gian o Dùng yếu tố thời gian để chia nhỏ yếu tố mơ hình ART tập cá nhân gửi, tập cá nhân nhận, tập chủ đề tìm thay đổi chủ đề quan tâm cá nhân tập thông điệp theo khoảng thời gian o Khảo sát biến thiên chủ đề quan tâm cá nhân Hình 3.1 Mơ hình TART khám phá chủ đề quan tâm cá nhân theo thời gian 3.3.2 Phân bố xác suất liên hợp cho mơ hình TART Theo mơ hình TART trình bày hình 3.1, cho trước tham số Dirichlet 𝛼, 𝛽, 𝛾, cá nhân gửi Ad tập cá nhân nhận Rd thơng điệp d, ta có phân bố xác suất liện hợp thông điệp – chủ đề 𝜃𝑖𝑗 cho cặp cá nhân gửi – cá nhân nhận (i, j), chủ đề - từ ∅𝑧 cho chủ đề z, tập cá nhận nhận R, tập chủ đề z tập từ w thông điệp d cho công thức (3.1) Xét thông điệp d, ta có cơng thức phân bố xác suất liên hợp không gian d nhiều chiều, chiều gồm: cá nhân gửi, tập cá nhân nhận, yếu tố thời gian, tập chủ đề tập từ đặc trưng: 𝑃(𝑤, 𝑇, 𝑧, 𝑅𝑑 |𝐴𝑑 , 𝑅, 𝛼, 𝛽, 𝛾) = 𝑃(𝑅𝑑 |𝑅) 𝑃(𝑧|𝐴𝑑 , 𝑅𝑑 , 𝛼) 𝑃(𝑤|𝑧, 𝛽) 𝑃(𝑇, 𝜓|𝑧, 𝛾) 𝑅𝑑 (3.1) 𝑁𝑑 = ∏ ∏[𝑃(𝑟𝑢 |𝑅) 𝑃(𝑧|𝐴𝑑 , 𝑟𝑢 , 𝛼) 𝑃(𝑤|𝑧, 𝛽) 𝑃(𝑇|𝑧, 𝛾)] 𝑢=1 𝑛=1 Trong đó, T thời gian mà chủ đề z quan tâm trao đổi cặp cá nhân gửi 𝐴𝑑 hay a – cá nhân nhận ru, 𝑁𝑑 số từ thông điệp d, 𝑟𝑢 tập cá nhân nhận thông điệp d, với 𝑟𝑢 ∈ 𝑅𝑑 Do giá trị 𝜃, ∅, 𝜓 dựa tham số Dirichlet tương ứng 𝛼, 𝛽, 𝛾 Các tham số Dirichlet khơng phụ thuộc ta phân rã cơng thức (3.1) để tính tích phân phần theo 20 𝜃 phụ thuộc vào 𝛼, ∅ phụ thuộc 𝛽 𝜓 phụ thuộc vào 𝛾 Từ đó, ta có tích phân phân rã (i), (ii) (iii) sau: (i) Tích phân theo 𝜃 để tìm phân bố chủ đề z theo cá nhân gửi Ad cá nhân nhận Rd dựa tham số 𝛼: 𝐴 𝐴 𝑃(𝑧|𝐴𝑑 , 𝑟𝑢 , 𝛼) = ∫ 𝑃(𝜃|𝛼)𝑃(𝑧|𝜃, 𝐴𝑑 , 𝑟𝑢 )𝑑𝜃 = ∫ ∏ ∏[𝑃(𝜃𝑖𝑗 |𝛼) 𝑃(𝑧|𝜃𝑖𝑗 )] 𝑑𝜃 𝐴 𝐴 (3.2) 𝑖=1 𝑗=1 𝐾 = ∫ ∏ ∏ [𝑃(𝜃𝑖𝑗 |𝛼) ∏ 𝑃(𝑧𝑡 |𝜃𝑖𝑗 )] 𝑑𝜃 𝑖=1 𝑗=1 𝐴 𝐴 𝑡=1 𝐴 𝐴 𝐾 = ∫ ∏ ∏ 𝑃(𝜃𝑖𝑗 |𝛼) ∏ ∏ ∏ 𝜃𝑖𝑗𝑡 𝑑𝜃 𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑡=1 (ii) Tính tích phân theo ∅ để tìm phân bố hậu nghiệm từ w theo chủ đề z dựa tham số 𝛽: 𝐾 (3.3) 𝑃(𝑤|𝑧, 𝛽) = ∫ 𝑃(∅|𝛽) 𝑃(𝑤|∅, 𝑧)𝑑∅ = ∫ ∏[𝑃(∅𝑡 |𝛽) 𝑃(𝑤|∅𝑡 )] 𝑑∅ 𝐾 𝑡=1 𝐾 𝑉 𝑉 𝐾 = ∫ ∏ [𝑃(∅𝑡 |𝛽) ∏ 𝑃(𝑤𝑣 |∅𝑡 )] 𝑑∅ = ∫ ∏ 𝑃(∅𝑡 |𝛽) ∏ ∏ ∅𝑡𝑣 𝑑∅ 𝑡=1 𝑣=1 𝑡=1 𝑡=1 𝑣=1 Trong đó, K số lượng chủ đề thông điệp d, ∅𝑡𝑣 ∈ ∅ thành phần vector chủ đề thứ t gán cho từ w thứ v (iii) Và tích phân theo 𝜓 để tìm phân bố hậu nghiệm thời gian T theo chủ đề z dựa tham số 𝛾: (3.4) 𝑃(𝑇|𝑍, 𝛾) = ∫ 𝑃(𝜓|𝛾) 𝑃(𝑇|𝜓, 𝑍)𝑑𝜓 𝐾 = ∫ ∏[𝑃(𝜓𝑡 |𝛾)𝑃(𝑇|𝜓𝑡 )] 𝑡=1 𝐾 𝑇 𝑇 𝐾 𝑇 = ∫ ∏ [𝑃(𝜓𝑡 |𝛾) ∏ 𝑃(𝑇𝑦 |𝜓𝑡 )] 𝑑𝜓 = ∫ ∏ 𝑃(𝜓𝑡 |𝛾) ∏ ∏ 𝜓𝑡𝑦 𝑑𝜓 𝑡=1 𝑦=1 𝑡=1 𝑡=1 𝑦=1 3.3.3 Kỹ thuật lấy mẫu Gibbs cho mơ hình TART Mục đích kỹ thuật lấy mẫu Gibbs tính xấp xỉ phân bố điều kiện biểu thức 𝑃(𝑤, 𝑇, 𝑧, 𝑅𝑑 |𝐴𝑑 , 𝑅, 𝛼, 𝛽, 𝛾) công thức (3.9) Nghĩa cần đạt phân bố xác suất điều kiện chủ đề 𝑧𝑑𝑖 gán cho từ 𝑤𝑑𝑖 cho tất chủ đề khác, nghĩa tính Ρ(𝑧𝑑𝑖 |𝑧−𝑑𝑖 , 𝑤, Τ, 𝑅𝑑 , 𝐴𝑑 , 𝑅, 𝛼, 𝛽, 𝛾) theo công thức (3.10) Dựa theo luật chuỗi (chain rule) luật Bayes để tính Sau q trình lấy mẫu Gibbs cho mơ hình TART, đạt phân bố xác suất hậu nghiệm cho 𝜃, ∅ 𝜓 tính cơng thức (trong q trình thực mơ hình TART, hệ thống thực lưu lại ma trận để phân tích vai trị chủ đề quan tâm cá nhân theo thời gian, bao gồm: T (chủ đề) x W (từ), A (tác giả) x T (chủ đề), R (người nhận) x T (chủ đề) T (chủ đề) x T (thời gian) sau: 21  az   zt  n az   (3.14)  zw   z ( n az   ) n zt  t ( n zt  ) (3.16)  rz  m zw   (3.15)  w ( m zw   ) n rz   (3.17)  z ( n rz   ) Giải thuật 3.1 cho mơ hình TART dựa dựa mơ hình chủ đề: Giải thuật 3.1 Mơ hình TART [CB05] 10 11 12 13 14 15 16 17 18 Đầu vào: Mạng xã hội G = , V tập cá nhân E tập liên kết xã hội cá nhân thông điệp trao đổi cá nhân gửi nhận, thời gian cá nhân trao đổi thông điệp Đầu ra: Vector chủ đề quan tâm cá nhân theo giai đoạn thời gian, thành phần f3(vik) phản ánh xác suất quan tâm chủ đề Zk actor vi thông điệp d Nghĩa tìm ma trận: Z (chủ đề) x W (từ) ∅zw, A (cá nhân gửi) x Z (chủ đề) ϴaz, R (cá nhân nhận) x Z (chủ đề) ϴrz, Z (chủ đề) x T (thời gian) Ψzt Khởi tạo tham số đầu vào For each cá nhân gửi a =1, , Ad Rút ϴa từ phân bố Dirichlet (α); For each cá nhân nhận r = 1,…, Rd Rút ϴr từ phân bố Dirichlet (α); For each chủ đề z =1, , K thông điệp d; Rút ϴz từ phân bố Dirichlet (α); Rút ∅z từ phân bố Dirichlet (β); Rút Ψz từ phân bố Dirichlet (𝛾); For each từ w =1, , Nd thông điệp d Rút cá nhân gửi a từ tập cá nhân gửi Ad; Rút cá nhân nhận r từ tập cá nhân nhận Rd; Rút chủ đề z từ phân bố (ϴa) điều kiện a; Rút từ w từ phân bố (∅z) điều kiện z; Rút thời gian t tương ứng với chủ đề z từ phân bố (𝜓z) điều kiện t; Lấy mẫu Gibbs cho mô hình TART Độ phức tạp giải thuật tính tốn dựa bốn vịng lặp (xét thơng điệp): o Dòng 4: lặp theo Ad số người gửi chủ đề z thuộc thơng điệp d o Dịng 6: lặp theo Rd số người nhận chủ đề z thuộc thơng điệp d o Dịng 8: lặp theo số lượng chủ đề K thuộc thơng điệp d o Dịng 12: lặp theo Nd từ thông điệp d Tổng chi phí thời gian thực giải thuật cho mơ hình TART là: Ad*Rd*K*Nd Từ suy độ phức tạp giải thuật cho mơ hình TART là: O(Ad*Rd*K*Nd) Xét thông điệp Trong trường hợp, xét tồn tập ngữ liệu D bao gồm M thơng điệp, ta có độ phức tạp giải thuật cho mơ hình TART O(M*Ad*Rd*K*Nd) 3.4 Thử nghiệm mơ hình TART thảo luận kết 3.4.1 Mô tả liệu thử nghiệm 22 Số thông điệp Số thông điệp 721821 800000 600000 400000 200000 137405 132413 46 12711 2011 2012 2013 2014 50000 40000 30000 20000 10000 2015 40685 32040 17499 595 6744 2939 3240 3216 2008 2009 2010 2011 2012 2013 2014 2015 Năm Năm Hình 3.5 Lịch sử thông điệp đươc gửi nhận giai đoạn từ năm 2011 đến năm 2015 Hình 3.2 Lịch sử thông điệp gửi theo năm kho ngữ liệu thu thập 3.4.2 Thử nghiệm mơ hình TART liệu diễn đàn sinh viên MXH Bảng 3.5 Kết phân tích chủ đề phân cấp chủ đề tháng 08-2014 Cấp Chủ đề 1: Hoạt động đồn hội Từ cơng_tác Xác suất 0.01197 Cấp Cấp Chủ đề 2: Câu lạc đại_học 0.01051 Từ tuổi trường năm_học học sinh_viên chun đồn hoạt_động trẻ tình_nguyện tham_gia phong_trào đồn_viên 0.01051 0.00903 0.0086 0.00827 0.00631 0.00616 0.00614 0.00579 0.00543 0.00524 0.0051 0.00417 0.00373 đại_học học_thuật tham_gia nghiên_cứu thể_thao sinh_viên tinh_thần kỹ_năng đại_học bóng_đá giao_tiếp thi ngoại_ngữ Xác suất 0.01306 0.01259 0.01053 0.00969 0.00928 0.00905 0.00818 0.0074 0.00644 0.00633 0.00581 0.00482 0.00419 Chủ đề 3: Hội sinh viên Từ hội xã_hội tư_tưởng phòng olympic cờ hội_thi chung_kết thời_đại kỹ_năng sinh_viên liên thành_tích Xác suất 0.01339 0.01292 0.01194 0.01072 0.01069 0.01046 0.01003 0.00844 0.00773 0.00752 0.00725 0.00722 0.00614 Cấp Chủ đề 4: Đoàn niên Từ tình hoạt_động người thanh_niên sinh_viên đại_hội học_sinh cống_hiến chương_trình kỹ_năng đồn trưởng_thành chương 0.00419 bản_lĩnh 0.00559 nguyện hoạt_động 0.00414 về_nguồn 0.00515 chiến_dịch ID Cá nhấn gửi 97179 Xác suất 0.670330 97568 0.600000 71804 97126 74568 0.560976 0.471698 0.469388 ID Cá nhân nhận 97126 Xác suất 0.670330 79556 0.36000 72750 0.37931 69361 69660 0.33333 64374 0.36585 68925 77692 0.560976 81027 67317 76996 0.548387 0.538462 0.485714 ID Cá nhân nhận 72365 90191 72597 ID Cá nhân gửi 78686 79249 79096 71955 74183 Xác suất 0.53982 0.38777 0.37143 ID Cá nhân gửi 79554 71151 64325 Xác suất 0.44000 0.42222 0.40741 ID Cá nhân nhận 90018 73490 96166 0.31034 0.31212 73376 76427 Xác suất 0.68212 0.39683 0.39130 Xác suất 0.68212 0.48148 0.45946 0.36000 0.35484 ID Cá nhân gửi 67484 70824 68395 ID Cá nhân nhận 64595 72692 71138 64864 76590 Xác suất 0.02464 0.02261 0.02002 0.01712 0.01459 0.01346 0.01313 0.01274 0.01188 0.01172 0.01165 0.01122 0.01025 0.00772 0.00767 Xác suất 0.83740 0.77049 0.75439 0.75385 0.74545 Xác suất 0.84946 0.83133 0.79221 0.74545 0.73585 Bảng 3.5 trình bày vector chủ đề quan tâm tập cá nhân giới hạn cá nhân gửi cá nhân nhận xếp giảm dần chủ đề Mỗi vector bao gồm thành phần tập cá nhân quan tâm gửi nhận chủ đề hay cịn gọi vector chủ đề quan tâm 23 Xác suất quan tâm đến chủ đề 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10 Tháng 11 Tháng 12 Hình 3.9 Kết phân tích 15 chủ đề thời gian từ tháng 01 đến tháng 12 năm 2015 3.4.3 Thử nghiệm mơ hình TART liệu trang báo VnExpress.net 3.4.4 Khảo sát thay đổi chủ đề quan tâm cá nhân theo thời gian 3.4.5 Tổng hợp so sánh mơ hình TART với mơ hình LDA ART 3.4.5.1 So sánh tham số mơ hình (1) Mơ hình LDA (2) Mơ hình ART (3) Mơ hình TART Hình 3.15 So sánh mơ hình TART với mơ hình LDA mơ hình ART Bảng 3.9 trình bày chi tiết việc so sánh dựa phương pháp tiếp cận tham số xây dựng tích hợp mơ hình Trong đó, mơ hình TART luận án đề xuất Bảng 3.9 So sánh ba mơ hình TART, LDA ART Các phương pháp tiếp cận tham số mơ hình Mơ hình Phân tích MXH Mơ hình chủ đề Gán nhãn chủ đề Lấy mẫu Gibbs Mạng Bayes, phân bố XS hậu nghiệm Phân bố XS liên hợp Chủ đề Z từ W Cá nhân gửi chủ đề A Cá nhân nhận chủ đề R x x x x x ART x x x x x x x x TART x x x x x x x x LDA x 24 Yếu tố thời gian T x 3.5 Kết luận chương Trong chương 3, luận án tập trung nghiên cứu mục tiêu thứ khảo sát nhận định ưu điểm hạn chế mơ hình liên quan đến khám phá vai trị cá nhân quan tâm chủ đề MXH Từ đó, luận án xây dựng mơ hình TART Mơ hình TART độc lập với ngôn ngữ xây dựng dựa tích hợp yếu tố thời gian vào để khám phá vai trị cá nhân dựa theo mơ hình chủ đề Trong đó, luận án xây dựng công thức phân bố xác suất liên hợp áp dụng kỹ thuật lấy mẫu Gibbs cho mơ hình TART để tìm phân bố xác suất hậu nghiệm tham số: ∅zw, ϴaz, ϴrz 𝜓𝑧𝑡 CHƯƠNG KHÁM PHÁ CỘNG ĐỒNG DỰA THEO MƠ HÌNH CHỦ ĐỀ 4.1 Giới thiệu chương Chủ đề quan tâm cá nhân thường thay đổi dẫn đến chủ đề quan tâm cộng đồng thay đổi theo Chủ đề, mức độ thời gian quan tâm chủ đề với cá nhân tham gia cộng đồng đặc trưng cộng đồng Sự thay đổi đặc trưng cộng đồng thường phụ thuộc vào hai nguyên nhân chính: (i) thơng qua sở thích cá nhân mạng kết bạn với quan tâm đến chủ đề dựa nội dung thông điệp mà cá nhân quan tâm trao đổi; (ii) hình thành hay thay đổi từ nhóm bạn bè biết trước kết bạn mạng thông qua giới thiệu bạn bè kết bạn Thách thức đặt nghiên cứu cộng đồng quan tâm đến nhiều chủ đề chủ đề có nhiều cộng đồng quan tâm Bên cạnh đó, đặc trưng cộng đồng như: chủ đề quan tâm thành viên tham gia thường thay đổi theo thời gian Đây thách thức đặt cho việc phân tích biến thiên đặc trưng cộng đồng Kết chương thể công bố [CB10] phương pháp khám phá cụm cá nhân dựa đặc trưng vector chủ đề cá nhân, việc tìm kiếm cụm cá nhân công bố chưa quan tâm đến yếu tố thời gian; công bố [CB06] khám phá cộng đồng cá nhân theo thời gian; công bố [CB01] phân tích biến thiên cộng đồng MXH dựa đặc trưng cộng đồng cá nhân, chủ đề quan tâm mức độ mà cộng đồng quan tâm đến chủ đề giai đoạn thời gian 25 4.2 Khám phá cộng đồng mạng xã hội 4.2.1 Khái niệm cộng đồng mạng xã hội theo chủ đề Tập hợp cộng đồng mạng ký hiệu C cộng đồng xét ký hiệu c, ta có 𝑐 ∈ 𝐶 Định nghĩa 5.1: Cộng đồng [49] Cộng đồng tập thể sống làm việc môi trường Định nghĩa 5.2: Cộng đồng MXH [71] Cộng đồng MXH tập hợp cá nhân tương tác thông qua phương tiện truyền thông cụ thể, có khả vượt qua ranh giới địa lý trị để theo đuổi lợi ích hay mục tiêu chung Định nghĩa 5.3: Cộng đồng MXH theo chủ đề [CB01] Dựa theo mơ hình chủ đề, cộng đồng tập hợp cá nhân quan tâm đến chủ đề Mỗi cá nhân cộng đồng đặc trưng vector chủ đề quan tâm mức độ quan tâm đến chủ đề cộng đồng nhiều so với cộng đồng khác Cho c cộng đồng theo chủ đề, 𝑐 ∈ C, C tập hợp cộng đồng Cộng đồng phân hoạch với đặc tính cụm, ký hiệu C = {C1, C2, C3, C4, ,CK} với K số cộng đồng, cộng đồng Ci có tập vector chủ đề: (1) Rời nhau: Ci  Cj = Ø hai cộng đồng không quan tâm đến hay nhiều chủ đề cụ thể (hình 5.2) (2) Và hợp cộng đồng ⋃K i=1 Ci = C 4.3 Xây dựng phương pháp khám phá cộng đồng dựa theo mơ hình chủ đề 4.3.1 Ý tưởng khám phá cộng đồng 4.3.2 Phương pháp gom cụm vấn đề trực quan hóa liệu 4.3.3 Xây dựng phương pháp khám phá cộng đồng Phương pháp khám phá cộng đồng cá nhân MXH dựa theo mơ hình chủ đề để khám phá cộng đồng [CB1][CB6] với nhiệm vụ chính: (i) xây dựng phương pháp khám phá cộng đồng dựa theo mơ hình chủ đề có yếu tố thời gian Trong đó, thơng qua kết khảo sát, phân tích đánh giá mơ hình liên quan khám phá cộng đồng, luận án chọn phương pháp huấn luyện Kohonen; (ii) huấn luyện mạng nơron Kohonen kết hợp chuẩn hóa tập liệu đầu vào (kết từ mơ hình TART [CB05]) tập vector chủ đề quan tâm cá nhân theo thời gian i Chuẩn hoá vector nhập ii Khám phá cộng đồng sử dụng mạng nơron Kohonen 26 Dữ liệu đầu vào (Kết mơ hình TART – Trong đó, tâp trung khai thác tập vector người dùng quan tâm chủ đề theo thời gian) Hình 4.3 Phương pháp khám phá cộng đồng cá nhân theo chủ đề phân tích biến thiên chủ đề quan tâm cá nhân iii Phân tích biến thiên đặc trưng cộng đồng 4.3.4 Phát biểu toán khám phá chủ đề quan tâm cộng đồng MXH Cho: tập vector nhập (vector chủ đề quan tâm cá nhân) {vi} kết từ mơ hình TART Vector vi có m chiều, vi , m số lượng chủ đề quan tâm Tìm: danh sách cộng đồng cá nhân C = {C1, C2, C3, C4,…, CK} quan tâm đến tập chủ đề theo giai đoạn thời gian Với K số cộng đồng Phương pháp: áp dụng phương pháp mạng nơron Kohonen kết hợp mơ hình chủ đề theo thời gian TART [CB05] 4.4 Thử nghiệm phương pháp khám phá cộng đồng 4.4.1 Mơ tả liệu thử nghiệm 4.4.2 Chuẩn hố vector nhập 4.4.3 Thử nghiệm phương pháp khám phá cộng đồng Một kết hình 4.5, với nơron có màu sậm nhạt tương ứng với số lượng cá nhân nhiều hay tham gia vào cộng đồng Màu sắc nơron đậm đại diện cho số cá nhân cộng đồng nhiều nơron có màu nhạt cộng đồng khơng có cá nhân (nơron trống không tồn cộng đồng) 27 Hình 4.5 Trực quan hóa kết khám phá cộng đồng cá nhân tháng 01-2015 hiển thị trực quan lớp Kohonen Hình 4.6 Danh sách chủ đề xác suất quan tâm cộng đồng 35 lớp Kohonen Hình 4.7 Trực quan hóa kết cộng đồng 35 đặc trưng cộng đồng Hình 4.8 Trực quan hóa kết khám phá chủ đề cộng đồng quan tâm 4.4.4 Khảo sát biến thiên số cộng đồng dựa lớp Kohonen 4.5 Phân tích biến thiên đặc trưng cộng đồng theo thời gian 4.5.1 Sự biến thiên đặc trưng cộng đồng Sự biến thiên cá nhân tham gia cộng đồng c biết dựa tần suất thay đổi số cá nhân a cộng đồng Ký hiệu A(c, t, 𝑁𝑎 ) Trong c 𝜖 𝐶 cộng đồng, t thời gian 𝑁𝑎 số cá nhân tham gia cộng đồng c (hay nói cách khác 𝑁𝑎 số cá nhân cộng đồng c) theo khoảng thời gian t Cá nhân cộng đồng đặc trưng cho cộng đồng việc xác định thay đổi số cá nhân cộng đồng dựa vào sở Sự thay đổi thể qua khác thành phần hai tập số cá nhân cộng đồng thời điểm t – A(c, t-1, 𝑁𝑎 ) thời điểm t A(c, t, 𝑁𝑎 ) mà số cá nhân tham gia cộng đồng Để đo lường mức độ thay đổi (tính động) 28 số cá nhân a cộng đồng c thời điểm t, luận án đề xuất độ đo 𝜕𝜃 (𝑐, 𝑡 − 1, 𝑡, 𝑁𝑎 ) Độ đo tỉ lệ giữa: hiệu số (số cá nhân Na phần giao số cá nhân cộng đồng thời điểm t-1 với cá nhân cộng đồng thời điểm t) chia cho cá nhân đề Na, giá trị 𝜕𝜃 (𝑐, 𝑡 − 1, 𝑡, 𝑁𝑎 ) nằm khoảng [0,1]: 𝑁𝑎 − |𝐴(𝑐, 𝑡 − 1, 𝑁𝑎 ) ∩ 𝐴(𝑐, 𝑡, 𝑁𝑎 ) (4.6) 𝜕𝜃 (𝑐, 𝑡 − 1, 𝑡, 𝑁𝑎 ) = 𝑁𝑎 Trong đó, giá trị 𝝏𝜽 (𝒄, 𝒕 − 𝟏, 𝒕, 𝑵𝒂 ) ∈ [𝟎, 𝟏] 4.5.2 Phương pháp phân tích biến thiên đặc trưng cộng theo thời gian Cho: tập cộng đồng khám phá lớp Kohonen theo giai đoạn thời gian Tìm: biết thiên đặc trưng cộng đồng theo giai đoạn thời gian Phương pháp thực hiện: khảo sát liên hệ cụm lớp Kohonen Cụ thể, tốn tập trung phân tích biến thiên chủ đề quan tâm cộng đồng cá nhân MXH theo giai đoạn thời gian 4.5.3 Kết thử nghiệm 4.6 Đánh giá kết thử nghiệm phương pháp khám phá cộng đồng 4.6.1 Đánh giá kết thông qua khảo sát hệ số Precision, Recall F Áp dụng hệ số Precision, Recall độ đo F [66] để đánh giá kết gom cụm mạng nơron Kohonen Luận án so sánh kết gom cụm vector chủ đề quan tâm cá nhân theo phương pháp đề xuất tay (kết gom cụm tay dựa liệu thông điệp xây dựng sẵn chủ đề trang VnExpress.net) nhóm theo chủ đề cá nhân diễn đàn 4.6.2 Đánh giá kết thông qua so sánh với phương pháp gom cụm KMedoids Bên cạnh việc áp dụng hệ số Precision, Recall độ đo F để đánh giá kết thử nghiệm, luận án áp dụng giá trị RMSSTD (Root Mean Square Standard Deviation) giá trị RS (R-Squared) để so sánh kết phương pháp gom cụm đề xuất luận án giải thuật K-Medoids) Sau tính giá trị trung bình RMSSTD, phương pháp mạng nơron Kohonen cho kết RMSSTD thấp cho tất lựa chọn số cụm Điều cho thấy rằng, toán trên, phương pháp mạng nơron Kohonen cho có kết thực vượt trội so với giải thuật K-Medoids Bên cạnh đó, kết 29 cho thấy thuật toán dựa theo phương pháp mạng nơron Kohonen (SOM) mang lại giá trị RMSSTD thấp giá trị RS cao Bảng 4.8 Bảng kết giá trị trung bình Bảng 4.9 Bảng kết giá trị trung bình RS RMSSTD dựa thử nghiệm hai phương dựa thử nghiệnm hai phương pháp gom cụm pháp gom cụm Số cụm k Kohonen 0.69635 0.58297 0.52873 0.49807 0.47517 0.45634 0.44195 Số cụm k K-Medoids 0.75288 0.65064 0.59444 0.55666 0.52774 0.50502 0.48648 Kohonen 0.49659 0.63921 0.70391 0.74951 0.78086 0.8034 0.82022 K-Medoids 0.40112 0.55356 0.63431 0.68794 0.72456 0.75273 0.77574 4.7 Kết luận chương Trong chương 4, luận án tập trung khai thác mơ hình TART (được trình bày chương 4) kết hợp mạng nơron Kohonen Phương pháp gồm nhiệm vụ chính: (i) khám phá cộng đồng cá nhân quan tâm đến chủ đề gọi cộng đồng MXH theo chủ đề Phương pháp dựa mơ hình chủ đề TART mạng nơron Kohonen; (ii) phân tích biến thiên đặc trưng cộng đồng MXH Kết thử nghiệm tập vector chủ đề quan tâm cá nhân có yếu tố thời gian đánh giá độ đo Precision, Recall F, hai giá trị RMSSTD RS cho thấy phương pháp khám phá cộng đồng luận án xây dựng, giải yêu cầu đặt toán cho kết khả quan CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Những nội dung từ chương đến chương 4, luận án bám sát vào mục tiêu, nhiệm vụ toán nghiên cứu đặt ra, thử nghiệm mơ hình đề xuất liệu thu thập từ MXH, kết thử nghiệm thảo luận đánh giá cách cẩn thận Điều chứng tỏ kết đạt mặt khoa học thực tiễn luận án giúp xác định vấn đề cần nghiên cứu hướng phát triển luận án Các đóng góp luận án: (i) Đóng góp thứ nhất: Xây dựng phân cấp chủ đề phương pháp kết hợp khám phá chủ đề ẩn từ mối liên kết xã hội thông điệp cá nhân trao đổi MXH gán nhãn chủ đề dựa phân cấp chủ đề 30 (ii) Đóng góp thứ hai: Xây dựng mơ hình TART dựa theo mơ hình chủ đề để khám phá chủ đề quan tâm cá nhân có yếu tố thời gian phân tích vai trị cá nhân MXH Mơ hình TART độc lập với ngơn ngữ (iii) Đóng góp thứ ba: Xây dựng phương pháp khám phá cộng đồng cá nhân dựa theo mơ hình chủ đề có yếu tố thời gian phân tích biến thiên đặc trưng cộng đồng (iv) Đóng góp thứ tư: Luận án xây dựng hệ thống phần mềm phân tích MXH thực đầy đủ sáu mô-đun sơ đồ nghiên cứu tổng thể luận án (hình 2) Kết thực nghiệm cho thấy hướng ứng dụng nghiên cứu luận án khả khai thác hiệu phần mềm vào ứng dụng thực tế 5.2 Hạn chế hướng phát triển Kết nghiên cứu luận án tập trung vào việc giải toán khám phá chủ đề ẩn, phân tích chủ đề quan tâm cá nhân khám phá cộng đồng cá nhân dựa chủ đề khám phá từ liên kết xã hội thông điệp mà cá nhân trao đổi MXH Tuy nhiên, luận án hạn chế đặt hướng nghiên cứu tiếp theo: - Phân tích MXH liên kết xã hội khác như: thích (like), chia sẻ (share), đính kèm (tag),…Trên sở đó, luận án phát triển thử nghiệm mơ hình LDA với liệu lớn (Big data) - Phân tích ảnh hưởng lan truyền chủ đề MXH Mục tiêu phân tích ảnh hưởng lan truyền thơng điệp MXH nhằm xác định “đường đi” tìm nguồn gốc thông tin - Xây dựng hệ thống khoảng thời gian (có tính chất overlap) để phân tích trực tuyến MXH - Nghiên cứu thử nghiệm mơ hình đề xuất tập ngữ liệu với thông điệp ngắn (short message) Bên cạnh đó, luận án tiếp tục nghiên cứu ứng dụng kết luận án lĩnh vực khác như: - Tìm kiếm chuyên gia - Phân tích hành vi khách hàng 31 DANH MỤC CÁC CƠNG BỐ CHÍNH [CB01] Thanh Ho and Phuc Do (2015), Analyzing the Changes in Online Community based on Topic Model and Self-Organizing Map, International Journal of Advanced Computer Science and Applications (IJACSA), 6(7), 2015, pp 100-108, ISSN: 2158107X, DOI: 10.14569/IJACSA.2015.060715, ESCI, Thomson Reuters, 2015 [CB02] Thanh Ho, Duy Doan, Phuc Do (2014), Discovering Hot Topics On Social Network Based On Improving The Aging Theory, Advances in Computer Science: an International Journal Volume 3, Issue 3, pp 48-53, ISSN: 2322-5157, 2015 [CB03] Hồ Trung Thành, Đỗ Phúc (2014), Ontology tiếng Việt lĩnh vực giáo dục đại học, Tạp chí Khoa học Cơng nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam, Tập 52, số 1B, pp 89-100, ISSN: 0866-708x, 2014 [CB04] Hồ Trung Thành, Đỗ Phúc (2014), Mơ hình tích hợp khám phá gán nhãn chủ đề tiếp cận theo mơ hình chủ đề, Tạp chí Phát triển Khoa học Cơng nghệ ĐHQGHCM, số K4, tập 17, pp 73-85, ISSN: 1859-0128, 2014 [CB05] Thanh Ho, Phuc Do (2014), Analyzing Users’ Interests with the Temporal Factor Based on Topic Modeling, ACIIDS 03-2015, Indonesia, Springer, pp 106-115, ISSN: 0302-9743, ISBN: 978-3-319-15704-7, DOI: 10.1007/978-3-319-15705-4_11, Scopus, 2015 [CB06] Thanh Ho, Phuc Do (2015), Discovering Communities of Users on Social Networks Based on the Topic Model Combined with Kohonen Network, KSE 10/2015, UIT, Vietnam, 10/2015, INSPEC Accession Number: 15699266, pp 268-273, DOI:10.1109/KSE.2015.54, IEEE, 2015 DANH MỤC CÁC CÔNG BỐ LIÊN QUAN [CB07] Nghe Nguyen, Thanh Ho and Phuc Do (2015), Finding the Most Influential User of a Specific Topic on the Social Networks, Advances in Computer Science : an International Journal, Volume 4, Issue 2, pp 31-40, ISSN: 2322-5157, 2015 [CB08] Phan Hồ Viết Trường, Hồ Trung Thành, Đỗ Phúc (2013), Phân tích tầm ảnh hưởng đối tượng theo chủ đề mạng xã hội, Tạp chí Khoa học Cơng nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam, tập 52, số 1B, pp 101-111, ISSN: 0866-708x, 2013 [CB09] Muon Nguyen, Thanh Ho, Phuc Do (2013), Social Networks Analysis Based on Topic Modeling, The 10th IEEE RIVF International Conference on Computing and Communication Technologies, Hanoi, pp 119-123, ISBN: 978-1-4799-1350-3, 2013 [CB10] Tran Quang Hoa, Vo Ho Tien Hung, Nguyen Le Hoang, Ho Trung Thanh, Do Phuc (2014), Finding the Cluster of Actors in Social Network based on the Topic of Messages, ACIIDS 04-2014, ThaiLand, Springer, pp 183-190, ISBN: 983-3-319054756-6, Scopus, 2014 THAM GIA ĐỀ TÀI Xây dựng hệ thống phân tích mạng xã hội theo chủ đề ứng dụng vào mạng xã hội trường đại học Mã số đề tài: B2013-26-02 Chủ nhiệm đề tài: PGS.TS Đỗ Phúc Đề tài cấp ĐHQG-HCM loại B, nghiệm thu vào tháng 10/2015, đạt loại tốt ... tâm đến chủ đề 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10 Tháng 11 Tháng 12 Hình 3.9 Kết phân tích 15 chủ đề thời gian từ tháng 01 đến tháng 12... Scopus, 2014 THAM GIA ĐỀ TÀI Xây dựng hệ thống phân tích mạng xã hội theo chủ đề ứng dụng vào mạng xã hội trường đại học Mã số đề tài: B2013-26-02 Chủ nhiệm đề tài: PGS.TS Đỗ Phúc Đề tài cấp ĐHQG-HCM... phá chủ đề ẩn từ mối liên kết xã hội thông điệp cá nhân trao đổi MXH gán nhãn chủ đề dựa phân cấp chủ đề 30 (ii) Đóng góp thứ hai: Xây dựng mơ hình TART dựa theo mơ hình chủ đề để khám phá chủ đề

Ngày đăng: 28/10/2020, 04:43

HÌNH ẢNH LIÊN QUAN

(mô hình LDA) - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
m ô hình LDA) (Trang 7)
bạn trực tiếp hay gửi nhận thông điệp trực tiếp. Hình 1.1 biểu diễn mô hình MXH.  - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
b ạn trực tiếp hay gửi nhận thông điệp trực tiếp. Hình 1.1 biểu diễn mô hình MXH. (Trang 10)
Bảng 2.8 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân cấp chủ đề. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Bảng 2.8 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân cấp chủ đề (Trang 20)
o Phân tích vai trò của cá nhân tham gia mạng xã hội dựa theo mô hình chủ đề có yếu tố thời gian - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
o Phân tích vai trò của cá nhân tham gia mạng xã hội dựa theo mô hình chủ đề có yếu tố thời gian (Trang 22)
Giải thuật 3.1 cho mô hình TART dựa trên dựa mô hình chủ đề: - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
i ải thuật 3.1 cho mô hình TART dựa trên dựa mô hình chủ đề: (Trang 24)
Hình 3.2. Lịch sử thông điệp được gửi theo từng năm trong kho ngữ liệu thu thập  - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Hình 3.2. Lịch sử thông điệp được gửi theo từng năm trong kho ngữ liệu thu thập (Trang 25)
Hình 3.5. Lịch sử thông điệp đươc gửi và nhận trong giai đoạn từ năm 2011 đến  - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Hình 3.5. Lịch sử thông điệp đươc gửi và nhận trong giai đoạn từ năm 2011 đến (Trang 25)
Phương pháp: áp dụng phương pháp mạng nơron Kohonen kết hợp mô hình - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
h ương pháp: áp dụng phương pháp mạng nơron Kohonen kết hợp mô hình (Trang 29)
35 và các đặc trưng trong cộng đồng. Hình 4.8. Trực quan hóa kết quả khám phá chủ đề 5 được các cộng đồng quan tâm. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
35 và các đặc trưng trong cộng đồng. Hình 4.8. Trực quan hóa kết quả khám phá chủ đề 5 được các cộng đồng quan tâm (Trang 30)
Hình 4.6. Danh sách các chủ đề và xác suất quan tâm của cộng đồng 35 trên lớp ra  - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Hình 4.6. Danh sách các chủ đề và xác suất quan tâm của cộng đồng 35 trên lớp ra (Trang 30)
Hình 4.7. Trực quan hóa kết quả cộng đồng - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Hình 4.7. Trực quan hóa kết quả cộng đồng (Trang 30)
Hình 4.5. Trực quan hóa kết quả khám phá cộng đồng cá nhân trong tháng 01-2015 hiển  - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng
Hình 4.5. Trực quan hóa kết quả khám phá cộng đồng cá nhân trong tháng 01-2015 hiển (Trang 30)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN