Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
1,33 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ****************************************** NGUYỄN THỊ HỘI MƠ HÌNH HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI Chuyên ngành: Hệ thống thơng tin Mã số : 9.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2021 -0- Cơng trình hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Trần Đình Quế PGS.TS Đàm Gia Mạnh Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Phản biện 3: …………………………………………… Luận án bảo vệ trước Hội đồng chấm luận án tại: Học viện Cơng nghệ Bưu Viễn thơng Vào hồi:……giờ, ngày…… tháng…….năm…………… Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Thư viện Học viện Cơng nghệ Bưu Viễn thơng -1- MỞ ĐẦU Tính cấp thiết luận án Ảnh hưởng mạng xã hội đến mặt đời sống xã hội ngày khẳng định rõ vai trò chúng nhiều lĩnh vực từ giáo dục, kinh doanh, sức khỏe, du lịch… đến vấn đề xã hội phát gian lận lừa đảo, phát tâm lý tội phạm, bạo lực xã hội, phát tin tức giả (fake news) thể nhiều cơng trình nghiên cứu [30] [37] [38] [73] [81] [93] [137] [146] Các nghiên cứu khai phá quan tâm người dùng (user interest) có vai trị quan trọng tổ chức, doanh nghiệp chiến dịch quảng bá thương hiệu, giới thiệu sản phẩm, gợi ý dịch vụ, đặc biệt có nhiều ứng dụng thực tế [1] [2] [9] [12] [16] [18] [22] [25]: xây dựng hệ thống khuyến nghị người dùng (user recommendation system); ứng dụng chương trình hay chiến lược quảng cáo (advertising campaign); ứng dụng hệ thống giới thiệu sản phẩm (product introduction systems)… Theo khảo sát luận án, có số cách phát mối quan tâm người dùng phổ biến trang mạng xã hội bao gồm: Phát quan tâm người dùng dựa trích xuất thơng tin cá nhân (profile) [14] [31] [103] [166]; Phát quan tâm người dùng dựa phân tích liên kết người dùng (follows, link) [4] [25] [28] [43] [48] [107]; Phát quan tâm người dùng dựa phân tích hành vi thích, đánh dấu đăng (like, tags, post) [50] [63] [76] [77] [87] [108] [121] [144] Các nghiên cứu phát quan tâm người dùng mạng xã hội gần thường theo hai hướng tiếp cận chính: Tập trung phân tích liên kết, cấu trúc mạng xã hội, kết nối quan hệ bạn bè, danh sách người theo dõi người dùng mạng xã hội [4] [21] [23] [28] [43] [60] [105] [108] [111] Tập trung phân tích đăng, thẻ đánh dấu, chia sẻ, bình luận đối tượng tạo trình hoạt động người dùng mạng xã hội [107], [114] [118] [124] [125] [143] [145] [157] [159], hướng tiếp cận loại bỏ vấn đề cấu trúc mạng, khó khăn tiếp cận thơng tin cá nhân người dùng thu thập liên kết bạn bè người dùng Có nghiên cứu xem xét liên quan hay mối tương quan người dùng có quan tâm với Ví dụ như: có hai người dùng a b, quan tâm đến trận đấu bóng đá ngoại hạng Họ thường xun đăng, thích, bình luận viết trận đấu, số cầu thủ, lịch trình thi đấu số câu lạc Khi nói hai người dùng a b có quan tâm đến nội dung bóng đá rộng chủ đề thể thao Câu hỏi đặt là: Khi có viết trận đấu bóng đá mà người dùng a thích chia sẻ lại liệu người dùng b có thích chia sẻ lại viết hay khơng? Hoặc liệu hai người dùng tham gia nhóm có chủ đề bóng đá hay khơng? Hoặc có kiện thể thao xảy mạng xã hội, người dùng b ý đến theo dõi kiện liệu người dùng a có quan tâm theo dõi kiện hay khơng? Để trả lời câu hỏi này, việc xác định chủ đề quan tâm cá nhân người dùng cịn cần phải làm rõ ràng mối tương quan chủ đề quan tâm người dùng với người dùng khác mạng xã hội Mục tiêu luận án Thứ nhất, mô hình hóa viết người dùng mạng xã hội dựa nhiều đặc trưng phân loại viết theo chủ đề Các viết luận án đề xuất biểu diễn dựa năm đặc trưng gồm: nội dung, thể loại, thẻ đánh dấu, quan điểm cảm xúc Dựa cách biểu diễn luận án ước lượng độ tương quan viết với chủ đề nhằm phát quan tâm người dùng theo chủ đề Thứ hai, mơ hình hóa người dùng mạng xã hội theo hành vi phân loại họ dựa chủ đề mà họ quan tâm Luận án đề xuất biểu diễn người dùng mạng xã hội dựa hành vi đăng viết, chia sẻ viết, thích viết, tham gia nhóm mạng xã hội Dựa cách biểu diễn người dùng này, luận án ước lượng độ tương quan người dùng theo chủ đề để tìm quan tâm họ Cuối cùng, ước lượng độ tương tự hai người dùng theo chủ đề xem xét mối tương quan người dùng dựa hành vi họ thực Đối tượng nghiên cứu Với mục tiêu đề luận án, đối tượng nghiên cứu luận án bao gồm: Các kỹ thuật phương thức tiền xử lý cho văn ngắn; Các mơ hình phương pháp ước lượng độ tương tự hai đối tượng có nhiều đặc trưng Phạm vi nghiên cứu Nghiên cứu phân tích đối tượng chứa văn sinh dựa hoạt động người dùng hành vi người dùng mạng xã hội Nghiên cứu phân tích chủ đề mạng xã hội độ đo tương tự đối tượng mạng xã hội Các phương pháp nghiên cứu: Phân tích, so sánh, tổng hợp, đánh giá kết nghiên cứu có, từ đề xuất hướng giải cách tiếp cận luận án Kiểm nghiệm mơ hình đề xuất thực nghiệm đánh giá Phương pháp đánh giá Trong luận án này, việc thực đánh giá hiệu suất độ xác mơ hình đề xuất tính tốn dựa theo số phương pháp sau: Đánh giá dựa độ xác (accuracy), độ nhạy (recall) đánh giá dựa độ lệch trung bình nghiên cứu [13] [15] [42] [56] [80] [106] [156] Những đóng góp luận án Thứ đề xuất biểu diễn viết chủ đề véctơ; xây dựng độ đo tương tự hai viết độ tương quan viết với chủ đề Thứ hai đề xuất mơ hình biểu diễn viết mở rộng dựa năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm cảm xúc; xây dựng độ đo tương tự hai viết mở rộng độ tương quan viết với chủ đề Thứ ba đề xuất mơ hình biểu diễn người dùng dựa hành vi đăng/chia sẻ viết, thích viết, bình luận viết tham gia nhóm mạng xã hội; xây dựng độ đo tương tự hai người dùng theo hành vi độ tương quan hành vi người dùng với chủ đề Bố cục luận án Ngoài phần mở đầu, kết luận hướng phát triển tài liệu tham khảo, luận án chia thành chương sau: Chương 1: Tổng quan hành vi, quan tâm mơ hình người dùng mạng xã hội Chương 2: Mơ hình quan tâm người dùng theo nội dung viết Chương 3: Mơ hình quan tâm người dùng dựa viết mở rộng nhiều đặc trưng Chương 4: Hành vi quan tâm người dùng theo hành vi CHƯƠNG 1: TỔNG QUAN VỀ HÀNH VI, QUAN TÂM VÀ MÔ HÌNH NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI 1.1 Mạng xã hội hành vi người dùng mạng xã hội Mạng xã hội Mạng xã hội hay gọi mạng xã hội ảo (social network) cấu trúc xã hội tạo cá nhân tổ chức (gọi “node - nút”) Theo nghiên cứu [41] [156] mạng xã hội dịch vụ dựa web cho phép cá nhân có thể: (1) tạo lập hồ sơ công khai bán công khai hệ thống có giới hạn, (2) kết nối chia sẻ với danh sách người dùng, (3) cho phép xem, chia sẻ nội dung thực người dùng khác hệ thống Dữ liệu mạng xã hội Theo nghiên cứu [132] [156] liệu mạng xã hội hay liệu xã hội (social data) liệu nhận từ phương tiện truyền thông xã hội trang mạng xã hội, trang web tìm kiếm, trang thương mại điện tử, trang chia sẻ hình ảnh, video Phát quan tâm tương tự người dùng User User User BÀI VIẾT HÀNH VI ĐĂNG/ CHIA SẺ/ THÍCH/ THAM GIA DANH SÁCH BÀI VIẾT DANH SÁCH HÀNH VI DANH SÁCH CHỦ ĐỀ Mơ hình hóa viết Tính véctơ chủ đề Mơ hình hóa hành vi Tính véctơ viết Độ tương tự viết Tính véctơ hành vi Tương quan chủ đề viết Tương quan chủ đề hành vi Độ tương tự người dùng QUAN TÂM CỦA NGƯỜI DÙNG THEO CHỦ ĐỀ Nhóm Nhóm Nhóm Hình 0.2: Những vấn đề nghiên cứu luận án Người dùng cộng đồng người dùng mạng xã hội Người sử dụng hay người dùng (user) mạng xã hội người tham gia vào mạng xã hội đó, họ thiết lập kết nối với người dùng khác trao đổi với nhau, đọc tin tức, chơi trị chơi, tham gia vào nhóm, tạo thông tin, chia sẻ thông tin, chia sẻ liệu mạng xã hội [8] [9] [23] [35] [41] [51] Cộng đồng người dùng theo [4] [9] [35] [41] [54] [64] [111] tập hợp người dùng mạng xã hội chia sẻ sở thích, quan tâm chung kiện, đối tượng hay chủ đề Họ có mối liên kết chặt chẽ với theo mối quan tâm chung so với người dùng khác Mơ hình người dùng mạng xã hội Mơ hình người dùng (user moderling) cách thức biểu diễn thông tin cá nhân người dùng thông qua đặc trưng mà người dùng thể mạng xã hội Mơ hình người dùng theo nghiên cứu [8] [9] [135] [18] thường xây dựng dựa đặc trưng sau người dùng: Đặc điểm cá nhân nhân học (personal characteristics or demographics) Quan tâm sở thích (interests and preferences) Nhu cầu mục tiêu (needs and goals) Trạng thái tinh thần thể chất (mental and physical state) Nền tảng tri thức (knowledge and background) Hành vi người dùng (user behavior) Ngữ cảnh (context) thông tin mô tả đặc trưng tình mà việc xảy ra, mạng xã hội Đặc điểm tính cách cá nhân (individual traits) Quan tâm người dùng mạng xã hội Chủ đề trang mạng xã hội Hành vi người dùng mạng xã hội 1.2 Phát biểu toán hướng tiếp cận Phát biểu toán câu hỏi nghiên cứu Bài toán phát chủ đề quan tâm người dùng dựa hành vi phát biểu sau: Cho tập chủ đề mạng xã hội tập hợp người dùng đặc trưng họ mạng xã hội đó, cần đưa danh sách chủ đề mà người dùng quan tâm, ý đến dựa việc phân tích hành vi đặc trưng người dùng Những câu hỏi cần giải toán bao gồm: Đối tượng nghiên cứu lựa chọn toán gì? Những người dùng mạng xã hội biểu diễn để phân tích ước lượng nhằm phát quan tâm họ? Các phương pháp hay kỹ thuật sử dụng? Các chủ đề quan tâm xây dựng biểu diễn nào? Hình 1.1 Minh họa toán phát chủ đề quan tâm người dùng (Nguồn: Dhelm S.N et al [47]) Ứng dụng phát quan tâm người dùng mạng xã hội Theo [132] nghiên cứu liệu xã hội chủ yếu dựa ba học thuyết: thuyết tương quan xã hội, thuyết cân thuyết trạng thái Các nghiên cứu dựa ứng dụng cho người dùng phát cộng đồng, phân loại nhóm người dùng phát người dùng xấu Các nghiên cứu dựa mối quan hệ người dùng dự đoán kết nối người dùng, dự đoán kết nối xã hội chặt chẽ dự đoán mối quan hệ lâu dài nhóm người dùng Các nghiên cứu dựa nội dung đối tượng sinh người dùng toán khuyến nghị người dùng, tốn trích chọn đặc trưng tốn phân tích quan điểm Các hướng tiếp cận tốn Theo [10] [54] [60] toán phát quan tâm người dùng mạng xã hội thường xem xét dựa nguồn thơng tin phân tích, cách thức biểu diễn chủ đề so sánh, kỹ thuật sử dụng để khai thác mơ hình phương pháp để đánh giá Các bước xây dựng hồ sơ quan tâm người dùng Theo [9] [54] trình xây dựng hồ sơ quan tâm người dùng (user interest profile) q trình thu thập, trích xuất biểu diễn cho chủ đề quan tâm người dùng Q trình thường có ba giai đoạn: Thu thập liệu, xây dựng đặc trưng đưa vào ứng dụng Hướng nghiên cứu luận án Hình 1.4 mơ tả hướng nghiên cứu luận án với tốn xây dựng hồ sơ thơng tin quan tâm người dùng gồm hai giai đoạn chính: Giai đoạn thu thập liệu phân tích Giai đoạn xây dựng hồ sơ quan tâm người dùng Từ vựng Wikipedia Từ vựng Khái niệm định nghĩa Tính TF.IDF Từ vựng Trọng số từ Mạng xã hội Nội dung Véctơ trọng số Thẻ đánh dấu Véctơ trọng số … Bài viết, hành vi Phân tích Hình 1.4: Hướng tiếp cận luận án Độ tương tự hai véctơ CHƯƠNG 2: MƠ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1 MƠ HÌNH NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1.1 Biểu diễn véctơ viết TF.IDF a Bài viết mạng xã hội Bài viết người dùng mạng xã hội đăng mà người dùng tạo chia sẻ lại từ nguồn khác mạng Internet, viết mạng xã hội video clip, ảnh, văn bản, kết hợp thành phần b Xử lý văn ngắn Theo [33] [53] [80] [119] [130] phương pháp xử lý cho liệu văn ngắn gồm hai bước chính: Thứ nhất, làm tách từ theo N-gram; Thứ hai, mở rộng ngữ nghĩa (nếu cần), loại bỏ từ dừng tính trọng số từ Loại nhiễu Tách từ N-gram Loại bỏ từ dừng Nội dung viết Tính trọng số TF TF.IDF Lưu vào véctơ Mở rộng ngữ nghĩa Wikipedia Hình 2.3: Quy trình xử lý nội dung viết luận án Các bước tiền xử lý liệu văn viết luận án thực qua bước sau: làm liệu, tách viết thành từ thuật ngữ, chuẩn hóa danh sách từ, loại bỏ từ dừng, mở rộng danh sách từ theo Wikipedia Quy trình thêm từ vựng mở rộng ngữ nghĩa cho viết luận án thực theo Thuật toán 2.1 Bảng 2.5 Bảng 2.5: Thuật toán 2.1 (Mở rộng ngữ nghĩa theo Wikipedia) Input: Output: Thực hiện: Thuật toán mở rộng từ vựng theo Wikipedia, openWordWiki(x,y) Danh sách từ, thuật ngữ viết ngắn x Danh sách từ, thuật ngữ mở rộng viết W // Khởi tạo For i=1 to all(x) Begin W[i] W[i] getDefineWiki(x[i]) ;//Lấy định nghĩa For j2 to //Tách từ cho định nghĩa y separateNgram(W[i],j); End For y y removeStopWord(y); EndFor Return c Biểu diễn văn véctơ trọng số Định nghĩa 2.1: Cho tập văn 𝓓 = {𝐷 , 𝐷 , … , 𝐷 }, văn biểu diễn tập thuật ngữ 𝐷 = {𝑑 , 𝑑 , 𝑑 } Gọi 𝓥 = {𝑣 , 𝑣 , … , 𝑣 }, tập hợp thuật ngữ khác đôi Khi đó, trọng số thuật ngữ 𝑑 ∈ 𝓥 𝐷 tính sau: (2.1) 𝑤 = 𝑡𝑓(𝑑, 𝐷 ) × 𝑖𝑑𝑓(𝑑, 𝓓) Trong đó, 𝑡𝑓(𝑑, 𝐷 ) số lần xuất thuật ngữ 𝑑 𝑡𝑟𝑜𝑛𝑔 𝐷 𝑖𝑑𝑓(𝑑, 𝓓) tính 𝑖𝑑𝑓(𝑑, 𝓓) = 𝑙𝑜𝑔 ( ‖𝓓‖ ‖{ | ∈ }‖ (2.2) ) Để tiện cho việc tính tốn, véctơ chuẩn hóa khoảng đơn vị [0,1] Khi định nghĩa văn 𝐷 ∈ 𝓓 theo véctơ trọng số sau: Định nghĩa 2.2: Cho tập văn 𝓓 = {𝐷 , 𝐷 , … , 𝐷 }, văn biểu diễn tập thuật ngữ 𝐷 = {𝑑 , 𝑑 , 𝑑 } Gọi q số thuật ngữ khác đôi không gian 𝓓 Khi đó, 𝐷 biểu diễn véctơ có q chiều: 𝒘𝒊 = (𝑤 , 𝑤 , 𝑤 ) khơng gian 𝓓 Trong đó, 𝑤 tính theo Định nghĩa 2.1 d Biểu diễn nội dung viết véctơ trọng số Định nghĩa 2.3: Một mạng xã hội 𝓝 bốn: 𝓝 =< 𝑈, 𝐸, 𝐺, 𝐵 > Trong đó: 𝑈 = {𝑢 } tập người dùng (user) mạng xã hội 𝓝, 𝑢 kí hiệu người dùng thứ i tập U 𝐸 = {𝑒 } tập đăng/đã chia sẻ (entry) mạng xã hội 𝓝, 𝑒 kí hiệu đăng thứ i tập E 𝐺 = {𝑔 } tập nhóm/ cộng đồng người dùng tham gia mạng xã hội 𝓝, 𝑔 kí hiệu nhóm thứ i tập G 𝐵 tập hành vi người dùng mạng xã hội 𝓝, hành vi luận án xem xét phân tích chương luận án Bài viết e mạng xã hội 𝓝 văn ngắn biểu diễn tập từ, ký hiệu: 𝑒 = {𝑤 }, 𝑖 = 1,2, … 𝑖 , 𝑒 ∈ 𝐸, với E tập viết mạng xã hội 𝓝 Định nghĩa 2.4: Cho tập viết người dùng 𝐸 = {𝑒 , 𝑒 , … , 𝑒 }, viết biểu diễn tập thuật ngữ 𝑒 = {𝑒 , 𝑒 , 𝑒 } Gọi q số thuật ngữ khác đôi không gian 𝐸 Khi đó, 𝐸 biểu diễn véctơ có q chiều: 𝒘𝒊 = (𝑤 , 𝑤 , 𝑤 ) khơng gian E Trong đó, 𝑤 tính định nghĩa 2.1 d Các thuật toán tiền xử lý liệu văn Thuật toán 2.2: Thuật toán phân tách văn xác định từ, thuật ngữ Thuật toán 2.3: Xây dựng véctơ trọng số cho nội dung viết Bảng 2.8: Thuật tốn 2.2 (Phân tích văn xác định từ, thuật ngữ) Thuật tốn 2.2: Phân tích viết xây dựng từ, thuật ngữ getTerm(x,y) Input: Một viết mạng xã hội Ouput: Danh sách từ văn bản, Term 1: xText; y; T1 ; T2 ; W ; T3 ; //Khởi tạo 2: x cleanText(x); // Làm văn x 3: x formatText(x); //Chuẩn hóa từ vựng x 4: For i2 to //Tách từ cho x T1 T1 separateNgram(x,i) ; // N=2,3,4 End For 5: T2 removeStopWord(T1); //Loại bỏ từ dừng 6: If count(T2) 10 then //Mở rộng từ vựng cần Open_word(T2,T3) Else T3 T2; End If 7: Return T3 Bảng 2.9: Thuật toán 2.3 (Xây dựng véctơ trọng số cho viết) Thuật tốn 2.3: Tính véctơ trọng số getWeightWord(x) Input: Danh sách từ, thuật ngữ viết e mạng xã hội N Ouput: Véctơ trọng số TF-IDF viết e 1: w; wtfidf; //Khởi tạo 2: For i to count(x) //Đếm tần suất từ khóa x w[i] count(x[i]) ; N tổng số lượng tài liệu 𝑑𝑓 số lượng tài liệu mà từ 𝑤 xuất If w[i]>=1 then wtfidf[i](1 + 𝑙𝑜𝑔 𝑓 ) 𝑙𝑜𝑔 else wtfidf[i]0; //Tính TF.IDF End For 3: Return wtfidf; 2.1.2 Biểu diễn người dùng véctơ Mỗi người dùng biểu diễn véctơ gồm 𝑖 thành phần, thành phần véctơ xây dựng theo định nghĩa 2.4 Ký hiệu sau: 𝑢 = 𝒖𝒊 = 𝒘𝒊𝟏 , 𝒘𝒊𝟐 , 𝒘𝒊𝒌𝒊 , 𝒘𝒊𝒌 = (𝑤 không gian E ,𝑤 , 𝑤 )| 𝑘 = 1, , 𝑖 (2.3) Cụ thể người dùng mạng xã hội biểu diễn sau: 𝒘 𝑢 = ( 𝒘 , ,…, ), , … ,…, , 𝒘 , (2.4) ,…, Với q số chiều không gian E mạng xã hội xem xét 2.1.3 Độ đo tương tự độ tương quan hai đối tượng Luận án sử dụng độ đo Cosine để tính độ tương tự hai đối tượng theo véc tơ biểu diễn hai đối tượng tương ứng sau: độ tương tự u v tính bằng: 𝒖,𝒗 (2.5) 𝑠𝑖𝑚(𝑢, 𝑣) = ‖𝒖‖∗‖𝒗‖ 10 Để tính độ tương quan hai đối tượng, luận án sử dụng độ tương quan Pearson theo công thức sau: 𝑐𝑜𝑟(𝒖, 𝒗) = ∑( ∑( )( ) ∗ ∑( Trong đó, 𝑢 = ∑ ) (2.6) ) 𝑢 𝑣̅ = ∑ 𝑣 đó, 𝑐𝑜𝑟(𝒖, 𝒗) độ tương quan 𝒖 𝒗 2.1.4 Độ tương tự hai người dùng theo nội dung viết a Độ tương tự hai viết Độ tương tự hai viết 𝑒 𝑒 tính độ tương tự hai véctơ trọng số tương ứng 𝑒 𝑒 sau: 𝑠𝑖𝑚 𝒆𝒊𝒍 , 𝒆𝒋𝒌 = ‖𝒆 𝒆𝒊𝒍 ,𝒆𝒋𝒌 (2.7) 𝒊𝒍 ‖× 𝒆𝒋𝒌 Độ tương tự hai tập viết 𝐸 𝐸 tính độ tương tự hai tập véctơ trọng số tương ứng 𝑢 𝑢 ký hiệu là: 𝑠𝑖𝑚 𝑬𝒊 , 𝑬𝒋 = max , (𝑠𝑖𝑚 𝒆𝒊𝒍 , 𝒆𝒋𝒌 ) (2.8) b Độ tương tự hai người dùng theo nội dung viết Định nghĩa 2.5: Cho hai người dùng 𝑢 𝑢 với hai tập viết 𝐸 𝐸 tương ứng mạng xã hội 𝓝 Độ tương tự hai người dùng tính bằng: 𝑠𝑖𝑚 𝑢 , 𝑢 = 𝑠𝑖𝑚 𝒖𝒊 , 𝒖𝒋 = 𝑠𝑖𝑚 𝑬𝒊 , 𝑬𝒋 (2.9) 2.2 MƠ HÌNH QUAN TÂM CỦA NGƯỜI DÙNG THEO CHỦ ĐỀ 2.2.1 Biểu diễn véctơ trọng số chủ đề Khái niệm chủ đề sau: Cho tập chủ đề lĩnh vực mạng xã hội Khi đó, chủ đề biểu diễn tập hợp từ, thuật ngữ đặc trưng để mơ tả diễn giải chủ đề Giả sử 𝓣 = {𝑇 , 𝑇 , … , 𝑇 } tập chủ đề mạng xã hội 𝓝, chủ đề biểu diễn tập từ 𝑇 = {𝑡 , 𝑡 , … , 𝑡 } Định nghĩa 2.6: Cho tập chủ đề 𝓣 = {𝑇 , 𝑇 , … , 𝑇 } mạng xã hội 𝓝, đó, chủ đề 𝑇 biểu diễn tập thuật ngữ từ: 𝑇 = {𝑡 , 𝑡 , … , 𝑡 } Gọi 𝓥 tập gồm q từ khác đôi tất 𝑇 ∈ 𝓣 Khi đó, 𝑇 tương ứng véctơ trọng số ký hiệu sau: (2.10) 𝒕𝒊 = (𝑤 , 𝑤 , … , 𝑤 ) Trong đó, 𝑤 tính Định nghĩa 2.1 11 2.2.2 Xây dựng chủ đề mạng xã hội Luận án thực lựa chọn chủ đề cách thống kê chủ đề số trang tin tức điện tử phổ biến Việt Nam giới, phương pháp nghiên cứu [25] [145] [125] Các chủ đề phổ biến thống kê từ 10 trang tin tức điện tử Việt Nam có lượng người dùng truy cập lớn theo thống kê https://toplist.vn/top-list/website với trang tin tức điện tử Tiếng Anh phổ biến giới https://www.similarweb.com/top-websites/category/news-and-media Luận án thu danh sách gồm 21 chủ đề có tần suất xuất nhiều 15 trang tin tức Bảng 2.11 Bảng 2.12 Thuật toán 2.4: Xây dựng danh sách từ vựng cho chủ đề Thuật toán 2.5: Xây dựng véctơ trọng số cho chủ đề Bảng 2.13: Thuật toán 2.4 (Xây dựng danh sách từ vựng cho chủ đề) Thuật toán 2.4: Xây dựng từ vựng cho chủ đề, topicWord() Input: Chủ đề t mạng xã hội N Ouput: Danh sách từ vựng chủ đề t 1: x ; tW ; //Khởi tạo 2: x getDefineWiki(t); // Lấy Định nghĩa từ Wikipedia cho t 3: For i2 to //Tách từ cho x tW tW separateNgram(x,i) ; // N=2,3,4 End For 4: tW removeStopWord(tW); //Loại bỏ từ dừng 5: Return tW; Bảng 2.15: Thuật toán 2.5 (Xây dựng véctơ trọng số cho chủ đề) Thuật toán 2.5: Xây dựng véctơ trọng số getWeightTopic() Input: Một danh sách từ vựng chủ đề t Ouput: Véctơ trọng số TF-IDF chủ đề t 1: w; wtfidftp; //Khởi tạo 2: For i to count(t) //Đếm tần suất từ khóa t w[i] count(tW[i]) ; N số lượng chủ đề T 𝑑𝑓 số lượng chủ đề mà từ khóa 𝑤 xuất If w[i]>=1 then wtfidftp[i](1 + 𝑙𝑜𝑔 𝑓 ) 𝑙𝑜𝑔 else wtfidftp[i]0; //Tính TF.IDF End For 3: Return w, wtfidftp; Sau tính tốn xong, luận án thu tập gồm 21 véctơ tương ứng với 21 chủ đề chứa danh sách từ véctơ trọng số tương ứng công thức (2.11) 𝒯= 𝒕𝟏 , ,…, , 𝒕𝟐 , … ,…, , 𝒕𝟐𝟏 , (2.11) ,…, Trong đó, 𝑤 tính Định nghĩa 2.1 2.2.3 Biểu diễn véctơ nội dung viết theo chủ đề Định nghĩa 2.7: 12 Giả sử 𝑒 ∈ 𝑒 viết người dùng 𝑢 mạng xã hội 𝓝, mô tả tập hợp từ, đó, véctơ trọng số viết 𝑒 chủ đề 𝑇 định nghĩa sau: 𝒆𝒌𝒊𝒋 = 𝑒 , 𝑒 , … , 𝑒 (2.12) Trong đó, 𝑒 = 𝑡𝑓(𝑡 , 𝑒 ) × 𝑖𝑑𝑓(𝑡 , 𝐸 ) với 𝑡 ∈ 𝒱 2.2.4 Độ quan tâm người dùng theo chủ đề mạng xã hội Mức độ liên quan viết 𝑒 người dùng 𝑢 chủ đề 𝑡 : 𝛼 = 𝑐𝑜𝑟 𝑒 , 𝑡 (2.13) Mức độ liên quan viết 𝑒 đến p chủ đề 𝓣 ký hiệu là: 𝑐𝑜𝑟 𝑒 , 𝑝 = (𝛼 , 𝛼 , … , 𝛼 ) (2.14) Có thể thấy rằng: (1) Khi số lượng viết người dùng chủ đề tăng lên mức độ quan tâm người dùng đến chủ đề tăng lên (2) Khi số lượng người dùng quan tâm đến chủ đề tăng lên mức độ quan tâm người dùng đến chủ đề tăng lên Định nghĩa 2.8: Hàm số: 𝑖𝑛𝑡: 𝒰 × 𝒫(𝐸) × 𝒯 → [0,1] gọi độ đo quan tâm thỏa mãn điều kiện sau: 𝑖𝑛𝑡(𝑢, 𝑈, 𝑡) ≤ 𝑖𝑛𝑡(𝑣, 𝑉, 𝑡), 𝑈, 𝑉 ∈ 𝑃(𝐸 ) với 𝑈 ⊆ 𝑉 Để cho đơn giản tính tốn biểu diễn, luận án ký hiệu hàm quan tâm người dùng 𝑢 đến chủ đề t 𝑖𝑛𝑡(𝑢 , 𝑡) Dễ dàng chứng minh rằng: Mệnh đề 2.8.1: Các hàm số sau: (𝑖) 𝑖𝑛𝑡𝑀𝑎𝑥(𝑢 , 𝑡) = 𝑚𝑎𝑥 (𝑐𝑜𝑟 𝑒 , 𝑡 ) (2.15) (𝑖𝑖) 𝑖𝑛𝑡𝐶𝑜𝑟(𝑢 , 𝑡) = ∑ (𝑖𝑖𝑖) 𝑖𝑛𝑡𝑆𝑢𝑚(𝑢 , 𝑡) = , ) ‖ (2.16) ‖ ∑ ∈𝒯 +∑ ∈𝒰, ∈𝒯 (2.17) độ đo quan tâm người dùng chủ đề Trong đó, 𝑐𝑜𝑟 𝑒 , 𝑡 mức độ liên quan viết 𝑒 đến chủ đề t, 𝑛 số lượng viết liên quan đến chủ đề t người dùng 𝑢 mạng xã hội 𝓝 2.2.5 Tương tự quan tâm theo chủ đề người dùng Định nghĩa 2.9: Độ quan tâm người dùng 𝑢 đến p chủ đề 𝓣 véctơ quan tâm, biểu diễn sau: 𝒖𝒕𝒊 = ( 𝑢 , 𝑢 , … , 𝑢 ) (2.18) Trong đó, 𝑢 độ quan tâm 𝑢 đến chủ đề thứ k, k=1, 2, …, p, 𝑢 tính theo ba công thức mệnh đề 2.9.1 Định nghĩa 2.10: 13 Độ tương tự theo chủ đề quan tâm hai người dùng 𝑢 , 𝑢 tính độ tương tự cosine hai véctơ quan tâm đến tất chủ đề theo công thức: 𝑠𝑖𝑚 𝑢 ,𝑢 = 𝑠𝑖𝑚( 𝒖𝒕𝒊 , 𝒖𝒕𝒋 ) = 𝒖𝒕𝒊 , 𝒖𝒕𝒋 𝒖𝒕𝒊 × 𝒖𝒕𝒋 (2.19) Trong đó, < 𝒖𝒕𝒊 , 𝒖𝒕𝒋 > tích vơ hướng hai véctơ, ‖𝑿‖ độ dài véctơ Dễ dàng thấy rằng, 𝑠𝑖𝑚 𝑢 ,𝑢 nằm khoảng [0,1] CHƯƠNG 3: MƠ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA TRÊN BÀI VIẾT MỞ RỘNG 3.1 XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT 3.2 MƠ HÌNH BÀI VIẾT MỞ RỘNG 3.2.1 Mơ hình viết Định nghĩa 3.1: Một viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝 biểu diễn năm đặc trưng: 𝑒 = {𝑐𝑜𝑛𝑡 , 𝑐𝑎𝑡 , 𝑡𝑎𝑔 , 𝑠𝑒𝑛𝑡 , 𝑒𝑚𝑜 } Trong đó: - 𝑐𝑜𝑛𝑡 nội dung (content) viết 𝑒 ∈ 𝐸, 𝑐𝑎𝑡 thể loại (category) viết 𝑒 ∈ 𝐸, 𝑡𝑎𝑔 thẻ đánh dấu (tag) viết 𝑒 ∈ 𝐸, 𝑠𝑒𝑛𝑡 quan điểm (sentiment) viết 𝑒 ∈ 𝐸, 𝑒𝑚𝑜 cảm xúc (emotion) viết 𝑒 ∈ 𝐸 Như vậy, viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝, biểu diễn năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm cảm xúc Các đặc trưng viết mô tả chi tiết sau: Nội dung (Content) viết 𝑒 ký hiệu là: 𝑐𝑜𝑛𝑡 Thể loại (Category) viết 𝑒 ký hiệu là: 𝑐𝑎𝑡 Thẻ đánh dấu (Tag) viết 𝑒 ký hiệu là: 𝑡𝑎𝑔 Quan điểm (Sentiment) viết 𝑒 ký hiệu là: 𝑠𝑒𝑛𝑡 Cảm xúc (Emotion) viết 𝑒 ký hiệu là: 𝑒𝑚𝑜 Theo định nghĩa 3.1 dựa đặc trưng xem xét viết 𝑒 ∈ 𝐸 biểu diễn cách hình thức cơng thức (3.1): 𝑒 = (𝑐𝑜𝑛𝑡 , 𝑐𝑎𝑡 , 𝑡𝑎𝑔 , 𝑠𝑒𝑛𝑡 , 𝑒𝑚𝑜 ), 𝑖 = 1, 𝑛, ∀𝑒 ∈ 𝐸|𝓝 (3.1) 3.2.2 Biểu diễn viết véctơ Các thành phần phân tích Định nghĩa 2.2 Ký hiệu 𝑬 = {𝑒 , 𝑒 , … , 𝑒 } tập tất các viết xét mạng xã hội 𝓝, theo Định nghĩa 2.2 Chương 2, luận án ký hiệu lần lượt: - 𝐸 tập tất từ vựng khác đôi đặc trưng nội dung tất viết 𝐸 𝐸 tập tất từ vựng khác đôi đặc trưng thể loại tất viết 𝐸 14 - 𝐸 tập tất từ vựng khác đôi đặc trưng thẻ đánh dấu tất viết 𝐸 𝐸 tập tất từ vựng khác đôi đặc trưng quan điểm tất viết 𝐸 𝐸 tập tất từ vựng khác đôi đặc trưng cảm xúc tất viết 𝐸 Đặc trưng nội dung: 𝑐𝑜𝑛𝑡 = 𝒗 Đặc trưng thẻ đánh dấu: 𝑡𝑎𝑔 = 𝒗 Đặc trưng thể loại: 𝑐𝑎𝑡 = 𝒗 (3.2) = (𝑤 , 𝑤 , 𝑤 ) = (𝑤 , 𝑤 , 𝑤 ) (3.4) = (𝑤 , 𝑤 , 𝑤 ) Đặc trưng cảm xúc: 𝑒𝑚𝑜 = 𝒗 (3.5) = (𝑤 , 𝑤 , 𝑤 ) Đặc trưng quan điểm: 𝑠𝑒𝑛𝑡 = 𝒗 (3.3) = (𝑤 , 𝑤 , 𝑤 ) (3.6) Mỗi viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝, mơ hình hóa năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm cảm xúc, biểu diễn véctơ có năm thành phần công thức (3.7) 𝑐𝑜𝑛𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎧ 𝑐𝑎𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎪ 𝑒 = 𝑡𝑎𝑔 = 𝒗 (3.7) = (𝑤 , 𝑤 , 𝑤 ), ⎨ 𝑠𝑒𝑛𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎪ ⎩ 𝑒𝑚𝑜 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ) 3.2.3 Độ tương tự hai viết mở rộng a Mơ hình ước lượng tổng quát Độ tương tự hai viết 𝑒 , 𝑒 ∈ 𝐸 mạng xã hội 𝓝 theo định nghĩa 3.1 tính sau: 𝑠 𝑒 ,𝑒 =𝑤 ∗𝑠 +𝑤 𝑐𝑜𝑛𝑡 , 𝑐𝑜𝑛𝑡 + 𝑤 ∗𝑠 +𝑤 𝑡𝑎𝑔 , 𝑡𝑎𝑔 ∗𝑠 ∗𝑠 +𝑤 𝑐𝑎𝑡 , 𝑐𝑎𝑡 ∗𝑠 𝑠𝑒𝑛𝑡 , 𝑠𝑒𝑛𝑡 𝑒𝑚𝑜 , 𝑒𝑚𝑜 (3.8) Trong đó, 𝑤 ,𝑤 ,𝑤 ,𝑤 ,𝑤 trọng số đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm, cảm xúc viết, thỏa mãn điều kiện: 𝑤 +𝑤 + 𝑤 + 𝑤 + 𝑤 = Ước lượng độ tương tự đặc trưng viết Độ tương tự đặc trưng nội dung 𝑠 𝑐𝑜𝑛𝑡 , 𝑐𝑜𝑛𝑡 = 𝑠𝑖𝑚 𝒗 ,𝒗 = 𝒗 𝒗 ,𝒗 × 𝒗 (3.9) Độ tương tự đặc trưng thể loại: 𝑠 𝑐𝑎𝑡 , 𝑐𝑎𝑡 = 𝑠𝑖𝑚 𝒗 ,𝒗 = 15 𝒗 𝒗 ,𝒗 × 𝒗 3.10) Độ tương tự đặc trưng thẻ đánh dấu: 𝑠 = 𝑠𝑖𝑚 𝒗 ,𝒗 = 𝒗 ,𝒗 𝒗 (3.11) × 𝒗 Độ tương tự đặc trưng quan điểm: 𝑠 𝑡𝑎𝑔 , 𝑡𝑎𝑔 𝑠𝑒𝑛𝑡 , 𝑠𝑒𝑛𝑡 = 𝑠𝑖𝑚 𝒗 ,𝒗 = 𝒗 𝒗 ,𝒗 (3.12) × 𝒗 Độ tương tự đặc trưng cảm xúc: 𝑠 𝑒𝑚𝑜 , 𝑒𝑚𝑜 = 𝑠𝑖𝑚 𝒗 ,𝒗 = 𝒗 𝒗 ,𝒗 (3.13) × 𝒗 3.3 MƠ HÌNH NGƯỜI DÙNG THEO BÀI VIẾT MỞ RỘNG 3.3.1 Biểu diễn người dùng theo viết mở rộng Mỗi người dùng mạng xã hội 𝓝 biểu diễn véctơ gồm 𝑚 thành phần, thành phần véctơ xây dựng theo công thức 3.7 Ký hiệu sau: 𝑢 = 𝒖𝒊 = 𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒎𝒊 (3.14) Cụ thể người dùng mạng xã hội biểu diễn sau: 𝑐𝑜𝑛𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎧ ⎛ ⎞ ⎪ 𝑐𝑎𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎜ ⎟ = (𝑤 , 𝑤 , 𝑤 ), ⎜ 𝒆𝒊𝟏 = ⎨ 𝑡𝑎𝑔 = 𝒗 ⎟ 𝑠𝑒𝑛𝑡 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ) , ⎜ ⎟ ⎪ ⎜ ⎩ 𝑒𝑚𝑜 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ) ⎟ ⎟ 𝑢 =⎜ …… ⎜ ⎟ 𝑐𝑜𝑛𝑡 𝒎𝒊 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎟ ⎜ ⎧ ⎜ ⎪ 𝑐𝑎𝑡 𝒎𝒊 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎟ ⎜𝒆 = 𝑡𝑎𝑔 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ), ⎟ 𝒎𝒊 ⎜ 𝒊𝒎𝒊 ⎨ ⎟ 𝑠𝑒𝑛𝑡 𝒎𝒊 = 𝒗 = (𝑤 , 𝑤 , 𝑤 ) , ⎪ = (𝑤 , 𝑤 , 𝑤 ) ⎠ ⎝ ⎩ 𝑒𝑚𝑜 𝒎𝒊 = 𝒗 Với q, p, l, r, t số chiều không gian 𝐸 ,𝐸 ,𝐸 ,𝐸 ,𝐸 mạng xã hội xem xét 3.3.2 Độ tương tự hai người dùng theo mơ hình viết mở rộng Độ tương tự hai tập viết 𝐸 𝐸 tính độ tương tự hai tập véctơ trọng số tương ứng 𝑢 𝑢 tính sau: 𝑠𝑖𝑚 𝑬𝒊 , 𝑬𝒋 = max , (𝑠𝑖𝑚 𝒆𝒊𝒍 , 𝒆𝒋𝒌 ) Trong 𝑠𝑖𝑚 𝒆𝒊𝒍 , 𝒆𝒋𝒌 tính theo cơng thức (3.8) Khi độ tương tự hai người dùng tính bằng: 𝑠𝑖𝑚 𝑢 , 𝑢 = 𝑠𝑖𝑚 𝒖𝒊 , 𝒖𝒋 = 𝑠𝑖𝑚 𝑬𝒊 , 𝑬𝒋 16 (3.15) 3.4 QUAN TÂM CỦA NGƯỜI DÙNG THEO MƠ HÌNH BÀI VIẾT MỞ RỘNG 3.4.1 Biểu diễn viết theo chủ đề Gọi 𝑒 ∈ 𝐸 viết người dùng 𝑢 mạng xã hội 𝓝, mô tả năm đặc trưng, đặc trưng tập hợp từ Khi đó, véctơ trọng số viết 𝑒 chủ đề 𝑇 định nghĩa sau: 𝒆𝒌𝒊𝒋 = 𝑒 , 𝑒 , … , 𝑒 (3.16) Trong đó, 𝑒 = 𝑤 ∗ 𝑡𝑓(𝑡 , 𝑒 ) × 𝑖𝑑𝑓(𝑡 , 𝐸 ) với 𝑡 ∈ 𝒱 , 𝑤 , 𝑘 = 1, trọng số đặc trưng tương ứng viết 3.4.2 Xác định mối tương quan người dùng chủ đề Mức độ liên quan viết 𝑒 người dùng 𝑢 chủ đề 𝑡 : (3.17) 𝛼 = 𝑐𝑜𝑟 𝑒 , 𝑡 Khi đó, mức độ liên quan viết 𝑒 đến q chủ đề 𝓣 ký hiệu: (3.18) 𝑐𝑜𝑟 𝑒 , 𝓣 = (𝛼 , 𝛼 , … , 𝛼 ) 3.4.3 Độ tương tự quan tâm người dùng theo chủ đề Mức độ quan tâm người dùng theo chủ đề: 𝒖𝒕𝒊 = ( 𝑢 , 𝑢 , … , 𝑢 ) (3.19) Độ tương tự hai người dùng theo chủ đề: 𝑠𝑖𝑚 𝑢 ,𝑢 = 𝑠𝑖𝑚( 𝒖𝒕𝒊 , 𝒖𝒕𝒋 ) = 𝒖𝒕𝒊 , 𝒖𝒕𝒋 𝒖𝒕𝒊 × 𝒖𝒕𝒋 (3.20) CHƯƠNG 4: HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO HÀNH VI TRÊN MẠNG XÃ HỘI 4.1 HÀNH VI CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 4.1.1 Hành vi phân loại hành vi người dùng mạng xã hội Theo [65] [91] [147] [154] [104] hành vi người dùng trang mạng xã hội cách thức người dùng hoạt động tương tác với kiện, tượng mạng xã hội Các hành vi phân loại theo hành vi cá nhân (individual behavior) hành vi tập thể (collective behavior) Theo thống kê từ [65] [91] [147] [104], [132] mạng xã hội, hành vi người dùng thường bao gồm: Đăng viết (Post) trang cá nhân; Thích (Like); Bình luận (Comment); Tham gia hay gia nhập nhóm (Join group); Kết bạn (Add friend); Theo dõi (Follow); Tạo/tham gia kiện (Event); Đánh dấu (Tag); Chia sẻ (Share) … 4.1.2 Phát quan tâm người dùng dựa hành vi 4.1.3 Nhóm hay cộng đồng người dùng mạng xã hội Định nghĩa 4.1: 17 Một nhóm hay cộng đồng 𝑔 ∈ 𝐺 mạng xã hội N, đặc trưng ba đặc trưng : 𝑔 = {𝑛𝑎𝑚𝑒 , 𝑠𝑡𝑦 , 𝑑𝑒𝑠 } Trong đó: - 𝑛𝑎𝑚𝑒 tên (name) nhóm 𝑔 , 𝑠𝑡𝑦 kiểu (style) nhóm 𝑔 𝑑𝑒𝑠 mơ tả (description) nhóm 𝑔 4.2 MƠ HÌNH NGƯỜI DÙNG THEO HÀNH VI 4.2.1 Mơ hình biểu diễn người dùng Định nghĩa 4.2: Trong mạng xã hội 𝓝 =< 𝑈, 𝐸, 𝐺, 𝐵 >, tập hành vi người dùng B mạng xã hội xem xét bao gồm: - 𝑃 = {𝑝𝑜𝑠𝑡 } tập hành vi đăng/chia sẻ (post) viết mạng xã hội N người dùng, 𝑝 kí hiệu hành vi đăng 𝑖 tập P 𝐿 = {𝑙𝑖𝑘𝑒 } tập hành vi thích (like) viết mạng xã hội N, 𝑙 kí hiệu hành vi thích viết 𝑖 tập L 𝐶 = {𝑐𝑜𝑚𝑡 } tập bình luận người dùng viết mạng xã hội đó, 𝑐 kí hiệu bình luận thứ i tập C 𝐽 = {𝑗𝑜𝑖𝑛 } tập hành vi gia nhập nhóm hay cộng đồng người dùng mạng xã hội đó, 𝑗 kí hiệu hành vi gia nhập nhóm thứ i tập J Mỗi người dùng 𝑢 biểu diễn theo hành vi bốn sau: 𝑢 =< 𝑃 , 𝐿 , 𝐶 , 𝐽 > Định nghĩa 4.3: P hành vi đăng viết (Post an entry) Theo đó, người dùng 𝑢 ∈ 𝑈 đăng viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝được xác định ánh xạ: 𝑓 : 𝑈 × 𝐸 → {0,1}, xác định sau: f u , e = u đăng viết e ∈ E f u , e = u không đăng viết e ∈ E Định nghĩa 4.4: L hành vi thích viết (Like an entry) Theo đó, người dùng 𝑢 ∈ 𝑈 thích viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝 xác định ánh xạ: 𝑓 : 𝑈 × 𝐸 → {0,1}, xác định sau: 𝑓 𝑢 ,𝑒 = 𝑛ế𝑢 𝑢 𝑡ℎí𝑐ℎ 𝑏à𝑖 𝑣𝑖ế𝑡 𝑒 ∈ 𝐸 𝑓 𝑢 ,𝑒 = 𝑛ế𝑢 𝑢 𝑘ℎơ𝑛𝑔 𝑡ℎí𝑐ℎ 𝑏à𝑖 𝑣𝑖ế𝑡 𝑒 ∈ 𝐸 Định nghĩa 4.5: Tập viết người dùng 𝑢 ∈ 𝑈 đăng/chia sẻ mạng xã hội 𝓝 định nghĩa sau: 𝐸 = {𝑒 ∈ 𝐸 |∀𝑗, 𝑓 𝑢 , 𝑒 = 1} Tập viết 𝑒 ∈ 𝐸 mà người dùng 𝑢 ∈ 𝑈 thích mạng xã hội 𝓝 định nghĩa sau: 𝐸 = {𝑒 ∈ 𝐸 |∀𝑗, 𝑓 𝑢 , 𝑒 = 1} 18 Định nghĩa 4.6: C hành vi bình luận viết (Comment in an entry) Theo đó, người dùng 𝑢 ∈ 𝑈 bình luận viết 𝑒 ∈ 𝐸 mạng xã hội 𝓝 xác định ánh xạ: 𝑓 𝑓 𝑓 : 𝑈 × 𝐸 → {0,1}, xác định sau: 𝑢 ,𝑒 𝑢 ,𝑒 = 𝑛ế𝑢 𝑢 𝑏ì𝑛ℎ 𝑙𝑢ậ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑏à𝑖 𝑣𝑖ế𝑡 𝑒 ∈ 𝐸 = 𝑛ế𝑢 𝑢 𝑘ℎơ𝑛𝑔 𝑏ì𝑛ℎ 𝑙𝑢ậ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑏à𝑖 𝑣𝑖ế𝑡 𝑒 ∈ 𝐸 Định nghĩa 4.7: J hành vi tham gia nhóm/cộng đồng (Join a group/page) Theo đó, người dùng 𝑢 tham gia vào nhóm 𝑔 xác định ánh xạ: 𝑓 : 𝑈 × 𝐺 → {0,1}, xác định sau: 𝑓 𝑢 ,𝑔 = u có tham gia vào nhóm 𝑔 ∈ 𝐺 𝑓 𝑢 ,𝑔 = u không tham gia vào nhóm 𝑔 ∈ 𝐺 Định nghĩa 4.8: Tập nhóm/cộng đồng mà người dùng 𝑢 ∈ 𝑈 tham gia mạng xã hội N Định nghĩa sau: 𝐺 = {𝑔 ∈ 𝐺 |∀𝑘, 𝑓 (𝑢 , 𝑔 ) = 1} Theo Định nghĩa 4.2, người dùng biểu diễn hành vi đăng/chia sẻ viết, thích viết, bình luận tham gia vào nhóm cộng đồng mạng xã hội Hành vi đăng (post) viết 𝑒 ∈ 𝐸 người dùng 𝑢 ∈ 𝑈 mạng xã hội 𝓝, ký hiệu là: 𝑝𝑜𝑠𝑡 , Hành vi chia sẻ viết được xếp vào hành vi đăng viết việc chia sẻ hành vi đăng lại viết, nội dung từ mạng xã hội Hành vi thích (like) viết 𝑒 ∈ 𝐸 người dùng 𝑢 ∈ 𝑈 mạng xã hội 𝓝, ký hiệu là: 𝑙𝑖𝑘𝑒 Hành vi bình luận viết (comment): Nếu người dùng bình luận viết đăng chia sẻ người dùng 𝑒 ∈ 𝐸 người dùng 𝑢 ∈ 𝑈 mạng xã hội 𝓝, ký hiệu là: 𝑐𝑜𝑚𝑡 , Hành vi tham gia hay gia nhập nhóm (join group) 𝑔 ∈ 𝐺 người dùng 𝑢 ∈ 𝑈 mạng xã hội 𝓝, ký hiệu là: 𝑗𝑜𝑖𝑛 , Khi người dùng 𝑢 biểu diễn dựa hành vi: 𝑢 =< 𝑃 , 𝐿 , 𝐶 , 𝐽 > = {𝑝𝑜𝑠𝑡 , 𝑙𝑖𝑘𝑒 , 𝑐𝑜𝑚𝑡 , 𝑗𝑜𝑖𝑛 }|𝑢 ∈ 𝑈 (4.1) 4.2.2 Biểu diễn mô hình người dùng véc tơ trọng số a Tính giá trị cho hành vi - Giá trị hành vi đăng viết 𝑢 = 𝑝𝑜𝑠𝑡 = 𝒑𝒊 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒏 ) 19 (4.2) - Giá trị hành vi thích viết 𝑢 (4.3) = 𝑙𝑖𝑘𝑒 = 𝒍𝒊 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒎 ) - Giá trị hành vi bình luận viết 𝑢 (4.4) = 𝑐𝑜𝑚𝑡 = 𝒄𝒊 = 𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒑 - Giá trị hành vi gia nhập nhóm mạng xã hội 𝑢 (4.5) = 𝑗𝑜𝑖𝑛 = 𝒋𝒊 = (𝒈𝟏 , 𝒈𝟐 , … , 𝒈𝒑 ) Mỗi người dùng 𝑢 mạng xã hội biểu diễn véctơ dựa hành vi có thành phần sau: (4.6) 𝑢 = (𝒑𝒊 , 𝒍𝒊 , 𝒄𝒊, 𝒋𝒊 ) Nói cách khác biểu diễn người dùng dựa hành vi sau: 𝐸 ⎧ ⎪𝐸 𝑢 = (𝑝𝑜𝑠𝑡 , 𝑙𝑖𝑘𝑒 , 𝑐𝑜𝑚𝑡 , 𝑗𝑜𝑖𝑛 ) = ⎨𝐸 ⎪ ⎩𝐺 = 𝒑𝒊 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒏 ), = 𝒍𝒊 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒎 ), = 𝒄𝒊 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒌 ), (4.7) = 𝒋𝒊 = 𝒈𝒊𝟏 , 𝒈𝒊𝟐 , 𝒈𝒊𝒑 4.2.3 Độ tương tự hai người dùng theo hành vi Mơ hình ước lượng tổng qt Giả sử có hai người dùng 𝑢 𝑢 mạng xã hội N, độ đo tương tự hai người dùng theo hành vi: (𝑢 , 𝑢 ) = 𝑤 (𝑢 , 𝑢 ) + 𝑤 𝑠 ∗𝑠 ∗ 𝑠 (𝑢 , 𝑢 ) +𝑤 (𝑢 , 𝑢 ) + 𝑤 ∗𝑠 ∗𝑠 (𝑢 , 𝑢 ) (4.8) Trong đó: 𝑤 ,𝑤 ,𝑤 , 𝑤 , trọng số hành vi đăng/ chia sẻ viết, hành vi thích viết, hành vi bình luận viết hành vi tham gia nhóm mạng xã hội, chúng thỏa mãn điều kiện: 𝑤 + 𝑤 +𝑤 + 𝑤 = 𝑠 (𝑢 , 𝑢 ) độ tương tự hành vi hai người dùng 𝑢 , 𝑢 Độ tương tự hành vi Độ tương tự dựa hành vi đăng viết: 𝑠 (𝑢 , 𝑢 ) = 𝑠𝑖𝑚 𝐸 = 𝑠𝑖𝑚(𝒑𝒊 , 𝒑𝒌 ) ,𝐸 (4.9) Độ tương tự dựa hành vi thích viết: 𝑠 (𝑢 , 𝑢 ) = 𝑠𝑖𝑚 𝐸 = 𝑠𝑖𝑚(𝒍𝒊 , 𝒍𝒌 ) ,𝐸 Độ tương tự dựa hành vi bình luận viết: Đặt 𝑆1 = 𝑠𝑖𝑚 𝐸 ,𝐸 + 𝑠𝑖𝑚 𝐸 ,𝐸 𝑆2 = 𝑠𝑖𝑚 𝐸 ,𝐸 + 𝑠𝑖𝑚 𝐸 ,𝐸 20 (4.10) Độ tương tự hành vi bình luận người dùng 𝑢 𝑢 định nghĩa công thức sau: ( 𝑢 , 𝑢 ) = 𝑚𝑖𝑛 (1, 𝑚𝑎𝑥(0, |𝑆1 − 𝑆2|)) 𝑠𝑖𝑚 (4.11) Độ tương tự dựa hành vi gia nhập nhóm: 𝑠𝑖𝑚 (𝑢 , 𝑢 ) = 𝑠𝑖𝑚 𝐺 ,𝐺 = 𝑠𝑖𝑚(𝒋𝒊 , 𝒋𝒌 ) (4.12) 4.3 QUAN TÂM CỦA NGƯỜI DÙNG THEO MƠ HÌNH HÀNH VI 4.3.1 Biểu diễn mơ hình hành vi người dùng theo khơng gian chủ đề Mỗi viết xét hành vi đăng, hành vi thích, hành vi bình luận nhóm người dùng tham gia biểu diễn theo không gian chủ đề theo công thức (3.16) người dùng biểu diễn bằng: 𝑢 = 𝐸 ⎧ ⎪𝐸 ⎨𝐸 ⎪ ⎩𝐺 = 𝒑𝒊 𝒕 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒏 ), = 𝒍𝒊 𝒕 = (𝒆𝒊𝟏 , 𝒆𝒊𝟐 , 𝒆𝒊𝒎 ), = 𝒄𝒊 𝒕 = (𝒄𝒊𝟏 , 𝒄𝒊𝟐 , 𝒄𝒊𝒌 ) (4.13) = 𝒋𝒊 𝒕 = 𝒈𝒊𝟏 , 𝒈𝒊𝟐 , 𝒈𝒊𝒑 Trong đó,𝒆𝒌𝒊𝒋 = 𝑒 , 𝑒 , … , 𝑒 , 𝑒 = 𝑡𝑓(𝑡 , 𝑒 ) × 𝑖𝑑𝑓(𝑡 , 𝐸 ) với 𝑡 ∈ 𝓣 4.3.2 Xác định chủ đề quan tâm theo hành vi Giả sử 𝓣 = {𝑇 , 𝑇 , … , 𝑇 } tập chủ đề mạng xã hội N, đó, mức độ liên quan hành vi đăng viết, thích viết gia nhập người dùng 𝑢 với chủ đề 𝓣 tính mức độ liên quan tập viết 𝐸 ,𝐸 ,𝐺 với chủ đề xem xét Ký hiệu tương ứng là: 𝒖𝒕𝒊𝒑𝒐𝒔𝒕 = ( 𝑢 , 𝑢 , … , 𝑢 ) (4.12) 𝒖𝒕𝒊𝒍𝒊𝒌𝒆 = ( 𝑢 , 𝑢 , … , 𝑢 ) 𝒖𝒕𝒊𝒄𝒐𝒎𝒕 = ( 𝑢 , 𝑢 , … , 𝑢 ) (4.13) (4.13) 𝒖𝒕𝒊𝒋𝒐𝒊𝒏 (4.14) = ( 𝑢 , 𝑢 ,…, 𝑢 ) Khi đó, mức độ quan tâm người dùng 𝑢 với chủ đề 𝓣 tính theo cơng thức: 𝒖𝒕𝒊 = 𝑤 ∗ 𝒖𝒕𝒊𝒑𝒐𝒔𝒕 + 𝑤 ∗ 𝒖𝒕𝒊𝒍𝒊𝒌𝒆 + 𝑤 ∗ 𝒖𝒕𝒊𝒋𝒐𝒊𝒏 (4.15) Trong đó, 𝑤 , 𝑤 , 𝑤 trọng số hành vi thỏa mãn 𝑤 + 𝑤 + 𝑤 =1 𝒖𝒕𝒌 độ đo mức quan tâm người dùng đến chủ đề tập 𝓣 4.3.3 Độ tương tự quan tâm người dùng theo chủ đề Khi độ quan tâm tương tự hai người dùng theo hành vi dựa chủ đề tình 21 𝑠𝑖𝑚 (𝑢 , 𝑢 ) = 𝑠𝑖𝑚( 𝒖𝒕𝒊 , 𝒖𝒕𝒋 ) 𝒖𝒕𝒊 , (4.16) 𝒖𝒕𝒋 Trong tính theo cơng thức (4.15), 𝑠𝑖𝑚( 𝒖𝒕𝒊 , 𝒖𝒕𝒋 ) tính cơng thức (2.16) Từ thấy 𝑠𝑖𝑚 (𝑢 , 𝑢 ) nằm khoảng [0,1] 4.5 SO SÁNH VỚI MỘT SỐ MƠ HÌNH KHÁC 4.5.1 Các mơ hình so sánh Luận án thực việc so sánh kết thực mơ hình với 03 mơ hình tính toán dựa TF.IDF liệu văn ngắn gồm: Mơ hình ước lượng độ quan tâm dựa thẻ đánh dấu Sheng Bin et al [125]; Mơ hình ước lượng phát chủ đề quan tâm người dùng dựa Tweet Hossen M F et al [63] mơ hình ước lượng chủ đề quan tâm dựa hành vi đăng (post) hành vi thích (like) Kim J Ko et al [77] KẾT LUẬN Những kết nghiên cứu luận án - Đề xuất mơ hình biểu diễn viết người dùng mạng xã hội dựa năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm cảm xúc Mỗi viết tính tốn, mở rộng ngữ nghĩa theo Wikipedia biểu diễn dạng véctơ có trọng số theo TF.IDF theo đặc trưng chúng - Đề xuất mơ hình biểu diễn hành vi người dùng dựa hành vi đăng/chia sẻ viết, hành vi thích viết, bình luận viết hành vi gia nhập nhóm/cộng đồng mạng xã hội - Đề xuất cách xác định chủ đề quan tâm người dùng dựa ước lượng độ tương quan viết người dùng với chủ đề Độ tương quan tập hợp viết người dùng với chủ đề mức độ quan tâm người dùng đến chủ đề mạng xã hội - Đề xuất cách thức ước lượng độ tương tự hai người dùng theo mơ hình viết mơ hình hành vi Độ tương tự hai người dùng theo mơ hình viết tính dựa việc tích hợp có trọng số độ tương tự đặc trưng viết hai tập viết người dùng Độ tương tự hai người dùng theo hành vi tính dựa tích hợp có trọng số độ tương tự hành vi người dùng Hướng nghiên phát triển luận án Thứ mở rộng liệu nghiên cứu từ liệu kiểu văn sang liệu ảnh, liệu video liên kết viết người dùng mạng xã hội; Thứ hai tiếp tục khảo sát, nghiên cứu liệu văn áp dụng thuật toán có hiệu để phân tích xây dựng thể học (ontology) phát quan tâm người dùng mạng xã hội; Thứ ba vấn đề quan tâm người dùng thay đổi theo thời gian, luận án chưa đề cập đến yếu tố thời gian thu thập liệu thời điểm thu thập liệu thực tiến hành lấy liệu gần thời điểm 22 DANH MỤC CÁC CƠNG TRÌNH NGHIÊN CỨU TẠP CHÍ KHOA HỌC [1] Manh Hung Nguyen, Thi Hoi Nguyen A general model for similarity measurement between objects International Journal of Advanced Computer Science and Applications (IJACSA), 6(2):235 - 239, 2015 [2] Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, Manh Hung Nguyen, Estimating the similarity of social network users based on behaviors, Vietnam Journal of Computer Science (2018) 5:165–175, Springer Opens [3] Nguyễn Thị Hội, Trần Đình Quế, Ước lượng quan tâm người dùng mạng xã hội dựa tương tự viết, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng (JST-UD), Trường Đại học Đà Nẵng, ISSN 1859-1531 – Số 7(128) 2018 [4] Nguyen Thi Hoi, Tran Dinh Que, Estimating user’s interest on social networks based on behaviors, Journal of Science and Technology on Information and Communications, Vol 3, CS.01 (2018), 9-15, ISSN 2525 – 2224 [5] Dinh Que Tran, Thi Hoi Nguyen, Phuong Thanh Pham, Modeling user’s interests, similarity and trustworthiness based on vectors of entries in social networks, Southeast Asian Journal of Sciences, Vol 09, No (2020), pp 01–10 HỘI THẢO KHOA HỌC [6] Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, and Manh Hung Nguyen Multi-feature Based Similarity Among Entries on Media Portals, Advances in Information and Communication Technology, Proceedings of the International Conference, ICTA 12 - 2016, Advances in Intelligent Systems and Computing, ISBN 978-3-319-49072-4, Springer International Publishing Advances in Intelligent Systems and Computing, 538 AISC, pp 373-382, (2017) [7] Nguyen, Thi Hoi; Tran, Dinh Que; Dam, Gia Manh; Nguyen, Manh Hung Integrated Sentiment and Emotion into Estimating the Similarity among Entries on Social Network, 3rd EAI Sep 4, 2017, Springer International Publishing Lecture Notes of the Institute for Computer Sciences, SocialInformatics and Telecommunications Engineering, LNICST, 221, pp 242-253, (2018) [8] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế Độ tương đồng ngữ nghĩa viết mạng xã hội dựa Wikipedia, Kỷ yếu Hội thảo Fundamental and Applied IT Research - FAIR’10, Đà Nẵng 08/2017, NXB Khoa học Tự nhiên Công nghệ [9] Nguyễn Thị Hội, Trần Đình Quế Ước lượng tương tự quan tâm người dùng mạng xã hội dựa vào nhóm tham gia, Kỷ yếu Hội thảo Fundamental and Applied IT Research - FAIR’11, Hà Nội 08/2018, NXB KHTN CN 23 ... 4: Hành vi quan tâm người dùng theo hành vi CHƯƠNG 1: TỔNG QUAN VỀ HÀNH VI, QUAN TÂM VÀ MÔ HÌNH NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI 1.1 Mạng xã hội hành vi người dùng mạng xã hội Mạng xã hội Mạng xã. .. (3.20) CHƯƠNG 4: HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO HÀNH VI TRÊN MẠNG XÃ HỘI 4.1 HÀNH VI CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 4.1.1 Hành vi phân loại hành vi người dùng mạng xã hội Theo [65] [91]... sau: Chương 1: Tổng quan hành vi, quan tâm mơ hình người dùng mạng xã hội Chương 2: Mơ hình quan tâm người dùng theo nội dung vi? ??t Chương 3: Mơ hình quan tâm người dùng dựa vi? ??t mở rộng nhiều