Một ước lượng tương quan giữa hành vi và quan tâm của người dùng trên mạng xã hội

8 73 0
Một ước lượng tương quan giữa hành vi và quan tâm của người dùng trên mạng xã hội

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đề xuất một mô hình phân tích một số hành vi của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực.

Nguyễn Thị Hội, Trần Đình Quế MỘT ƯỚC LƯỢNG TƯƠNG QUAN GIỮA HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI Nguyễn Thị Hội*, Trần Đình Quế+ * Trường Đại học Thương Mại + Học viện Công nghệ Bưu Viễn thơng Tóm tắt: Phát quan tâm người dùng mạng xã hội chủ đề thu hút nhiều quan tâm nghiên cứu áp dụng nhiều ứng dụng hệ tư vấn người dùng, chiến lược quảng cáo, phân loại người dùng, Trong báo này, chúng tơi đề xuất mơ hình phân tích số hành vi người dùng mạng xã hội để phát so sánh tương quan quan tâm họ, sau đó, đánh giá thực nghiệm với liệu thực Kết thực nghiệm cho thấy hai người dùng có nhiều hành vi giống có quan tâm tương tự Từ khóa: Mạng xã hội, hành vi người dùng, quan tâm người dùng, độ đo tương tự I MỞ ĐẦU Theo từ điển Tiếng Việt [18] quan tâm ý để tâm cách thường xuyên đến chủ đề đó, chủ đề quan tâm người dùng mạng xã hội thường đa dạng không dễ dàng để xếp vào lĩnh vực đó: Chẳng hạn người dùng thường xuyên chia sẻ viết lịch trình trận tennis, tham gia vào nhóm cổ động viên Man U, thường xun thích bình luận hình ảnh vận động viên …có thể xem người dùng quan tâm đến chủ đề thể thao, người dùng thường xuyên ý đến phim bom tấn, tham gia nhóm hâm mộ ca sĩ, diễn viên đó, thường xuyên theo dõi lịch chiếu kiện bên lề liên hoan phim, …có thể xem người dùng quan tâm đến chủ đề phim ảnh, giải trí …Như vậy, nói rằng, quan tâm người dùng mạng xã hội để tâm ý thường xuyên đến chủ đề mạng xã hội Cũng theo từ điển Tiếng Việt [18], hành vi toàn phản ứng, cách cư xử bên người hồn cảnh cụ thể Còn theo từ điển Wikipedia [19] hành vi chuỗi hành động lặp lặp lại Hành động toàn thể hoạt động (phản ứng, cách ứng xử) thể, có mục đích cụ thể nhằm đáp ứng lại kích thích ngoại giới, hành động phản ứng đối tượng (khách thể) sinh vật, thường sử dụng tác động đến môi trường, xã hội Hành vi thuộc ý thức, tiềm thức, cơng khai hay bí mật, tự giác khơng tự giác Hành vi giá trị thay đổi qua thời gian Hiện nay, với lớn mạnh ảnh hưởng sâu rộng mạng xã hội, nghiên cứu quan tâm người dùng mạng xã hội nhiều cá nhân, tổ chức ý mà chúng có nhiều ứng dụng dịch vụ trực tuyến hệ thống khuyến nghị người dùng, chiến lược quảng cáo sản phẩm, chương trình giới thiệu dịch vụ cho người dùng…Quan tâm người dùng mạng xã hội hướng nhiều nhà nghiên cứu phân tích đưa nhiều cách thức để thu kết nghiên cứu khác Theo khảo sát chúng tơi, có số cách phát quan tâm người dùng phổ biến dùng phương tiện truyền thơng như: trích xuất thông tin từ thông tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ liên kết người dùng đến người dùng khác (follows, link) [2, 7, 12]; trích xuất hành vi đánh dấu, đăng (tag, post)…của người dùng [9, 10, 12, 13]… Tuy nhiên, thông tin cá nhân người dùng mạng xã hội khó thu thập yêu cầu bảo mật người dùng người dùng thường xuyên không cung cấp đầy đủ thông tin Thêm nữa, thơng tin người dùng thường q ít, rời rạc trở ngại nghiên cứu quan tâm người dùng mạng xã hội, vậy, nghiên cứu quan tâm người dùng mạng xã hội năm gần thường theo hai hướng tiếp cận chính: phân tích kết nối, quan hệ bạn bè, danh sách người theo dõi, đánh dấu… người dùng mạng xã hội [2, 7, 8]; hai phân tích đăng (status) thuộc tính liên quan đến đăng người Tác giả liên hệ: Nguyễn Thị Hội Email: hoint2002@gmail.com Đến toàn soạn: 5/2018 , chỉnh sửa: 7/2018 , chấp nhận đăng: 8/2018 SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI… dùng mạng xã hội [7, 9, 11, 12] Các nghiên cứu chủ yếu sâu vào vấn đề xác định phát quan tâm cá nhân người dùng, chưa ý nghiên cứu nhiều mối liên quan người dùng mạng xã hội Bài báo dựa kết nghiên cứu có mơ hình hành vi người dùng để ước lượng quan tâm tương tự người dùng mạng xã hội Phần lại báo tổ chức sau: Phần giới thiệu mơ hình viết ước lượng độ tương tự viết; Phần giới thiệu hành vi ước lượng độ tương tự hành vi; Phần ước lượng quan tâm tương tự người dùng phần phần thực nghiệm đánh giá; II MƠ HÌNH BÀI VIẾT VÀ ĐỘ TƯƠNG TỰ GIỮA CÁC BÀI VIẾT TRÊN MẠNG XÃ HỘI A Mơ hình viết người dùng Trên mạng xã hội, có tập người dùng, người dùng có viết, viết mạng xã hội video clip, ảnh, văn bản, kết hợp thành phần Các viết mạng xã hội thường chia thành hai nhóm: Nhóm thứ viết người dùng tự viết sau đăng lên tường mình, đánh dấu vị trí, đánh dấu người liên quan, đánh dấu cảm xúc … Nhóm thứ hai viết bao gồm nội dung người viết tự viết nội dung chia sẻ viết họ người dùng khác, chia sẻ từ mạng xã hội từ mạng xã hội khác, chia sẻ từ phương tiện truyền thông xã hội khác Bài báo quan tâm đến phần chứa văn (text) đánh dấu (tag) biểu tượng cảm xúc (emotion icon) viết hình ảnh, video, âm thaanh khơng xem xét báo Vì báo, viết mô tả đặc tính chúng, bao gồm: tiêu đề (caption), thể loại (category), đánh dấu (tags), nội dung (content), cảm xúc (emotion), quan điểm (sentiment), … B Độ tương tự viết mạng xã hội Khi đăng viết mạng xã hội người dùng phần thể thái độ ý chủ đề thơng qua viết, vậy, để ước lượng độ tương tự viết đăng người dùng, báo xem xét độ tương tự thành phần đăng người dùng xây dựng từ khóa tương ứng Cách thức xây dựng từ khóa dựa nghiên cứu [10] nhóm tác giả, sau tính tốn ước lượng dựa TF-IDF từ khóa viết Khoảng cách cosine sử dụng để tính độ tương tự hai đối tượng, báo sử dụng kỹ thuật N-gram giới thiệu W.B Cavnar J.M Trenkle [16] để xây dựng tập từ khóa kế thừa mở rộng thuật toán đề xuất S.A.Takale S.S SỐ 03 (CS.01) 2018 Nandgaonkar [14] cho từ Tiếng Anh để xây dựng phân tích N-gram áp dụng cho ngơn ngữ Tiếng Việt Sau phân tích, báo sử dụng TF-IDF để xây dựng vectơ chứa giá trị thành phần hành vi người dùng TF-IDF (Term Frequency – Inverse Document Frequency) trọng số từ tài liệu người dùng tính dựa thống kê mức độ quan trọng hay số lần xuất từ tài liệu đó, cách tính sau: Gọi số lần từ khóa xuất vectơ viết , tổng số từ khóa viết e biểu diễn vectơ tổng số viết người dùng u, tổng số viết người dùng u có chứa từ khóa k Khi đó: Tần suất từ khóa k xuất vec tơ viết e TF tính theo cơng thức (1) sau: ( ) , (1) Tần suất nghịch đảo từ khóa k xuất vec tơ viết e IDF tính theo cơng thức (2) sau: ( ) ( ), (2) Trọng số từ khóa k xuất vec tơ viết e TF-IDF tính theo cơng thức (3) sau: ( ) ( ) ( ) (3) Như dựa công thức (1), (2) (3) báo tính tốn giá trị cho vec tơ thuộc tính viết người dùng mạng xã hội sau: Giả sử U tập người dùng mạng xã hội có tập viết đăng , với viết biểu diễn thành phần, ký hiệu tương ứng sau: nội dung cont, đánh dấu tags, nhóm viết cate, quan điểm sent cuối cảm xúc ký hiệu emot Gọi ứng , hai viết tương , tập từ khóa viết biểu diễn vectơ tương ứng Sau tính TF-IDF từ khóa hai vectơ biểu diễn hai đăng, viết thu vectơ chứa trọng số hai viết tương ứng Khi đó, độ tương tự của hai viết tính theo cơng thức (4) sau: ( ) ( ) (4) Trong đó, vectơ chứa trọng số tính theo TF-IDF hai viết tương ứng III MƠ HÌNH HÀNH VI VÀ ƯỚC LƯỢNG TƯƠNG TỰ HÀNH VI CỦA NGƯỜI DÙNG A Mơ hình hành vi người dùng mạng xã hội Trong mạng xã hội, có nhiều người dùng kết nối với theo kiểu quan hệ quan hệ bạn TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 10 Nguyễn Thị Hội, Trần Đình Quế bè, quan hệ gia đình, quan hệ đồng nghiệp Trong đó, người dùng có khơng gian cá nhân riêng người dùng có tồn quyền làm việc họ muốn, chẳng hạn đăng viết mô tả trạng thái cá nhân; thích chia sẻ niềm vui hồn thành cơng việc hay đạt thành tựu đó; trích dẫn chia sẻ lại viết, báo, ảnh, đoạn phim mà thân thấy thú vị Khi đó, việc ước lượng độ tương tự hai tập hành vi người dùng tính tốn cách tích hợp độ tương tự ba tập thuộc tính post, like comm Để tính độ tương tự thuộc tính hành vi hành vi báo tính tốn sau: Những hành động đăng viết, chia sẻ, thích bình luận viết chia sẻ, tham gia nhóm mạng xã hội… gọi chung hành vi người dùng mạng xã hội Các hành vi mạng xã hội phản ánh phần cách ứng xử người dùng với kiện tượng xảy mạng xã hội Gọi hai người dùng, người dùng có tập viết đăng người dùng có vectơ trọng số biểu diễn viết họ tương ứng ⃗ ⃗ Với cặp người dùng thành phần vectơ ⃗ tính sau: Ví dụ với người dùng mạng xã hội Facebook Hình có thơng tin giới thiệu thân, đăng nội dung viết, chia sẻ nội dung từ phương tiện truyền thơng xã hội khác, nhóm tham gia, thích, bình luận, trả lời bình luận, … Mỗi tính độ tương tự với tất viết Mỗi thành phần tính theo công thức: - Độ tương tự hành vi đăng viết (post) ( ( ) ( )) (5) Bài người dùng viết Bài người dùng chia sẻ Trong đó, m số viết ( ) độ tương tự hai viết tương ứng Mỗi thành phần vectơ ⃗ tính tương tự, đó, độ tương tự hai người dùng dựa hành vi đăng viết tính bằng: Thơng tin cá nhân ( Thơng tin cá nhân Nút thích Nút bình luận Nút chia sẻ Hình Ví dụ người dùng MXH Facebook Các hành vi mạng xã hội có nhiều kiểu khác như: đăng viết, chia sẻ viết, bình luận viết, kết bạn, theo dõi người dùng khác trang khác, … báo tập trung nghiên cứu xem xét hành vi phổ biến bao gồm: đăng viết (post), chia sẻ viết (share), thích viết (like), bình luận viết (comment) Tuy nhiên, hành vi chia sẻ viết mạng xã hội người dùng bao hàm hành vi đăng nên báo xem hành vi chia sẻ đồng với hành vi đăng Trên số mạng xã hội Facebook.com, Twitter.com hành vi bình luận bình luận viết người dùng xem bình luận viết để tránh phức tạp nhập nhằng thống kê bình luận thống khái niệm sử dụng Như vậy, người dùng mạng xã hội báo tập trung xem xét với hành vi sau: đăng viết, thích viết, bình luận viết B Ước lượng độ tương tự hành vi người dùng Giả sử U tập người dùng mạng xã hội, đó, có tập hành vi , với ba hành vi ký hiệu tương ứng như: đăng/chia sẻ post, thích viết like, bình luận viết comm SỐ 03 (CS.01) 2018 ) (⃗ ⃗ ) (6) Trong ⃗ ⃗ vec tơ chứa trọng số viết đăng hai người dùng tương ứng, thấy ( ) nằm khoảng [0,1] - Độ tương tự hành vi thích/ quan tâm viết Mỗi người dùng mạng xã hội thích hay quan tâm (người dùng thể thái độ yêu, mỉm cười, lo âu, buồn, giận dữ…trong báo coi có quan tâm đến viết) bỏ qua viết mạng xã hội, để ước lượng độ tương tự hành vi thích/quan tâm hai người dùng viết báo xem xét tính tốn sau: Gọi tập viết thích/quan tâm người dùng , độ tương tự hành vi thích/quan tâm viết hai người dùng tính độ tương tự hai tập viết thích/quan tâm hai người dùng dựa công thức (5) (6) sau: ( ) (⃗ ⃗ ) (7) Trong ⃗ ⃗ vectơ chứa trọng số viết thích hai người dùng tương ứng, thấy ( ) nằm khoảng [0,1] - Độ tương tự hành vi bình luận viết Mỗi người dùng bình luận thích vài bình luận mà người dùng bình luận TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 11 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI… viết, để ước lượng độ tương tự hành vi bình luận hai người dùng, báo xem xét bình luận hai người dùng viết mà họ bình luận mạng xã hội Các bình luận người dùng với viết mà người dùng bình luận xây dựng từ khóa dựa nghiên cứu [16, 14] tính tốn TF-IDF tập từ khóa cách ước lượng trọng số viết đăng người dùng theo công thức (1), (2) (3) Khi đó, độ tương tự hành vi bình luận hai người dùng báo tính tốn sau: Gọi hai người dùng, người dùng có tập bình luận viết mà họ bình luận đó, người dùng có vectơ trọng số biểu diễn bình luận viết mà họ bình luận tương ứng ⃗ ⃗ Mỗi thành phần ⃗ ⃗ tính cơng thức (5), viết kết hợp thêm bình luận người dùng thuộc tính nội dung cont để tính tốn ước lượng IV ƯỚC LƯỢNG QUAN TÂM TƯƠNG TỰ NGƯỜI DÙNG A Xác định chủ đề mạng xã hội Phát chủ đề quan tâm đến chủ đề người dùng nhiều nghiên cứu đưa nghiên cứu Bhattacharya et al [2], Diana et al [7], Li Xin et al [9], Sheng Bin et al [13] Bài báo dựa kết nghiên cứu trước nhóm tác giả [11] để áp dụng cho toán phân loại viết người dùng theo chủ đề, nhóm nghiên cứu sau phân tích thu danh sách gồm 21 chủ đề 81 chủ đề sử dụng phổ biến mạng xã hội Bài báo kế thừa kết nghiên cứu để áp dụng cho ước lượng phân loại viết người dùng mạng xã hội vào chủ đề Ví dụ số chủ đề minh họa Bảng I sau: Bảng I Ví dụ chủ đề từ khóa chủ đề Chủ đề Giáo dục Khi đó, độ tương tự hành vi bình luận hai người dùng tính dựa công thức (5) (6) sau: ( ) (⃗ ⃗ ) (8) Trong ⃗ ⃗ vec tơ chứa trọng số bình luận viết bình luận hai người dùng tương ứng, thấy ( ) nằm khoảng [0,1] C Độ tương tự người dùng theo hành vi Sau ước lượng độ tương tự tập hành vi hai người dùng độ tương tự hai người dùng dựa hành vi tính sau: Gọi hai người dùng, người dùng có tập hành vi người dùng có vectơ trọng số biểu diễn hành vi họ tương ứng ⃗ ⃗ tính bằng: ( ⃗ ) ( { ) ( ( ) ) ( { ) ( ) ) (⃗ ⃗ ) (11) Trong ⃗ ⃗ vec tơ chứa trọng số hành vi thực mạng xã hội hai người dùng tương ứng, thấy ( ) nằm khoảng [0,1] SỐ 03 (CS.01) 2018 Mỗi chủ đề sau xác định danh sách từ khóa biểu diễn vectơ trọng số tính tốn theo cơng thức (3), đó, số k chủ đề thứ k danh sách chủ đề w ký hiệu vec tơ chứa trọng số từ khóa chủ đề thứ k B Xác định quan tâm theo chủ đề Với người dùng , báo xác định mức ) độ quan tâm hành vi ( theo chủ đề sau: ( (10) Khi đó, độ tương tự hai người dùng dựa hành vi tính bằng: ( Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, hệ, giảng dạy, đào tạo, nghiên cứu, trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, tồn cầu, Quốc tế, Kinh tế, Xã hội, Văn hóa, Quốc công, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến, giáo dục tiểu học, … Môi trường, tổ hợp, tự nhiên, xã hội, hệ thống, tập hợp, tương tác, định nghĩa, người, khơng khí, độ ẩm, sinh vật, lồi người, mơi trường, vật chất, đối tượng, tập hợp con, … Gọi tập viết đăng, thích, bình luận, báo ước lượng độ tương tự viết đăng người dùng với chủ đề tính công thức: (9) ⃗ Môi trường Danh sách từ khóa ) ( ) (11) Trong đó, vectơ trọng số viết vectơ trọng số chủ đề Nghĩa độ quan tâm viết theo chủ đề dựa độ tương tự từ khóa viết từ khóa chủ đề xem xét Khi đó: Độ quan tâm dựa hành vi đăng viết người dùng theo chủ đề tính bằng: TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 12 Nguyễn Thị Hội, Trần Đình Quế ( ) ( ( ( ) {( ( )} (12) ⃗⃗⃗⃗ { ⃗⃗⃗⃗ ) ( ) ( ) } ( (17) ) Trong đó, n số viết đăng người dùng chủ đề thứ j danh sách chủ đề xem xét Trong đó, thành phần hai vec tơ ⃗⃗⃗⃗ ⃗⃗⃗⃗ tính theo công thức (12), (13), (14) (15) Độ quan tâm dựa hành vi thích/quan tâm viết người dùng theo chủ đề tính bằng: Khi đó, độ tương tự quan tâm hai người dùng với chủ đề dựa hành vi tính bằng: ( ( ) ( ( ) {( ( )} (13) Trong đó, m số viết thích/quan tâm người dùng chủ đề thứ j danh sách chủ đề xem xét Độ quan tâm dựa hành vi bình luận viết người dùng theo chủ đề tính bằng: ( ) ( ) {( ( )} (14) Trong đó, p số viết bình luận người dùng chủ đề thứ j danh sách chủ đề xem xét Như vậy, mức độ quan tâm người dùng với chủ đề tính dựa công thức (12), (13), (14) ) ( ) ( ) ( { (15) )} C Độ quan tâm tương tự người dùng theo chủ đề dựa hành vi Với mạng xã hội tập hành vi , độ quan tâm người dùng với chủ đề biểu diễn vectơ (gọi vectơ độ quan tâm người dùng đến chủ đề mạng xã hội) sau: ( ⃗⃗⃗⃗ { ) ) nằm Sau đề xuất hướng tiếp cận ước lượng độ tương tự hai người dùng dựa hành vi độ quan tâm tương tự người dùng theo chủ đề, câu hỏi đặt là: Nếu hai người dùng tương tự dựa hành vi họ có quan tâm đến số chủ đề tương tự hay không? ngược lại? Để trả lời cho câu hỏi này, phần báo trình bày thực nghiệm dựa liệu thực để kiểm nghiệm đưa câu trả lời cho câu hỏi này! ( ( ( ) ) } ) Như báo trình bày mục IV, mục đích thực nghiệm để tìm câu trả lời cho câu hỏi: “Nếu hai người dùng tương tự dựa hành vi họ có quan tâm đến số chủ đề tương tự hay không? ngược lại?” A Thu thập liệu xây dựng tập mẫu Chúng thực việc thu thập liệu từ trang mạng Facebook.com Mỗi người dùng chọn 10 hành vi gần thời điểm lấy liệu bao gồm: 10 đăng (post), 10 viết thích (like), 10 viết bình luận (comment) Trong mơ hình đề xuất, báo xem xét viết, bình luận, viết bình luận, viết thích, viết chia sẻ chứa văn bản, đối tượng khơng chứa văn bị loại bỏ khỏi tập liệu Việc loại bỏ đặc tính khơng phải văn thực tự động thơng qua chương trình tiền xử lý liệu Sau xử lý, báo thu 40 người dùng thực, viết thực mã hóa tên người dùng thành danh sách từ U001 đến U040 thành cặp so sánh Sau phân tích loại bỏ bớt cặp trùng lặp, ví dụ C1,2 C2,1, viết loại bỏ C2,1 để C1,2 Các cặp C1,1 giữ nguyên Bài viết thu tổng cộng số lượng mẫu thử nghiệm Bảng II Bảng II Bộ liệu mẫu thu ⃗⃗⃗⃗ Số lượng (16) Và độ quan tâm người dùng với chủ đề biểu diễn vectơ sau: SỐ 03 (CS.01) 2018 ( Có thể thấy khoảng [0,1] V THỰC NGHIỆM VÀ ĐÁNH GIÁ ( ( (⃗⃗⃗⃗ ⃗⃗⃗⃗ ) (18) ) Người dùng Số cặp so sánh Số đăng Số thích Số bình luận 40 840 400 400 400 B Thực nghiệm TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 13 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI… Kịch thực nghiệm thực theo năm bước sau: 1: Tách từ khóa tính TF_IDF viết 2: Ước lượng độ tương tự viết Bước 5: Ước lượng độ tương tự viết người dùng theo chủ đề theo công thức, để xác định độ quan tâm họ với chủ đề kết minh họa Bảng V Bảng V Độ quan tâm người dùng theo chủ đề 3: Ước lượng độ tương tự người dùng Môi trường 5: Ước lượng độ tương tự quan tâm Thực với tất viết liệu thử nghiệm, cặp người dùng chủ đề xác định, chi tiết bước thử nghiệm sau: Bước 1: Phân tích viết thành từ khóa, loại bỏ từ dừng, lấy định nghĩa từ khóa theo từ điển, phân tích lại tính TF-IDF từ khóa minh họa Bảng III theo cơng thức (2) Bảng III Phân tích viết tính TF-IDF Một viết U011 Chắc chết! Thành phố xanh - Blue city Morocco Quẹt vào lịch thành phố Nhớ người bạn nói tiếng Ả rập lai Pháp Nhớ bị chặn lại sân bay hỏi cô với Nhớ bữa ăn tối Từ khóa TFIDF tương ứng Keyword Tf-idf Keyword Tf-idf thành phố 0.561 bữa ăn 0.223 - blue 0.281 kéo dài 0.281 thành phố 0.561 địa 0.281 nói tiếng 0.281 nói chuyện 0.189 sân 0.281 thơ ca 0.281 sân bay 0.281 triết học 0.223 Bước 2: Tính độ tương tự viết dựa TF-IDF Ở bước thứ hai cặp viết người dùng ước lượng độ tương tự cosine hai vec tơ chứa TF-IDF tương ứng chúng theo công thức (3) Bảng IV Bài viết Bài viết Sim (e1, e2) Độ tương tự hai viết theo TF-IDF Chẳng biết đường mà lần, nước mà lo ? Thưa bà Phan Hà Thủy, Tổng giám đốc Vinschool Trong buổi họp với Ban phụ huynh sáng chiều qua Vinschool, bà có phát ngơn, cách DON’T TAKE IT PERSONAL! Rất nhiền bạn inbox kể cho nghe thân cảm thấy bị tổn thương lời nói người khác Các bạn trách người ta không nhạy cảm, thờ ơ, thiếu trí tuệ cảm 0.02792 Bước 3: Ước lượng độ tương tự người dùng dựa hành vi theo công thức (5), (6), (7) (8) Bước 4: Phân tích định nghĩa chủ đề thành từ khóa theo N-gram, loại bỏ từ dừng tính TF – IDF chúng theo công thức (3) SỐ 03 (CS.01) 2018 Sức khỏe Công nghệ Du lịch Giáo dục Hôn nhân U001 0.0159 0.0133 0.0400 0.0293 0.0135 0.0482 U003 0.0357 0.0259 0.0242 0.0319 0.0338 0.0244 U006 0.0357 0.0167 0.0264 0.0095 0.0281 0.0 U007 0.0349 0.0218 0.0298 0.0247 0.0269 0.0229 U008 0.0366 0.0318 0.0210 0.0170 0.0268 0.1213 U010 0.0429 0.0262 0.0239 0.0282 0.0 0.0274 4: Tách từ khóa TF –IDF chủ đề Độ quan tâm người dùng chủ đề phổ biến mạng xã hội tính theo cơng thức (15) Nhìn vào Bảng V thấy có giá trị 0.0 khơng có viết tương tự với chủ đề xây dựng, hay nói cách khác người dùng khơng quan tâm đến chủ đề thời điểm Dựa Bảng V công thức (16) để ước lượng độ tương tự quan tâm người dùng theo chủ đề dựa hành vi Để xác định hai người dùng có độ quan tâm tương tự nhau, báo lựa chọn ngưỡng ( ) >=0.55 Những cặp không thỏa mãn ngưỡng coi quan tâm tương tự theo chủ đề mạng xã hội Bảng VI Độ quan tâm tương tự dựa hành vi U001 U001 1.0 U002 0.633 U003 0.510 U002 U003 … U039 U040 1.0 … … U039 0.543 0.116 0.844 U040 0.135 0.722 0.507 … 1.0 … 0.644 1.0 C Đánh giá Để đánh giá độ tương quan công thức (11) công thức (18), báo sử dụng giá trị trung bình độ lệch tuyệt đối giá trị trung bình độ lệch tương đối để đánh sau: Đánh giá theo trung bình độ lệch tuyệt đối: TB độ lệch tuyệt đối = TB | ( ) ( ) (19) Với kết từ thực nghiệm từ mẫu liệu mơ hình đề xuất có trung bình độ lệch tuyệt đối 11.8%, đó, độ xác mơ hình đề xuất là: CR= (1- TB độ lệch tuyệt đối)*100% (20) Và độ xác 88.2% Đánh giá theo trung bình độ lệch tương đối: TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 14 Nguyễn Thị Hội, Trần Đình Quế TB độ lệch tương đối = TB ( ( ) ( ( ) Amit Sheth, User Interests Identification on Twitter Using a Hierarchical Knowledge Base 11th ESWC 2014 (ESWC2014) , 2014 , May ) ( )) (21) Với kết từ thực nghiệm mẫu liệu mơ hình đề xuất có trung bình độ lệch tương đối 14.8%, đó, độ xác mơ hình đề xuất là: CR =(1- TB độ lệch tương đối)*100% (22) Và độ xác 85.2% Bảng VII Đánh giá mơ hình tương quan Độ TB độ Độ xác TB độ lệch xác theo độ lệch tuyệt theo độ lệch tương đối lệch tương đối tuyệt đối đối Facebook 0.118 0.148 88.2% 85.2% VI KẾT LUẬN Bài báo đề xuất mơ hình ước lượng độ tương tự quan tâm người dùng dựa hành vi đăng viết, thích viết bình luận viết Mơ hình đề xuất áp dụng việc phân loại người dùng mạng xã hội xác định quan tâm người dùng theo chủ đề ứng dụng chương trình quảng cáo, hệ thống khuyến nghị người dùng… [12] Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou Tag-Based Interest-Matching Users Discovery Approach in Online Social Network International Journal of Hybrid Information Technology Vol 9, No (2016), pp 61-70 [13] Sheetal A Takale, Sushma S Nandgaonkar, Measuring semantic similarity between words using web documents International Journal of Advanced Computer Science and Applications (IJACSA) Volume 1, Issue 2010 [14] Nguyen T.H., Tran D.Q., Dam G.M., Nguyen M.H (2018) Integrated Sentiment and Emotion into Estimating the Similarity Among Entries on Social Network In: Chen Y., Duong T (eds) Industrial Networks and Intelligent Systems INISCOM 2017 Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 221 Springer, Cham [15] W.B Cavnar and J.M Trenkle N-gram-based text categorization Ann Arbor MI, 48113(2):161–175, 1994 [16] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai Improving User Topic Interest Profiles by Behavior Factorization 2015, Pages 1406-1416, ACM, New York, NY, USA [17] Perelman L.C., Paradis J., Barrett E Mayfield Handbook of Technical and Scientific Writing, Mayfield, Mountain View, California (1997) [18] Hoàng Phê (2018), Từ điển Tiếng việt, Viện ngôn ngữ học, NXB Hồng Đức [19] Từ điển Wikipedia, https://www.wikipedia.org/ TÀI LIỆU THAM KHẢO [1] Attacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Ghosh Saptarshi, Gummadi Krishna P Inferring User Interests in the Twitter Social Network Proceedings of the 8th ACM Conference on Recommender Systems, RecSys '14 pgs 357-360, ACM, New York, NY, USA [2] Bruno Ohana and Brendan Tierney Sentiment classification of reviews using sentiwordnet 2009 [3] Chihli Hung and Hao-Kai Lin Using objective words in sentiwordnet to improve word-of-mouth sentiment classification IEEE Intelligent Systems, 28(2):47–54, 2013 [4] D Manning, Prabhakar Raghavan, Hinrich Schutze, 2008, Introduction to Information Retrieval, 27 Oct 2013 [5] Dekang Lin An information-theoretic definition of similarity In Proc 15th International Conf on Machine Learning, pages 296–304 Morgan Kaufmann, San Francisco, CA, 1998 [6] Diana Palsetia, Md Mostofa, Ali Patwary, Kunpeng Zhang , Kathy Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal, Wei-keng Liao, Alok Choudhary UserInterest based Community Extraction in Social Networks ACM, NY, USA, 2012 [7] Elie Raad, Richard Chbeir, and Albert Dipanda User profile matching in social networks In Proceedings of the 2010 13th International Conference on NetworkBased Information Systems, NBIS ’10, pages 297–304, Washington, DC, USA, 2010 IEEE Computer Society [8] Li Xin, Guo Lei, Zhao Yihong Eric Tag-based Social Interest Discovery Proceedings of the 17th International Conference on World Wide Web Beijing, China,pages 675684, ACM, New York, NY, USA [9] Manh Hung Nguyen and Thi Hoi Nguyen general model for similarity measurement between objects,International Journal of Advanced Computer Science and Applications(IJACSA) 6(2):235-239, 2015 [10] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế, Độ tương đồng ngữ nghĩa viết mạng xã hội dựa Wikipedia Hội nghị Khoa học Quốc gia: Nghiên cứu ứng dụng CNTT lần 10 - FAIR'10 Thg8/2017 [11] Pavan Kapanipathi, Prateek Jain , Chitra Venkataramani, SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 15 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI… ESTIMATING USER’S INTEREST ON SOCIAL NETWORKS BASED ON BEHAVIORS Abstract: Discovering interests of users on social networks is one of the issues attracting many researches and being applied to various fields, such as user recommendations, personalized ads, or categorizing users into groups In this paper, we propose an approach based on the analysis of user’s behaviors on social networks to detect and compare the correlations of interest of two users on the network Our proposal is also empirically evaluated with the real data The evaluation shows that the more same behaviors two users have, the more similar interests they have And vice versa, if two users have similar interests, their entries are the same Nguyễn Thị Hội, Nhận học vị Thạc sỹ năm 2006 Hiện công tác Đại học Thương mại Lĩnh vực nghiên cứu: Hệ thống thông tin, khai phá liệu, tính tốn xã hội Đang NCS Học viện Cơng nghệ Bưu Viễn thơng Trần Đình Quế, Nhận học vị Tiến sỹ năm 2000 Hiện cơng tác Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu: Tính tốn thơng minh phân tán, Tính tốn xã hội Khai phá liệu SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 16 ... vi t tương ứng III MƠ HÌNH HÀNH VI VÀ ƯỚC LƯỢNG TƯƠNG TỰ HÀNH VI CỦA NGƯỜI DÙNG A Mơ hình hành vi người dùng mạng xã hội Trong mạng xã hội, có nhiều người dùng kết nối với theo kiểu quan hệ quan. .. TỰ GIỮA CÁC BÀI VI T TRÊN MẠNG XÃ HỘI A Mô hình vi t người dùng Trên mạng xã hội, có tập người dùng, người dùng có vi t, vi t mạng xã hội video clip, ảnh, văn bản, kết hợp thành phần Các vi t mạng. .. 11 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN HÀNH VI vi t, để ước lượng độ tương tự hành vi bình luận hai người dùng, báo xem xét bình luận hai người dùng vi t mà họ bình luận mạng

Ngày đăng: 15/05/2020, 21:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan