Trong bài báo này, nhóm tác giả đề xuất một mô hình dựa trên việc phân tích các bài viết của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ. Mô hình đề xuất được đánh giá bằng thực nghiệm với dữ liệu thực. Kết quả thực nghiệm cho thấy rằng nếu hai người dùng có nhiều bài viết giống nhau thì sẽ có quan tâm tương tự nhau và ngược lại, nếu hai người dùng có quan tâm giống nhau thì cũng có nhiều bài viết tương tự nhau.
Nguyễn Thị Hội, Trần Đình Quế 28 ƯỚC LƯỢNG QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN TƯƠNG TỰ BÀI VIẾT ESTIMATING USER’S INTEREST ON SOCIAL NETWORKS BASED ON ENTRIES SIMILARITY Nguyễn Thị Hội1, Trần Đình Quế2 Trường Đại học Thương mại; hoint@tmu.edu.vn Học viện Công nghệ Bưu Viễn thơng; tdque@yahoo.com Tóm tắt - Phát quan tâm người dùng mạng xã hội chủ đề thu hút nhiều nghiên cứu áp dụng nhiều ứng dụng khuyến nghị người dùng, chương trình quảng cáo cá nhân hóa phân loại người dùng Trong báo này, nhóm tác giả đề xuất mơ hình dựa việc phân tích viết người dùng mạng xã hội để phát so sánh tương quan quan tâm họ Mô hình đề xuất đánh giá thực nghiệm với liệu thực Kết thực nghiệm cho thấy hai người dùng có nhiều viết giống có quan tâm tương tự ngược lại, hai người dùng có quan tâm giống có nhiều viết tương tự Abstract - Discovering interests of users on social networks is one of the issues attracting many researches and being applied to various fields such as user recommendations, personalized ads, or categorizing users into groups In this paper, we propose an approach based on the analysis of user posts on social networks to detect and compare the correlations of interest of two users on the network Our proposal is also empirically evaluated with the real data The evaluation shows that the more similar entries two users have, the more similar interests they have and vice versa If two users have similar interests, their entries are the same Từ khóa - quan tâm người dùng; mạng xã hội; viết mạng xã hội; độ đo tương tự; người dùng mạng xã hội Key words - user’s interest; social network; entry; similarity measure; users on social networks Đặt vấn đề Theo từ điển Tiếng Việt quan tâm ý để tâm cách thường xuyên đến chủ đề, vật, tượng xảy hoàn cảnh cụ thể Trên mạng xã hội (social network sites) chủ đề quan tâm người dùng thường đa dạng không dễ dàng để xếp vào lĩnh vực cụ thể Người dùng mạng xã hội người tham gia vào trang mạng xã hội bất kỳ, có tài khoản trang mạng xã hội sử dụng mạng để trao đổi, tương tác với người dùng khác Các chủ đề quan tâm người dùng mạng xã hội thường đa dạng không dễ dàng để xếp vào lĩnh vực Chẳng hạn người dùng thường xuyên chia sẻ viết phương pháp giáo dục trẻ em, nội dung sách giáo khoa phổ thơng, … xem người dùng quan tâm đến chủ đề giáo dục; người dùng thường xuyên ý đến kiện thể thao diễn trận bóng đá, giải thi đấu, …thì xem người dùng quan tâm đến chủ đề thể thao … Như vậy, nói rằng, quan tâm người dùng mạng xã hội để tâm ý thường xuyên đến chủ đề mạng xã hội Hiện nay, với lớn mạnh ảnh hưởng sâu rộng mạng xã hội, nghiên cứu quan tâm người dùng mạng xã hội nhiều cá nhân, tổ chức ý, mà chúng cịn có nhiều ứng dụng dịch vụ trực tuyến hệ thống khuyến nghị người dùng (recommendation system), chiến lược quảng cáo sản phẩm (product advertising strategy), chương trình giới thiệu dịch vụ cho người dùng … Quan tâm người dùng mạng xã hội hướng nhiều nhà nghiên cứu phân tích đưa nhiều cách thức để thu kết nghiên cứu khác Theo khảo sát nhóm tác giả, có số cách phát quan tâm người dùng phổ biến phương tiện truyền thông như: trích xuất thơng tin từ thơng tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ liên kết người dùng đến người dùng khác (link, follow) [2, 7, 12]; trích xuất hành vi tag, post, … người dùng [9, 10, 12, 13] … Tuy nhiên, thông tin cá nhân người dùng mạng xã hội khó thu thập yêu cầu bảo mật người dùng, người dùng thường xuyên không cung cấp đầy đủ thông tin Thêm nữa, thông tin cá nhân người dùng thường trở ngại phân tích nghiên cứu quan tâm người dùng mạng xã hội Vì vậy, nghiên cứu quan tâm người dùng mạng xã hội năm gần thường theo hai hướng tiếp cận chính: phân tích kết nối, quan hệ bạn bè, danh sách người theo dõi, đánh dấu, … người dùng mạng xã hội [2, 7, 8]; hai phân tích đăng (status) thuộc tính liên quan đến đăng người dùng mạng xã hội [7, 9, 11, 12] Các nghiên cứu chủ yếu sâu vào vấn đề xác định phát quan tâm cá nhân người dùng mà chưa ý nghiên cứu nhiều mối liên quan người dùng mạng xã hội Bài báo nhóm tác giả theo hướng thứ hai, phân tích viết người dùng mạng xã hội để trả lời cho câu hỏi: Nếu hai người dùng có chủ đề quan tâm mạng xã hội, liệu đăng họ có nhiều điểm tương tự với hay không? Và ngược lại, hai người dùng có đăng tương tự mạng xã hội, liệu họ có quan tâm đến chủ đề tương tự hay không? ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 7(128).2018 Trong báo này, kỹ thuật N-gram TF-IDF sử dụng để phân tích ước lượng mối tương quan viết chủ đề quan tâm người dùng Sau đó, mơ hình đề xuất đánh giá so sánh thực nghiệm Phần lại báo tổ chức sau: Phần đề xuất cách thức ước lượng mối tương quan quan tâm viết người dùng; Phần phần thực nghiệm đánh giá; Phần kết luận Độ tương tự viết ước lượng quan tâm người dùng 2.1 Độ tương tự viết mạng xã hội 2.1.1 Mơ hình độ tương tự viết mạng xã hội Mỗi người dùng mạng xã hội khơng có, có nhiều đăng tường họ Mỗi đăng câu văn bản, hình ảnh, video kết hợp nội dung Mỗi đăng người dùng mạng xã hội gọi viết (entry) biểu diễn năm thành phần hay đặc trưng, bao gồm: nội dung (content); đánh dấu (tags); thể loại (category); quan điểm (sentiment) cảm xúc (emotion) Ví dụ với viết người dùng biểu diễn minh họa Bảng Giá trị thành phần xác định theo phương pháp nghiên cứu nhóm tác giả [15] có giá trị sau: content bao gồm nội dung phần viết; tags phần lấy sau dấu # tên người dùng đưa vào viết, ví dụ là: #TrangTraiTrungThuc, Mít Tơ Bót; category xác định dựa đề xuất nghiên cứu [15] có giá trị “nông nghiệp, sản phẩm nông nghiệp …”; sentiment emotion có giá trị “tích cực” “biết ơn” Bảng Ví dụ viết thành phần phân tích Bài viết 16 tháng qua với Từ khóa tương ứng #TrangTraiTrungThuc, tơi Cont thất bại vụ dưa lưới Mít Tơ Bót chạy vạy khắp nơi để học để tìm đường trồng dưa lưới chưa lần thành công! Nhưng ước nguyện dần trở thành thực, người làm việc EcoFarm Bình Phước… Tags (tôi đã, thất bại, chạy vạy, khắp nơi, tìm ra, đường, trở thành, thành sự, thực, …) (người làm, làm việc, trang trại, quy trình, …) Cate (Nơng nghiệp, sản phẩm, …) Sent (tích cực) Emot (biết ơn) 2.1.2 Ước lượng độ tương tự hai viết Giả sử U tập người dùng mạng xã hội Khi 𝑗 đó, 𝑢𝑖 ∈ 𝑈 có tập viết 𝐸𝑖 , với 𝑒𝑖 ∈ 𝐸𝑖 biểu diễn thành phần ký hiệu tương ứng sau: nội dung cont, đánh dấu tags, nhóm viết cate, quan điểm sent cuối cảm xúc ký hiệu emot Khi đó, việc ước lượng độ tương tự hai viết 𝑒𝑖𝑘 ∈ 𝐸𝑖 𝑐ủ𝑎 𝑢𝑖 ∈ 𝑈 𝑣à 𝑒𝑗𝑙 ∈ 𝐸𝑗 𝑢𝑗 ∈ 𝑈 tính tốn cách tích hợp có trọng số độ tương tự thuộc 29 tính hai viết Trong báo này, khoảng cách cosine sử dụng để tính độ tương tự hai viết Đồng thời, báo sử dụng kỹ thuật N-gram giới thiệu W B Cavnar J M Trenkle [16] để xây dựng tập từ khóa kế thừa thuật tốn đề xuất S A Takale S S Nandgaonkar [14], nghiên cứu S.A.Takale S.S Nandgaonkar tách word đơn tìm từ khóa theo NetWord văn Tiếng Anh, báo áp dụng mở rộng N-gram tìm định nghĩa theo Từ điển Wikipedia, sử dụng cho ngôn ngữ Tiếng Việt viết người dùng mạng xã hội Sau đó, sử dụng TF-IDF để xây dựng véc-tơ chứa giá trị thành phần viết người dùng TF-IDF (Term Frequency – Inverse Document Frequency) trọng số từ viết người dùng tính dựa thống kê mức độ quan trọng hay số lần xuất từ viết Mỗi viết 𝑒𝑖𝑘 ∈ 𝐸𝑖 xét nằm tập hợp viết người dùng 𝑢𝑖 ∈ 𝑈 Cách tính TF-IDF báo thực dựa cơng trình nghiên cứu [5] sau: Mỗi viết 𝑒𝑖𝑘 ∈ 𝐸𝑖 biểu diễn véc-tơ tương ứng Gọi 𝑛𝑣 số lần từ khóa 𝑘 xuất véc-tơ 𝑣 viết 𝑒, 𝑁𝑣 tổng số từ khóa véc-tơ 𝑣, 𝑁𝐸 tổng số viết người dùng u, 𝑁𝑘 tổng số viết người dùng u có chứa từ khóa k Khi đó: 𝑣𝑖𝑘 𝑡𝑓(𝑘, 𝑣) = 𝑛𝑣 𝑁𝑣 𝑁 , 𝑖𝑑𝑓(𝑘, 𝑁𝐸 ) = log( 𝐸 ), 𝑁𝑘 (1) 𝑡𝑓 − 𝑖𝑑𝑓(𝑘, 𝑣) = 𝑡𝑓(𝑘, 𝑣) ∗ 𝑖𝑑𝑓(𝑘, 𝑁𝑒 ) (2) Sau tính TF-IDF từ khóa hai véc-tơ biểu diễn, ta có véc-tơ giá trị trọng số hai viết tương ứng ⃗⃗⃗⃗⃗ 𝑣𝑖𝑤 , ⃗⃗⃗⃗⃗ 𝑣𝑗𝑤 Độ tương tự hai viết tính sau: 𝑤 ⃗⃗⃗⃗⃗𝑖𝑤 , 𝑣 ⃗⃗⃗⃗⃗ 𝑠𝑖𝑚𝑒𝑛𝑡𝑟𝑦 (𝑒𝑖 , 𝑒𝑗 ) = 𝐷𝑐𝑜𝑠𝑖𝑛𝑒 (𝑣 (3) 𝑗 ) Trong đó, ⃗⃗⃗⃗⃗ 𝑣𝑖𝑤 , ⃗⃗⃗⃗⃗ 𝑣𝑗𝑤 véc-tơ chứa TF-IDF hai viết 𝑒𝑖 , 𝑒𝑗 tương ứng ⃗⃗⃗⃗⃗𝑖𝑤 , ⃗⃗⃗⃗⃗ 𝐷𝑐𝑜𝑠𝑖𝑛𝑒 (𝑣 𝑣𝑗𝑤 ) tính cho văn sau: Giả sử có véc-tơ biểu diễn cho hai văn i j có dạng: Di = < w1i , w2i , … wti > với wti trọng số từ thứ t j j j j văn i Dj = < w1 , w2 , … wt > với wt trọng số từ thứ t văn j Độ đo tương tự tính Cosine góc hai véc-tơ biểu diễn cho hai văn Di Dj Độ tương tự chúng tính theo cơng thức sau: 𝑠𝑖𝑚(𝐷𝑖𝑗 ) = ∑𝑡𝑘=1 𝑤𝑘𝑖 𝑤𝑘𝑗 √∑𝑡𝑘=1(𝑤𝑘𝑖 )2 ∑𝑡𝑘=1(𝑤𝑘𝑗 )2 Dễ dàng thấy giá trị 𝑠𝑖𝑚𝑒𝑛𝑡𝑟𝑦 (𝑒𝑖 , 𝑒𝑗 ), nằm khoảng [0, 1] 2.1.3 Độ tương tự người dùng theo viết Ước lượng độ tương tự hai người dùng dựa viết tính sau: Gọi 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈 hai người dùng, người dùng có tập viết 𝐸𝑖 , 𝐸𝑗 ∈ 𝐸 người dùng có véc-tơ trọng số biểu diễn viết họ tương ứng ⃗⃗⃗⃗⃗ 𝑢𝑖𝑤 , ⃗⃗⃗⃗⃗ 𝑢𝑗𝑤 Nguyễn Thị Hội, Trần Đình Quế 30 Với cặp người dùng 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈 thành phần véc-tơ ⃗⃗⃗⃗⃗ 𝑢𝑖𝑤 tính sau: Với 𝑒𝑖𝑘 ∈ 𝐸𝑖 𝑢𝑖 tính độ tương tự 𝑒𝑖𝑘 với tất viết 𝑒𝑗𝑙 ∈ 𝐸𝑗 𝑢𝑗 ∈ 𝑈 Mỗi thành phần 𝑢𝑖𝑘 tính theo cơng thức: 𝑢𝑖𝑘 𝑚 𝑢𝑖𝑘 ∑ = 𝑠𝑖𝑚𝑒𝑛𝑡𝑟𝑦 (𝑒𝑘 ,𝑒𝑗 ) 𝑚 𝑘 𝑢𝑗 (4) Mỗi thành phần véc-tơ ⃗⃗⃗⃗⃗ 𝑢𝑗𝑤 tính tương tự Khi đó, độ tương tự hai người dùng 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈 dựa viết tính bằng: ⃗⃗⃗⃗⃗𝑖𝑤 , 𝑢 ⃗⃗⃗⃗⃗𝑗𝑤 ) 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 , 𝑢𝑗 ) = 𝐷𝑐𝑜𝑠𝑖𝑛𝑒 (𝑢 (5) Có thể thấy 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 , 𝑢𝑗 ) nằm khoảng [0, 1] 2.2 Ước lượng quan tâm người dùng theo chủ đề 2.2.1 Xác định chủ đề mạng xã hội Phát chủ đề quan tâm đến chủ đề người dùng nhiều nghiên cứu đưa nghiên cứu Bhattacharya cộng [2], Diana cộng [7], Li Xin cộng [9], Sheng Bin cộng [13] Bài báo dựa kết nghiên cứu có từ tiếng Anh, sau tiến hành xây dựng cải tiến danh sách chủ đề phổ biến tiếng Việt nghiên cứu trước nhóm tác giả [11] Sử dụng kết từ nghiên cứu [11], nhóm tác giả có danh sách gồm 21 chủ đề 81 chủ đề sử dụng phổ biến mạng xã hội Ví dụ số chủ đề minh họa Bảng Bảng Ví dụ chủ đề danh sách từ khóa tương ứng Chủ đề Danh sách từ khóa Giáo dục Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, hệ, giảng dạy, đào tạo, nghiên cứu, trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, toàn cầu, quốc tế, kinh tế, xã hội, văn hóa, quốc công, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến, giáo dục tiểu học, … Môi trường Môi trường, tổ hợp, tự nhiên, xã hội, hệ thống, tập hợp, tương tác, định nghĩa, người, khơng khí, độ ẩm, sinh vật, lồi người, mơi trường, vật chất, đối tượng, tập hợp con, … Mỗi chủ đề sau xác định danh sách từ khóa biểu diễn véc-tơ trọng số ⃗⃗⃗⃗ 𝑡𝑘𝑤 tính tốn theo cơng thức (2) Trong đó, số k chủ đề thứ k danh sách chủ đề w ký hiệu véc-tơ chứa trọng số từ khóa chủ đề thứ k 2.2.2 Xác định quan tâm viết theo chủ đề Với viết 𝑒𝑖 ∈ 𝐸 𝑢𝑖 ∈ 𝑈 theo chủ đề 𝑡𝑗 ∈ 𝑇 mức độ quan tâm tính công thức sau đây: ⃗⃗⃗⃗⃗𝑖𝑤 , ⃗⃗⃗⃗ 𝑠𝑖𝑚𝑒𝑛𝑡𝑟𝑦−𝑡𝑜𝑝𝑖𝑐 (𝑒𝑖 , 𝑡𝑗 ) = 𝐷𝑐𝑜𝑠𝑖𝑛𝑒 (𝑣 𝑡𝑗𝑤 ) (6) Trong đó, ⃗⃗⃗⃗⃗ 𝑣𝑖𝑤 véc-tơ trọng số viết 𝑒𝑖 ∈ 𝐸 𝑢𝑖 ∈ 𝑈 ⃗⃗⃗⃗ 𝑡𝑗𝑤 véc-tơ trọng số chủ đề 𝑡𝑗 ∈ 𝑇 Nghĩa độ quan tâm viết theo chủ đề dựa độ tương tự từ khóa viết từ khóa chủ đề xem xét Dễ dàng thấy 𝑠𝑖𝑚𝑒𝑛𝑡𝑟𝑦−𝑡𝑜𝑝𝑖𝑐 (𝑒𝑖 , 𝑡𝑗 ) nằm khoảng [0, 1] 2.2.3 Độ quan tâm tương tự người dùng theo chủ đề Bây ta định nghĩa mức độ quan tâm người dùng theo chủ đề sau Với 𝑢𝑖 ∈ 𝑈 mạng xã hội tập viết 𝐸𝑖 ∈ 𝐸, độ quan tâm người dùng 𝑢𝑖 ∈ 𝑈 với chủ đề 𝑡𝑗 ∈ 𝑇 biểu diễn véc-tơ ⃗⃗⃗⃗𝑗 (gọi véc-tơ độ quan tâm người dùng 𝑢 đến chủ 𝑞 𝑖 𝑖 đề 𝑡𝑗 mạng xã hội) sau: 𝑗 𝑗 𝑗 𝑗 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑡𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 , 𝑡𝑗 ) = ⃗⃗⃗⃗ 𝑞𝑖 =(𝑞𝑖1 , 𝑞𝑖2 , , 𝑞𝑖𝑛 ) 𝑗 Trong đó, 𝑞𝑖𝑘 với k = n độ quan tâm viết 𝑒𝑖𝑘 ∈ 𝐸𝑖 người dùng 𝑢𝑖 với chủ đề 𝑡𝑗 tính theo công thức (6) Gọi ⃗⃗⃗⃗ 𝑞𝑖𝑘 véc-tơ quan tâm người dùng 𝑢𝑖 ∈ 𝑈 ⃗⃗⃗⃗𝑗𝑘 véc-tơ quan tâm mạng xã hội đến chủ đề 𝑡𝑗 ∈ 𝑇 𝑞 người dùng 𝑢𝑗 ∈ 𝑈 mạng xã hội đến chủ đề 𝑡𝑗 ∈ 𝑇 Khi đó, độ tương tự quan tâm hai người dùng 𝑢𝑖 , 𝑢𝑗 ∈ 𝑈 với chủ đề 𝑡𝑗 ∈ 𝑇 tính bằng: ⃗⃗⃗⃗𝑖𝑘 , ⃗⃗⃗⃗ 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 , 𝑢𝑗 , 𝑡𝑘 ) = 𝐷𝑐𝑜𝑠𝑖𝑛𝑒 (𝑞 𝑞𝑗𝑘 ) (7) Có thể thấy 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 , 𝑢𝑗 , 𝑡𝑘 ) nằm khoảng [0, 1] Sau đề xuất hướng tiếp cận ước lượng độ tương tự hai người dùng dựa viết độ quan tâm tương tự người dùng theo chủ đề, báo đề xuất giả thuyết rằng: Nếu hai người dùng tương tự dựa viết họ quan tâm đến số chủ đề tương tự ngược lại Phần báo trình bày thực nghiệm dựa liệu thực để kiểm nghiệm đánh giá lại giả thuyết Thực nghiệm đánh giá Như báo trình bày cuối mục 2.2.3, mục đích thực nghiệm kiểm nghiệm giả thuyết nêu đánh giá dựa liệu thực 3.1 Thu thập liệu xây dựng tập mẫu Nhóm tác giả thực việc thu thập liệu từ trang mạng xã hội Facebook.com Twitter.com với 150 người dùng cho trang Mỗi người dùng chọn 10 viết gần với thời điểm lấy liệu Trong mơ hình đề xuất, báo xem xét viết chứa văn tiếng Việt, viết không chứa văn bản, chứa ngôn ngữ khác bị loại bỏ khỏi tập liệu Sau xử lý, nhóm tác giả thu 150 người dùng thực việc xây dựng mẫu liệu thực nghiệm sau: Mỗi mẫu cặp người dùng với tập 10 viết tiếng Việt tương ứng sinh tự động cách ghép cặp người dùng, sau đó, tự động loại bỏ cặp trùng nhau, ví dụ (A, B) (B, A) bị loại bỏ một, cặp dạng (A, A) bị loại bỏ khỏi mẫu Cuối cùng, nhóm tác giả thu mẫu liệu Bảng Bảng Bộ mẫu liệu thực nghiệm Facebook.com Twitter.com 150 150 Số lượng viết 1.500 1.500 Số cặp người dùng 11.100 11.100 Số lượng người dùng ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 7(128).2018 3.2 Các bước thực nghiệm Để tiến hành đánh giá mối tương quan dựa thực nghiệm, mẫu liệu thực sau: Bước 1: Mỗi viết 𝑒𝑖 ∈ 𝐸𝑖 người dùng 𝑢𝑖 ∈ 𝑈 phân tích ước lượng véc-tơ trọng số theo công thức (2) lưu lại kết Bước 2: Ước lượng độ tương tự hai người dùng dựa viết theo công thức (5) lưu lại kết Minh họa kết trình bày Bảng Bước 3: Xây dựng véc-tơ trọng số cho chủ đề Bước 4: Xác định độ quan tâm người dùng với chủ đề theo công thức (6) Minh họa kết Bảng Bước 5: Ước lượng độ tương tự quan tâm người dùng theo chủ đề theo công thức (7) Minh họa kết Bảng Bước 6: Ước lượng độ tương quan kết Bảng Bảng Bước 7: Đánh giá thảo luận kết Bảng Độ tương tự người dùng theo viết U001 U001 U003 U006 U007 U008 U010 1,0 U003 0,712 1,0 U006 0,623 0,804 1,0 U007 0,644 0,912 0,733 1,0 U008 0,810 0,941 0,687 0,711 1,0 U010 0,743 0,894 0,791 0,765 0,824 1,0 Độ tương tự hai người dùng tính theo cơng thức (5) minh họa Bảng Trong báo này, hai người dùng coi tương tự dựa viết 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 , 𝑢𝑗 ) ≥ 0,55, ngược lại coi có nhiều viết khác Từ Bảng 4, thấy hai người dùng có nhiều viết tương tự độ tương tự gần đến giá trị Ngược lại, có nhiều viết khơng tương tự độ tương tự hai người dùng xa giá trị Bảng Độ quan tâm người dùng với chủ đề Mơi Chính Sức Cơng Giáo Du lịch trường trị khỏe nghệ dục U001 0,0159 0,0 Hôn nhân 31 Dựa vào Bảng công thức (7) để ước lượng độ tương tự quan tâm người dùng theo chủ đề Để xác định hai người dùng có độ quan tâm tương tự nhau, báo lựa chọn ngưỡng 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 , 𝑢𝑗 , 𝑡𝑘 ) >= 0,55 Những cặp không thỏa mãn ngưỡng coi quan tâm tương tự theo chủ đề mạng xã hội Bảng Độ tương tự quan tâm người dùng theo chủ đề U001 U001 U003 U006 U007 U008 U010 1,0 U003 0,633 1,0 U006 0,590 0,720 1,0 U007 0,573 0,803 0,733 1,0 U008 0,643 0,816 0,644 0,679 1,0 U010 0,674 0,872 0,667 0,654 0,742 1,0 3.3 Đánh giá Để đánh giá độ tương quan công thức (5) công thức (7), báo sử dụng giá trị trung bình độ lệch tuyệt đối giá trị trung bình độ lệch tương đối để đánh sau: Đánh giá theo trung bình độ lệch tuyệt đối: Trung bình độ lệch tuyệt đối tính giá trị tuyệt đối trung bình chung hiệu độ đo tương tự cặp người dùng theo viết độ đo tương tự cặp người dùng theo chủ đề tính sau: TBTĐ=|𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 , 𝑢𝑗 )-𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 , 𝑢𝑗 , 𝑡𝑘 )| (8) Với kết từ thực nghiệm mẫu liệu mơ hình đề xuất có trung bình độ lệch tuyệt đối 0,077 Khi đó, độ xác mơ hình đề xuất là: Độ xác = (1 - trung bình độ lệch tuyệt đối)*100% (9) Và độ xác 92,3% Đánh giá theo trung bình độ lệch tương đối: Trung bình độ lệch tương đối tính thương trung bình chung giá trị tuyệt đối độ tương tự hai người dùng theo viết độ tương tự hai người dùng theo chủ đề chia cho giá trị lớn độ đo tương tự theo viết độ đo tương tự theo chủ đề tính theo công thức: TBTgĐ= |𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 ,𝑢𝑗 )− 𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 ,𝑢𝑗 ,𝑡𝑘 )| MAX(𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑒𝑛𝑡𝑟𝑦 (𝑢𝑖 ,𝑢𝑗 ) ,𝑠𝑖𝑚𝑢𝑠𝑒𝑟−𝑡𝑜𝑝𝑖𝑐 (𝑢𝑖 ,𝑢𝑗,𝑡𝑘 )) 0,0133 0,0400 0,0293 0,0135 0,0482 (10) U003 0,0357 0,0242 0,0259 0,0242 0,0319 0,0338 0,0244 Với kết từ thực nghiệm mẫu liệu mơ hình đề xuất có trung bình độ lệch tương đối 0,084 Khi đó, độ xác mơ hình đề xuất là: Độ xác = (1 - trung bình độ lệch tương đối)*100% (11) Và độ xác 91,2% U006 0,0357 0,0265 0,0167 0,0264 0,0095 0,0281 0,0 U007 0,0349 0,0326 0,0218 0,0298 0,0247 0,0269 0,0229 U008 0,0366 0,0400 0,0318 0,0210 0,0170 0,0268 0,1213 U010 0,0429 0,0499 0,0262 0,0239 0,0282 0,0 Bảng Đánh giá mơ hình tương quan 0,0274 Độ quan tâm người dùng chủ đề phổ biến mạng xã hội tính theo cơng thức (6) Nhìn vào Bảng thấy có giá trị 0,0 khơng có viết tương tự với chủ đề xây dựng Hay nói cách khác người dùng khơng quan tâm đến chủ đề thời điểm Trung bình Trung bình Độ xác Độ xác độ lệch độ lệch theo độ lệch theo độ lệch tương đối tuyệt đối tương đối tuyệt đối Facebook 0,76 0,84 92,4% 91,6% Twitter 0,87 0,91 91,3% 90,9% Nguyễn Thị Hội, Trần Đình Quế 32 0,8 0,6 Sentry 0,4 Stopic 0,2 10 11 12 13 14 15 Hình Độ tương tự người dùng dựa viết chủ đề Biểu diễn ví dụ minh họa với số cặp người dùng thể Hình Hình cho thấy rõ có tương quan viết người dùng chủ đề người dùng quan tâm mạng xã hội Kết luận Bài báo đề xuất mơ hình ước lượng độ tương tự quan tâm người dùng dựa viết mối tương quan viết chủ đề quan tâm người dùng mạng xã hội Mơ hình đề xuất áp dụng việc phân loại người dùng mạng xã hội xác định quan tâm người dùng theo chủ đề ứng dụng chương trình quảng cáo, hệ thống khuyến nghị người dùng, … TÀI LIỆU THAM KHẢO [1] Ashton Anderson, Daniel Huttenlocher, Jon Kleinberg, Jure Leskovec, Effects of user similarity in social media, Proceedings of the Fifth ACM International Conference on Web Search and Data Mining, WSDM’12, New York, NY, USA, 2012, ACM, pp 703-712 [2] Bhattacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Ghosh Saptarshi, Gummadi Krishna P, Inferring User Interests in the Twitter Social Networki, Proceedings of the 8th ACM Conference on Recommender Systems, RecSys ’14, ACM, New York, NY, USA, pp 357-360 [3] Bruno Ohana and Brendan Tierney, Sentiment Classification of Reviews Using Sentiwordnet, 2009 [4] Chihli Hung and Hao-Kai Lin, “Using Objective Words in Sentiwordnet to Improve Word-of-Mouth Sentiment Classification”, IEEE Intelligent Systems, 28(2), 2013, pp 47-54 [5] D Manning, Prabhakar Raghavan, Hinrich Schutze, Introduction to Information Retrieval, 27 Oct 2013 [6] Dekang Lin, An Information-Theoretic Definition of Similarity, in Proc 15th International Conf on Machine Learning, Morgan Kaufmann, San Francisco, CA, 1998, pp 296-304 [7] Diana Palsetia, Md Mostofa, Ali Patwary, Kunpeng Zhang, Kathy Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal, Wei-keng Liao, Alok Choudhary, User-Interest based Community Extraction in Social Networks, ACM, NY, USA, 2012 [8] Elie Raad, Richard Chbeir, and Albert Dipanda, User Profile Matching in Social Networks, in Proceedings of the 2010 13th International Conference on Network Based Information Systems, NBIS’10, Washington, DC, USA, 2010, IEEE Computer Society, pp 297-304 [9] Li Xin, Guo Lei, Zhao Yihong Eric, Tag-based Social Interest Discovery, Proceedings of the 17th International Conference on World Wide Web Beijing, China, ACM, New York, NY, USA, pp 675- 684 [10] Manh Hung Nguyen and Thi Hoi Nguyen, “General Model for Similarity Measurement Between Objects”, International Journal of Advanced Computer Science and Applications (IJACSA), 6(2), 2015, pp 235-239 [11] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế, Độ tương đồng ngữ nghĩa viết mạng xã hội dựa Wikipedia, Hội nghị Khoa học Quốc gia Nghiên cứu ứng dụng CNTT lần 10 - FAIR'10, 8/2017 [12] Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit Sheth, User Interests Identification on Twitter Using a Hierarchical Knowledge Base, 11th ESWC 2014 (ESWC2014), May 2014 [13] Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou, “TagBased Interest-Matching Users Discovery Approach in Online Social Network”, International Journal of Hybrid Information Technology, Vol 9, No 5, 2016, pp 61-70 [14] Sheetal A Takale, Sushma S Nandgaonkar, “Measuring Semantic Similarity Between Words Using Web Documents”, International Journal of Advanced Computer Science and Applications (IJACSA), Vol 1, Issue 4, 2010, pp 78-85 [15] Nguyen T H., Tran D Q., Dam G M., Nguyen M H., Integrated Sentiment and Emotion into Estimating the Similarity Among Entries on Social Network, International Conference on Industrial Networks and Intelligent Systems, INISCOM 2017: Industrial Networks and Intelligent Systems, Vol 221, 2018, pp 242-253 [16] W B Cavnar and J M Trenkle, N-gram-Based Text Categorization, Environmental Research Institute of Michigan, Ann Arbor MI, 48113(2), 1994, pp 161-175 [17] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai, Improving User Topic Interest Profiles by Behavior Factorization, Department of EECS, University of Michigan, ACM, New York, NY, USA, 2015, pp 1406-1416 (BBT nhận bài: 01/4/2018, hoàn tất thủ tục phản biện: 03/6/2018) ... tương quan viết người dùng chủ đề người dùng quan tâm mạng xã hội Kết luận Bài báo đề xuất mơ hình ước lượng độ tương tự quan tâm người dùng dựa viết mối tương quan viết chủ đề quan tâm người dùng. .. viết người dùng; Phần phần thực nghiệm đánh giá; Phần kết luận Độ tương tự viết ước lượng quan tâm người dùng 2.1 Độ tương tự viết mạng xã hội 2.1.1 Mơ hình độ tương tự viết mạng xã hội Mỗi người. .. cận ước lượng độ tương tự hai người dùng dựa viết độ quan tâm tương tự người dùng theo chủ đề, báo đề xuất giả thuyết rằng: Nếu hai người dùng tương tự dựa viết họ quan tâm đến số chủ đề tương tự