Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng,... Trong bài báo này, chúng tôi đề xuất một mô hình dựa trên phân tích những nhóm tham gia của người dùng trên các mạng xã hội để phát hiện và so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00072 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA VÀO CÁC NHÓM THAM GIA Nguyễn Thị Hội1, Trần Đình Quế2 Trường Đại học Thương mại Học viện Cơng nghệ Bưu Viễn thơng hoint2002@gmai.com, tdque@yahoo.com TÓM TẮT: Phát quan tâm người dùng mạng xã hội chủ đề thu hút nhiều quan tâm nghiên cứu áp dụng nhiều ứng dụng hệ tư vấn người dùng, chiến lược quảng cáo, phân loại người dùng, Trong báo này, đề xuất mơ hình dựa phân tích nhóm tham gia người dùng mạng xã hội để phát so sánh tương quan quan tâm họ, sau đó, đánh giá thực nghiệm với liệu thực Kết thực nghiệm cho thấy hai người dùng có tham gia nhiều nhóm tương tự có quan tâm tương tự ngược lại Từ khóa: Mạng xã hội, nhóm người dùng, quan tâm người dùng, độ đo tương tự I GIỚI THIỆU Theo từ điển Tiếng Việt quan tâm ý để tâm cách thường xuyên đến chủ đề, vật, tượng xảy hoàn cảnh cụ thể Trên mạng xã hội (social network sites) chủ đề quan tâm người dùng thường đa dạng không dễ dàng để xếp vào lĩnh vực cụ thể Người dùng mạng xã hội người tham gia vào trang mạng xã hội bất kỳ, có tài khoản trang mạng xã hội sử dụng mạng để trao đổi, tương tác với người dùng khác Người dùng mạng xã hội thường quan tâm đến nhiều chủ đề khác nhau, chẳng hạn người dùng thường xuyên chia sẻ viết lịch trình chuyến du lịch, tham gia vào nhóm giới thiệu địa điểm du lịch, thường xuyên thích bình luận hình ảnh địa điểm, vị trí du lịch,… xem người dùng quan tâm đến chủ đề du lịch, người dùng thường xuyên ý đến phim bom tấn, tham gia nhóm giới thiệu phim, thường xuyên chia sẻ viết phim, theo dõi lịch chiếu kiện bên lề liên hoan phim,… xem người dùng quan tâm đến chủ đề giải trí phim ảnh,… Như vậy, nói rằng, quan tâm người dùng mạng xã hội để tâm ý thường xuyên đến chủ đề mạng xã hội Hiện nay, với lớn mạnh ảnh hưởng sâu rộng mạng xã hội, nghiên cứu quan tâm người dùng mạng xã hội nhiều cá nhân, tổ chức ý mà chúng cịn có nhiều ứng dụng dịch vụ trực tuyến hệ thống khuyến nghị người dùng, chiến lược quảng cáo sản phẩm, chương trình giới thiệu dịch vụ cho người dùng,… Quan tâm người dùng mạng xã hội hướng nhiều nhà nghiên cứu phân tích đưa nhiều cách thức để thu kết nghiên cứu khác Theo khảo sát chúng tơi, có số cách phát quan tâm người dùng phổ biến dùng phương tiện truyền thơng như: trích xuất thông tin từ thông tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ liên kết người dùng đến người dùng khác [2, 7, 12]; trích xuất hành vi đánh dấu, đăng người dùng [9, 10, 12, 13],… Tuy nhiên, thông tin cá nhân người dùng mạng xã hội khó thu thập yêu cầu bảo mật người dùng người dùng không muốn cung cấp đầy đủ thông tin Thêm nữa, thông tin cá nhân người dùng thường trở ngại phân tích nghiên cứu quan tâm người dùng mạng xã hội Vì vậy, nghiên cứu quan tâm người dùng mạng xã hội năm gần thường theo hai hướng tiếp cận chính: phân tích kết nối, quan hệ bạn bè, danh sách người theo dõi, đánh dấu người dùng mạng xã hội [2, 7, 8]; hai phân tích đăng (status) thuộc tính liên quan đến đăng người dùng mạng xã hội [7, 9, 11, 12] Các nghiên cứu chủ yếu sâu vào vấn đề phát quan tâm cá nhân người dùng mà chưa ý nghiên cứu nhiều mối liên quan người dùng mạng xã hội Vì vậy, báo nhằm đề xuất cách ước lượng quan tâm tương tự hai người dùng dựa nhóm cộng đồng mà họ tham gia theo dõi mạng xã hội Mục đích để trả lời cho câu hỏi: Nếu hai người dùng tham gia số nhóm cộng đồng tương tự liệu họ có quan tâm chủ đề tương tự hay không? ngược lại Trong báo, kỹ thuật N-gram TF-IDF sử dụng để phân tích ước lượng mối tương quan hành vi tham gia nhóm cộng đồng chủ đề quan tâm người dùng, sau mơ hình đề xuất đánh giá so sánh thực nghiệm dựa liệu thực Phần lại báo tổ chức sau: Phần đề xuất cách thức ước lượng mối tương quan quan tâm hành vi người dùng; Phần phần thực nghiệm đánh giá; Phần kết luận Nguyễn Thị Hội, Trần Đình Quế 555 II TƯƠNG TỰ GIỮA CÁC NHÓM VÀ ƯỚC LƯỢNG QUAN TÂM CỦA NGƯỜI DÙNG 2.1 Độ tương tự nhóm cộng đồng mạng xã hội 2.1.1 Nhóm hay cộng đồng mạng xã hội Trong mạng xã hội, có nhiều người dùng kết nối với theo kiểu quan hệ gần với quan hệ thực tế xã hội, chẳng hạn quan hệ bạn bè, quan hệ gia đình, quan hệ đồng nghiệp Trong đó, người dùng có khơng gian cá nhân riêng người dùng có tồn quyền làm việc họ muốn, chẳng hạn đăng viết mơ tả trạng thái cá nhân; thích chia sẻ niềm vui hồn thành cơng việc hay đạt thành tựu đó; trích dẫn chia sẻ lại viết, báo, ảnh, đoạn phim mà thân thấy thú vị tham gia vào nhóm cộng đồng (group) mạng xã hội Nhóm cộng đồng hay group tính cung cấp nhiều trang mạng xã hội Facebook.com có tính Nhóm (group), Twitter.com có tính Nhóm (list), … Mỗi cộng đồng hay nhóm (a community /a group) mạng xã hội tập hợp người quan tâm chủ đề, đối tượng hay nhóm đối tượng Mỗi nhóm biểu diễn meta-data (siêu liệu) chúng, người dùng khơng tham gia từ nhiều nhóm mạng xã hội Mỗi meta-data nhóm xem đặc trưng nhóm, để ước lượng phân tích đặc trưng ký hiệu sau: - Tên nhóm name: Tên nhóm thường đặt theo nguyên tắc đặt tên dịch vụ mạng xã hội cung cấp, tạo người quản trị tạo nhóm, tên nhóm thay đổi q trình tồn hoạt động nhóm - Kiểu loại hình nhóm style: Trên mạng xã hội, loại hình nhóm câu lạc bộ, cộng đồng, hoạt động trường lớp, nhóm mua bán, học tập nghiên cứu, … - Mơ tả nhóm desc: Mơ tả nhóm thường trình bày tổng qt hoạt động nhóm, quy định nội dung thực nhóm Ví dụ minh họa Bảng Bảng Minh họa đặc trưng nhóm mạng xã hội Tên thuộc tính Tên (name) Mơ tả (desc) Loại (styl) Giá trị Mua bán trao đổi Kính thiên văn, Ống nhịm, linh kiện Nơi trao đổi mua bán loại Kính thiên văn, Ống nhòm, linh phụ kiện thiên văn cho bạn toàn quốc Nhận trách nhiệm trung gian trao đổi hàng hóa bạn xa cần xem hàng trả tiền Danh sách nơi mua hàng uy tín, giá tốt Việt Nam: Hội thiên văn Mua bán 2.1.2 Ước lượng độ tương tự nhóm mạng xã hội Để ước lượng độ tương tự quan tâm hai người dùng mạng xã hội dựa nhóm tham gia, trước hết báo ước lượng độ tương tự nhóm mạng xã hội mà hai người dùng tham gia, sau đó, ước lượng độ tương tự nhóm với chủ đề phổ biến mạng xã hội để xem xét độ quan tâm tương tự người dùng dựa chủ đề Việc ước lượng độ tương tự hai nhóm mà hai người dùng tham gia mạng xã hội báo tiến hành sau: Bước 1: Xây dựng từ khóa cho thuộc tính dựa kỹ thuật N-gram Bước 2: Xây dựng vectơ giá trị cho từ khóa cách tính TF-IDF cho từ khóa Bước 3: Ước lượng độ tương tự vectơ bước theo độ đo Cosine Để xây dựng từ khóa cho thuộc tính name, styl desc hai nhóm mạng xã hội theo Bước 1, báo thực cách sử dụng kỹ thuật N-gram mà W B Cavnar J M Trenkle [16] đề xuất để tách thuộc tính nhóm thành từ theo N-gram với N=1, 2, Sau đó, bái báo sử dụng từ điển Wikipedia danh sách từ dừng Tiếng Việt để loại bỏ từ dừng từ nghĩa thu từ khóa thuộc tính nhóm Cách lấy định nghĩa từ danh sách từ dừng báo kế thừa mở rộng từ đề xuất S A Takale S S Nandgaonkar [14], nghiên cứu S A Takale S S Nandgaonkar tách word đơn tìm từ khóa theo NetWord Tiếng Anh, báo áp dụng mở rộng N-gram sử dụng cho ngôn ngữ Tiếng Việt Để xây dựng vectơ giá trị cho từ khóa, báo sử dụng cách tính TF-IDF cho từ khóa tìm Bước TF-IDF (Term Frequency - Inverse Document Frequency) trọng số từ danh sách từ khóa nhóm mà người dùng tham gia TF-IDF tính dựa thống kê mức độ quan trọng hay số lần xuất từ danh sách từ khóa có Cách tính TF-IDF báo thực dựa công trình nghiên cứu [5] sau: 556 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG Giả sử U tập người dùng mạng xã hội ∈ có tập nhóm/group mà người dùng , với ∈ biểu diễn thành phần name, styl desc tham gia Gọi ∈ , ∈ , hai nhóm cộng đồng mạng xã hội mà hai người dùng ∈ tương ứng tham gia Mỗi tập từ khóa nhóm ∈ biểu diễn vectơ tương ứng Gọi số lần từ khóa xuất vectơ v nhóm , tổng số từ khóa vectơ , tổng số nhóm người dùng u, tổng số nhóm người dùng u có chứa từ khóa k Khi đó: ( , )= ứng − ( , , ( , )= )= ( ), ( , )∗ ( , (1) ) (2) Sau tính TF-IDF từ khóa hai vectơ biểu diễn hai nhóm tham gia hai người dùng tương , ∈ , giá trị trọng số hai nhóm lưu vào hai vectơ tương ứng , Khi độ tương tự hai nhóm/group mà , , Trong đó, = , ∈ tham gia tính sau: , (3) vectơ chứa TF-IDF hai nhóm , tương ứng 2.1.3 Ước lượng độ tương tự hai người dùng dựa vào nhóm tham gia mạng xã hội Dựa công thức (3), báo ước lượng độ tương tự hai người dùng dựa nhóm/group mà họ tham gia sau: Gọi , ∈ hai người dùng, người dùng có tập nhóm/group tham gia mạng xã , ∈ người dùng có vectơ trọng số biểu diễn tập nhóm mà họ tham gia tương hội gồm ứng , Với cặp người dùng , ∈ thành phần vectơ tính sau: ∈ tính độ tương tự với tất nhóm g ∈ G Với = ( ( , ), … , ( , )) u tính theo công thức: u ∈ U Mỗi thành phần (4) ∈ m số nhóm , độ tương tự hai nhóm , Trong đó, ứng Mỗi thành phần vectơ tính tương tự Khi đó, độ tương tự hai người dùng , dựa nhóm tham gia tính bằng: , Trong thấy , = ( , tương ∈ ) vec tơ chứa trọng số nhóm tham gia hai người dùng , nằm khoảng [0,1] (5) , tương ứng Có thể 2.2 Ước lượng quan tâm người dùng theo chủ đề 2.2.1 Xác định chủ đề mạng xã hội Phát chủ đề quan tâm đến chủ đề người dùng nhiều nghiên cứu đưa nghiên cứu Bhattacharya et al [2], Diana et al [7], Li Xin et al [9], Sheng Bin et al [13] Bài báo dựa kết nghiên cứu trước nhóm tác giả [11] để áp dụng cho tốn phân loại nhóm/group người dùng theo chủ đề, nhóm nghiên cứu sau phân tích thu danh sách gồm 21 chủ đề 81 chủ đề sử dụng phổ biến mạng xã hội Bài báo kế thừa kết nghiên cứu để áp dụng cho ước lượng phân loại nhóm/group vào chủ đề Ví dụ số chủ đề minh họa Bảng Bảng Ví dụ chủ đề từ khóa chủ đề Chủ đề Giáo dục Cơng nghệ Danh sách từ khóa Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, hệ, giảng dạy, đào tạo, nghiên cứu, trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, toàn cầu, Quốc tế, Kinh tế, Xã hội, Văn hóa, Quốc cơng, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến, giáo dục tiểu học, … Công nghệ, biến đổi, sử dụng, kiến thức, cơng cụ, máy móc, kỹ thuật, kỹ năng, nghề nghiệp, hệ thống, phương pháp, tổ chức, giải quyết, vấn đề, cải tiến, giải pháp, tồn tại, mục đích, thực hiện, chức năng, cụ thể, tập hợp, bao gồm, xếp, quy trình, ảnh hưởng, đáng kể, khả năng, kiểm sốt, thích nghi, người, động vật, mơi trường, tự nhiên, Thuật ngữ, lĩnh vực, công nghệ, xây dựng, khoa học, đôi khi, tương tự, với nhau, chẳng hạn, Tuy vậy, Khoa học, tồn bộ, hoạt động, hình thức, giải thích, tiên đốn, kiểm tra, vũ trụ, ứng dụng, kinh tế, xã hội, thực tiễn, thiết kế, trì, cấu trúc, thiết bị, vật liệu, trình Nguyễn Thị Hội, Trần Đình Quế 557 Mỗi chủ đề sau xác định danh sách từ khóa biểu diễn vectơ trọng số tính tốn theo cơng thức (2) Trong đó, số k chủ đề thứ k danh sách chủ đề w ký hiệu vectơ chứa trọng số từ khóa chủ đề thứ k 2.2.2 Xác định quan tâm theo chủ đề Gọi tập danh sách từ khóa xây dựng từ ba thuộc tính gồm name, styl desc nhóm mà người dùng ∈ gia nhập mạng xã hội T danh sách chủ đề phổ biến mạng xã ∈ có vectơ trọng số hội xây dựng đề cập đến mục B.1 Khi đó, độ tương tự nhóm tính theo TF-IDF với chủ đề ∈ tính bằng: , = ( , ) (6) vec tơ trọng số danh sách từ khóa thu từ nhóm thứ k người dùng ∈ Trong đó, ∈ độ quan tâm dựa vectơ trọng số chủ đề ∈ Sau tính độ tương tự nhóm nhóm tham gia người dùng u ∈ U theo chủ đề t ∈ T tính sau: 0, , ( = , … ∈ (7) , ( Trong đó, n số nhóm mà người xem xét báo , gia nhập ∈ chủ đề thứ j danh sách chủ đề 2.3 Ước lượng quan tâm tương tự người dùng dựa nhóm Với , ∈ mạng xã hội tập nhóm , ∈ , độ quan tâm người dùng ∈ với chủ đề ∈ dựa nhóm tham gia mạng xã hội biểu diễn công thức (7) Dựa công thức ∈ dựa (7), báo, ước lượng độ tương tự quan tâm hai người dùng , ∈ với chủ đề nhóm/group tham gia sau: , , , Có thể thấy = , ( , ( ), , ) (8) nằm khoảng [0,1] Sau đề xuất cách ước lượng độ quan tâm tương tự hai người dùng dựa nhóm/group mà họ tham gia mạng xã hội theo chủ đề nghiên cứu, báo đề xuất giả thuyết rằng: Nếu hai người dùng tương tự theo nhóm/group mà họ tham gia mạng xã hội họ quan tâm đến số chủ đề tương tự ngược lại Để trả lời cho giả thuyết này, phần báo trình bày thực nghiệm dựa liệu thực để kiểm nghiệm lại công thức đề xuất III THỰC NGHIỆM VÀ ĐÁNH GIÁ Như báo trình bày cuối mục II.B, mục đích thực nghiệm kiểm nghiệm giả thuyết báo cho rằng: “Nếu hai người dùng tương tự theo nhóm họ tham gia mạng xã hội họ quan tâm đến số chủ đề tương tự ngược lại” dựa liệu thực 3.1 Thu thập liệu xây dựng tập liệu thử nghiệm Bài báo thực việc thu thập liệu từ trang mạng xã hội Facebook.com Mỗi người dùng trích xuất nhóm họ tham gia, báo thu thập nhóm cơng khai (public) người dùng mà khơng thu thập nhóm bí mật (secret) nhóm kín Trong mơ hình đề xuất, báo xem xét nhóm với ba thuộc tính tên nhóm, mơ tả nhóm loại hình nhóm, nhóm bị khuyết ba đặc trưng báo coi giá trị Null Những nhóm bị khuyết đặc trưng trở lên báo loại bỏ khỏi tập liệu thử nghiệm Sau xử lý, sở liệu thử nghiệm thu 20 người dùng thực tế tạo thành liệu thử nghiệm với 210 cặp người dùng để so sánh, báo thực mã hóa tên người dùng thành danh sách từ U001 đến U020 thành cặp so sánh mẫu liệu minh họa Bảng Bảng Danh sách cặp người dùng thử nghiệm U001 U002 U019 U020 U001 C1,1 U002 C1,2 C2,2 U003 C1,3 C2,3 … U019 C1,19 C2,19 C9,19 U020 C1,20 C2,20 C9,20 C20,20 558 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG Sau phân tích loại bỏ bớt cặp trùng lặp, ví dụ C1,2 C2,1, viết loại bỏ C2,1 để C1,2 Các cặp C1,1 giữ nguyên Bài viết thu tổng cộng số lượng mẫu thử nghiệm Bảng Bảng Bộ liệu mẫu thu Người dùng Số cặp người dùng so sánh Số nhóm tham gia Số lượng 20 210 21 3.2 Thực nghiệm Kịch thực nghiệm thực theo bước sau: Bước 1: Xây dựng từ khóa nhóm mà người dùng tham gia dựa kỹ thuật N-gram, trích chọn từ khóa theo từ điển, loại bỏ từ dừng tính TF-IDF từ khóa thu Bước 2: Ước lượng độ tương tự cặp người dùng theo TF-IDF thu Bước Bước 3: Xây dựng từ khóa chủ đề theo từ điển, tách từ dừng tính TF –IDF chúng Bước 4: Ước lượng độ tương tự nhóm người dùng với chủ đề thu Bước 5: Ước lượng độ quan tâm tương tự cặp người dùng với chủ đề Thực với tất nhóm cặp người dùng liệu thử nghiệm Chi tiết bước thử nghiệm sau: Đầu tiên, phân tích viết thành từ khóa, loại bỏ từ dừng, lấy định nghĩa từ khóa theo từ điển, phân tích lại tính TF-IDF từ khóa minh họa Bảng theo cơng thức (2) Bảng Phân tích nhóm cộng đồng danh sách từ khóa tương ứng Tên (name) Mơ tả (desc) Mua bán trao đổi Kính thiên văn, Ống nhòm, linh kiện Nơi trao đổi mua bán loại Kính thiên văn, Ống nhịm, linh phụ kiện thiên văn cho bạn toàn quốc Nhận trách nhiệm trung gian trao đổi hàng hóa bạn xa cần xem hàng trả tiền Danh sách nơi mua hàng uy tín, giá tốt Việt Nam: Hội thiên văn Loại (styl) Mua bán mua bán, trao đổi, ống nhịm, linh kiện, kính thiên văn, phụ kiện, tồn quốc, trách nhiệm, trung gian, hàng hóa, trả tiền, danh sách, mua hàng, uy tín, giá cả, Việt Nam, văn nghiệp, nghiệp dư, Hà Nội, cửa hàng, giới Một nhóm U011 Từ khóa Sau đó, tính độ tương tự nhóm dựa danh sách từ khóa thu trọng số TF-IDF Ở bước thứ hai cặp nhóm người dùng ước lượng độ tương tự cosine hai vec tơ chứa TF-IDF tương ứng chúng theo công thức (3) Bảng Độ tương tự hai nhóm theo TF-IDF Tên nhóm Từ khóa Mua bán trao đổi Kính thiên văn, Ống nhòm, linh kiện mua bán, trao đổi, ống nhịm, linh kiện, kính thiên văn, phụ kiện, tồn quốc, trách nhiệm, trung gian, hàng hóa, trả tiền, danh sách, mua hàng, uy tín, giá cả, Việt Nam, văn nghiệp, nghiệp dư, Hà Nội, cửa hàng, giới Group Tinh tế tinh tế, anh em, nội dung, phù hợp, thức, diễn đàn, khoa học, cơng nghệ, nghệ được, ưu tiên, số, sau, quảng cáo, điện thoại, hình, đạo lý, vấn đề, nhảm nhỉ, giáo, học sinh, khiếu nại, chữ hoa, giải thích, quy định, áp dụng, phía trước, liên tục Sau đó, báo phân tích định nghĩa chủ đề thành từ khóa dựa kỹ thuật N-gram, loại bỏ từ dừng tính TF –IDF chúng theo cơng thức (2) Cuối cùng, ước lượng độ tương tự nhóm người dùng với chủ đề thu minh họa Bảng Bảng Độ quan tâm người dùng theo chủ đề U001 U003 U006 U007 U008 U010 … Môi trường 0.0159 0.0357 0.0357 0.0349 0.0366 0.0429 … Sức khỏe 0.0133 0.0259 0.0167 0.0218 0.0318 0.0262 … Công nghệ 0.0400 0.0242 0.0264 0.0298 0.0210 0.0239 … Du lịch 0.0293 0.0319 0.0095 0.0247 0.0170 0.0282 … Giáo dục 0.0135 0.0338 0.0281 0.0269 0.0268 0.0 … Hôn nhân 0.0482 0.0244 0.0 0.0229 0.1213 0.0274 … Nguyễn Thị Hội, Trần Đình Quế 559 Độ quan tâm người dùng chủ đề phổ biến mạng xã hội tính theo cơng thức (6) Dựa Bảng công thức (8) để ước lượng độ tương tự quan tâm người dùng theo chủ đề dựa nhóm tham gia, báo lựa chọn ngưỡng , , >=0.55 Những cặp người dùng không thỏa mãn ngưỡng này, báo coi quan tâm tương tự hay khác theo chủ đề mạng xã hội Bảng Độ quan tâm tương tự dựa nhóm/group U001 U002 U003 … U019 U020 U001 1.0 0.633 0.510 U002 U003 1.0 0.327 1.0 … U019 U020 … 0.643 0.121 0.816 0.572 0.744 0.667 … 1.0 0.842 … 1.0 3.3 Đánh giá Để đánh giá độ tương quan công thức (4) công thức (8), báo sử dụng giá trị trung bình độ lệch tuyệt đối giá trị trung bình độ lệch tương đối để tính tốn sau: Đánh giá theo trung bình độ lệch tuyệt đối độ xác mơ hình: , TB độ lệch tuyệt đối = TB | − , , | (9) Với kết từ thực nghiệm từ mẫu liệu thực nghiệm mơ hình đề xuất có trung bình độ lệch tuyệt đối là: 0.118, đó, độ xác mơ hình đề xuất tính theo: CR=(1- TB độ lệch tuyệt đối)*100% , CR thu 88.2% Đánh giá theo trung bình độ lệch tương đối: TB độ lệch tương đối = TB | , , , ( , , , | , (10) ) Với kết từ thực nghiệm mẫu liệu thực nghiệm mơ hình đề xuất có trung bình độ lệch tương đối là: 0.148 Khi đó, độ xác mơ hình đề xuất tính theo: CR =(1- TB độ lệch tương đối)*100% , CR thu có độ xác 85.2% Bảng Đánh giá mơ hình tương quan Facebook TB độ lệch tuyệt đối TB độ lệch tương đối 0.118 0.148 CR theo độ lệch tuyệt đối CR theo độ lệch tương đối 88.2% 85.2% IV KẾT LUẬN Bài báo đề xuất mơ hình ước lượng độ tương tự quan tâm người dùng dựa nhóm mà người dùng tham gia mạng xã hội Mơ hình đề xuất áp dụng việc phân loại người dùng mạng xã hội xác định quan tâm người dùng theo chủ đề ứng dụng chương trình quảng cáo, hệ thống khuyến nghị người dùng, ứng dụng toán dự báo dựa quan tâm người dùng mạng xã hội… [1] [2] [3] [4] [5] [6] TÀI LIỆU THAM KHẢO Attacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Ghosh Saptarshi, Gummadi Krishna P Inferring User Interests in the Twitter Social Network Proceedings of the 8th ACM Conference on Recommender Systems, RecSys '14 pgs 357-360, ACM, New York, NY, USA Bruno Ohana and Brendan Tierney Sentiment classification of reviews using sentiwordnet 2009 Chihli Hung and Hao-Kai Lin Using objective words in sentiwordnet to improve word-of-mouth sentiment classification IEEE Intelligent Systems, 28(2):47–54, 2013 D Manning, Prabhakar Raghavan, Hinrich Schutze, 2008 Introduction to Information Retrieval 27 Oct 2013 Dekang Lin An information-theoretic definition of similarity In Proc 15th International Conf on Machine Learning, pages 296–304 Morgan Kaufmann, San Francisco, CA, 1998 Diana Palsetia, Md Mostofa, Ali Patwary, Kunpeng Zhang , Kathy Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal, Wei-keng Liao, Alok Choudhary User-Interest based Community Extraction in Social Networks ACM, NY, USA, 2012 560 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG [7] Elie Raad, Richard Chbeir, and Albert Dipanda User profile matching in social networks In Proceedings of the 2010 13th International Conference on NetworkBased Information Systems, NBIS’10, pages 297–304, Washington, DC, USA, 2010 IEEE Computer Society [8] Li Xin, Guo Lei, Zhao Yihong Eric Tag-based Social Interest Discovery Proceedings of the 17th International Conference on World Wide Web Beijing, China,pages 675- 684, ACM, New York, NY, USA [9] Manh Hung Nguyen and Thi Hoi Nguyen General model for similarity measurement between objects International Journal of Advanced Computer Science and Applications(IJACSA) 6(2):235-239, 2015 [10] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế Độ tương đồng ngữ nghĩa viết mạng xã hội dựa Wikipedia Hội nghị Khoa học Quốc gia: Nghiên cứu ứng dụng CNTT lần 10 - FAIR'10 Thg8/2017 [11] Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit Sheth User Interests Identification on Twitter Using a Hierarchical Knowledge Base 11th ESWC 2014 (ESWC2014), 2014, May [12] Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou Tag-Based Interest-Matching Users Discovery Approach in Online Social Network International Journal of Hybrid Information Technology Vol 9, No (2016), pp 61-70 [13] Sheetal A Takale, Sushma S Nandgaonkar Measuring semantic similarity between words using web documents International Journal of Advanced Computer Science and Applications (IJACSA) Volume 1, Issue 2010 [14] Nguyen T H., Tran D Q., Dam G M., Nguyen M H (2018) Integrated Sentiment and Emotion into Estimating the Similarity Among Entries on Social Network In: Chen Y., Duong T (eds) Industrial Networks and Intelligent Systems INISCOM 2017 Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 221 Springer, Cham [15] W B Cavnar and J M Trenkle N-gram-based text categorization Ann Arbor MI, 48113(2):161–175, 1994 [16] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai Improving User Topic Interest Profiles by Behavior Factorization 2015, Pages 1406-1416, ACM, New York, NY, USA [17] Perelman L C., Paradis J., Barrett E Mayfield Handbook of Technical and Scientific Writing, Mayfield, Mountain View, California (1997) ESTIMATING USER’S INTEREST ON SOCIAL NETWORKS BASED ON GROUPS Nguyen Thi Hoi, Tran Dinh Que ABSTRACT: Discovering interests of users on social networks is one of the issues attracting many researches and being applied to various fields, such as user recommendations, personalized ads, or categorizing users into groups In this paper, we propose an approach based on the analysis of user’s groups on social networks to detect and compare the correlations of interest of two users on the network Our proposal is also empirically evaluated with the real data The evaluation shows that the more same bahaviors two users have, the more similar interests they have And vice versa, if two users have similar interests, their entries are the same ... độ tương tự quan tâm hai người dùng mạng xã hội dựa nhóm tham gia, trước hết báo ước lượng độ tương tự nhóm mạng xã hội mà hai người dùng tham gia, sau đó, ước lượng độ tương tự nhóm với chủ... TF-IDF hai nhóm , tương ứng 2.1.3 Ước lượng độ tương tự hai người dùng dựa vào nhóm tham gia mạng xã hội Dựa công thức (3), báo ước lượng độ tương tự hai người dùng dựa nhóm/ group mà họ tham gia sau:... chủ đề 2.3 Ước lượng quan tâm tương tự người dùng dựa nhóm Với , ∈ mạng xã hội tập nhóm , ∈ , độ quan tâm người dùng ∈ với chủ đề ∈ dựa nhóm tham gia mạng xã hội biểu diễn công thức (7) Dựa công