Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)

32 339 0
Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát hiện cộng đồng (LV thạc sĩ)

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN ĐỨC KIÊN TƯ VẤN NGƯỜI DÙNG TWITTER SỬ DỤNG LỌC CỘNG TÁC KẾT HỢP PHÁT HIỆN CỘNG ĐỒNG CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 (Khoa học máy tính) TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TỪ MINH PHƯƠNG HÀ NỘI – 2016 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác TÁC GIẢ LUẬN VĂN NGUYỄN ĐỨC KIÊN LỜI CẢM ƠN Trong suốt trình học tập thực luận văn, nhận nhiều quan tâm giúp đỡ, hưỡng dẫn tận tình thầy cô với lời động viên khuyến khích từ phía gia đình, bạn Tôi xin bày tỏ lời cảm ơn chân thành đến tất người Tôi xin tỏ lòng biết ơn sâu sắc đến thầy Từ Minh Phương tận tình hướng dẫn, định hướng cho trình thực đề tài Thầy cho lời khuyên, dẫn, truyền đạt cho kiến thức, kinh nghiệm việc thực luận văn Tôi xin cảm ơn thầy cô khoa Quốc tế đào tạo sau đại học, học viện Công nghệ Bưu Viễn thông tận tình dạy dỗ cho kiến thức bổ ích suốt trình hai năm học tập, giúp nâng cao chuyên môn, làm tảng để hoàn thành khóa luận, tự tin phát triển công việc sau Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân bên, cảm thông, hỗ trợ, giúp đỡ khó khăn công việc, sống trình học tập Hà Nội, tháng 11 năm 2016 Nguyến Đức Kiên i MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT iii DANH MỤC HÌNH VẼ VÀ SƠ ĐỒ iv DANH MỤC BẢNG BIỂU v MỞ ĐẦU CHƯƠNG MẠNG XÃ HỘI TWITTER VÀ PHƯƠNG PHÁP TƯ VẤN NGƯỜI DÙNG TWITTER 1.1 Tổng quan hệ tư vấn 1.1.1 Giới thiệu hệ tư vấn 1.1.2 Kiến trúc hệ tư vấn 1.1.3 Mô tả toán tư vấn 1.1.4 Phân loại hệ tư vấn 1.2 Tư vấn xã hội 1.2.1 Phương tiện xã hội 1.2.2 Khái niệm tư vấn xã hội 1.2.3 Các toán tư vấn xã hội 1.3 Mạng xã hội Twitter đặc trưng thông tin 1.3.1 Mạng xã hội Twitter 1.3.2 Các đặc trưng thông tin Twitter 1.4 Kết luận chương CHƯƠNG PHƯƠNG PHÁP LDA VÀ THỪA SỐ HÓA MA TRẬN VÀ ÁP DỤNG TRONG HỆ TƯ VẤN KẾT BẠN CHO NGƯỜI DÙNG TWITTER 2.1 Tư vấn kết bạn mạng xã hội Twitter 2.1.1 Mối quan hệ người dùng mạng Twitter 2.1.2 Hệ tư vấn hỗ trợ người dùng Twitter 2.2 Cộng đồng mạng xã hội 2.2.1 Khái niệm 2.2.2 Cộng đồng mạng xã hội Twitter 2.3 Phương pháp LDA 10 2.3.1 Giới thiệu mô hình phân tích chủ đề ẩn 10 2.3.2 Mô hình sinh cho tài liệu – LDA 10 2.3.3 Ước lượng tham số với lấy mẫu Gibbs 11 2.3.4 Phân định chủ đề theo mô hình LDA với lấy mẫu Gibbs 12 ii 2.4 Kỹ thuật thừa số hóa ma trận (Matrix factorization) 13 2.5 Phương pháp tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng 14 2.5.1 Ứng dụng LDA phát cộng đồng 15 2.5.2 Kỹ thuật thừa số hóa ma trận tư vấn cộng đồng người dùng 16 2.6 Cài đặt thuật toán 17 2.7 Kết luận chương 18 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ 19 3.1 Dữ liệu thực nghiệm 19 3.2 Phương pháp thử nghiệm 19 3.2.1 Độ đo 19 3.3 Môi trường thực nghiệm 20 3.4 Đánh giá so sánh 20 3.4.1 Kết thực nghiệm 20 3.4.2 So sánh kết với thuật toán khác 21 3.5 Kết luận chương 22 KẾT LUẬN 23 HƯỚNG PHÁT TRIỂN 24 iii DANH MỤC CÁC CHỮ VIẾT TẮT STT Ký hiệu MF Tiếng Anh Matrix factorization LDA CB-MF Latent Dirichlet allocation Community-Based Matrix Factorization DCG Discounted cumulative gain Tiếng Việt Phương pháp thừa số hóa ma trận Mô hình Dirichlet ẩn Phương pháp thừa số hóa ma trận dựa cộng đồng Độ lợi tích lũy giảm dần NDCG Normalized Discounted cumulative gain Độ lợi tích lũy giảm dần chuẩn hóa 10 11 iv DANH MỤC HÌNH VẼ VÀ SƠ ĐỒ Hình 1-1: Ví dụ hệ tư vấn website thương mại Error! Bookmark not defined Hình 1-2: Kiến trúc hệ tư vấn Error! Bookmark not defined Hình 1-3: Ví dụ hệ tư vấn website thương mại Error! Bookmark not defined Hình 1-4: Hoạt động hệ tư vấn chọn lọc hợp tác Error! Bookmark not defined Hình 1-5: Mô hình hệ tư vấn dựa nhân chủng học Error! Bookmark not defined Hình 1-6: Mô hình tư vấn dựa cộng đồng Error! Bookmark not defined Hình 1-7: Mô hình hệ tư vấn lai Error! Bookmark not defined Hình 1-8: Thông tin xã hội biểu diễn ma trận user - user S[6] Error! Bookmark not defined Hình 1-9: Quan hệ người dùng hiển thị tweet theo mối quan hệ Hình 1-10: Tweet có chứa hashtag nội dung Error! Bookmark not defined Hình 1-11: Người dùng Twitter mention người dùng khác Tweet Error! Bookmark not defined Hình 1-12: Nếu ký hiệu mention sử dụng đầu tweet, ý nghĩa hành động reply Error! Bookmark not defined Hình 1-13: Mối quan hệ follower-followee mạng Twitter Error! Bookmark not defined v DANH MỤC BẢNG BIỂU Bảng 1-1: Kết đánh giá người xem phim với số phim khảo sát MỞ ĐẦU Twitter mạng xã hội phổ biến với số lượng người sử dụng lên đến 500 triệu người, cho phép người dùng chia sẻ thông tin thông qua việc đăng tin nhắn phạm vi giới hạn 140 ký tự, gọi tweet status Lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thông tin khổng lồ chia sẻ cập nhật Sự thành công mạng xã hội dựa nhiều khả cách thức mà giúp người dùng tiếp cận “gặp” mạng xã hội hình thành nhóm người dùng: nhóm quan tâm người khác (Follower) nhóm người khác quan tâm (Followee) Twitter đưa danh sách top-K người dùng mà cho người dùng muốn quan tâm hay kết bạn Việc người dùng bấm vào theo dõi hay kết bạn, gọi thành công hệ thống tư vấn Thông thường, hệ tư vấn kết bạn cho người dùng sử dụng thông tin lịch sử tương tác người dùng hệ thống việc đách giá sản phẩm, lịch sử tìm kiếm hay thông tin chia sẻ mạng xã hội Từ thông tin này, hệ thống phân tích liệu đưa tập người dùng có đặc điểm chung sở thích hay quan tâm tới vấn đề Tuy nhiên, lại trở ngại mạng xã hội Twitter việc hạn chế thông tin người thông tin chia sẻ bị giới hạn nội dung chứa nhiều thông tin dư thừa Phương pháp lọc cộng tác lựa chọn phổ biến việc xây dựng hệ tư vấn Phương pháp có ưu điểm sử dụng mối quan hệ người quan tâm người quan tâm (Follower-Followee) giúp tăng độ xác, nhiên phương pháp cho kết xác thấp chạy với liệu thưa Chính vậy, việc xây dựng hệ tư vấn kết bạn cho người dùng nhằm khắc phục khó khăn nêu vấn đề vô quan trọng Em chọn đề tài “Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng” để thực khuôn khổ luận văn tốt nghiệp thạc sỹ ngành khoa học máy tính Trong đề tài này, em nghiên cứu phương pháp tiếp cận dựa vào cộng đồng người dùng cho hệ tư vấn kết bạn cho người dùng mạng xã hội Twitter Mục tiêu phương pháp thành lập tập cộng đồng người dùng để giảm liệu thưa thớt tập trung vào việc khám phá đặc điểm tiềm ẩn cộng đồng thay cá nhân Ở đây, cộng đồng nhóm người dùng có quan tâm tới số chủ đề, lĩnh vực Các cộng đồng phát cách áp dụng phương pháp mô hình hoá chủ đề, cụ thể phương pháp latent Dirichlet allocation (LDA), áp dụng liệu quan hệ follower-followee Twitter để tìm cộng đồng trước áp dụng phương pháp thừa số hoá ma trận (Matrix factorization) cộng đồng Nội dung luận văn cấu trúc thành chương sau Chương 1: Mạng xã hội twitter phương pháp tư vấn người dùng twitter Giới thiệu mạng xã hội Twitter, khái niệm đặc trưng mạng xã hội này, bao gồm mối quan hệ mạng, tác nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua Twitter Giới thiệu cách thức tư vấn áp dụng cho Twitter hạn chế phương pháp Chương 2: Phương pháp LDA thừa số hóa ma trận áp dụng hệ tư vấn kết bạn cho người dùng twitter Trình bày tổng quan hệ tư vấn người dùng, số kỹ thuật hệ tư vấn người dùng tập trung vào kỹ thuật sử dụng luận văn kỹ thuật LDA thừa số hóa ma trận Chương 3: Thử nghiệm đánh giá Chương trình bày phương pháp thử nghiệm đánh giá Kết luận hướng phát triển Trình bày tóm tắt kết đạt chưa đạt Từ đề xuất mục tiêu hướng nghiên cứu, phát triển 10 Sử dụng thông tin follower-followee giúp thành lập cộng đồng người dùng người dùng quan tâm tới vấn đề hay có tầm ảnh hưởng tới vấn đề Phương pháp nghiên cứu luận văn sử dụng phương pháp LDA để phát cộng đồng 2.3 Phương pháp LDA 2.3.1 Giới thiệu mô hình phân tích chủ đề ẩn LDA, mô hình hoàn thiện so với pLSA khắc phục nhược điểm Mô hình chủ đề ẩn LDA sử dụng việc xây dựng liệu cho hệ thống 2.3.2 Mô hình sinh cho tài liệu – LDA Về chất, LDA mô hình Bayesian cấp (cấp từ) phần mô hình coi mô hình trộn hữu hạn sở tập xác suất chủ đề [4] Mô hình trình bày hình sau: Giả sử ta có corpus M tài liệu biểu diễn D = {d1 , d2 , … , dM } Tập từ vựng corpus V Tài liệu m gồm Nm từ wi rút từ tập từ vựng: {t , t , … , t V } for tài liệu 𝑚 ∈ [1, 𝑀 ]do Lấy mẫu tỷ lệ ⃗⃗⃗⃗⃗ 𝑣𝑚 ~𝐷𝑖𝑟(𝛼) Lấy mẫu độ dài tài liệu 𝑁𝑚 ~𝑃𝑜𝑖𝑠𝑠(𝜉) for từ 𝑛 ∈ [1, 𝑁𝑚 ] Lấy mẫu số chủ đề 𝑧𝑚,𝑛 ~𝑀𝑢𝑙𝑡(𝑣 ⃗⃗⃗⃗⃗𝑚 ) Lấy mẫu từ 𝑤𝑚,𝑛 ~𝑀𝑢𝑙𝑡(𝜑 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝑧𝑚,𝑛 ) end for endPhân for phối đồng thời biến biết biến Nn xác định sau, cho trước tham số Dirichlet: 𝑁𝑚 𝑝(⃗⃗⃗⃗⃗⃗ 𝑤𝑚 , ⃗⃗⃗⃗⃗ 𝑧𝑚 , ⃗⃗⃗⃗⃗ 𝑣𝑚 |𝛼, Φ) = ∏ 𝑝(𝑤𝑚,𝑛 |𝜑 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗𝑚 )𝑝(⃗⃗⃗⃗⃗ 𝑣𝑚 |𝛼) 𝑧𝑚,𝑛 )𝑝(𝑧𝑚,𝑛 |𝑣 𝑛=1 Xác suất tài liệu 𝑤 ⃗⃗ 𝑚 tính tích phân 𝑣𝑚 miền 𝑧𝑚 sau: 11 𝑁𝑚 𝑝 (𝑤 ⃗⃗ 𝑚 |𝛼 , Φ) = ∫ 𝑝(𝑣𝑚 |𝛼) ∏ 𝑝(𝑤𝑚,𝑛 |𝑤 ⃗⃗ 𝑚 , Φ)𝑑𝑤 ⃗⃗ 𝑚 (2.1) 𝑛=1 Cuối cùng, xác suất tập liệu 𝑊 = {𝑤 ⃗⃗ 𝑚 }𝑀 𝑚=1 tích tất xác suất tài liệu: 𝑀 𝑝(𝑊 |𝛼, Φ) = ∏ 𝑝(𝑤 ⃗⃗ 𝑚 |𝛼 , Φ) 𝑚=1 (2.2) Quy trình mô tả qua hình đây, tham số mô tả sau: - 𝛼 𝑣à 𝛽 : Tham số mức - 𝑣𝑚 : phân phối chủ đề tài liệu thứ m (Tham số cấp độ tài liệu) ⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ 𝑣𝑚 biểu diễn tham số cho 𝑝(𝑧|𝑑 = 𝑚), thành phần trộn chủ đề cho tài liệu m - 𝑧𝑚,𝑛 : Chỉ số chủ đề (từ thứ n văn m) - 𝑤𝑚,𝑛 : Từ thứ n văn m 𝑧𝑚,𝑛 (Biến cấp độ từ) - 𝜑𝑘 : phân phối từ sinh từ chủ đề𝑧𝑚,𝑛 ⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗ 𝜑𝑘 biểu diễn tham số cho𝑝(𝑡|𝑧 = 𝑘), thành phần trộn chủ đề k - M : số lượng tài liệu - 𝑁𝑚 : Số lượng từ tài liệu thứ m (độ dài văn bản) - 𝐾: Số lượng chủ đề ẩn - 𝐷𝑖𝑟𝑣à 𝑀𝑢𝑙𝑡: phân phối Dirichlet, Multinominal (Đa thức) 2.3.3 Ước lượng tham số với lấy mẫu Gibbs Lấy 𝑤 ⃗⃗⃗⃗ 𝑣à 𝑧 XR hai vector tất từ chủ đề chúng toàn tập liệu W Sử dụng mô hình sinh trên, phân định chủ đề cho từ tính toán dựa phân định chủ đề từ khác Hơn nữa, phân định chủ đề từ t lấy mẫu từ phân phối đa thức sau: 12 (𝑡) 𝑝 (𝑧𝑖 = 𝑘|𝑙,̅ 𝑤 ⃗⃗ ) = 𝑛𝑘,𝑖̅ + 𝛽𝑡 (𝑣) [∑𝑉𝑣=1 𝑛𝑘 + 𝛽𝑣 ] − (𝑘) = 𝑛𝑚,𝑖̅ + 𝛼𝑘 (𝑗) [∑𝐾 𝑗=1 𝑛𝑚 + 𝛼𝑗 ] − (2.4) Trong đó, t số lần từ phân cho chủ đề k: - ∑Vv=1 nk(v) − tổng số từ phân cho chủ đề k trừ phân định thời (k) - nm,i̅ số từ tài liệu m phân cho chủ đề k - ∑Kj=1 n(j) m − tổng số từ tài liệu m trừ từ t Trong trường hợp thông thường, biến Dirichlet α ⃗ , ⃗βlà đều, nghĩa mọiαk giống nhau, tương tự với β Sau trình lấy mẫu Gibbs, hai ma trận Ф Θ tính sau: (𝑡) 𝜑𝑘,𝑡 = 𝑛𝑘 + 𝛽𝑡 (2.5) ∑𝑉𝑣=1 𝑛𝑘(𝑣) + 𝛽𝑣 (𝑘) 𝑣𝑚,𝑘 = (2.6) 𝑛𝑚 + 𝛼𝑘 (𝑗) ∑𝐾 𝑗=1 𝑛𝑚 + 𝛼𝑗 2.3.4 Phân định chủ đề theo mô hình LDA với lấy mẫu Gibbs Cho mô hình LDA ước lượng trước, ta thực phân định chủ đề cho tài liệu chưa biết [4] Một tài liệu 𝑚 ̃ vector từ ⃗⃗⃗⃗⃗ 𝑣̃ 𝑚 ; mục tiêu ước lượng phân phối hậu nghiệm tất chủ đề 𝑧̃ với vector từ ⃗⃗⃗⃗⃗ 𝑣̃ 𝑚 mô hình LDA: 𝐿(Θ, Φ: 𝑝(𝑧|𝑤 ⃗⃗ , 𝐿) = 𝑝(𝑧̃, 𝑤 ⃗̃ ⃗ ,𝑤 ⃗⃗ , 𝑧) Tương tự, ta tính mẫu Gibbs cập nhật sau: (𝑡) 𝑝(𝑧̃𝑖 = 𝑘|𝑧⃗⃗⃗̃𝑙 ̅, 𝑤 ⃗̃⃗ ) = (𝑡) 𝑛𝑘 + 𝑛̃𝑘,𝑖̅ + 𝛽𝑡 (𝑣) (𝑣) [∑𝑉𝑣=1 𝑛𝑘 + 𝑛̃𝑘 + 𝛽𝑣 ] (𝑘) = 𝑛𝑚,𝑖̅ + 𝛼𝑘 (𝑧) [∑𝐾 𝑧=1 𝑛𝑚 ̃ + 𝛼𝑧 ] − (2.7) 13 (𝑡) Trong biến 𝑛̃𝑘 đếm số thể t chủ đề k tài liệu Sau thực thi lấy mẫu chủ đề: Phân phối chủ đề tài liệu 𝑚 ̃ 𝑣̃ ̃ = 𝑚 {𝑣𝑚̃,1 , … , 𝑣𝑚̃,𝑘 , … , 𝑣𝑚̃,𝐾 }với thành phần tính sau: (𝑘) 𝑣𝑚̃,𝑘 = 2.4 𝑛𝑚̃ + 𝑎𝑘 (2.8) (𝑧) ∑𝐾 𝑧=1 𝑛𝑚 ̃ + 𝛼𝑧 Kỹ thuật thừa số hóa ma trận (Matrix factorization) Giả sử ta có người dùng cho điểm đánh giá cho số hạng mục hệ thống, ta dự báo xem người dùng cho điểm đánh cho hạng mục mà họ chưa đánh giá, nghĩa ta tư vấn (dự báo) cho người dùng đánh giá hạng mục chưa họ đánh giá Các thông tin đánh giá lưu trữ ma trận Bảng 2.1 ví dụ ma trận điểm đánh giá gồm có người dùng hạng mục Bảng 2.1 Ma trận điểm đánh giá D1 D2 D3 D4 U1 - U2 - - U3 1 - U4 - - Dấu (-) có nghĩa người dùng Ui chưa có điểm đánh giá hạng mục Dj Ý tưởng kỹ thuật thừa số hóa ma trận xây dựng hệ tư vấn xem ma trận điểm đánh giá R kết nhân từ ma trận có hạng nhỏ P Q Ma trận P gọi ma trận sở người dùng với hàng P tượng trưng cho người dùng Các giá trị piktrong vector hàng i P biểu thị mức độ quan tâm người dùng i đến đặc tính k hạng mục Ma trận Q ma trận đặc tính hạng mục với cột Q tượng trưng cho hạng mục Các giá trị qkj cột j biểu 14 thị mức độ thuộc đặc tính k với hạng mục j Hình 2-2 minh họa cho ý tưởng Như từ ma trận R ban đầu, ta phân rã thành ma trận P Q có hạng thấp Sau tìm P Q cho phép nhân PQ xấp xỉ với R Hình 2-2: Mô hình thừa số hóa ma trận Giả sử ta cần khám phá K đặc tính tiềm ẩn (K < |U|, |D|), ta tìm ma trận P|U|xK Q|D| x K cho tích P x Q xấp xỉ ma trận R, nghĩa là: ̂ 𝑹 ≈ 𝑷 × 𝑸𝑻 = 𝑹 (2.9) Mỗi hàng P biểu diễn mức độ quan tâm người dùng với đặc tính Mỗi hàng Q biểu diễn mức độ thuộc đặc tính hạng mục Để dự báo điểm đánh giá người dùng ui dành cho hạng mục dj, ta tính tích vô hướng hai vector tương ứng với ui dj: 𝐾 𝑟̂𝑖𝑗 = 𝑝𝑖 𝑞𝑗𝑇 = ∑ 𝑝𝑖𝑘 𝑞𝑘𝑗 (2.10) 𝑘=1 Để tìm P Q, khởi tạo trị ban đầu cho P Q, tính M = PQ tối thiểu hóa độ lệch ma trận M với R Mỗi lần lặp lần điều chỉnh P Q để tối thiểu hóa độ lệch M R 2.5 Phương pháp tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng 15 Phương pháp thực giai đoạn: phát cộng đồng tư vấn kết bạn 2.5.1 Ứng dụng LDA phát cộng đồng Gọi U tập người dùng, E tập liên kết người dùng mạng xã hội Mỗi cạnh e(f,g) ∈ E biểu diễn người dùng f follow người dùng g Gọi F ⊂ U tập người quan tâm người khác (follower) G ⊂ U tập người người khác quan tâm (followee) F,G biểu diễn sau: 𝐹 = {𝑢|𝑢 ∈ 𝑈 ∧ ∃𝑔 ∈ 𝑈 ∧ ∃𝑒(𝑢, 𝑔) ∈ 𝐸 } (2.11) 𝐺 = {𝑢|𝑢 ∈ 𝑈 ∧ ∃𝑓 ∈ 𝑈 ∧ ∃𝑒(𝑓, 𝑢) ∈ 𝐸 } Người dùng u có follower f followee g, người liên quan tới tài liệu df dg Nội dung văn df danh sách followee u, nội dung văn dg danh sách follower u ta biểu diễn sau: 𝑑𝑓 : {𝑢 ∈ 𝑈 ∧ ∃𝑒(𝑓, 𝑢) ∈ 𝐸 } (2.12) 𝑑𝑔 : {𝑢 ∈ 𝑈 ∧ ∃𝑒(𝑢, 𝑔) ∈ 𝐸 } Tập ngữ liệu D biểu diễn bởi: 𝐷 = ⋃ 𝑑𝑓 ∪ ⋃ 𝑑𝑔 𝑓∈𝐹 (2.13) 𝑔∈𝐺 Chúng ta áp dụng LDA vào D để sinh trước số lượng chủ đề Z Hình sau mô tả mô hình phương pháp này: 16 Hình 2-6: Mô hình phương pháp LDA Với chủ đề 𝑧 ∈ 𝑍, thành lập cộng đồng c biểu diễn c.F c.G tập follower followee c: 𝑐 𝐹 = {𝑓|𝑓 ∈ 𝐹 ∧ Pr(𝑧|𝑑𝑓 ) > 𝛾} (2.14) 𝑐 𝐺 = {𝑔|𝑔 ∈ 𝐺 ∧ Pr(𝑧|𝑑𝑔 ) > 𝛾} Trong 𝛾 giá trị ngưỡng Tập cạnh c biểu diễn c.E mối quan hệ follower followee mạng xã hội : 𝑐 𝐸 = {𝑒(𝑓, 𝑔)|𝑒(𝑓, 𝑔) ∈ 𝐸 ∧ 𝑓 ∈ 𝑐 𝐹 ∧ 𝑔 ∈ 𝑐 𝐺 } (2.15) Dữ liệu đầu gia giai đoạn sinh cộng đồng tập cộng đồng C, số lượng cộng đồng số lượng chủ đề Z : |C| = |Z| 2.5.2 Kỹ thuật thừa số hóa ma trận tư vấn cộng đồng người dùng Sau xây dựng tập cộng đồng 2.4.1, giai đoạn sinh ứng viên mà người dùng muốn quan tâm dựa cộng đồng mà người thuộc Phương pháp thừa số hóa ma trận lần đề xuất bái báo số [15] cho hệ thống khuyến nghị, áp dụng dự đoán đánh giá cho cho mặt hàng (item) Trong phần này, luận văn sử dụng phương pháp để đưa khuyến nghị cho người dùng 17 Nếu đánh giá mức độ quan tâm người f tới người g dựa thang điểm từ tới 1, giá trị lớn thể mức độ quan tâm người f tới người g lớn việc tính toán giá trị tính dựa vào công thức sau: 𝑠𝑐𝑜𝑟𝑒(𝑓, 𝑔, 𝑐 ) = 〈𝑝𝑓 , 𝑞𝑔 〉 (2.16) Do người f, g thuộc nhiều cộng đồng khác nên sau thực tính điểm ta thu danh sách giá trị cộng đồng Để thực chọn giá trị phù hợp nhất, ta sử dụng hai cách sau: - Chọn số điểm lớn nhất: 𝑚𝑎𝑥𝑆𝑐𝑜𝑟𝑒 (𝑓, 𝑔) = max(𝑠𝑐𝑜𝑟𝑒(𝑓, 𝑔, 𝑐)) 𝑐∈𝐶 (2.17) - Tính tổng trung bình tất số điểm tập cộng đồng chứa f g 𝑠𝑢𝑚𝑆𝑐𝑜𝑟𝑒 (𝑓, 𝑔) = ∑(𝑠𝑐𝑜𝑟𝑒(𝑓, 𝑔, 𝑐) × Pr(𝑐|𝑓)) (2.18) 𝑐∈𝐶 Trong Pr(𝑐|𝑓) xác suất f thuộc vào cộng đồng c Giá trị tương ứng với Pr(𝑧|𝑑𝑓 ) phương pháp LDA Ta thực việc tính toán số điểm tập người dùng cộng đồng mà f thuộc về, từ xếp danh sách thu top-k ứng viên để khuyến nghị cho người f 2.6 Cài đặt thuật toán Dữ liệu đầu vào: - Dữ liệu quan hệ mạng xã hội bao gồm liên kết: 𝐸 = {𝑒(𝑓, 𝑔)} - Số lượng cộng đồng N - Số lượng đặc trưng tiềm ẩn L - Ngưỡng 𝛾 Dữ liệu đầu ra: - Danh sách người dùng xếp hạng để tư vấn cho follower 18 Các bước xử lý: Thuật toán CB-MF: 𝐹 ← {𝑓|∃𝑒(𝑓, 𝑔) ∈ 𝐸 }; 𝐺 ← {𝑔|∃𝑒(𝑓, 𝑔) ∈ 𝐸 }; 𝑈 ← 𝐹 ∪ 𝐺; 𝐷 = ∅; foreach 𝑓 ∈ 𝐹do 6⌊ 𝑑𝑓 ={𝑢|𝑢∈𝑈 ⋀ ∃𝑒(𝑓,𝑢)∈𝐸} 𝐷=𝐷∪{𝑑𝑓 } foreach 𝑔 ∈ 𝐺do 8⌊ 𝑑𝑔 ={𝑢|𝑢∈𝑈 ⋀ ∃𝑒(𝑢,𝑔)∈𝐸} 𝐷=𝐷∪{𝑑𝑔 } 𝑍 ← 𝐿𝐷𝐴(𝐷, 𝑁); 10 𝐶 = ∅; 11 foreach 𝑧 ∈ 𝑍do 𝑐←∅ 12 𝑧𝑑 𝑐.𝐺={𝑔|𝑔𝜖𝐺 ⋀ Pr(𝑧|𝑑𝑔 )>𝛾} 𝑐.𝐹={𝑓|𝑓𝜖𝐹 ⋀ Pr( | 𝑓 )>𝛾}; 𝑐.𝐸={𝑒(𝑓,𝑔)|𝑒(𝑓,𝑔)𝜖𝐸 ⋀ fϵc.F ⋀ g∈c.G} ⌊ 𝐶=𝐶∪{𝑐} 13 𝑅 = ∅; 14 foreach 𝑐 ∈ 𝐶 𝑐𝑜𝑛𝑡𝑟𝑢𝑐𝑡𝑚𝑎𝑡𝑟𝑖𝑥 𝑀𝑐 𝑀𝐹 (𝑀𝑐, 𝐿); 15⌊ 𝑅𝑐 = {𝑠𝑐𝑜𝑟𝑒 (𝑓, 𝑔, 𝑐 )|𝑓 ∈ 𝑐 𝐹⋀𝑔 ∈ 𝑐 𝐺 } 𝑅 = 𝑅 ∪ {𝑅𝑐 }; 16 𝑅𝑒𝑠𝑢𝑙𝑡 = ∅; 17 foreach 𝑝𝑎𝑖𝑟(𝑓, 𝑔) 𝑐𝑜𝑚𝑝𝑢𝑡𝑒𝑠𝑖𝑚𝑆𝑐𝑜𝑟𝑒 (𝑓, 𝑔)(𝑜𝑟𝑚𝑎𝑥𝑆𝑐𝑜𝑟𝑒)𝑎𝑐𝑐𝑜𝑟𝑑𝑖𝑛𝑔 18 ⌊ 𝑡𝑜𝐸𝑞𝑢𝑎𝑡𝑖𝑜𝑛 5(𝑜𝑟7); 19 Return the ranked lists of followees for each follower; 2.7 Kết luận chương Chương trình bày cụ thể phương pháp thừa số hóa ma trận từ áp dụng phương pháp vào giai đoạn hai để tư vấn người dùng cộng đồng dựa kết giai đoạn 19 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ Chương trình bày thực nghiệm phương pháp nghiên cứu chương số phương pháp tư vấn cổ điển tập liệu người dùng Twitter, từ kết thực nghiệm này, luận văn đưa nhận xét đánh giá phương pháp nghiên cứu chương 3.1 Dữ liệu thực nghiệm Nguồn liệu thực nghiệm công bố trang web: https://an.kaist.ac.kr/traces/WWW2010.html Bảng 3-1: Thống kê số liệu thực nghiệm Thông số Giá trị Số người dùng 41.7 triệu Số liên kết người dùng 1.47 tỷ 3.2 Phương pháp thử nghiệm Trước tiên, toàn liệu thử nghiệm chia thành hai phần, phần sử dụng làm liệu huấn luyện, phần lại sử dụng để kiểm tra Tập huấn luyện chứa 90% tập kiểm tra chứa 10% Dữ liệu huấn luyện sử dụng để xây dựng mô hình theo thuật toán mô tả Với người dùng tập liệu, thuật toán đưa tư vấn top-k user Top-k user kiểm tra độ xác hay không dựa liệu kiểm tra 3.2.1 Độ đo Các độ đo sử dụng thử nghiệm thuật toán: Độ xác: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑘 ) = Độ nhạy: 𝑁𝑘 𝑘 (0.1) 20 𝑅𝑒𝑐𝑎𝑙𝑙 (𝑘 ) = F – measure 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 𝑁𝑘 𝑁ℎ𝑖𝑡 (0.2) × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (0.3) Conversion rate 𝐶𝑜𝑛𝑣𝑒𝑟𝑠𝑖𝑜𝑛 𝑅𝑎𝑡𝑒 = { 𝑛ế𝑢 |𝐿 ∩ 𝐿′ | > 0 𝑛ế𝑢 |𝐿 ∩ 𝐿′ | ≤ (0.4) nDCG: 𝑛𝐷𝐶𝐺 = 𝐷𝐶𝐺𝑝 𝐼𝐷𝐶𝐺𝑝 (0.7) Trong đó: IDCGp (Ideal Discounted cumulative gain) giá trị DCG trường hợp kết đưa hoàn hảo, nhận tất tài liệu xếp vị trí tương ứng với độ phù hợp chúng 3.3 Môi trường thực nghiệm Cấu hình phần cứng Bảng 3-1 : Môi trường thực nghiệm Thành phần Bộ vi xử lý (CPU) Bộ nhớ (RAM) Ổ cứng (SSD) Ngôn ngữ lập trình Hệ điều hành (OS) 3.4 Chỉ số Intel Core I7 3.4 GHz 8192 MB 200 GB Java Windows 10 Đánh giá so sánh 3.4.1 Kết thực nghiệm Trong phần trình bầy kết thực nghiệm phương pháp tư vấn nghiên cứu chương (CB-MF) tập tham số đầu vào khác Các tham số đầu vào bao gồm : 21 - Số đặc trưng tiềm ẩn L, giá trị đặc trưng chọn 16 - Ngưỡng : giá trị thay đổi khoảng từ 0.01 đến 0.08 - Số lương cộng đồng N: giá trị thay đổi khoảng từ đến 20 Bảng 3-3: Kết thực nghiệm thuật toán CB-MF N=5 N=10 N=15 N=20 𝜸 0.01 sum 0.071 max 0.061 sum 0.072 max 0.064 sum 0.074 max 0.066 sum 0.071 max 0.057 0.02 0.072 0.063 0.068 0.070 0.060 0.069 0.056 0.04 0.068 0.059 0.074 0.069 0.069 0.068 0.057 0.066 0.060 0.08 0.066 0.058 0.068 0.065 0.066 0.068 0.068 0.059 Kết thực nghiệm cho thấy thuật toán CB-MF cho kết tốt thực tư vấn số cộng đồng N= 10, ngưỡng 𝜸 = 𝟎 𝟎𝟐 sử dụng công thức đánh giá sumScore 3.4.2 So sánh kết với thuật toán khác Kết thực nghiệm: Bảng 3-4: Kết Conversion Rate Top-K CF MF CB-MF 5.2 8.1 13.3 6.8 13.1 18.7 10.9 15.4 22.1 13.1 15.2 17.2 19.2 24.9 27.5 Bảng 3-5: Kết thực nghiệm độ đo Precision Top-K CF MF CB-MF 4.812 8.6 13.5 4.425 7.8 11.3 4.359 6.784 9.895 4.215 6.314 9.547 22 4.151 6.189 9.124 Bảng 3-6: Kết thực nghiệm độ đo Recall Top-K CF MF CB-MF 1.121 2.015 2.931 1.945 3.212 4.418 2.376 4.012 5.617 3.215 4.973 7.041 4.158 5.784 7.985 Bảng 3-7: Kết thực nghiệm độ đo NDCG Top-K CF MF CB-MF 4.749 8.641 13.417 4.522 7.928 11.875 4.912 8.317 12.174 5.214 8.557 12.758 5.634 8.674 13.154 Kết thực nghiệm cho thấy thuật toán CB-MF nghiên cứu luận văn cho kết tốt so với thuật toán lọc cộng tác cổ điển phương pháp thừa số hóa ma trận Điều cho thấy tác dụng việc sử dụng phương pháp LDA việc phát cộng đồng vào hệ tư vấn tích cực 3.5 Kết luận chương Phương pháp CB-MF cho kết tốt cả độ đo, điều giúp luận văn khẳng định tính khả thi phương pháp khẳng định tính đắn vấn đề lý thuyết nêu chương 23 KẾT LUẬN Mạng xã hội hệ tư vấn mạng xã hội vấn đề nhiều nhà nghiên cứu quan tâm Các hệ tư vấn mạng xã hội áp dụng nhiều lĩnh vực đời sống kinh tế, trị, giáo dục, y tế khoa học công nghệ… Luận văn mô tả tổng quan lọc cộng tác phương pháp cổ điển hệ tư vấn mạng xã hội, khái niệm liên quan vấn sở yếu tố xã hội tác động tới hệ tư vấn từ nghiên cứu phương pháp đề xuất để giải vấn đề tận dụng mặt tích cực mạng xã hội Đặc biệt luận văn trọng trình bày lý thuyết, giải thuật phương pháp LDA vào việc phát cộng đồng kết hợp với phương pháp tư vấn hệ tư vấn mạng xã hội Phương pháp cho thấy kết tích cực điều thể qua thực nghiệm trình bày luận văn Cụ thể, kết thực nghiệm cho thấy: - Sử dụng yếu tố cộng đồng mạng xã hội hệ tư vấn sử dụng phương pháp lọc cộng tác cho kết khả quan so với phương pháp lọc cộng tác đơn - Việc áp dụng phương pháp LDA việc cộng đồng dựa yếu tố tương đồng tư người sinh văn kết bạn khả quan cho kết tích cực - Phương pháp matrix factorization cho mạng xã hội cho kết tốt áp dụng vào mạng cộng đồng, điều cho thấy tính khả thi phương pháp khẳng định tính đắn vấn đề lý thuyết nêu chương 24 HƯỚNG PHÁT TRIỂN - Áp dụng phương pháp tư vấn người dùng sử dụng lọc cộng tác kết hợp phát cộng đồng mapreduce để cải thiện tốc độ giúp xử lý liệu lớn Tiếp tục nghiên cứu thêm phương pháp phát cộng đồng nhằm đưa kết so sánh khách quan việc sử dụng phương pháp LDA phương pháp phát cộng đồng khác ... pháp tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng 15 Phương pháp thực giai đoạn: phát cộng đồng tư vấn kết bạn 2.5.1 Ứng dụng LDA phát cộng đồng Gọi U tập người dùng, ... pháp tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng 14 2.5.1 Ứng dụng LDA phát cộng đồng 15 2.5.2 Kỹ thuật thừa số hóa ma trận tư vấn cộng đồng người. .. việc xây dựng hệ tư vấn kết bạn cho người dùng nhằm khắc phục khó khăn nêu vấn đề vô quan trọng Em chọn đề tài Tư vấn người dùng Twitter sử dụng lọc cộng tác kết hợp phát cộng đồng để thực khuôn

Ngày đăng: 27/04/2017, 14:13

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan