Đề tài được làm rõ ở Luận văn này nhằm đề xuất phương pháp cải thiện mô hình tính hạng mà tác giả đã đề xuất trong thành mô hình với cốt lõi là phương pháp học tính hạng, xây dựng đặc trưng nội dung dựa trên mô hình LDA, và xây dựng đặc trưng người dùng dựa trên luật kết hợp. Nội dung của luận văn chia thành 4 chương, để nắm rõ nội dung chi tiết mời các bạn cùng tham khảo toàn văn của tài liệu.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ TƯƠI ỨNG DỤNG CÁC MƠ HÌNH CHỦ ĐỀ ẨN VÀO MƠ HÌNH PHÂN HẠNG LẠI DỊNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY Hà Nội - 2016 MỞ ĐẦU Ngày nay, mạng xã hội phát triển mạnh mẽ mang nhận xét, đánh giá, thông tin phản ánh xã hội thực tới người, ngày sâu vào sống Chúng cung cấp nhiều thông tin cập nhật có tính thời gian thực có từ kết nối trực tuyến người Dòng tin đến trang cá nhân người dùng gọi dòng cập nhật người dùng Mặc dù dòng cập nhật đưa đến thơng tin mới, tồn hạn chế khơng người dùng phải dành nhiều thời gian với dòng cập nhật, có khơng tin dòng cập nhật mang lại thông tin không cần thiết cho họ Nhiều người dùng rơi vào tình cảnh bị ngập dòng cập nhật mà khơng thể xử lý chúng cách đầy đủ Với mục đích giải vấn đề này, giải pháp quan tâm xếp tin dòng cập nhật cho hợp lý với người dùng Liangjie Hong cộng (2012) nêu bật vấn đề xếp hạng dòng cập nhật (gọi tắt Xếp hạng dòng) Bài tốn xếp hạng dòng mạng xã hội đặt để giải vấn đề cập nhật tin cho người dùng, đưa danh sách tin dòng cập nhật theo thứ tự (theo "hạng") quan tâm người dùng, hình thức tư vấn cho người dùng Với tốn này, việc xếp hạng tin dòng cập nhật cần vào lịch sử hành vi người dùng để tìm mối quan hệ cá nhân người dùng với đối tượng xếp hạng, chí quan hệ với người dùng khác Tương tự mạng xã hội khác, người dùng Twitter đối mặt với lượng lớn dòng cập nhật liên tục từ người bạn Trong phạm vi luận văn, chúng tơi tập trung vào tốn xếp hạng dòng mạng xã hội Twitter, tiếp tục đề cập tới mơ hình hệ thống xếp hạng dòng [1] Phương pháp phương pháp học tính hạng CRR [2] (Combined Regression and Ranking) sử dụng Mơ hình xếp hạng dòng sử dụng thuật tốn học tính hạng – thuật tốn dựa tảng học máy, nên việc xây dựng tập liệu huấn luyện cần thiết Chúng tìm yếu tố đặc trưng tweet Như phát biểu [1], yếu tố nội dung tweet - yếu tố sở tất yếu cho trình học, tìm dựa vào phương pháp phân cụm khơng giám sát, mơ hình chủ đề ẩn [3, 4] Yếu tố nội dung biểu diễn hình thức tập phân phối tweet theo chủ đề Trong mơ hình xếp hạng dòng, mơ hình chủ đề ẩn LDA sử dụng Ngồi yếu tố nội dung, độ ảnh hưởng người dùng nhận diện yếu tố quan trọng Các cập nhật người dùng có độ ảnh hưởng lớn thường nhiều người theo dõi [5, 6] Dựa quan điểm này, chúng tơi nhận thấy dòng cập nhật từ người bạn có ảnh hưởng tới người dùng xét nên tư vấn cho người dùng Hay nói cách khác, độ ảnh hưởng người dùng (user influence) nên tham gia vào q trình học tính hạng Do vậy, định cải thiện mô hình tính hạng [1] với tham gia đặc trưng độ ảnh hưởng người dùng Trong [7], Fredik cộng thực tìm người dùng có độ ảnh hưởng lớn mạng xã hội dựa vào khai phá luật kết hợp Học theo phương pháp này, chúng tơi cơng thức hóa độ ảnh hưởng người dùng qua số lượng luật kết hợp tìm tập tweet Thuật toán khai phá luật kết hợp sử dụng thuật toán Apriori [8] Khái quát lại, luận văn đề xuất phương pháp cải thiện mô hình tính hạng mà chúng tơi đề xuất [1] thành mơ hình với cốt lõi phương pháp học tính hạng, xây dựng đặc trưng nội dung dựa mơ hình LDA, xây dựng đặc trưng người dùng dựa luật kết hợp Nội dung luận văn chia thành chương sau: Chương 1: Luận văn trình bày dòng cập nhật người dùng mạng xã hội Twitter phát biểu tốn xếp hạng dòng cập nhật Đồng thời nêu lên hướng giải ý nghĩa tốn Chương 2: Luận văn trình bày phương pháp mà mơ hình đề xuất sử dụng: phương pháp học tính hạng, mơ hình chủ đề ẩn luật kết hợp Chương 3: Luận văn trình bày mơ hình xếp hạng dòng cách hoạt động mơ hình Chương 4: Luận văn trình bày thực nghiệm cho việc áp dụng mơ hình xếp hạng chương vào việc tính hạng tập tweet người dùng Twitter DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER VÀ BÀI TỐN XẾP HẠNG DỊNG Chương Mạng xã hội Twitter dòng cập nhật Twitter Twitter dịch vụ mạng xã hội đời năm 2006, trang microblog phát triển Twitter Inc, cung cấp dịch vụ mạng miễn phí cho phép người dùng sử dụng gửi nhận tin nhắn (tweet), trở thành tượng phổ biến tồn cầu Tính đến tháng 12 năm 2012, số lượng thành viên Twitter lên tới gần 500 triệu người dùng [9] Dòng cập nhật mạng xã hội Twitter hiểu dòng cập nhật người dùng Người dùng A following B, A gọi follower B, B gọi followee A Khi followee đăng thông điệp, thông điệp hiển thị timelines follower [10] Khi số lượng followee lớn lượng dòng cập nhật đến trang follower lên tới hàng trăm tweet Cheng Li cộng [10] số lượng dòng cập nhật lớn, cập nhật hiển thị đầu, thay cập nhật cũ Như người dùng rơi vào tình cảnh bị tràn ngập thơng tin dễ bỏ qua tin cần thiết với thân họ Giải pháp xếp hạng dòng cập nhật người dùng đưa để giải vấn đề 1.1 Hình 1.1 Minh họa dòng cập nhật Twitter Bài tốn xếp hạng dòng cập nhật Bài tốn xếp hạng dòng cập nhật tốn xếp cập nhật đến trang người dùng Trước phát biểu toán mạng xã hội Twitter, đưa số định nghĩa để tường minh toán 1.2 1.2.1 Một số định nghĩa • Dòng mạng xã hội Twitter hiểu dòng cập nhật người dùng Mỗi người dùng có thơng điệp (các cập nhật) đăng bạn bè trang họ, dòng cập nhật họ • Xếp hạng dòng mạng xã hội Twitter xếp hạng thông điệp người dùng mạng xã hội 1.2.2 Bài tốn xếp hạng dòng cập nhật Bài tốn xếp hạng dòng mạng xã hội Twitter toán xếp tweet xuất trang người dùng theo mức độ quan tâm người dùng Ta có: Tập người dùng mạng xã hội Twitter 𝑈 = {𝑢𝑖 }, 𝑖 = 1, 𝑁 Tập người dùng mà ui following 𝑈𝑖 = {𝑢𝑖′ }, 𝑖 ′ = 1, 𝑛 (𝑖 ≠ 𝑖 ′ ) Tập tweet hiển thị trang nhà (home) ui 𝑇𝑢𝑖 = {𝑡𝑢𝑖𝑗 } Đây tập hợp tweet người dùng tập 𝑈𝑖 đăng lên Twitter Nhiệm vụ toán thứ tự tweet 𝑡𝑘 theo mức độ quan tâm người dùng ui Bài toán phát biểu sau: Input: Các tweet đưa lên trang người dùng 𝑢𝑖 Output: Danh sách tweet theo thứ tự giảm dần mức độ quan tâm người dùng 𝑢𝑖 Hướng tiếp cận giải toán Để giải tốn xếp hạng dòng cập nhật hay tweet đến người dùng, hồn tồn áp dụng phương pháp xếp hạng nghiên cứu trước dù tốn khơng có câu truy vấn 1.3 Một hướng giải gần kĩ thuật học máy để học hàm xếp hạng tự động học xếp hạng [11] Trong [12], Liangjie cộng đề cập tới mơ hình giải tốn xếp hạng cập nhật mạng xã hội LinkedIn, có liên quan tới phương pháp học tính hạng Trong [1], chúng tơi nghiên cứu áp dụng phương pháp Liangjie cộng mơ hình chủ đề ẩn sử dụng để làm giàu đặc trưng liệu vào tốn Trong luận văn, chúng tơi nâng cao hệ thống xếp hạng cách áp dụng độ ảnh hưởng user (user influence) vào làm giàu đặc trưng độ ảnh hưởng người dùng đánh giá hữu ích hệ tư vấn… [5, 6] Do vậy, đặc trưng quan trọng góp phần vào nâng cao hệ thống xếp hạng Đặc trưng tìm dựa vào luật kết hợp [7] Ý nghĩa tốn xếp hạng dòng Kết tốn xếp hạng dòng tư vấn cho người dùng, giúp họ nhanh chóng việc nắm bắt thơng tin quan tâm tiết kiệm thời gian cho thân Mặt khác, tư vấn cho người dùng có kết tốt mang lại yêu thích người dùng với mạng xã hội số lượng người tham gia mạng tăng lên đáng kể 1.4 Tóm tắt chương Luận văn trình bày tổng quan mạng xã hội Twitter nội dung liên quan tới dòng cập nhật Luận văn nêu lên vấn đề bất lợi cho người dùng bị tràn ngập thông tin phát biểu toán xếp hạng dòng cập nhật hướng tiếp cận để giải tốn Ngồi ra, luận văn nêu lên ý nghĩa toán 1.5 Chương CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MƠ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP 2.1 2.1.1 Một số nội dung Xếp hạng dòng Giới thiệu Xếp hạng dòng loại Xếp hạng đối tượng (Tweet) Công việc thiết yếu xếp đối tượng tweet người dùng theo giảm dần mức độ quan tâm người dùng Để xếp hạng đối tượng, ta cần xác định hàm tính giá trị thứ hạng, gọi hàm tính hạng Mỗi đối tượng gồm có đặc trưng chi tiết thân đối tượng Hàm tính hạng kết hợp đặc trưng 2.1.2 Học xếp hạng Học xếp hạng loại học máy giám sát bán giám sát, mục tiêu để tự động xây dựng mô hình xếp hạng từ liệu huấn luyện tập liệu có xếp hạng Như đề cập [1], thuật toán học xếp hạng có hai nhiệm vụ chính: (1) xây dựng hàm tính hạng, (2) tính tốn thứ hạng đối tượng Các nhiệm vụ có đầu vào đầu khác nhau, cụ thể sau: Xây dựng hàm tính hạng o Đầu vào: Tập đối tượng có sẵn thứ tự đặc trưng o Đầu ra: Hàm tính hạng Tính tốn thứ hạng đối tượng o Đầu vào: Tập đối tượng hàm tính hạng o Đầu ra:Thứ hạng đối tượng 2.1.3 Các phương pháp học xếp hạng điển hình 2.1.3.1 Phương pháp SVM-rank Xếp hạng SVM (SVM-rank) [13] ứng dụng máy véc-tơ hỗ trợ (Support vector machine) sử dụng để giải toán xếp hạng việc sử dụng thuật toán học giám sát SVM SVM-rank Joachims cơng bố năm 2002 với mục đích cải thiện hiệu suất cơng cụ tìm kiếm Internet SVM-rank thuật toán học xếp hạng theo hướng tiếp cận pairwise Nhiều phương pháp dựa vào tối ưu SVM [14]…Trong [2], Sculley đưa thuật toán CRR kết hợp xếp hạng dựa SVM-rank với hồi quy 2.1.3.2 Phương pháp CRR D.Sculley [2] đưa đưa phương pháp kết hợp cho hiệu tốt hồi quy xếp hạng Tư tưởng phương pháp xây dựng mơ hình tính hạng dựa mơ hình hồi quy tuyến tính mơ hình tính hạng pairwise (sử dụng SVM-rank) Thuật toán D.Sculley đưa gọi thuật toán CRR, trình bày Error! Reference source not found.Error! Reference source not found Cho trước: α, , liệu huấn luyện D số lần lặp t 𝑤𝑜 ← ∅ 𝑓𝑜𝑟 𝑖 = 𝑡𝑜 𝑡 𝑙ấ𝑦 𝑛𝑔ẫ𝑢 𝑛ℎ𝑖ê𝑛 𝑠ố 𝑧 𝑡ừ 0,1 𝑖𝑓 𝑧 < 𝛼 𝑡ℎ𝑒𝑛 (𝑥, 𝑦, 𝑞) ← 𝑅𝑎𝑛𝑑𝑜𝑚𝐸𝑥𝑎𝑚𝑝𝑙𝑒(𝐷) 𝑒𝑙𝑠𝑒 ((𝑎, 𝑦𝑎 , 𝑞), (𝑏, 𝑦𝑏 , 𝑞)) ← 𝑅𝑎𝑛𝑑𝑜𝑚𝐶𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒𝑃𝑎𝑖𝑟(𝑃) 𝑥 ← (𝑎 − 𝑏) 𝑦 ← 𝑡(𝑦𝑎 − 𝑦𝑏 ) 𝑒𝑛𝑑 𝑖𝑓 𝑖 ← 𝑖 𝑤𝑖 ← 𝑆𝑡𝑜𝑐ℎ𝑎𝑠𝑡𝑖𝑐𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑆𝑡𝑒𝑝(𝑤𝑖−1 , 𝑥, 𝑦, , 𝑖 ) 𝑒𝑛𝑑 𝑓𝑜𝑟 𝑟𝑒𝑡𝑢𝑟𝑛 𝑤𝑡 Hình 2.1 Thuật tốn CRR [2] Thuật toán cho việc tối ưu kết hợp liệt kê đầy đủ tập cặp ứng viên P Số thành phần thuộc P bình phương số thành phần thuộc D hay |P|=|D|2 nên khó thực tập liệu lớn Joachims [14] đưa phương thức cho độ phức tạp O(|D|log|D|) Thuật toán đưa phương thức tối ưu kết hợp hồi quy xếp hạng sử dụng phương pháp Stochastic gradient descent [2] Phương pháp giúp tối thiểu hàm mục tiêu, vấn đề xuất học mơ hình Phương thức StochasticGradientStep trả kết khác với hàm sai số khác Chẳng hạn, với square loss, y R, phương thức trả (1 − 𝑖 )𝑤𝑖−1 + 𝑖 𝑥(𝑦 − (𝑤𝑖−1 , 𝑥)) Với logistic loss, giả sử y{0,1}, phương thức trả ) (1 − 𝑖 )𝑤𝑖−1 + 𝑖 𝑥 (𝑦 − −(𝑤 + 𝑒 𝑖−1 ,𝑥) Như vậy, mơ hình w trả mơ hình học tính hạng 2.1.4 Phương pháp đánh giá xếp hạng dòng Liangije cộng [12] phân tích lựa chọn thước đo phổ biến dựa xếp hạng thu hồi thơng tin (Information Retrieval) Đó độ xác mức k (Precision@K – P@K) độ xác trung bình (Mean Average Precision – MAP) Độ xác mức K: P@K Độ xác xếp hạng mức K - Precision@K (P @K): độ xác K đối tượng đầu bảng xếp hạng Xác định số đối tượng K vị trí xếp hạng gọi Match@K, độ xác mức K: Match@K P@K = K Độ xác trung bình: MAP Độ xác trung bình giá trị trung bình P@K mức K có đối tượng Gọi I(K) hàm xác định đối tượng vị trí hạng K I(K) =1 ngược lại I(K) = Độ xác trung bình: ∑𝑛𝐾=1 𝑃@𝐾 × 𝐼(𝐾) 𝐴𝑃 = ∑𝑛𝑗=1 𝐼(𝑗) Với n số đối tượng xét MAP độ xác trung bình N xếp hạng (N truy vấn, truy vấn có thứ tự xếp hạng kết tương ứng) MAP tính sau: ∑𝑁 𝑖=1 𝐴𝑃𝑖 𝑀𝐴𝑃 = 𝑁 2.2 2.2.1 Mơ hình chủ đề ẩn Giới thiệu Mơ hình chủ đề ẩn [3] mơ hình xác suất phân phối chủ đề ẩn tài liệu Chúng xây dựng dựa ý tưởng tài liệu có xác suất phân phối vào chủ đề, chủ đề phân phối kết hợp từ khóa Hay nói cách khác, ý tưởng dựa việc coi tài liệu pha trộn chủ đề Biểu diễn từ tài liệu dạng phân phối xác suất có lợi ích lớn so với không gian vector thông thường 2.2.2 Phương pháp mơ hình chủ đề ẩn LDA mơ hình Bayes phân cấp mức (mức kho ngữ liệu, mức tài liệu mức từ ngữ) Mỗi tài liệu tập hợp coi hỗn hợp xác định tập chủ đề Mỗi chủ đề hỗn hợp không xác định tập xác suất chủ đề Về khía cạnh mơ hình hóa văn Hình 2.2 Mơ hình biểu diễn LDA [17] bản, xác suất chủ đề biểu diễn cụ thể, rõ ràng cho tài liệu Dưới đây, luận văn trình bày nét mơ hình sinh LDA Cho trước tập M tài liệu D = {d1, d2…dM}, tài liệu thứ m gồm Nm từ, từ wi rút từ tập thuật ngữ {t1, t2…tV), V số thuật ngữ Quá trình sinh mơ hình LDA diễn Hình 2.2 Ước lượng tham số cho mơ hình LDA tối ưu hóa cách trực tiếp xác xác suất tồn tập liệu khó thực Một giải pháp đề sử dụng phương pháp ước lượng xấp xỉ phương pháp biến phân [3] lấy mẫu Gibbs [15] Lấy mẫu Gibbs xem thuật toán nhanh, đơn giản hiệu để huấn luyện LDA Trong luận văn, sử dụng phân phối topic tài liệu tìm từ LDA để làm đặc trưng nội dung cho việc xây dựng tập huấn luyện cho trình học phương pháp học xếp hạng 2.3 2.3.1 Luật kết hợp Giới thiệu Luật kếp hợp (Association Rule - AR) lớp quy tắc quan trọng khai phá liệu, Agarwal giới thiệu năm 1993 [16] Mục đích khai phá luật kết hợp tìm mối quan hệ đồng xảy đối tượng khối lượng lớn liệu Luật kết hợp không ứng dụng rộng rãi phân tích liệu thị trường [8], mà ứng dụng tìm người dùng có độ ảnh hưởng lớn tới người dùng khác mạng xã hội [7] Các khái niệm luật kết hợp tóm tắt Cho tập giao dịch (transaction) 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑛 }, tập đối tượng (item) 𝐼 = {𝑖1 , 𝑖2 , … , 𝑖𝑚 } Mỗi giao dịch 𝑡𝑖 tập item 𝑡𝑖 ⊆ 𝐼 Những luật kết hợp có dạng 𝑋 → 𝑌, 𝑣ớ𝑖 𝑋 ⊆ 𝐼, 𝑌 ⊆ 𝐼, 𝑣à 𝑋 ∩ 𝑌=∅ 𝑋 (hoặc 𝑌) nhóm item gọi itemset Một itemset gồm k item gọi k-itemset Để đo lường luật kết hợp, độ hỗ trợ (support) độ tin (confidence) tham số sử dụng 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 = 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 = (𝑋 𝑌).𝑐𝑜𝑢𝑛𝑡 (𝑋 𝑌).𝑐𝑜𝑢𝑛𝑡 𝑛 𝑋.𝑐𝑜𝑢𝑛𝑡 Trong đó: 𝑛 tổng số giao dịch (𝑋 𝑌) 𝑐𝑜𝑢𝑛𝑡 số giao dịch có X Y 𝑋 𝑐𝑜𝑢𝑛𝑡 số giao dịch có X Mục tiêu: Với sở liệu giao dịch T, khai phá luật kết hợp tìm luật kết hợp T thỏa mãn tiêu chí minimum support (minsup) minimum confidence (minconf) Nói cách khác, cần tìm luật kết hợp AR cho 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴𝑅) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝐴𝑅) ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 10 2.3.2 Thuật toán Apriori 2.3.2.1 Tạo tập phổ biến Thuật tốn Apriori tìm tất frequent itemset cách sử dụng frequent k-itemset để tìm frequent (k+1)-itemset, khơng có frequent (k+n)-itemset tìm thấy Mã giả tạo tập phổ biến thuật toán thể Error! Reference source not found.Hình 2.3 Hình 2.4 2.3.2.2 Tạo luật kết hợp Sử dụng frequent itemset để tạo tất luật kết hợp Mã giả tạo luật kết hợp thể Hình 2.5 Nhận xét ý tưởng Ý tưởng cốt lõi hệ thống xếp hạng sử dụng phương pháp học tính hạng để xây dựng mơ hình tính hạng cho dòng cập nhật người dùng mạng xã hội Twitter Ở giai đoạn xác định đặc trưng xây dựng mơ hình tính hạng, mơ hình chủ đề ẩn sử dụng hệ thống để bổ sung đặc trưng liên quan đến nội dung khai phá luật kết hợp người dùng để bổ sung đặc trưng độ ảnh hưởng người dùng cho tweet 2.4 Hình 2.3 Thuật tốn Apriori tạo frequent itemset [8] 11 Hình 2.4 Hàm candidate-gen [8] Hình 2.5 Thuật tốn sinh luật kết hợp [8] 12 Tóm tắt chương Trong chương 2, luận văn trình bày sở tảng học tính hạng, phương pháp xếp hạng CRR, mơ hình chủ đề ẩn LDA thuật toán Apriori khai phá luật kết hợp Chúng tơi trình bày sơ lược ý tưởng mơ hình xếp hạng dòng 2.5 Chương MƠ HÌNH XẾP HẠNG DỊNG CẬP NHẬT TRÊN TWITTER Phương pháp đề xuất Như đề cập [1], mơ hình hệ thống xếp hạng dòng cập nhật bao gồm hai pha chính: học tính hạng (learning) xếp hạng (ranking) 3.1 Learning: Tìm mơ hình tính hạng theo quan tâm người dùng dựa vào nội dung tweet độ ảnh hưởng người gửi Ranking: Sử dụng kết pha learning để tính hạng cho tweet Từ đó, thực xếp hạng tweet Hình 3.1 Mơ hình ranking [1] Theo [5, 6], độ ảnh hưởng người dùng đánh giá hữu ích hệ tư vấn, tun truyền thơng tin…Vì vậy, độ ảnh hưởng người dùng nâng cao hiệu cho hệ thống xếp hạng dòng cập nhật [1] Luận văn tập trung nâng cao mơ hình bước biểu diễn đặc trưng (feature representation) Ngoài việc sử dụng đặc trưng cho tweet cũ, sử dụng độ ảnh hưởng người dùng vào làm giàu đặc trưng cho hệ thống phân hạng Thuật toán Apriori [8] sử dụng 13 để tìm luật kết hợp cho tập người dùng liên quan Hình 3.2 thể bước biểu diễn đặc trưng sau thay đổi mơ hình Hình 3.2 Bước biểu diễn đặc trưng (Feature representation) Bước tiền xử lý liệu (preprocessing) thực nhiệm vụ sau: Tách từ (word segmentation): xử lý loại bỏ dấu cách thừa, tách từ ghép won’t thành will not… Loại bỏ tên người dùng khơng bổ sung nghĩa cho nội dung tweet (bắt đầu kí tự @) Loại bỏ từ dừng1 – từ khơng có ý nghĩa Loại bỏ kí tự đặc biệt, kí tự “#” – kí tự sử dụng để đánh dấu hash tag (cách thức cho phép người dùng đánh dấu từ khóa mà quan tâm để dễ dàng truy cập sau này) Những từ phổ biến khơng có nghĩa Danh sách stopword lấy http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop 14 Thực tạo đầu vào cho ước lượng LDA thuật toán Apriori Đặc trưng điểm số quan tâm tweet 3.2 3.2.1 Điểm số quan tâm tweet Như đề cập [1], xét 𝑇𝑢𝑖 = {𝑡𝑢𝑖𝑗 }, 𝑗 = 1, tập dòng cập nhật - tweet người dùng ui Trong gồm có tập tweet mà ui quan tâm (interesting tweet) (𝑇𝑢𝑖1 ) tập tweet mà ui không quan tâm (𝑇𝑢𝑖2) Gọi 𝑈𝑟𝑤𝑢𝑖 tập người bạn 𝑢𝑖 retweet 𝑈𝑟𝑒𝑢𝑖 tập người bạn 𝑢𝑖 reply Với tweet 𝑡𝑢𝑖𝑗 , (j số thứ tự tweet tập tweet xét người dùng 𝑢𝑖 ), thực tính điểm sau: 1, 𝑡𝑢𝑖𝑗 ∈ 𝑈𝑟𝑤𝑢𝑗 𝑆𝑐𝑜𝑟𝑒𝑟𝑤 (𝑡𝑢𝑖𝑗 ) = { 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 1, 0, 𝑡𝑢𝑖𝑗 ∈ 𝑈𝑟𝑒𝑢𝑖 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 1, 𝑆𝑐𝑜𝑟𝑒𝑓𝑣 (𝑡𝑢𝑖𝑗 ) = { 0, 𝑡𝑢𝑖𝑗 𝑙à 𝑓𝑎𝑣𝑜𝑢𝑟𝑖𝑡𝑒 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 𝑆𝑐𝑜𝑟𝑒𝑟𝑒 (𝑡𝑢𝑖𝑗 ) = { Điểm tweet 𝑡𝑢𝑖𝑗 tổng điểm điểm Nếu điểm tweet lớn interesting tweet 1,2 𝑜𝑟 𝑡 ∈ 𝑇𝑢𝑖1 𝑙(𝑡) = { 0, 𝑡 ∈ 𝑇𝑢𝑖2 3.2.2 Đặc trưng tweet Đặc trưng tác giả gửi tweet Điểm tác giả đăng tweet tính theo số following follower 𝑖(𝑢) tác giả đó: 𝑎𝑢𝑡ℎ𝑜𝑟(𝑢) = 𝑖(𝑢)+𝑜(𝑢) Trong đó, i(u) số người theo dõi u (follower) o(u) số người u theo dõi (following) Đặc trưng nội dung 15 Trên sở [1], luận văn sử dụng tập phân phối xác suất chủ đề tài liệu thành phần tập đặc trưng nội dung Giả sử xác định K topic từ tập liệu học Với tweet t, luận văn tính xác suất để tài liệu d thuộc vào topic i pt(i), với i=1,…,k Từ xác định tập đặc trưng nội dung từ mơ hình chủ đề ẩn LDA là: 𝑇 = 𝑝𝑡1 , 𝑝𝑡2 … 𝑝𝑡𝑘 Đặc trưng Retweet Đặc trưng Retweet tính điểm sau: 1, 𝑡𝑢𝑗 đượ𝑐 𝑟𝑒𝑡𝑤𝑒𝑒𝑡 𝑅𝑤(𝑡𝑢𝑗 ) = { 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Đặc trưng reply Tương tự với đặc trưng retweet, đặc trưng reply tính dựa theo cơng thức sau: 1, 𝑡𝑢𝑗 𝑙à 𝑡𝑤𝑒𝑒𝑡 𝑟𝑒𝑝𝑙𝑦 𝑅𝑒(𝑡𝑢𝑗 ) = { 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Đặc trưng hash tag Hash tag đặc trưng liên quan tới nội dung tweet Đặc trưng 1, 𝑡 𝑐ℎứ𝑎 ℎ𝑎𝑠ℎ𝑡𝑎𝑔 tính sau: ℎ𝑡𝑎𝑔(𝑡) = { 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Đặc trưng URL URL đặc trưng liên quan tới nội dung tweet Đặc 1, 𝑡 𝑐ℎứ𝑎 𝑈𝑅𝐿 trưng tính sau: 𝑢𝑟𝑙(𝑡) = { 0, 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Đặc trưng độ ảnh hưởng người dùng Xét sở liệu giao dịch tập tweet T = {t1, t2…tn} Tập item tập người dùng U = {u1, u2… um} Bảng 3.1 Minh họa sở giao dịch tìm luật kết hợp người dùng Giao dịch (Tweet) Item (User) User 1, User 2, User t1 User 1, User t2 User 4, User t3 16 User 1, User 2, User t4 User 1,User 2,User 6, User 4, User t5 … … User 2, User 3, User tm Để thực tính độ ảnh hưởng người dùng cho tweet t user uk, ta thực bước sau: Bước 1: Tìm tập luật kết hợp Với user xét uk, thực tìm luật kết hợp có dạng {ui, …uj} {uk} thỏa mãn độ support >= minsup conf >= minconf với minsup, minconf cho trước Tập luật kết hợp thỏa mãn: A = {a1, a2…} Bước 2: Tìm tập user tham gia vào tweet t Với tweet t, ta tìm tập user tham gia vào tweet qua hoạt động thích, retweet, reply: U(t) = {u1, u2…ut} với ut ≠ uk Bước 3: Xác định độ ảnh hưởng qua số lượng luật kết hợp phù hợp Gọi n(t) số lượng luật kết hợp A thỏa mãn có tham gia user U(t) Độ ảnh hưởng người dùng tới user uk tính sau: 𝑖𝑛𝑓𝑙𝑢(𝑡) = 𝑛(𝑡) Tóm tắt chương Trong chương 3, luận văn cụ thể hóa mơ hình xếp hạng với cơng việc cần làm giai đoạn Ngồi ra, chương trình bày cách tính điểm cho tweet (nhãn tweet) đặc trưng để xây dựng tập liệu huấn luyện 3.3 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ Chúng tiến hành thực nghiệm dựa mơ hình chương ba với liệu tweet dòng cập nhật người dùng Twitter Việc lựa chọn người dùng hoàn toàn ngẫu nhiên Bắt đầu với việc xây dựng tập liệu huấn luyện tập liệu kiểm tra dựa công cụ JGibbLDA (cài đặt mơ hình chủ đề ẩn LDA) chương trình tự xây dựng Sau đó, thực trình học xếp hạng với chương trình mã nguồn mở chạy thuật tốn CRR Chúng tơi thực hai thí nghiệm: (1) sử dụng mơ hình LDA sử dụng đặc trưng độ ảnh hưởng người dùng dựa luật kết hợp, (2) sử dụng mơ hình LDA không sử dụng đặc trưng độ ảnh hưởng người 17 dùng dựa luật kết hợp Dựa vào kết thực nghiệm, tiến hành đánh giá, so sánh, nhận xét, rút kết luận 4.1 4.1.1 Mơi trường thực nghiệm Cấu hình phần cứng Bảng 4.1 Cấu hình máy tính thực nghiệm Thành phần Chỉ số CPU Intel Core i3-2330M 2.2Ghz RAM 4GB HDD 500GB OS Ubuntu 11.10 (32bit) Window (hỗ trợ tính liệu) 4.1.2 Công cụ phần mềm Bảng 4.2 Danh sách phần mềm sử dụng thực nghiệm STT Tên phầm mềm Tác giả Nguồn Eclipse-SDK-3.7.0 http://www.eclipse org/dowloads Mã nguồn mở thuật D.Sculley http://code.google.c toán CRR: sofia-ml om/p/sofia-ml JGibbLDA Xuan-Hieu http://jgibblda.sour Phan Cam-Tu ceforge.net/ Nguyen MS-Excel Microsoft http://www.microso MS-Office 2013 ft.com Stopword Nguyễn Thị Tươi Tự xây dựng với ngôn ngữ java Apriori Nguyễn Thị Tươi Tự xây dựng với ngôn ngữ java 18 Dữ liệu thực nghiệm Trong thực nghiệm, chúng tơi sử dụng dòng tweet người dùng có tên Jon Bowzer Bauman (@JonBowzerBauman) minh họa người dùng Twitter Dữ liệu thực nghiệm stream thời gian tháng 10 năm 2016, bao gồm 6400 dòng cập nhật đến trang người dùng 4.2 Hình 4.1 Minh họa người dùng sử dụng thực nghiệm Thực nghiệm Chúng thực hai thí nghiệm sau với mục đích làm rõ vai trò việc sử dụng luật kết hợp bổ sung đặc trưng độ ảnh hưởng người dùng cho tweet xếp hạng dòng: Thí nghiệm (TN1): Thực xây dựng mơ hình tính hạng có sử dụng mơ hình LDA sử dụng đặc trưng độ ảnh hưởng người dùng dựa luật kết hợp Thí nghiệm (TN2): Thực xây dựng mơ hình tính hạng có sử dụng mơ hình LDA khơng sử dụng đặc trưng độ ảnh hưởng người dùng dựa luật kết hợp 4.3 Với thí nghiệm 1, chúng tơi tiến hành công việc sau: (1) Thu thập tiền xử lý liệu (2) Xây dựng mơ hình chủ để ẩn đặc trưng nội dung (3) Tìm tập luật kết hợp xây dựng đặc trưng độ ảnh hưởng người dùng (4) Tính giá trị cho đặc trưng lại tweet (5) Xây dựng liệu huấn luyện liệu kiểm tra (6) Học tính hạng từ liệu huấn luyện (7) Sử dụng mơ hình tính hạng cho liệu kiểm tra đánh giá Với thí nghiệm 2, chúng tơi khơng thực công việc (3) 19 Thực xử lý liệu, thu 5854 tweet Chia tập tweet làm tập huấn luyện (5254 tweet) tập kiểm tra (600 tweet) Sử dụng hai tập liệu để tiến hành thí nghiệm nêu Kết Đánh giá Sau thực nghiệm với hai thí nghiệm (1) (2), chúng tơi thu hàm tính hạng Sử dụng MS-Excel, đánh giá mô hình thí nghiệm trên, thể hình sau: 4.4 Hình 4.2 Đánh giá hai mơ hình Bảng thể so sánh hai mô hình thu được: Bảng 4.3 Bảng so sánh hai mơ hình thu Mơ hình MAP 76,34% Mơ hình 70,1% Mơ hình Mơ hình thu thí nghiệm mơ hình thu thí nghiệm Các mơ hình với độ xác mức K độ xác trung bình Map thể bảng cho thấy mơ hình có độ xác cao Vì vậy, việc bổ sung them phần khai phá khoản mục thường xuyên luật kết hợp làm tăng chất lượng đặc trưng người dùng cho tweet, góp phần tăng độ xác xếp hạng dòng mạng xã hội Twitter 20 Kết luận định hướng nghiên cứu Qua tìm hiểu luật kết hợp dựa kiến thức học xếp hạng, mơ hình chủ đề ẩn, luận văn thực bổ sung phần khai phá khoản mục thường xuyên luật kết hợp nhằm tăng chất lượng đặc trưng cho mô hình xếp hạng dòng cập nhật mạng xã hội Luận văn đạt kết sau đây: - - Đề nghị mơ hình xếp hạng dòng cập nhật cải tiến từ mơ hình chúng tơi [1] với bổ sung độ ảnh hướng người dùng tính theo thuật toán Apriori Xây dựng phần mềm thực nghiệm kết thực nghiệm hai phương án đạt MAP 0.70 Tuy nhiên, hạn chế thời gian nên luận văn tồn hạn chế như: liệu đặc trưng sử dụng cho xếp hạng chưa phong phú 21 Tài liệu tham khảo [1] Thi-Tuoi Nguyen, Tri-Thanh Nguyen and Quang-Thuy Ha, "Applying Hidden Topics in Ranking Social Update Streams on Twitter," no RIVF 2013: 180-185 4, 2013 [2] D.Sculley, "Combined Regression and Ranking," KDD 2010, pp 979-988, 2010 [3] D Blei, A., Ng, and M Jordan, "Latent Dirichlet Allocation," In Journal of Machine Learning Research, pp 993-1022, January/2003 [4] Thomas Hofmann, "Probabilistic Latent Semantic Analysis," UAI 1999, pp 289-196, 1999 [5] Chunjing Xiao, Yuxia Xue, Zheng Li and Xucheng L, "Measuring User Influence Based on Multiple Metrics on YouTube PAAP," 2015, pp 177-182 [6] Fabián Riquelme and Pablo Gonzalez Cantergiani, "Measuring user influence on Twitter: A survey Inf Process Manage 52(5)," 2016, pp 949-975 [7] Fredrik Erlandsson, Piotr Bródka and Anton Borg, Finding Influential Users in Social Media Using Association Rule Learning, Entropy 18(5), 2016 [8] Bing Liu (2007), "Chapter Association Rules and Sequential Patterns," in Web Data Mining, 2nd Edition: Exploring Hyperlinks, Contents, and Usage Data, Springer, 2011 [9] Shea Bennet, "Twitter On Track For 500 Million Total Users By March, 250 Million Active Users By End Of 2012, http://www.mediabistro.com/alltwitter/twitter-active-totalusers_b17655," 2012 [10] Cheng Li, Yue Lu, Qiaozhu Mei, Dong Wang and Sandeep Pandey, "Click-through Prediction for Advertising in Twitter Timeline," no KDD 2015: 1959-1968 22 [11] Tie-Yan Liu, "Learning to Rank for Information Retrieval," Foundations and Trends in Information Retrieval 3(3), pp 225331, 2009 [12] Liangjie Hong, Ron Bekkerman, Joseph Adler and Brian Davison, "Learning to rank social update streams," SIGIR'12, pp 651-660, 2012 [13] Joachims Thorsten, "Optimizing Search Engines Clickthrough Data," KDD'02, pp 133-142, 2002 using [14] Joachims Thorsten, "A support vector method for multivariate performance measures," ICML 2005, p 377–384, 2005 [15] Gregor Heinrich, "Parameter Estimation for Text Analysis," Technical report, University of Leipzig, 2005 [16] Agarwal and D Statistical Challenges in Online Adver, In Tutorial given at ACM KDD-2009 conference, 2009 [17] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, Senior Member, IEEE and QuangThuy Ha, "A Hidden Topic-Based Framework toward Building Applications with Short Web Documents," vol 23 NO 7, July 2011 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN VĂN Thi-Tuoi Nguyen, Tri-Thanh Nguyen and Quang-Thuy Ha, "Applying Hidden Topics in Ranking Social Update Streams on Twitter," no RIVF 2013: 180-185 4, 2013 23 ... nghĩa • Dòng mạng xã hội Twitter hiểu dòng cập nhật người dùng Mỗi người dùng có thông điệp (các cập nhật) đăng bạn bè trang họ, dòng cập nhật họ • Xếp hạng dòng mạng xã hội Twitter xếp hạng thông. .. tin dòng cập nhật cho hợp lý với người dùng Liangjie Hong cộng (2012) nêu bật vấn đề xếp hạng dòng cập nhật (gọi tắt Xếp hạng dòng) Bài tốn xếp hạng dòng mạng xã hội đặt để giải vấn đề cập nhật. .. học tính hạng để xây dựng mơ hình tính hạng cho dòng cập nhật người dùng mạng xã hội Twitter Ở giai đoạn xác định đặc trưng xây dựng mơ hình tính hạng, mơ hình chủ đề ẩn sử dụng hệ thống để bổ