NGUYỄN THỊ TƯƠI ỨNG DỤNG CÁC MÔ HÌNH CHỦ ĐỀ ẨN VÀO MÔ HÌNH PHÂN HẠNG LẠI DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN HÀ NỘI 2016 ( ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG Đ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ TƯƠI ỨNG DỤNG CÁC MƠ HÌNH CHỦ ĐỀ ẨN VÀO MƠ HÌNH PHÂN HẠNG LẠI DỊNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ TƯƠI ỨNG DỤNG CÁC MƠ HÌNH CHỦ ĐỀ ẨN VÀO MƠ HÌNH PHÂN HẠNG LẠI DỊNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER Ngành: Hệ Thống Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY HÀ NỘI - 2016 LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, tận tình hướng dẫn bảo tơi suốt q trình thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội cho tảng kiến thức tốt tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy cô, anh chị bạn phịng thí nghiệm DS&KTLab đề tài QG.15.22 hỗ trợ nhiều kiến thức chun mơn q trình thực luận văn Tôi xin cảm ơn tất người ủng hộ khuyến khích tơi suốt q trình học tập trường Cuối cùng, tơi xin gửi lời cám ơn vơ hạn tới gia đình bạn bè, người bên cạnh, giúp đỡ động viên tơi q trình học tập suốt trình thực luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2016 Học viên Nguyễn Thị Tươi ỨNG DỤNG CÁC MƠ HÌNH CHỦ ĐỀ ẨN VÀO MƠ HÌNH PHÂN HẠNG LẠI DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER Nguyễn Thị Tươi Khóa K20, chun ngành Hệ Thống Thơng Tin Tóm tắt Luận văn: Twitter mạng xã hội phát triển mạnh với đông đảo thành viên Khái niệm “vòng kết nối” người dùng định nghĩa tập hợp bạn bè người dùng Vịng kết nối lớn, lượng tin (dòng cập nhật) gửi tới trang nhà (timelines) người dùng nhiều Theo nghiên cứu Liangjie cộng (2012), người dùng nhiều thời gian với dịng cập nhật vơ ích Nhằm tư vấn giảm thiểu thời gian lãng phí cho người dùng, giải pháp xếp hạng dòng cập nhật trang người dùng chủ đề nghiên cứu quan tâm Nói cách khác, tốn Xếp hạng dịng cập nhật trọng Đây toán trọng tâm luận văn Theo Chunjing Xiao cộng (2015), độ ảnh hưởng người dùng (user influence) đánh giá hữu ích hệ tư vấn Với mục đích tiếp tục phát triển nghiên cứu năm 2013 mơ hình xếp hạng dịng cập nhật, luận văn đề xuất phương pháp nâng cao hiệu tính hạng cho mơ hình cách áp dụng độ ảnh hưởng người dùng vào làm giàu đặc trưng Độ ảnh hưởng người dùng tìm thơng qua luật kết hợp dựa sở nghiên cứu Fredrik Erlandsson cộng (2016) Thuật toán Apriori thuật tốn tìm luật kết hợp phổ biến nhất, sử dụng cho mơ hình Bổ sung đặc trưng độ ảnh hưởng người dùng qua luật kết hợp vào mơ hình tính hạng điểm so với cơng trình trước Phương pháp học xếp hạng CRR (Combined Regression and Ranking), phương pháp học xếp hạng kết hợp SVM- rank hồi quy; phân phối xác suất chủ đề ẩn LDA (Latent Dirichlet Allocation) làm giàu đặc trưng nội dung tiếp tục sử dụng mơ hình Thực nghiệm liệu Twitter người dùng Jon Bowzer Bauman cho kết khả quan Từ khóa: dịng cập nhật, CRR, LDA, Apriori LỜI CAM ĐOAN Tôi xin cam đoan mơ hình xếp hạng dịng cập nhật mạng xã hội Twitter thực nghiệm trình bày luận văn đề thực hướng dẫn PGS.TS Hà Quang Thụy Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày tháng năm 2016 Học viên Nguyễn Thị Tươi Mục lục Lời cảm ơn Tóm tắt luận văn Lời cam đoan Danh sách hình vẽ Danh sách bảng biểu Danh sách từ viết tắt MỞ ĐẦU Chương DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER VÀ BÀI TỐN XẾP HẠNG DỊNG 11 1.1 Mạng xã hội Twitter dòng cập nhật Twitter 11 1.2 Bài toán xếp hạng dòng cập nhật 13 1.2.1 Một số định nghĩa 13 1.2.2 Bài tốn xếp hạng dịng cập nhật .13 1.3 Hướng tiếp cận giải toán 14 1.4 Ý nghĩa tốn xếp hạng dịng 15 1.5 Tóm tắt chương .16 Chương CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MƠ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP 17 2.1 Một số nội dung Xếp hạng dòng 17 2.1.1 Giới thiệu 17 2.1.2 Học xếp hạng .18 2.1.3 Các phương pháp học xếp hạng điển hình 19 2.1.4 Phương pháp đánh giá xếp hạng dòng 23 2.2 Mơ hình chủ đề ẩn 24 2.2.1 Giới thiệu 24 2.2.2 Phương pháp mơ hình chủ đề ẩn .24 2.3 Luật kết hợp 28 2.3.1 Giới thiệu 28 2.3.2 Thuật toán Apriori .29 2.4 Nhận xét ý tưởng 31 2.5 Tóm tắt chương .32 Chương MƠ HÌNH XẾP HẠNG DỊNG CẬP NHẬT TRÊN TWITTER 33 3.1 Phương pháp đề xuất 33 3.2 Đặc trưng điểm số quan tâm tweet 36 3.2.1 Điểm số quan tâm tweet .36 3.2.2 Đặc trưng tweet 37 3.3 Tóm tắt chương .39 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 4.1 Môi trường thực nghiệm 41 4.1.1 Cấu hình phần cứng 41 4.1.2 Công cụ phần mềm 42 4.2 Dữ liệu thực nghiệm 46 4.3 Thực nghiệm .47 4.4 Kết Đánh giá 53 Kết luận định hướng nghiên cứu 55 Tài liệu tham khảo 56 Danh sách hình vẽ Hình 1.1 Minh họa dịng cập nhật Twitter 12 Hình 2.1 Thuật toán CRR [5] 22 Hình 2.2 Mơ hình biểu diễn LDA [27] .26 Hình 2.3 Thuật tốn Apriori tạo tập phổ biến [11] 30 Hình 2.4 Hàm candidate-gen [11] .30 Hình 2.5 Thuật tốn sinh luật kết hợp [11] 31 Hình 3.1 Mơ hình xếp hạng dịng [1] 33 Hình 3.2 Bước biểu diễn đặc trưng (Feature representation) .35 Hình 4.1 Định dạng input file chương trình Apriori 45 Hình 4.2 Định dạng file output chương trình Apriori 46 Hình 4.3 Minh họa người dùng sử dụng thực nghiệm 47 Hình 4.4 Minh họa sở liệu người dùng 48 Hình 4.5 Minh họa đặc trưng nội dung (dữ liệu huấn luyện) 49 Hình 4.6 Minh họa đặc trưng nội dung (dữ liệu kiểm tra) 50 Hình 4.7 Minh họa luật kết hợp 51 Hình 4.8 Minh họa liệu file huấn luyện (TN1) .52 Hình 4.9 Minh họa liệu file kiểm tra (TN1) 52 Hình 4.10 Minh họa liệu file huấn luyện (TN2) 52 Hình 4.11 Minh họa liệu file kiểm tra (TN2) .53 Hình 4.12 Đánh giá hai mơ hình 53 Danh sách bảng biểu Bảng 3.1 Minh họa sở giao dịch tìm luật kết hợp người dùng 38 Bảng 4.1 Cấu hình máy tính thực nghiệm 41 Bảng 4.2 Danh sách phần mềm sử dụng thực nghiệm 42 Bảng 4.3 Bảng so sánh hai mơ hình thu 54 Danh sách từ viết tắt STT Tên viết tắt Cụm từ đầy đủ CRR Combined Regression and Ranking LDA Latent Dirichlet Allocation pLSA Probabilistic Latent Semantic Analysis P@K Precision@K MAP Mean Average Precision AR Association Rule