XẾP HẠNG DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER. KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin

45 2 0
XẾP HẠNG DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER. KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Tươi XẾP HẠNG DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Nguyễn Thị Tươi XẾP HẠNG DỊNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Vũ Ngọc Trình HÀ NỘI - 2013 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Thi Tuoi RANKING UPDATE STREAM ON TWITTER Major: Information Technology Supervisor: Assoc Prof Ha Quang Thuy Co-Supervisor: MSc Vu Ngoc Trinh HA NOI - 2013 Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy ThS Vũ Ngọc Trình, tận tình hướng dẫn bảo tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội cho tảng kiến thức tốt tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy cô, anh chị bạn phịng thí nghiệm KT-Lab hỗ trợ nhiều kiến thức chuyên mơn q trình thực khóa luận Tơi xin cảm ơn bạn lớp K54CLC K54CB ủng hộ khuyến khích tơi suốt suốt q trình học tập trường Cuối cùng, tơi xin gửi lời cám ơn vơ hạn tới gia đình bạn bè, người bên cạnh, giúp động viên tơi q trình học tập suốt q trình thực khóa luận Tơi xin chân thành cảm ơn! Hà Nội, ngày 15 tháng 05 năm 2013 Sinh viên Nguyễn Thị Tươi XẾP HẠNG DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER Nguyễn Thị Tươi QH-2009-I/CQ, ngành cơng nghệ thơng tin Tóm tắt Khóa luận tốt nghiệp: Từ khóa: RANKING UPDATE STREAM ON TWITTER Nguyen Thi Tuoi QH-2009-I/CQ, Information Technology faculty Abstract: Keywords: Lời cam đoan Tôi xin cam đoan hệ thống xếp hạng dòng cập nhật mạng xã hội Twitter thực nghiệm trình bày khóa luận đề thực hướng dẫn PGS.TS Hà Quang Thụy ThS Vũ Ngọc Trình Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày tháng năm 2013 Sinh viên Nguyễn Thị Tươi Mục lục Danh sách hình vẽ Danh sách bảng Trường Đại học Cơng Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Trong đó:  ( ) ,¬ số lần từ t gán cho chủ đề k, khơng tính đến lần gán thời;  ∑ ( ) − số từ gán cho chủ đề k, không tính lần gán thời;  ( ) ,¬ số từ tài liệu m gán cho chủ đề k, khơng tính lần gán thời;  ∑ ( ) − số từ tài liệu m, không kể từ t Sau lấy mẫu Gibbs, giá trị tham số xác định, phân phối ẩn tính sau: ( ) , = ∑ ( ) , = + ( ) + ( ) ∑ + + Với mơ hình chủ đề ẩn LDA, cho trước tập văn bản, LDA tìm xem topic model sinh tập văn Bao gồm:  Tìm phân phối xác suất tập từ topic  Tìm phân phối topic tài liệu Trong khóa luận này, sử dụng phân phối topic tài liệu tìm bở LDA để làm đặc trưng nội dung cho việc xây dựng tập huấn luyện cho trình học phương pháp học xếp hạng 2.3 Nhận xét ý tưởng Như trình bày trên, học xếp hạng giải pháp xếp hạng phổ biến năm gần Đến có nhiều cơng trình nghiên cứu học xếp hạng áp dụng với nhiều liệu khác từ kết tìm kiếm đến văn bản… Với giả thiết cho tốn Xếp hạng dịng: dịng cập nhật trang người dùng tương đương với tập kết tìm kiếm; chúng tơi đưa ý tưởng sử dụng thuật toán học xếp hạng để giải toán Theo phương pháp học xếp hạng, hệ thống Nguyễn Thị Tươi 21 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp chúng tơi đề xuất cần xây dựng mơ hình tính hạng Mơ hình thể kết hợp đặc trưng tài liệu (tweet) Cũng trình bày trên, mơ hình chủ đề ẩn LDA mạnh mẽ việc tìm phân phối xác suất tài liệu chủ đề ẩn, liên quan mật thiết tới nội dung tài liệu Hiểu mơ hình này, chúng tơi tận dụng vào việc tìm đặc trưng nội dung tài liệu (tweet) để phục vụ cho việc xây dựng mơ hình tính hạng Như vậy, ý tưởng cốt lõi hệ thống SSRS sử dụng phương pháp học tính hạng để xây dựng mơ hình tính hạng cho dịng cập nhật người dùng mạng xã hội Twitter Trong trình xây dựng mơ hình tính hạng, giai đoạn xác định đặc trưng Tweet, mơ hình chủ đề ẩn sử dụng hệ thống để bổ sung đặc trưng liên quan đến nội dung tweet 2.4 Tóm tắt chương Trong chương 2, khóa luận trình bày sở tảng học tính hạng, phương pháp xếp hạng CRR mơ hình chủ đề ẩn LDA– cốt lõi hệ thống đề xuất Chúng tơi trình bày ý tưởng qua việc nêu rõ vai trị phương pháp học tính hạng mơ hình chủ đề ẩn LDA hệ thống đề xuất Chúng vận dụng phương pháp học tính hạng để tìm mơ hình tính hạng tương ứng với người dùng; LDA tìm phân phối chủ đề cho tài liệu để xây dựng đặc trưng nội dung cho dòng cập nhật, hay tweet đến Chương tiếp theo, chúng tơi trình bày tổng quan hệ thống đề xuất dựa ý tưởng mơ hình hóa hệ thống dạng sơ đồ Nguyễn Thị Tươi 22 Mã sinh viên: 09020603 Trường Đại học Cơng Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Chương Mơ hình hệ thống xếp hạng dịng cập nhật mạng xã hội Twitter Trong chương này, khóa luận trình bày chi tiết mơ hình hệ thống xếp hạng dòng xã hội SSRS cho người dùng cách hoạt động hệ thống 3.1 Phương pháp đề xuất Như trình bày trên, thực xây dựng hệ thống SSRS để xếp hạng dòng tweet mạng xã hội Twitter Hệ thống sử dụng phương pháp học tính hạng để xây dựng mơ hình tính hạng (hàm tính hạng) mơ hình chủ đề ẩn giới thiệu chương III Hệ thống bao gồm hai phận chức chính:  Bộ phận tìm mơ hình tính hạng theo quan tâm người dùng dựa vào nội dung tweet người gửi tweet, gọi SM (Search for user’s Model)  Bộ phận xếp hạng tweet gọi SR (Stream Ranking) SR sử dụng kết SM để xếp hạng tweet Minh họa mơ hình hai phận hình đây: = , = 1, ; = 1, SSRS SM ( ( SR = , = 1, ; = 1, Nguyễn Thị Tươi 23 ) ) … ( ) Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Hình Tổng quan hệ thống SSRS Bộ phận SM Để xây dựng hàm tính hạng, chúng tơi sử dụng tập tweet cũ Trước hết, chúng tơi cần tìm đặc trưng tweet mà có ảnh hưởng tới thứ hạng, sau tính tốn mức độ quan tâm tweet tập Từ đó, xây dựng tập liệu học, sử dụng thuật toán CRR để thu hàm tính hạng Trong q trình xây dựng liệu học, chúng tơi tìm nhãn đặc trưng tweet Nhãn độ quan tâm tweet đặc trưng liên quan tới thân tweet nội dung, người dùng, Các đặc trưng liên quan đến nội dung tính tốn dựa mơ hình chủ đề ẩn LDA Bộ phận SR Bộ phận tiếp nhận tweet mới, tính toán đặc trưng tweet phận SM sử dụng mơ hình tính hạng (đầu SM) để dự đoán thứ tự tweet dựa đặc trưng Trong tính tốn đặc trưng nội dung tweet, phận sử dụng mơ hình chủ đề sinh SM để tìm phân phối xác suất theo chủ đề tweet Tiếp theo, chúng tơi trình bày chi tiết cách tính đặc trưng độ quan tâm người dùng cho tweet 3.2 Đặc trưng điểm số quan tâm tweet Mỗi tweet t đăng lên trang người dùng u1 có thông tin về:  Người đăng ut  Nội dung tweet  Thời gian tweet đến (thời gian ut đăng tweet) Các ý tưởng sử dụng thông tin tweet  Chúng sử dụng yếu tố thời gian để phân chia tweet cũ Các thông tin người đăng (hay người gửi) tweet nội dung tweet khai thác để tìm đặc trưng cần thiết cho việc xây dựng mô hình tính hạng  Thơng tin liên quan tới người đăng tweet sử dụng để tính đặc trưng như: điểm người đăng tweet, điểm retweet theo người dùng …Đặc Nguyễn Thị Tươi 24 Mã sinh viên: 09020603 Trường Đại học Cơng Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp trưng nội dung tweet thu thông qua việc sử dụng mơ hình chủ để ẩn Khóa luận sử dụng tập phân phối xác suất chủ đề tweet tập đặc trưng nội dung tweet  Để tính tốn mức độ quan tâm (hay thứ hạng) tweet với người dùng u, khảo sát hành động retweet, reply, favourite có người nhận thực tweet hay không 3.2.1 Điểm số quan tâm tweet Xét ={ }, = 1, tập dòng cập nhật - tweet người dùng ui Trong gồm có tập tweet mà ui quan tâm (tập InT mà ui không quan tâm (tập NinT - ) tập tweet ) Để tìm nhãn cho tweet hay nói cách khác tính điểm số quan tâm tweet trang người dùng ui, chúng tơi tìm câu trả lời câu hỏi sau tính điểm cho câu trả lời có (j số thứ tự tweet tập tweet xét người dùng ui  Q1: Tweet có ui nhấn nút retweet khơng?  Q2: Tweet có ui nhấn nút favourite khơng?  Q3: Tweet có ui trả lời (reply) hay khơng? Như vậy, tweet xét có số điểm tối đa 3, tối thiểu Nói cách khác, có mức thứ tự cho tweet thể giảm dần độ quan tâm người dùng từ đến Các tweet có điểm số 3, 2, thuộc vào tweet có điểm thuộc vào Đặc biệt: Với tweet người dùng ui đăng lên coi điểm quan tâm cao nhất, điểm Như định nghĩa, danh sách tweet hiển thị dạng trang việc hiển thị hình phụ thuộc vào kích thước hiển thị tweet Để thuận tiện hơn, khóa luận lựa chọn số tweet trang 10 Khi đó, số tweet có điểm số lớn 10 phần tweet dư để sang trang với số tweet thứ tự nhỏ Nguyễn Thị Tươi 25 Mã sinh viên: 09020603 Trường Đại học Cơng Nghệ – ĐHQG Hà Nội 3.2.2 Khóa luận tốt nghiệp Đặc trưng tweet Theo phương pháp học xếp hạng, thứ hạng đối tượng học thông qua giá trị đặc trưng đối tượng đó.Thực việc học xếp hạng với đối tượng tweet, xác định đặc trưng sử dụng việc học xếp hạng tweet Các đặc trưng sau: Đặc trưng tác giả gửi tweet Hệ thống SSRS hệ thống xếp hạng mang tính tư vấn cho người dùng Hệ thống nên tư vấn cho người dùng xét nên đọc thơng tin từ người bạn có ảnh hưởng lớn mạng xã hội Trong [18], Rinkesh Nagmoti cộng khẳng định vai trò tác giả đăng tweet quan trọng tweet quan trọng Theo nhà nghiên cứu, điểm tác giả đăng tweet tính theo số following follower tác giả đó: ( )= ( ) ( ) ( ) Trong đó, i(a) số người theo dõi a (follower) o(a) số người a theo dõi (following) Đặc trưng nội dung Nội dung tweet yếu tố quan trọng để xây dựng đặc trưng q trình học tính hạng Mỗi người dùng thường quan tâm tới số chủ đề nội dung định Căn vào tweet cũ để biết người dùng xét thường quan tâm tới chủ đề Nhằm mô hình hóa chủ đề mức độ quan tâm người dùng với tweet, sử dụng mơ hình chủ đề ẩn LDA trình bày chương trước Với mơ hình chủ đề ẩn, từ tập liệu tweet cho đầu chủ đề phân phối xác suất chủ đề tweet Khóa luận sử dụng tập phân phối xác suất chủ đề tài liệu thành phần tập đặc trưng nội dung Giả sử xác định K topic từ tập liệu học Với tweet t, khóa luận tính xác suất để tài liệu d thuộc vào topic i pt(i), với i=1,…,k Từ xác định tập đặc trưng nội dung từ mơ hình chủ đề ẩn LDA : Nguyễn Thị Tươi 26 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp T(t)=[pt1, pt2, …, ptk] Ví dụ kết mơ hình chủ đề ẩn cho tweet t sau: Chủ đề Xác suất Từ khóa đại diện Topic 0.05 President, life, security… Topic 0.051 Special, media, activists, … Topic 0.03 Line, book, new,… Topic 0.03 Day, bush, justice… … … … Khi tập đặc trưng nội dung sinh từ mơ hình chủ đề ẩn là: T(t) = [0.05, 0.051, 0.03, 0.03,…] Đặc trưng Retweet Đây số đặc biệt tweet Khi tweet tán thành nhiều người dùng, tweet retweet lan nhanh mạng xã hội Hệ thống nên tư vấn cho người dùng đọc tweet Do đó, đặc trưng xét để xây dựng tập huấn luyện Đặc trưng tính điểm sau: = 1, 0, đượ ườ ℎợ ò Đặc trưng reply Reply tweet bắt đầu với tên người dùng kí tự ‘@’ đứng trước Minh họa cho reply tweet hình sau: Hình Minh họa retweet Tương tự với đặc trưng retweet, đặc trưng reply tính dựa theo cơng thức sau: 1, = 0, ườ ℎợ ò Đặc trưng hashtag Nguyễn Thị Tươi 27 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Đây đặc trưng liên quan tới nội dung tweet Đặc trưng có giá trị nhị phân, tweet xét có điểm tính sau: 1, ℎứ ℎ ℎ ( )= 0, ườ ℎợ ò Đặc trưng url Đây đặc trưng liên quan tới nội dung tweet Đặc trưng có giá trị nhị phân, tweet xét có điểm tính sau: 1, ℎứ ( )= 0, ườ ℎợ ị 3.3 Mơ hình Hệ thống SSRS bao gồm hai phận SM SR Các phận mơ hình sơ đồ hình đây: Nguyễn Thị Tươi 28 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Dữ liệu Tiền xử lý liệu Tập liệu chủ đề ẩn Xây dựng nhãn, vecto đặc trưng Mơ hình xác suất Mơ hình xác suất tham chiếu chủ đề ẩn Dữ liệu kiểm tra Dữ liệu học Learning (CRR) Hàm tính hạng Độ xác P@K, MAP Hình Mơ hình xây dựng hàm tính hạng (SM) Nguyễn Thị Tươi 29 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Mơ hình xác suất tham chiếu chủ đề ẩn Khóa luận tốt nghiệp Tập tweet Xây vecto đặc trưng Hàm tính hạng Ranking ( ( ) ) … ( ) Hình Mơ hình tính hạng cho dịng cập nhật (SR) Cốt lõi hệ thống SSRS tìm hàm tính hạng cho người dùng Hàm tính hạng cần đánh giá qua phương pháp xếp hạng Trong khóa luận này, chúng tơi tập trung vào việc xây dựng mơ hình tính hạng cho người dùng(SM) Các người dùng có vai trị tương tự nên cơng việc tìm mơ hình tính hạng người dùng Các công việc thực pha sau: Pha 1: Xây dựng vecto thể đặc trưng  Tính tốn đặc trưng tweet  Xây dựng vecto đặc trưng Nguyễn Thị Tươi 30 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Pha 2: Xây dựng tập huấn luyện, tập kiểm tra  Tính tốn thứ hạng tweet theo mức độ quan tâm người nhận tweet  Xây dựng liệu huấn luyện liệu kiểm tra Pha 3: Sinh mơ hình tính hạng  Thực thi thuật tốn CRR với liệu huấn luyện sinh mơ hình tính hạng Pha 4: Kiểm tra mơ hình  Sử dụng liệu kiểm tra để đánh giá mơ hình tính hạng thu pha 3.4 Tóm tắt chương Trong chương 3, khóa luận trình bày cách tính điểm cho tweet (nhãn tweet) đặc trưng để xây dựng tập liệu huấn luyện Hơn nữa, chương cụ thể hóa mơ hình hệ thống SSRS công việc cần làm qua pha Chương tiếp theo, chúng tơi thực hóa công việc phải làm thực nghiệm với người dùng twitter Do tính tương tự người dùng, lựa chọn thực nghiệm với người dùng ngấu nhiên mạng xã hội Twitter Nguyễn Thị Tươi 31 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Chương Thực nghiệm đánh giá Nguyễn Thị Tươi 32 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Kết luận định hướng nghiên cứu Nguyễn Thị Tươi 33 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp Tài liệu tham khảo [1] Liangjie Hong, Ron Bekkerman, Joseph Adler and Brian Davison, "Learning to rank social update streams", SIGIR'12: 651-660, 2012 [2] D Sculley, "Combined regression and ranking", KDD 2010: 979-988, 2010 [3] Shea Bennet, "Twitter On Track For 500 Million Total Users By March, 250 Million Active Users By End Of 2012", 2012 http://www.mediabistro.com/alltwitter/twitter-active-total-users_b17655 [4] Tie-Yan Liu, "Learning to Rank for Information Retrieval", Foundations and Trends in Information Retrieval 3(3): 225-331, 2009 [5] Yajuan Duan, Long Jiang, Tao Qin, Ming Zhou and Heung, "An Empirical Study on Learning to Rank of Tweets", COLING 2010: 295-303, 2010 [6] D Blei, A., Ng, and M Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research: 993-1022, 2003 [7] Norbert Fuhr, "Optimum polynomial retrieval functions based on the probability ranking principle", ACM Transactions on Information Systems 7(3): 183–204, 1989 [8] Joachims Thorsten, "Optimizing Search Engines using Clickthrough Data", KDD'02: 133-142, 2002 [9] Joachims Thorsten, "Making large-scale support vector machine learning practical", Advances in kernel methods: 169–184, 1999 [10] Joachims Thorsten, "A support vector method for multivariate performance measures", ICML 2005: 377-384, 2005 [11] T M Mitchell, "Generative and discriminative classifiers: Naive bayes and logistic regression" Machine Learning (Chapter 1), 2005 http://www.cs.cmu.edu/∼tom/mlbook/NBayesLogReg.pdf," 2005 [12] S Rendle, C Freudenthaler, Z Gantner and S.-T Lars, "BPR: Bayesian Personalized Ranking from Implicit Feedback", CoRR abs/1205.2618 (2012) [13] Yehuda Koren, Joe Sill, "OrdRec: an ordinal model for predicting personalized item rating distributions", RecSys 2011: 117-124, 2011 [14] S.-H Yang, B Long, A J Smola, H Zha and Z Zheng, "Collaborative competitive filtering: learning recommender using context of user choice", SIGIR 2011: 295-304, 2011 [15] Thomas Hofmann, "Probabilistic Latent Semantic Analysis", UAI 1999: 289-296, 1999 [16] Xuan Hieu Phan, Minh Le Nguyen, Susumu Horiguchi, "Learning to classify short and sparse text & web with hidden topics from large-scale data collections", WWW 2008: 91-100, 2008 Nguyễn Thị Tươi 34 Mã sinh viên: 09020603 Trường Đại học Công Nghệ – ĐHQG Hà Nội Khóa luận tốt nghiệp [17] Gregor Heinrich, "Parameter Estimation for Text Analysis", Technical report, University of Leipzig, 2005 [18] Rinkesh Nagmoti, Ankur Teredesai and Martine De Cock, "Ranking Approaches for Microblog Search", Web Intelligence 2010: 153-157, 2010 [19] Guangyu Zhu and Gilad Mishne, "ClickRank: Learning Session-Context Models to Enrich Web Search Ranking", TWEB 6(1): (2012), 2012 Nguyễn Thị Tươi 35 Mã sinh viên: 09020603

Ngày đăng: 03/08/2022, 00:18

Tài liệu cùng người dùng

Tài liệu liên quan