Phản hồi ẩn trong hệ thống gợi ý nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THẾ CHUẨN PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THẾ CHUẨN PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Việt Anh Hà Nội - 2015 Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn chân thành tới TS Nguyễn Việt Anh Sự bảo hướng dẫn tận tình thầy suốt thời gian nghiên cứu giúp hoàn thành luận văn tốt nghiệp Nguồn hỗ trợ cổ vũ lớn lao động viên, khích lệ hai bên bố mẹ, vợ em trai Thiên thần bé nhỏ chào đời hai vợ chồng nguồn động lực lớn để tập trung cho luận văn Ngoài ra, cảm ơn tất thầy cô, anh chị, bạn đồng nghiệp, bạn khoá học chia sẻ, giúp đỡ suốt thời gian học Trường đại học Công nghệ - ĐHQGHN Chúc tất người có sức khỏe tốt, gia đình hạnh phúc gặt hái nhiều thành công sống Học viên Đỗ Thế Chuẩn Lời cam đoan Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn thực hướng dẫn TS Nguyễn Việt Anh Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Tác giả Đỗ Thế Chuẩn Mục lục Danh mục hình vẽ Danh mục bảng LỜI NÓI ĐẦU Chương 1: Đặt vấn đề 1.1 Bài toán 1.2 Nội dung phương pháp nghiên cứu 1.3 Phạm vi nghiên cứu .7 1.4 Kết đạt .7 Chương 2: Các nghiên cứu liên quan 2.1 Hệ thống gợi ý .8 2.2 Phân loại hệ thống gợi ý 2.2.1 Hệ thống gợi ý dựa vào nội dung 2.2.2 Hệ thống gợi ý dựa vào cộng tác 11 2.2.3 Hệ thống lai 13 2.3 Hồ sơ đối tượng nội dung 13 2.4 Mô hình người dùng 14 2.5 Phản hồi người dùng hệ thống gợi ý nội dung 17 2.5.1 Phản hồi tường minh 17 2.5.2 Phản hồi ẩn 17 2.6 Kỹ thuật phân rã ma trận 18 2.7 Một số hệ thống gợi ý nội dung 19 2.7.1 Google Tin tức 19 2.7.2 Trang web Báo Mới 20 2.7.3 Trang báo điện tử VietNamNet 21 Chương 3: Xây dựng hệ thống gợi ý tin tức sử dụng phản hồi ẩn 23 3.1 Kiến trúc hệ thống 23 3.1.1 Mô tả kiến trúc hệ thống .23 3.1.2 Nguyên lý hoạt động hệ thống .24 3.2 Hồ sơ đối tượng tin tức 25 3.3 Module phản hồi ẩn 27 3.3.1 Phương pháp biễu diễn liệu ẩn 27 3.3.2 Giải thuật sử dụng cho hệ thống gợi ý sử dụng phản hồi ẩn 30 Chương 4: Thực nghiệm đánh giá 32 4.1 Thực nghiệm đánh giá 32 4.2 Hướng nghiên cứu .35 Danh mục công trình khoa học tác giả liên quan đến luận văn 36 Kết luận 37 Tài liệu tham khảo 38 Danh mục hình vẽ Hình 2.1: Ma trận biểu diễn xếp hạng người dùng tin tức Hình 2.2: Kỹ thuật phân rã ma trận 18 Hình 2.3: Giao diện hệ thống Google Tin tức 19 Hình 2.4: Giao diện Trang cá nhân Báo 20 Hình 2.5: Giao diện cuối tin tức báo VietNamNet 21 Hình 3.1: Giao diện trang chủ hệ thống xenoNews 23 Hình 3.2: Kiến trúc hệ thống xenoNews 24 Hình 3.3: Sơ đồ hoạt động hệ thống 25 Hình 3.4: Quá trình thu thập tin tức 26 Hình 3.5: Quá trình tạo hồ sơ đối tượng tin tức 26 Hình 3.6: Biểu diễn liệu hệ thống gợi ý dạng nhị phân 27 Hình 3.7: Biểu diễn liệu Ds dạng so sánh cặp 28 Danh mục bảng Bảng 4.1: Thử nghiệm hệ thống qua tuần 33 Bảng 4.2: Số lượng tin tức tỉ lệ so với tuần đầu người dùng đọc 34 Bảng 4.3: Số liệu sau tuần huấn luyện (tính trung bình tất người dùng) 34 LỜI NÓI ĐẦU Nhờ vào lực xử lý mạng máy tính ngày cao giá thành Internet giảm xuống mà hệ thống báo điện tử trang thông tin điện tử ngày nở rộ giúp độc giả cập nhật thông tin nhanh với nguồn nội dung phong phú đa dạng Chính phong phú đa dạng khiến tổng số lượng nội dung mà độc giả tiếp cận khoảng thời gian ngắn lớn dẫn đến nội dung bị lặp lặp lại nhiều lần từ nhiều nguồn cung cấp tin khác Ngoài ra, nhiều thông tin không cần thiết, không hấp dẫn thân người dùng lại đưa nhiều dẫn đến việc dư thừa thông tin khó kiểm soát trình theo dõi nội dung người đọc Để khắc phục vấn đề đó, hệ thống tổng hợp gợi ý nội dung đời với mục tiêu phân loại nội dung, lọc nội dung phù hợp với sở thích cá nhân người dùng Quá trình xây dựng biểu diễn mô hình nội dung, hồ sơ người dùng, cách lựa chọn nội dung để hiển thị mô hình người dùng hệ thống khác Việc cập nhật mô hình người dùng thường xuyên quan trọng hệ thống để biểu diễn nội dung tìm nội dung phù hợp Luận văn thực theo hướng tìm hiểu phương pháp thu thập phản hồi ẩn người dùng để cập nhật vào mô hình người dùng, từ đưa nội dung phù hợp hệ thống nội dung áp dụng thử nghiệm vào hệ thống gợi ý tin tức tiếng Việt Nội dung luận văn bao gồm phần chính: Chương 1: Mô tả toán xây dựng hệ thống gợi ý nội dung sử dụng phản hồi ẩn người dùng bao gồm: mục tiêu, nội dung phương pháp nghiên cứu, kết đạt Chương 2: Trình bày lý thuyết hệ thống gợi ý, hồ sơ đối tượng nội dung, hồ sơ người dùng, mô hình người dùng giới thiệu phản hồi người dùng Kỹ thuật phân rã ma trận số hệ thống gợi ý nội dung giới thiệu Chương 3: Dựa lý thuyết với số hệ thống giới thiệu tìm hiểu, luận văn trình bày hệ thống gợi ý tin tức sử dụng phản hồi ẩn người dùng Quá trình thiết kế, xây dựng nên hệ thống gợi ý tin tức trình bày cách cụ thể chương Chương 4: Trình bày kết trình thử nghiệm để đánh giá hoạt động module phản hồi ẩn xây dựng chương trình hoạt động chung hệ thống gợi ý tin tức Phần kết luận: Tóm tắt nội dung trình bày luận văn hướng nghiên cứu để cải tiến hệ thống gợi ý tin tức sử dụng phản hồi ẩn 6 Chương 1: Đặt vấn đề 1.1 Bài toán Hiện nay, hệ thống gợi ý phát triển ứng dụng mạnh mẽ [1] Bộ lọc nội dung đóng vai trò trung tâm để đưa gợi ý phù hợp với người dùng Tất hệ thống gợi ý yêu cầu mô hình người dùng [2] Hướng tiếp cận phổ biến để xây dựng mô hình người dùng thông qua phản hồi người dùng Chính vậy, phản hồi người dùng hệ thống ngày trở nên quan trọng Hệ thống gợi ý tin tức tiếng Việt xenoNews tác giả Nguyễn Thạc Huy [3] xây dựng dừng lại mức bước đầu việc xây dựng dịch vụ gợi ý Đối với người dùng, hệ thống chủ yếu dựa vào nội dung mà người dùng đọc, việc thu thập thời gian đọc tin “time-code” gần hệ thống tương tác để thu thập thông tin cần thiết sở thích người dùng hệ thống tương tác với tin tức mà người dùng đọc Để khắc phục nhược điểm hệ thống xenoNews, đặt toán cải tiến hệ thống xenoNews cách sử dụng hệ thống xenoNews làm tảng xây dựng module thu thập thông tin ẩn người dùng tương tác với hệ thống, đặc biệt tin tức mà người dùng đọc, từ cập nhật lại hồ sơ người dùng hệ thống giúp hệ thống có gợi ý tốt người dùng lần truy cập sau Luận văn đưa lý thuyết mô hình hóa người dùng, công thức ứng dụng phản hồi ẩn sử dụng kỹ thuật phân rã ma trận cho hệ thống gợi ý nội dung từ nghiên cứu trước Mục tiêu cần đạt tổng hợp kiến thức hệ thống gợi ý nội dung sử dụng phản hồi ẩn, từ cài đặt đánh giá hệ thống gợi ý tin tức tiếng Việt sử dụng phản hồi ẩn 1.2 Nội dung phương pháp nghiên cứu Để đạt mục tiêu đề ra, trước tiên, tìm hiểu hệ thống gợi ý mô hình người dùng Tiếp theo tiến hành tìm hiểu chế phản hồi hệ thống gợi ý nội dung kỹ thuật phân rã ma trận Từ lý thuyết trên, tìm hiểu thêm số hệ thống gợi ý nội dung sử dụng Việt Nam Sau nghiên cứu kỹ lý thuyết tham khảo vài hệ thống, tiến hành nghiên cứu thuật toán xây dựng module thu thập phản hồi ẩn người dùng 38 Tài liệu tham khảo [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] L Chen, G Chen, and F Wang, "Recommender systems based on user reviews: the state of the art," User Modeling and User-Adapted Interaction, vol 25, pp 99-154, 2015 G Jawaheer, M Szomszor, and P Kostkova, "Comparison of implicit and explicit feedback from an online music recommendation service," presented at the Proceedings of the 1st International Workshop on Information Heterogeneity and Fusion in Recommender Systems, Barcelona, Spain, 2010 N T Huy, "Chọn lọc thông tin dựa nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng,," Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2013 D Goldberg, D Nichols, B M Oki, and D Terry, "Using collaborative filtering to weave an information tapestry," Commun ACM, vol 35, pp 61-70, 1992 F Ricci, L Rokach, B Shapira, and P B Kantor, Recommender Systems Handbook: Springer-Verlag New York, Inc., 2010 R A Baeza-Yates and B Ribeiro-Neto, Modern Information Retrieval: Addison-Wesley Longman Publishing Co., Inc., 1999 N J Belkin and W B Croft, "Information filtering and information retrieval: two sides of the same coin?," Commun ACM, vol 35, pp 29-38, 1992 A S Das, M Datar, A Garg, and S Rajaram, "Google news personalization: scalable online collaborative filtering," presented at the Proceedings of the 16th international conference on World Wide Web, Banff, Alberta, Canada, 2007 J S Breese, D Heckerman, and C Kadie, "Empirical analysis of predictive algorithms for collaborative filtering," presented at the Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence, Madison, Wisconsin, 1998 M Claypool, A Gokhale, T Miranda, P Murnikov, D Netes, and M Sartin, "Combining content-based and collaborative filters in an online newspaper," presented at the Proceedings of the ACM SIGIR '99 Workshop on Recommender Systems: Algorithms and Evaluation, Berkeley, California, 1999 M J Pazzani, "A Framework for Collaborative, Content-Based and Demographic Filtering," Artif Intell Rev., vol 13, pp 393-408, 1999 D Jannach, M Zanker, A Felfernig, and G Friedrich, Recommender Systems: An Introduction: Cambridge University Press, 2010 K Goldberg, T Roeder, D Gupta, and C Perkins, "Eigentaste: A Constant Time Collaborative Filtering Algorithm," Inf Retr., vol 4, pp 133-151, 2001 D Kluver, T T Nguyen, M Ekstrand, S Sen, and J Riedl, "How many bits per rating?," presented at the Proceedings of the sixth ACM conference on Recommender systems, Dublin, Ireland, 2012 Y Hu, Y Koren, and C Volinsky, "Collaborative Filtering for Implicit Feedback Datasets," presented at the Proceedings of the 2008 Eighth IEEE International Conference on Data Mining, 2008 G Adomavicius and Y Kwon, "Overcoming Accuracy-Diversity Tradeoff in Recommender Systems: A Variance-Based Approach," in Proceedings of the 18th Workshop on Information Technology and Systems (WITS’08), Paris, France, 2008 39 [17] [18] [19] [20] [21] [22] [23] D M Nichols, "Implicit rating and filtering," Proceedings of the 5th DELOS Workshop on Filtering and Collaborative Filtering, 1997 D W Oard, "Implicit feedback for recommender systems," Proceedings of the AAAI Workshop on Recommender Systems, 1998 D W O a J Kim, "Modeling information content using observable behavior," Proceedings of the 64th Annual Conference of the American Society for Information Science and Technology, 2001 S Rendle, C Freudenthaler, Z Gantner, and L Schmidt-Thieme, "BPR: Bayesian personalized ranking from implicit feedback," presented at the Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, Montreal, Quebec, Canada, 2009 L Bottou, "Stochastic learning," ed O Bousquet, and von U Luxburg: Advanced Lectures on Machine Learning, Lecture Notes in Artificial Intelligence, Springer Verlag, Berlin, 2004, pp 146-168 N T Nghe and N T Phong, "Xây dựng hệ thống gợi ý hát dựa phản hồi tiềm ẩn," Tạp chí Khoa học Trường Đại học Cần Thơ vol 34, pp 81-91, 2014 N Thai-Nghe, Z Gantner, and L Schmidt-Thieme, "Cost-sensitive learning methods for imbalanced data," in Neural Networks (IJCNN), The 2010 International Joint Conference on, 2010, pp 1-8 [...]... Workshop on Information Heterogeneity and Fusion in Recommender Systems, Barcelona, Spain, 2010 N T Huy, "Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng,," Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2013 D Goldberg, D Nichols, B M Oki, and D Terry, "Using collaborative filtering to weave an information tapestry," Commun ACM,... Bousquet, and von U Luxburg: Advanced Lectures on Machine Learning, Lecture Notes in Artificial Intelligence, Springer Verlag, Berlin, 2004, pp 146-168 N T Nghe and N T Phong, "Xây dựng hệ thống gợi ý bài hát dựa trên phản hồi tiềm ẩn, " Tạp chí Khoa học Trường Đại học Cần Thơ vol 34, pp 81-91, 2014 N Thai-Nghe, Z Gantner, and L Schmidt-Thieme, "Cost-sensitive learning methods for imbalanced data," in Neural

Định dạng
Số trang	12
Dung lượng	1,23 MB