Tiêu chí đánh giá
User_id
Số bài tin người dùng quan tâm trùng với hệ thống gợi ý Số bài tin bộ lọc gợi ý Số bài tin người dùng đã quan tâm thực sự Precision(%) Recall(%) F1(%) 64 7 14 12 50.0 58.3 53.8 197 3 5 3 60.0 100 75.0 345 9 12 15 75.0 60.0 66.7 683 9 14 10 60.0 90.0 72.0 1305 2 3 3 66.7 66.7 66.7 2749 12 17 13 70.6 92.3 80.0 2803 11 17 12 64.7 91.7 75.9 3539 4 5 4 80.0 100 88.9 9701 9 14 11 64.3 81.8 72.0 11309 3 4 4 75.0 75.0 75.0 Trung bình 67.1 81.6 73.6 Nhận xét:
Qua thực nghiệm khi tôi tăng, giảm lượng người dùng và bộ bài tin 10%, 20% thì độ chính xác tăng hoặc giảm không đáng kể. Mà độ chính xác phụ thuộc vào số lượng đánh giá (tức số lượng tương tác) mà mỗi người dùng dành cho mỗi bài tin. Với những người dùng có quá ít sự tương tác với các bài tin thì việc tìm cộng đồng tương tự thường không đúng thực tế dẫn đến độ chính xác không cao vì có sự chênh lệch giữa lượng bài người dùng quan tâm và lượng bài hệ thống tư vấn. Người dùng nào có nhiều tương tác với nhiều mục tin (xét các bài tin trong tập học) thì độ chính xác mà hệ thống tư vấn cho sẽ rất cao. Do đó, với diễn đàn thành viên nào càng hoạt động tích cực thì chất lượng tư vấn dành cho họ sẽ càng cao.
Vậy qua kết quả thực nghiệm ta thấy, dùng độ tương tự Cosine cho kết quả độ chính xác cao hơn, số người dùng tương tự nên chọn k=11. Độ chính xác là 67.1 % chứng tỏ bộ lọc tạo ra đã đạt mức yêu cầu để có thể làm ứng dụng gợi ý cho người dùng duyệt tin.
Ngày nay khai phá dữ liệu là lĩnh vực rộng đã và đang được nghiên cứu ứng dụng trong thực tế. Trong đó, hệ tư vấn đang được quan tâm và ứng dụng nhiều với mong muốn đáp ứng nhu cầu ngày càng cao của người dùng. Một số kết quả tác giả đã làm được trong luận văn:
- Tìm hiểu thực trạng nhu cầu tìm kiếm thông tin của người dùng trong diễn đàn cũng như nghiên cứu dữ liệu của diễn đàn tuetinhonline.edu.vn để vận dụng lọc cộng tác vào thực nghiệm tư vấn tin cho diễn đàn.
- Tìm hiểu tổng quan hệ tư vấn và nghiên cứu một kỹ thuật trong hệ tư vấn là lọc cộng tác. Cụ thể hơn là phương pháp láng giềng gần nhất kết hợp lấy tốp N bài tin, vận dụng phương pháp đó vào diễn đàn.
- Trích lọc và xử lý dữ liệu gốc diễn đàn để tạo ra ma trận đánh giá user-item làm đầu vào cho thuật toán CF. Việc này đã khai thác được tri thức tiềm ẩn trong dữ liệu gốc đó là các tương tác giữa người dùng và diễn đàn. Từ đó lấy được các đánh giá khách quan giữa người dùng và bài tin. Khía cạnh mà luận văn áp dụng này có thể vận dụng được cho tất cả các hệ thống tồn tại tương tác giữa người dùng và hệ thống, tương tác này được lưu lại theo cách thức nào đó như các trang mua bán trực tuyến, trang tin tức tổng hợp….
- Thực nghiệm đưa ra được các gợi ý tin cho từng người dùng riêng lẻ khi họ cung cấp mã, thực nghiệm đánh giá chất lượng bộ lọc để so sánh hai độ đo Cosine và Euclidean xem độ đo nào cho kết quả gợi ý chính xác hơn, đồng thời thử nghiệm các giá trị k hàng xóm để chọn ra bộ tham số phù hợp nhất. Qua các thông số đánh giá bộ lọc có thể khẳng định chất lượng bộ lọc khá, có thể vận dụng vào thực tiến.
Hướng nghiên cứu tiếp theo
- Tích hợp được mô đun lọc cộng tác thành một chức năng của Tuệ Tĩnh. Từ đó có thể xây dựng giao diện hợp lý, sáng tạo cho các gợi ý: như tạo được cuộc hội thoại online của các nhóm cộng đồng hàng xóm mà hệ tư vấn đã xử lý trong backend.
- Cải thiện tốc độ xử lý của bộ lọc khi lượng người dùng tăng lên.
- Sử dụng độ đo tương tự hỗn hợp khai thác các thuộc tính cá nhân người dùng trong việc tạo ra cộng đồng hàng xóm tin cậy để tăng chất lượng gợi ý tin, đồng thời việc này cũng có thể khắc phục được một số hạn chế như hạn chế người dùng mới. Kết hợp với phương pháp lọc dựa trên nội dung để khắc phục các hạn chế của bộ lọc.
Tài liệu tham khảo
Tiếng Anh
[1] Adomavicius, G., & Tuzhilin, A.(2005), Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions.
Knowledge and Data Engineering, IEEE Transactions on, 17(6), 734-749.
[2] William W. Cohen, Center for Automated Learning and Discovery Carnegie Mellon Uninversity, “Collaborative Filtering: Atutorial”
[3] J.S. Breese, d.Heckerman, and C. Kadie, “Emprical analysis of predictive algorithms for collaborative filtering,”Communications of the ACM, vol.40, no.3, pp.66-72,197.
[4] M. Balabanovic and Y. Shoham, (1997), “Fab: Content-based, Collaborative Recommendation,” Communications of the ACM, vol. 40, no. 3, pp. 66–72.
[5] M. Pazzani and D. Billsus, (1997), “Learning and Revising User Profiles : The Identification of Interesting Web Sites,” Machine Learning 27, pp. 313–331.
[6] P. Resnick, N. Iacovou, and M. Suchak, (1994), “GroupLens: an open architecture for collaborative filtering of netnews,” Proceedings of the Computer Supported Cooperative Work Conf.
[7] Billsus, D. and M. Pazzani (1998), Learning collaborative information filters. In International Conference on Machine Learning, Morgan Kaufmann Publishers.
[8] Soboroff, I. and C. Nicholas, (August 1999), Combining content and collaboration in text filtering. In IJCAI'99 Workshop: Machine Learning for Information Filtering.
[10] Linden, G., Smith, B., & York, J. (2003), Amazon. com recommendations: item-to-item tượng collaborative filtering. Internet Computing, IEEE, 7(1), 76-80.
[11] Cremonesi, P., Koren, Y., & Turrin, R. (2010, September), Performance of recommender algorithms on top-
n recommendation tasks. In Proceedings of the fourth ACM
conference on Recommender systems (pp. 39-46). ACM.
[12] D. Billsus and M. Pazzani, (2000), “User modeling for
adaptive news access,” User modeling and user-adapted
interaction, pp. 147–180.
[13] Vozalis, E., & Margaritis, K. G. (2003, September). Analysis of recommender systems algorithms. In Proceedings of the 6th Hellenic European Conference on Computer Mathematics and its Applications (HERCMA-2003), Athens, Greece.
[14] M. Claypool, A. Gokhale, and T. Miranda, “Combining content-based and collaborative filters in an online
newspaper,” Proceedings of ACM CHI’95, 1999.
[15] M. Pazzani, (1999), “A framework for collaborative, content-based and demographic filtering,” Artificial Intelligence Review, pp. 1–16.
[16] Han, J., Kamber, M., & Pei, J. (2006), Data mining: concepts and techniques. Morgan kaufmann, chapter 11.
[17] Breese, J. S., Heckerman, D., & Kadie, C. (1998, July), Empirical analysis of predictive algorithms for
collaborative filtering. In Proceedings of the Fourteenth
conference on Uncertainty in artificial intelligence (pp.
43-52). Morgan Kaufmann Publishers Inc..
[18] Benjamin Marlin,(2003), “collaborative filtering: A Machine Learning Perspective”.
[19] Gjoka, M., & Soldo, F. (2008), Exploring collaborative filters: Neighborhood- based approach. working paper, Department of MSIS, University of Texas, Austin.
[20] Wang, J., De Vries, A. P., & Reinders, M. J. (2006, August), Unifying user-based and item-based collaborative filtering approaches by similarity fusion. In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 501-508). ACM.
[21]McLaughlin, M. R., & Herlocker, J. L. (2004, July), A collaborative filtering algorithm and evaluation metric that accurately model the user experience. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 329-336). ACM
[22] Herlocker, J. L., Konstan, J. A., Riedl, J., (2002), “An Empirical Analysis of Design Choices in Neighborhood-based Collaborative Filtering Algorithms”. Information Retrieval, 5
287-310.
[23] Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004), Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems (TOIS), 22(1), 5-53.
[24] Cremonesi, P., Koren, Y., & Turrin, R. (2010, September), Performance of recommender algorithms on top-n recommendation tasks. In Proceedings of the fourth ACM conference on Recommender systems (pp. 39-46). ACM.
[25] Hernández del Olmo, F., & Gaudioso, E. (2008),
Evaluation of recommender systems: A new approach. Expert
Systems with Applications, 35(3), 790-804.
[26] Ron Zacharski, “A programer’s guide to data Mining”, ebook.
[27] Sarwar, B., Karypis, G., Konstan, J., & Riedl, J.
(2001, April), item-based collaborative filtering
recommendation algorithms. In Proceedings of the 10th
international conference on World Wide Web (pp. 285-295).
ACM.
[28] Linacre, J. M. (2010), Predicting responses from Rasch measures. Journal of applied measurement, 11(1), 1.
[29] Harper, F. M., Konstan, J. A., Li, X., & Chen, Y. (2005, September), User motivations and incentive structures in an online recommender system. In Proceedings of Group 2005 Workshop on Sustaining Community: The role and design of incentive mechanisms in online systems.
seminar, 2006
Tiếng Việt
[31] Nguyễn Thạc Huy (2013), Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
[32] Nguyễn Duy Phương, Luận án Tiến sĩ, (2011), “Phát triển một số phương pháp lọc thông tin cho hệ tư vấn” Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội.