Dựa trên kết quả thu được, luận văn nhận thấy có thể đưa ra các kết luận khác: Nếu chọn mô hình người dùng gồm top 10 chủ đề ẩn cho độ chính xác cao nhất. Nếu chọn mô hình người dùng từ 3 chủ đề trở lên thì độ chính xác tăng lên cao hơn
hẳn so với trường hợp chỉ lấy 1 chủ đề.
Nếu tăng mô hình tin tức từ 2 lên 3 chủ đề thì độ chính xác tăng lên không nhiều so với trường hợp tăng từ 1 lên 2, nếu tăng mô hình người dùng từ 3 lên 5 chủ đề thì độ chính xác tăng lên không nhiều so với trường hợp tăng chủ đề từ 1 lên 3. Vì vậy, trường hợp có ít không gian lưu trữ và để giới hạn hơn nữa số lượng các tin tức tư vấn thì phương pháp lựa chọn 3 chủ đề cho mô hình người dùng và 2 chủ đề cho mô hình các tin tức có thể là một phương án hợp lý. 0 10 20 30 40 50 60 70 80 90 100 User Model Top 1 Topic User Model Top 3 Topic User Model Top 5 Topic User Model Top 7 Topic User Model Top 10 Topic
Last Article Top 1 Topic Last Article Top 2 Topic Last Article Top 3 Topic
Kết luận Các kết quả chính đạt đƣợc
Luận văn đã tìm hiểu về các khái niệm, thuật ngữ, kỹ thuật liên quan đến mô hình hóa người dùng và các phương tiện xã hội. Dựa vào khảo sát, phân tích ưu nhược điểm của các phương pháp mô hình hóa và nguồn dữ liệu từ các phương tiện xã hội, luận văn đề xuất một giải pháp tư vấn tin tức dựa trên khai phá thói quen đọc và bình luận tin tức của người dùng trên trang báo điện tử VNExpress. Trong đó, hệ thống thực thi một tiến trình tự động thu thập dữ liệu, thuật toán mô hình người dùng dựa trên phân tích chủ đề ẩn. Hướng tiếp cận này có nhiều tiềm năng và đã được chứng minh thông qua một số số liệu thống kê kết quả ban đầu.
Một số vấn đề cần tiếp tục giải quyết
Tuy mô hình đã bước đầu đạt được một số kết quả khả quan, nhưng vẫn còn tồn tại nhiều vấn đề cần giải quyết. Đầu tiên, kết quả tư vấn chỉ có thể áp dụng được với những người dùng có số lượt bình luận đủ lớn (vấn đề khởi động chậm). Thêm vào đó, chất lượng tư vấn từ mô hình người dùng chỉ dựa vào chủ đề có thể tiếp tục nâng cao hơn nhờ phân tích các đặc trưng bổ sung như phân tích các thực thể nằm trong chính các đoạn bình luận của người dùng, phân tích quan điểm tích cực hay tiêu cực của người dùng về các tin tức.
Hƣớng nghiên cứu tiếp theo
Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, chúng tôi đi ̣nh hướng mô ̣t số nghiên cứu tiếp theo:
Nghiên cứu thêm về các yếu tố ngữ cảnh và ảnh hưởng của chúng đến quyết định của người dùng.
Phát hiện các mối quan hệ tin cậy của những người dùng trên hệ thống. Bài toán tư vấn cho nhóm người dùng.
Tài liệu tham khảo
Tiếng Việt Tiếng Anh
[1] Ahlqvist, T., Bäck, A., Halonen, M., & Heinonen, S. (2008). Social Media Roadmaps. Helsinki: Edita Prima Oy.
[2] Ahmed, A., Low, Y., Aly, M., Josifovski, V., & Smola, A. J. (2011). Scalable distributed inference of dynamic user interests for behavioral targeting. Paper presented at the ACM Conference on Knowledeg Discovery and Data Mining (KDD)
(pp. 373-382).
[3] Bamshad Mobasher: Data Mining for Web Personalization. The Adaptive Web 2007:90-135.
[4] Bo Hu, Zhao Song, and Martin Ester. 2012. User Features and Social Networks for Topic Modeling in Online Social Media. In Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012) (ASONAM '12). IEEE Computer Society, Washington, DC, USA, 202-209.
[5] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching. In:
Proceedings of the 2nd International Conference on Autonomous Agents, Minneapolis/St. Paul, May 9-13, (1998) 132-139.
[6] David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.
Journal of Machine Learning Research (JMLR) 3:993-1022 (2003).
[7] X. Ding, B. Liu, and P. S. Yu. A holistic lexiconbased approach to opinion mining. In Proceedings of the Conference on Web Search and Web Data Mining
(WSDM), 2008.
[8] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A. User profiles for personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds. The Adaptive Web: Methods and Strategies of Web Personalization. Springer- Verlag,
Berlin Heidelberg New York, 2007, 54-89.
[9] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information Filtering System for the Cultural Heritage Domain. Applied Artificial Intelligence
17(8-9) (2003) 715-744.
[10] Gueye, M., Abdessalem, T., & Naacke, H. (2012). Dynamic recommender system: using cluster-based biases to improve the accuracy of the predictions.
[11] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report.
[12] Herlocker, .L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating Collaborative Filtering Recommender Systems. ACM Transactionson Information Systems 22(1), 5–53(2004).
[13] T. Hoffman. Online reputation management is hot – but is it ethical?
ComputerWorld, 2 2008.
[14] L. Hong and B. D. Davison. Empirical study of topic modeling in twitter. In Proceedings of the First Workshop on Social Media Analytics, SOMA ’10, pages 80– 88, New York, NY, USA, 2010. ACM.
[15] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis with Hidden Topic in News Recommendation System. IALP 2010: 211-214.
[16] M. Joshi and N. Belsare. Blogharvest: Blog mining and search framework. In International Conference on Management of Data, Delhi, India, 2006, December 14- 16 2006. Computer Society of India.
[17] Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The challenges and opportunities of Social Media. Business horizons, 53(1), 59-68.
[19] Kietzmann, J. H., Hermkens, K., Mccarthy, I. P., & Silvestre, B. S. (2011). Social media? Get serious! Understanding the functional building blocks of social media. Business horizons, 54(3), 241-251.
[20] Milstein, S., Lorica, B., Magoulas, R., Hochmuth, G., Chowdhury, A., & O'Reilly, T. (2008). Twitter and the micro-messaging revolution: Communication, connections, and immediacy--140 characters at a time. O'Reilly Media, Incorporated.
[21] M. Naaman, H. Becker, and L. Gravano. Hip and trendy: Characterizing emerging trends on twitter. Journal of the American Society for Information Science and Technology, 2011.
[22] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying Interesting Web Sites. In: Proceedings of the 13th National Conference On Artificial Intelligence Portland, Oregon, August 4–8 (1996) 54-61.
[23] A. M. Popescu and O. Etzioni. Extracting product features and opinions from reviews. In HLT ’05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 339–346, Morristown, NJ, USA, 2005. Association for Computational Linguistics.
[24] Pretschner, A.: Ontology Based Personalized Search. Master’s thesis. University of Kan- sas, June (1999).
[25] S. Sen, J. Vig, and J. Riedl. Tagommenders: Connecting users to items through tags. In Proc. of WWW’ 09, pages 671–680, 2009.
[26] J. Tatemura. Virtual reviewers for collaborative exploration of movie reviews. In Proceedings of Intelligent User Interfaces (IUI), pages 272–275, 2000.
[27] Thomas Hofmann. Probabilistic latent semantic indexing. In Proceedings of SIGIR-99, (1999) 35–44.
[28] Le Dieu Thu. On the analysis of large-scale datasets towards online contextual,
2008.
[29] Nguyen Cam Tu. Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, 2008.
[30] Tso-Sutter, K.H.L., L. Marinho, and L. Schmidt-Thieme. Tag-aware recommender systems by fusion of collaborative filtering algorithms. In Proc. of Applied Computing, pages 1995–1999, 2008.
[31] J. Weng, E. Lim, J. Jiang, and Q. He. Twitterrank: finding topic-sensitive influential twitterers. In Proceedings of the third ACM international conference on Web search and data mining, pages 261–270. ACM, 2010.
[32] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes: A Swift Messenger In Cyberspace. In: Proc. 1999 AAAI Spring Symposium Workshop on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67.
[33] D. T. Wijaya and S. Bressan. A random walk on the red carpet: rating movies with user reviews and pagerank. In CIKM ’08: Proceeding of the 17th ACM conference on Information and knowledge management, pages 951–960. ACM, 2008.
[34] W. Zhang, C. Yu, and W. Meng. Opinion retrieval from blogs. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 831–840. ACM, 2007.
[35] L. Zhuang, F. Jing, X. Zhu, and L. Zhang. Movie review mining and summarization. In Proceedings of the ACM SIGIR Conference on Information and Knowledge Management (CIKM), 2006.