Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
530,14 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ng Huy Long PHÁT HIỆN THĨI QUEN CỦA CON NGƢỜI/ NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ XÁC SUẤT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN HÀ NỘI - 2015 Lời cảm ơn ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Trước tiên, tơi xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Uông Huy Long Hà Quang Thụy Thạc sĩ Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá PHÁT HIỆN THĨI QUEN CỦA CON NGƢỜI/ liệu” giúp nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt NHĨM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ XÁC SUẤT khố luận Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Côngcảm nghệ Tôi xinNgành: chân thành ơn!thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THƠNG TIN Sinh viên ng Huy Long NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Việt Cƣờng HÀ NỘI - 2015 Lời cam đoan Tôi cam đoan cơng trình nghiên cứu riêng tơi, thực hướng dẫn khoa học Tiến sĩ Nguyễn Việt Cường Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tơi xin chịu trách nhiệm nghiên cứu Học viên Uông Huy Long Mở đầu Thuật ngữ Web 2.0 lần đầu xuất vào tháng 10/2004 Tim OReily – Chủ tịch Dale Dougherty – Phó Chủ tịch OReily Media đưa hội thảo phát triển Web Có nhiều quan điểm khác Web 2.0, nhiên đa số mô tả Web 2.0 số tính khả giao tiếp, tính tương tác người dùng với yếu tố cho phép người dùng tạo thông tin Các trang Web truyền thông xã hội (social media websites) dựa Web 2.0 trang báo điện tử xã hội, mạng xã hội, blog, từ điển mở wiki,… có phát triển vũ bão thực làm biến đổi giới Internet ngày, Cùng nhìn vào đại diện tiêu biểu Web truyền thông xã hội, trang báo điện tử xã hội (social news sites), khái niệm “báo điện tử” việc đọc tin tức điện tử khơng xa lạ với đa số người dân Việt Nam Những thống kê gần alexa1 số lượng trang báo điện tử nằm top trang Web phổ biến Việt Nam cho thấy nhu cầu cao xã hội lĩnh vực truyền thông Tuy nhiên, vấn đề tồn có nhiều tin tức ngày cập nhật, người dùng dường bị chìm ngập biển thơng tin mà khơng tìm thơng tin phù hợp Web 2.0 lời giải cho vấn đề này, trang báo điện tử xã hội cho phép người dùng tạo nội dung bình luận, chia sẻ,…Đây nguồn liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mơ hình hóa người dùng Từ nắm bắt thói quen đọc, bình luận tin tức người dùng theo lĩnh vực (như thể thao, giải trí, cơng nghệ,…), nhiều dịch vụ tiềm (như tin tức mới, quảng cáo, game,…) suy diễn tư vấn xác, kịp thời Luận văn đề xuất phương pháp dựa mơ hình chủ đề xác suất giúp trang báo điện tử xã hội nhận diện thói quen, mối quan tâm người dùng cách tự động lịch sử hoạt động bình luận họ (Người dùng xây dựng thói quen đọc, bình luận tin tức sở mối quan tâm, vậy, luận văn, khái niệm mơ hình hóa người dùng, phân tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận người dùng sử dụng thay cho nhau) Tính xác khả ứng dụng thực tế mơ hình chứng minh số kết thực nghiệm ban đầu http://www.alexa.com/topsites/countries/VN Chƣơng Giới thiệu 1.1 Những thách thức trang báo điện tử Ngày nay, thông tin trang báo điện tử (như VNExpress1) bao phủ khía cạnh đời sống xã hội, từ tin tức kinh tế, trị tới kiện thể thao, giải trí nước quốc tế Cùng với thực tế tượng có lượng lớn tin tức phát sinh thêm ngày (như trang VNExpress, thời điểm khảo sát có 135 tin tức ngày), người đọc quan tâm tới tin tức kiện/ chuỗi kiện diễn nhiều ngày muốn xem lại thơng tin từ ngày trước, mà lượng tin tức cần đọc lên tới hàng nghìn Vấn đề đặt làm cách người đọc vừa tiết kiệm thời gian truy cập vừa khơng bỏ sót nội dung mà họ quan tâm Những nghiên cứu trước gọi vấn đề tràn ngập thơng tin Một giải pháp phổ biến cung cấp cho người dùng cơng cụ tìm kiếm Tuy nhiên, cơng cụ tìm kiếm đơi khơng đem lại hiệu quả, điều thường nghĩa từ khố khơng rõ ràng ý nghĩa xác chúng phụ thuộc vào ngữ cảnh người dùng Ví dụ lập trình viên tìm kiếm với từ khóa “apache”, người khơng muốn nhìn thấy hình ảnh loại máy bay trực thăng Hay người dùng muốn tìm kiếm lịch sử tộc người da đỏ (cũng có tên apache), nội dung người quan tâm khơng phải máy bay trực thăng hay máy chủ web Một hướng tiếp cận khác nghiên cứu tìm cách xây dựng hệ thống cá nhân hóa, hệ thống cung cấp kết tư vấn tìm kiếm khác cho phù hợp với người dùng khác Hình Chức tìm kiếm trang vnexpress.net http://vnexpress.net/ Một hệ thống cá nhân hóa giải vấn đề có nhiều lựa chọn cách xây dựng quản lý thông tin người dùng, đặt hồ sơ người dùng Tồn q trình gọi mơ hình hóa người dùng trình bày chi tiết chương Hệ thống thực thi hình thức lọc thông tin không liên quan xác định thêm thơng tin hấp dẫn người dùng Hồ sơ người dùng bao gồm thơng tin cá nhân, ví dụ tên, tuổi, quốc gia, mức độ giáo dục,…và đại diện cho sở thích, mối quan tâm cá nhân nhóm người dùng ưa thích với chủ đề thể thao hay du lịch Các thơng tin phân tích dựa vào liệu người dùng cung cấp, suy diễn từ liệu log hệ thống nguồn liệu từ phương tiện xã hội, nội dung luận văn trình bày chi tiết chương 1.2 Bài toán tƣ vấn trang báo điện tử xã hội Tư vấn tin tức lĩnh vực giàu tiềm số lượng sản phẩm tư vấn, số lượng người dùng số lượt sử dụng cao nhiều so với đối tượng tư vấn khác, luận văn đề xuất mơ hình người dùng ứng dụng vào hệ thống tư vấn tin tức chương Một vài đặc trưng riêng có miền đối tượng tin tức đặc trưng chung người sử dụng tư vấn, mơ tả sau: Đầu tiên, tin tức đối tượng tư vấn đặc biệt, đặc trưng sau tin tức giúp đưa giải pháp hữu hiệu xây dựng giải pháp tư vấn: Tính không đồng giá trị: Giá trị tin tức xác định cách kết hợp yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả,… Tính dễ sinh ra: số lượng lớn tin tức nảy sinh xung quanh kiện, tượng Tính dễ tàn lụi: tượng tin tức đánh giá trị vấn đề đề cập khơng tính thời Hình Ví dụ tin tức nảy sinh xung quanh kiện Khi xem xét đến yếu tố phù hợp đối tượng tư vấn mối quan tâm người dùng, đặc trưng mối quan tâm người dùng cần xem xét, tính đa quan tâm: Tại thời điểm, người dùng có nhiều mối quan tâm khác nhau, ví dụ: người dùng quan tâm đến thông tin thể thao trị Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa nội dung, thói quen/ mối quan tâm người dùng nhận diện qua chủ đề ẩn tin tức mà người dùng bình luận Các lý nêu là: Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả mối quan tâm người dùng mức trừu tượng cao mà khơng bị ảnh hưởng thói quen dùng từ tác giả từ khóa lên giai đoạn định Sử dụng phương pháp khắc phục vấn đề tư vấn trùng lặp mơ hình dựa từ khóa thường tìm tin tức có nội dung với tin tức người dùng đọc Thứ hai: Tính đa quan tâm người dùng thể thông qua tập hợp cặp chủ đề xác suất liên quan Thứ ba: Những tin tức người dùng bình luận đem tới thơng tin tốt nhận xét người dùng quan tâm thực tới nội dung tin tức bình luận khơng phải chọn nhầm Theo đó, luận văn đề xuất giải hai vấn đề tiến trình tư vấn: Đầu tiên dựa khảo sát phương pháp xây dựng mơ hình hóa người dùng, đề xuất giải pháp mơ hình người dùng dựa phân tích chủ đề tin tức người dùng bình luận Sau đó, tin tức liên quan phát thông qua đối chiếu chủ đề chúng với chủ đề mơ hình người dùng vừa xây dựng Cấu trúc luận văn 1.3 Nội dung luận văn chia làm chương: Chương Giới thiệu Chương Một số nghiên cứu liên quan mơ hình hóa người dùng Chương Mơ hình đề xuất Chương 4: Thực nghiệm đánh giá Tài liệu tham khảo Tiếng Việt Tiếng Anh [1] Ahlqvist, T., Bäck, A., Halonen, M., & Heinonen, S (2008) Social Media Roadmaps Helsinki: Edita Prima Oy [2] Ahmed, A., Low, Y., Aly, M., Josifovski, V., & Smola, A J (2011) Scalable distributed inference of dynamic user interests for behavioral targeting Paper presented at the ACM Conference on Knowledeg Discovery and Data Mining (KDD) (pp 373-382) [3] Bamshad Mobasher: Data Mining for Web Personalization The Adaptive Web 2007:90-135 [4] Bo Hu, Zhao Song, and Martin Ester 2012 User Features and Social Networks for Topic Modeling in Online Social Media In Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012) (ASONAM '12) IEEE Computer Society, Washington, DC, USA, 202-209 [5] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching In: Proceedings of the 2nd International Conference on Autonomous Agents, Minneapolis/St Paul, May 9-13, (1998) 132-139 [6] David M Blei, Andrew Y Ng, Michael I Jordan: Latent Dirichlet Allocation Journal of Machine Learning Research (JMLR) 3:993-1022 (2003) [7] X Ding, B Liu, and P S Yu A holistic lexiconbased approach to opinion mining In Proceedings of the Conference on Web Search and Web Data Mining (WSDM), 2008 [8] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A User profiles for personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds The Adaptive Web: Methods and Strategies of Web Personalization Springer- Verlag, Berlin Heidelberg New York, 2007, 54-89 [9] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information Filtering System for the Cultural Heritage Domain Applied Artificial Intelligence 17(8-9) (2003) 715-744 [10] Gueye, M., Abdessalem, T., & Naacke, H (2012) Dynamic recommender system: using cluster-based biases to improve the accuracy of the predictions [11] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report [12] Herlocker, L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating Collaborative Filtering Recommender Systems ACM Transactionson Information Systems 22(1), 5–53(2004) [13] T Hoffman Online reputation management is hot – but is it ethical? ComputerWorld, 2008 [14] L Hong and B D Davison Empirical study of topic modeling in twitter In Proceedings of the First Workshop on Social Media Analytics, SOMA ’10, pages 80– 88, New York, NY, USA, 2010 ACM [15] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010) User Interest Analysis with Hidden Topic in News Recommendation System IALP 2010: 211-214 [16] M Joshi and N Belsare Blogharvest: Blog mining and search framework In International Conference on Management of Data, Delhi, India, 2006, December 1416 2006 Computer Society of India [17] Kaplan, A M., & Haenlein, M (2010) Users of the world, unite! The challenges and opportunities of Social Media Business horizons, 53(1), 59-68 [18] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a bibliography ACM SIGIR Forum 37(2) (2003) 18-28 [19] Kietzmann, J H., Hermkens, K., Mccarthy, I P., & Silvestre, B S (2011) Social media? Get serious! Understanding the functional building blocks of social media Business horizons, 54(3), 241-251 [20] Milstein, S., Lorica, B., Magoulas, R., Hochmuth, G., Chowdhury, A., & O'Reilly, T (2008) Twitter and the micro-messaging revolution: Communication, connections, and immediacy 140 characters at a time O'Reilly Media, Incorporated [21] M Naaman, H Becker, and L Gravano Hip and trendy: Characterizing emerging trends on twitter Journal of the American Society for Information Science and Technology, 2011 [22] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying Interesting Web Sites In: Proceedings of the 13th National Conference On Artificial Intelligence Portland, Oregon, August 4–8 (1996) 54-61 [23] A M Popescu and O Etzioni Extracting product features and opinions from reviews In HLT ’05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 339–346, Morristown, NJ, USA, 2005 Association for Computational Linguistics [24] Pretschner, A.: Ontology Based Personalized Search Master’s thesis University of Kan- sas, June (1999) [25] S Sen, J Vig, and J Riedl Tagommenders: Connecting users to items through tags In Proc of WWW’ 09, pages 671–680, 2009 [26] J Tatemura Virtual reviewers for collaborative exploration of movie reviews In Proceedings of Intelligent User Interfaces (IUI), pages 272–275, 2000 [27] Thomas Hofmann Probabilistic latent semantic indexing In Proceedings of SIGIR-99, (1999) 35–44 [28] Le Dieu Thu On the analysis of large-scale datasets towards online contextual, Undergraduate Thesis, College of Technology, Vietnam National University, Hanoi, 2008 [29] Nguyen Cam Tu Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, 2008 [30] Tso-Sutter, K.H.L., L Marinho, and L Schmidt-Thieme Tag-aware recommender systems by fusion of collaborative filtering algorithms In Proc of Applied Computing, pages 1995–1999, 2008 [31] J Weng, E Lim, J Jiang, and Q He Twitterrank: finding topic-sensitive influential twitterers In Proceedings of the third ACM international conference on Web search and data mining, pages 261–270 ACM, 2010 [32] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes: A Swift Messenger In Cyberspace In: Proc 1999 AAAI Spring Symposium Workshop on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67 [33] D T Wijaya and S Bressan A random walk on the red carpet: rating movies with user reviews and pagerank In CIKM ’08: Proceeding of the 17th ACM conference on Information and knowledge management, pages 951–960 ACM, 2008 [34] W Zhang, C Yu, and W Meng Opinion retrieval from blogs In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 831–840 ACM, 2007 [35] L Zhuang, F Jing, X Zhu, and L Zhang Movie review mining and summarization In Proceedings of the ACM SIGIR Conference on Information and Knowledge Management (CIKM), 2006 10 ... sinh viên nhóm “Khai phá PHÁT HIỆN THĨI QUEN CỦA CON NGƢỜI/ liệu” giúp nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MƠ HÌNH CHỦ ĐỀ XÁC SUẤT khố... luận văn đề xuất giải hai vấn đề tiến trình tư vấn: Đầu tiên dựa khảo sát phương pháp xây dựng mơ hình hóa người dùng, đề xuất giải pháp mơ hình người dùng dựa phân tích chủ đề tin tức người dùng... cá nhân nhóm người dùng ưa thích với chủ đề thể thao hay du lịch Các thơng tin phân tích dựa vào liệu người dùng cung cấp, suy diễn từ liệu log hệ thống nguồn liệu từ phương tiện xã hội, nội