1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện tin tức được quan tâm từ các nguồn trực tuyến

69 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,08 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Thành Huy PHÁT HIỆN TIN TỨC ĐƯỢC QUAN TÂM TỪ CÁC NGUỒN TRỰC TUYẾN Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS CAO TUẤN DŨNG Hà Nội – Năm 2018 LỜI CẢM ƠN Em xin bày tỏ lịng kính trọng cảm ơn chân thành đến thầy giáo PGS.TS Cao Tuấn Dũng - Viện Công nghệ thông tin Truyền thông – Trường Đại học Bách Khoa Hà Nội, người định hướng, tận tình hướng dẫn, giúp đỡ em suốt trình thực luận văn Em xin chân thành cảm ơn thầy giáo, cô giáo - Viện Công nghệ Thông tin Truyền thông - Trường Đại học Bách Khoa Hà Nội, người tận tình truyền đạt kiến thức cho em suốt thời gian em học tập nghiên cứu Trường Em xin gửi lời cảm ơn tới gia đình ủng hộ, động viên em suốt trình học tập vừa qua Cuối cùng, em xin cảm ơn bạn học lớp 15BCNTT khoá 2015, đồng nghiệp đơn vị công tác giúp đỡ em trình học tập thực luận văn Do trình nghiên cứu, tìm hiểu thực nghiệm luận văn chắn khơng thể tránh khỏi sai sót định, em mong nhận góp ý thầy, cô giáo bạn để luận văn hoàn chỉnh Em xin trân trọng cảm ơn! Hà Nội, tháng 09 năm 2018 Tác giả luận văn Nguyễn Thành Huy LỜI CAM ĐOAN Em xin cam đoan luận văn “Phát tin tức quan tâm từ nguồn trực tuyến” cơng trình nghiên cứu em hướng dẫn khoa học PGS.TS Cao Tuấn Dũng Tất tài liệu tham khảo em liệt kê rõ phần cuối luận văn Các nội dung cơng bố kết trình bày luận văn trung thực chép người khác Nếu phát có gian lận nào, em xin hồn toàn chịu trách nhiệm trước hội đồng, kết tốt nghiệp Hà Nội, tháng 09 năm 2018 Tác giả luận văn Nguyễn Thành Huy MỤC LỤC Danh mục ký hiệu, viết tắt Danh mục hình ảnh .7 Danh mục bảng biểu .9 LỜI MỞ ĐẦU .10 CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC TUYẾN VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN TỨC 13 1.1 Tổng quan tảng tin tức người dùng trực tuyến 13 1.2 Nguồn tin tức từ mạng xã hội .15 1.3 Nền tảng mạng xã hội Facebook 17 1.4 Tình hình Việt Nam 18 1.5 Một số phương pháp tiếp cận 19 1.5.1 Hướng phát tin tức quan tâm từ từ khố tìm kiếm trực tuyến .19 1.5.2 Hướng phát tin tức từ công cụ hãng công nghệ .20 1.5.3 Hướng phát tin tức quan tâm từ mạngtới 30/06/2018 với ngày Ví dụ so sánh chủ đề 0th 11th ví dụ trên: Bảng 6: Bảng so sánh mức độ quan tâm chủ đề tin tức Ngày 1/6/18 2/6/18 3/6/18 4/6/18 5/6/18 7/6/18 8/6/18 9/6/18 10/6/18 11/6/18 12/6/18 13/6/18 14/6/18 15/6/18 16/6/18 17/6/18 18/6/18 19/6/18 20/6/18 21/6/18 22/6/18 23/6/18 24/6/18 25/6/18 26/6/18 27/6/18 28/6/18 29/6/18 30/6/18 Topic 0th Topic 11th 6,941.6 11,162.4 9,334.5 7,913.2 7,563.3 6,073.3 6,700.9 4,951.5 5,551.2 5,986.9 6,027.0 8,513.0 6,521.3 6,207.8 8,251.1 3,468.3 4,021.1 9,625.9 4,415.1 4,728.8 5,567.0 4,396.1 6,720.2 17,320.2 15,316.1 14,270.7 10,404.4 10,271.5 12,377.9 8,476.2 11,434.8 5,493.3 4,828.2 7,434.7 4,969.0 6,753.0 7,753.0 5,967.0 4,923.1 6,173.2 13,619.5 10,939.7 11,978.7 29,312.6 11,698.7 10,217.1 13,048.9 9,757.0 13,784.0 15,223.3 12,110.1 18,800.0 16,639.4 15,490.5 40,413.0 22,216.8 22,022.2 36,326.0 63 Chênh lệch Topic 11th so với 0th 22.1% 2.4% -41.2% -39.0% -1.7% -18.2% 0.8% 56.6% 7.5% -17.8% 2.4% 60.0% 67.8% 93.0% 255.3% 237.3% 154.1% 35.6% 121.0% 191.5% 173.5% 175.5% 179.8% -3.9% 1.1% 183.2% 113.5% 114.4% 193.5% Từ bảng có biểu đồ so sánh chủ đề: Hình 27: Biểu đồ so sánh quan tâm người dùng trực tuyến chủ đề Từ bảng thấy giai đoạn đầu tháng 6/2018 chủ đề 0th thời tiết sức khoẻ quan tâm nhiều hơn, tới giai đoạn cuối tháng 6/2018 chủ đề 11th WorldCup 2018 lại quan tâm Nếu xem kỹ tin tức chủ đề WorldCup 2018 quan tâm vào cuối tháng 6/2018 lúc kiện WorldCup khởi tranh có nhiều báo tin tức liên quan, quan tâm người lớn Trong giai đoạn 25 26/6/2018 tin tức WorldCup giảm thời gian giai đoạn cuối vịng bảng, hầu hết đội định đoạt vào vòng nên quan tâm giảm Riêng ngày 27/6, có yếu tố bất ngờ nên lượng quan tâm WorldCup tăng vọt, đội tuyển đương kim vơ địch Đức bị loại khỏi vòng bảng Tổng hợp quan tâm người dùng cho toàn chủ đề giai đoạn tháng 6/2018, có biểu đồ sau: 64 Hình 28: Biểu đồ quan tâm người dùng theo chủ đề tin tức tháng 6/2018 Từ biểu đồ, dễ dàng xác định chủ đề quan tâm chủ đề 11th 19th cịn chủ đề quan tâm chủ đề 7th 14th Ngoài ra, với số liệu thu thập phân tích từ thuật tốn LDA cơng thức tính mức độ quan tâm người dùng, ta dễ dàng xác định chủ đề quan tâm nhất, phân tích tương quan chủ đề với ví dụ nêu 4.3 Đánh giá Với kết thử nghiệm thu phân tích khẳng định được: phương pháp phát tin tức quan tâm người dùng trực tuyến tác giả đề xuất thử nghiệm thành công Phương pháp kết hợp phân cụm chủ đề ẩn LDA công thức xác định mức độ quan tâm người dùng hồn tồn áp dụng thực tiễn Trong trình thử nghiệm, hệ thống xây dựng hồn tồn phát triển thêm để ứng dụng rộng rãi hơn, cho số đối tượng với nhu cầu định 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Với phương pháp phân cụm chủ đề ẩn LDA, kết hợp với cơng thức tính mức độ quan tâm người dùng dựa xác suất tin tức ứng với chủ đề, thu kết tương đối khả quan Số liệu sau xử lý dùng để xác định trực quan, dễ so sánh chủ đề tin tức với Với phương pháp đề xuất, việc đánh giá mức độ quan tâm người dùng, cho biết cách tương đối nội dung tin tức quan tâm chủ đề đó, dựa vào từ khố (keyword) Phương pháp đề xuất có thời gian xử lý thuật tốn khơng q lớn, mức độ chấp nhận Tuỳ theo tham số cài đặt thuật toán mà thời gian xử lý khác Với tham số luận văn đề xuất, thời gian xử lý toàn liệu vòng tháng hệ thống rơi vào khoảng 15-20 phút, cho khoảng gần 20 nghìn ghi Ngoài ra, với hệ thống xây dựng, ta dễ dàng truy xuất lại tin tức quan tâm với chủ đề theo xác suất cao So sánh phương pháp đề xuất với phương pháp dựa vào từ khố tìm kiếm tác giả Tsuyoshi Murata [1] phương pháp loại trừ yếu tố ảnh hưởng nguồn liệu từ khoá tin tức, nguồn liệu từ cơng cụ tìm kiếm Tuy nhiên mức độ phức tạp pháp lại cao Nếu đặt tương quan với tiện ích Google Facebook đưa tin tức quan tâm, phương pháp đề xuất có ưu điểm định mức độ chủ động công cụ, mức độ chi tiết đưa chủ đề tin tức quan tâm người dùng Tất nhiên, để phát triển sâu cần nguồn lực lớn khâu thu thập liệu tiết phủ rộng hơn, điều mà công ty liệu lớn chiếm ưu Phương pháp luận văn đưa tương đối đầy đủ bước từ thu thập, phân tách, lọc nhiễu, phân cụm đo lường Tuy vậy, phương pháp xác định mức độ quan tâm luận văn chưa hẳn tổng quát nên cần phải vận dụng phù hợp, chẳng hạn mở rộng thông số thu thập thơng số thu thập có ý nghĩa khác 66 cần thay đổi trọng số cho phù hợp cơng thức đề xuất Ngồi ra, liệu tin tức với ngôn ngữ khác (không phải tiếng Việt) cần bổ sung thêm tiền xử lý Hướng phát triển Yêu cầu phát tin tức quan tâm người dùng trực tuyến yêu cầu thực cấp thiết, cần nhiều công ty, tổ chức Đây yêu cầu phức tạp Trong khuôn khổ nghiên cứu luận văn đáp ứng phần Định hướng phát triển: - Hiện tại, tin tức hình ảnh video có lượng tương tác cao tin tức dạng văn Mặc dù phương pháp đưa áp dụng với nhiều dạng liệu, giới hạn nghiên cứu tin tức dạng văn Với hướng nghiên cứu này, muốn thực nguồn lực cần sử dụng phải bổ sung lớn - Nguồn tin tức trực tuyến phong phú, có nhiều nghiên cứu với nguồn liệu website, liệu tìm kiếm, luận văn đề xuất thêm nghiên cứu liệu từ Facebook Tất tách rời chưa có so sánh kênh, để từ có góc nhìn đa chiều tin tức người dùng quan tâm Từ đó, so sánh phương pháp thuật toán với phương pháp khác đưa phương pháp xác định mức độ quan tâm tin tức khơng mang tính chất quan sát luận văn, mà cịn mang tính chất định lượng - Phát triển hệ thống phát tin tức để đưa nhiều phân tích sâu hơn, đưa nhiều số liệu hấp dẫn cảm xúc người dùng với tin tức, hay phân tích nội dung bình luận người dùng, 67 TÀI LIỆU THAM KHẢO [1] Tsuyoshi Murata (2006), Towards the Detection of Breaking News from Online Web Search Keywords, IEEE/WIC/ACM International Conference [2] Allan J (2002), Topic Detection and Tracking, Kluwer Academic Publishers [3] Swit Phuvipadawat and Tsuyoshi Murata (2010), Breaking News Detection and Tracking in Twitter, Tokyo Institute of Technology [4] Shota Ishikawa, Yutaka Arakawa and Shigeaki Tagashira (2011), Hot Topic Detection in Local Areas Using Twitter and Wikipedia, Kyushu University [5] David M Blei, Andrew Y Ng and Michael I Jordan (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, pp 9931022 [6] Md Rezaul Karim (2018), Scala Machine Learning Projects, Packt Publishing [7] Nic Newman, Richard Fletcher, Antonis Kalogeropoulos, David A L Levy and Rasmus Kleis Nielsen (2017), Reuters Institute Digital News Report 2017, Reuters Institute [8] Garofalakis M., Gehrke J and Rastogi R (Eds) (2006), Data Stream Management: Processing High-Speed Data Streams, Springer [9] Dubinko M., Kumar R., Magnani J., Novak J., Raghavan P and Tomkins A (2006), Visualizing Tags over Time, Proceedings of WWW2006 [10] Simon Kemp (2017), Digital In 2017 Global Overview, We Are Social and Hootsuite 68 [11] Simon Kemp (2017), Digital In 2017: Southeast Asia, We Are Social and Hootsuite [12] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press [13] Pham Xuan-Hieu (2008), "JVnTextPro: A Java-based Vietnamese Text Processing Tool", Tohoku University [Online] Available: http://jvntextpro.sourceforge.net/ [Accessed 12 06 2018] [14] Pham Xuan-Hieu (2008), "JGibbLDA", Tohoku University [Online] Available: http://jgibblda.sourceforge.net/ [Accessed 12 06 2018] [15] Facebook Inc, "Facebook for developers," 2018 [Online] Available: https://developers.facebook.com/ [Accessed 12 06 2018] [16] Lê Thanh Hương (2012), "Bài giảng Xử lý ngôn ngữ tự nhiên," Đại học Bách Khoa Hà Nội [17] Võ Thị Ngọc Châu (2012), "Bài giảng Gom cụm liệu" Đại Học Bách Khoa Tp Hồ Chí Minh 69 ... 19 1.5.1 Hướng phát tin tức quan tâm từ từ khố tìm kiếm trực tuyến .19 1.5.2 Hướng phát tin tức từ công cụ hãng công nghệ .20 1.5.3 Hướng phát tin tức quan tâm từ mạng

Ngày đăng: 26/02/2021, 14:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w