Phát hiện tin tức được quan tâm từ các nguồn trực tuyến Phát hiện tin tức được quan tâm từ các nguồn trực tuyến Phát hiện tin tức được quan tâm từ các nguồn trực tuyến luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Nguyễn Thành Huy PHÁT HIỆN TIN TỨC ĐƯỢC QUAN TÂM TỪ CÁC NGUỒN TRỰC TUYẾN Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS CAO TUẤN DŨNG Hà Nội – Năm 2018 LỜI CẢM ƠN Em xin bày tỏ lịng kính trọng cảm ơn chân thành đến thầy giáo PGS.TS Cao Tuấn Dũng - Viện Công nghệ thông tin Truyền thông – Trường Đại học Bách Khoa Hà Nội, người định hướng, tận tình hướng dẫn, giúp đỡ em suốt trình thực luận văn Em xin chân thành cảm ơn thầy giáo, cô giáo - Viện Công nghệ Thông tin Truyền thông - Trường Đại học Bách Khoa Hà Nội, người tận tình truyền đạt kiến thức cho em suốt thời gian em học tập nghiên cứu Trường Em xin gửi lời cảm ơn tới gia đình ủng hộ, động viên em suốt trình học tập vừa qua Cuối cùng, em xin cảm ơn bạn học lớp 15BCNTT khoá 2015, đồng nghiệp đơn vị công tác giúp đỡ em trình học tập thực luận văn Do trình nghiên cứu, tìm hiểu thực nghiệm luận văn chắn khơng thể tránh khỏi sai sót định, em mong nhận góp ý thầy, cô giáo bạn để luận văn hoàn chỉnh Em xin trân trọng cảm ơn! Hà Nội, tháng 09 năm 2018 Tác giả luận văn Nguyễn Thành Huy LỜI CAM ĐOAN Em xin cam đoan luận văn “Phát tin tức quan tâm từ nguồn trực tuyến” cơng trình nghiên cứu em hướng dẫn khoa học PGS.TS Cao Tuấn Dũng Tất tài liệu tham khảo em liệt kê rõ phần cuối luận văn Các nội dung cơng bố kết trình bày luận văn trung thực chép người khác Nếu phát có gian lận nào, em xin hồn toàn chịu trách nhiệm trước hội đồng, kết tốt nghiệp Hà Nội, tháng 09 năm 2018 Tác giả luận văn Nguyễn Thành Huy MỤC LỤC Danh mục ký hiệu, viết tắt Danh mục hình ảnh .7 Danh mục bảng biểu .9 LỜI MỞ ĐẦU .10 CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC TUYẾN VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN TỨC 13 1.1 Tổng quan tảng tin tức người dùng trực tuyến 13 1.2 Nguồn tin tức từ mạng xã hội .15 1.3 Nền tảng mạng xã hội Facebook 17 1.4 Tình hình Việt Nam 18 1.5 Một số phương pháp tiếp cận 19 1.5.1 Hướng phát tin tức quan tâm từ từ khố tìm kiếm trực tuyến .19 1.5.2 Hướng phát tin tức từ công cụ hãng công nghệ .20 1.5.3 Hướng phát tin tức quan tâm từ mạng xã hội sử dụng thuật toán phân cụm tin tức 20 CHƯƠNG II: MỘT SỐ GIẢI PHÁP PHÁT HIỆN TIN TỨC QUAN TÂM 22 2.1 Khảo sát liệu 22 2.2 Phân cụm liệu 26 2.2.1 Thuật toán K-means (K-means Clustering) 28 2.2.2 Thuật toán phân cụm theo thứ bậc (Hierarchical Clustering) .30 2.2.3 Thuật toán LDA (Latent Dirichlet Allocation) .32 2.3 Đánh giá chủ đề tin tức quan tâm 38 CHƯƠNG III: GIẢI PHÁP PHÁT HIỆN THÔNG TIN ĐƯỢC QUAN TÂM TỪ FACEBOOK SỬ DỤNG PHƯƠNG PHÁP LDA 40 3.1 Mô hình tổng quát 40 3.2 Khối thu thập liệu 41 3.2.1 Graph API khai thác liệu từ Facebook 41 3.2.2 Khai thác liệu 44 3.3 Khối thuật toán 46 3.3.1 Tiền xử lý 46 3.3.2 Ước lượng mơ hình chủ đề phân cụm tin tức 49 3.4 Khối truy vấn hiển thị .51 CHƯƠNG IV: THỰC NGHIỆM VÀ KẾT QUẢ .52 4.1 Xây dựng hệ thống thử nghiệm .52 4.1.1 Xây dựng hệ thống database 52 4.1.2 Xây dựng hệ thống dịch vụ luồng xử lý liên tục 53 4.2 Kết 57 4.3 Đánh giá 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 TÀI LIỆU THAM KHẢO 68 DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT Ký hiệu API Tiếng Anh Application Programming Tiếng Việt Giao diện lập trình ứng dụng Interface LDA Latent Dirichlet Allocation Phân bố Dirichlet ẩn JSON JavaScript Object Notation Ký hiệu đối tượng Javascript Weka Waikato Environment for Bộ phần mềm học máy Knowledge Analysis Đại học Waikato, New Zealand phát triển Java HTTP Hypertext Transfer Protocol Giao thức truyền tải siêu văn XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng pLSI probabilistic Latent Semantic Xác suất xác định ngữ nghĩa Indexing tiềm ẩn CRFs Conditional Random Fields Trường xác suất có điều kiện SOA Service Oriented Architecture Kiến trúc hướng dịch vụ DANH MỤC HÌNH ẢNH Hình 1: Biểu đồ nguồn tin tức Mỹ giai đoạn 2012-2017 13 Hình 2: Biểu đồ tỷ lệ kênh dẫn tới nội dung tin tức 14 Hình 3: Biểu đồ phân bố tỷ lệ sử dụng nguồn tin theo độ tuổi 16 Hình 4: Lượng người hoạt động tảng mạng xã hội 2017 16 Hình 5: So sánh cách lựa chọn tin tức .18 Hình 6: Mơ tả liệu tin tức Facebook .22 Hình 7: Minh hoạ thuật toán phân cụm liệu phân cấp theo kiểu 30 Hình 8: Mơ tả chủ đề văn mơ hình chủ đề .33 Hình 9: So sánh mơ hình chủ đề với phân cụm văn 34 Hình 10: Nguyên lý xử lý thuật toán LDA 35 Hình 11: Ký hiệu khối lặp lại 36 Hình 12: Biểu diễn mơ hình xử lý LDA 37 Hình 13: Mơ hình hệ thống phát tin tức quan tâm 41 Hình 14: Facebook Graph API 42 Hình 15: Cơng cụ Facebook Graph Explorer 44 Hình 16: Luồng xử lý khai thác liệu 44 Hình 17: Luồng xử lý liệu thô 46 Hình 18: Tiến trình tiền xử lý 47 Hình 19: Tiến trình xử lý phân cụm chủ đề tin tức 50 Hình 20: Sơ đồ thiết kế database 52 Hình 21: Bảng liệu thô 54 Hình 22: Bảng liệu ghi sau phân tách liệu thơ 54 Hình 23: Bảng lưu thơng tin tiền xử lý tin tức 54 Hình 24: Bảng liệu mơ hình chủ đề 55 Hình 25: Bảng liệu tỷ lệ tin tức ứng với chủ đề 55 Hình 26: Giao diện web TrendNews 57 Hình 27: Biểu đồ so sánh quan tâm người dùng trực tuyến chủ đề 64 Hình 28: Biểu đồ quan tâm người dùng theo chủ đề tin tức tháng 6/2018 65 DANH MỤC BẢNG BIỂU Bảng 1: Bảng danh ký hiệu loại từ .48 Bảng 2: Bảng danh sách trang thông tin thu thập .58 Bảng 3: Bảng thống kê liệu thu thập .58 Bảng 4: Bảng danh sách từ khoá hai chủ đề tin tức 59 Bảng 5: Bảng xác suất top 10 tin tức ứng với chủ đề 11 tháng 06/2018 60 Bảng 6: Bảng so sánh mức độ quan tâm chủ đề tin tức 63 LỜI MỞ ĐẦU Theo thời gian, phương tiện truyền tải tin tức tới người dùng từ nhật báo, tạp chí giấy tới phát thanh, truyền hình tới báo điện tử web, gần mạng xã hội Trong hai thập kỷ vừa qua với đời công nghệ kỹ thuật số phổ biến thông tin internet tạo thay đổi việc đọc báo giấy, người dân ngày đọc tin tức thông qua điện thoại thông minh thiết bị điện tử khác Hiện nay, thông tin mạng trực tuyến lớn, tin tức truyền tải qua internet nhiều hình thức đa dạng Một hình thức mà người dùng trực tuyến sử dụng mạng xã hội Việc sử dụng hình thức tiếp cập tin tức mạng xã hội mạng lại chủ động cao cho người dùng, mang tính tương tác nhiều Sự tương tác mạng xã hội đa chiều, người bày tỏ ý kiến cá nhân, cảm xúc với loại tin tức Từ đó, toán phát tin tức quan tâm người dùng trực tuyến trở nên cấp thiết Bài toán phát tin tức quan tâm tốn khó phức tạp, địi hỏi phải tổng hợp nhiều tri thức để giải nhiều vấn đề Bài toán thu hút quan tâm lớn tác giả với mong muốn đóng góp phần cho nghiên cứu tương tự Vì vậy, đề tài “Phát tin tức quan tâm từ nguồn trực tuyến” chọn làm đề tài nghiên cứu cho luận văn Phương pháp tiếp cận để phát tin tức quan tâm người dùng trực tuyến có số cơng trình nghiên cứu, phương pháp có ưu nhược điểm riêng Trong khuôn khổ luận văn, nội dung sau: Mục tiêu nhiệm vụ: - Mục tiêu: Đưa giải pháp phát tin tức quan tâm từ nguồn trực tuyến với hướng tiếp cận mới, khắc phục số hạn chế vài phương pháp gặp phải - Nhiệm vụ: Để đạt mục tiêu luận văn cần phải thực nhiệm vụ sau: - Luồng VnTextConvertThread: để xử lý tách từ lưu lại vào bảng tb_fb_posts_summary - Luồng ExportPostDataToFileThread: xử lý phân cụm lưu lại thông tin tin tức tương ứng với chủ đề vào database bảng tb_fb_post_match_topics Tham số đầu vào phân cụm theo LDA với lấy mẫu Gibbs lựa chọn đảm bảo tối ưu thời gian xử lý đạt độ xác định sau: o 𝛼 = 0.5 o 𝛽 = 0.1 o 𝐾 = 20 cụm o Số bước lặp: 2000 o Số từ chủ đề: 30 Bảng liệu thu thập sau chạy thuật toán sau: Hình 24: Bảng liệu mơ hình chủ đề Hình 25: Bảng liệu tỷ lệ tin tức ứng với chủ đề c Cổng thông tin website 55 Do khối lượng liệu lớn, nên để xuất liệu cần có luồng chạy liên tục để tổng hợp liệu vào bảng tạm liệu hàng ngày Sau đó, sử dụng câu truy vấn thơng thường để lấy liệu tổng hợp từ bảng tạm Trên giao diện website có thơng tin xu hướng tin tức người dùng quan tâm, từ khoá chủ đề, nội dung tin tức, bảng liệu thu thập số thông tin khác Giao diện website dựng với HTML, CSS, JS với web service Java Đường dẫn website đặt tại: https://web.techsolutioncorp.com/TrendNews/ Theo công thức đề xuất chương trước (mục 2.3) để đánh giá tin tức quan tâm cần có lựa chọn tham số trọng số 𝛾 phù hợp Với thay đổi giá trị tham số cho kết mức độ quan tâm khác Ví dụ, muốn xem xét tin tức mà người dùng thích thú (ứng với tương tác cảm xúc like, love, thankful, wow) đặt trọng số tương tác cao tương tác khác, cho cho trọng số tương tác 0, tương tác Trong khuôn khổ luận văn, để xác định mức độ quan tâm tin tức lựa chọn trọng số 𝛾 = Ví dụ giao diện trang thông tin tổng quan với biểu đồ thể mức độ quan tâm người dùng với tin tức kèm theo số thông tin liệu hệ thống TrendNews thu thập xử lý: 56 Hình 26: Giao diện web TrendNews 4.2 Kết Từ phân tích chương trước, kết đánh giá tin tức quan tâm cần: - Nguồn tin với lượng người lớn: chọn trang (page) Facebook với lượng người theo dõi nhiều - Phân cụm tin tức theo chủ đề (topic) tương tự nhau, chủ đề xác định dựa thuật toán - Xác định mức độ quan tâm chủ đề tin tức theo công thức đề xuất (ở mục 2.3) Chủ đề tin tức có mức độ quan tâm cao quan tâm Số lượng trang (page) lấy tin tức 11 gồm (thống kê tới ngày 01/05/2018): 57 Bảng 2: Bảng danh sách trang thông tin thu thập STT Tên page Hội người thích đọc tin tức 24h Số lượng người thích ID fan24h 8.232.771 2.910.627 VnExpress.net congdongvnexpress YAN News yannews Yeah1 News yeah1news 1.794.628 BBC News Tiếng Việt BBCVietnamese 2.179.275 BEATVN beatvn.page 3.085.003 Đại Kỷ Nguyên – News DaiKyNguyenNews 6.151.116 Blog Tâm Sự TV tv.blogtamsu.vn 7.589.685 Kenh14.vn K14vn 4.962.528 10 Góc Thư Giãn haivl.com 11 We Are vOzer We.Are.vOzer 16.780.973 11.828.963 256.328 Danh sách chọn lựa dựa tiêu chí số lượng người thích theo dõi lớn số trang mang tính giải trí nhiều Thơng tin liệu thu thập phân tách Dữ liệu lấy từ cuối tháng 5/2018 tới đầu tháng 7/2018 Bảng 3: Bảng thống kê liệu thu thập STT Tên bảng Số lượng ghi Dữ liệu thô tb_fb_raw_posts_data Dữ liệu viết theo thời gian tb_fb_page_posts Dữ liệu viết rút gọn 53.481 8.6 GB 1.154.583 1.5 GB 26.178 tb_fb_posts_summary Dung lượng 48.6 MB Mơ hình chủ đề xây dựng với số lượng từ vựng 33.715 từ, tương ứng với 19.174 tin tức chọn lọc, chia thành 20 chủ đề Ví dụ kết thu hai chủ đề 0th 11th với cụm từ đặc trưng: 58 Bảng 4: Bảng danh sách từ khoá hai chủ đề tin tức Topic 0th Topic 11th ngày 0.020453710131563312 World_Cup 0.041307347678307196 người_dân 0.014773980104858255 2018 0.0277012467551047 tuổi 0.013437573039751183 Nga 0.01646773994306563 tỉnh 0.00969563325745138 bóng_đá 0.014288826983833916 nóng 0.007423741246769357 trận 0.013659363240055865 miền 0.006889178420726528 Đức 0.011238348840909514 huyện 0.006621897007705113 vòng 0.010366783657216827 nắng 0.006421435947939052 đội_tuyển 0.010027841641336337 Sức_Khỏe 0.0062209748881729915 Argentina 0.00934995760957536 nặng 0.006154154534917638 trận_đấu 0.009301537321592434 tìm 0.005953693475151577 bảng 0.008672073577814382 nước 0.005953693475151577 0.00818787069798511 nơi 0.005953693475151577 cầu_thủ 0.007994189546053403 vùng 0.005953693475151577 Ronaldo 0.007945769258070477 bệnh_viện 0.005886873121896224 Messi 0.006880522922446081 lớn 0.005485951002364102 lớn 0.006832102634463154 phát_hiện 0.005419130649108749 đội 0.0065415809065655925 bác_sĩ 0.0048845678230659195 Hàn_Quốc 0.006251059178668031 tháng 0.004817747469810566 Pháp 0.0051858128430436355 Bắc 0.004550466056789151 thua 0.0051373925550607085 thành_phố 0.004483645703533798 giải 0.0050405519790948546 đất 0.0042163642905123835 Tây_Ban_Nha 0.0050405519790948546 kéo_dài 0.00414954393725703 diễn_ra 0.004895291115146074 tuần 0.0038822625242356155 Brazil 0.004895291115146074 gây 0.0038822625242356155 bàn 0.004846870827163147 xuống 0.0038822625242356155 ghi 0.004750030251197293 tình_trạng 0.003748621817724908 vơ_địch 0.004604769387248512 59 thấy 0.0036818014644695546 thế_giới 0.004459508523299731 Bệnh_viện 0.003548160757958847 đội_bóng 0.004411088235316804 chết 0.0034813404047034937 0.004362667947333877 Từ từ chủ đề, thấy số thơng tin từ khố (keyword) quan trọng xác định tương đối nội dung tin tức bật Ví dụ, chủ đề (topic) thứ 0th tin tức bật liên quan tới thời gian nắng nóng kéo dài tỉnh ảnh hưởng tới sức khoẻ người dân Ở chủ đề thứ 11th tin tức liên quan tới giải bóng đá World Cup 2018 Nga, số đội tuyển quốc lớn, số cầu thủ tiếng thông tin bên lề Lấy ví dụ tin tức chủ đề 11th để kiểm tra mức độ xác chủ đề phân cụm tháng 06/2018: Bảng 5: Bảng xác suất top 10 tin tức ứng với chủ đề 11 tháng 06/2018 PostID Ngày Tỷ lệ fbPostDescription 331230823580420 6/29/2018 0.681818 Trước lượt thi đấu cuối _19737168093318 vịng bảng World Cup 2018, Nhật 05 Bản có hội lớn để tiếp dẫn đầu bảng với điểm sau trận Bởi vậy, người hâm mộ bóng đá xứ Phù Tang hy vọng “Những chiến binh Samurai 390567570966109 6/29/2018 0.681818 Ngoại trừ nhà đương kim vô địch _21225808444314 Đức phải chia tay World Cup 2018 31 từ vòng bảng, tất đội bóng lớn cịn lại Brazil, Argentina vượt qua áp lực khó khăn để giành quyền tiếp 60 154180304652867 6/28/2018 0.671875 Bất ngờ xảy loạt trận cuối _25863302847711 bảng F Thuỵ Điển thắng 78 đậm Mexico Đức thua Hàn Quốc để thức trở thành cựu vương giải đấu hấp dẫn hành tinh 262700667105773 6/18/2018 Gyan ghi bàn chín giải đấu lớn 0.6625 _23643297269428 liên tiếp bao gồm ba World Cup 46 chín giải vơ địch châu Phi (CAN) Các nhà thống kê vội vàng cơng nhận Ronaldo giữ kỷ lục ghi bàn liên tiếp giải đấu lớn.#vnethethao #gyanasamoah #ronaldo 154180304652867 6/28/2018 0.661765 Cơn địa chấn lớn vòng bảng _25857649714943 World Cup 2018 diễn lượt 76 trận cuối bảng F, nhà ĐKVĐ Đức bị loại từ vòng bảng sau trận thua Hàn Quốc với tỉ số 0-2 314103605281408 6/16/2018 0.661765 (Trực tiếp bóng đá World Cup Pháp _30442384489345 - Australia, 17h ngày 16/6, lượt trận 63 bảng C World Cup 2018) Những đại pháo thượng hạng Pháp Griezmann, Mbappe, Giroud có hội tung hoành trước đối thủ yếu bảng, Australia 61 331230823580420 6/16/2018 0.651515 Một lần nữa, phong độ chói sáng _19477545952613 cá nhân Cristiano Ronaldo giúp 60 tuyển Bồ Đào Nha tránh trận thua, dù nhà đương kim vơ địch châu Âu đội có bàn thắng mở tỷ số trước trận gặp tuyển Tây Ban Nha 314103605281408 6/15/2018 0.648148 (Video bóng đá - Kết bóng đá, _30408313992752 Nga - Saudi Arabia, bảng A World 68 Cup 2018) Chủ nhà Nga trận không thắng liên tiếp có khởi đầu hừng hực khí 314103605281408 6/19/2018 0.648148 (Trực tiếp bóng đá World Cup _30488952084688 Tunisia vs Anh, 1h, 19/6, lượt 87 bảng G World Cup 2018) Harry Kane đồng đội đặt tâm giành trọn điểm trận quân 314103605281408 6/21/2018 0.642857 (Trực tiếp bóng đá, ĐT Uruguay - _30538724846378 ĐT Saudi Arabia, 22h00, 20/6, lượt 26 trận thứ bảng A World Cup 2018) Một chiến thắng Rostov tối đưa Uruguay chủ nhà Nga sớm có vé vào vịng knock-out Luis Suarez có hội lớn đạt Từ liệu tin tức lấy tháng 06/2018 chủ đề 11th thấy, tin tức có tỷ lệ cao mức độ phù hợp với chủ đề lớn, độ xác cao, phù hợp với phân tích liệu từ khóa chủ đề mơ tả Có thể khẳng định 62 phương pháp luận văn đề xuất cho kết khả quan phù hợp với liệu thu Tiếp theo đánh giá phân tích để đưa cụm chủ đề quan tâm theo giai đoạn từ 01/06/2018 tới 30/06/2018 với ngày Ví dụ so sánh chủ đề 0th 11th ví dụ trên: Bảng 6: Bảng so sánh mức độ quan tâm chủ đề tin tức Ngày 1/6/18 2/6/18 3/6/18 4/6/18 5/6/18 7/6/18 8/6/18 9/6/18 10/6/18 11/6/18 12/6/18 13/6/18 14/6/18 15/6/18 16/6/18 17/6/18 18/6/18 19/6/18 20/6/18 21/6/18 22/6/18 23/6/18 24/6/18 25/6/18 26/6/18 27/6/18 28/6/18 29/6/18 30/6/18 Topic 0th Topic 11th 6,941.6 11,162.4 9,334.5 7,913.2 7,563.3 6,073.3 6,700.9 4,951.5 5,551.2 5,986.9 6,027.0 8,513.0 6,521.3 6,207.8 8,251.1 3,468.3 4,021.1 9,625.9 4,415.1 4,728.8 5,567.0 4,396.1 6,720.2 17,320.2 15,316.1 14,270.7 10,404.4 10,271.5 12,377.9 8,476.2 11,434.8 5,493.3 4,828.2 7,434.7 4,969.0 6,753.0 7,753.0 5,967.0 4,923.1 6,173.2 13,619.5 10,939.7 11,978.7 29,312.6 11,698.7 10,217.1 13,048.9 9,757.0 13,784.0 15,223.3 12,110.1 18,800.0 16,639.4 15,490.5 40,413.0 22,216.8 22,022.2 36,326.0 63 Chênh lệch Topic 11th so với 0th 22.1% 2.4% -41.2% -39.0% -1.7% -18.2% 0.8% 56.6% 7.5% -17.8% 2.4% 60.0% 67.8% 93.0% 255.3% 237.3% 154.1% 35.6% 121.0% 191.5% 173.5% 175.5% 179.8% -3.9% 1.1% 183.2% 113.5% 114.4% 193.5% Từ bảng có biểu đồ so sánh chủ đề: Hình 27: Biểu đồ so sánh quan tâm người dùng trực tuyến chủ đề Từ bảng thấy giai đoạn đầu tháng 6/2018 chủ đề 0th thời tiết sức khoẻ quan tâm nhiều hơn, tới giai đoạn cuối tháng 6/2018 chủ đề 11th WorldCup 2018 lại quan tâm Nếu xem kỹ tin tức chủ đề WorldCup 2018 quan tâm vào cuối tháng 6/2018 lúc kiện WorldCup khởi tranh có nhiều báo tin tức liên quan, quan tâm người lớn Trong giai đoạn 25 26/6/2018 tin tức WorldCup giảm thời gian giai đoạn cuối vòng bảng, hầu hết đội định đoạt vào vòng nên quan tâm giảm Riêng ngày 27/6, có yếu tố bất ngờ nên lượng quan tâm WorldCup tăng vọt, đội tuyển đương kim vơ địch Đức bị loại khỏi vịng bảng Tổng hợp quan tâm người dùng cho toàn chủ đề giai đoạn tháng 6/2018, có biểu đồ sau: 64 Hình 28: Biểu đồ quan tâm người dùng theo chủ đề tin tức tháng 6/2018 Từ biểu đồ, dễ dàng xác định chủ đề quan tâm chủ đề 11th 19th chủ đề quan tâm chủ đề 7th 14th Ngoài ra, với số liệu thu thập phân tích từ thuật tốn LDA cơng thức tính mức độ quan tâm người dùng, ta dễ dàng xác định chủ đề quan tâm nhất, phân tích tương quan chủ đề với ví dụ nêu 4.3 Đánh giá Với kết thử nghiệm thu phân tích khẳng định được: phương pháp phát tin tức quan tâm người dùng trực tuyến tác giả đề xuất thử nghiệm thành công Phương pháp kết hợp phân cụm chủ đề ẩn LDA công thức xác định mức độ quan tâm người dùng hồn tồn áp dụng thực tiễn Trong trình thử nghiệm, hệ thống xây dựng hồn tồn phát triển thêm để ứng dụng rộng rãi hơn, cho số đối tượng với nhu cầu định 65 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Với phương pháp phân cụm chủ đề ẩn LDA, kết hợp với cơng thức tính mức độ quan tâm người dùng dựa xác suất tin tức ứng với chủ đề, thu kết tương đối khả quan Số liệu sau xử lý dùng để xác định trực quan, dễ so sánh chủ đề tin tức với Với phương pháp đề xuất, việc đánh giá mức độ quan tâm người dùng, cho biết cách tương đối nội dung tin tức quan tâm chủ đề đó, dựa vào từ khố (keyword) Phương pháp đề xuất có thời gian xử lý thuật tốn khơng q lớn, mức độ chấp nhận Tuỳ theo tham số cài đặt thuật toán mà thời gian xử lý khác Với tham số luận văn đề xuất, thời gian xử lý tồn liệu vịng tháng hệ thống rơi vào khoảng 15-20 phút, cho khoảng gần 20 nghìn ghi Ngồi ra, với hệ thống xây dựng, ta dễ dàng truy xuất lại tin tức quan tâm với chủ đề theo xác suất cao So sánh phương pháp đề xuất với phương pháp dựa vào từ khoá tìm kiếm tác giả Tsuyoshi Murata [1] phương pháp loại trừ yếu tố ảnh hưởng nguồn liệu từ khoá tin tức, nguồn liệu từ cơng cụ tìm kiếm Tuy nhiên mức độ phức tạp pháp lại cao Nếu đặt tương quan với tiện ích Google Facebook đưa tin tức quan tâm, phương pháp đề xuất có ưu điểm định mức độ chủ động công cụ, mức độ chi tiết đưa chủ đề tin tức quan tâm người dùng Tất nhiên, để phát triển sâu cần nguồn lực lớn khâu thu thập liệu tiết phủ rộng hơn, điều mà công ty liệu lớn chiếm ưu Phương pháp luận văn đưa tương đối đầy đủ bước từ thu thập, phân tách, lọc nhiễu, phân cụm đo lường Tuy vậy, phương pháp xác định mức độ quan tâm luận văn chưa hẳn tổng quát nên cần phải vận dụng phù hợp, chẳng hạn mở rộng thông số thu thập thông số thu thập có ý nghĩa khác 66 cần thay đổi trọng số cho phù hợp công thức đề xuất Ngoài ra, liệu tin tức với ngơn ngữ khác (khơng phải tiếng Việt) cần bổ sung thêm tiền xử lý Hướng phát triển Yêu cầu phát tin tức quan tâm người dùng trực tuyến yêu cầu thực cấp thiết, cần nhiều công ty, tổ chức Đây yêu cầu phức tạp Trong khuôn khổ nghiên cứu luận văn đáp ứng phần Định hướng phát triển: - Hiện tại, tin tức hình ảnh video có lượng tương tác cao tin tức dạng văn Mặc dù phương pháp đưa áp dụng với nhiều dạng liệu, giới hạn nghiên cứu tin tức dạng văn Với hướng nghiên cứu này, muốn thực nguồn lực cần sử dụng phải bổ sung lớn - Nguồn tin tức trực tuyến phong phú, có nhiều nghiên cứu với nguồn liệu website, liệu tìm kiếm, luận văn đề xuất thêm nghiên cứu liệu từ Facebook Tất tách rời chưa có so sánh kênh, để từ có góc nhìn đa chiều tin tức người dùng quan tâm Từ đó, so sánh phương pháp thuật toán với phương pháp khác đưa phương pháp xác định mức độ quan tâm tin tức khơng mang tính chất quan sát luận văn, mà cịn mang tính chất định lượng - Phát triển hệ thống phát tin tức để đưa nhiều phân tích sâu hơn, đưa nhiều số liệu hấp dẫn cảm xúc người dùng với tin tức, hay phân tích nội dung bình luận người dùng, 67 TÀI LIỆU THAM KHẢO [1] Tsuyoshi Murata (2006), Towards the Detection of Breaking News from Online Web Search Keywords, IEEE/WIC/ACM International Conference [2] Allan J (2002), Topic Detection and Tracking, Kluwer Academic Publishers [3] Swit Phuvipadawat and Tsuyoshi Murata (2010), Breaking News Detection and Tracking in Twitter, Tokyo Institute of Technology [4] Shota Ishikawa, Yutaka Arakawa and Shigeaki Tagashira (2011), Hot Topic Detection in Local Areas Using Twitter and Wikipedia, Kyushu University [5] David M Blei, Andrew Y Ng and Michael I Jordan (2003), Latent Dirichlet Allocation, Journal of Machine Learning Research 3, pp 9931022 [6] Md Rezaul Karim (2018), Scala Machine Learning Projects, Packt Publishing [7] Nic Newman, Richard Fletcher, Antonis Kalogeropoulos, David A L Levy and Rasmus Kleis Nielsen (2017), Reuters Institute Digital News Report 2017, Reuters Institute [8] Garofalakis M., Gehrke J and Rastogi R (Eds) (2006), Data Stream Management: Processing High-Speed Data Streams, Springer [9] Dubinko M., Kumar R., Magnani J., Novak J., Raghavan P and Tomkins A (2006), Visualizing Tags over Time, Proceedings of WWW2006 [10] Simon Kemp (2017), Digital In 2017 Global Overview, We Are Social and Hootsuite 68 [11] Simon Kemp (2017), Digital In 2017: Southeast Asia, We Are Social and Hootsuite [12] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press [13] Pham Xuan-Hieu (2008), "JVnTextPro: A Java-based Vietnamese Text Processing Tool", Tohoku University [Online] Available: http://jvntextpro.sourceforge.net/ [Accessed 12 06 2018] [14] Pham Xuan-Hieu (2008), "JGibbLDA", Tohoku University [Online] Available: http://jgibblda.sourceforge.net/ [Accessed 12 06 2018] [15] Facebook Inc, "Facebook for developers," 2018 [Online] Available: https://developers.facebook.com/ [Accessed 12 06 2018] [16] Lê Thanh Hương (2012), "Bài giảng Xử lý ngôn ngữ tự nhiên," Đại học Bách Khoa Hà Nội [17] Võ Thị Ngọc Châu (2012), "Bài giảng Gom cụm liệu" Đại Học Bách Khoa Tp Hồ Chí Minh 69 ... HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC TUYẾN VÀ HƯỚNG PHÁT HIỆN TIN TỨC: Nội dung chương trình bày xu hướng quan tâm người dùng định hướng nguồn tin tức chọn để phát tin tức quan tâm người dùng trực tuyến. .. 19 1.5.1 Hướng phát tin tức quan tâm từ từ khố tìm kiếm trực tuyến .19 1.5.2 Hướng phát tin tức từ công cụ hãng công nghệ .20 1.5.3 Hướng phát tin tức quan tâm từ mạng xã hội sử... .10 CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC TUYẾN VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN TỨC 13 1.1 Tổng quan tảng tin tức người dùng trực tuyến 13 1.2 Nguồn tin tức từ mạng xã hội