Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
605,48 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM DƯƠNG XUÂN HIỆP NGUYỄN THỊ TUYẾT NHUNG KHÓA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN TIẾP CẬN HỌC SÂU RELATED NEWS RECOMMENDATION USING DEEP LEARNING APPROACH KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM DƯƠNG XUÂN HIỆP - 16520376 NGUYỄN THỊ TUYẾT NHUNG - 16520899 KHÓA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN TIẾP CẬN HỌC SÂU RELATED NEWS RECOMMENDATION USING DEEP LEARNING APPROACH KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2021 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………ngày……………………của Hiệu trưởng Trường Đại học Công nghệ Thông tin Chủ tịch Thư ký Ủy viên Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: Khuyến nghị tin tức liên quan dựa tiếp cận học sâu Nhóm SV thực hiện: Cán hướng dẫn: Dương Xuân Hiệp 16520376 TS Huỳnh Ngọc Tín Nguyễn Thị Tuyết Nhung 16520899 Đánh giá khóa luận Về báo cáo: Số trang 67 Số chương Số bảng số liệu Số hình vẽ 34 Số tài liệu tham khảo 11 Sản phẩm Một số nhận xét hình thức báo cáo: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về nội dung nghiên cứu: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về chương trình ứng dụng: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về thái độ làm việc sinh viên: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Đánh giá chung: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Điểm sinh viên: Dương Xuân Hiệp: /10 Nguyễn Thị Tuyết Nhung: /10 Người nhận xét (Ký ghi rõ họ tên) LỜI CẢM ƠN Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc Tín tận tình dẫn cho chúng em trình thực đề tài Nhóm xin gửi lời cảm ơn tới anh Trần Văn Tùng - sinh viên khóa 10 bạn Ngơ Trung Hiếu - sinh viên khóa 11 trường đại học Cơng nghệ Thơng tin góp ý, giúp đỡ chúng em thực đề tài cách tốt Cảm ơn công ty VCCorp cung cấp nguồn liệu tin tức phong phú để nhóm thực thực nghiệm đánh giá liệu thực tế Một lần nữa, nhóm xin chân thành cảm ơn ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Khuyến nghị tin tức liên quan dựa tiếp cận học sâu Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 10/03/2021 đến ngày 26/06/2021 Sinh viên thực hiện: Dương Xuân Hiệp – 16520376 Nguyễn Thị Tuyết Nhung - 16520899 Nội dung đề tài: (Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết mong đợi đề tài) Lý chọn đề tài: - Chúng ta sống thời đại bùng nổ thông tin, đặc biệt nguồn thông tin trực tuyến từ Internet Hàng ngày có hàng ngàn tin viết đưa lên Internet, đòi hỏi phải nắm bắt kịp thời Đặc biệt hệ thống báo online với số lượng thơng tin khổng lồ Làm tiếp cận tin tức mà với chủ đề quan tâm ? - Những nhu cầu xảy thường xuyên với đa số người, đòi hỏi hệ thống khuyến nghị tự động, giúp gợi ý nội dung phù hợp với người nhu cầu phổ biến cần thiết Phạm vi nghiên cứu: - Tập trung tìm hiểu thuật tốn gợi ý tin tức, kỹ thuật hỗ trợ khuyến nghị - Triển khai, đánh giá độ xác dựa liệu thử nghiệm - Xây dựng ứng dụng gợi ý tin hướng đến người dùng Việt Nam Đối tượng nghiên cứu: Các công nghệ: + Backend: Python + Frontend: Django + Database: Mysql, Redis - Hệ thống machine learning giúp gợi ý tin tức - Đối tượng phạm vi đề tài hướng đến: + Các website báo: cafef, cafebiz, + Người đọc báo online Mục tiêu: - Hiểu Machine Learning Tìm hiểu so sánh số cách tiếp cận khuyến nghị tin tức liên quan - Xây dựng hệ thống khuyến nghị tin tức liên quan dựa kiến thức tìm hiểu Phương pháp thực hiện: - Lên kế hoạch thực hiện, trao đổi với giảng viên hướng dẫn để định hướng đề tài - Nghiên cứu, đọc báo, tài liệu kiến thức liên quan - Tìm hiểu hệ thống khuyến nghị kỹ thuật áp dụng - Đánh giá thuật tốn tính “kịp thời” triển khai thực tế Kết mong đợi: - Hiểu toán khuyến nghị kiến thức liên quan - Xây dựng thành công hệ thống khuyến nghị tin liên quan đến tin đọc Kế hoạch thực hiện: STT Công việc Thời gian thực - Lựa chọn đề tài 10/03/2021 - Tìm hiểu đề tài, phát biểu tốn 12/03/2021 - Tìm hiểu tốn khuyến nghị tin liên quan 13/03/2021 - Tìm hiểu kỹ thuật phổ biến áp dụng 20/03/2021 - Nghiên cứu kiến thức học sâu 21/03/2021 - Tìm hiểu mơ hình khuyến nghị 15/04/2021 - Tìm hiểu thư viện hỗ trợ Deep Learning (Tensorflow) 16/04/2021 30/04/2021 - Xây dựng hệ thống khuyến nghị 01/05/2021 15/06/2021 - Hồn tất báo cáo, slide thuyết trình, hệ thống demo 16/06/2021 - Chuẩn bị phản biện báo cáo 26/06/2021 TP HCM, ngày 08 tháng 03 năm 2021 Xác nhận CBHD Sinh viên (Ký tên ghi rõ họ tên) (Ký tên ghi rõ họ tên) Dương Xuân Hiệp TS Huỳnh Ngọc Tín Sinh viên (Ký tên ghi rõ họ tên) Nguyễn Thị Tuyết Nhung MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG DANH MỤC MỘT SỐ THUẬT NGỮ DANH MỤC CÁC CHỮ VIẾT TẮT TÓM TẮT KHÓA LUẬN Chương 1: TỔNG QUAN ĐỀ TÀI 1.1 Dẫn nhập 1.2 Mục tiêu 1.3 Nội dung thực 1.4 Phạm vi thực 1.5 Bố cục báo cáo 1.6 Kết đạt 1.7 Kết chương Chương 2: MỘT SỐ NGHIÊN CỨU LIÊN QUAN 2.1 Mở đầu 2.2 Bài toán khuyến nghị tin liên quan 2.2.1 Thực trạng 2.2.2 Phát biểu toán 2.3 Một số hướng tiếp cận 2.3.1 Tiếp cận Convolutional Neural Network and Cosine Similarity [4] 2.3.2 Tiếp cận Content-based via Shortest Entity Distance over Knowledge Graphs [5] 2.3.3 Tiếp cận dựa vào mơ hình nhận thức học sâu (Deep Knowledge-aware Network) [7] 2.4 Kết chương 11 Chương 3: KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DÙNG MƠ HÌNH NHẬN THỨC HỌC SÂU (DEEP KNOWLEDGE-AWARE MODEL) 12 3.1 Mở đầu 12 3.2 Phương pháp truyền thống 12 3.3 Tiếp cận sử dụng Deep Model 12 3.3.3 Mơ hình nhận thức học sâu DKN (Deep Knowledge-aware Network) [7] 13 3.3.4 Knowledge-aware convolutional neural network (KCNN) 16 3.3.4.1 Biểu diễn báo dùng Word2Vec 17 3.3.4.2 Biểu diễn báo dùng đồ thị tri thức (Knowledge Graph) 17 3.3.5 Attention Network 21 3.4 Phương pháp thực 21 3.4.1 Giai đoạn tiền xử lý 21 3.4.2 Hiện thực hóa đồ thị tri thức 22 3.4.3 Biểu diễn nội dung báo 22 3.4.4 Tính xác suất đọc tin sử dụng Attention Network 23 3.5 Kết chương 23 Chương 4: HIỆN THỰC HỆ THỐNG 24 4.1 Mở đầu 24 4.2 Yêu cầu hệ thống 24 4.3 Kiến trúc hệ thống 24 4.3.1 Kiến trúc tổng quan 24 4.3.2 Knowledge-aware convolutional neural network (KCNN) 25 4.3.3 Tính xác suất đọc tin 30 4.3.4 Xây dựng hệ thống khuyến nghị 31 4.4 Thiết kế API 31 4.5 Thiết kế giao diện 33 4.6 Triển khai hệ thống 33 4.7 Kết chương 35 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 5.1 Mở đầu 36 5.2 Dữ liệu thực nghiệm (Dataset) 36 5.2.1 Dữ liệu word embeddings 36 5.2.2 Dữ liệu đồ thị tri thức 36 5.2.3 Dữ liệu mơ hình DKN 37 5.3 Phương pháp đánh giá 38 5.3.1 Các độ đo 38 5.3.2 Độ đo AUC 38 5.3.3 Độ đo CTR (Click-Through Rate) 40 5.3.4 Độ đo TOS (Time One Site) 40 5.3.5 Độ đo TOR (Time On Read) 41 5.3.6 Độ đo TOP (Time On Page) 41 5.4 Thiết lập thực nghiệm 41 5.4.1 Thiết lập thực nghiệm Offline 41 5.4.2 Thiết lập thực nghiệm Online 41 5.5 Khả chịu tải 43 5.5.1 Yêu cầu hệ thống 43 5.5.2 Thuật toán DKN 43 5.6 Kết thực nghiệm 44 5.6.1 Kết đánh giá Offline 44 5.6.2 Kết đánh giá Online 44 5.6.2.1 Độ đo CTR 45 5.6.2.2 Độ đo TOS 45 5.6.2.3 Độ đo TOR 46 5.6.2.4 Độ đo TOP 47 5.7 Phân tích lỗi 47 5.8 Nhận định 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 Kết luận 49 Hướng phát triển 49 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 52 Phụ lục 1: Bài báo cho hội nghị Khoa học trẻ Nghiên cứu sinh năm 2021 52 Phụ lục 2: Word Embeddings 62 Phụ lục 3: Convolutional Neural Network 66 DANH MỤC HÌNH VẼ 2.1 Minh họa chế khuyến nghị sử dụng mạng CNN Cosine Similarity 2.2 Minh họa chế khuyến nghị sử dụng mạng SED 2.3 Minh họa chế khuyến nghị tin theo mơ hình nhận thức học sâu 3.1 Quy trình biểu diễn tiêu đề báo sử dụng deep model 3.2 Tổng quan mơ hình nhận thức học sâu (DKN) 3.3 Cơ chế hoạt động mạng Knowledge-aware convolutional neural network (KCNN) 3.4 Mơ hình hóa đồ thị tri thức 3.5 Quy trình trích xuất thơng tin thực thể từ đồ thị tri thức 3.6 Mô tả phương pháp trích xuất thơng tin thực thể (TransE TransH) 3.7 Cơ chế hoạt động mạng Attention 4.1 Kiến trúc tổng quan hệ thống khuyến nghị tin liên quan 4.2 Luồng xử lý mạng KCNN 4.3 Quy trình biểu diễn báo dùng Word embeddings 4.4 Tokenize nội dung báo 4.5 Tiền xử lý báo dùng đồ thị tri thức 4.6 Huấn luyện mơ hình biểu diễn nội dung báo dùng đồ thị tri thức 4.7 Phương pháp hợp ngữ cảnh báo sử dụng mạng KCNN 4.8 Quy trình tính xác suất đọc tin sử dụng mạng Attention 4.9 Luồng xử lý service khuyến nghị 4.10 Thiết kế API cho hệ thống khuyến nghị 4.11 Giao diện demo cho hệ thống khuyến nghị tin 5.1 Phân phối liệu (Positive, negative) mô hình phân loại 5.2 Mơ tả trực quan độ đo AUC qua ngưỡng Hình 5.6: Giá trị độ đo TOS triển khai thực tế tuần 5.6.2.3 Độ đo TOR ❖ Related HN: CNN & cosine similarity ❖ Related HCM: DKN Hình 5.7: Giá trị độ đo TOR triển khai thực tế tuần 46 5.6.2.4 Độ đo TOP ❖ Related HN: CNN & cosine similarity ❖ Related HCM: DKN Hình 5.8: Giá trị độ đo TOP triển khai thực tế tuần 5.7 Phân tích lỗi Từ liệu đo đạc thực tế, chúng tơi có đánh giá sau: ● Về bản, hầu hết tin gợi ý phù hợp, liên quan đến chủ đề tin đọc ● Một số trường hợp đề xuất chưa phù hợp: tin gợi ý liên quan tới chủ đề phụ đọc tin nhiễu (không liên quan tới chủ đề đọc) phần lớn tin tin liên quan tin đọc 5.8 Nhận định Từ kết phân tích lỗi, chúng tơi đưa nhận định sau: ● Tin đề xuất đa số điều liên quan đến chủ đề, nội dung mà độc giả quan tâm ● Mơ hình làm tốt đa dạng hóa chủ đề khuyến nghị 47 ● Mơ hình khai thác tốt nội dung ẩn (hidden topic) đọc, từ phục vụ cho việc khuyến nghị 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Trong trình nghiên cứu hoàn thiện hệ thống khuyến nghị tin tức liên quan dựa tiếp cận học sâu, nhóm đạt kết quả: Về kiến thức: ● Tìm hiểu tốn khuyến nghị: nghiên cứu, tìm hiểu tài liệu kiến thức liên quan ● Tìm hiểu toán khuyến nghị tin tức liên quan tiếp cận sử dụng phổ biến ● Nắm bắt kiến thức lĩnh vực học máy, học sâu xử lý ngôn ngữ tự nhiên ● Nghiên cứu kiến thức, phương pháp áp dụng mơ hình tri thức cho hệ thống khuyến nghị đề cập báo [7] Về sản phẩm: ● Hoàn thiện báo cáo toàn văn hệ thống khuyến nghị tin liên quan sử dụng mơ hình nhận thức học sâu ● Xây dựng thành cơng mơ hình nhận thức học sâu với độ xác khoảng 96% ● Xây dựng liệu Tiếng Việt hỗ trợ q trình huấn luyện mơ hình ● Hoàn thiện API cho hệ thống khuyến nghị triển khai trang báo Cafebiz ● Bài báo: Khuyến nghị tin tức liên quan dựa mơ hình nhận thức thực thể kết hợp phương pháp học sâu - Hội nghị Khoa học trẻ Nghiên cứu sinh năm 2021 Trường Đại học Công nghệ Thông tin (ĐHQG TP.HCM) Hướng phát triển Từ kết đạt nhận định hệ thống, tiếp cận cho thấy ưu điểm trội so với cách tiếp cận truyền thống Tuy nhiên, hệ thống tồn số 49 trường hợp gợi ý tin chưa phù hợp, cụ thể: tin nhiễu không liên quan đến chủ đề đọc Do đó, nhóm đề xuất số hướng phát triển: ● Cải thiện cách mô tả thông tin thực thể nội dung báo sử dụng đồ thị tri thức, cụ thể: phân tích khuyết điểm phương pháp có, từ đề hướng khắc phục nghiên cứu phương pháp ● Phát triển mơ hình nhận thức học sâu với mục đích tận dụng tốt ngữ cảnh báo, qua làm tăng đa dạng cho việc khuyến nghị, thu hút quan tâm người đọc ● Tìm hiểu, thử nghiệm mơ hình cho toán khuyến nghị tin 50 TÀI LIỆU THAM KHẢO [1] Mind: Microsoft news dataset https://msnews.github.io/ [2] Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., Yakhnenko, O.: Translating embeddings for modeling multi-relational data (12/2013) [3] Feng, J.: Knowledge graph embedding by translating on hyperplanes (06/2014) [4] Liu, Chundi, Shunan Zhao and M Volkovs “Unsupervised Document Embedding With CNNs.” arXiv: Computation and Language (2017) [5] Joseph, Kevin & Jiang, Hui (2019) Content based News Recommendation via Shortest Entity Distance over Knowledge Graphs [6] Rahutomo, F., Kitasuka, T., Aritsugi, M.: Semantic cosine similarity (10/2012) [7] Wang, H., Zhang, F., Xie, X.: Dkn: Deep knowledge-aware network for news recommendation.pp 1835–1844 (04/2018) [8] Li, L., Chu, W., Langford, J., Schapire, R.: A contextual-bandit approach to personalizednews article recommendation Computing Research Repository - CORR (02 2010) [9] Luostarinen, T., Kohonen, O.: Using topic models in content-based news recommender sys-tems In: Proceedings of the 19th Nordic Conference of Computational Linguistics (05 2013) [10] Bojanowski, P., Grave, E., Joulin, A., Mikolov, T.: Enriching word vectors with Subword information (07 2016) [11] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean 2013 Distributed representations of words and phrases and their compositionality In Advances in neural information processing systems 3111–3119 51 PHỤ LỤC Phụ lục 1: Bài báo cho hội nghị Khoa học trẻ Nghiên cứu sinh năm 2021 53 54 55 56 57 58 59 60 61 ... dựng service khuyến nghị tin liên quan triển khai trang báo Cafebiz ● Bài báo: Khuyến nghị tin tức liên quan dựa mơ hình nhận thức thực thể kết hợp phương pháp học sâu - Hội nghị Khoa học trẻ Nghiên... Tên khóa luận: Khuyến nghị tin tức liên quan dựa tiếp cận học sâu Nhóm SV thực hiện: Cán hướng dẫn: Dương Xuân Hiệp 16520376 TS Huỳnh Ngọc Tín Nguyễn Thị Tuyết Nhung 16520899 Đánh giá khóa luận. .. hiện, mô tả tổng quan hệ thống ● Chương 2: Một số nghiên cứu liên quan Mơ tả tốn khuyến nghị tin liên quan, thách thức, đề hướng tiếp cận cho toán ● Chương 3: Khuyến nghị tin liên quan Mô tả phương