KHÓA LUẬN tốt NGHIỆP KHUYẾN NGHỊ TIN tức LIÊN QUAN dựa TRÊN TIẾP cận học sâu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM DƯƠNG XUÂN HIỆP NGUYỄN THỊ TUYẾT NHUNG KHÓA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN TIẾP CẬN HỌC SÂU RELATED NEWS RECOMMENDATION USING DEEP LEARNING APPROACH KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM DƯƠNG XUÂN HIỆP - 16520376 NGUYỄN THỊ TUYẾT NHUNG - 16520899 KHÓA LUẬN TỐT NGHIỆP KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN TIẾP CẬN HỌC SÂU RELATED NEWS RECOMMENDATION USING DEEP LEARNING APPROACH KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2021 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………ngày……………………của Hiệu trưởng Trường Đại học Công nghệ Thông tin Chủ tịch Thư ký Ủy viên Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: Khuyến nghị tin tức liên quan dựa tiếp cận học sâu Nhóm SV thực hiện: Cán hướng dẫn: Dương Xuân Hiệp 16520376 Nguyễn Thị Tuyết Nhung 16520899 TS Huỳnh Ngọc Tín Đánh giá khóa luận Về báo cáo: Số trang 67 Số chương Số bảng số liệu Số hình vẽ 34 Số tài liệu tham khảo 11 Sản phẩm Một số nhận xét hình thức báo cáo: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về nội dung nghiên cứu: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về chương trình ứng dụng: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Về thái độ làm việc sinh viên: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Đánh giá chung: ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… ………………………………………….………………………………………….…… Điểm sinh viên: Dương Xuân Hiệp: /10 Nguyễn Thị Tuyết Nhung: /10 Người nhận xét (Ký ghi rõ họ tên) LỜI CẢM ƠN Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc Tín tận tình dẫn cho chúng em trình thực đề tài Nhóm xin gửi lời cảm ơn tới anh Trần Văn Tùng - sinh viên khóa 10 bạn Ngơ Trung Hiếu - sinh viên khóa 11 trường đại học Cơng nghệ Thơng tin góp ý, giúp đỡ chúng em thực đề tài cách tốt Cảm ơn công ty VCCorp cung cấp nguồn liệu tin tức phong phú để nhóm thực thực nghiệm đánh giá liệu thực tế Một lần nữa, nhóm xin chân thành cảm ơn ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Khuyến nghị tin tức liên quan dựa tiếp cận học sâu Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 10/03/2021 đến ngày 26/06/2021 Sinh viên thực hiện: Dương Xuân Hiệp – 16520376 Nguyễn Thị Tuyết Nhung - 16520899 Nội dung đề tài: (Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết mong đợi đề tài) Lý chọn đề tài: - Chúng ta sống thời đại bùng nổ thông tin, đặc biệt nguồn thông tin trực tuyến từ Internet Hàng ngày có hàng ngàn tin viết đưa lên Internet, đòi hỏi phải nắm bắt kịp thời Đặc biệt hệ thống báo online với số lượng thông tin khổng lồ Làm tiếp cận tin tức mà với chủ đề quan tâm ? - Những nhu cầu xảy thường xuyên với đa số người, đòi hỏi hệ thống khuyến nghị tự động, giúp gợi ý nội dung phù hợp với người nhu cầu phổ biến cần thiết Phạm vi nghiên cứu: - Tập trung tìm hiểu thuật tốn gợi ý tin tức, kỹ thuật hỗ trợ khuyến nghị - Triển khai, đánh giá độ xác dựa liệu thử nghiệm - Xây dựng ứng dụng gợi ý tin hướng đến người dùng Việt Nam Đối tượng nghiên cứu: Các công nghệ: + Backend: Python + Frontend: Django + Database: Mysql, Redis - Hệ thống machine learning giúp gợi ý tin tức - Đối tượng phạm vi đề tài hướng đến: + Các website báo: cafef, cafebiz, + Người đọc báo online Mục tiêu: - Hiểu Machine Learning Tìm hiểu so sánh số cách tiếp cận khuyến nghị tin tức liên quan - Xây dựng hệ thống khuyến nghị tin tức liên quan dựa kiến thức tìm hiểu Phương pháp thực hiện: - Lên kế hoạch thực hiện, trao đổi với giảng viên hướng dẫn để định hướng đề tài - Nghiên cứu, đọc báo, tài liệu kiến thức liên quan - Tìm hiểu hệ thống khuyến nghị kỹ thuật áp dụng - Đánh giá thuật tốn tính “kịp thời” triển khai thực tế Kết mong đợi: - Hiểu toán khuyến nghị kiến thức liên quan - Xây dựng thành công hệ thống khuyến nghị tin liên quan đến tin đọc Kế hoạch thực hiện: STT Công việc Thời gian thực - Lựa chọn đề tài - Tìm hiểu đề tài, phát biểu tốn - Tìm hiểu tốn khuyến nghị tin liên quan - Tìm hiểu kỹ thuật phổ biến áp dụng - Nghiên cứu kiến thức học sâu - Tìm hiểu mơ hình khuyến nghị 10/03/2021 12/03/2021 13/03/2021 20/03/2021 21/03/2021 15/04/2021 - Tìm hiểu thư viện hỗ trợ Deep Learning (Tensorflow) 16/04/2021 30/04/2021 - Xây dựng hệ thống khuyến nghị 01/05/2021 15/06/2021 - Hồn tất báo cáo, slide thuyết trình, hệ thống demo 16/06/2021 - - Chuẩn bị phản biện báo cáo 26/06/2021 TP HCM, ngày 08 tháng 03 năm 2021 Xác nhận CBHD Sinh viên (Ký tên ghi rõ họ tên) (Ký tên ghi rõ họ tên) Dương Xuân Hiệp TS Huỳnh Ngọc Tín Sinh viên (Ký tên ghi rõ họ tên) Nguyễn Thị Tuyết Nhung 53 54 55 56 57 58 59 60 61 Phụ lục 2: Word Embeddings Trong phạm vi đề tài, phương pháp word embeddings sử dụng Word2Vec Word2Vec phương pháp học máy, biểu diễn từ vựng thành vector không gian vector Word2Vec mơ hình Word Embedding sử dụng mạng neural, phổ biến thời điểm tại, có khả vector hóa từ dựa tập từ từ văn cảnh Về mặt toán học, thực chất Word2Vec việc ánh xạ từ từ tập từ văn sang không gian vector, vector biểu diễn n số thực Mỗi từ ứng với vector cố định Sau q trình huấn luyện mơ hình, trọng số vector từ cập nhật liên tục Từ đó, ta thực tính toán khoảng cách quen thuộc euclide, cosine, đưa nhận định từ "gần" mặt khoảng cách thường từ hay xuất văn cảnh, từ đồng nghĩa, Trong Word2Vec, có khái niệm quan trọng là: target word (center word) context words Hiểu đơn giản ta sử dụng từ mục tiêu (target word) với từ xung quanh (context words) để mơ hình thơng qua để tiến hành huấn luyện: Có hai cách xây dựng mơ hình Word2vec để biểu diễn phân tán từ không gian vector: ● Sử dụng ngữ cảnh để dự đoán mục tiêu (Continuous bag of words) ● Sử dụng từ để dự đoán ngữ cảnh mục tiêu (Continuous skip-gram) 62 Hình 5.9: Kiến trúc mạng tổng qt mơ hình Word2Vec Skip-gram model: phương pháp sử dụng input context word cố gắng dự đoán từ đầu (target word) ngược lại, mơ hình Skip-gram sử dụng input target word cố gắng dự đoán từ hàng xóm Chúng định nghĩa từ hàng xóm (neighbor word) thơng qua tham số window size Ví dụ, giả sử ta có câu: “the man loves his son” với từ chuỗi văn “the”, “man”, “loves”, “his” “son” Ta sử dụng “loves” làm từ đích trung tâm Đặt kích thước cửa sổ ngữ cảnh (window size) 2, ta có neighbor word (“the”, “man”, “his” “son”) Với từ đích trung tâm “loves”, mơ hình skip-gram quan tâm đến xác suất có điều kiện sinh từ ngữ cảnh (“the”, “man”, “his” “son”) nằm khoảng cách không từ: P(“the”, “man”, “his” “son” | “loves”) 63 Hình 5.10: Ý tưởng thực mơ hình Skip-gram Hình 5.11: Kiến trúc mạng mơ hình Skip-gram 64 CBOW model: ngược với Skip-gram, phương pháp lấy đầu vào nhiều từ context word cố gắng dự đoán output từ đầu (target word) thông qua tầng neural đơn giản Nhờ việc đánh giá output error với target word dạng one-hot, mơ hình điều chỉnh weight, học vector biểu diễn cho target word Ví dụ ta có câu tiếng anh sau : "I love you" Trong đó: ● Input context word : love ● Output target word: you Ta biến đổi input context đầu vào dạng one-hot qua tầng hidden layer thực softmax phân loại để dự đốn từ 65 Hình 5.12: Kiến trúc mạng mơ hình CBOW Thuật tốn CBOW tốn thời gian huấn luyện mơ hình Skip-gram Tuy nhiên, Skipgram có độ xác cao có chứa từ xuất Phụ lục 3: Convolutional Neural Network Convolutional Neural Networks (CNN) mơ hình deep learning phổ biến có ảnh hưởng nhiều cộng đồng Computer Vision CNN dùng trong nhiều toán nhân dạng ảnh, phân tích video cho lĩnh vực xử lý ngôn ngữ tự nhiên, hầu hết giải tốt toán CNN có lịch sử lâu đời Kiến trúc gốc mơ hình CNN giới thiệu nhà khoa học máy tính người Nhật vào năm 1980 Sau đó, năm 1998, Yan LeCun lần đầu huấn luyện mơ hình CNN với thuật tốn backpropagation cho toán nhận dạng chữ viết tay Tuy nhiên, đến năm 2012, nhà khoa học máy tính người Ukraine Alex Krizhevsky xây dựng mơ hình CNN (AlexNet) sử dụng GPU để tăng tốc trình huấn luyện deep nets để đạt top thi Computer Vision thường niên ImageNet tạo nên sóng mạnh mẽ cộng đồng học máy lúc Trong mạng neural, mơ hình mạng neural tích chập (CNN) mơ hình để nhận dạng phân loại hình ảnh Trong đó, xác định đối tượng nhận dạng khuôn mặt số lĩnh vực mà CNN sử dụng rộng rãi CNN phân loại hình ảnh cách lấy hình ảnh đầu vào, xử lý phân loại theo hạng mục định (Ví dụ: Chó, Mèo, Hổ, ) Máy tính coi hình ảnh đầu vào mảng pixel phụ thuộc vào độ phân giải hình ảnh Dựa độ phân giải hình ảnh, máy tính thấy H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ dày) Ví dụ: hình ảnh mảng ma trận RGB 6x6x3 (3 giá trị RGB) 66 Cấu trúc mạng CNN gồm phần: ● Tích chập (convolution): từ ma trận lọc (kernel) ảnh với pixel ô ma trận, quét toàn từ xuống dưới, từ trái qua phải Việc dùng ma trận lọc qt tồn ảnh với mục đích rút trích đặc trưng ẩn ảnh (feature map) ● Pooling: thành phần thực giảm số chiều ma trận feature map đảm bảo giữ lại trọng số tốt nhờ vào phép tốn Trong mạng CNN, thực convolution pooling nhiều lần ● Fully Connected: thành phần tính xác suất đưa kết để phân lớp giá trị đầu vào Đối với mạng CNN, việc “lan truyền ngược” thực để tối ưu model để phân lớp xác Hình 5.13: Kiến trúc tổng quát mạng tích chập 67 ... dựng service khuyến nghị tin liên quan triển khai trang báo Cafebiz ● Bài báo: Khuyến nghị tin tức liên quan dựa mơ hình nhận thức thực thể kết hợp phương pháp học sâu - Hội nghị Khoa học trẻ Nghiên... hiện, mô tả tổng quan hệ thống ● Chương 2: Một số nghiên cứu liên quan Mô tả toán khuyến nghị tin liên quan, thách thức, đề hướng tiếp cận cho toán ● Chương 3: Khuyến nghị tin liên quan Mô tả phương... định chung nghiên cứu đưa lựa chọn hướng tiếp cận cho toán khuyến nghị tin liên quan 11 Chương 3: KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DÙNG MƠ HÌNH NHẬN THỨC HỌC SÂU (DEEP KNOWLEDGE-AWARE MODEL) 3.1 Mở

Định dạng
Số trang	86
Dung lượng	4,11 MB