Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 124 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
124
Dung lượng
10,17 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA ận Lu NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU án CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN n tiế CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ sĩ ới m ất nh LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA ận Lu NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU án CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN n tiế CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ sĩ ới m ất nh LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 9520203 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG QUANG HIẾU PGS TS NGUYỄN ĐỨC MINH HÀ NỘI - 2023 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT v ận Lu DANH MỤC KÝ HIỆU TOÁN HỌC vii DANH MỤC HÌNH VẼ ix DANH MỤC BẢNG BIỂU xi MỞ ĐẦU 1 Tính cần thiết luận án vấn đề giải Mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu 13 Các đóng góp luận án 14 Cấu trúc nội dung luận án 14 CHƯƠNG TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 16 1.1 Ma trận lịch sử tương tác hệ thống gợi ý 16 1.2 Các phương án triển khai hệ thống gợi ý 18 1.2.1 Hệ thống gợi ý dựa nội dung 18 1.2.2 Lọc cộng tác dựa ghi nhớ 20 1.2.3 Lọc cộng tác dựa mơ hình 22 1.3 Thiết lập thực nghiệm 24 1.3.1 Tập liệu MovieLens 20M 24 1.3.2 Tập liệu MovieLens 25M 26 1.3.3 Phương pháp đánh giá 26 1.4 Kết luận 28 án Giới thiệu chung hệ thống gợi ý n tiế sĩ ới m ất nh i ii CHƯƠNG CẢI THIỆN THUẬT TOÁN ĐO ĐỘ TƯƠNG ĐỒNG GIỮA HAI SẢN PHẨM TRONG LỌC CỘNG TÁC DỰA TRÊN GHI NHỚ 29 2.1 Hạn chế phép đo độ tương đồng truyền thống hệ thống gợi ý 30 2.1.1 Hạn chế phân bố thống kê độ tương đồng 30 2.1.2 Hạn chế liệu lịch sử đánh giá tính tốn ma trận tương đồng 31 2.2 Phương pháp tính độ tương đồng cải thiện hạn chế phân bố thống kê 33 ận Lu 2.3 Phương pháp Lọc cộng tác dựa theo ghi nhớ tích hợp nội dung sản phẩm 35 2.3.1 Dữ liệu Tag Genome tập liệu MovieLens 20M 25M 35 án 2.3.2 Phương pháp tích hợp nội dung sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ 35 tiế 2.3.3 Xây dựng ma trận tương đồng kết hợp hệ thống gợi ý dựa n ghi nhớ 37 sĩ 40 2.4.1 Các mơ hình tham chiếu 40 ới m 2.4 Kết thực nghiệm 2.4.2 Kết phương pháp giúp cải thiện phân bố thống kê ma nh trận tương đồng 41 ất 2.4.3 Kết tích hợp nội dung sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ 43 2.4.4 Kết tích hợp ma trận tương đồng kết hợp hệ thống gợi ý dựa ghi nhớ 45 2.4.5 Kết triển khai mơ hình thiết bị máy tính Jetson Nano 48 2.5 Kết luận 50 CHƯƠNG HỆ THỐNG GỢI Ý ÁP DỤNG CÁCH THỨC BIỂU DIỄN SẢN PHẨM SỬ DỤNG CÁC KỸ THUẬT HỌC SÂU 52 3.1 Phương pháp nhóm thẻ tương đồng liệu Tag Genome kỹ thuật xử lý ngôn ngữ tự nhiên 53 iii 3.2 Phương pháp học cách biểu diễn cho sản phẩm qua Bộ tự mã hóa 56 3.2.1 Kiến trúc Bộ tự mã hóa 56 3.2.2 Áp dụng Bộ tự mã hoá nhằm biểu diễn sản phẩm 57 3.3 Học cách biểu diễn cho phim với Bộ tự mã hóa bán chập 58 58 3.3.2 Sơ lược kiến trúc mạng nơ-ron chập chiều 61 3.3.3 Sơ lược Bộ tự mã hóa chập - CAE 63 3.3.4 Thiết kế Bộ tự mã hóa bán chập 64 3.4 Kết thực nghiệm 66 3.4.1 Các mơ hình tham chiếu 66 Lu 3.3.1 Cơ sở áp dụng CNN cho liệu bảng 3.4.2 Kết mơ hình sử dụng phương pháp nhóm thẻ tương đồng ận liệu Tag Genome kỹ thuật xử lý ngôn ngữ tự nhiên 67 án 3.4.3 Kết mơ hình sử dụng cách biểu diễn cho sản phẩm qua Bộ tự mã hóa 68 tiế 3.4.4 Kết áp dụng biểu diễn cho phim với Bộ tự mã hóa n bán chập 73 sĩ 3.4.5 Kết triển khai mơ hình thiết bị máy tính Jetson Nano m 79 ới 3.5 Kết luận PHƯƠNG PHÁP SINH DỮ LIỆU NGƯỜI DÙNG nh CHƯƠNG 80 ất NHÂN TẠO ỨNG DỤNG TRONG LỌC CỘNG TÁC 82 4.1 Biểu diễn người dùng qua nội dung sản phẩm thông tin đánh giá 82 4.2 Tích hợp độ tương quan người dùng - sản phẩm vào ước lượng sở 86 4.3 Áp dụng nội dung sản phẩm vào toán khởi tạo cho mơ hình phân rã ma trận 88 4.4 Kết thí nghiệm 90 4.4.1 Tích hợp độ tương quan người dùng - sản phẩm vào ước lượng sở 90 4.4.2 Áp dụng nội dung sản phẩm vào tốn khởi tạo cho mơ hình MF 94 iv 4.4.3 Kết triển khai mô hình thiết bị máy tính Jetson Nano 97 4.5 Kết luận KẾT LUẬN 98 100 Những kết đạt 100 Hướng nghiên cứu 100 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CƠNG BỐ 102 ận Lu án n tiế sĩ ới m ất nh DANH MỤC CÁC TỪ VIẾT TẮT ận Lu Viết tắt Tên tiếng Anh Tên tiếng Việt AE Autoencoder Mạng Tự Mã hoá ANN Artificial Neural Network Mạng Nơ-ron Nhân tạo CAE Convolutional Autoencoder Mạng Tự Mã hoá Chập CNN Convolutional Neural Network Mạng Nơ-ron Chập 1D-CNN Dimension Convolutional Neur- Mạng Nơ-ron Chập chiều ral Network 2D-CNN Dimension Convolutional Neur- Mạng Nơ-ron Chập chiều án ral Network Collaborative Filtering Lọc Cộng tác CV Coefficient of Variation Hệ số Biến thiên Cos Cosine Hàm Cosine Deep Learning Học Sâu Factorization Machine Máy Nhân tử hóa n tiế CF sĩ ới FM m DL Mơ hình Autorec hướng sản phẩm nh I-Autorec Item-based Autorec item-item Collaborative Filtering Lọc Cộng tác hướng sản phẩm HCAE Half Convolutional Autoencoder Mạng Tự Mã hóa Bán Chập kNN k-Nearest Neighbor Thuật toán k Láng giềng Gần ất ii-CF MAE Mean Absolute Error Trung bình Sai số Tuyệt đối MF Matrix Factorization Phân rã Ma trận ML Machine Learning Học Máy NLP Natural Language Processing Xử lý Ngôn ngữ Tự nhiên NMF Non-negative Matrix Factoriza- Phân rã Ma trận Không âm tion PCC Pearson Correlation Coefficient Hệ số Tương quan Pearson RBM Restricted Boltzmann Machine Máy Boltzmann bị Hạn chế v vi RS Recommendation System Hệ thống gợi ý RMSE Root Mean Squared Error Căn bậc hai Trung bình Bình phương Sai số SGD Stochastic Gradient Descent Hạ Gradient Ngẫu nhiên SVD Singular Value Decomposition Phân tích Giá trị Suy biến ận Lu án n tiế sĩ ới m ất nh DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa ận Lu án u, v Người dùng u, v i, j Sản phẩm i, j rui Đánh giá thực tế người dùng u cho sản phẩm i r˜ui rui chuẩn hóa đoạn [0, 1] rˆui Đánh giá dự đoán người dùng u cho sản phẩm i sij Độ tương đồng hai sản phẩm i j tiế Tập k sản phẩm tương đồng với sản phẩm i S (i, u) k n sĩ Tập người dùng đánh giá hai sản phẩm i ới Uij Tập người dùng đánh giá sản phẩm i m Ui mà đánh giá người dùng u nh j Tập sản phẩm đánh giá người dùng u K Tập cặp (u, i) thỏa mãn rui biết ất R(u) R ∈ Rm×n Ma trận đánh giá, m số người dùng, n số sản phẩm P ∈ Rm×k Ma trận mơ tả m người dùng không gian ẩn k chiều pu ∈ Rk Vector mô tả người dùng u Q ∈ Rn×k Ma trận mơ tả n sản phẩm không gian ẩn k chiều vii viii qi ∈ R k Vector mô tả sản phẩm i bui Ước lượng sở µ Giá trị trung bình tồn đánh giá biết bu Độ chệch (bias) cụ thể người dùng u bi Độ chệch (bias) cụ thể sản phẩm i α Tốc độ học chung mơ hình λ Hệ số điều chuẩn L2 ận Lu án n tiế sĩ ới m ất nh