Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.Nghiên cứu phương pháp xử lý dữ liệu cho hệ thống gợi ý và triển khai trên các thiết bị có tài nguyên hạn chế.
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI DƯƠNG TẤN NGHĨA NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU CHO HỆ THỐNG GỢI Ý VÀ TRIỂN KHAI TRÊN CÁC THIẾT BỊ CÓ TÀI NGUYÊN HẠN CHẾ Ngành: Kỹ thuật điện tử Mã số: 9520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2023 Cơng trình hồn thành Đại học Bách khoa Hà Nội Tập thể hướng dẫn khoa học: TS Đặng Quang Hiếu PGS TS Nguyễn Đức Minh Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp trường họp Đại học Bách khoa Hà Nội vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu, ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Giới thiệu chung hệ thống gợi ý 1.1 Khái niệm hệ thống gợi ý Trong năm gần đây, phát triển mạnh mẽ mạng truyền thông không dây tốc độ cao 4G/5G với phổ biến thiết bị di động góp phần thay đổi đáng kể cách thức tiếp cận xử lý thông tin Các hệ thống gợi ý (Recommendation System - RS) ngày giữ vai trò đặc biệt quan trọng trình vận hành tảng thương mại điện tử truyền thông đa phương tiện với mục tiêu đề xuất cho khách hàng sản phẩm mà họ có khả yêu thích hay sử dụng RS dạng hệ thống hỗ trợ định, cung cấp giải pháp mang tính cá nhân hóa mà khơng phải trải qua q trình tìm kiếm phức tạp Có thể định nghĩa RS hệ thống lọc thông tin để dự đốn sở thích người dùng, từ đề xuất với người dùng sản phẩm phù hợp cách hiệu Gần đây, hầu hết RS triển khai từ hệ thống điện toán đám mây đến thiết bị biên (cloud-to-edge) Việc tính tốn trực tiếp thiết bị biên giảm độ trễ cho băng thông, giúp hệ thống nắm bắt sở thích người dùng dễ dàng từ đưa đề xuất thỏa đáng Luận án tập trung nghiên cứu phương pháp thuật toán xử lý liệu RS nhằm tăng cường chất lượng thông tin Điều giúp xử lý phân tích liệu thu thập được, tăng tính xác tính qn thơng tin đầu phục vụ cho việc triển khai RS thiết bị biên 1.2 Tình hình nghiên cứu hệ thống gợi ý giới Việt Nam Dựa theo loại liệu áp dụng nhằm đề xuất sản phẩm cho người dùng, RS thường chia làm ba hướng tiếp cận (Hình 1) Hệ thống lọc dựa nội dung đề xuất sản phẩm dựa thông tin đặc trưng sản phẩm người dùng Hình 1: Phân loại hệ thống gợi ý Trái lại, hệ thống CF dựa vào lịch sử tương tác người dùng với sản phẩm để xác định sở thích họ đưa gợi ý phù hợp Có hai nhánh tiếp cận hệ thống CF: gợi ý dựa ghi nhớ (Memory-based CF) gợi ý dựa vào mô hình (Model-based CF) Nhánh tiếp cận dựa ghi nhớ tính tốn độ tương quan sản phẩm người dùng qua lịch sử tương tác từ tìm sản phẩm tương đồng với sản phẩm mà người thích Mặt khác, nhánh tiếp cận dựa vào mơ hình chứng tỏ tính hữu hiệu ma trận tương tác thưa Nhiều nghiên cứu phương pháp phân rã ma trận (Matrix Factorization - MF) cho thấy với phương pháp khởi tạo thích hợp, cải thiện tốc độ hội tụ độ xác hệ thống Tuy nhiên, người dùng sản phẩm mới, hệ thống thường khơng có đủ liệu tương tác để đưa gợi ý xác, dẫn đến vấn đề khởi động nguội (Cold-start problem) Để khắc phục vấn đề này, hệ thống sử dụng phương pháp kết hợp đề xuất Dù thu nhiều kết đáng ý, hiệu mô hình truyền thống bị giới hạn tính tuyến tính Đối với liệu có cấu trúc phức tạp, kiến trúc mạng nơ-ron hướng tiếp cận giúp nâng cao độ xác RS CNN gần nhận nhiều ý RS, áp dụng với toán gợi ý hát hay văn Ở Việt Nam, học máy nói chung RS qua ngày nhận nhiều quan tâm nghiên cứu nhà khoa học doanh nghiệp nước Trong đó, nhằm hạn chế vấn đề khởi động nguội, nhiều nghiên cứu RS Việt Nam tích hợp thơng tin phụ vào để đưa gợi ý đề xuất mơ hình gợi ý sử dụng liệu mơ tả sản phẩm Ngồi ra, số nghiên cứu khác tập trung nghiên cứu phương pháp mơ hình hố hành vi người dùng 2 Tính cần thiết luận án vấn đề giải 2.1 Những thách thức trình nghiên cứu hệ thống gợi ý 2.1.1 Thách thức thu thập liệu Thứ nhất, lượng sản phẩm người dùng lớn tạo nên ma trận tương tác có kích thước khổng lồ, nhiên người dùng thường tương tác cung cấp đánh giá cho vài sản phẩm, khiến cho ma trận tương tác trở thực tế trở nên thưa thớt Thứ hai, RS tiềm ẩn khả gặp phải vấn đề khởi động nguội thuật tốn khơng thể đưa dự đoán đáng tin cậy cho người dùng chưa thu thập đủ thông tin Cuối cùng, việc thu thập liệu nói chung cho nghiên cứu nói riêng phải đảm bảo sách bảo mật liệu người dùng 2.1.2 Thách thức triển khai thuật toán Thứ nhất, số lượng sản phẩm người dùng lớn, khiến chi phí lưu trữ thực thuật tốn nhớ ngày tăng, gây khó khăn mở rộng hệ thống Cùng với đó, hệ thống lọc dựa nội dung hay kết hợp với CF phụ thuộc nhiều vào chất lượng liệu đặc trưng sản phẩm người dùng Tuy nhiên, đa phần liệu mang thông tin sản phẩm hay sở thích người dùng liệu thô, sử dụng trực tiếp 2.2 Những vấn đề luận án giải Để thực nhiệm vụ trình bày phần trên, RS thực tiễn cần đáp ứng mục tiêu: xác, lạ, ngẫu nhiên, đa dạng, riêng tư Trong đó, nghiên cứu luận án tập trung vào cải thiện tính xác thuật tốn gợi ý Cụ thể, luận án tập trung giải ba vấn đề sau: Vấn đề 1: độ xác thuật toán CF bị suy giảm đáng kể ma trận tương tác người dùng với sản phẩm thưa thớt Vấn đề 2: liệu đặc trưng sản phẩm có chất lượng chưa tốt, chưa phân tích kỹ tận dụng triệt để CF Vấn đề 3: khó khăn thu thập liệu sở thích người dùng vấn đề bảo mật, mơ hình CF truyền thống chưa có khả tận dụng liệu người dùng triệt để 3 Mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu 3.1 Mục tiêu nghiên cứu Đề xuất thuật toán đo độ tương đồng nhằm tăng độ xác mơ hình CF dựa ghi nhớ Đề xuất mơ hình trích xuất đặc trưng ẩn xử lý liệu đặc trưng sản phẩm Đề xuất phương pháp xây dựng liệu sở thích người dùng, đề xuất cải thiện thuật toán CF sử dụng nguồn liệu người dùng Chứng minh khả triển khai mơ hình đề xuất thiết bị có phần bứng hạn chế 3.2 Đối tượng phạm vi nghiên cứu Các thuật toán CF phổ biến kNN, SVD, SVD++, NMF Phương pháp xác định độ tương đồng sản phẩm Q trình tiền xử lí liệu mơ tả nội dung sản phẩm Hai tập liệu đánh giá phim tiếng MovieLens 20M 25M: luận án tập trung khai thác liệu đánh giá người dùng thẻ Genome phản ánh đặc trưng phim 3.3 Phương pháp nghiên cứu Phương pháp nghiên cứu sử dụng luận án từ phân tích đánh giá mơ hình có, đưa đề xuất cải thiện tiến hành triển khai mơ hình sử dụng liệu thực tế Mơ hình so sánh với mơ hình tham chiếu dựa tiêu chí độ xác dự đốn thời gian thực thi để kiểm nghiệm cách toàn diện hiệu hoạt động Q trình lặp lại nhiều lần để liên tục nâng cao độ xác mơ hình Các đóng góp luận án Luận án giải vấn đề đưa phần thu kết sau: Đề xuất thuật tốn cải thiện độ xác phép đo độ tương đồng sản phẩm sử dụng phương pháp thống kê liệu đặc trưng sản phẩm Thiết kế quy trình làm thơng tin sản phẩm sử dụng mơ hình NLP, đồng thời áp dụng kiến trúc AE CNN nhằm nén liệu trích xuất đặc trưng ẩn Xây dựng liệu mơ tả người dùng để giải tốn khởi tạo mơ hình MF tăng cường mơ hình CF dựa ghi nhớ Triển khai thành cơng mơ hình đề xuất thiết bị có phần cứng hạn chế, giảm thiểu thời gian phản hồi tăng tính bảo mật q trình truyền tải liệu Cấu trúc nội dung luận án Chương “Tổng quan hệ thống gợi ý” giới thiệu tổng quan thuật toán RS cho toán dự đoán đánh giá Chương “Cải thiện thuật toán đo độ tương đồng hai sản phẩm lọc cộng tác dựa theo ghi nhớ” đề xuất số thuật toán nhằm đo độ tương đồng sản phẩm sử dụng phân tích thống kê, thông tin đặc trưng sản phẩm Chương “Hệ thống gợi ý áp dụng cách thức biểu diễn sản phẩm sử dụng kỹ thuật học sâu” giới thiệu phương pháp nén liệu Tag Genome sử dụng NLP AE Chương đề xuất kiến trúc AE có tên HCAE, tích hợp CNN vào làm phân tách đặc trưng ẩn từ liệu Tag Genome Chương “Phương pháp sinh liệu người dùng nhân tạo ứng dụng lọc cộng tác” đề xuất số phương pháp ước lượng sở thích người dùng từ liệu đặc trưng sản phẩm, ứng dụng vào CF dựa ghi nhớ toán khởi tạo cho mơ hình MF Chương TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Ma trận lịch sử tương tác hệ thống gợi ý Hai thực thể RS người dùng sản phẩm Mục tiêu toán dự đoán giá trị rˆui chưa biết Thông thường, người dùng thường đánh giá số lượng nhỏ sản phẩm gây vấn đề “khởi động nguội” 1.2 Các phương án triển khai hệ thống gợi ý cho toán dự đoán đánh giá 1.2.1 Hệ thống gợi ý dựa nội dung RS dựa nội dung dựa vào thông tin mô tả nội dung sản phẩm để đề xuất với người dùng sản phẩm có liên quan Mỗi sản phẩm mô tả hồ sơ, biểu diễn dạng vector X Tuy nhiên, việc phụ thuộc vào hồ sơ sản phẩm khiến cho hệ thống hoạt động nguồn liệu liệu tin cậy 1.2.2 Lọc cộng tác dựa ghi nhớ Mơ hình lọc cộng tác (Collaborative Filtering - CF) dựa ghi nhớ thực dự đoán sản phẩm phù hợp cho người dùng dựa độ tương đồng sản phẩm (hoặc người dùng) Có hai dạng mơ hình CF dựa theo ghi nhớ chính: (i) mơ hình hướng người dùng (ii) mơ hình hướng sản phẩm Một hệ thống CF hướng sản phẩm (item-item CF hay ii-CF) gợi ý sản phẩm tương đồng với sản phẩm mà người dùng thích (có đánh giá cao mua) Độ tương đồng sij sản phẩm i j tính theo công thức Cos PCC Từ sij , ta xác định k sản phẩm tương đồng với j mà đánh giá u Để dự đoán đánh giá rˆui , kNN sử dụng công thức sau: X sij (ruj − buj ) kN N rˆui = bui + j∈Sk (i;u) X (1.1) sij j∈Sk (i;u) Tuy nhiên, hiệu mơ hình bị hạn chế ma trận tương tác thực tế thường thưa chi phí dự đốn q lớn 1.2.3 Lọc cộng tác dựa mơ hình Ý tưởng mơ hình nhân tố ẩn tìm cách khám phá đặc trưng ẩn người dùng sản phẩm nhằm ánh xạ ma trận tương tác tập liệu chiều không gian ẩn có kích thước nhỏ Bằng cách áp dụng thuật toán SVD lên ma trận R, người dùng sản phẩm ánh xạ sang không gian nhân tố ẩn có số chiều k (k ≪ m, n) Mơ hình SVD ước lượng đánh giá phép nhân vơ hướng đơn giản có cơng thức sau: rˆui = bui + qiT pu (1.2) 1.3 Thiết lập thí nghiệm 1.3.1 Tập liệu MovieLens 20M Để đánh giá hiệu RS luận án này, tập liệu MovieLens 20M MovieLens 25M sử dụng làm sở đánh giá Bảng 1.1: Tổng quan tập liệu MovieLens 20M Số đánh giá Số người dùng Số sản phẩm Tập liệu gốc 20,000,263 138,493 27,278 Tập liệu sau tiền xử lý 19,793,342 138,185 10,239 Tag Genome liệu thứ cấp quan trọng sử dụng xuyên suốt thuật toán đề xuất luận án Do đó, tất phim khơng có liệu Tag Genome bị loại bỏ khỏi tập liệu Thêm nữa, có người dùng phim có 20 đánh giá giữ lại Bảng 1.1 tổng kết lại kết tiền xử lý liệu Sau tiền xử lý, tập liệu lại 19,793,342 đánh giá, với độ thưa thớt xấp xỉ 98.97% so với 99.47% ban đầu, đưa 138,185 người dùng cho 10,239 sản phẩm 1.3.2 Tập liệu MovieLens 25M Trong luận án này, tập liệu MovieLens phiên 20M, phiên 25M sử dụng làm sở đánh giá cho mơ hình gợi ý Các bước tiền xử lý tập MovieLens 25M tương tự bước thực tập liệu 20M Sau tiền xử lý, tập liệu lại 2,4674,113 đánh giá, với độ thưa thớt xấp xỉ 98.90% so với 99.74% ban đầu, đưa 162,540 người dùng cho 13,816 sản phẩm 1.3.3 Phương pháp đánh giá Để phục vụ đánh giá mơ hình, tập liệu sau tiền xử lý chia làm hai phần tách biệt: 80% đánh giá sản phẩm sử dụng làm tập huấn luyện, 20% lại sử dụng cho tập kiểm tra Để so sánh độ hiệu mơ hình, RMSE, Precision@k (P@k ) Recall@k (R@k ) sử dụng theo công thức sau s X RMSE = (ˆ rui − rui )2 /|TESTSET| (1.3) u,i∈TESTSET Precision = Recall = #tp #tp + #f p #tp #tp + #f n (1.4) (1.5) Cuối cùng, thời gian thực hệ thống đo tổng thời gian trình huấn luyện dự đoán tập kiểm tra 1.4 Kết luận Với tiềm to lớn ngành công nghiệp đại, RS hứa hẹn trở thành giải pháp thiếu Chương cung cấp nhìn tổng quan thuật tốn gợi ý phổ biến Ngồi ra, tập liệu MovieLens 20M 25M, phương pháp đánh giá RS luận án mô tả tương đồng sgi ,gj sử dụng PCC tính sau G X (gi,k − g i )(gj,k − g i ) genome v = v k=1 sgPiCC ,gj u G u G uX uX t (gi,k − g ) t (gj,k − g )2 i i k=1 (2.3) k=1 P CC Để áp dụng phép đo độ tương đồng mới, sgi ,gj genome thay cho sij kNNBasic kNNBaseline Mơ hình đặt tên kNNContent 2.3.2 Xây dựng ma trận tương đồng kết hợp hệ thống gợi ý dựa ghi nhớ Phần phân tích số kỹ thuật kết hợp hai ma trận tương đồng, Sr Sc , với phương pháp sau Trong đó, ⊙ ký hiệu phép nhân theo phần tử Sr Sc S add = Sr + Sc (2.4) S mul = Sr ⊙ Sc (2.5) 2.4 Kết thí nghiệm 2.4.1 Kết phương pháp giúp cải thiện phân bố thống kê ma trận tương đồng Bảng 2.1 trình bày kết mơ hình kNN sử dụng phép đo độ tương đồng đề xuất phần 2.2 Mơ hình tốt đề xuất, kNN sử dụng phép đo cubedPCC đạt RMSE thấp 0.51% cải thiện 0.75% 1.95% tác vụ xếp hạng k sản phẩm so với SVD Bảng 2.1: So sánh độ hiệu mơ hình sử dụng phép đo Mơ hình RMSE P@5 P@10 R@5 R@10 Thời gian [s] Tập liệu MovieLens 20M PCC 0.8304 SVD 0.7922 0.8005 0.7786 0.4322 0.5628 1,228 0.7894 27,387 SVD++ 0.7767 0.8030 0.7528 0.7817 0.4151 0.4339 0.5401 0.5639 cubedPCC 0.7882 0.8155 0.7904 0.4358 0.5670 11 574 580 2.4.2 Kết tích hợp nội dung sản phẩm vào hệ thống lọc cộng tác dựa theo ghi nhớ Bảng 2.2: Hiệu mơ hình CF dựa ghi nhớ kết hợp với liệu Tag Genome với k = 40 k = 10 Mơ hình RMSE Thời gian [s] Tập liệu MovieLens 20M kNNBasic (k = 40) Cosgenome 0.8562 315 PCCgenome 0.8268 327 kNNBaseline (k = 40) Cosgenome 0.8202 336 PCCgenome 0.7912 340 kNNBasic (k = 10) Cosgenome 0.8416 261 PCCgenome 0.8266 264 kNNBaseline (k = 10) Cosgenome 0.8037 283 PCCgenome 0.7905 284 Tập liệu MovieLens 25M kNNBasic (k = 40) Cosgenome 0.8532 341 PCCgenome 0.8239 347 kNNBaseline (k = 40) Cosgenome 0.8177 374 PCCgenome 0.7885 365 kNNBasic (k = 10) Cosgenome 0.8389 289 PCCgenome 0.8238 293 kNNBaseline (k = 10) Cosgenome 0.8011 316 PCCgenome 0.7878 319 Theo Bảng 2.2, kích thước tập láng giềng chọn 40, mơ hình kNN với ma trận tương đồng tính theo cơng thức PCCgenome cho RMSE cao 0.22% 0.38% so với mơ hình đối thủ sử dụng liệu lịch sử tương tác mơ hình SVD++ cubedPCCBaseline 2.4.3 Kết tích hợp ma trận tương đồng kết hợp hệ thống gợi ý dựa ghi nhớ Bảng 2.3 cho thấy mô hình hiệu nhất, kNNBaseline sử dụng phép nhân theo phần tử Sr Sc , đạt RMSE thấp 1.88% cải thiện 12 Bảng 2.3: Hiệu suất mơ hình kNN sử dụng ma trận độ tương đồng kết hợp so với mơ hình tham chiếu khác Mơ hình RMSE P@10 R@10 Thời gian [s] SVD (40 nhân tố ẩn) 0.7922 0.7786 0.5628 1,228 SVD++ (40 nhân tố ẩn) 0.7894 0.7817 0.5639 27,387 I-AutoRec 0.7808 0.7559 0.5228 69,860 kNNBaseline (k = 40) 0.8108 0.7721 0.5541 565 kNNContent (k = 20) 0.7885 0.7927 0.5693 293 Ghép kết dự đoán 0.7833 0.7979 0.5730 827 S add (k = 20) 0.7834 0.7973 0.5729 571 S mul (k = 20) 0.7773 0.8036 0.5769 575 Hybrid Sr , Sc từ 2.51% - 3.67% tác vụ xếp hạng k sản phẩm so với SVD, so với mô hình ghép kết dự đốn kNNBaseline kNNContent RMSE thấp 0.77% cải thiện từ 0.66% - 0.71% tác vụ xếp hạng k sản phẩm So với mơ hình ghép kết dự đốn nghiên cứu liên quan, ma trận độ tương đồng kết hợp linh hoạt nhiều phương pháp kết hợp, cung cấp hiệu suất tốt 2.4.4 Kết triển khai mơ hình thiết bị máy tính Jetson Nano Bảng 2.4: Hiệu suất, tài nguyên tiêu thụ thời gian thực mơ hình đề xuất triển khai máy tính Jetson Nano Mơ hình Thời gian [s] Huấn luyện Dự đốn kNN Khơng có 1551 SVD 3720 700 SVD++ 82161 693 Tài nguyên tiêu thụ CPU RAM/SWAP 80% 3.0 GB RAM Frq:1.5 GHz 1.826 GB SWAP 52% Dự đoán 1.8 GB RAM Frq:1.5 GHz Huấn luyện 2.2 GB RAM 56% Dự đoán 1.8 GB RAM Frq:1.5 GHz Huấn luyện 3.6 GB RAM Kết bảng 2.4 cho thấy: 13 Thuật toán mơ hình tối ưu để hạn chế mức tài nguyên tiêu thụ thiết bị Mơ hình kNNBaseline phảu lưu trữ khối liệu lớn nên gần sử dụng tối đa tài nguyên thiết bị phải sử dụng swap để đủ nhớ đệm lưu trữ Hai mơ hình SVD SVD++ sử dụng phần tài ngun hai mơ hình khơng cần phải lưu trữ nhiều liệu Thời gian thực cao khoảng 4-6 lần Hình 2.2: Kết thực gợi ý hệ thống sử dụng mơ hình SVD Hình 2.2 thể kết gợi ý hệ thống sử dụng mơ hình SVD, chứng minh khả triển khai RSs thiết bị biên hoàn toàn khả thi Với 10 gợi ý phim mà hệ thống đưa ra, có 6/10 phim nằm top 10 phim mà người dùng u thích Ngồi ra, hồn tồn tinh chỉnh siêu tham số trực tiếp ứng để phân tích tinh chỉnh mơ hình trực tiếp thiết bị biên 2.5 Kết luận Trong chương này, tác giả đề xuất cơng thức tính tốn độ tương đồng giúp cải thiện đáng kể khả dự đốn mơ hình kNNBaseline Tiếp theo đó, phương pháp tính tốn độ tương đồng hai sản phẩm đề xuất sử dụng liệu mô tả nội dung sản phẩm dạng vector điểm số genome Cuối cùng, tác giả phát triển ma trận tương đồng kết hợp hai nguồn thông tin lịch sử đánh giá nội dung sản phẩm Những kết trình bày nghiên cứu [C1], [C2] [C3] 14 Chương HỆ THỐNG GỢI Ý ÁP DỤNG CÁCH THỨC BIỂU DIỄN SẢN PHẨM SỬ DỤNG CÁC KỸ THUẬT HỌC SÂU 3.1 Phương pháp nhóm thẻ tương đồng liệu Tag Genome kỹ thuật xử lý ngôn ngữ tự nhiên Trong liệu Tag Genome tồn nhiều thẻ mơ tả có ý nghĩa lại mang nhiều tên gọi khác Các thẻ lại có giá trị có phân phối khoảng giá trị lớn Bảng 3.1: Một số nhóm thẻ tương đồng lại với Thẻ mô tả gốc Thẻ mô tả soccer football_new football good acting good_acting_new good action Nhằm loại bỏ yếu tố này, thẻ mơ tả có ý nghĩa tương đồng nhóm lại thành thẻ Sau phân cụm, kích thước vector genome giảm từ 1,128 xuống 1,044 3.2 Phương pháp học cách biểu diễn qua Bộ tự mã hóa AE kiến trúc phổ biến giúp khám phá đặc trưng ẩn liệu thô Vector genome phần 3.1 áp dụng vào mạng AE sau: Bước 1: Mạng AE lớp ẩn với đầu vào đầu có 1,044 nơ-ron Bước 2: Sử dụng dạng genome tương ứng để huấn luyện mạng AE Bước 3: Lớp ẩn mạng AE tách để sử dụng dạng biểu diễn ẩn sản phẩm 15 Dạng biểu diễn học AE có kích thước nhỏ hơn, chứa thông tin mối quan hệ ẩn thẻ genome ban đầu 3.3 Học cách biểu diễn cho phim với Bộ tự mã hóa bán chập 3.3.1 Cơ sở áp dụng CNN cho liệu bảng Nghiên cứu liệu Tag Genome cho thấy triển vọng cho việc áp dụng CNN lên mạng AE: Mỗi vector Tag Genome coi tín hiệu rời rạc miền thời gian, phim lúc mô tả tín hiệu Nếu thứ tự cột hốn đổi, hình dạng vật lý tín hiệu thay đổi quán mang đầy đủ thông tin phim 3.3.2 Thiết kế Bộ tự mã hóa bán chập Trong phần này, mạng HCAE đề xuất để khai thác khả 1D-CNN việc phân tích liệu Tag Genome (Hình 3.1) Hình 3.1: Kiến trúc mạng HCAE 16 3.4 Kết thí nghiệm 3.4.1 Kết mơ hình sử dụng nhóm thẻ tương đồng NLP Từ Bảng 3.2, việc nhóm thẻ tương đồng giúp kNNBaselinegenome giảm RMSE 0.38% thực dự đoán nhanh 16.47% Bảng 3.2: Hiệu sử dụng 1,044 thẻ genome phân cụm Mơ hình RMSE Thời gian [s] 1,128 thẻ genome gốc Cosoriginal genome 0.8037 336 (k=10) PCCoriginal genome original FMgenome 0.7905 284 0.7918 42,788 kNNBaseline 1,044 thẻ genome phân cụm kNNBaseline Cosnew genome 0.7981 287 (k=10) PCCnew genome 0.7875 289 0.7898 40,106 FMnew genome 3.4.2 Kết mơ hình sử dụng cách biểu diễn cho sản phẩm qua Bộ tự mã hóa Hình 3.2: Biểu đồ tỉ lệ lỗi theo kích thước lớp ẩn Mơ hình tham chiếu (khơng sử dụng AE) mô tả qua đường kẻ ngang 17 Kết thí nghiệm với kích thước tầng ẩn khác trình bày Hình 3.2 với mơ hình tối ưu đánh dấu So với mơ hình tham chiếu, việc mã hóa 1,044 thẻ genome vector 600 đặc trưng ẩn khơng giảm thời gian thực dự đốn mà cịn giúp cải thiện độ xác gợi ý Mơ hình kNNBaseline với k = 10 sử dụng PCCgenome vector đặc trưng 600 phần tử nén từ 1,044 điểm số genome qua mạng AE lớp ẩn đặt tên kNN-ContentAE 3.4.3 Kết áp dụng biểu diễn cho phim với Bộ tự mã hóa bán chập Trong q trình huấn luyện, việc hốn đổi vị trí thẻ genome cho tỉ lệ lỗi dao động 0.06%, xác minh HCAE phân tích đặc tính ẩn mà khơng bị phụ thuộc vào vị trí đặc trưng đầu vào Bảng 3.3 trình bày kết mơ hình sử dụng HCAE so với mơ hình tham chiếu Bảng 3.3: Kết so sánh mô hình đề xuất sử dụng HCAE Mơ hình RMSE P@10 R@10 Thời gian [s] Tập liệu MovieLens 20M kNNBaseline 0.8108 0.7721 0.5541 565 SVD 0.7922 0.8005 0.4322 1,228 SVD++ 0.7894 0.8030 0.4339 27,387 I-RBM 0.7951 0.7635 0.3917 96,455 I-AutoRec 0.7808 0.7559 0.5228 69,860 kNN-ContentAE 0.7692 0.8056 0.5777 295 0.7608 0.8139 0.5835 297 kNN-Content HCAE Tập liệu MovieLens 25M kNNBaseline 0.8086 0.7739 0.5557 604 SVD 0.7897 0.8022 0.5639 1,283 SVD++ 0.7851 0.8048 0.5651 31,459 I-RBM 0.7931 0.7651 0.5150 104,275 0.7795 0.7569 0.5236 72,498 0.7671 0.8075 0.5793 330 0.7671 0.8201 0.5875 335 I-AutoRec kNN-Content AE kNN-ContentHCAE 18 3.4.4 Kết triển khai mơ hình thiết bị máy tính Jetson Nano Hình 3.3: Kết thực đề xuất hệ thống với mơ hình kNN-ContentHCAE Các mạng HCAE AE triển khai thiết bị Jetson Nano trình bày bảng 3.4: Bảng 3.4: Hiệu suất, tài nguyên tiêu thụ thời gian thực mơ hình đề xuất triển khai máy tính Jetson Nano Mơ hình Thời gian [s] Huấn luyện Dự đốn AE 700 Khơng có HCAE 1548 Khơng có Tài ngun tiêu thụ CPU RAM/SWAP 88% 1.8 GB RAM Frq:1.5 GHz 90% Frq:1.5 GHz GB RAM 3.5 Kết luận Trong chương này, kỹ thuật NLP giới thiệu để loại bỏ dư thừa thẻ genome Sau đó, mạng AE lớp ẩn áp dụng để nén thẻ làm thành vector 600 phần tử Đặc biệt hơn, kiến trúc tự mã hóa có tên gọi HCAE đề xuất nhằm khai phá thông tin quan trọng từ liệu Tag Genome gốc cho phim Những kết công bố nghiên cứu [J1] [J2] 19 Chương PHƯƠNG PHÁP SINH DỮ LIỆU NGƯỜI DÙNG NHÂN TẠO ỨNG DỤNG TRONG LỌC CỘNG TÁC 4.1 Biểu diễn người dùng qua nội dung sản phẩm thông tin đánh giá khởi tạo cho mơ hình MF Kỹ thuật đơn giản để tạo hồ sơ cho người dùng sử dụng cơng thức trung bình có trọng số vector đặc trưng sản phẩm qi sau X norm rui · qi pnorm = u i∈R(u) |R(u)| (4.1) Nhằm tích hợp hiệu ứng độ chệch thơng tin đánh giá, phương trình (4.1) điều chỉnh lại có dạng sau X zui · qi pbiased = u i∈R(u) X |zui | (4.2) i∈R(u) Cuối cùng, nhằm giảm mức độ ảnh hưởng đặc trưng có số thấp, pw−biased sử dụng điểm số đặc trưng làm trọng số để đặc u trưng có điểm số thấp tự loại trừ X zui · qi2 i∈R(u) puw−biased = X i∈R(u) 20 |zui | · qi (4.3) 4.2 Tích hợp độ tương quan người dùng - sản phẩm vào ước lượng sở Từ pu , độ tương đồng người dùng sản phẩm tính theo Cos PCC Phân tích cho thấy sui có mối quan hệ tuyến tính với đánh giá phần dư Một phiên ước lượng sở tích hợp sui đề xuất sau bui = µ + bu + bi + ω × sui (4.4) 4.3 Áp dụng nội dung sản phẩm vào tốn khởi tạo cho mơ hình phân rã ma trận Một phương pháp khởi tạo cho kỹ thuật MF đề xuất: thay học đặc trưng người dùng sản phẩm sử dụng vector có giá trị ngẫu nhiên, vector đặc trưng ẩn người dùng lẫn sản phẩm khởi tạo sử dụng vector Pu Qi 4.4 Kết thí nghiệm 4.4.1 Kết tích hợp sui vào ước lượng sở Bảng 4.1: Hiệu mơ hình CF dựa ghi có tích hợp độ tương quan người dùng - sản phẩm so với mơ hình CF phổ biến khác Mơ hình RMSE P@5 P@10 R@5 R@10 Tập liệu MovieLens 20M kNNBaseline (k = 40) 0.8108 0.7967 0.7721 0.4261 0.5541 kNNContent (k = 20) 0.7885 0.8189 0.7927 0.4374 0.5693 SVD (40 factors) 0.7922 0.8005 0.7786 0.4322 0.5628 I-AutoRec 0.7808 0.7778 0.7559 0.3972 0.5228 0.7853 0.8212 0.7960 0.4391 0.5710 kNNBaseline tích hợp sui (k = 40) kNNContent tích hợp sui (k = 25) 0.7719 0.8359 0.8091 0.4466 0.5811 Bảng 4.1 trình bày kết tích hợp sui sử dụng pw-biased Kết cho u thấy kNNContent với sui đạt RMSE thấp 1.14% cải thiện từ 21 2.06% - 14.02% tác vụ xếp hạng k sản phẩm 4.4.2 Kết áp dụng nội dung sản phẩm vào tốn khởi tạo cho mơ hình MF Bảng 4.2: So sánh độ xác hai mơ hình SVD-genome NMF-genome sử dụng vector điểm số genome 600 phần tử sinh HCAE mơ hình tham chiếu Mơ hình RMSE P@5 P@10 R@5 R@10 Tập liệu MovieLens 20M kNNBaseline 0.8108 0.7967 0.7721 0.4261 0.5541 NMF 0.7981 0.7951 0.7743 0.4296 0.5583 SVD 0.7922 0.8005 0.7786 0.4322 0.5628 NMF-genome 0.7688 0.8174 0.7941 0.4389 0.5689 SVD-genome 0.7472 0.8304 0.8081 0.4429 0.5724 Tập liệu MovieLens 25M kNNBaseline 0.8086 0.7987 0.7739 0.4270 0.5557 NMF 0.7958 0.7970 0.7760 0.4303 0.5591 SVD 0.7897 0.8022 0.7802 0.4331 0.5639 NMF-genome 0.7663 0.8199 0.7962 0.4400 0.5708 SVD-genome 0.7443 0.8332 0.8115 0.4442 0.5748 Kết thực nghiệm Bảng 4.2 cho thấy mơ hình trội đáng kể so với mơ hình tham chiếu hai số độ xác Cụ thể, mơ hình với tỉ lệ lỗi thấp nhất, SVD-genome, đạt cải thiện từ 0.59% đến 7.13% so với mơ hình khác tốn dự đốn đánh giá xếp hạng sản phẩm 4.4.3 Kết triển khai mơ hình thiết bị máy tính Jetson Nano Từ bảng 4.3, thấy hiệu suất tương đương với kết trình bày chương trước Phần cứng tiêu thụ gần tối đa thời gian thường chậm lần Các mơ hình tối ưu thuật tốn tối để triển khai thiết bị bị hạn chế phần cứng Jetson Nano 22 Bảng 4.3: Hiệu suất, tài nguyên tiêu thụ thời gian thực mơ hình đề xuất triển khai máy tính Jetson Nano Thời gian [s] Tài ngun tiêu thụ Mơ hình Huấn luyện Dự đoán CPU RAM/SWAP 80% 3.95 GB RAM kNNBaseline Khơng có 1551 Frq:1.5 Ghz 1.9 GB SWAP SVD-genome 90% 700 5320 2GB RAM Frq:1.5 Ghz Hình 4.1: Kết thực đề xuất hệ thống với mơ hình SVD-genome 4.5 Kết luận Trong chương này, tác giả đề xuất số phương pháp mơ hình hóa sở thích người dùng Dựa vào đó, chương đề xuất điều chỉnh cơng thức tính ước lượng sở mơ hình kNNBaseline cách tích hợp độ tương đồng người dùng - sản phẩm Tiếp đó, dạng biểu diễn người dùng sản phẩm sử dụng làm vector khởi tạo trình huấn luyện mơ hình MF truyền thống Những kết công bố nghiên cứu [J2] [C4] 23 Kết luận Những kết đạt Cải thiện độ xác phép đo độ tương đồng sản phẩm sử dụng phương pháp thống kê liệu đặc trưng sản phẩm Thiết kế quy trình làm trích xuất đặc trưng ẩn từ thông tin sản phẩm sử dụng NLP, kiến trúc AE CNN Xây dựng liệu mô tả người dùng từ liệu mô tả đặc trưng sản phẩm lịch sử tương tác, cải thiện độ xác mơ hình CF kết hợp Triển khai thành cơng mơ hình đề xuất thiết bị có phần cứng hạn chế, giảm thiểu thời gian phản hồi tăng tính bảo mật trình truyền tải liệu Hướng nghiên cứu Nghiên cứu cải thiện phương pháp sinh liệu nhân tạo cho người dùng, ứng dụng học sâu Áp dụng kiến trúc mạng tiên tiến kiến trúc CNN sâu, mạng tự mã hố dựa Transformer để cải thiện quy trình trích xuất đặc trưng ẩn Nghiên cứu cải thiện phương pháp sinh liệu nhân tạo cho người dùng, ứng dụng học sâu Áp dụng kiến trúc mạng tiên tiến kiến trúc CNN sâu, mạng tự mã hoá dựa Transformer để cải thiện quy trình trích xuất đặc trưng ẩn 24 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ CỦA LUẬN ÁN [C1] Tan Nghia Duong, Viet Duc Than, Trong Hiep Tran, Quang Hieu Dang, Duc Minh Nguyen, and Hung Manh Pham, (2018), “An Effective Similarity Measure for Neighborhood-based Collaborative Filtering”, 2018 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 250254 IEEE, 2018 [C2] Tan Nghia Duong, Viet Duc Than, Tuan Anh Vuong, Trong Hiep Tran, Quang Hieu Dang, Duc Minh Nguyen, and Hung Manh Pham, (2019), “A Novel Hybrid Recommendation System Integrating Content-based and Rating Information”, International Conference on Network-Based Information Systems, pp 325-337 Springer, Cham, 2019 [J1] Tan Nghia Duong, Tuan Anh Vuong, Duc Minh Nguyen, and Quang Hieu Dang, (2020), “Utilizing an Autoencoder-Generated Item Representation in Hybrid Recommendation System”, IEEE Access (2020): 75094-75104 [C3] Tan Nghia Duong, Truong Giang Do, Nguyen Nam Doan, Tuan Nghia Cao, and Tien Dat Mai, (2021), “Hybrid Similarity Matrix in Neighborhoodbased Recommendation System”, 8th NAFOSTED Conference on Information and Computer Science (NICS), pp 475-480, IEEE, 2021 [J2] Tan Nghia Duong, Nguyen Nam Doan, Truong Giang Do, Manh Hoang Tran, Duc Minh Nguyen, and Quang Hieu Dang, (2022), “Utilizing Half Convolutional Autoencoder to Generate User and Item Vectors for Initialization in Matrix Factorization” Future Internet 14, no (2022): 20 [C4] Tan Nghia Duong, Truong Giang Do, Tuan Nghia Cao, and Manh Hoang Tran, (2022), “User-Item Correlation in Hybrid Neighborhood-Based Recommendation System with Synthetic User Data”, 2022 IEEE Ninth International Conference on Communications and Electronics (ICCE), pp 176-181, IEEE, 2022