ĐỒ ÁN IIIĐề tài:Ứng dụng hệ thống gợi ý trong lĩnh vực thương mạiđiện tử

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ - VIỄN THÔNG ĐỒ ÁN III Đề tài: Ứng dụng hệ thống gợi ý lĩnh vực thương mại điện tử Sinh viên thực hiện: CHU ĐỨC HIẾU Giảng viên hướng dẫn: ThS NGUYỄN THỊ KIM THOA Hà Nội, 1-2020 ĐIỆN TỬ 06 – K60 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ - VIỄN THÔNG ĐỒ ÁN III Đề tài: Ứng dụng hệ thống gợi ý lĩnh vực thương mại điện tử Sinh viên thực hiện: CHU ĐỨC HIẾU Giảng viên hướng dẫn: ThS NGUYỄN THỊ KIM THOA Hà Nội, 1-2020 ĐIỆN TỬ 06 – K60 LỜI NÓI ĐẦU Trong năm gần đây, phát triển thương mại điện tử (E-Commerce) đem lại nhiều lợi ích to lớn cho kinh tế tồn cầu Thơng qua thương mại điện tử, nhiều loại hình kinh doanh hình thành, có mua bán hàng mạng Với hình thức người tiêu dùng tiếp cận với hàng hóa cách dễ dàng nhanh chóng nhiều so với hình thức mua bán hàng truyền thống Hiện hệ thống bán hàng trực tuyến tạo nhiều điều kiện thuận lợi để người mua tiếp cận nhiều mặt hàng lúc Tuy nhiên, website thương mại ln ln mong muốn phát triển số lượng khách hàng, muốn có nhiều khách hàng họ phải đa dạng hóa loại sản phẩm để đáp ứng nhu cầu mua sắm nhiều loại khách hàng, số lượng sản phẩm loại sản phẩm trưng bày website ngày tăng làm hạn chế khả giao tiếp chọn sản phẩm khách hàng, họ phải duyệt qua nhiều liên kết, sàng lọc nhiều thơng tin tìm sản phẩm mong muốn Vậy hỗ trợ khách hàng công việc lựa chọn sản phẩm mua sắm? Cụ thể, sản phẩm nên đề xuất sản phẩm khách hàng đánh giá chọn giỏ hàng? Nên đề xuất sản phẩm tốt cho khách hàng? Để khách hàng tìm mua sản phẩm ưng ý lời khuyên, trợ giúp quan trọng Một người bán phương thức mua bán truyền thống lợi lớn Do để hình thức mua bán qua mạng thực phát triển bên cạnh lợi vốn có việc có thêm “người trợ giúp” cần thiết Hệ tư vấn hình thành phát triển khơng nằm ngồi mục đích đáp ứng yêu cầu Một hệ thống tư vấn tốt đóng vai trị người trung gian hỗ trợ khách hàng đưa định chọn hàng Tiện ích đóng vai trị người bán hàng có khả thu thập thơng tin sở thích khách hàng, sau tìm kho hàng vơ tận mặt hàng thích hợp với sở thích Thực chất hệ thống tư vấn trình hỗ trợ khách hàng đưa định MỤC LỤC LỜI NÓI ĐẦU MỤC LỤC .4 DANH SÁCH HÌNH VẼ DANH SÁCH CÁC BẢNG BIỂU PHẦN MỞ ĐẦU .7 CHƯƠNG TỔNG QUAN VỀ HỆ GỢI Ý (RECOMMENDER SYSTEMS) .9 1.1 Giới thiệu 1.2 Hệ thống gợi ý (Recommender Systems - RS) 10 1.2.1 Các khái niệm 10 1.2.2 Thông tin phản hồi từ người dùng hai dạng tốn RS .11 1.3 Các kỹ thuật RS 12 1.3.1 Lọc cộng tác .12 1.3.2 Lọc dựa nội dung 14 1.3.3 Hệ thống gợi ý lai (Hybrid recommender systems) 15 1.3.4 Các kỹ thuật khơng cá nhân hóa 17 1.4 Deep learning hệ thống khuyến nghị: 18 1.5 Hệ thống gợi ý tin tức: 18 CHƯƠNG ÁP DỤNG THUẬT TOÁN GỢI Ý VỚI MỘT SỐ BỘ DỮ LIỆU THỰC TẾ 20 2.1 Xây dựng thuật toán gợi ý phim: 20 2.1.1 Bộ liệu Movielens: 20 2.1.2 Phân tích thống kê bản: 21 2.1.3 Kỹ thuật gợi ý lai ghép (Hybrid Recommender systems): 21 2.1.4 Thử nghiệm kỹ thuật lai ghép với liệu Movielens: 23 2.2 Hệ thống gợi ý tin tức dựa phiên sử dụng mạng nơ-ron sâu (News Session-Based Recommendations using Deep Neural Networks): 27 2.2.1 Giải pháp: 28 2.2.2 Article Content Representation (ACR) .29 2.2.3 Next-Article Recommendation (NAR) .30 2.2.4 Thử nghiệm đánh giá: 31 KẾT LUẬN 36 TÀI LIỆU THAM KHẢO 37 DANH SÁCH HÌNH VẼ Hình 1.1 Hệ thống gợi ý sản phẩm Amazon .10 Hình 1.2 Ma trận biểu diễn liệu RS (user-item-rating matrix) 11 Hình 1.3 Gợi ý sản phẩm thường mua 18 Hình 2.1: Phân bố điểm xếp hạng người dùng 21 Hình 2.2: Phân bố số lượng xếp hạng người dùng phim 21 Hình 2.3: Dữ liệu phim gốc 23 Hình 2.4: Dữ liệu sau tiền xử lý chuẩn hóa 24 Hình 2.5: Tính chất ẩn phim dạng ma trận 24 Hình 2.6: Bộ liệu huấn luyện 25 Hình 2.7: Kết sử dụng kỹ thuật Hybrid filtering 26 Hình 2.8: Kết sử dụng kỹ thuật Matrix factorization 26 Hình 2.9: Kết sử dụng Content-based filtering 26 Hình 2.10: Kiến trúc Chameleon (1) 28 Hình 2.11: Kiến trúc Chameleon (2) .29 Hình 2.12: HR@5 trung bình: 0.72 33 Hình 2.13: MRR@5 trung bình: 0.51 .34 Hình 2.14: HR@5 trung bình: 0.58 34 Hình 2.15: MRR@5 trung bình: 0.35 .35 DANH SÁCH CÁC BẢNG BIỂU Bảng 2.1: Bảng so sánh kết đánh giá mô hình 26 PHẦN MỞ ĐẦU Đặt vấn đề Ngày nay, mua sắm nhu cầu thiết yếu người, mua sắm, chắn sản phẩm thích bạn bè thích Với lượng thông tin ngày tăng internet số lượng người dùng tăng lên đáng kể, điều quan trọng cơng ty tìm kiếm, liên kết cung cấp cho khách hàng thông tin liên quan theo sở thích thị hiếu họ Người dùng hệ thống thông tin, đặc biệt website thương mại điện tử thường gặp vấn đề tìm kiếm sản phẩm phù hợp với nhu cầu họ lượng sản phẩm lớn, thời gian có hạn Và lý thời đại kỹ thuật số ngày nay, cửa hàng trực tuyến ghé thăm sử dụng số loại hệ thống gợi ý Hướng triển khai đề tài Đầu tiên, tác giả tìm hiểu khái niệm chung hệ thống gợi ý, sau tập trung vào khảo sát nhóm thuật tốn phổ biến hệ thống gợi ý Cuối cùng, tác giả thực viết mã số phương pháp gợi ý thử nghiệm liệu thực tế, qua hiểu rõ ưu điểm nhược điểm phương pháp áp dụng Tổng quan đồ án Mục tiêu đồ án khảo sát lý thuyết chung hệ thống gợi ý, sau xây dựng mã nguồn thuật tốn dựa lý thuyết sử dụng mã nguồn đánh giá kết liệu thực tế Đồ án có phần sử dụng mã nguồn báo khoa học để thử nghiệm lại nhằm mục đích có nhìn sâu sắc ứng dụng hệ thống gợi ý Có cách tiếp cận sau để xây dựng hệ thống gợi ý: nhóm giải thuật lọc theo nội dung (content-based filtering), nhóm giải thuật lọc cộng tác (collaborative filtering), nhóm giải thuật lai ghép (hybrid filtering) nhóm giải thuật khơng cá nhân hóa (non-personalization) Các phương pháp giới thiệu chi tiết chương Đầu mơ hình gợi ý nội dung dự đoán người dùng yêu thích Mức độ hiệu mơ hình đánh giá áp dụng lên hai liệu thực tế Movielens Globo.com, dựa phương pháp theo lý thuyết (RMSE, MAE, ) thực tế (Hit Rate, MRR, ) Cấu trúc đồ án Đồ án gồm có chương, theo hướng từ nghiên cứu lý thuyết đến áp dụng thực tế:  CHƯƠNG TỔNG QUAN VỀ HỆ GỢI Ý (RECOMMENDER SYSTEMS)  ÁP DỤNG THUẬT TOÁN GỢI Ý VỚI MỘT SỐ BỘ DỮ LIỆU THỰC TẾ CHƯƠNG TỔNG QUAN VỀ HỆ GỢI Ý (RECOMMENDER SYSTEMS) 1.1 Giới thiệu Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thơng tin (information filtering), sử dụng để dự đốn sở thích (preferences) hay xếp hạng (rating) mà người dùng dành cho mục thơng tin (item) mà họ chưa xem xét tới khứ (item hát, phim, đoạn video clip, sách, báo, ) Ví dụ, hệ thống bán hàng trực tuyến (chẳng hạn Amazon), nhằm tối ưu hóa khả mua sắm khách hàng (user), người ta quan tâm đến việc khách hàng ‘yêu thích’ sản phẩm (item) cách dựa vào liệu khứ họ (dữ liệu xếp hạng mà người dùng bình chọn sản phẩm, thời gian duyệt (browse) sản phẩm, số lần click chuột sản phẩm, ) từ hệ thống dự đốn người dùng thích sản phẩm đưa gợi ý phù hợp cho họ Hình ví dụ minh họa cho hệ thống gợi ý bán hàng Amazon Ngoài lĩnh vực thương mại điện tử thấy ví dụ trên, RS ứng dụng thành công nhiều lĩnh vực khác giải trí: gợi ý hát cho người nghe (ví dụ, hệ thống LastFM - www.last.fm), gợi ý phim ảnh (ví dụ, hệ thống Netflix - www.netflix.com), gợi ý video clip (ví dụ, hệ thống YouTube - www.youtube.com); giáo dục đào tạo (gợi ý nguồn tài nguyên học tập sách, báo, địa web,… cho người học) Hình 1.1 Hệ thống gợi ý sản phẩm Amazon Hệ thống gợi ý không đơn dạng Hệ thống thơng tin mà cịn lĩnh vực nghiên cứu nhà khoa học quan tâm Kể từ năm 2007 đến nay, hàng năm có hội thảo chuyên hệ thống gợi ý ACM (ACM RecSys) tiểu bang dành riêng cho RS hội nghị lớn khác ACM KDD, ACM CIKM, 1.2 Hệ thống gợi ý (Recommender Systems - RS) 1.2.1 Các khái niệm Trong RS, thơng thường người ta quan tâm đến ba thơng tin người dùng (user), mục tin (item, item sản phẩm, phim, hát, báo, tùy hệ thống), phản hồi (feedback) người dùng mục tin (thư ờng xếp hạng/đánh giá – rating biểu diễn mức độ thích/quan tâm họ) Các thơng tin biểu diễn thông qua ma trận Hình Ở đó, dịng user, cột item, ô giá trị phản hồi (ví dụ, xếp hạng) biểu diễn “mức độ thích” user item tương ứng Các có giá trị item mà user xếp hạng khứ Những ô trống item chưa xếp hạng (điều đáng lưu ý user xếp hạng cho vài item q khứ, có nhiều trống ma trận – gọi ma trận thưa – sparse matrix) 10 - Dựa vào ý tưởng trên, ta sử dụng thuật tốn lọc cộng tác Matrix Factorization để học tính chất ẩn (latent features) phim, sau kết hợp đặc trưng với tính chất sẵn có thể loại năm phát hành thành liệu training Thuật toán lọc nội dung (Content based filtering) thực liệu Việc đánh giá mơ hình thuật tốn thực tập liệu validation test bình thường  Xây dựng item profile: Dữ liệu phim ban đầu có dạng sau: Hình 2.3: Dữ liệu phim gốc Ta cần làm việc: trích xuất thơng tin năm phát hành từ trường ‘title’ biến đổi liệu trường ‘genres’ (thể loại) thành dạng số 25 Hình 2.4: Dữ liệu sau tiền xử lý chuẩn hóa Trường ‘year’ liệu năm phát hành phim, chuẩn hóa để giá trị nằm khoảng [0, 1] Các trường ‘Action’, ‘Adventure’, ‘Mystery’, biểu thị thể loại phim Các trường có giá trị phim thuộc thể loại tương ứng có giá trị trường hợp ngược lại Các tính chất ẩn phim (mà ta chưa biết rõ gì) suy từ mơ hình Matrix Factorization có dạng sau (tổng cộng 10 tính chất): Hình 2.5: Tính chất ẩn phim dạng ma trận Các giá trị ma trận hình có giá trị phần lớn thuộc khoảng [-1, 1], điều lý giải cho cần thiết việc chuẩn hóa liệu ‘year’ làm phần trước Kết hợp phần liệu xử lý, ta có liệu huấn luyện hồn chỉnh: 26 Hình 2.6: Bộ liệu huấn luyện Bộ liệu có 10603 dịng tương ứng 10603 phim khác nhau, với 33 cột tương đương 33 tính chất phim Cột ‘movieid’ ‘title’ loại bỏ sử dụng để huấn luyện mơ hình lọc dựa nội dung phần sau  Huấn luyện đánh giá mơ hình: Thuật tốn Content-based filtering: từ thông tin mô tả item, biểu diễn item dạng vec-tơ thuộc tính Sau dùng vec-tơ để học mơ hình user, ma trận trọng số user với item Như vậy, thuật toán content-based gồm bước:  Bước 1: Biểu diễn items dạng vec-tơ thuộc tính – item profile  Bước 2: Học mơ hình user Bước thực phần trước Với bước 2, thuật toán Ridge Regression sử dụng để học mơ hình cho user Tập liệu xếp hạng chia thành phần: training set, validation set test set theo tỉ lệ 6:2:2 Thuật toán Content-based filtering xây dựng mơ hình áp dụng tập liệu training với 6,000,000 xếp hạng, sau mơ hình đánh giá tập validation test, tập có 2,000,000 xếp hạng Q trình huấn luyện đánh giá mơ hình thực Google Colab Kết sau: 27 Hình 2.7: Kết sử dụng kỹ thuật Hybrid filtering Hình 2.8: Kết sử dụng kỹ thuật Matrix factorization Hình 2.9: Kết sử dụng Content-based filtering  Bảng so sánh kết đánh giá mơ hình tập test: Bảng 2.1: Bảng so sánh kết đánh giá mơ hình Root Mean Square Mean Absolute Percentage Error Content-based filtering 0.988 Collaborative filtering 0.842 Error 31.92% 27.59% (Matrix factorization) Hybrid filtering 25.87% 0.822 28  Nhận xét: - Thuật toán Matrix factorization Hybrid filtering cho kết tốt nhiều so với thuật toán Content-based filtering - Kết tập test dùng thuật toán Hybrid filtering tốt chút so với Matrix factorization - Mặt khác, thuật toán Hybrid filtering lại cho kết tốt nhiều so với Matrix factorization đánh giá tập train Do đó, kiểu hệ thống gợi ý kết hợp bị overfitting nhiều => Cần tìm hiểu thêm cách kết hợp khác để cải thiện kết 2.2 Hệ thống gợi ý tin tức dựa phiên sử dụng mạng nơ-ron sâu (News SessionBased Recommendations using Deep Neural Networks): Các hệ thống giới thiệu tin tức có nhiệm vụ cá nhân hóa trải nghiệm người dùng giúp họ khám phá viết có liên quan từ khơng gian tìm kiếm rộng lớn ln biến động Do đó, gợi ý tin tức lĩnh vực đầy thách thức hệ thống khuyến nghị, hồ sơ người dùng thưa thớt, số lượng tin tức tăng nhanh thay đổi sở thích nhanh chóng người dùng Một số kết đầy hứa hẹn đạt gần cách sử dụng kỹ thuật Deep Learning hệ thống gợi ý, đặc biệt cho việc trích xuất đặc trưng viết đưa đề xuất dựa phiên (session-based) với mạng nơ-ron hồi quy (Recurrent Neural Networks) Bài báo “News Session-Based Recommendations using Deep Neural Networks” [1] đề xuất mơ hình CHAMELEON - kiến trúc học tập sâu cho hệ thống giới thiệu tin tức Kiến trúc bao gồm hai mô-đun: mô-đun chịu trách nhiệm học biểu diễn dạng số viết, dựa nội dung văn siêu liệu chúng (tác giả, thể loại, ) mô-đun thứ hai nhằm cung cấp đề xuất dựa phiên sử dụng Mạng nơ-ron hồi quy Nhiệm vụ mơ hình dự đốn mục cho phiên truy cập người dùng: "bài viết mà người dùng có khả đọc phiên gì?" Các thơng tin ngữ cảnh phiên truy cập người dùng mơ hình tận dụng để cung cấp thông tin bổ sung để giải vấn đề cold-start khuyến nghị tin tức, mà chưa có nhiều liệu lịch sử truy cập người dùng Cả 29 đặc trưng viết hành vi người dùng hợp để thực mơ hình khuyến nghị theo cách tiếp cận đề xuất kết hợp (Hybrid recommendation systems) Các thử nghiệm với nhiều phương pháp đề xuất dựa phiên thực việc sử dụng kiến trúc CHAMELEON mang đến cải thiện đáng kể độ xác tham số đánh giá khác (10% tham số Hit Rate 13% tham số MRR) so với phương pháp dùng để so sánh 2.2.1 Giải pháp: Bài báo đề xuất CHAMELEON – kiến trúc meta học tập sâu cho hệ thống giới thiệu tin tức Kiến trúc meta kiến trúc tham chiếu tập hợp định liên quan đến chiến lược kiến trúc chung Nó khởi tạo kiến trúc khác với đặc điểm tương tự để hoàn thành nhiệm vụ chung, trường hợp hệ khuyến nghị tin tức Hình 2.10: Kiến trúc Chameleon (1) 30 Hình 2.11: Kiến trúc Chameleon (2) Như mơ tả Hình 1, CHAMELEON bao gồm hai mơ-đun, với vịng đời độc lập để đào tạo (training) suy luận (learning): Mô-đun Article Content Representation (ACR) mô-đun Next Article Recommendation (NAR) 2.2.2 Article Content Representation (ACR) Mơ-đun ACR chịu trách nhiệm trích xuất đặc trưng từ văn viết siêu liệu, sau tìm biểu diễn phân tán (embeddings) cho bối cảnh viết tin tức Các đầu vào cho mơ-đun ACR (1) thuộc tính siêu liệu viết (ví dụ: nhà xuất bản) (2) nội dung văn viết, biểu diễn dạng chuỗi từ nhúng (word embeddings) Một phương pháp phổ biến Xử lý ngôn ngữ tự nhiên (NLP) training trước từ nhúng cách sử dụng phương thức Word2Vec GloVe kho văn lớn (ví dụ: Wikipedia) Trong phần khởi tạo mô-đun phụ Textual Features Representation (TFR) từ mô đun ACR, CNN 1D sử dụng để trích xuất đặc trưng từ nội dung văn Các đặc trưng văn đầu vào siêu liệu kết hợp cách sử dụng chuỗi lớp nơ-ron kết nối đầy đủ (Fully connected) để tạo biểu diễn cho nội dung viết 31 Các biểu diễn cho nội dung viết sau huấn luyện lưu trữ kho lưu trữ, để sau sử dụng mô-đun NAR 2.2.3 Next-Article Recommendation (NAR) Mô-đun NAR chịu trách nhiệm cung cấp đề xuất tin tức cho phiên hoạt động Do mức độ thưa thớt người dùng thay đổi sở thích liên tục họ, mơ hình sử dụng thông tin theo ngữ cảnh dựa phiên hoạt đọng, bỏ qua phiên hoạt động khứ người dùng Các đầu vào cho mô-đun NAR là: (1) Biểu diễn nội dung viết huấn luyện trước viết vừa xem người dùng; (2) thuộc tính theo ngữ cảnh viết (mức độ phổ biến lần truy cập gần đây); (3) bối cảnh người dùng (ví dụ: thời gian, địa điểm thiết bị truy cập) Các đầu vào kết hợp lớp nơ-ron kết nối đầy đủ để tạo biểu diễn viết theo ngữ cảnh cá nhân hóa người dùng (UserPersonalized Contextual Article Embedding) Có thể có cách biểu diễn khác cho viết, tùy thuộc vào bối cảnh người dùng bối cảnh viết (mức độ phổ biến lần truy cập gần đây) Mô-đun NAR sử dụng loại mơ hình RNN – Long-Short Term Memory (LSTM) - để mơ hình hóa chuỗi viết mà người dùng đọc phiên họ, thể biểu diễn viết theo ngữ cảnh cá nhân hóa họ Đối với viết chuỗi, RNN đưa biểu diễn viết theo ngữ cảnh – biểu diễn nội dung tin tức mà dự đoán đọc người dùng phiên hoạt động Trong hầu hết kiến trúc học tập sâu đề xuất cho hệ gợi ý, mạng nơron có đầu vectơ có số chiều số lượng vật phẩm (item) có sẵn Cách tiếp cận hiệu lĩnh vực mà số vật phẩm ổn định, phim sách Mặc dù, hoàn cảnh thay đổi liên tục hệ khuyến nghị tin tức, hàng ngàn số viết thêm vào loại bỏ hàng ngày, cách tiếp cận yêu cầu huấn luyện lại toàn mạng nơ-ron, cách thường xuyên viết xuất Vì lý này, thay sử dụng hàm mát softmax cross entropy, mô-đun NAR huấn luyện để tối đa hóa tương đồng biểu diễn viết theo ngữ cảnh dự đoán biểu diễn viết theo ngữ cảnh tương ứng với 32 viết mà người dùng thực đọc phiên (positive sample), giảm thiểu tương đồng với negative samples (các viết không người dùng đọc phiên) Với chiến lược này, viết xuất đề xuất lập tức, biểu diễn ngữ cảnh theo nội dung (Article Content Embeddings) huấn luyện thêm vào kho lưu trữ 2.2.4 Thử nghiệm đánh giá:  Dữ liệu: Thử nghiệm đánh giá mơ hình thực liệu độc quyền Globo.com cung cấp Globo.com cổng thông tin phổ biến Brazil, với 80 triệu người dùng 100.000 nội dung tháng Mẫu liệu chứa tương tác người dùng từ ngày đến 16 tháng 10 năm 2017, bao gồm triệu lượt tương tác (click), phân bố 1,2 triệu phiên hoạt động từ 330.000 người dùng 50.000 báo khác khoảng thời gian Trong liệu Globo.com, phiên hoạt động biểu thị chuỗi lần nhấp người dùng với không 30 phút tương tác Để huấn luyện mô-đun NAR, chuỗi tương tác người dùng nhóm theo phiên xếp theo thời gian xảy Các phiên có tương tác (khơng có tác dụng cho việc dự đốn lần nhấp chuột tiếp theo) với 20 tương tác (người dùng đặc biệt - outliers bot) bị loại bỏ  Tham số đánh giá: - Top-N recommender systems: Các hệ thống giới thiệu Top-N có khắp nơi từ trang web mua sắm trực tuyến đến cổng video Hệ thống cung cấp cho người dùng danh sách xếp hạng gồm N mặt hàng mà họ quan tâm, để khuyến khích lượt xem mua hàng - Hit Rate (HR): người dùng tương tác với sản phẩm đề xuất, xem xét “hit” Lấy tổng số “hit” chia cho tổng số lần nhấp chuột người dùng, ta tham số Hit Rate - Mean Reciprocal Rank (MRR): Thứ hạng đối ứng trung bình thước đo thống kê để đánh giá quy trình tạo danh sách câu trả lời có cho mẫu truy vấn, xếp theo xác suất xác Thứ 33 hạng đối ứng phản hồi truy vấn nghịch đảo nhân thứ hạng câu trả lời đầu tiên: cho vị trí thứ nhất, 1⁄2 cho vị trí thứ hai, 1⁄3 cho vị trí thứ ba, v.v Xếp hạng đối ứng trung bình trung bình cấp kết đối ứng cho mẫu truy vấn Q: Ví dụ: Cho ba mẫu liệu trên, tính thứ hạng đối ứng trung bình là: MRR = (1/3 + 1/2 + 1) / = 11/18 khoảng 0,61 Đối với hệ thống Top-N recommender systems, ta có ký hiệu tham số tương ứng: + HR@N: kiểm tra xem mục nhấp vào người dùng có diện N mục xếp hạng hàng đầu không + MRR@N: tương tự Trong thử nghiệm này, N chọn 5, tức gợi ý danh sách gồm viết cho người dùng  Các phương pháp dùng để đối chiếu kết (baseline methods): Đối với thử nghiệm này, số mơ hình thuật tốn khuyến nghị dựa phiên sử dụng để so sánh GRU4Rec - Kiến trúc bán nơ-ron sử dụng RNN cho đề xuất dựa phiên Co-occurrent - Đề xuất viết thường xem với viết vừa đọc, phiên người dùng khác Thuật toán phiên đơn giản hóa kỹ thuật quy tắc kết hợp (Association Rule), với kích thước quy tắc tối đa hai viết đọc Sequential Rules (SR) - Một phiên tốt quy tắc kết hợp, xem xét chuỗi mục nhấp phiên Một quy tắc tạo 34 mục q xuất sau mục p phiên, mục khác xem p q Item-kNN - Trả k mục tương tự với viết đọc gần nhất, sử dụng độ đo tương tự Cosin Vector Multiplication Session-Based kNN (V-SkNN) - So sánh toàn phiên hoạt động với phiên trước tìm mục đề xuất Recently Popular - Đề xuất viết xem nhiều từ N lần nhấp vào gần Content-Based - Đối với viết đọc người sử dụng, khuyến cáo viết tương tự dựa tương đồng vectơ A Content Embeddings, từ N lần nhấp chuột gần  Phương pháp thực trình thử nghiệm: huấn luyện đánh giá liên tục năm đồng hồ, 15 ngày (từ ngày đến 15 tháng 10 năm 2017)  Kết * Kết báo:  HR@5: Hình 2.12: HR@5 trung bình: 0.72  MRR@5: 35 Hình 2.13: MRR@5 trung bình: 0.51 * Kết thực lại thuật toán:  HR@5: Hình 2.14: HR@5 trung bình: 0.58  MRR@5: 36 Hình 2.15: MRR@5 trung bình: 0.35  Nhận xét: - Khi thực lại thử nghiệm, mơ hình Chameleon cho kết tốt so với mô hình thuật tốn khác: HR@5 trung bình > 11% MRR@5 trung bình > 8% so sánh với hình tốt lại SR - Dạng đồ thị kết lần thực báo lần thực lại tương đương - Tuy nhiên, kết chút so với kết mơ hình Chameleon báo: HR@5 trung bình 0.58 < 0.72, MRR@5 trung bình 0.35 < 0.51 => Cần phải tối ưu tham số thiết lập ban đầu (Hyperparameter Tuning) để thu kết tốt 37 KẾT LUẬN Thông qua việc thực đề tài “Ứng dụng hệ thống gợi ý lĩnh vực thương mại điện tử”, em tính lũy nhiều kiến thức thực tế lý thuyết chuyên ngành Điện tử – Viễn thông lĩnh vực Công nghệ thông tin, cô giáo hướng dẫn tạo cho chúng em niềm say mê học tập, tìm tịi kiến thức Cơ cịn giúp em hồn thiện kỹ mềm kỹ thuyết trình, làm việc nhóm, làm việc môi trường chuyên nghiệp Power Point, phần mềm lập trình, triển khai Machine learning: Python, Pandas, Sublime Text, Colab Notebooks, Do vốn kiến thức hạn hẹp nên việc thực ý tưởng nhiều hạn chế Nếu cịn có sai sót, em mong giúp đỡ tạo điều kiện để em hồn thành cách tốt ý tưởng Em xin chân thành cảm ơn! 38 TÀI LIỆU THAM KHẢO [1] https://github.com/gabrielspmoreira/chameleon_recsys [2] https://machinelearningcoban.com/ [3] https://vi.wikipedia.org/ 39 ... tốt  Yêu cầu người dùng tạo danh sách mục mà anh / thích Ví dụ thu thập liệu ngầm bao gồm:  Quan sát mục mà người dùng xem cửa hàng trực tuyến  Phân tích thời gian xem mục / người dùng  Lưu... báo làm tải web khoảng thời gian giới hạn  Thời gian sống viết - giá trị thông tin phân rã theo thời gian Điều đặc biệt lĩnh vực tin tức, hầu hết người dùng quan tâm đến thơng tin Vì vậy, viết... IMDB, bao gồm năm phát hành Tuy nhiên, chúng nhập thủ công, lỗi khơng qn tồn Thể loại phim biểu diễn dạng danh sách, chọn từ mục sau: Action, Adventure, Animation, Children's, Comedy, Crime, Documentary,

Định dạng
Số trang	39
Dung lượng	1,21 MB