Giải quyết vấn đề phân phối trong hệ thống khuyến nghị dựa trên đặc trưng nội dung của đối tượng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN ĐẠT GIẢI QUYẾT VẤN ĐỀ PHÂN PHỐI TRONG HỆ THỐNG KHUYẾN NGHỊ DỰA TRÊN ĐẶC TRƯNG NỘI DUNG CỦA ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN ĐẠT GIẢI QUYẾT VẤN ĐỀ PHÂN PHỐI TRONG HỆ THỐNG KHUYẾN NGHỊ DỰA TRÊN ĐẶC TRƯNG NỘI DUNG CỦA ĐỐI TƯỢNG Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Lê Thanh Hà TS Ngô Thị Duyên HÀ NỘI - 2021 i MỤC LỤC MỤC LỤC i LỜI CẢM ƠN iii LỜI CAM ĐOAN iv TÓM TẮT v DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii DANH MỤC VIẾT TẮT viii Chương Giới thiệu 1.1 Đặt vấn đề 1.2 Bài toán 1.3 Đóng góp luận văn 1.4 Cấu trúc luận văn Chương Kiến thức liên quan 2.1 Hệ thống khuyến nghị 2.2 Thuật toán khuyến nghị CFRS 2.3 Thành phần thuật toán khuyến nghị CB 2.3.1 Thuật toán so sánh độ tương đồng 2.3.2 2.3.3 Gaussian Mixture Model (GMM) 10 Word Embeddings (WE) 12 2.4 Thuật toán gợi ý dựa nội dung 15 2.5 Kết chương 18 Chương Đề xuất thuật toán khuyến nghị phân phối CB 19 3.1 Dữ liệu 19 3.1.1 Giới thiệu chung 19 3.1.2 3.1.3 Đặc tính 19 Nhiễu 21 ii 3.2 Thuật toán khuyến nghị CB đề xuất 22 3.2.1 Tiền xử lý liệu 23 3.2.2 Phân cụm 24 3.2.3 Thuật toán xếp 25 3.2.4 Giả mã 27 3.3 Khả ứng dụng thực tế 28 3.4 Kết chương 28 Chương Thực nghiệm 29 4.1 Môi trường thực nghiệm 29 4.2 Phương pháp đánh giá 29 4.3 Kịch thực nghiệm 30 4.3.1 BOW + GFF 30 4.3.2 GMM + ED 30 4.3.3 W2V + GFF 31 4.3.4 GMM + GFF 32 4.4 Kết thực nghiệm 32 4.5 Kết chương 36 KẾT LUẬN 37 TÀI LIỆU THAM KHẢO 38 iii LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, PGS TS Lê Thanh Hà cô giáo, TS Ngô Thị Duyên – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè, người giúp đỡ, động viên tơi vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn bạn học khóa giúp đỡ, động viên tơi học tập nghiên cứu chương trình thạc sĩ Đại học Công nghệ, ĐHQGHN iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Giải vấn đề phân phối hệ thống khuyến nghị dựa đặc trưng nội dung đối tượng” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 18 tháng năm 2021 … v TÓM TẮT Ngày nay, hệ thống khuyến nghị tích hợp vào hầu hết trang thương mại điện tử giúp tăng cường hiệu suất bán hàng cho doanh nghiệp cách hỗ trợ người tiêu dùng tìm sản phẩm phù hợp, chất lượng Hiện nay, có nhiều thuật toán khuyến nghị tốt hiệu quả, nhiên, thuật toán khuyến nghị dựa nội dung (Content-based - CB) thuật toán quan trọng, phổ biến sử dụng giai đoạn đầu dự án Tuy nhiên, số trường hợp, tính chất thuộc tính khác nhau, kết gợi ý từ thuật toán CB chưa đáp ứng độ xác cao tốn liên quan đến độ tương tự phân phối thành phần thuộc tính đối tượng Thêm nữa, phương pháp để đo mức độ tương đồng sản phẩm vấn đề quan trọng ảnh hưởng đến độ xác thuật tốn CB toán độ tương đồng phân phối Để giải hai vấn đề này, luận văn đề xuất thuật tốn CB dựa mơ hình hỗn hợp Gaussian (Gaussian Mixture Model - GMM) giúp tăng độ xác cho kết đầu Mơ hình đề xuất thực nghiệm liệu rượu bao gồm số mùi vị, liệu tag mô tả vị rượu số trường thông tin khác So sánh kết mơ hình đề xuất với thuật tốn phổ biến khác liệu trên, kết thực nghiệm thu khơng đạt độ xác tốt hơn, mà thời gian xử lý thuật toán đáp ứng điều kiện việc áp dụng vào ứng dụng thực tế Cho đến thời điểm tại, thuật toán đề xuất luận văn trình bày cơng bố quốc tế (1 tạp chí uy tín Applied Intelligence (Q1, IF:5.22) báo hội nghị ICCCI (C, IF:1.8) – oral paper) sau cải tiến Từ khóa: Hệ thống khuyến nghị, hệ thống khuyến nghị dựa nội dung, mơ hình hỗn hợp Gaussian, hệ thống khuyến nghị phân phối, hàm trọng số Gaussian Filter vi DANH MỤC HÌNH VẼ Hình 1.1 Kiến trúc chung hệ thống khuyến nghị dựa thuật toán contentbased Hình 1.2 Ví dụ kết gợi ý sử dụng công thức khoảng cách phân phối cho hệ thống khuyến nghị dựa phân phối thuộc tính Hình 2.1 Minh hoạ hệ thống khuyến nghị Hình 2.2 Mơ hình hỗn hợp Gaussian 12 Hình 2.3 Minh hoạ phương pháp one-hot vector 12 Hình 2.4 Minh hoạ phương pháp Count-based 13 Hình 2.5 Mơ ngữ cảnh từ khố cửa sổ L-sized 14 Hình 2.6 Mơ mơ hình hoạt động W2V 14 Hình 2.7 Mơ hình hoạt động thuật toán gợi ý Phim 17 Hình 3.1 Ví dụ sản phẩm rượu Sake 20 Hình 3.2 Trực quan hoá số mùi vị 20 Hình 3.3 Ví dụ sản phẩm rượu Sake có thuộc tính mang giá trị rỗng 21 Hình 3.4 Mơ hình hoạt động thuật toán 22 Hình 3.5 Trực quan hố GMM 25 Hình 4.1 MSE áp dụng BOW+GFF, W2V+GFF 32 Hình 4.2 MSE áp dụng GMM+GFF GMM+ED 33 Hình 4.3 Biểu đồ thống kê mức độ tương đồng kết với sakenowa 33 Hình 4.4 MSE ảnh hưởng số cụm 34 Hình 4.5 MSE ảnh hưởng số phần tử xung quanh 35 vii DANH MỤC BẢNG BIỂU Bảng 3.1 Bảng thống kê tỉ lệ rỗng với số thuộc tính 21 Bảng 4.1 Thời gian xử lý truy vấn 35 viii DANH MỤC VIẾT TẮT Từ khoá STT Từ viết tắt Content-Based CB Content-Based Recommendation System CBRS Collaborative Filtering CF Collaborative Filtering Recommendation CFRS System Gaussian Mixture Model GMM Gaussian Filter Function GFF Word2Vec W2V Bag-of-Word BOW Euclidean Distance ED 10 Levenshtein Distance LD 11 K-nearest neighbors KNN 12 Recommendation System RS 13 Knowledge-Based KB 14 Item-Based Collaborative Filtering IBCF 15 Mel-frequency Cepstral Coefficient MFCC 16 Term Frequency – Inverse Document TF-IDF Frequency 17 Word Embedding WE 18 Knowledge-Based Recommendation System KBRS 26 đó, Gkl(fil, fjl) xem xét hàm tính trọng số cặp giá trị thứ l số mùi vị sản phẩm khác (i, j) cụm k, l = {1,2,3, , 6}, 𝜎kl độ lệch chuẩn giá trị số f thứ l cụm k, công thức 𝜎kl định nghĩa sau: 𝜎𝑘𝑙 = ^ ∑𝑛𝑘 (𝑓$𝑙𝑘 − 𝜇)2 (3.2) $&1 𝑛𝑘 − đó, nk số lượng sản phẩm thuộc cụm k, filk giá trị thứ l f số mùi vị sản phẩm thứ i cụm k, μ giá trị trung bình thuộc tính fl nhóm k Thuật tốn tính lượt cho số f số mùi vị cho cặp sản phẩm toàn sản phẩm cụm, xếp theo thứ tự giảm dần để tìm kết tốt 3.2.3.2 Độ tương đồng chuỗi với LD Các tags mùi vị đóng vai trò quan trọng kết đầu ra, coi số có mức độ vai trò tương tự số mùi vị Để tính tốn so sánh mức độ giống giá trị tags sản phẩm, luận văn sử dụng LD để giải vấn đề [15] Trong thực nghiệm, khoảng cách Levenshtein leva,b(i, j) sử dụng hệ số chuỗi đo đạc khác hai chuỗi tags mùi vị Công thức LD định nghĩa sau: max(𝑖, 𝑗⃗) , 𝑛ế𝑢 min(𝑖, 𝑗⃗) = 𝑙𝑒𝑣𝑎,𝑏(𝑖 − 1, 𝑗⃗) + 𝑙𝑒𝑣𝑎,𝑏 (𝑖, 𝑗⃗) = = m𝑙𝑒𝑣𝑎,𝑏(𝑖, 𝑗⃗ − 1) + 1, 𝑛𝑔ượ𝑐 𝑙ạ𝑖 𝑙𝑒𝑣𝑎,𝑏(𝑖 − 1, 𝑗⃗ − 1) + 1𝑎i#𝑏( 𝗅 (3.3) Trong đó, a b chuỗi tag cần tính tốn LD leva,b(i, j) khoảng cách kí tự i tag a kí tự j tag b 3.2.3.3 Công thức xếp tổng hợp Kết hợp hàm tính trọng số cho số mùi vị hàm so sánh tags mùi vị LD, luận văn thiết lập công thức cho việc xếp kết đầu sau: 𝐾 : 𝑆(𝑖, 𝑗⃗) = ( 𝐺𝑘𝑙 (𝑖, 𝑗⃗) + 𝑙𝑒𝑣𝑡𝑎8𝑠 (𝑖, 𝑗⃗)) 𝑘&1 𝑙&1 (3.4) 27 đó, Gkl hàm tính trọng số Gaussian Filter cơng thức (3.1) tương ứng với số thứ lth số mùi vị rượu sản phẩm i sản phẩm j cụm k (k = {1, , K} K cụm), levtags(i, j) hàm Levenshtein để so sánh mức độ tương đồng số tags hai sản phẩm Thơng qua thực nghiệm rằng, giá trị S(i, j) vector lớn, có giống sản phẩm so sánh Vì vậy, thuật tốn xếp theo thứ tự giảm dần tất sản phẩm cụm trả top m sản phẩm giống với sản phẩm cụm 3.2.4 Giả mã Để rõ ràng, tường minh hơn, luận văn đưa tiến trình xử lý thuật tốn đề xuất dạng giả mã để người đọc dễ dàng hiểu hình dung tồn thuật tốn đề xuất trình bày phần Hãy xem mơ hình giả mã sau: Thuật tốn: Thuật toán đề xuất Đầu vào: Số cụm k Đầu ra: Top m sản phẩm tương tự sản phẩm Dữ liệu: Bộ liệu L Tiền xử lý liệu cho trường văn Xây dựng ma trận vector chiều đại diện cho số mùi vị (f1-f6) Lấy ma trận đầu vào cho GMM để phục vụ cho trình huấn luyện lưu giá trị cụm tương ứng cho sản phẩm vào liệu For item in dataset do: - Lấy số cụm sản phẩm - Tìm tất sản phẩm có số cụm với sản phẩm truy vấn Áp dụng cơng thức (3.4) để tính S(i,j) cho cặp sản phẩm - Trả top m sản phẩm tương tự cách xếp theo thứ tự giảm dần 28 End 3.3 Khả ứng dụng thực tế Thực tế, thuật toán sử dụng để giải cho hệ thống gợi ý rượu cho công ty lớn (Asian Frontier) Nhật Bản Dựa kết thực nghiệm so sánh với thuật toán CB phổ biến, mạnh mẽ khác, thuật toán không tốt số mùi vị kết trả mà cịn có khả xử lý, phản hồi người dùng nhanh hơn, đáp ứng hoàn toàn điều kiện cho ứng dụng thời gian thực Đặc biệt, thời gian yêu cầu cho việc huấn luyện định kì cho thuật tốn sau khoảng thời gian sản phẩm thêm vào nhanh, khơng đáng kể so với mơ hình huấn luyện học sâu Đặc biệt, thuật toán hồn tồn ứng dụng áp dụng cho liệu khác với nhiều thuộc tính có đặc tính phân phối liệu so với liệu trình bày luận văn 3.4 Kết chương Trong chương 3, luận văn đưa mơ hình hoạt động tổng quát trình bày chi tiết bước thuật toán đặc trưng liệu Với bước thuật toán, luận văn lý ưu điểm đạt thực Trên liệu thực nghiệm, thuật toán CB đề xuất dựa GMM GFF chứng minh tính hiệu lý thuyết đặc trưng phân phối sản phẩm gợi ý, giúp giảm phụ thuộc thuật toán CB dạng liệu văn Thuật tốn hồn tồn áp dụng liệu khác có tương tự đặc trưng phân phối liệu trình bày mục 3.1 Cho đến tại, thuật tốn có cơng bố quan trọng (1 tạp chí uy tín Applied Intelligence (Q1) hội nghị ICCCI (C) – oral paper) sau cải tiến Tiếp đến chương tiếp theo, kịch thực nghiệm đưa để chứng minh tính mạnh mẽ thuật toán so với thuật toán CB phổ biến công bố dạng đặc trưng phân phối liệu thực nghiệm 29 Chương Thực nghiệm Trong chương này, luận văn trình bày chi tiết kịch thực nghiệm bao gồm: thuật toán đề xuất, thuật toán CB phổ biến: BOW+GFF, W2V+GFF GMM+ED sử dụng công thức so sánh độ tương đồng khác nhau: GFF, ED Các kết thực nghiệm tổng hợp, phân tích so sánh để chứng minh độ hiệu mạnh mẽ thuật toán khuyến nghị đề xuất (GMM+GFF) so với thuật tốn CB cịn lại tốn khuyến nghị phân phối Trong đó, mơi trường thực nghiệm đưa mục 4.1, phương pháp đánh giá mục 4.2, kết đánh giá thực nghiệm trình bày mục 4.3 4.4 4.1 Môi trường thực nghiệm Tất thực nghiệm luận văn cài đặt tảng Python phiên 3.6.8, sử dụng hệ điều hành Ubuntu phiên 16.04 để thực kiểm thử chương trình Kích thước liệu sử dụng tải từ trang web Sakenowa 717Kb, sau trình tiền xử lý 690Kb Về số phần cứng, máy tính sử dụng để thực nghiệm Destop PC có số IntelCore i5-4460 CPU @3.2GHz, 16GB RAM ổ cứng 256GB SSD 4.2 Phương pháp đánh giá Phương pháp đánh giá (PPDG) sử dụng Mean Square Error (MSE) [16] hay cụ thể trung bình bình phương lỗi kết so sánh Giá trị MSE tính tốn sau: 𝑀𝑆𝐸 = 𝑁 𝑛 (𝑟$ − (4.1) 𝑟t< )2 Trong ri vector đại diện cho sản phẩm dự đoán, 𝑟t< vector đại diện cho sản phẩm truy vấn Ngoài ra, luận văn sử dụng kết gợi ý từ hệ thống Sakenowa thước đo chuẩn để so sánh với kết thực nghiệm, lý trang web trang web uy tín, tiếng cho dịch vụ thương mại rượu Sake Nhật Bản gần 10 năm qua, thể qua kết gợi ý ấn tượng, có độ xác cao 30 4.3 Kịch thực nghiệm Trong phần này, thực nghiệm tiến hành để kiểm chứng ảnh hưởng GMM, GFF thuật toán khuyến nghị dựa phân phối thuộc tính Để chứng thực tính hiệu GMM GFF cho kết dự đoán tốt hơn, luận văn chia thực nghiệm thành phần Đầu tiên, thay GMM, thuật tốn BOW [10] sử dụng số thuộc tính tags mùi vị trước áp dụng công thức GFF để xếp kết Ở thực nghiệm thứ 2, thuật toán áp dụng GMM+ED để làm rõ tác dụng GMM Ở thực nghiệm thứ 3, để giải vấn đề ngữ nghĩa từ văn so với BOW thực nghiệm 1, W2V kết hợp vs GFF trình bày Và cuối thực nghiệm thuật toán đề xuất để chứng minh hiệu GMM GFF, đồng thời đưa so sánh đánh giá cho kết thực nghiệm 4.3.1 BOW + GFF Lý cho thực nghiệm để xác thực tác động GMM lên độ xác kết đầu so với thuật tốn BOW [10] Do đó, thực nghiệm này, BOW kết hợp với GFF để tính tốn cho kết khuyến nghị đầu Bước đầu tiên, thuật toán thực tiền xử lý liệu cho liệu văn kỹ thuật stemming, replace synonyms, filling missing data, [2] Như đề cập mục trước, trường văn quan trọng viết ngôn ngữ tiếng Nhật, nên luận văn sử dụng số công cụ thư viện xử lý tiếng Nhật Ginza [19], Janome [20], JapaneseStemmer [18] lấy cảm hứng từ thuật toán Porter Stemming [17], để tiền xử lý Trước sử dụng GFF cho việc xếp kết quả, thuật toán BOW sử dụng cho trường văn tiền xử lý để tìm ma trận vector biểu diễn cho sản phẩm Bước kế tiếp, ma trận đóng vai trị liệu đầu vào cho thuật toán K-Nearest Neighbors (KNN) dựa ý tưởng thuật tốn khơng giám sát KNN Scikit-Learn [21] để tìm top sản phẩm tương đồng Sau đó, áp dụng công thức S(i,j) (3.4) top sản phẩm để lấy kết tốt 4.3.2 GMM + ED Ở thực nghiệm này, GMM đóng vai trị gom nhóm n sản phẩm vào k nhóm Bước đầu tiên, kỹ thuật tiền xử lý thực cho trường liệu văn Thực nghiệm Sau đó, thực nghiệm xây dựng ma trận chiều cho n sản phẩm, ma trận biểu diễn cho số mùi vị đưa vào GMM để huấn luyện Sau huấn luyện, kết phân cụm cho sản phẩm lưu lại cho bước xếp 31 Ở bước tiếp theo, thực nghiệm thực chuyển liệu văn tags mùi vị thành ma trận biểu diễn từ dạng tần suất xuất từ toàn danh sách tags mùi vị cách sử dụng CountVectorizer Scikit-Learn [21], ghép với ma trận (n,6) bên để có vector cuối biểu diễn đặc trưng cho sản phẩm Bước cuối cùng, để trả top sản phẩm tương tự với sản phẩm đầu vào, ta cần tìm đến cụm chứa sản phẩm áp dụng cơng thức ED xếp kết trả 4.3.3 W2V + GFF Để giúp giảm vấn đề mơ hồ ngôn ngữ, giải giới hạn mặt ngữ nghĩa từ thuật toán BOW thực nghiệm so sánh với thuật toán đề xuất Ở mục này, luận văn trình bày thực nghiệm W2V [23] kết hợp với TF-IDF cho tags mùi vị, sau tổng hợp chúng với ma trận chiều tạo nên từ số mùi vị vector biểu diễn đặc trưng cho sản phẩm trước áp dụng công thức xếp trọng số GFF cho kết trả Tương tự thực nghiệm trước, kỹ thuật tiền xử lý liệu thực với thứ tự phương thức Ở bước tiếp theo, nhận thấy tags mùi vị biểu diễn hình thức ngơn ngữ tiếng Nhật, ta cần sử dụng mơ hình W2V huấn luyện cho tiếng Nhật [25] với số chiều cho vector đầu cho từ 300, Gensim [24] cho việc gọi mơ hình để trả vector biểu diễn cho tag Để biểu diễn sản phẩm đặc trưng tags mùi vị, thực nghiệm kết hợp vector embeddings với số TF-IDF công thức sau: 𝑞 𝑇𝐹𝐼𝐷𝐹𝑡$ ∗ 𝑊2𝑉𝑡$ (4.2) ∑𝑡$&1 𝑉=𝑡& 𝑞 ∑𝑡$&1 𝑇𝐹𝐼𝐷𝐹𝑡$ Trong ti tương ứng với tagi số tags mùi vị sản phẩm rượu, q số lượng tags số tags mùi vị tương ứng với độ dài tags mùi vị sản phẩm rượu Sau đó, để có vector biểu diễn đặc trưng cho sản phẩm, vector embeddings tags mùi vị nối trục (hay axis) với ma trận số mùi vị để thu vector biểu diễn cuối với số chiều 306 Từ đây, ứng dụng tính chất cơng thức so sánh độ tương đồng Cosine, thực nghiệm sử dụng để tìm tập sản phẩm tiềm tạm thời trước tính tốn giá trị S từ cơng thức (3.4) sản phẩm tiềm để thu sản phẩm gợi ý tốt với sản phẩm truy vấn 32 4.3.4 GMM + GFF Mục đích thực nghiệm để chứng minh tầm quan trọng GMM GFF mô hình đề xuất luận văn thực nghiệm Tương tự thực nghiệm trước, thực nghiệm thực bước tiền xử lý liệu văn ba thực nghiệm trước Tiếp theo, thực nghiệm xây dựng ma trận (n,6) biểu diễn số mùi vị cho n sản phẩm đưa vào GMM liệu đầu vào để huấn luyện mơ hình, lưu lại giá trị cụm tương ứng sản phẩm Để gợi ý sản phẩm tương đồng với sản phẩm, ta cần tìm đến cụm mà sản phẩm thuộc coi trung tâm cụm sử dụng cơng thức (3.4) cặp cặp với sản phẩm khác cụm Sắp xếp giá trị thu theo thứ tự giảm dần ta thu kết tốt từ hệ thống khuyến nghị 4.4 Kết thực nghiệm Tại phần này, luận văn so sánh kết thuật toán đề xuất với kết khuyến nghị từ trang web Sakenowa thuật toán phổ biến CB khác thực nghiệm mục Các kết gợi ý từ Sakenowa cho sản phẩm trả từ API mở (https://sakenowa.com/api/v1/brands/flavor?f=0&fv=f1, f2, f3, f4, f5, f6); đó, f1…6 API giá trị số số mùi vị tương ứng Từ kết thực nghiệm, luận văn kết luận độ xác thuật tốn đề xuất tốt Sakenowa ba thuật tốn cịn lại Kết so sánh thể Hình 4.2, Hình 4.3 Hình 4.4 Hình 4.1 MSE áp dụng BOW+GFF, W2V+GFF 33 Hình 4.2 MSE áp dụng GMM+GFF GMM+ED Hình 4.3 Biểu đồ thống kê mức độ tương đồng kết với sakenowa 34 Hình 4.4 MSE ảnh hưởng số cụm Trong thực nghiệm, 10 sản phẩm tốt với sản phẩm liệu trả Tại hình 4.2, tập giá trị MSE hiển thị biểu thị thay đổi tương ứng với số lượng phần tử xung quanh (neighbors) phần tử khoảng [20-40] trả từ thuật toán KNN thực nghiệm BOW ma trận tương tự Cosine thực nghiệm W2V Từ dễ dàng nhận thấy, MSE có xu hướng giảm chưa đáng kể đồng thời thời gian xử lý trở lên chậm nhiều số lượng phần tử xung quanh lớn lên, đặc biệt thuật toán KNN Đặc biệt hơn, giả thiết ngữ nghĩa từ chứng minh sử dụng W2V hoàn toàn cho kết tốt so với BOW với công thức so sánh độ tương đồng GFF sử dụng phía sau Tại hình 4.3, khoảng cách giá trị MSE GMM+ED GMM+GFF so sánh Từ hình vẽ thấy, kết từ GMM+GFF hồn tồn chất lượng so với thuật tốn lại, cho thấy ảnh hưởng rõ ràng hiệu công thức so sánh độ tương đồng GFF so với ED toán gợi ý dựa phân phối thuộc tính Ngồi ra, thực nghiệm cho thấy tác động số cụm sử dụng GMM tác động đến giá trị MSE khoảng [65-85] Hình 4.4, tỉ lệ 35 độ tương đồng kết gợi ý thuật toán đề xuất kết trả từ thuật tốn Sakenowa so sánh Hình 4.5 MSE ảnh hưởng số phần tử xung quanh Hình 4.5 hình 4.6, biểu đồ cột xây dựng để thống kê giá trị MSE sinh từ thực nghiệm, bao gồm GMM+ED, BOW+GFF, W2V+GFF, GMM+GFF kết gợi ý từ Sakenowa Từ giá trị MSE so sánh cột biểu đồ, thuật tốn đề xuất GMM+GFF chứng minh hồn tồn tốt hơn, hiệu so với tất thực nghiệm cịn lại bối cảnh tốn gợi ý dựa phân phối thuộc tính BOW+GFF GMM+ED W2V+GFF GMM+GFF 0.1856s 0.0174s 0.0251s 0.0156s Bảng 4.1 Thời gian xử lý truy vấn Thêm nữa, thống kê bảng 4.2 thời gian xử lý thuật toán đánh bại hồn tồn thuật tốn, GMM+ED, W2V+GFF BOW+GFF 36 Dựa vào kết từ hình 4.2, hình 4.3, hình 4.5, hình 4.6, luận văn kết luận việc sử dụng ưu tiên số mùi vị tags mùi vị đặc trưng cho kết tốt hệ thống khuyến nghị rượu trình bày, độ hiệu quả, mạnh mẽ, hiệu từ GMM việc giải vấn đề phân phối hệ thống khuyến nghị Từ thực nghiệm lập luận trên, luận văn tổng kết hệ thống gợi ý dựa GMM hoạt động tốt liệu thuộc tính tn theo dạng liệu liên tục tương tự, lý mà thuật tốn khác BOW, W2V ưu tiên cho việc sử dụng loại liệu văn lại cho kết chất lượng so với thuật toán đề xuất trình bày luận văn 4.5 Kết chương Trong chương 4, môi trường thực nghiệm, phương pháp đánh giá kịch thực nghiệm trình bày chi tiết Phân tích kết từ thực nghiệm, luận văn chứng minh tính đắn mạnh mẽ thuật toán đề xuất tốn gợi ý dựa phân phối thuộc tính Thuật tốn chứng minh tính hiệu độ xác tốc độ xử lý thuật tốn CB cơng bố Qua đó, lý thuyết mơ hình học máy xác suất thuật toán xếp dựa phân phối thuộc tính thuật tốn đề xuất củng cố tồn diện Song song với đó, giả thuyết phụ thuộc đặc trưng vản thuật tốn CB phổ biến hoạt động khơng thực tốt toán khuyến nghị phân phối đồng thời kết luận 37 KẾT LUẬN Luận văn đề xuất thuật toán CB hiệu cho toán gợi ý dựa phân phối thuộc tính hệ thống khuyến nghị sử dụng đặc trưng nội dung với GMM, áp dụng để giải hệ thống khuyến nghị rượu triển khai Nhật Bản Thêm nữa, luận văn đề xuất công thức so sánh độ tương đồng giúp tính tốn, so sánh, xếp sản phẩm tiềm thay sử dụng cơng thức truyền thống Cosine Euclidean Thuật toán khuyến nghị dựa phân phối không đạt độ xác cao, mà cịn đạt tốc độ xử lý nhanh, phù hợp với ứng dụng thực tế Thuật tốn hồn tồn áp dụng cho nhiều thuộc tính liệu khác có đặc điểm phân phối liệu liệu thực nghiệm luận văn sử dụng Đặc biệt, thuật toán trình bày cơng bố quốc tế (1 tạp chí uy tín Applied Intelligence (Q1) báo hội nghị ICCCI (C) – oral paper) sau cải tiến Mặc dù có nhiều ưu điểm, nhiên điểm hạn chế thuật toán cần huấn luyện lại mơ hình định kỳ sau có thêm lượng sản phẩm thêm vào hệ thống, nhiên thời gian cho việc huấn luyện không thực đáng kể Hướng nghiên cứu tương lai sau luận văn tìm cách cải thiện mơ hình GMM khâu phân cụm sản phẩm để đạt kết tốt 38 TÀI LIỆU THAM KHẢO [1] Lops, Pasquale de Gemmis, Marco Semeraro, Giovanni (2011) Content-based Recommender Systems: State of the Art and Trends 10.1007/978-0-38785820-3- [2] Rahutomo, Reza Lubis, Febrian Muljo, Hery Pardamean, Bens (2019) Preprocessing Methods and Tools in Modelling Japanese for Text Classification 10.1109/ICIMTech.2019.8843796 [3] Yan, Hangyu Tang, Yan (2019) Collaborative Filtering Based on Gaussian Mix- ture Model and Improved Jaccard Similarity IEEE Access PP 1-1 10.1109/AC- CESS.2019.2936630 [4] Fan-sheng, K (2010) Hybrid Gaussian pLSA model and item based collaborative filtering recommendation Computer Engineering and Applications [5] Chen, Rui Hua, Qingyi Gao, Quanli Xing, Ying (2018) A Hybrid Recommender System for Gaussian Mixture Model and Enhanced Social Matrix Factorization Technology Based on Multiple Interests Mathematical Problems in Engineering 2018 1-22 10.1155/2018/9109647 [6] Yoshii, Kazuyoshi Goto, Masataka Komatani, Kazunori Ogata, Tetsuya Okuno, Hiroshi (2006) Hybrid Collaborative and Content-based Music Recommendation Using Probabilistic Model with Latent User Preferences ISMIR 2006 - 7th Inter- national Conference on Music Information Retrieval 296-301 [7] Khusro, Shah Ali, Zafar Ullah, Irfan (2016) Recommender Systems: Issues, Challenges, and Research Opportunities 10.1007/978-981-10-0557-2-112 [8] Zhu, Bo Bobadilla, Jesus Ortega, Fernando (2018) Reliability quality measures for recommender systems Information Sciences [9] Reynolds, Douglas (2008) Gaussian Mixture Models Encyclopedia of Biomet- rics 10.1007/978-0-387-73003-5-196 [10] Bhattacharya, Sounak Lundia, Ankit (2019) MOVIE RECOMMENDATION SYSTEM USING BAG OF WORDS AND SCIKIT-LEARN International Journal of Engineering Applied Sciences and Technology 04 526-528 10.33564/IJEAST.2019.v04i05.076 [11] Liberti, Leo Lavor, Carlile Maculan, Nelson Mucherino, Antonio (2012) Euclidean Distance Geometry and Applications SIAM Review 56 10.1137/120875909 [12] Lee, D., Hull, J., Erol, B (2003) A Bayesian framework for Gaussian mixture background modeling Proceedings 2003 International Conference on Image Processing (Cat No.03CH37429), 3, III-973 [13] Lu, Y., Bai, X., Wang, F (2015) Music Recommendation System Design Based on Gaussian Mixture Model ICM 2015 [14] Go ru r, Dilan Rasmussen, Carl (2010) Dirichlet Process Gaussian Mixture Models: Choice of the Base Distribution J Comput Sci Technol 25 653-664 10.1007/s11390-010-9355-8 39 [15] Haldar, Rishin Mukhopadhyay, Debajyoti (2011) Levenshtein Distance Technique in Dictionary Lookup Methods: An Improved Approach Computing Research Repository - CORR [16] Shani, Guy Gunawardana, Asela (2011) Evaluating Recommendation Systems 10.1007/978-0-387-85820-3-8 [17] Robertson, Stephen (1997) Readings in Information Retrieval [18] MrBrickPanda (2019) Japanese Stemmer Github https://github.com/MrBrickPanda/Japanese-stemmer [19] Hiroshi, Mai and Masayuki (2019) Ginza NLP Library Github http://www.anlp.jp/proceedings/annual-meeting/2019/pdf-dir/F2-3.pdf [20] Janomepy (2019) Janome Github https://github.com/mocobeta/janome [21] Pedregosa, Fabian and Varoquaux, Alexandre and Michel (2011) Scikit-learn: Machine learning in Python Journal of machine learning research 12 2825– 2830 [22] Felfernig, A Jeran, Michael Ninaus, Gerald Reinfrank, Florian Reiterer, Stefan Stettinger, Martin (2014) Basic Approaches in Recommendation Systems 10.1007/978-3-642-45135-5–2 [23] Musto, Cataldo Semeraro, Giovanni de Gemmis, Marco Lops, Pasquale (2016) Learning Word Embeddings from Wikipedia for Content-Based Recommender Systems 9626 729-734 10.1007/978-3-319-30671-1-60 [24] ˇehu ˇrek, Radim Sojka, Petr (2010) Software Framework for Topic Modelling with Large Corpora 45-50 10.13140/2.1.2393.1847 [25] Yamada, Ikuya Shindo, Hiroyuki Takeda, Hideaki Takefuji, Yoshiyasu (2016) Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation 250-259 10.18653/v1/K16-1025 [26] Quispe Poccohuanca, Oscar Edmit Ocsa, Alexander Coronado, Ricardo (2017) Latent semantic indexing and convolutional neural network for multilabel and multiclass text classification 1-6 10.1109/LA-CCI.2017.8285711 [27] Rosa, Renata Schwartz, Gisele Ruggiero, W.V Rodriguez, Demostenes Zegarra (2018) A Knowledge-Based Recommendation System That Includes Sentiment Analysis and Deep Learning IEEE Transactions on Industrial Informatics PP 1-1.10.1109/TII.2018.2867174 [28] Kadhim, Ammar (2018) An Evaluation of Preprocessing Techniques for Text Classification International Journal of Computer Science and Information Security, 16 22-32 [29] Mansur,FarhinPatel,VibhaPatel,Mihir.(2017).A review on recommender systems 1-6 10.1109/ICIIECS.2017.8276182 [30] Czarnowska,P.,Emerson,G.E.,Copestake,A.A.(2019).Words are Vectors, Dependencies are Matrices: Learning Word Embeddings from Dependency Graphs IWCS [31] Cheng, Jiangfei Zhang, Li (2019) Jaccard Coefficient-Based Bi-clustering and Fusion Recommender System for Solving Data Sparsity 10.1007/978-3-03016145-3-29 [32] Rutkowski, Tomasz Romanowski, Jakub Woldan, Piotr Staszewski, Pawel Nielek, Radoslaw Rutkowski, Leszek (2018) A Content-Based 40 [33] [34] [35] [36] [37] [38] [39] [40] Recommendation System Using Neuro-Fuzzy Approach 1-8 10.1109/FUZZIEEE.2018.8491543 Roy, Pradeep Chowdhary, Sarabjeet Bhatia, Rocky (2020) A Machine Learning approach for automation of Resume Recommendation system Procedia Computer Science 167 2318-2327 10.1016/j.procs.2020.03.284 Chatterjee, Niladri Yadav, Nidhika (2019) Hybrid Latent Semantic Analysis and Random Indexing Model for Text Summarization: Proceedings of Third International Conference on ICTCS 2017 10.1007/978-981-13-0586-3-15 Li, Y., Wang, S., Pan, Q., Peng, H., Yang, T., Cambria, E (2019) Learning binary codes with neural collaborative filtering for efficient recommendation systems Knowl Based Syst., 172, 64-75 Feng, Wanli Zhu, Quanyin Zhuang, Jun Shimin, Yu (2019) An expert recommendation algorithm based on Pearson correlation coefficient and FPgrowth Cluster Computing 22 10.1007/s10586-017-1576-y Gope, Jyotirmoy & Jain, Sanjay (2017) A survey on solving cold start problem in recommender systems 133-138 10.1109/CCAA.2017.8229786 Ramos, J.E (2003) Using TF-IDF to Determine Word Relevance in Document Queries Y Koren, R Bell and C Volinsky, "Matrix Factorization Techniques for Recommender Systems," in Computer, vol 42, no 8, pp 30-37, Aug 2009, doi: 10.1109/MC.2009.263 Logan, Beth (2000) Mel Frequency Cepstral Coefficients for Music Modeling Proc 1st Int Symposium Music Information Retrieval ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN ĐẠT GIẢI QUYẾT VẤN ĐỀ PHÂN PHỐI TRONG HỆ THỐNG KHUYẾN NGHỊ DỰA TRÊN ĐẶC TRƯNG NỘI DUNG CỦA ĐỐI TƯỢNG Ngành: Công nghệ thông tin Chuyên... thạc sĩ Đại học Cơng nghệ, ĐHQGHN iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin ? ?Giải vấn đề phân phối hệ thống khuyến nghị dựa đặc trưng nội dung đối tượng” cơng trình... KẾT LUẬN Luận văn đề xuất thuật toán CB hiệu cho toán gợi ý dựa phân phối thuộc tính hệ thống khuyến nghị sử dụng đặc trưng nội dung với GMM, áp dụng để giải hệ thống khuyến nghị rượu triển khai

Định dạng
Số trang	50
Dung lượng	1,83 MB