Nghiên cứu về hệ thống khuyến nghị và ứng dụng trong bài toán khuyến nghị bộ phim liên quan

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC VINH NGUYỄN VĂN NIỆM LUẬN VĂN THẠC SỸ Chuyên ngành: CÔNG NGHỆ THÔNG TIN NGHI N C U VỀ HỆ TH NG HU ẾN NGHỊ VÀ NG DỤNG TRONG BÀI TOÁN KHUYẾN NGHỊ BỘ PHIM LIÊN QUAN Giáo viên hƣớng dẫn: TS TRẦN XUÂN SANG Nghệ an, 7/2018 LỜI CẢM ƠN Trƣớc tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS Trần Xuân Sang tận tình hƣớng dẫn em suốt suốt trình thực đề tài Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô viện Kỹ thuật Công nghệ trƣờng Đại học Vinh truyền đạt kiến thức quý báu cho em năm học vừa qua Em xin gửi lời cảm ơn tới Ban Giám Hiệu, thầy cô giáo đồng nghiệp trƣờng THPT Con Cuông tạo điều kiện giúp đỡ em công việc em đƣợc học tập hoàn thành luận văn Thạc sĩ Xin chân thành cảm ơn anh chị bạn bè, đặc biệt thành viên lớp K24 CNTT Đại Học Vinh ủng hộ, giúp đỡ động viên suốt thời gian học tập vừa qua Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng chắn không tránh khỏi thiếu sót Em kính mong nhận đƣợc cảm thơng tận tình bảo q Thầy Cô bạn Em xin chân thành cảm ơn! LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân thực sản phẩm riêng Các số liệu tài liệu luận văn trung thực, tin thứ cấp sử dụng luận văn có nguồn gốc đƣợc trích dẫn rõ ràng Tơi hồn tồn chịu trách nhiệm tính xác thực nguyên luận văn Học viên Nguyễn Văn Niệm MỤC LỤC LỜI CẢM ƠN MỤC LỤC CHƢƠNG I TỎNG QUAN VỀ ĐỀ TÀI SỰ CẦN THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU MỤC TIÊU NGHIÊN CỨU 2.1 Mục tiêu tổng quát 2.2 Mục tiêu cụ thể ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu 3.2 Phạm vi nghiên cứu NỘI DUNG NGHIÊN CỨU CHƢƠNG II HỆ THỐNG KHUYẾN NGHỊ TỰ ĐỘNG 2.1 HỆ THỐNG KHUYẾN NGHỊ 2.1.1 Khái niệm 2.1.2 Cách thức hoạt động hệ thống khuyến nghị 10 2.1.3 Các chức hệ thống khuyến nghị 13 2.1.4 Các phương pháp khai thác liệu sử dụng 14 2.1.5 Đánh giá phương pháp 17 CHƢƠNG III 19 HỆ THỐNG TỰ ĐỘNG GỢI Ý BỘ PHIM LIÊN QUAN 19 3.1 MƠ TẢ BÀI TỐN 19 3.2 LỌC CỘNG TÁC 20 3.2.1 Giới thiệu 20 3.2.2 Lọc cộng tác dựa nhớ 22 3.2.3 Lọc cộng tác dựa mơ hình 25 3.3 KẾT QUẢ THỰC NGHIỆM 33 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 38 NHỮNG KẾT QUẢ ĐẠT ĐƢỢC VÀ MẶT HẠN CHẾ 38 HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 38 TÀI LIỆU THAM KHẢO 39 DANH MỤC CÁC TỪ VIẾT TẮT ACO Ant colony optimization ACS Ant Colony System AS Ant System GA Genetic Algorithm NP Non-deterministic Polynomial-time SM Stable Marriage TSP Travelling Salesman Problem CHƢƠNG I TỎNG QUAN VỀ ĐỀ TÀI Sự cần thiết vấn đề nghiên cứu Ngày sống công nghệ số, với phát triển internet đƣa ngƣời vào giới với lƣợng lớn thông tin nhƣ âm nhạc, phim ảnh, sách vở, trang web,… với đặc tính khác Trƣớc thơng tin khổng lồ đó, ngƣời dùng cảm thấy bối rối khơng biết chọn thích hợp với nên chọn trƣớc, sau Hệ thống khuyến nghị giúp thông tin phù hợp số thông tin khổng lồ chƣa có trật tự đó, sử dụng kỹ thuật lọc để chọn loại thông tin đặc trƣng nhằm hiển thị phần tử phù hợp với sở thích ngƣời dùng Theo cách này, hệ thống có tích hợp tính khuyến nghị thu hút đƣợc ngƣời dùng hài lòng tin cậy Các hệ thống khuyến nghị tiêu biểu nhƣ Amazon, Netflix, IMDb, Youtube, Last.fm, MovieLens… tăng đƣợc số lƣợng khách truy cập nhờ vào tính hỗ trợ định hệ thống Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu, áp dụng hệ thống khuyến nghị tự động ứng dụng khuyến nghị phim 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu cụ thể sau: (i) Nghiên cứu tổng quan hệ thống khuyến nghị (ii) Nghiên cứu hệ khuyến nghị phim Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu (a) Nghiên cứu lý thuyết - Nghiên cứu hệ thống khuyến nghị tự động - Nghiên cứu áp dụng hệ thống khuyến nghị tự động khuyến nghị phim (b) Nghiên cứu thực nghiệm - Nghiên cứu tài liệu ngơn ngữ lập trình để cài đặt thuật toán thử nghiệm - Cài đặt đánh giá hiệu toán hệ thống tự động khuyến nghị ứng dụng khuyến nghị phim 3.2 Phạm vi nghiên cứu Trong luận văn nghiên cứu hệ thống khuyến nghị dựa nội dung (Content-Based Recommendation System) Khuyến nghị lọc cộng tác để đánh giá tƣơng quan (Collaborative Filtering Recomnendation System) Nội dung nghiên cứu - Nghiên cứu tổng quan lý thuyết hệ thống khuyến nghị tự động ứng dụng khuyến nghị phim - Nghiên cứu ngơn ngữ lập trình để cài đặt thuật toán - Viết báo cáo luận văn CHƢƠNG II HỆ TH NG HU ẾN NGHỊ TỰ ĐỘNG 2.1 Hệ thống khuyến nghị Thông thƣờng, ngƣời ta đƣa lựa chọn dựa ý kiến hay lời khuyên ngƣời xung quanh, qua lời nói, đánh giá sản phẩm, khảo sát thị trƣờng, thƣ giới thiệu …v v Nhƣng kỉ nguyên thông tin, hàng triệu thông tin đƣợc đƣa lên internet ngày, điều dẫn tới yêu cầu phải có phƣơng pháp tự động thu thập thông tin đƣa lời khuyên để hỗ trợ cho phƣơng pháp truyến thống Hệ tƣ vấn (recommender system) giải pháp nhƣ Hệ thống đƣa khuyến nghị dựa ngƣời dùng làm khứ, dựa tổng hợp ý kiến ngƣời dùng khác Hệ tƣ vấn trở thành ứng dụng quan trọng thu hút đƣợc quan tâm lớn nhà nghiên cứu nhƣ doanh nghiệp Một vài hệ tƣ vấn tiếng: Phim/ TV/ âm nhạc: MovieLens, EachMovie, Morse, Firefly, Flycasting,Ringo… Tin tức/ báo chí: Tapestry, GroupLens, Lotus Notes, Anatagonomy… Sách/ Tài liệu: Amazon.com, Foxtrot, InfoFinder… Web: Phoaks, Gab, Fab, IfWeb, Let's Browse … Nhà hàng: Adaptive Place Advisor, Polylens, Pocket restaurent finder… Du lịch: Dietorecs, LifestyleFinder … 2.1.1 hái niệm Hệ thống khuyến nghị kỹ thuật cung cấp khuyến nghị cho nhu cầu sản phẩm, dịch vụ Internet cho ngƣời sử dụng Những khuyến nghị đƣợc cung cấp nhằm mục đích hỗ trợ ngƣời sử dụng trình định lựa chọn sản phẩm, dịch vụ, chẳng hạn nhƣ sách ngƣời dùng muốn mua, hát ngƣời dùng thích nghe, tin tức ngƣời dùng muốn đọc Một vài ứng dụng tiếng hệ thống Khuyến nghị nhƣ: Khuyến nghị sản phầm Amazon.com [paper amazon], hệ tƣ vấn phim NetFlix…[paper Netflix] Hệ thống khuyến nghị chứng minh đƣợc ý nghĩa to lớn: giúp cho ngƣời sử dụng trực tuyến đối phó với tình trạng q tải thơng tin Hệ khuyến nghị trở thành công cụ mạnh mẽ phổ biến thƣơng mại điện tử Theo Adomavicius Tuzhilin, hầu hết trƣờng hợp, toán tƣ vấn đƣợc coi toán ƣớc lƣợng trƣớc hạng (rating) sản phẩm chƣa đƣợc ngƣời dùng xem xét Việc ƣớc lƣợng thƣờng dựa đánh giá có ngƣời dùng ngƣời dùng khác Những sản phẩm có hạng cao đƣợc dùng để tƣ vấn Một cách hình thức, tốn tƣ vấn đƣợc mơ tả nhƣ sau: Gọi U tập tất ngƣời dùng; I tập tất sản phẩm tƣ vấn Tập I lớn, từ hàng trăm ngàn (sách, phim, đĩa CD…) đến hàng triệu (website…) Tập U lên tới hàng triệu Trong hệ thống khuyến nghị, độ phù hợp sản phẩm thƣờng đƣợc đo điểm, ví dụ ngƣời dùng A đánh giá phim “Star war 3” đƣợc 7/10 điểm Tuy nhiên, độ phù hợp hàm phụ thuộc vào ứng dụng cụ thể Giá trị hàm u đƣợc xác định ngƣời dùng tính tồn cơng thức Mỗi ngƣời dùng khơng gian U đƣợc xác định hồ sơ (profile) Hồ sơ bao gồm nhiều loại thơng tin: tuổi, giới tính, thu nhập… gồm trƣờng mã số ngƣời dùng (user id) Tƣơng tự sản phẩm s không gian I đƣợc xác định tập đặc trƣng Ví dụ hệ thống khuyến nghị phim, đặc trƣng là: tên phim, thể loại, đạo diễn, năm sản xuất, diễn viên chính… vi,j trọng số đánh giá ngƣời dùng i sản phẩm j Những số hạng bình phƣơng mẫu số cung cấp lựa chọn chuẩn 3.2.3 Lọc cộng tác dựa mô hình Ngƣợc lại với phƣơng pháp dựa nhớ, phƣơng pháp tiếp cận dựa mơ hình khơng sử dụng tất liệu có để đƣa dự đốn Thay vào đó, chúng nắm bắt thơng tin bƣớc giống nhƣ thỏa thuận mơ hình sở thích ngƣời dùng Những phƣơng pháp nhƣ có nhiều thuận lợi việc cung cấp nhanh có dự đốn xác, giảm thiểu tính nhạy cảm trƣờng hợp liệu Tuy nhiên, chúng thƣờng yêu cầu nhiều thời gian để nắm bắt mơ hình, làm giảm hiệu việc cài đặt ứng dụng trực tuyến – nơi mà liệu thƣờng xuyên đƣợc thêm vào Từ quan điểm xác suất, nhiệm vụ lọc cộng tác nhìn lại việc tính tốn giá trị đánh giá đƣợc mong chờ, chúng đƣa mà muốn biết ngƣời dùng Đối với ngƣời dùng thực sự, mong muốn đoán trƣớc đƣợc đánh giá item Nếu giả thuyết lựa chọn số ngun khoảng từ 0m, ta có: m pa , j  E( va , j )   Pr( va , j  i | va ,k ,k  I a )i (4) i 0 Trong đó, biểu thức xác suất đƣa giá trị đánh giá mặt xác suất ngƣời dùng thực cho item j quan sát đƣợc trƣớc Trong tài liệu này, tơi khảo sát hai mơ hình xác suất khác cho lọc cộng tác mơ hình Cluster mạng Bayes Trong mơ hình Cluster, ngƣời dùng có sở thích giống đƣợc tập hợp lại thành class Trong class ngƣời dùng, đánh giá đƣợc xem độc lập với nhau, nghĩa cấu trúc mô hình giống nhƣ mơ hình Bayes thơ sơ ban đầu Số lƣợng class thông số mơ hình đƣợc biết từ liệu Và thuật tốn tơi lựa chọn sử dụng mơ hình thuật tốn K- Mean Clustering 25 Với mơ hình Bayes biểu diễn item nhƣ node mạng này, trạng thái node tƣơng ứng với giá trị trọng số item nhận biết đƣợc Cả cấu trúc mạng xác suất điều kiện đƣợc nhận biết từ liệu Vì giới hạn phƣơng pháp ngƣời dùng đƣợc tập hợp lại thành nhóm (cluster) đơn lẻ, vài ứng dụng tƣ vấn đƣợc lợi từ khả hợp ngƣời dùng thành vài nhóm lúc Chẳng hạn, tƣ vấn sách, ngƣời dùng quan tâm đến chủ đề (ví dụ: lập trình) với mục đích cơng việc nhƣng hồn tồn quan tâm đến chủ đề khác vào thời gian rảnh rỗi 3.2.3.1 Hệ phân loại Naïve Bayes Hệ phân loại nạve Bayes đƣợc biểu diễn thành mạng Bayes nhƣ hình Hình 3.2.3.1: Hệ phân loại NaïveBayes C X1 X X2 C … X Xm X Mạng Bayes phƣơng pháp cổ điển để tìm xác suất kiện kiện khác xảy Đây mơ hình xác suất phổ biến đƣợc sử dụng lọc cộng tác Mỗi ngƣời dùng đƣợc mô tả mạng Bayes, node ứng với sản phẩm (item) Trạng thái node thể giá trị đánh giá ngƣời dùng sản phẩm tƣơng ứng Để xây dựng đƣợc mơ hình phải thực giải thuật học mạng Bayes tập liệu huấn luyện đánh giá ngƣời dùng tồn sản phẩm Khơng xác suất điều kiện mà cấu trúc mạng phải đƣợc học từ liệu Tiêu chuẩn đánh giá cho mơ hình độ phục thuộc 26 sản phẩm Mạng đƣợc xây dựng phải đảm bảo tiêu chuẩn node phải có tập node cha node dự đốn tốt cho giá trị node Mỗi node có bảng xác suất điều kiện thể tồn xác suất có điều kiện node đƣợc biểu diễn định Với phƣơng pháp ta phải tính tồn xác suất có điều kiện để sản phẩm nhận đánh giá với mức độ ta biết mức độ đánh giá sản phẩm khác sở thống kê đánh giá toàn hệ thống (xác suất để node trạng thái xác định biết trạng thái node khác) Sau tiến hành lọc để sinh mạng Bayes cho ngƣời dùng dựa sản phẩm ngƣời dùng đáng giá cho node đƣợc đánh giá node cha cho node chƣa đánh giá Các node đại diện giá trị ngẫu nhiên lớp C, thành phần vector đầu vào X1….XM Mạng Bayes hình 4.1 biểu diễn mơ hình biểu diễn mạng Bayes: Thuộc tính đầu vào Xj độc lập với giá trị lớp nhãn C Gọi tắt naïve Bayes assumption (Giả định Naïve Bayes) từ tên classifier (hệ phân loại) đƣợc đời Để huấn luyện cho hệ phân loại Bayes cần u cầu tính tốn giá trị P(C=c) xác suất để lớp nhãn C nhận giá trị c; P(Xj=x|C=c) xác suất giá trị đầu vào Xj nhận giá trị x giá trị lớp nhãn C = c Những giá trị đƣợc ƣớc lƣợng cách sử dụng tính tốn dựa tần số xuất từ liệu huấn luyện nhƣ công thức 4.10 4.11 Cho đầu vào mẫu xq, phân loại thơng qua luật công thức 4.12 N P( C  c )    ( ci ,c ) N i 1 (4.10)   ( x , x ) ( c ,c )  x|C  c )    ( x , x ) ( c ,c ) N P( X j i 1 ij i N x i 1 ij cq  arg max P( C  c ) c i P( X j  xqj | C  c ) j 27 Khi áp dụng hệ phân loại vào miền ứng dụng với thuộc tính khơng rõ chất lƣợng, tính lựa chọn thƣờng đƣợc dùng để chọn lọc từ tập thuộc tính tập dùng cho việc phân loại Lọc chọn thuộc tính thƣờng đƣợc sử dụng hệ phân loại Bayes dựa kinh nghiệm trao đổi thông tin biến lớp biến thuộc tính Điểm kinh nghiệm trao đổi thơng tin đƣợc tính tốn với thuộc tính, thuộc tính đƣợc xếp theo điểm số giảm dần K thuộc tính với số điểm cao đƣợc giữ lại nhƣ đặc tính Trong trƣờng hợp tất biến độc lập, kinh nghiệm thông tin qua lại dễ dàng tính tốn dựa phân phối đƣợc tìm thấy học hệ phân loại Cơng thức tính đƣợc đƣa đẳng thức 4.13 Thơng tin qua lại đƣợc tính tốn suốt trình học MI( X j ,C )   P( X j  x,C  c )log x c P( X j  x,C  c ) P( X j  x )P( C  c ) Một vấn đề sử dụng thông tin qua lại làm tính chọn lọc chọn thuộc tính dƣ thừa Ví dụ, mơ hình chứa nhiều giá trị thuộc tính, giá trị thuộc tính có giá trị lớn liên hệ với giá trị lớp, chọn lọc dựa thơng tin qua lại chọn thuộc tính Khi chọn lọc số lƣợng nhỏ thuộc tính, điều có lẽ vấn đề Dự đốn đánh giá theo mạng Bayes Để áp dụng hệ phân loại Bayes vào dự đoán đánh giá học độc lập hệ phân loại cho sản phẩm y Chúng ta huấn luyện hệ phân loại cho sản phẩm y sử dụng tất ngƣời dùng u đánh giá cho y tập liệu Vector đầu vào sử dụng để xây dựng hệ phân loại cho sản phẩm y bao gồm đánh giá tất sản phẩm khác y Chúng ta gọi y lớp sản phẩm sản phẩm lại sản phẩm thuộc tính Chúng ta biểu diễn hệ phân loại Bayes cho sản phẩm y mạng Bayes nhƣ hình 3.2.3.1b 28 Hình 3.2.3.1b: Hệ phân loại NạveBayes 3.2.3.2 K – Means Clustering Thuật tốn K – Means đƣợc phát triển J.MacQueen (1967) sau đƣợc J.A Hartigan M.A.Wong đƣa vào năm 1975 Giống nhƣ tên gọi thuật tốn nhằm phân loại nhóm đối tƣợng lại với dựa thuộc tính/đặc trƣng thành K nhóm K số ngun dƣơng Thơng qua việc cực tiểu hóa tổng bình phƣơng khoảng cách liệu nhóm tạo thành tƣơng ứng Vì mục đích K – Means clustering để phân loại liệu Ví dụ: Giả thuyết có đối tƣợng, đối tƣợng có thuộc tính điểm tƣơng ứng nhƣ sau: Đối tƣợng Thuộc tính Thuộc tính A 1 B C D Bc1: Khởi tạo giá trị nhóm: Giả thuyết rằng, sử dụng A, B nhƣ 29 nhóm ban đầu Đặt c1 c2 biểu thị nhóm tƣơng ứng, c1 = (1,1) c2 = (2,1) Bc2: Khoảng cách nhóm – đối tƣợng: Chúng ta tính tốn khoảng cách nhóm cụm với đối đƣợc Ở để đơn giản, sử dụng khoảng cách Eudidean Tại bƣớc lặp 0, đƣa ma trận khoảng cách nhƣ sau: 0 D0   1 3.61 2.83 c1 = (1,1)  c2 = (2,1) 4.24   A B C D 1 1  5 Y 4  X Mỗi cột ma trận khoảng cách đƣợc tính nhƣ sau: Cột ma trận khoảng cách tƣơng ứng với khoảng cách đối tƣợng với nhóm đầu tiên; cột thứ khoảng cách mối dối tƣợng với nhóm thứ Ví dụ: Khoảng cách từ C = (4,3) tới nhóm c1 = (1,1) (  )2  (  )2  3.61 , khoảng cách tới nhóm ứ c2 = (2,1) (  )2  (  )2  2.83 , Bc3: Nhóm đối tƣợng: Chúng tơi gán đối tƣợng dựa khoảng cách cực tiểu Vì vậy, A đƣợc gán nhóm 1, B nhóm 2, C nhóm D nhóm Mỗi phần tử ma trận nhóm đối tƣợng đƣợc gán nhóm đó: 1 G0   0 A 1 0  B C D nhóm nhóm Bc4: Bƣớc lặp 1, xác định nhóm: Chúng ta biết thành phần nhóm, tính tốn nhóm cho nhóm dựa 30 thành phần Nhóm có phần tử, nên giữ lại nhóm c1 = (1, 1) Nhóm có ba thành phần, nhóm đƣợc xác định trung bình tƣơng ứng thành phần đó: c2 = ( 2 4 1 34 11 ) =( , ) , 3 3 Bc5: Tính tốn tƣơng tự nhƣ bc2, có ma trận nhƣ sau: c1 = 3.61 5 0 D0     3.14 2.36 0.46 1.89  (1,1) nhóm c2 = ( 11 , ) 3 nhóm A B C D 1 1  5 X 4  Y Bc6: Nhóm đối tƣợng: Làm tƣơng tự nhƣ bƣớc 3, gán đối tƣợng dựa khoảng cách cực tiểu Vì vậy, A, B đƣợc gán nhóm 1, C nhóm D nhóm Mỗi phần tử ma trận nhóm đối tƣợng đƣợc gán nhóm đó: 1 G1   0 A 0 0 1 B C D nhóm nhóm Bc7: Lặp lại bƣớc Ta thấy nhóm nhóm có thành phần có điểm xuất phát c1 = ( 1 11 ) = ( ,1 ) , 2 31 c2 = ( 45 34 ) =( , ) , 2 2 Bc8: Lặp lại bƣớc lần nữa, tính đƣợc ma trận khoảng cách nhƣ sau: c1 = (1,1) 0.5 D0   4.30 0.5 3.54 4.61 0.71  3.20 0.71 nhóm c2 = ( 11 , 3 ) nhóm A B C D 1 1  5 X 4  Y Bc9: Chúng ta kết sau: 1 G  0 A 0 0 1 B C D nhóm nhóm Nhận xét: G = G Vì mà đƣa đƣợc kết nhƣ sau Đối tƣợng Thuộc tính Thuộc tính Nhóm kết A 1 B 1 C D 32 ết thực nghiệm 3.3 3.3.1 Tập liệu huấn luyện Nghiên cứu này, sử dụng tập liệu MovieLens 100K1, ngƣời dùng đánh giá 20 phim với tập liệu dùng cho kiểm tra chéo 5fold sẵn có đƣợc chia tập train (uX.base) tập test (uX.test) với X từ đến Tiền xử lý tập liệu bao gồm xóa bỏ trƣờng timestamp, trộn ngẫu nhiên mẫu, chèn vào số mẫu đầu tệp 3.3.2 Độ đo Khi huấn luyện, chúng tơi thử tìm kiếm nhiều trƣờng hợp siêu tham số (meta- parameters) khác nhau, sử dụng kỹ thuật tìm kiếm lƣới (grid search = raw search + smooth search) để đạt đƣợc siêu tham số cho lỗi RMSE tập kiểm tra tốt Lỗi RMSE đƣợc xác định công thức: 3.3.3 ỹ thuật huấn luyện kết Chúng sử dụng bƣớc lặp giới hạn (Max_Num_Iters) thay lặp hội tụ để trình huấn luyện nhanh giải vấn đề phần tử với dự đoán trung bình tồn cục Sau đây, chúng tơi thống kê số kết theo tốc độ học (LR), số nhân tố (NF) regularization (Rbu, Rbi, Rqi, Rxi) Kết thực nghiệm tìm kiếm thơ đƣợc thể tốc độ học: 0.001, 0.005 0.01 với số nhân tố 16, 32, 64, với số vịng lặp giới hạn nhƣ bảng sau (trích từ liệu với lỗi RMSE thấp): Bảng 3.3.3 a: Iters=50, NF=64 LR Rbu 0.0 Rbi 0.0 Rqi 0.0 RMSE Rxi 0.0 0.5 Time(m) 0.92 0.22 0.0 05 0.0 05 0.0 0.0 0.5 89 0.92 90 0.22 05 0.0 0.0 0.0 0.0 0.0 24 0.93 33 0.22 18 49 01 Iters=100, 05NF=64 05 Bảng 3.3.3 b: 05 33 LR Rbu Rbi Rqi Rxi RMSE Time(m) 0.01 0.05 0.005 0.5 0.05 0.9346 0.4467 0.005 0.05 0.005 0.05 0.5 0.9288 0.4456 0.001 0.05 0.005 0.05 0.05 0.9245 0.4449 Bảng 3.3.3 c: Iters=200, NF=64 LR Rbu Rbi Rqi Rxi RMSE Time(m) 0.01 0.005 0.005 0.5 0.05 0.9347 0.896 0.005 0.005 0.005 0.5 0.05 0.9328 0.892 0.001 0.05 0.05 0.05 0.5 0.9225 0.891 Với tiếp cận nhân tố mơ hình láng giềng [12] số nhân tố cao cho lỗi dự đoán tốt số nhân tố thấp siêu tham số, nên bảng 3.3.3 a,b,c thể giá trị tốt với NF 64 Sau tìm kiếm thơ, chúng tơi tiếp tục tìm kiếm mịn giá trị siêu tham số tốt (dịng tơ đen Bảng 3.3.3 a), nhằm đạt đƣợc độ đo lỗi kiểm tra tốt Sau kết mịn hóa tốt (Bảng 3.3.3 d): Bảng 3.3.3 d: Tìm mịn Rbu Rbi Rqi Rxi RMSE Time(m) 0.05 0.0475 0.0525 0.0475 0.0475 0.0525 0.5 0.485 0.92190 0.92196 0.2220 0.2179 0.0525 0.0525 0.0475 0.5 0.92199 0.2204 0.0525 0.05 0.0475 0.515 0.92212 0.2202 0.0475 0.0475 0.05 0.515 0.92224 0.2238 0.05 0.0525 0.05 0.485 0.92225 0.2206 0.05 0.05 0.0475 0.485 0.92229 0.2197 Do tính ngẫu nhiên liệu nên lặp lại 20 lần việc tính tốn kết trƣờng hợp lấy kết trung bình để tìm đƣợc xác trƣờng hợp tốt thật (Bảng 3.3.3 e) Bảng 3.3.3 e: Tìm mịn lặp Rbu 0.0525 Rbi 0.05 Rqi 0.0475 Rxi 0.515 34 RMSE 0.922784 Time(m) 0.216735 0.05 0.0525 0.05 0.485 0.922829 0.217155 0.05 0.05 0.0475 0.485 0.922841 0.215957 0.0475 0.0475 0.05 0.515 0.922914 0.217372 0.05 0.0525 0.0525 0.5 0.922917 0.216496 0.05 0.0525 0.0475 0.5 0.922925 0.216537 0.0525 0.0525 0.0475 0.5 0.922952 0.218518 Thống kê (Bảng 3.3.3 d-e) cho ta thấy liệu ngẫu nhiên ảnh hƣởng nhiều đến RMSE (0.9219 0.922784) Các bảng kết huấn luyện tìm kiếm siêu tham số tập liệu (u1.base, u1.test) Qua rõ ràng siêu tham số regularization khác (Rbu, Rbi, Rqi, Rxi) đạt kết tốt dùng regularization cho tất tham số Tiếp theo chúng tơi lấy trung bình lỗi tất tập liệu MovieLens 5-fold với siêu tham số tập u1, kết cuối nhƣ sau: Bảng 3.3.3 f: Kết toàn tập liệu với Siêu số tìm thơ nghi tham thức 5-fold Dữ liệu RMSE LR=0.005, NF=64, Num_Iter=50 u1 u2 0.9225545 0.9156835 u3 0.9087205 Rbu Rbi Rqi Rxi u4 0.9106193 0.05 0.05 0.050.5 u5 0.9135651 Trung bình Siêu tham số tìm mịn Dữ liệu 0.914229 RMSE LR=0.005, NF=64, Num_Iter=50 u1 u2 0.9228189 0.9154739 u3 0.9081727 Rbu Rbi Rqi Rxi u4 0.9104163 0.0525 0.05 0.0475 0.515 u5 0.9136031 Trung bình 0.914097 Mỗi tập liệu lặp lần huấn luyện để tính RMSE xác 35 Số liệu Bảng nói lên đƣợc kết tìm kiếm mịn cho độ đo RMSE tốt tìm kiếm thơ 3.3.4 Biểu đồ so sánh Phần trình bày so sánh tiếp cận báo với tiếp cận khác thông qua biểu đồ So sánh tiếp cận với dự đốn trung bình tồn cục (GlobalAVG), trung bình phim (MovieAVG), trung bình ngƣời dùng (UserAVG) phân rã ma trận có xử lý “cold start problem” (Matrix Factorization - MF) tập liệu MovieLens với nghi thức kiểm tra chéo 5-fold Dƣới biểu đồ biểu diễn độ đo RMSE phƣơng pháp đề cập Hình 3.3.4: So sánh tiếp cận khuyến nghị Biểu đồ cho ta thấy lỗi RMSE tiếp cận Asymmetric SVD với tắc hóa tham số tốt phân rã ma trận tốt nhiều so sánh với dự đốn trung bình tồn cục nhƣ trung bình phim ngƣời dùng Thực nghiệm đây, xét kết hợp mối quan hệ tiềm ẩn mục tin, hệ thống đƣợc bổ sung thêm nhiều thông tin đầu vào nhƣ phản hồi không tƣờng minh (implicit feedbacks) theo RMSE đạt đƣợc 36 tốt 37 ẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Những kết đạt đƣợc mặt hạn chế Qua thời gian nghiên cứu hoàn thành luận văn, nhận thấy đạt đƣợc kết sau đây: Luận văn đƣa đƣợc số giải pháp cho việc lựa chọn sản phẩm yêu cầu nhƣ lựa chọn phim theo tiêu đề, phim theo nội dung, phim đƣợc nhiều ngƣời dùng u thích nhất, hót Đề tài giải tốt đƣợc hệ thống khuyến nghị xem phim Ngoài điều bật nêu trên, luận văn số điểm hạn chế định nhƣ: Đề tài dừng lại việc Nghiên cứu hệ thống tự động ứng dụng khuyến nghị phim Từ tạo sở để xây dựng tiếp mơ hình ứng dụng hệ thống tự động khuyến nghị lĩnh vực khác với phạm vi quy mô lớn Hƣớng phát triển đề tài Trong thời gian tới, nghiên cứu sâu hệ thống khuyến nghị ứng dụng lĩnh vực khác nhƣ thƣơng mại điện tử, giải trí … 38 TÀI LIỆU THAM HẢO [1] Vũ Hữu Tiệp, Machine Learning (2017) [2] Nguyễn Hùng Dũng Nguyễn Thái Nghe 2014 Hệ thống khuyến nghị sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác Tạp chí Khoa học Trƣờng Đại học Cần Thơ, số 31a (2014), trang 36-51 ISSN: 1859-2333 [3] Li Chen, Guanliang Chen, and Feng Wang 2015 Recommender systems based on user reviews: the state of the art User Modeling and User-Adapted Interaction 25, (June 2015), 99-154 [4] Ricci, F., Rokach, L., Shapira, B & Kantor, P.B., eds (2011) Recommender Systems Handbook Springer [5] Yehuda Koren 2008 Factorization meets the neighborhood: a multifaceted collaborative filtering model In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '08) ACM, New York, NY, USA, 426-434 39 ... (i) Nghiên cứu tổng quan hệ thống khuyến nghị (ii) Nghiên cứu hệ khuyến nghị phim Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu (a) Nghiên cứu lý thuyết - Nghiên cứu hệ thống khuyến nghị. .. toán hệ thống tự động khuyến nghị ứng dụng khuyến nghị phim 3.2 Phạm vi nghiên cứu Trong luận văn nghiên cứu hệ thống khuyến nghị dựa nội dung (Content-Based Recommendation System) Khuyến nghị. .. nhờ vào tính hỗ trợ định hệ thống Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu, áp dụng hệ thống khuyến nghị tự động ứng dụng khuyến nghị phim 2.2 Mục tiêu cụ thể Đề tài tập trung vào

Định dạng
Số trang	40
Dung lượng	727,75 KB