Nghiên cứu hệ thống gợi ý

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI DƢƠNG XUÂN PHÚC NGHIÊN CỨU HỆ THỐNG GỢI Ý CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : TS Đinh Viết Sang Hà Nội – Năm 2016 LỜI CAM ĐOAN Tôi Dƣơng Xuân Phúc, cam đoan Luận văn tốt nghiệp công trình nghiên cứu thân dƣới hƣớng dẫn TS Đinh Viết Sang Kết luận văn trung thực, khơng chép tồn văn cơng trình khác Hà Nội, ngày tháng năm 2016 Tác giả Dƣơng Xuân Phúc Xác nhận giáo viên hƣớng dẫn mức độ hoàn thành Luận văn tốt nghiệp cho phép bảo vệ: Hà Nội, ngày 21 tháng 10 năm 2016 Giáo viên hƣớng dẫn TS Đinh Viết Sang MỤC LỤC MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC CÁC BẢNG DANH MỤC CÁC TỪ VIẾT TẮT CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý .8 1.1 Hệ thống gợi ý 1.2 Ứng dụng thực tiễn 1.3 Phát biểu toán học .9 CHƢƠNG II CƠ SỞ LÝ THUYẾT 10 2.1 Ma trận 10 2.2.1 Định nghĩa 10 2.1.2 Các phép tính 10 2.1.3 Định thức ma trận 11 2.1.4 Ma trận nghịch đảo 11 2.1.5 Hạng Ma trận .12 2.1.6 Ma trận unitary 12 2.1.7 Giá trị riêng ma trận vec-tơ riêng 12 2.1.8 Ma trận giả nghịch đảo 12 2.1.9 Ma trận trực giao 13 2.2 Cơ học máy 13 2.2.1 Học có giám sát học khơng giám sát 13 2.2.2 Phân lớp hồi quy 14 2.2.3 Overfitting Underfitting 15 2.2.4 Tập huấn luyện, tập validation tập kiểm tra 16 2.2.5 Bias variance .17 2.2.6 Các phƣơng pháp chống overfitting 19 2.2.7 Lựa chọn mơ hình 20 2.3 Trung bình bình phƣơng tối thiểu 21 CHƢƠNG III: CÁC KĨ THUẬT ÁP DỤNG TRONG HỆ GỢI Ý 22 3.1 Điểm TF.IDF 22 3.2 Chỉ số tƣơng đồng Jaccard 23 3.3 Độ tƣơng đồng cosine .24 3.4 Phƣơng pháp giảm số chiều không gian 25 3.4.1 Giới thiệu 25 3.4.2 Phƣơng pháp phân rã ma trận SVD 27 3.4.3 Phƣơng pháp giảm số chiều không gian 29 3.5 Các phƣơng pháp giảm giá trị hàm gradient descent 30 3.5.1 Gradient Descent (GD) 30 3.5.2 Stochastic Gradient Descent (SGD) 31 CHƢƠNG IV: CÁC MƠ HÌNH GỢI Ý 33 4.1 Dữ liệu .33 4.2 Cách đánh giá độ tốt mơ hình 33 4.3 Các mơ hình 34 4.3.1 Phƣơng pháp Content Base (CB) .34 4.3.2 Phƣơng pháp Collaborative Filtering (CF) 38 4.3.3 Phƣơng pháp hỗn hợp 45 4.3.4 Đánh giá giá trị Global Baseline 45 4.3.5 Phƣơng pháp Latent Factor (LF) 46 CHƢƠNG V: THỬ NGHIỆM CÁC MƠ HÌNH GỢI Ý 54 5.1 Mô tả liệu 54 5.2 Các mơ hình kết thử nghiệm 58 5.3 So sánh đánh giá phƣơng pháp 64 KẾT LUẬN .66 TÀI LIỆU THAM KHẢO 67 DANH MỤC HÌNH ẢNH Hình - Mơ tả kết đạt đƣợc hai mơ hình phân loại hồi quy [11] 14 Hình - Mơ hình underfitting, fitting overfitting với liệu [23] .16 Hình - Sự thay đổi giá trị bias variance theo mức độ học liệu huấn luyện mơ hình [22] .18 Hình - Giá trị hàm mục tiêu tập huấn luyện [16] 20 Hình - Dữ liệu không gian ba chiều đƣợc biểu diễn mặt phẳng hai chiều [8] 25 Hình - Dữ liệu nhìn thấy biểu diễn xung quanh đƣờng thẳng [8] 26 Hình - Phân rã SVD ma trận [9] 29 Hình - Cách làm giảm số chiều phân rã SVD [9] 29 Hình - Ma trận nhận đƣợc sau thực giảm số chiều [9] 30 Hình 10 - Sự di chuyển hàm mục tiêu theo hai phƣơng pháp Gradient Descent Stochastic Gradient Descent [5] 31 Hình 11 - Ma trận đánh giá hệ gợi ý cách lấy tập liệu kiểm tra [10] .33 Hình 12 - Biểu đồ thể trình hoạt động CB [3] 37 Hình 13 - Mơ tả q trình gợi ý CF [7] 38 Hình 14 - Tác động ma trận cập nhật 51 Hình 15 - Ví dụ ghi liệu tập tin "users.dat" 54 Hình 16 - Ví dụ ghi liệu tập tin “movies.dat” 56 Hình 17 - Ví dụ ghi tập tin “ratings.dat” 58 Hình 18 - Cập nhật Stochastic Gradient Descent với (0.001, 0.002), k=1 .64 DANH MỤC CÁC BẢNG Bảng 1: Kết mơ hình CB 61 Bảng 2: Kết cho mơ hình ngƣời dùng- ngƣời dùng CF .62 Bảng 3: Kết mơ hình sản phẩm-sản phẩm CF .62 Bảng 4: Kết chọn mơ hình mơ hình LF .64 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt TF IDF Tên đầy đủ Term Frequency Inverse Document Frequency SVD Singular Value Decomposition CB Content-based CF Collaborative Filtering LF Latent Factor GD Gradient Descent SGD Stochastic Gradient Descent CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thơng tin (information filtering), đƣợc sử dụng để dự đốn sở thích (preference) hay xếp hạng (rating) mà ngƣời dùng dành cho mục thơng tin (item) mà họ chƣa xem xét tới khứ (item báo, phim, đoạn video clip, sách, ) [11] nhằm gợi ý mục thơng tin “có thể đƣợc quan tâm” ngƣời dùng Hệ thống gợi ý đƣa gợi ý dựa trình thu thập, xử lý phân tích liệu từ ngƣời dùng Dữ liệu đƣợc chia làm loại tường minh (explicit) cách yêu cầu ngƣời dùng phản hồi trực tiếp tiềm ẩn (implicit) cách tự động suy luận dựa tƣơng tác ngƣời dùng với hệ thống nhƣ: số lần nhấp chuột, thời gian quan sát Trong hầu hết trƣờng hợp, toán gợi ý đƣợc coi toán dự đoán việc xếp hạng (rating) sản phẩm (phim, sản phẩm tiêu dùng, sách, nhạc…) chƣa đƣợc ngƣời dùng biết đến Việc dự đoán thƣờng dựa đánh giá có ngƣời dùng ngƣời dùng khác Ví dụ, phim đƣợc dự đốn có xếp hạng cao đƣợc dùng để gợi ý Có nhiều ứng dụng tiếng hệ thống gợi ý nhƣ: gợi ý sản phẩm Amazon Ebay, hệ thống gợi ý phim NetFlix Youtube, Hệ thống gợi ý chứng minh đƣợc ý nghĩa to lớn: giúp cho ngƣời sử dụng trực tuyến đối phó với tình trạng q tải thơng tin Hệ thống gợi ý trở thành công cụ mạnh mẽ phổ biến thƣơng mại điện tử Mục đích hệ thống gợi ý dựa vào hành vi từ thói quen, nhu cầu khứ ngƣời sử dụng để dự đốn sở thích tƣơng lai họ 1.2 Ứng dụng thực tiễn Hệ gợi ý đƣợc triển khai hầu hết hệ thống có tƣơng tác với ngƣời dùng Phổ biến hệ thống web Phổ biến hệ thống phim ảnh, nhạc, sách báo,… nhiều sản phẩm nói chung khác Khơng vậy, hệ gợi ý đƣợc áp dụng cho chuyên gia, nhà nghiên cứu, nhà hàng, hệ thống tài chính, bảo hiểm,… Ta nhận thấy hệ gợi ý xung quanh có nhiều Các trang web nhƣ Youtube, Google, Facebook,… áp dụng hệ thống nhƣ để luôn giúp ngƣời dùng tìm kiếm thơng tin, sản phẩm cách nhanh chóng Với ứng dụng nhƣ vậy, hệ gợi ý mang đến nhiều lợi ích to lớn cho ngƣời dùng hệ thống áp dụng Với ngƣời dùng, ln nhanh chóng tiếp cận đƣợc nguồn thơng tin phù hợp, xác Tiết kiệm đƣợc thời gian cách đáng kể Với áp dụng tốt hệ gợi ý đƣợc ngƣời dùng ƣa thích đánh giá cao Ví dụ điển hình trang web nhƣ Youtube hay Google 1.3 Phát biểu toán học Các hệ thống gợi ý áp dụng cho nhiều lĩnh vực khác Tuy nhiên, tốn đƣợc phát biểu dƣới dạng toán học nhƣ sau: U tập ngƣời dùng hệ thống I tập sản phẩm hệ thống đánh giá ngƣời dùng i ( ) cho sản phẩm j( ) Bằng mơ hình hệ gợi ý, ta cần đƣa dự đoán cho đánh giá ngƣời dùng hệ thống cho sản phẩm mà ngƣời dùng chƣa đánh giá Và thực tế, sản phẩm đƣợc hệ gợi ý dự đốn ngƣời dùng đánh giá cao, đƣợc đƣa lên để gợi ý cho ngƣời dùng trải nghiệm CHƢƠNG II CƠ SỞ LÝ THUYẾT 2.1 Ma trận 2.2.1 Định nghĩa Ta có định nghĩa ma trận: [ ]=[ ] Trong đó: n số hàng, m số cột Ma trận có n=m ma trận vuông Phần tử phần tử nằm hàng thứ I cột thứ j; số thực số phức Trong khuôn khổ luân văn tốt nghiệp này, xét ma trận thực 2.1.2 Các phép tính  Phép cộng hai ma trận: Ta có hai ma trận: có tổng đƣợc định nghĩa là: [ ] [ ]  Phép nhân vô hƣớng: Phép nhân ma trận với số thực α đƣợc định nghĩa là: [ ] [ ]  Phép nhân hai ma trận: Phép nhân hai ma trận Tronng đó: đƣợc định nghĩa là: ∑ Phép nhân hai ma trận đƣợc xác định số cột ma trận thứ số hàng ma trận thứ hai Chú ý: Phép nhân hai ma trận khơng có tính giao hốn 10 Age: trƣờng thơng tin độ tuổi ngƣời dùng 1: 0-18 18: 18-24 25: 25-34 35: 35-44 45: 45-49 50: 50-55 56: 56+ Occupation: trƣờng thông tin nghề nghiệp ngƣời dùng (Thơng tin sau đƣợc giữ nguyên nhƣ mô tả liệu) 0: "other" or not specified 1: "academic/educator" 2: "artist" 3: "clerical/admin" 4: "college/grad student" 5: "customer service" 6: "doctor/health care" 7: "executive/managerial" 8: "farmer" 9: "homemaker" 10: "K-12 student" 11: "lawyer" 12: "programmer" 13: "retired" 14: "sales/marketing" 15: "scientist" 16: "self-employed" 17: "technician/engineer" 18: "tradesman/craftsman" 55 19: "unemployed" 20: "writer" Zip-code: Thông tin mã zip-code Không cần quan tâm đến trƣờng liệu Nhƣ vậy, ví dụ thơng tin ngƣời dùng nhận đƣợc là: Ngƣời dùng có mã ngƣời dùng (UserID) , giới tính (Gender) nam, độ tuổi (Age) từ 25 đến 34 nghề nghiệp (occupation) làm ngành giáo dục (academic/educator)  Thông tin phim Tập tin “movies.dat” lƣu thông tin phim hệ thống Thông tin đƣợc cho dƣới định dạng: MovieID::Title::Genres Ví dụ: Hình 16 - Ví dụ ghi liệu tập tin “movies.dat” Các trƣờng thông tin: MovieID: Trƣờng thông tin mã ID phim Là giá trị số tự nhiên Title: Bao gồm tên phim năm xuất 56 Genres: Thể loại phim Trong tập tin đƣợc mô tả từ ngăn cách dấu duyệt thẳng “|” Trƣờng liệu thể loại đƣợc liệt kê dƣới (giữ nguyên theo tài liệu mô tả liệu) Action Adventure Animation Children's Comedy Crime Documentary Drama Fantasy Film-Noir Horror Musical Mystery Romance Sci-Fi Thriller War Western Với ví dụ đƣợc đƣa ra, ta có thơng tin: phim có mã (MovieID) , tên phim Copycat đƣợc xuất năm 1995 Phim thuộc thể loại: Crime, Drama, Thriller  Thơng tin đánh giá Đây thông tin đƣợc coi quan trọng mơ hình gợi ý đƣợc áp dụng Các thông tin đánh giá đƣợc lƣu tập tin “ratings.dat” với định dạng: UserID::MovieID::Rating::Timestamp Ví dụ: 57 Hình 17 - Ví dụ ghi tập tin “ratings.dat” Các trƣờng liệu: UserID: trƣờng thông tin mã ngƣời dùng, mã phải tồn tƣơng ứng tập tin “users.dat” MovieID: trƣờng thông tin mã phim, mã phải tồn tƣơng ứng tập tin “movies.dat” Rating: trƣờng thông tin số điểm đánh giá ngƣời dùng cho phim Là giá trị số khoảng [ ] Timestamp: trƣờng thông tin thời gian ngƣời dùng đƣa đánh giá Đƣợc tính theo cách tính timestamp hệ thống Unix Nhƣ vậy, ví dụ chúng ta, ngƣời dùng với mã số 271 đánh giá phim mã số với số điểm thời điểm có nhãn thời gian (Fri, 19 Jan 2001 04:36:45 GMT) 5.2 Các mơ hình kết thử nghiệm  Phân chia liệu Để đánh giá đƣợc mơ hình ta phải có liệu huấn luyện giữ liệu kiểm tra Theo đó, ta chia liệu huấn luyện 80% tổng liệu lại liệu kiểm tra (20%) Trong giới hạn luận văn này, coi 58 phim đồng ngƣời dùng đồng Không xét đến liệu kèm (trừ trƣờng hợp áp dụng mơ hình CB cần thơng tin thể loại phim) Khi ta có cách chia liệu đơn giản nhƣ sau: Thủ tục: Phân chia liệu Bƣớc 1: Nhập vào số nguyên tố nhỏ 10, index1 index2 Bƣớc 2: Đọc lần lƣợt đánh giá từ tập tin ratings.dat Bƣớc 3: Lấy phần dƣ thứ tự đánh giá đó, index1 index2 đƣa vào tập kiểm tra, không đƣa vào liệu huấn luyện Bƣớc 4: Nếu chƣa hết gặp kí tự EOF tập tin ratings.dat quay lại bƣớc khơng kết thúc thủ tục  Nhắc lại cách xác định sai số mơ hình Sai số mơ hình đƣợc xác định theo giá trị trung bình bình phƣơng: √∑ ̂ đó, T tập liệu kiểm tra  Mơi trƣờng thử nghiệm Các mơ hình đƣợc cài đặt ngôn ngữ C++ môi trƣờng: Windown Trình biên dịch npp++ v7.1 Cấu hình máy: i CPU: Intel® Core™ i7-6700K (4.0GHz) ii RAM: 8.0Gb DDR4 @ 2133MHz  Mơ hình CB Trong mơ hình CB, cần xây dựng thông tin liên quan đến đặc trƣng sản phẩm Trong liệu phim ảnh này, sử dụng thông tin liên quan đến thể loại phim làm đặc trƣng Các bƣớc thực lấy đặc trƣng phim: Bƣớc 1: Đọc lần lƣợt phim tập tin “movies.dat” Bƣớc 2: Đọc vào thông tin mã phim 59 Bƣớc 3: Đọc thông tin thể loại phim cho mã phim tƣơng ứng bƣớc lƣu lại Bƣớc 4: Nếu chƣa gặp kí tự EOF tập tin “movies.dat” thực lại từ bƣớc khơng dừng thủ tục Trong mơ hình CB, để đƣa đƣợc đánh giá trung thực hơn, ta áp dụng co tập liệu khác tập liệu đƣợc tách từ tập liệu ban đầu cách áp dụng thủ tục “phân chia liệu” nêu phần trƣớc với tham số đầu vào khác  Tập liệu (1): index1=0, index2=1  Tập liệu (2): index1=1, index2=2  Tập liệu (3): index1=2, index2=3  Tập liệu (4): index1=3, index2=4  Tập liệu (5): index1=4, index2=5  Tập liệu (6): index1=5, index2=6  Tập liệu (7): index1=6, index2=7  Tập liệu (8): index1=7, index2=8 Thủ tục đƣa hồ sơ ngƣời dùng: Bƣớc 1: Đọc giá trị đánh giá từ tập liệu huấn luyện Bƣớc 2: Lấy thông tin ngƣời dùng thứ đánh giá cho sản phẩm thứ giá trị Bƣớc 3: Cập nhật giá trị trung bình với đặc trƣng phim thứ hồ sơ ngƣời dùng thứ Bƣớc 4: Nếu chƣa hết tập huấn luyện quay lại bƣớc Thủ tục đƣa dự đoán đánh giá: Bƣớc 1: Duyệt lần lƣợt ngƣời dùng, giả sử thứ tự Bƣớc 2: Duyệt lần lƣợt sản phẩm, giả sử thứ tự , số lƣợng sản phẩm quay lại bƣớc Bƣớc 3: Nếu ngƣời dùng đánh giá cho sản phẩm quay lại bƣớc 60 Bƣớc 4: Đƣa dự đoán đánh giá ngƣời dùng cho sản phẩm cách tính trung bình đặc trƣng hồ sơ ngƣời dùng mà đặc trƣng có sản phẩm Bƣớc 5: Quay lại bƣớc Kết thử nghiệm đƣợc cho dƣới bảng sau: Bảng 1: Kết mơ hình CB Tập liệu Kết (1) (2) (3) (4) (5) (6) (7) (8) 1.0268 1.0263 1.0262 1.0266 1.0577 1.0262 1.0305 1.0607 Trung bình: Err=1.044  Mơ hình CF Trong mơ hình CF, ta cài đặt thử nghiệm với hai mơ hình ngƣời dùng-ngƣời dùng CF sản phẩm-sản phẩm CF Các tập liệu đƣợc sử dụng phần tƣơng tự nhƣ tập liệu đƣợc sử dụng mơ hình CB Trong mơ hình CF này, ta quan tâm đến tham số số lƣợng “hàng xóm” gần với đối tƣợng đƣợc xét Chúng ta sử dụng giá trị với tham số k=20 Các bƣớc thực mơ hình: Bƣớc 1: Đọc liệu tập huấn luyện tạo ma trận đánh giá R Bƣớc 2: Trung bình hóa ma trận cosine centered Bƣớc 3: Tính giá trị cosine cho lần lƣợt ngƣời dùng (hoặc sản phẩm), thứ tự Bƣớc 4: Duyệt qua lần lƣợt sản phẩm (hoặc ngƣời dùng), giả sử thứ tự Bƣớc 5: Nếu đƣợc đánh giá, quay lại bƣớc Bƣớc 6: Nếu số sản phẩm (hoặc ngƣời dùng), quay lại bƣớc Bƣớc 7: Tìm k ngƣời dùng (hoặc sản phẩm) có giá trị cosine tƣơng đồng cao với ngƣời dùng (hoặc sản phẩm) i xét mà đánh giá sản phẩm (hoặc đƣợc đánh giá ngƣời dùng) 61 Bƣớc 8: Tính giá trị dự đoán đánh giá ngƣời dùng (sản phẩm) i cho sản phẩm (bởi ngƣời dùng) theo công thức … Bƣớc 9: Quay lại bƣớc Ta có bảng kết quả: Cho mơ hình ngƣời dùng-ngƣời dùng CF Bảng 2: Kết cho mơ hình người dùng- người dùng CF Tập liệu Kết mơ hình (1) (2) (3) (4) (5) (6) (7) (8) 1.088 1.089 1.089 1.0612 0.999 1.001 1.046 1.087 Trung bình cho mơ hình: Err=1.0575 Cho mơ hình sản phẩm-sản phẩm CF Bảng 3: Kết mơ hình sản phẩm-sản phẩm CF Tập liệu k=20 (1) (2) (3) (4) (5) (6) (7) (8) 0.9603 0.9594 0.9598 0.9630 0.9604 0.9605 0.9605 0.9608 Trung bình cho mơ hình: Err=0.9606  Mơ hình LF Trong mơ hình LF, ta cần phải có tập liệu validation để đánh giá độ tốt để chọn giá trị tham số α (learning rate) (tham số regularization) cho phù hợp Để chọn tập liệu validation ta tách từ tập liệu huấn luyện có (tập liệu gồm 80% tổng liệu đƣợc chia từ ban đầu) Để chống mơ hình bị overfitting, ta sử dụng phƣơng pháp regularization Chọn mô hình ta sử dụng phƣơng pháp k-fold cross validation với k = Nhƣ vậy, ta cần chia tập liệu huấn luyện làm phần Ta chọn tham số ( ) cách tìm tham số tốt tham số: (0.001,0.002), (0.003,0.002), (0.003,0.004), (0.009,0.004), (0.009,0.008) 62 Nhƣ vậy, với tham số, ta chạy k-fold cross validation với k=4 (chạy lần với fold) Sau đó, đƣa giá trị sai số trung bình cho mơ hình với tham số tƣơng ứng Ta chọn tham số có sai số trung bình nhỏ để làm tham số cho mơ hình chạy tập liệu kiểm tra Từ đƣa đánh giá cuối cho mơ hình áp dụng Ta xét số giả mã đoạn chƣơng trình quan trọng mơ hình này: Giải thuật Stochastic Gradient Descent Đầu vào: ma trận | | Bƣớc 1: Tính giá trị sai số cho mơ hình thời điểm bao đầu ̂ Bƣớc 2: Tính ma trận: ̂ ̂ Bƣớc 3: Tính giá trị giá trị điểm có đánh giá) Bƣớc 4: Tính giá trị cập nhật cho coi số ( Bƣớc 5: Tính giá trị cập nhật cho ) coi số ( ) Bƣớc 6: Tính giá trị cho ma trận: ̂ ̂ Bƣớc 7: Tính ƣớc lƣợng sai số Bƣớc 8: Nếu thay đổi lớn lớn ngƣỡng đặt ra, quay lại bƣớc 63 Hình 18 - Cập nhật Stochastic Gradient Descent với (0.001, 0.002), k=1 Bảng kết giá trị sai số tập validation với tham số fold Bảng 4: Kết chọn mơ hình mơ hình LF k= Trung bình (0.001,0.002) 0.913601 0.918415 0.917965 0.913602 0.915897 (0.003,0.002) 0.913602 0.918416 0.917965 0.913601 0.915746 (0.003,0.004) 0.913615 0.918421 0.917973 0.913615 0.915904 (0.009,0.004) 0.913607 0.918416 0.917967 0.913607 0.915899 (0.009,0.008) 0.913619 0.918423 0.917975 0.913615 0.916536 Theo kết bảng trên, ta sử dụng mơ hình với tham số để tính tốn kết tập kiểm tra Kết tập kiểm tra với mơ hình: Err= 0.916379 5.3 So sánh đánh giá phƣơng pháp Từ kết trên, ta rút đƣợc số kết luận sau:  Mơ hình LF cho kết tốt mơ hình cài đặt, nhƣ kì vọng tìm hiểu phƣơng pháp 64  Mơ hình sản phẩm-sản phẩm CF cho kết tốt so với mơ hình ngƣời dùng-ngƣời dùng CF  Mơ hình CB cho ta kết chấp nhận đƣợc trung bình đạt , nhiên, theo kết ta thấy phƣơng pháp dƣờng nhƣ phụ thuộc nhiều vào cấu trúc liệu đầu vào  Mơ hình ngƣời dùng-ngƣời dùng CF cho kết thấp mơ hình Đây điều nằm ngồi kì vọng q trình tìm hiểu mơ hình 65 KẾT LUẬN Các kết đạt đƣợc hạn chế Về mặt lý thuyết, luận văn trình bày đƣợc:  Các khái niệm học máy  Khái niệm ứng dụng hệ gợi ý mơ hình phổ biến hệ gợi ý  Các kĩ thuật phổ biến áp dụng hệ gợi ý  Về mặt thực nghiệp, luận văn trình bày đƣợc:  Cách cài đặt mơ hình thử nghiệm thành cơng Kết thực nghiệm chứng minh lý thuyết suy diễn lý thuyết đắn Do hạn chế mặt thời gian điều kiện nên chƣa cài đặt mơ hình kiểm thử với liệu lớn Các phƣơng pháp mức bản, cần mở rộng thêm Hƣớng phát triển Dựa kết đạt đƣợc, tơi nhận thấy cịn nhiều vấn đề cần giải sau Luận văn tốt nghiệp Cụ thể nhƣ sau:  Tăng hiệu khả tính tốn chƣơng trình  Áp dụng kĩ thuật thay cho SVD  Sử dụng thêm nhiều thông tin với liệu để đƣa dự đốn tốt phân loại nhóm ngƣời dùng, nhóm sản phẩm tốt  Ứng dụng Hệ thống gợi ý để xây dựng website – phần mềm Tƣ vấn, giới thiệu việc làm Trung tâm Dịch vụ việc làm Nghệ An  Xây dựng sở liệu từ ứng dụng Hệ thống gợi ý để phục vụ cho cơng tác Dự báo phân tích Thông tin thị trƣờng lao động 66 TÀI LIỆU THAM KHẢO [1] Tổng quan hệ tƣ vấn https://nttuyen.wordpress.com/2009/06/24/recommender-system-overview/ [2] Hệ thống gợi Ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác, Số tạp chí 31(2014) Trang: 36-51; Tác giả: Nguyễn Hùng Dũng, Nguyễn Thái Nghe http://sj.ctu.edu.vn/ql/docgia/download/baibao-7145/05CNTT_NGUYEN%20HUNG%20DUNG(36-51).pdf [3] Albert Au Yeung, Matrix Factorization: A Simple Tutorial And Implementation in Python, http://www.quuxlabs.com/blog/2010/09/matrixfactorization-a-simpletutorial-and-implementation-in-python/, on Sept 16, 2010 [4] Breese, J S., D Heckerman, and C Kadie Empirical analysis of predictive algorithms for collaborative filtering In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998 [5] F Ricci et al (eds.), Recommender Systems Handbook © Springer Science, 2011 [6] G.Adomavicius, A.Tuzhilin Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering,2005 [7] Large Scale Machine Learning http://www.holehouse.org/mlclass/17_Large_Scale_Machine_Learning.html [8] MOVIES, http://www.imdb.com/title/tt0468569/?ref_=nv_sr_2 MovieLens 20M Dataset, http://grouplens.org/datasets/movielens/1m/ [9] Introduction to Machine Learning in Python with scikit-learn http://ipython-books.github.io/featured-04/ [10] J Ben Schafer, Dan Frankowski, Jon Herlocker and Shilad Sen, Collaborative Filtering Recommender System, The Adaptive Web, LNCS 67 4321, pp.291-324, 2007 [11] Jennifer Nguyen, Mu Zhu, Content-booted Matrix Factorization Techniques for Recommender Systems, https://arxiv.org/pdf/1210.5631.pdf [12] Jure Leskovec (Standford Univ.), Anand Rajaraman (Milliway Labs), Jeffrey D Ullman (Standford Univ.), Mining Massive Dataset, Chapter 9, Chapter 11, http://infolab.stanford.edu/~ullman/mmds/book.pdf [13] Léon Bottou, Large-Scale Machine Learning with Stochastic Gradient Descent, NEC Labs America, Princeton NJ 08542, USA, http://leon.bottou.org/publications/pdf/compstat-2010.pdf [14] Lutz Prechelt, Early Stopping – But When?, Volume 7700 of the series Lecture Notes in Computer Science pp 53-67 [15] Michael J Pazzani, Daniel Billsus, Content-based Recommendation Systems, http://www.fxpal.com/publications/FXPAL-PR-06-383.pdf [16] Michel D Ekstrand, John T Riedl and Joseph A Konstan, Collaborative Filtering Recommender Systems, Foundations And Trends in HumanComputer Interaction Vol 4, No (2010) 81-173 [17] Ming Yang, Matrix Decomposition, Northwestern University Evanston, 76 IL 60208 http://www.ece.northwestern.edu/~mya671/files/Matrix_YM_.pdf [18] Oleksandr Krasnoshchok, Latent Factor Models: Matrix Factorization Methods, http://recommender.no/algorithms/latent-factor-modelsmatrixfactorization-methods/ [19] Scott Fortmann-Roe, Understanding Bias-variance tradeoff, http://scikitlearn.org/stable/auto_examples/model_selection/plot_underfitti ng_overfitt ing.html [20] Underfitting and overfitting, http://scikitlearn.org/stable/auto_examples/model_selection/plot_underfitti ng_overfitting.html 68 [21] Vladimir Nikulina, Geoffrey J McLachlan, Tian-Hsiang Huang, Shu-Kay Ng, Suren I Rathnayake, A very fast algorithm for matrix factorization, 2011 Elsevier B.V All rights reserved [22] Yehuda Koren, Robert Bell and Chris Volinsky, Matrix Factorization Techniques For Recommender Systems, 2009 IEEE 0018-9162/09, published by the IEEE Computer Society 69 ... hạng cao đƣợc dùng để gợi ý Có nhiều ứng dụng tiếng hệ thống gợi ý nhƣ: gợi ý sản phẩm Amazon Ebay, hệ thống gợi ý phim NetFlix Youtube, Hệ thống gợi ý chứng minh đƣợc ý nghĩa to lớn: giúp cho... SGD Stochastic Gradient Descent CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thơng tin (information filtering), đƣợc sử dụng... tiễn Hệ gợi ý đƣợc triển khai hầu hết hệ thống có tƣơng tác với ngƣời dùng Phổ biến hệ thống web Phổ biến hệ thống phim ảnh, nhạc, sách báo,… nhiều sản phẩm nói chung khác Khơng vậy, hệ gợi ý đƣợc

Định dạng
Số trang	69
Dung lượng	1,8 MB