Nghiên cứu hệ thống gợi ý

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI DƢƠNG XUÂN PHÚC NGHIÊN CỨU HỆ THỐNG GỢI Ý CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : TS Đinh Viết Sang Hà Nội – Năm 2016 LỜI CAM ĐOAN Tôi Dƣơng Xuân Phúc, cam đoan Luận văn tốt nghiệp công trình nghiên cứu thân dƣới hƣớng dẫn TS Đinh Viết Sang Kết luận văn trung thực, không chép toàn văn công trình khác Hà Nội, ngày tháng năm 2016 Tác giả Dƣơng Xuân Phúc Xác nhận giáo viên hƣớng dẫn mức độ hoàn thành Luận văn tốt nghiệp cho phép bảo vệ: Hà Nội, ngày 21 tháng 10 năm 2016 Giáo viên hƣớng dẫn TS Đinh Viết Sang MỤC LỤC MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC CÁC BẢNG DANH MỤC CÁC TỪ VIẾT TẮT CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý .8 1.1 Hệ thống gợi ý 1.2 Ứng dụng thực tiễn 1.3 Phát biểu toán học .9 CHƢƠNG II CƠ SỞ LÝ THUYẾT 10 2.1 Ma trận 10 2.2.1 Định nghĩa 10 2.1.2 Các phép tính 10 2.1.3 Định thức ma trận 11 2.1.4 Ma trận nghịch đảo 11 2.1.5 Hạng Ma trận .12 2.1.6 Ma trận unitary 12 2.1.7 Giá trị riêng ma trận vec-tơ riêng 12 2.1.8 Ma trận giả nghịch đảo 12 2.1.9 Ma trận trực giao 13 2.2 Cơ học máy 13 2.2.1 Học có giám sát học không giám sát 13 2.2.2 Phân lớp hồi quy 14 2.2.3 Overfitting Underfitting 15 2.2.4 Tập huấn luyện, tập validation tập kiểm tra 16 2.2.5 Bias variance .17 2.2.6 Các phƣơng pháp chống overfitting 19 2.2.7 Lựa chọn mô hình 20 2.3 Trung bình bình phƣơng tối thiểu 21 CHƢƠNG III: CÁC KĨ THUẬT ÁP DỤNG TRONG HỆ GỢI Ý 22 3.1 Điểm TF.IDF 22 3.2 Chỉ số tƣơng đồng Jaccard 23 3.3 Độ tƣơng đồng cosine .24 3.4 Phƣơng pháp giảm số chiều không gian 25 3.4.1 Giới thiệu 25 3.4.2 Phƣơng pháp phân rã ma trận SVD 27 3.4.3 Phƣơng pháp giảm số chiều không gian 29 3.5 Các phƣơng pháp giảm giá trị hàm gradient descent 30 3.5.1 Gradient Descent (GD) 30 3.5.2 Stochastic Gradient Descent (SGD) 31 CHƢƠNG IV: CÁC MÔ HÌNH GỢI Ý 33 4.1 Dữ liệu .33 4.2 Cách đánh giá độ tốt mô hình 33 4.3 Các mô hình 34 4.3.1 Phƣơng pháp Content Base (CB) .34 4.3.2 Phƣơng pháp Collaborative Filtering (CF) 38 4.3.3 Phƣơng pháp hỗn hợp 45 4.3.4 Đánh giá giá trị Global Baseline 45 4.3.5 Phƣơng pháp Latent Factor (LF) 46 CHƢƠNG V: THỬ NGHIỆM CÁC MÔ HÌNH GỢI Ý 54 5.1 Mô tả liệu 54 5.2 Các mô hình kết thử nghiệm 58 5.3 So sánh đánh giá phƣơng pháp 64 KẾT LUẬN .66 TÀI LIỆU THAM KHẢO 67 DANH MỤC HÌNH ẢNH Hình - Mô tả kết đạt đƣợc hai mô hình phân loại hồi quy [11] 14 Hình - Mô hình underfitting, fitting overfitting với liệu [23] .16 Hình - Sự thay đổi giá trị bias variance theo mức độ học liệu huấn luyện mô hình [22] .18 Hình - Giá trị hàm mục tiêu tập huấn luyện [16] 20 Hình - Dữ liệu không gian ba chiều đƣợc biểu diễn mặt phẳng hai chiều [8] 25 Hình - Dữ liệu nhìn thấy biểu diễn xung quanh đƣờng thẳng [8] 26 Hình - Phân rã SVD ma trận [9] 29 Hình - Cách làm giảm số chiều phân rã SVD [9] 29 Hình - Ma trận nhận đƣợc sau thực giảm số chiều [9] 30 Hình 10 - Sự di chuyển hàm mục tiêu theo hai phƣơng pháp Gradient Descent Stochastic Gradient Descent [5] 31 Hình 11 - Ma trận đánh giá hệ gợi ý cách lấy tập liệu kiểm tra [10] .33 Hình 12 - Biểu đồ thể trình hoạt động CB [3] 37 Hình 13 - Mô tả trình gợi ý CF [7] 38 Hình 14 - Tác động ma trận cập nhật 51 Hình 15 - Ví dụ ghi liệu tập tin "users.dat" 54 Hình 16 - Ví dụ ghi liệu tập tin “movies.dat” 56 Hình 17 - Ví dụ ghi tập tin “ratings.dat” 58 Hình 18 - Cập nhật Stochastic Gradient Descent với (0.001, 0.002), k=1 .64 DANH MỤC CÁC BẢNG Bảng 1: Kết mô hình CB 61 Bảng 2: Kết cho mô hình ngƣời dùng- ngƣời dùng CF .62 Bảng 3: Kết mô hình sản phẩm-sản phẩm CF .62 Bảng 4: Kết chọn mô hình mô hình LF .64 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt TF IDF Tên đầy đủ Term Frequency Inverse Document Frequency SVD Singular Value Decomposition CB Content-based CF Collaborative Filtering LF Latent Factor GD Gradient Descent SGD Stochastic Gradient Descent CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thông tin (information filtering), đƣợc sử dụng để dự đoán sở thích (preference) hay xếp hạng (rating) mà ngƣời dùng dành cho mục thông tin (item) mà họ chƣa xem xét tới khứ (item báo, phim, đoạn video clip, sách, ) [11] nhằm gợi ý mục thông tin “có thể đƣợc quan tâm” ngƣời dùng Hệ thống gợi ý đƣa gợi ý dựa trình thu thập, xử lý phân tích liệu từ ngƣời dùng Dữ liệu đƣợc chia làm loại tường minh (explicit) cách yêu cầu ngƣời dùng phản hồi trực tiếp tiềm ẩn (implicit) cách tự động suy luận dựa tƣơng tác ngƣời dùng với hệ thống nhƣ: số lần nhấp chuột, thời gian quan sát Trong hầu hết trƣờng hợp, toán gợi ý đƣợc coi toán dự đoán việc xếp hạng (rating) sản phẩm (phim, sản phẩm tiêu dùng, sách, nhạc…) chƣa đƣợc ngƣời dùng biết đến Việc dự đoán thƣờng dựa đánh giá có ngƣời dùng ngƣời dùng khác Ví dụ, phim đƣợc dự đoán có xếp hạng cao đƣợc dùng để gợi ý Có nhiều ứng dụng tiếng hệ thống gợi ý nhƣ: gợi ý sản phẩm Amazon Ebay, hệ thống gợi ý phim NetFlix Youtube, Hệ thống gợi ý chứng minh đƣợc ý nghĩa to lớn: giúp cho ngƣời sử dụng trực tuyến đối phó với tình trạng tải thông tin Hệ thống gợi ý trở thành công cụ mạnh mẽ phổ biến thƣơng mại điện tử Mục đích hệ thống gợi ý dựa vào hành vi từ thói quen, nhu cầu khứ ngƣời sử dụng để dự đoán sở thích tƣơng lai họ 1.2 Ứng dụng thực tiễn Hệ gợi ý đƣợc triển khai hầu hết hệ thống có tƣơng tác với ngƣời dùng Phổ biến hệ thống web Phổ biến hệ thống phim ảnh, nhạc, sách báo,… nhiều sản phẩm nói chung khác Không vậy, hệ gợi ý đƣợc áp dụng cho chuyên gia, nhà nghiên cứu, nhà hàng, hệ thống tài chính, bảo hiểm,… Ta nhận thấy hệ gợi ý xung quanh có nhiều Các trang web nhƣ Youtube, Google, Facebook,… áp dụng hệ thống nhƣ để luôn giúp ngƣời dùng tìm kiếm thông tin, sản phẩm cách nhanh chóng Với ứng dụng nhƣ vậy, hệ gợi ý mang đến nhiều lợi ích to lớn cho ngƣời dùng hệ thống áp dụng Với ngƣời dùng, nhanh chóng tiếp cận đƣợc nguồn thông tin phù hợp, xác Tiết kiệm đƣợc thời gian cách đáng kể Với áp dụng tốt hệ gợi ý đƣợc ngƣời dùng ƣa thích đánh giá cao Ví dụ điển hình trang web nhƣ Youtube hay Google 1.3 Phát biểu toán học Các hệ thống gợi ý áp dụng cho nhiều lĩnh vực khác Tuy nhiên, toán đƣợc phát biểu dƣới dạng toán học nhƣ sau: U tập ngƣời dùng hệ thống I tập sản phẩm hệ thống đánh giá ngƣời dùng i ( ) cho sản phẩm j( ) Bằng mô hình hệ gợi ý, ta cần đƣa dự đoán cho đánh giá ngƣời dùng hệ thống cho sản phẩm mà ngƣời dùng chƣa đánh giá Và thực tế, sản phẩm đƣợc hệ gợi ý dự đoán ngƣời dùng đánh giá cao, đƣợc đƣa lên để gợi ý cho ngƣời dùng trải nghiệm CHƢƠNG II CƠ SỞ LÝ THUYẾT 2.1 Ma trận 2.2.1 Định nghĩa Ta có định nghĩa ma trận: [ ]=[ ] Trong đó: n số hàng, m số cột Ma trận có n=m ma trận vuông Phần tử phần tử nằm hàng thứ I cột thứ j; số thực số phức Trong khuôn khổ luân văn tốt nghiệp này, xét ma trận thực 2.1.2 Các phép tính  Phép cộng hai ma trận: Ta có hai ma trận: có tổng đƣợc định nghĩa là: [ ] [ ]  Phép nhân vô hƣớng: Phép nhân ma trận với số thực α đƣợc định nghĩa là: [ ] [ ]  Phép nhân hai ma trận: Phép nhân hai ma trận Tronng đó: đƣợc định nghĩa là: ∑ Phép nhân hai ma trận đƣợc xác định số cột ma trận thứ số hàng ma trận thứ hai Chú ý: Phép nhân hai ma trận tính giao hoán 10 Age: trƣờng thông tin độ tuổi ngƣời dùng 1: 0-18 18: 18-24 25: 25-34 35: 35-44 45: 45-49 50: 50-55 56: 56+ Occupation: trƣờng thông tin nghề nghiệp ngƣời dùng (Thông tin sau đƣợc giữ nguyên nhƣ mô tả liệu) 0: "other" or not specified 1: "academic/educator" 2: "artist" 3: "clerical/admin" 4: "college/grad student" 5: "customer service" 6: "doctor/health care" 7: "executive/managerial" 8: "farmer" 9: "homemaker" 10: "K-12 student" 11: "lawyer" 12: "programmer" 13: "retired" 14: "sales/marketing" 15: "scientist" 16: "self-employed" 17: "technician/engineer" 18: "tradesman/craftsman" 55 19: "unemployed" 20: "writer" Zip-code: Thông tin mã zip-code Không cần quan tâm đến trƣờng liệu Nhƣ vậy, ví dụ thông tin ngƣời dùng nhận đƣợc là: Ngƣời dùng có mã ngƣời dùng (UserID) , giới tính (Gender) nam, độ tuổi (Age) từ 25 đến 34 nghề nghiệp (occupation) làm ngành giáo dục (academic/educator)  Thông tin phim Tập tin “movies.dat” lƣu thông tin phim hệ thống Thông tin đƣợc cho dƣới định dạng: MovieID::Title::Genres Ví dụ: Hình 16 - Ví dụ ghi liệu tập tin “movies.dat” Các trƣờng thông tin: MovieID: Trƣờng thông tin mã ID phim Là giá trị số tự nhiên Title: Bao gồm tên phim năm xuất 56 Genres: Thể loại phim Trong tập tin đƣợc mô tả từ ngăn cách dấu duyệt thẳng “|” Trƣờng liệu thể loại đƣợc liệt kê dƣới (giữ nguyên theo tài liệu mô tả liệu) Action Adventure Animation Children's Comedy Crime Documentary Drama Fantasy Film-Noir Horror Musical Mystery Romance Sci-Fi Thriller War Western Với ví dụ đƣợc đƣa ra, ta có thông tin: phim có mã (MovieID) , tên phim Copycat đƣợc xuất năm 1995 Phim thuộc thể loại: Crime, Drama, Thriller  Thông tin đánh giá Đây thông tin đƣợc coi quan trọng mô hình gợi ý đƣợc áp dụng Các thông tin đánh giá đƣợc lƣu tập tin “ratings.dat” với định dạng: UserID::MovieID::Rating::Timestamp Ví dụ: 57 Hình 17 - Ví dụ ghi tập tin “ratings.dat” Các trƣờng liệu: UserID: trƣờng thông tin mã ngƣời dùng, mã phải tồn tƣơng ứng tập tin “users.dat” MovieID: trƣờng thông tin mã phim, mã phải tồn tƣơng ứng tập tin “movies.dat” Rating: trƣờng thông tin số điểm đánh giá ngƣời dùng cho phim Là giá trị số khoảng [ ] Timestamp: trƣờng thông tin thời gian ngƣời dùng đƣa đánh giá Đƣợc tính theo cách tính timestamp hệ thống Unix Nhƣ vậy, ví dụ chúng ta, ngƣời dùng với mã số 271 đánh giá phim mã số với số điểm thời điểm có nhãn thời gian (Fri, 19 Jan 2001 04:36:45 GMT) 5.2 Các mô hình kết thử nghiệm  Phân chia liệu Để đánh giá đƣợc mô hình ta phải có liệu huấn luyện giữ liệu kiểm tra Theo đó, ta chia liệu huấn luyện 80% tổng liệu lại liệu kiểm tra (20%) Trong giới hạn luận văn này, coi 58 phim đồng ngƣời dùng đồng Không xét đến liệu kèm (trừ trƣờng hợp áp dụng mô hình CB cần thông tin thể loại phim) Khi ta có cách chia liệu đơn giản nhƣ sau: Thủ tục: Phân chia liệu Bƣớc 1: Nhập vào số nguyên tố nhỏ 10, index1 index2 Bƣớc 2: Đọc lần lƣợt đánh giá từ tập tin ratings.dat Bƣớc 3: Lấy phần dƣ thứ tự đánh giá đó, index1 index2 đƣa vào tập kiểm tra, không đƣa vào liệu huấn luyện Bƣớc 4: Nếu chƣa hết gặp kí tự EOF tập tin ratings.dat quay lại bƣớc không kết thúc thủ tục  Nhắc lại cách xác định sai số mô hình Sai số mô hình đƣợc xác định theo giá trị trung bình bình phƣơng: √∑ ̂ đó, T tập liệu kiểm tra  Môi trƣờng thử nghiệm Các mô hình đƣợc cài đặt ngôn ngữ C++ môi trƣờng: Windown Trình biên dịch npp++ v7.1 Cấu hình máy: i CPU: Intel® Core™ i7-6700K (4.0GHz) ii RAM: 8.0Gb DDR4 @ 2133MHz  Mô hình CB Trong mô hình CB, cần xây dựng thông tin liên quan đến đặc trƣng sản phẩm Trong liệu phim ảnh này, sử dụng thông tin liên quan đến thể loại phim làm đặc trƣng Các bƣớc thực lấy đặc trƣng phim: Bƣớc 1: Đọc lần lƣợt phim tập tin “movies.dat” Bƣớc 2: Đọc vào thông tin mã phim 59 Bƣớc 3: Đọc thông tin thể loại phim cho mã phim tƣơng ứng bƣớc lƣu lại Bƣớc 4: Nếu chƣa gặp kí tự EOF tập tin “movies.dat” thực lại từ bƣớc không dừng thủ tục Trong mô hình CB, để đƣa đƣợc đánh giá trung thực hơn, ta áp dụng co tập liệu khác tập liệu đƣợc tách từ tập liệu ban đầu cách áp dụng thủ tục “phân chia liệu” nêu phần trƣớc với tham số đầu vào khác  Tập liệu (1): index1=0, index2=1  Tập liệu (2): index1=1, index2=2  Tập liệu (3): index1=2, index2=3  Tập liệu (4): index1=3, index2=4  Tập liệu (5): index1=4, index2=5  Tập liệu (6): index1=5, index2=6  Tập liệu (7): index1=6, index2=7  Tập liệu (8): index1=7, index2=8 Thủ tục đƣa hồ sơ ngƣời dùng: Bƣớc 1: Đọc giá trị đánh giá từ tập liệu huấn luyện Bƣớc 2: Lấy thông tin ngƣời dùng thứ đánh giá cho sản phẩm thứ giá trị Bƣớc 3: Cập nhật giá trị trung bình với đặc trƣng phim thứ hồ sơ ngƣời dùng thứ Bƣớc 4: Nếu chƣa hết tập huấn luyện quay lại bƣớc Thủ tục đƣa dự đoán đánh giá: Bƣớc 1: Duyệt lần lƣợt ngƣời dùng, giả sử thứ tự Bƣớc 2: Duyệt lần lƣợt sản phẩm, giả sử thứ tự , số lƣợng sản phẩm quay lại bƣớc Bƣớc 3: Nếu ngƣời dùng đánh giá cho sản phẩm quay lại bƣớc 60 Bƣớc 4: Đƣa dự đoán đánh giá ngƣời dùng cho sản phẩm cách tính trung bình đặc trƣng hồ sơ ngƣời dùng mà đặc trƣng có sản phẩm Bƣớc 5: Quay lại bƣớc Kết thử nghiệm đƣợc cho dƣới bảng sau: Bảng 1: Kết mô hình CB Tập liệu Kết (1) (2) (3) (4) (5) (6) (7) (8) 1.0268 1.0263 1.0262 1.0266 1.0577 1.0262 1.0305 1.0607 Trung bình: Err=1.044  Mô hình CF Trong mô hình CF, ta cài đặt thử nghiệm với hai mô hình ngƣời dùng-ngƣời dùng CF sản phẩm-sản phẩm CF Các tập liệu đƣợc sử dụng phần tƣơng tự nhƣ tập liệu đƣợc sử dụng mô hình CB Trong mô hình CF này, ta quan tâm đến tham số số lƣợng “hàng xóm” gần với đối tƣợng đƣợc xét Chúng ta sử dụng giá trị với tham số k=20 Các bƣớc thực mô hình: Bƣớc 1: Đọc liệu tập huấn luyện tạo ma trận đánh giá R Bƣớc 2: Trung bình hóa ma trận cosine centered Bƣớc 3: Tính giá trị cosine cho lần lƣợt ngƣời dùng (hoặc sản phẩm), thứ tự Bƣớc 4: Duyệt qua lần lƣợt sản phẩm (hoặc ngƣời dùng), giả sử thứ tự Bƣớc 5: Nếu đƣợc đánh giá, quay lại bƣớc Bƣớc 6: Nếu số sản phẩm (hoặc ngƣời dùng), quay lại bƣớc Bƣớc 7: Tìm k ngƣời dùng (hoặc sản phẩm) có giá trị cosine tƣơng đồng cao với ngƣời dùng (hoặc sản phẩm) i xét mà đánh giá sản phẩm (hoặc đƣợc đánh giá ngƣời dùng) 61 Bƣớc 8: Tính giá trị dự đoán đánh giá ngƣời dùng (sản phẩm) i cho sản phẩm (bởi ngƣời dùng) theo công thức … Bƣớc 9: Quay lại bƣớc Ta có bảng kết quả: Cho mô hình ngƣời dùng-ngƣời dùng CF Bảng 2: Kết cho mô hình người dùng- người dùng CF Tập liệu Kết mô hình (1) (2) (3) (4) (5) (6) (7) (8) 1.088 1.089 1.089 1.0612 0.999 1.001 1.046 1.087 Trung bình cho mô hình: Err=1.0575 Cho mô hình sản phẩm-sản phẩm CF Bảng 3: Kết mô hình sản phẩm-sản phẩm CF Tập liệu k=20 (1) (2) (3) (4) (5) (6) (7) (8) 0.9603 0.9594 0.9598 0.9630 0.9604 0.9605 0.9605 0.9608 Trung bình cho mô hình: Err=0.9606  Mô hình LF Trong mô hình LF, ta cần phải có tập liệu validation để đánh giá độ tốt để chọn giá trị tham số α (learning rate) (tham số regularization) cho phù hợp Để chọn tập liệu validation ta tách từ tập liệu huấn luyện có (tập liệu gồm 80% tổng liệu đƣợc chia từ ban đầu) Để chống mô hình bị overfitting, ta sử dụng phƣơng pháp regularization Chọn mô hình ta sử dụng phƣơng pháp k-fold cross validation với k = Nhƣ vậy, ta cần chia tập liệu huấn luyện làm phần Ta chọn tham số ( ) cách tìm tham số tốt tham số: (0.001,0.002), (0.003,0.002), (0.003,0.004), (0.009,0.004), (0.009,0.008) 62 Nhƣ vậy, với tham số, ta chạy k-fold cross validation với k=4 (chạy lần với fold) Sau đó, đƣa giá trị sai số trung bình cho mô hình với tham số tƣơng ứng Ta chọn tham số có sai số trung bình nhỏ để làm tham số cho mô hình chạy tập liệu kiểm tra Từ đƣa đánh giá cuối cho mô hình áp dụng Ta xét số giả mã đoạn chƣơng trình quan trọng mô hình này: Giải thuật Stochastic Gradient Descent Đầu vào: ma trận | | Bƣớc 1: Tính giá trị sai số cho mô hình thời điểm bao đầu ̂ Bƣớc 2: Tính ma trận: ̂ ̂ Bƣớc 3: Tính giá trị giá trị điểm có đánh giá) Bƣớc 4: Tính giá trị cập nhật cho coi số ( Bƣớc 5: Tính giá trị cập nhật cho ) coi số ( ) Bƣớc 6: Tính giá trị cho ma trận: ̂ ̂ Bƣớc 7: Tính ƣớc lƣợng sai số Bƣớc 8: Nếu thay đổi lớn lớn ngƣỡng đặt ra, quay lại bƣớc 63 Hình 18 - Cập nhật Stochastic Gradient Descent với (0.001, 0.002), k=1 Bảng kết giá trị sai số tập validation với tham số fold Bảng 4: Kết chọn mô hình mô hình LF k= Trung bình (0.001,0.002) 0.913601 0.918415 0.917965 0.913602 0.915897 (0.003,0.002) 0.913602 0.918416 0.917965 0.913601 0.915746 (0.003,0.004) 0.913615 0.918421 0.917973 0.913615 0.915904 (0.009,0.004) 0.913607 0.918416 0.917967 0.913607 0.915899 (0.009,0.008) 0.913619 0.918423 0.917975 0.913615 0.916536 Theo kết bảng trên, ta sử dụng mô hình với tham số để tính toán kết tập kiểm tra Kết tập kiểm tra với mô hình: Err= 0.916379 5.3 So sánh đánh giá phƣơng pháp Từ kết trên, ta rút đƣợc số kết luận sau:  Mô hình LF cho kết tốt mô hình cài đặt, nhƣ kì vọng tìm hiểu phƣơng pháp 64  Mô hình sản phẩm-sản phẩm CF cho kết tốt so với mô hình ngƣời dùng-ngƣời dùng CF  Mô hình CB cho ta kết chấp nhận đƣợc trung bình đạt , nhiên, theo kết ta thấy phƣơng pháp dƣờng nhƣ phụ thuộc nhiều vào cấu trúc liệu đầu vào  Mô hình ngƣời dùng-ngƣời dùng CF cho kết thấp mô hình Đây điều nằm kì vọng trình tìm hiểu mô hình 65 KẾT LUẬN Các kết đạt đƣợc hạn chế Về mặt lý thuyết, luận văn trình bày đƣợc:  Các khái niệm học máy  Khái niệm ứng dụng hệ gợi ý mô hình phổ biến hệ gợi ý  Các kĩ thuật phổ biến áp dụng hệ gợi ý  Về mặt thực nghiệp, luận văn trình bày đƣợc:  Cách cài đặt mô hình thử nghiệm thành công Kết thực nghiệm chứng minh lý thuyết suy diễn lý thuyết đắn Do hạn chế mặt thời gian điều kiện nên chƣa cài đặt mô hình kiểm thử với liệu lớn Các phƣơng pháp mức bản, cần mở rộng thêm Hƣớng phát triển Dựa kết đạt đƣợc, nhận thấy nhiều vấn đề cần giải sau Luận văn tốt nghiệp Cụ thể nhƣ sau:  Tăng hiệu khả tính toán chƣơng trình  Áp dụng kĩ thuật thay cho SVD  Sử dụng thêm nhiều thông tin với liệu để đƣa dự đoán tốt phân loại nhóm ngƣời dùng, nhóm sản phẩm tốt  Ứng dụng Hệ thống gợi ý để xây dựng website – phần mềm Tƣ vấn, giới thiệu việc làm Trung tâm Dịch vụ việc làm Nghệ An  Xây dựng sở liệu từ ứng dụng Hệ thống gợi ý để phục vụ cho công tác Dự báo phân tích Thông tin thị trƣờng lao động 66 TÀI LIỆU THAM KHẢO [1] Tổng quan hệ tƣ vấn https://nttuyen.wordpress.com/2009/06/24/recommender-system-overview/ [2] Hệ thống gợi Ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác, Số tạp chí 31(2014) Trang: 36-51; Tác giả: Nguyễn Hùng Dũng, Nguyễn Thái Nghe http://sj.ctu.edu.vn/ql/docgia/download/baibao-7145/05CNTT_NGUYEN%20HUNG%20DUNG(36-51).pdf [3] Albert Au Yeung, Matrix Factorization: A Simple Tutorial And Implementation in Python, http://www.quuxlabs.com/blog/2010/09/matrixfactorization-a-simpletutorial-and-implementation-in-python/, on Sept 16, 2010 [4] Breese, J S., D Heckerman, and C Kadie Empirical analysis of predictive algorithms for collaborative filtering In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998 [5] F Ricci et al (eds.), Recommender Systems Handbook © Springer Science, 2011 [6] G.Adomavicius, A.Tuzhilin Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering,2005 [7] Large Scale Machine Learning http://www.holehouse.org/mlclass/17_Large_Scale_Machine_Learning.html [8] MOVIES, http://www.imdb.com/title/tt0468569/?ref_=nv_sr_2 MovieLens 20M Dataset, http://grouplens.org/datasets/movielens/1m/ [9] Introduction to Machine Learning in Python with scikit-learn http://ipython-books.github.io/featured-04/ [10] J Ben Schafer, Dan Frankowski, Jon Herlocker and Shilad Sen, Collaborative Filtering Recommender System, The Adaptive Web, LNCS 67 4321, pp.291-324, 2007 [11] Jennifer Nguyen, Mu Zhu, Content-booted Matrix Factorization Techniques for Recommender Systems, https://arxiv.org/pdf/1210.5631.pdf [12] Jure Leskovec (Standford Univ.), Anand Rajaraman (Milliway Labs), Jeffrey D Ullman (Standford Univ.), Mining Massive Dataset, Chapter 9, Chapter 11, http://infolab.stanford.edu/~ullman/mmds/book.pdf [13] Léon Bottou, Large-Scale Machine Learning with Stochastic Gradient Descent, NEC Labs America, Princeton NJ 08542, USA, http://leon.bottou.org/publications/pdf/compstat-2010.pdf [14] Lutz Prechelt, Early Stopping – But When?, Volume 7700 of the series Lecture Notes in Computer Science pp 53-67 [15] Michael J Pazzani, Daniel Billsus, Content-based Recommendation Systems, http://www.fxpal.com/publications/FXPAL-PR-06-383.pdf [16] Michel D Ekstrand, John T Riedl and Joseph A Konstan, Collaborative Filtering Recommender Systems, Foundations And Trends in HumanComputer Interaction Vol 4, No (2010) 81-173 [17] Ming Yang, Matrix Decomposition, Northwestern University Evanston, 76 IL 60208 http://www.ece.northwestern.edu/~mya671/files/Matrix_YM_.pdf [18] Oleksandr Krasnoshchok, Latent Factor Models: Matrix Factorization Methods, http://recommender.no/algorithms/latent-factor-modelsmatrixfactorization-methods/ [19] Scott Fortmann-Roe, Understanding Bias-variance tradeoff, http://scikitlearn.org/stable/auto_examples/model_selection/plot_underfitti ng_overfitt ing.html [20] Underfitting and overfitting, http://scikitlearn.org/stable/auto_examples/model_selection/plot_underfitti ng_overfitting.html 68 [21] Vladimir Nikulina, Geoffrey J McLachlan, Tian-Hsiang Huang, Shu-Kay Ng, Suren I Rathnayake, A very fast algorithm for matrix factorization, 2011 Elsevier B.V All rights reserved [22] Yehuda Koren, Robert Bell and Chris Volinsky, Matrix Factorization Techniques For Recommender Systems, 2009 IEEE 0018-9162/09, published by the IEEE Computer Society 69 ... hạng cao đƣợc dùng để gợi ý Có nhiều ứng dụng tiếng hệ thống gợi ý nhƣ: gợi ý sản phẩm Amazon Ebay, hệ thống gợi ý phim NetFlix Youtube, Hệ thống gợi ý chứng minh đƣợc ý nghĩa to lớn: giúp cho... SGD Stochastic Gradient Descent CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG GỢI Ý 1.1 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems - RS) dạng hệ thống lọc thông tin (information filtering), đƣợc sử dụng... tiễn Hệ gợi ý đƣợc triển khai hầu hết hệ thống có tƣơng tác với ngƣời dùng Phổ biến hệ thống web Phổ biến hệ thống phim ảnh, nhạc, sách báo,… nhiều sản phẩm nói chung khác Không vậy, hệ gợi ý đƣợc

Định dạng
Số trang	69
Dung lượng	1,67 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Tổng quan về hệ tƣ vấn - https://nttuyen.wordpress.com/2009/06/24/recommender-system-overview/	Link
[2] Hệ thống gợi Ý sản phẩm trong bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác, Số tạp chí 31(2014) Trang: 36-51; Tác giả: Nguyễn Hùng Dũng, Nguyễn Thái Nghehttp://sj.ctu.edu.vn/ql/docgia/download/baibao-7145/05-CNTT_NGUYEN%20HUNG%20DUNG(36-51).pdf	Link
[3] Albert Au Yeung, Matrix Factorization: A Simple Tutorial And Implementation in Python, http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simpletutorial-and-implementation-in-python/, on Sept 16, 2010	Link
[9] Introduction to Machine Learning in Python with scikit-learn http://ipython-books.github.io/featured-04/	Link
[4] Breese, J. S., D. Heckerman, and C. Kadie. Empirical analysis of predictive algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998	Khác
[10] J. Ben Schafer, Dan Frankowski, Jon Herlocker and Shilad Sen, Collaborative Filtering Recommender System, The Adaptive Web, LNCS	Khác