tài liệu nghiên xứu MF matrix

11 8 0
tài liệu nghiên xứu MF matrix

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Câu 3 Nghiên cứu MF Matrix Factorization Phương pháp gợi ý dựa trên kỹ thuật phân rã ma trận 1 Khái niệm Matrix Factorization là một hướng tiếp cận khác của Collaborative Filtering, còn gọi là Matrix.

Câu 3: Nghiên cứu MF Matrix Factorization: Phương pháp gợi ý dựa kỹ thuật phân rã ma trận Khái niệm Matrix Factorization hướng tiếp cận khác Collaborative Filtering, gọi Matrix Decomposition, nghĩa gợi ý "kỹ thuật phân rã ma trận" Kỹ thuật phân rã ma trận phương pháp chia ma trận lớn X thành hai ma trận có kích thước nhỏ W H, cho ta xây dựng lại X từ hai ma trận nhỏ xác tốt, nghĩa Có thể hiểu rằng, ý tưởng Matrix Factorization đặt items users vào không gian thuộc tính ẩn Trong đó, ma trận mà dòng u vector bao gồm K nhân tố tiềm ẩn (latent factors) mô tả user u ma trận mà dòng i vector bao gồm K nhân tố tiềm ẩn mô tả cho item i Áp dụng phương pháp vào tốn gợi ý, có x vector item profile Mục tiêu tìm vector w tương ứng với user cho ratings biết user cho item (y) xấp xỉ với: Mở rộng với Y utility matrix, giả sử điền hết giá trị, ta có: với M, N số users số items Lưu ý, X xây dựng dựa thơng tin mơ tả item q trình xây dựng độc lập với trình tìm hệ số phù hợp cho user nên việc xây dựng item profile đóng vai trị quan trọng ảnh hưởng trực tiếp đến hiệu mơ hình Thêm nữa, việc xây dựng mơ hình riêng lẻ cho user dẫn đến kết chưa thực tốt khơng khai thác đặc điểm giống user Giả sử ta không cần xây dựng trước item profile mà ma trận huấn luyện đồng thời với ma trận trọng số, hay nói khác tốn tốn tối ưu ma trận X W, X ma trận toàn item profiles, hàng tương ứng với item Còn W ma trận tồn user models (các mơ hình users), cột tương ứng với user Chúng ta cố gắng xấp xỉ utility matrix tích hai ma trận Trong đó, K chọn thường nhỏ nhiều so với M N, hai ma trận X W phải có bậc (rank) khơng vượt q K Xây dựng tối ưu hàm mát Cụ thể, quy trình xây dựng tối ưu hàm mát sau: 2.1 Hàm mát Đầu tiên, xét hàm mát khơng có bias biến tối ưu cho X W: Trong đó, item thứ m đánh giá user thứ n, ‖○‖ bậc hai tổng bình phương tất phần tử ma trận, s toàn số ratings có Thành phần thứ trung bình sai số mơ hình Thành phần thứ hai hàm mát phía, có tách dụng giúp tránh overfitting Lưu ý, tương tự NBCF, giá trị ratings sử dụng giá trị chuẩn hóa, cách trừ trung bình cộng giá trị ratings biết hàng (với iiCF) cột (với uuCF) – trước Trong số trường hợp, ta khơng cần chuẩn hóa ma trận utility matrix trường hợp phải dùng kĩ thuật khác để giải tính cá nhân ratings Tiếp theo, tối ưu X W cách cố định ma trận tối ưu ma trận lại hội tụ 2.2 Tối ưu hàm mát Khi cố định X, việc tối ưu W tốn tối ưu Content-based Filtering: Ngược lại, cố định W, việc tối ưu X đưa tối ưu hàm: Hai toán tối ưu Gradient Descent Chúng ta thấy rằng, tốn tối ưu W tách thành N toán nhỏ (N số lượng users), toán tương ứng với việc tối ưu cột ma trận W Sau cố định X, tính W ngược lại, cố định W tính X ma trận hội tụ, ta thu ma trận X W cần tìm Từ đó, dự đốn giá trị ratings chưa biết Ngoài phương pháp trên, để tăng độ xác thuật tốn này, ta xét hàm mát với bias hệ số tối ưu cho X W Như NBCF, có bước chuẩn hóa ma trận để tránh thiên lệch khó ttính hay dễ tính khác users Với MF, ta chuẩn khơng chuẩn hóa mà sử dụng trực tiếp giá trị ratings ban đầu, cách tối ưu biases lúc với X W Trong trường hợp này, ratings user m cho item n xác định công thức: Cuối cùng, ta thu ma trận X, b, W, d, từ dự đốn ratings chưa biết Trên lý thuyết Matrix Factorization Nghiên cứu KNN KNN gì? KNN (K-Nearest Neighbors) thuật tốn học có giám sát đơn giản sử dụng nhiều khai phá liệu học máy Ý tưởng thuật tốn khơng học điều từ tập liệu học (nên KNN xếp vào loại lazy learning), tính tốn thực cần dự đốn nhãn liệu Lớp (nhãn) đối tượng liệu dự đốn từ lớp (nhãn) k hàng xóm gần Ví dụ: Giả sử ta có D tập liệu phân loại thành nhãn (+) (-) biểu diễn trục tọa độ hình vẽ điểm liệu A chưa biết nhãn Vậy làm cách để xác định nhãn A (+) hay (-)? Có thể thấy cách đơn giản so sánh tất đặc điểm liệu A với tất tập liệu học gắn nhãn xem giống nhất, liệu (đặc điểm) A giống với liệu điểm mang nhãn (+) điểm A mang nhãn (+), liệu A giống với liệu nhãn (-) mang nhãn (-), trơng đơn giản mà KNN làm Trong trường hợp KNN, thực tế khơng so sánh liệu (khơng phân lớp) với tất liệu khác, thực tế thực phép tính tốn học để đo khoảng cách liệu với tất điểm tập liệu học D để thực phân lớp Phép tính khoảng cách điểm Euclidian, Manhattan, trọng số, Minkowski, … Các bước KNN - Ta có D tập điểm liệu gắn nhãn A liệu chưa phân - loại Đo khoảng cách (Euclidian, Manhattan, Minkowski, Minkowski Trọng số) từ - liệu A đến tất liệu khác phân loại D Chọn K (K tham số mà bạn định nghĩa) khoảng cách nhỏ Kiểm tra danh sách lớp có khoảng cách ngắn đếm số lượng lớp - xuất Lấy lớp (lớp xuất nhiều lần nhất) Lớp liệu lớp mà bạn nhận bước Ví dụ: Giả sử ta có tập liệu D có gắn nhãn gồm 15 điểm ảnh - Điểm cần dự đoán nhãn A(3,9) Ta tính khoảng cách từ điểm A đến điểm liệu D công thức - Euclidian Ta chọn K= 5, tìm điểm có khoảng cách gần với điểm A Trong điểm ta thấy có điểm mang nhãn (+) điểm mang nhãn (-) Vậy ta đưa kết luận điểm A cần dự đoán mang nhãn (+) Ưu điểm Thuật toán đơn giản, dễ dàng triển khai Độ phức tạp tính tốn nhỏ Xử lý tốt với tập liệu nhiễu Nhược điểm Với K nhỏ dễ gặp nhiễu dẫn tới kết đưa khơng xác Cần nhiều thời gian để thực phải tính tốn khoảng cách với tất đối tượng tập liệu Cần chuyển đổi kiểu liệu thành yếu tố định tính ... giản so sánh tất đặc điểm liệu A với tất tập liệu học gắn nhãn xem giống nhất, liệu (đặc điểm) A giống với liệu điểm mang nhãn (+) điểm A mang nhãn (+), liệu A giống với liệu nhãn (-) mang nhãn... cần dự đoán nhãn liệu Lớp (nhãn) đối tượng liệu dự đốn từ lớp (nhãn) k hàng xóm gần Ví dụ: Giả sử ta có D tập liệu phân loại thành nhãn (+) (-) biểu diễn trục tọa độ hình vẽ điểm liệu A chưa biết... thuyết Matrix Factorization Nghiên cứu KNN KNN gì? KNN (K-Nearest Neighbors) thuật tốn học có giám sát đơn giản sử dụng nhiều khai phá liệu học máy Ý tưởng thuật tốn khơng học điều từ tập liệu

Ngày đăng: 25/10/2022, 19:42

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan