Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
1,54 MB
Nội dung
TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mục tiêu tốn Recommender System cịn gọi hệ thống gợi ý, lớp hệ thống lọc thơng tin nhằm mục đích "đốn" đánh giá mức độ tương quan, liên quan người dùng với sản phẩm, hàng hóa, nội dung TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Collaborative filtering (Lọc cộng tác) Collaborative filtering và cách tiếp cận sửa đổi phương pháp (như user-based CF hay item-based CF) số thuật toán gợi ý sử dụng phần lớn TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải tốn Collaborative filtering (Lọc cộng tác) Khi muốn gợi ý thứ cho khách hàng, cách làm logic có thể làm tìm người có sở thích có quan tâm, phân tích hành vi họ gợi ý cho khách hàng mặt hàng tương tự TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Collaborative filtering (Lọc cộng tác) Hoặc tìm đến mặt hàng, sản phẩm mà tương tự với mặt hàng, sản phảm mà khách hàng mua trước đó, sau gợi ý sản phẩm mang tính tương tự cho khách hàng TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải tốn Collaborative filtering (Lọc cộng tác) Phương pháp có hai bước bản: 1. Tìm số lượng users/items database có liên quan đến users/items có 2. Đánh giá users/items khác để dự đoán mức độ quan tâm/ liên quan người dùng sản phẩm này, dựa tổng số users/items có độ liên quan cao hơn. TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Collaborative filtering (Lọc cộng tác) Ở phương pháp này, để tính độ tương quan, có hai kỹ thuật sử dụng rộng rãi Cosine similarity Correlation hai vector users/items TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Collaborative filtering (Lọc cộng tác) TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Alternating Least Square (ALS), Singular Value Decomposition (SVD) TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Trong đại số tuyến tính, SVD dạng ma trận thừa số hóa (matrixfactorization) nhằm phân tích ma trận thành tích ma trận số thực ma trận số phức Một ma trận Am×n phân tích thành dạng: TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Số lượng phần tử khác Σ rank ma trận A Có thể mơ tả SVD ma trận Am×n trong hai trường hợp mn với Σ ma trận đường chéo với phần tử giảm dần không âm, màu đỏ đậm thể giá trị cao, ô màu trắng ma trận thể giá trị 0. Trong trường hợp m=n xếp vào hai trường hợp TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Các phép giảm chiều SVD: • Compact SVD Với Ur, Vr ma trận tạo r cột U V.Σr ma trận tạo r hàng r cột Σ Nếu ma trận A có rank nhỏ nhiều so với tổng số hàng số cột r≪m,n ta có lợi việc lưu trữ TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Các phép giảm chiều SVD: • Compact SVD : Ví dụ minh họa với m=4, n=6, r=2 biểu diễn SVD dạng thu gọn và biểu diễn ma trận dạng tổng ma trận có rank TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Matrix decomposition (Phân rã ma trận) Ứng dụng thuật toán SVD giảm chiều liệu: Các ma trận Ak gần khít với A rank k nên ta dùng SVD để giảm chiều liệu Việc giảm chiều liệu giúp ta có khả biểu diễn liệu cách xác đồ thị Giả sử ta có tập liệu chiều ta muốn biểu diễn tập liệu đồ thị ta dùng SVD để giảm chiều liệu Việc giảm chiều liệu giữ đặc trưng liệu giúp số lượng tham số cần tính tốn nên tính tốn nhanh TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM Alternating least squares (ALS) • ALS hay cịn gọi phương pháp bình phương tối thiểu thay phiên Gọi thay phiên hàm mát có biến ta thay phiên cố định biến tối ưu hàm theo biến lại Khi cố định biến hàm trở thành hàm bậc giải phương pháp bình phương tối thiểu Việc cố định biến tính tốn lại biến cịn lại thực điểm hội tụ lại điểm cực tiểu • Đây thuật tốn hỗ trợ pyspark chạy song song TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating Least Square (ALS): TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating Least Square (ALS): Cho x1 , , xn k hệ số cho người dùng y1, , ym k hệ số các item Ma trận k × n người dùng X ma trận k × m item Y sau xác định như sau: TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating Least Square (ALS): • Mục tiêu tốn sau ước tính ma trận xếp hạng hồn chỉnh R ≈ X Y. Có thể hình dung tốn tốn tối ưu hóa, chúng ta nhằm tối thiểu hóa hàm mục tiêu tìm X Y tối ưu Đặc biệt, nhằm mục đích giảm thiểu sai số bình phương nhỏ rating quan sát được dung cơng thức sau: TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating Least Square (ALS): Cách tiếp cận giữ Y tối ưu hóa X, sau giữ X tối ưu hóa Y, lặp lại hội tụ Thuật toán ALS có cơng thức sau: TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các Phương pháp tiếp cận ALS: Phương pháp (Join): Phương pháp 2 (broadcast): TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM Phương pháp (Join): •Trong phương pháp này, tất liệu (rating) tham số (X Y) lưu trữ RDD Cụ thể, rating lưu trữ dạng RDD sau: • X Y lưu dạng RDD sau: TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM Phương pháp (Join): •Thực lặp X theo cơng thức sau: TÌM HIỂU VỀ BÀI TOÁN RECOMMENDERSYSTEM Phương pháp (Join): • Tính A B theo bước sau: Join rating với Y cách sử dụng khóa Y (hiểu cách khác Id Item) Để tính yiyi map với Id user ReduceByKey Id user để tính Nghịch đảo A Thực lại Bước lần để tính B TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM Phương pháp (broadcast): • Các bước thực hiện: Phân vùng rating theo người dùng để tạo R1 tương tự phân vùng rating theo item để tạo R2 Trong R1, tất rating người dùng machine R2, tất rating cho item machine Broadcast X, Y (Đây ma trận cục bộ, RDD) Sử dụng R1 Y, áp dụng phương trình sau để tính toán cập nhật cục máy Sử dụng R2 X, tương tự bước tính tốn cục máy TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán Clustering (Phân cụm): K-Nearest Neighbor (KNN), K-Means, Deep learning model (Mơ hình học sâu): Neural Network, DEMO VỀ BÀI TOÁN RECOMMENDERSYSTEM ... hai vector users/items TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải tốn Collaborative filtering (Lọc cộng tác) TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán... xếp vào hai trường hợp TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải tốn Matrix decomposition (Phân rã ma trận) TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Các phương pháp giải toán... trợ pyspark chạy song song TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating Least Square (ALS): TÌM HIỂU VỀ BÀI TỐN RECOMMENDERSYSTEM • Mơ hình thuật tốn của Alternating