Phân tích ma trận thành nhân tử (Matrix Factorizatio n MF)

Một phần của tài liệu Ứng dụng học máy trong xây dựng hệ thống gợi ý,khoá luận tốt nghiệp (Trang 48 - 50)

Theo Koren & cộng sự: “Kỹ thuật Phân tích ma trận thành nhân tử là việc chia một ma trận lớn R thành hai ma trận W1 W2 có kích thước nhỏ hơn rất nhiều so với ma trận R, sao cho R có thể được xây dựng lại từ hai ma trận nhỏ hơn này càng chính xác càng tốt”. [9]

Hình 9. Minh họa kỹ thuật phân rã ma trận

Khóa luận tốt nghiệp Ứng dụng học máy trong xây dựng hệ khuyến nghị tự động Trong đó:

- W1 ∈ Rux κ là ma trận mà mỗi dòng U là một véc tơ bao gồm K nhân tố tiềm ẩn mô tả tương ứng cho một người dùng U ( K < < U ) .

- W2∈ RỊxκ là ma trận mà mỗi dòng i là một véc tơ bao gồm K nhân tố tiềm ẩn mô tả tương ứng cho một mục tin .

Ý tưởng chính của Matrix Factorization là tồn tại các tính chất ẩn (latent features) mô tả sự liên quan giữa các mục tin và người dùng. Ví dụ với Hệ thống gơi ý các bài hát, tính chất ẩn có thể là nhạc đỏ, nhạc vàng, nhạc trẻ, nhạc trữ tình,...; tính chất ẩn cũng có thể là sự kết hợp giữa các thể loại này. Mỗi mục tin sẽ mang latent features ở một mức độ nào đó tương ứng với các hệ số trong vector mô tả nó, hệ số càng cao tương ứng với việc mang tính chất đó càng cao => nên gợi ý item này cho user đó.

Vì vậy vấn đề then chốt của kỹ thuật Matrix Factorization là tìm được giá trị của hai tham số W1 và W2. Chúng là các tham số mô hình (hay còn gọi là các ma trận nhân tố tiềm ẩn). Hai tham số này có được bằng cách tối ưu hóa hàm mục tiêu (4) theo một điều kiện nào đó. Thông dụng nhất trong RS là hàm lỗi RMSE (root mean squared error) như đã trình bày ở chương 2 là:

1

RMSE =(τui-fui)2

I^ te s t|,.

u, ι,τ∈Dιes f

Hàm mục tiêu dùng cho việc tối ưu hoá là:

0«" = ∑ (Ru - W,X)2+ λ (∣∣W1∣∣" + ∣∣W2 "∣∣) (4)

(u, l∈R )

Với λ là một regularization (hệ số chính tắc hóa) với 0 ≤ λ <1 và Il . II" là chuẩn Frobenius (tức căn bậc hai của tổng bình phương tất cả các phần tử của ma trận). Đại lượng λ (IIW1II" + ∣∣W2 Il") được dùng để điều khiển độ lớn của các giá trị trong W1 và

W2, ngăn ngừa over-fitting (sự quá khớp) [10].

Cũng theo Koren (2009): Để tối ưu hóa hàm mục tiêu, người ta có thể dùng phương pháp giảm dốc ngẫu nhiên (stochastic gradient descent - SGD) [9]. Để tìm nghiệm của bài toán tối ưu này, ta phải lần lượt đi tìm và khi thành phần còn lại được cố định (đạo hàm) => Mỗi hàng của W1sẽ phụ thuộc vào toàn bộ các cột của W2và ngược lại. Như vậy tồn tại những mỗi quan hệ ràng buộc giữa các thành phần của hai ma trận trên. Vậy nên phương pháp MF được xếp vào Lọc cộng tác. Sau quá trình tối ưu nhiều bước và phức tạp, ta có được hai tham số và . Giả sử gọi:

- Wuk và Wlk lần lượt là các phần tử tương ứng của hai ma trận W1và W2.

CHƯƠNG 3:^ƯNG DỤNG HỌC MÁY TRONG XÂY DỰNG HỆ

KHUYẾN NGHỊ CHO WEBSITE “DI ĐỘNG VIỆT”

Một phần của tài liệu Ứng dụng học máy trong xây dựng hệ thống gợi ý,khoá luận tốt nghiệp (Trang 48 - 50)

Tải bản đầy đủ (DOCX)

(69 trang)
w