Phƣơng pháp gợi ý theo lọc cộng tác

Khơng giống nhƣ phƣơng pháp gợi ý dựa theo nội dung, hệ thống gợi ý dựa theo lọc cộng tác (collaborative recommender systems) cố gắng dự đốn sự yêu thích của một ngƣời dùng c đối với một đối tƣợng s dựa trên những điểm số đánh giá của những ngƣời sử dụng khác tƣơng tự với ngƣời dùng c cho đối tƣợng s. Cụ thể hơn, u(c,s) của đối tƣợng s và ngƣời sử dụng c đƣợc đánh giá dựa trên các u(cj,s), là những điểm số đánh giá của những ngƣời sử dụng cj ϵ C “tƣơng tự” với ngƣời dùng c cho đối tƣợng s. Ví dụ trong một ứng dụng gợi ý phim để gợi ý các bộ phim tới ngƣời sử dụng c, hệ thống gợi ý dựa theo lọc cộng tác cố gắng tìm những ngƣời “tƣơng tự” sở thích với ngƣời dùng c. Sau đĩ, những bộ phim mà những ngƣời “tƣơng tự” yêu thích nhất sẽ đƣợc hệ thống gợi ý cho ngƣời dùng c.

Về mặt phân lớp, theo thì gợi ý dựa theo lọc cộng tác cĩ thể đƣợc chia làm hai nhĩm lớn: dựa theo bộ nhớ (memory-based hoặc heuristic-based) và dựa theo mơ hình (model-based).

2.2.2.1. Dựa theo bộ nhớ.

Các thuật tốn trong nhĩm này ,về cơ bản dựa theo kinh nghiệm ngƣời dùng. Chúng dựa trên tập hợp tồn bộ các đối tƣợng đã đƣợc đánh giá bởi ngƣời sử dụng. Cụ thể, giá trị của các cặp (đối tƣợng, ngƣời sử dụng) chƣa đƣợc đánh giá rc,s cho ngƣời dùng c và đối tƣợng s thƣờng đƣợc đánh giá qua một sự phân tích t ng hợp (aggregate) của những điểm số đánh giá (rating) của những ngƣời sử dụng khác cho cùng đối tƣợng s:

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

ở đây C là tập hợp biểu thị N ngƣời dùng “tƣơng tự” nhất với ngƣời dùng c mà họ cũng đánh giá đối tƣợng s. Một vài hàm t ng hợp cá thể là.

a) rc,s = ∑ , .

b) rc,s = k ∑ 𝑖 ( , ) , .

c) rc,s = + k ∑ 𝑖 ( , ) ( , ) .

Ở đây k nhƣ là một yếu tố chuẩn hĩa và thƣờng đƣợc lựa chọn: k= ∑

( , ) .

Và điểm số trung bình cho ngƣời sử dụng c, đƣợc định nghĩa nhƣ sau: =

∑ , . Với = { s ϵ S | rc,s ≠ Ø}.

Trong những trƣờng hợp đơn giản nhất, hàm t ng hợp cĩ thể là một hàm tính trung bình đơn giản khơng cĩ trọng số nhƣ trƣờng hợp a). Tuy nhiên, các tiếp cận ph biến nhất là t ng cĩ trọng số nhƣ trƣờng hợp b). Sự tƣơng tự giữa ngƣời sử dụng c và c‟ đƣợc kí hiệu là sim(c,c‟) chủ yếu thƣờng đƣợc dánh giá theo các phƣơng pháp tính khoảng cách và đƣợc sử dụng nhƣ là trọng số trong t ng. Nhƣ vậy sự tƣơng tự giữa hai ngƣời dùng c và c‟ càng lớn thì sự ảnh hƣởng của điểm số rc‟,s sẽ càng lớn trong điểm số dự đốn , . Một vấn đề khi sử dụng cơng thức b) là ở chỗ, nĩ khơng thể áp dụng cho trƣờng hợp những ngƣời sử dụng khác nhau cĩ thang điểm đánh giá khác nhau. Cơng thức c) giải quyết vấn đề này. Trong cơng thức này, thay vì sử dụng trực tiếp giá trị điểm số đánh giá, t ng cĩ trọng số này sử dụng sự chênh lệch điểm số đánh giá so với điểm số đánh giá trung bình của ngƣời sử dụng tƣơng ứng. Một phƣơng pháp tính độ tƣơng tự đƣợc trình bày bên dƣới.

Một loạt các cách tiếp cận khác nhau cĩ thể sự dụng để tính độ tƣơng tự sim(c,c‟) giữa những ngƣời sử dụng trong một hệ thống gợi ý lọc cộng tác. Hai cách tiếp cận ph biến nhất là tƣơng quan (correlation) và dựa vào cosine (cosin-based). Để miêu tả chúng, cho là tập tất cả những đối tƣợng đã đƣợc đồng thời đánh giá (rated) bởi hai ngƣời sử dụng x và y. Giả sử:

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

= {s ϵ S | rx,s ≠ Ø & ry,s ≠ Ø}.

thƣờng đƣợc sử dụng trực tiếp cho việc tính tốn láng giềng gần nhất (nearest neighbors) và thƣờng đƣợc tính tốn theo một phƣơng pháp đơn giản, bằng giao của 2 tập hợp và . Tuy nhiên, một vài cách tiếp cận nhƣ lý thuyết đồ thị cho gợi ý lọc cộng tác cĩ thể xác định láng giềng gần nhất mà khơng cần xác định . Trong cách tiếp cận dựa trên tƣơng quan, tƣơng quan Pearson thƣờng đƣợc đánh giá độ tƣơng tự , :

sim(x, y) ∑ ( , ̅)( , ̅ ) √∑ ( , ̅) ∑ ( , ̅ )

Trong cách tiếp cận dựa theo cosine , hai ngƣời sự dụng x,y đƣợc xem nhƣ hai vector trong khơng gian m chiều, ở đây m = | |. Sau đĩ độ tƣơng tự giữa hai ngƣời x,y đƣợc tính nhƣ sau:

sim(x, y) cos( , ) . ⃗

⃗ = ∑ , ,

√∑ , √∑ , .

Một cách tiếp cận khác để đánh giá độ tƣơng tự giữa những ngƣời sử dụng trung bình bình phƣơng độ khác biệt (mean squared difference). Một cách thức ph biến là tính tốn tất cả các độ tƣơng tự giữa những cặp ngƣời sử dụng trƣớc và chỉ tính tốn lại chúng một khi cĩ sự thay đ i thực sự rõ ràng trong một khoảng thời gian ngắn. Sau đĩ, bất cứ khi nào ngƣời sử dụng yêu cầu một sự gợi ý, những điểm số dự đốn cĩ thể đƣợc tính tốn một cách hiệu quả thơng qua việc sử dụng những kết quả về các độ tƣơng tự đã cĩ sẵn.

Cả hai phƣơng pháp gợi ý lọc cộng tác và dựa theo nội dung đều cĩ thể sử dụng phƣơng pháp đánh giá cosine từ lĩnh vực truy vấn thơng tin. Tuy nhiên, trong hệ thống gợi ý dựa theo nội dung, cosine đƣợc sử dụng để đánh giá độ tƣơng tự giữa vector hồ sơ ngƣời sử dụng và biểu diễn một đối tƣợng, trong khi hệ thống gợi

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

ý dựa theo lọc cộng tác, cosine đánh giá độ tƣơng tự giữa các vector điểm số đánh giá của ngƣời dùng.

Mặc dù phƣơng pháp gợi ý dựa theo lọc cộng tác truyền thống ở trên sử dụng phƣơng pháp tính tốn độ tƣơng tự giữa những ngƣời sử dụng, cũng sử dụng các kĩ thuật tƣơng quan Pearson và cosine để đánh giá độ tƣơng tự giữa những đối tƣợng (item) và dự đốn đƣợc điểm số đánh giá. Ý tƣởng này đƣợc mở rộng xa hơn trong cho việc gợi ý N đối tƣợng. Ngồi ra, , đã thực hiện kiểm nghiệm và thấy rằng các thuật tốn dựa trên đối tƣợng (item-based) cĩ hiệu quả tốt hơn phƣơng pháp gợi ý dựa theo cộng tác truyền thống dựa vào ngƣời sử dụng (used-based).

2.2.2.2. Dựa theo mơ hình.

Ngƣợc lại với cách tiếp cận dựa theo bộ nhớ, là cách tiếp cận dựa theo mơ hình. Cách tiếp cận này sử dụng tập hợp tất cả các điểm số đánh giá để “học” (learn) một mơ hình, mà sau đĩ đƣợc sử dụng để tạo ra các dự đốn. Ví dụ, sự dụng một cách tiếp cận xác suất, ở đĩ các điểm số chƣa biết đƣợc tính tốn theo cơng thức:

, = E( , ) = ∑ 𝑖 Pr( , 𝑖| , , s ϵ )

ở đây giả sử rằng các giá trị điểm số đánh giá là các số nguyên giữa 0 và n, và biểu thức xác suất là t ng các xác suất , = i với các điều kiện biết trƣớc là các ,

. Để đánh giá xác suất này, đã đƣa ra hai mơ hình xác suất khác: mơ hình phân nhĩm (cluster model) và mơ hình Bayesian network. Trong mơ hình phân nhĩm, những ngƣời dùng cùng sở thích đƣợc phân nhĩm vào cùng lớp. Cho trƣớc các lớp ngƣời sử dụng, điểm số đánh giá của mỗi ngƣời sử dụng giả sử là độc lập, mơ hình lúc này trở thành Na ̈ve Bayesian. Số lƣợng các lớp và các tham số của mơ hình đƣợc học từ tập dữ liệu. Mơ hình Bayesian network miêu tả mỗi đối tƣợng nhƣ là một nút (node) trong mạng Bayesian, mà ở đĩ trạng thái của mỗi nút tƣơng ứng với các giá trị điểm số cĩ thể cho mỗi đối tƣợng. Cả hai cách tiếp cận này đều học từ các dữ liêu huấn luyện. Một hạn chế của cách tiếp cận dựa theo mơ hình phân nhĩm là mỗi ngƣời sử dụng chỉ đƣợc phân vào một nhĩm trong khi vài ứng dụng gợi ý cĩ

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

thể thuận lợi hơn nếu ngƣời sử dụng đƣợc phân vào nhiều nhĩm. Ví dụ, trong ứng dụng gợi ý sách thì ngƣời sử dụng cĩ thể yêu thích nhiều hơn một chủ đề về sách cho nhiều mục đích khác nhau nhƣ học tập và giải trí.

Hơn nữa, cũng đƣa ra một phƣơng pháp gợi ý dựa theo lọc cộng tác, ở đĩ một loạt các kỹ thuật của học máy đƣợc sử dụng. Cả và so sánh hai cách tiếp cận dựa theo mơ hình và dựa theo bộ nhớ và thấy rằng cá phƣơng pháp học dựa theo mơ hình là vƣợt trội hơn các phƣơng pháp dựa theo bộ nhớ về độ chính xác. Tuy nhiên, sự so sánh của cả hai trƣờng hợp này hồn tồn dựa theo thực nghiệm và khơng cĩ cơ sở lý thuyết vững chắc để giải thích.

So sánh các phƣơng pháp gợi ý

Các hệ thống gợi ý lai