Các thuật toán lọc cộng tác dựa trên ghi nhớ (người dùng) đã khá thành công trong quá khứ song khi sử du ̣ng cho những ứng du ̣ng lớn, xuất hiê ̣n mô ̣t số vấn đề như:
Sƣ̣ rải rác (Sparsity): Trong thực tế, nhiều hê ̣ tư vấn thương ma ̣i điê ̣n tử được sử du ̣ng để đánh giá tâ ̣p dữ liê ̣u sản phẩm lớn (như Amazon.com hay Cdnow.com). Trong các hê ̣ thống này , số lươ ̣ng người dùng hiê ̣n ta ̣i có thể đã mua 1% sản phẩm (1% của 2 triệu sách là khoảng 20,000 quyển sách). Theo đó, hê ̣ thống tư vấn dựa trên láng giềng lân câ ̣n không thể đưa ra được các tư vấn sách cho mô ̣t người dùng cu ̣ thể. Kết quả là đô ̣ chính xác không cao.
Khả năng thay đổi quy mô (Scalability): Thuật toán láng giềng lân câ ̣n đòi hỏi tính toán với số lượng người dùng và sản phẩm tăng lên thường xuyên . Với hàng triệu n gười dùng và sản phẩm , mô ̣t hê ̣ thống tư vấn dựa trên Web thông thường sẽ gă ̣p phải nhiều vấn đề nghiêm tro ̣ng về khả năng thay đổi quy mô . Chính sự yếu kém của thuật toán láng giềng lân câ ̣n đối với các cơ sở dữ liê ̣u lớn và rải rác dẫn đến sự ra đời của các thuật toán k hác, đă ̣c biê ̣t là các thuâ ̣t toán dựa trên mô hình. Các thuật toán dựa trên mô hình giải quyết được các vấn đề trên , đă ̣c biê ̣t là khả
năng thay đổi quy mô . Các thuật toán dựa trên mô hình không yêu cầu xác định láng giềng của những người dùng tương tự khi cần tư vấn . Kết quả là có thể sinh tư vấn nhanh hơn rất nhiều.
2.5. Kết chương
Mô hình quan hệ xác suất là mô hình xác suất mịn hơn, biểu diễn mối tương quan về mặt thống kế giữa các thuộc tính của một thực thể và các thuộc tính của các thực thể có liên quan. Mô hình này có thể sử dụng để lập luận về một thực thể bằng cách sử dụng toàn bộ cấu trúc tri thức phong phú được mã hóa bởi các dạng biểu diễn quan hệ [8]. Chúng tôi cũng xem xét việc sử dụng mô hình quan hệ xác suất cho lọc cộng tác và chỉ ra lý do mô hình này phù hợp cho việc lọc cộng tác.
Chƣơng 3. Tƣ vấn dựa trên PRM
Đối với các hệ thống học trực tuyến dựa trên Web, chúng ta quan tâm đến việc sinh viên tham gia và có thích học một khóa học nào đó không. Dữ liệu là một tập các cặp đối tượng, mỗi cặp gồm một sinh viên và một khóa học (thường đi kèm xếp hạng ưa thích Danhgia). Trong các hệ tư vấn, chúng ta quan tâm đến việc đưa ra dự đoán một sinh viên có khả năng đăng ký học một khóa học nào đó dựa trên các thông tin về sinh viên, lịch sử học và sở thích của những sinh viên khác có những đặc điểm tương tự.
Mối quan hệ cặp đôi này là tiêu điểm của việc dự đoán, chúng ta có thể có các thông tin phụ khác về các đối tượng và mối quan hệ giữa chúng với các đối tượng khác trong cùng lĩnh vực. Ví dụ, chúng ta có thể dự đoán một sinh viên có đăng ký học một khóa học nào đó không dựa trên các thông tin chúng ta có về sinh viên đó và việc đăng ký học trước đó của những sinh viên khác. Suy diễn này có thể dựa trên quan hệ của một sinh viên với các sinh viên khác (ví dụ, các thành viên của cùng một nhóm, một tổ chức…), các khóa học họ đã từng học và các thông tin khác như kiến thức nền tảng. Việc suy diễn cũng có thể dựa trên các thông tin thu được từ những đăng ký học đã thực hiện, mối quan hệ giữa các đăng ký đó (ví dụ, nếu khóa học đã được học là không quan trọng, nếu sinh viên có sở thích học những khóa học liên quan đến khoa học máy tính, nếu sinh viên thích học những khóa học của một giáo viên nào đó). Một số vấn đề có thể gặp phải khi lập luận về mối quan hệ giữa hai đối tượng. Mối quan hệ này có thể là logic, tức là mối quan hệ đã tồn tại hay chưa, mối quan hệ là về mặt định lượng và có trọng số nào đó gắn với sở thích của sinh viên.
Lọc cộng tác dựa trên giải thiết rằng chúng ta có thể đưa ra những tư vấn có ích bằng cách tìm ra những sinh viên tương tự và kiểm tra sở thích hoặc phong cách học của họ. Một vài phương pháp đã được đưa ra [5,9] nhưng chúng tôi chỉ tập trung vào những phương pháp dựa trên mô hình. Chúng tôi đã nghiên cứu một phương pháp được đề xuất gần đây, mô hình bó cụm hai phía (two-sided clustering model) cho lọc cộng tác [10,4]. Chúng tôi sẽ mô tả cách thức mô hình này được biểu diễn bằng mạng Bayesian. Tiếp theo, chúng tôi mô tả cách biểu diễn mô hình này bằng mô hình quan hệ xác suất và chỉ ra mô hình quan hệ xác suất kế thừa và mở rộng mô hình mạng
Bayesian. Mô hình quan hệ xác suất là mô hình xác suất mịn hơn, biểu diễn mối tương quan về mặt thống kế giữa các thuộc tính của một thực thể và các thuộc tính của các thực thể có liên quan. Mô hình này có thể sử dụng để lập luận về một thực thể bằng cách sử dụng toàn bộ cấu trúc tri thức phong phú được mã hóa bởi các dạng biểu diễn quan hệ [8]. Chúng tôi cũng xem xét việc sử dụng mô hình quan hệ xác suất cho lọc cộng tác và chỉ ra lý do mô hình này phù hợp cho việc lọc cộng tác.