So sánh lọc cộng tác dựa trên ghi nhớ và dư- 123docz.net

Các thuật toán lọc cộng tác dựa trên ghi nhớ (người dùng) đã khá thành công trong quá khứ song khi sử du ̣ng cho những ứng du ̣ng lớn, xuất hiê ̣n mô ̣t số vấn đề như:

 Sƣ̣ rải rác (Sparsity): Trong thực tế, nhiều hê ̣ tư vấn thương ma ̣i điê ̣n tử được sử du ̣ng để đánh giá tâ ̣p dữ liê ̣u sản phẩm lớn (như Amazon.com hay Cdnow.com). Trong các hê ̣ thống này , số lươ ̣ng người dùng hiê ̣n ta ̣i có thể đã mua 1% sản phẩm (1% của 2 triệu sách là khoảng 20,000 quyển sách). Theo đó, hê ̣ thống tư vấn dựa trên láng giềng lân câ ̣n không thể đưa ra được các tư vấn sách cho mô ̣t người dùng cu ̣ thể. Kết quả là đô ̣ chính xác không cao.

 Khả năng thay đổi quy mô (Scalability): Thuật toán láng giềng lân câ ̣n đòi hỏi tính toán với số lượng người dùng và sản phẩm tăng lên thường xuyên . Với hàng triệu n gười dùng và sản phẩm , mô ̣t hê ̣ thống tư vấn dựa trên Web thông thường sẽ gă ̣p phải nhiều vấn đề nghiêm tro ̣ng về khả năng thay đổi quy mô . Chính sự yếu kém của thuật toán láng giềng lân câ ̣n đối với các cơ sở dữ liê ̣u lớn và rải rác dẫn đến sự ra đời của các thuật toán k hác, đă ̣c biê ̣t là các thuâ ̣t toán dựa trên mô hình. Các thuật toán dựa trên mô hình giải quyết được các vấn đề trên , đă ̣c biê ̣t là khả

năng thay đổi quy mô . Các thuật toán dựa trên mô hình không yêu cầu xác định láng giềng của những người dùng tương tự khi cần tư vấn . Kết quả là có thể sinh tư vấn nhanh hơn rất nhiều.

2.5. Kết chương

Mô hình quan hệ xác suất là mô hình xác suất mịn hơn, biểu diễn mối tương quan về mặt thống kế giữa các thuộc tính của một thực thể và các thuộc tính của các thực thể có liên quan. Mô hình này có thể sử dụng để lập luận về một thực thể bằng cách sử dụng toàn bộ cấu trúc tri thức phong phú được mã hóa bởi các dạng biểu diễn quan hệ [8]. Chúng tôi cũng xem xét việc sử dụng mô hình quan hệ xác suất cho lọc cộng tác và chỉ ra lý do mô hình này phù hợp cho việc lọc cộng tác.

Chƣơng 3. Tƣ vấn dựa trên PRM

Đối với các hệ thống học trực tuyến dựa trên Web, chúng ta quan tâm đến việc sinh viên tham gia và có thích học một khóa học nào đó không. Dữ liệu là một tập các cặp đối tượng, mỗi cặp gồm một sinh viên và một khóa học (thường đi kèm xếp hạng ưa thích Danhgia). Trong các hệ tư vấn, chúng ta quan tâm đến việc đưa ra dự đoán một sinh viên có khả năng đăng ký học một khóa học nào đó dựa trên các thông tin về sinh viên, lịch sử học và sở thích của những sinh viên khác có những đặc điểm tương tự.

Mối quan hệ cặp đôi này là tiêu điểm của việc dự đoán, chúng ta có thể có các thông tin phụ khác về các đối tượng và mối quan hệ giữa chúng với các đối tượng khác trong cùng lĩnh vực. Ví dụ, chúng ta có thể dự đoán một sinh viên có đăng ký học một khóa học nào đó không dựa trên các thông tin chúng ta có về sinh viên đó và việc đăng ký học trước đó của những sinh viên khác. Suy diễn này có thể dựa trên quan hệ của một sinh viên với các sinh viên khác (ví dụ, các thành viên của cùng một nhóm, một tổ chức…), các khóa học họ đã từng học và các thông tin khác như kiến thức nền tảng. Việc suy diễn cũng có thể dựa trên các thông tin thu được từ những đăng ký học đã thực hiện, mối quan hệ giữa các đăng ký đó (ví dụ, nếu khóa học đã được học là không quan trọng, nếu sinh viên có sở thích học những khóa học liên quan đến khoa học máy tính, nếu sinh viên thích học những khóa học của một giáo viên nào đó). Một số vấn đề có thể gặp phải khi lập luận về mối quan hệ giữa hai đối tượng. Mối quan hệ này có thể là logic, tức là mối quan hệ đã tồn tại hay chưa, mối quan hệ là về mặt định lượng và có trọng số nào đó gắn với sở thích của sinh viên.

Lọc cộng tác dựa trên giải thiết rằng chúng ta có thể đưa ra những tư vấn có ích bằng cách tìm ra những sinh viên tương tự và kiểm tra sở thích hoặc phong cách học của họ. Một vài phương pháp đã được đưa ra [5,9] nhưng chúng tôi chỉ tập trung vào những phương pháp dựa trên mô hình. Chúng tôi đã nghiên cứu một phương pháp được đề xuất gần đây, mô hình bó cụm hai phía (two-sided clustering model) cho lọc cộng tác [10,4]. Chúng tôi sẽ mô tả cách thức mô hình này được biểu diễn bằng mạng Bayesian. Tiếp theo, chúng tôi mô tả cách biểu diễn mô hình này bằng mô hình quan hệ xác suất và chỉ ra mô hình quan hệ xác suất kế thừa và mở rộng mô hình mạng

Bayesian. Mô hình quan hệ xác suất là mô hình xác suất mịn hơn, biểu diễn mối tương quan về mặt thống kế giữa các thuộc tính của một thực thể và các thuộc tính của các thực thể có liên quan. Mô hình này có thể sử dụng để lập luận về một thực thể bằng cách sử dụng toàn bộ cấu trúc tri thức phong phú được mã hóa bởi các dạng biểu diễn quan hệ [8]. Chúng tôi cũng xem xét việc sử dụng mô hình quan hệ xác suất cho lọc cộng tác và chỉ ra lý do mô hình này phù hợp cho việc lọc cộng tác.

So sánh lọc cộng tác dựa trên ghi nhớ và dựa trên mô hình

Học cấu trúc phụ thuộc

Thuật toán lọc cộng tác đơn giản