Để áp dụng hệ phân loại Bayes vào dự đoán đánh giá chúng ta học độc lập các hệ phân loại cho mỗi sản phẩm y. Chúng ta huấn luyện hệ phân loại cho sản phẩm y sử dụng tất cả người dùng u đã đánh giá cho y trong tập dữ liệu. Vector đầu vào sử dụng để xây dựng hệ phân loại cho sản phẩm y bao gồm các đánh giá của tất cả các sản phẩm khác y. Chúng ta gọi y là lớp sản phẩm và các sản phẩm còn lại là các sản phẩm thuộc tính. Chúng ta có thể biểu diễn hệ phân loại Bayes cho sản phẩm y trong mạng Bayes như trong hình 4.2
Để tìm hiểm hệ dự đoán đánh giá Bayes chúng ta phải ước lượng P(Ry=v) và P(Rj=w|Ry=v). Các luật học Bayes trong công thức 4.10 và 4.11 có thể được áp dụng mà không cần chỉnh sửa gì, nhưng tôi làm mịn xác suất bằng cách cộng thêm một giá trị để tránh xác suất bằng 0. Luật huấn luyện sau khi được làm mịn sẽ được biểu diễn như trong công thức 4.14 và 4.15. Thủ tục học đầy đủ được đưa ra trong thuật toán 4.2 trong đó
Để dự đoán giá trị của cho hồ sơ của một người dùng thực sự a chúng ta áp dụng một sửa đổi nhỏ trong luật dự đoán để xử lý các giá trị lỗi. Các luật dự đoán này được chỉ ra trong công thức 4.16. Một kỹ thuật dự đoán hoàn chỉnh được chỉ ra trong thuật toán 4.3.
Áp dụng kỹ thuật chọn thuộc tính được miêu tả trong mục 4.2 có một vài hữu ích. Thứ nhất, nó giảm số lượng biến cần được lưu trữ từ xuống . Thứ hai, việc ước lượng các thuộc tính phù hợp có thể giảm các lỗi dự đoán. Lựa chọn các thuộc tính dựa trên kinh nghiệm thông tin trao đối là một ứng cử viên vì các xác suất cần thiết cho tính toán điểm được tìm ra khi ước lượng biến cho hệ phân loại. Tuy nhiên, tính toán điểm kinh nghiệm thông tin qua lại cho các thuộc tính khác nhau của sản phẩm sẽ dựa trên số đối tượng đánh giá do có ít đánh giá. Rõ ràng chúng ta tin tưởng việc tính toán ước lượng các thông tin qua lại sử dụng nhiều số lượng đánh giá hơn là tính toán trong trường hợp ít số lượng đánh giá. Một điểm số heuristic đơn giản có thể đạt được bằng cách cân bằng giá trị thông tin trao đổi của các thuộc tính sản phẩm thông qua số lượng các ví dụ được sử dụng để tính toán. Zafalon và Hutter đưa ra một nguyên lý, sử dụng Bayes để giải quyết vấn đề này dựa trên ước lượng sự phân phối các thông tin trao đổi.
2.3.2 K – Means Clustering
Thuật toán K – Means được phát triển bởi J.MacQueen (1967) và sau này được J.A. Hartigan và M.A.Wong đưa ra vào năm 1975. Giống như tên gọi của nó đây là thuật toán nhằm phân loại hoặc nhóm các đối tượng lại với nhau dựa trên thuộc tính/đặc trưng thành K nhóm. K là một số nguyên dương. Thông qua việc cực tiểu hóa tổng bình phương
khoảng cách giữa dữ liệu và nhóm tạo thành tương ứng. Vì vậy mục đích chính của K – Means clustering là để phân loại dữ liệu.
Ví dụ: Giả thuyết rằng chúng ta có 4 đối tượng, mỗi đối tượng có 2 thuộc tính và điểm tương ứng như sau:
Bc1:
Khởi tạo giá trị
của nhóm:
Giả thuyết
rằng, chúng ta
sử dụng A, B
như là những
nhóm ban đầu. Đặt c1 và c2 biểu thị nhóm tương ứng, khi đó c1 = (1,1) và c2 = (2,1). Bc2: Khoảng cách nhóm – đối tượng:
Chúng ta tính toán khoảng cách giữa nhóm cụm với mỗi đối được. Ở đây để đơn giản, chúng tôi sử dụng khoảng cách Eudidean.
Tại bước lặp 0, chúng ta đưa ra ma trận khoảng cách như sau:
c1 = (1,1) c2 = (2,1)