1. Giảm kích thước
Giai đoạn giảm kích thƣớc biến đổi ma trận sở thích của ngƣời sử dụng ban đầu vào một không gian có số chiều nhỏ hơn để giải quyết vấn đề thƣa thớt dữ liệu thƣờng gặp phải trong các tình huống tƣ vấn lọc cộng tác. Các dữ liệu đầu vào ban đầu cho hệ
thống lọc cộng tác là một ma trận x sở thích ngƣời dùng, trong đó là số lƣợng
ngƣời dùng và là số lƣợng mặt hàng. Dữ liệu này có thể gây ra khả năng làm loãng cho hệ thống lọc cộng tác. Trong thực tế, đối với một tập lớn các mặt hàng có sẵn,
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 26 ngƣời dùng có thể đánh giá hoặc chọn một tỷ lệ rất thấp của các mặt hàng, tạo ra một ma trận ngƣời dùng rất thƣa thớt. Kết quả là, hệ thống tƣ vấn lọc cộng tác không thể đƣa ra tƣ vấn cho một ngƣời dùng cụ thể. Mặt khác, một hệ thống lọc cộng tác đòi hỏi
các việc tính toán sự tƣơng tự giữa những ngƣời sử dụng thay đổi theo ngƣời dùng
và mặt hàng nên vấn đề thƣa thớt dữ liệu càng nghiêm trọng.
Để khắc phục những vấn đề đó, ma trận thƣa thớt có thể đƣợc chuyển thành một ma trận có số chiều nhỏ hơn bằng cách sử dụng phƣơng pháp chỉ mục ngữ nghĩa tiềm ẩn LSI (Latent Semantic Indexing). Về cơ bản, phƣơng pháp này sử dụng cách phân tích giá trị và loại bỏ đi các giá trị không có ý nghĩa để có đƣợc một ma trận bậc
xấp xỉ với ma trận sở thích ngƣời dùng ban đầu x .
2. Hình thành vùng lân cận
Mục tiêu của việc hình thành vùng lân cận là tìm kiếm, cho một ngƣời dùng cần
tƣ vấn , một danh sách mặt hàng của l ngƣời sử dụng N = { , , ..., } mà ∉
N và sim ( , ≥ sim ( , ) với i <j (sim là hệ số tƣơng quan). Giai đoạn này thực tế
là quá trình xây dựng mô hình cho phƣơng pháp tiếp cận lọc cộng tác. Một số phƣơng pháp tính toán độ tƣơng tự đƣợc đề xuất nhƣ sau:
Phương pháp tính khoảng cách Euclide: với phƣơng pháp này, ta có thể tính toán khoảng cách giữa các ngƣời dùng để xác định tính tƣơng đồng giữa họ.
Nhƣ vậy, độ tƣơng tự và ngƣời sử dụng sẽ đƣợc tính theo công thức sau:
với: : số điểm đánh giá của ngƣời dùng đối với mặt hàng i
Giá trị trả về luôn luôn nằm trong khoảng 0 và 1. Càng gần về 1, 2 ngƣời dùng càng có sự tƣơng đồng cao.
Hệ số tương quan Pearson: Hệ số tƣơng quan Pearson là biện pháp tính độ tƣơng tự đƣợc sử dụng phổ biến nhất trong các hệ thống lọc cộng tác. Nó có nguồn gốc từ mô hình hồi quy tuyến tính. Nhƣ vậy, độ tƣơng tự giữa ngƣời
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 27
với: - là tổng các tích đánh giá của nguời xem , theo từng mặt
hàng
- , là tổng các đánh giá của ngƣời xem , theo từng mặt
hàng
- , là tổng các bình phƣơng của ngƣời xem , theo từng
mặt hàng
- n là số mặt hàng ngƣời xem , đánh giá chung
Giá trị trả về nằm trong khoảng -1 và 1, tƣơng ứng từ hoàn toàn khác biệt cho đến tƣơng đồng.
Hệ số tương quan Pearson hạn chế: Hệ số tƣơng quan Pearson hạn chế quan tâm đến cả sở thích tích cực và tiêu cực. Một điểm số đánh giá sở thích dƣới mức điểm trung bình của hệ thống (ví dụ: 4 trong một thang đánh giá 7 điểm) đƣợc coi là tiêu cực, trong khi một đánh giá sở thích trên trung bình thì đƣợc cho là tích cực. Theo đó, hệ số tƣơng quan Pearson hạn chế đƣợc sử dụng để chỉ khi cả hai ngƣời dùng đã đánh giá một mặt hàng tích cực hoặc cả hai tiêu cực, hệ số tƣơng quan giữa chúng sẽ tăng. Sự tƣơng tự giữa một ngƣời sử dụng
cần tƣ vấn và ngƣời sử dụng khác đƣợc tính toán bằng cách sử dụng hệ số
tƣơng quan Pearson hạn chế nhƣ sau:
với là trung bình điểm bình chọn.
Hệ số tương quan thứ hạng Spearman:Hệ số tƣơng quan thứ hạng Spearman là một biện pháp tính toán tƣơng quan giữa các đánh giá thay vì điểm số sở thích thực tế:
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 28
với: là xếp hạng của ngƣời dùng đối với mặt hàng i
là xếp hạng trung bình của ngƣời dùng
m: số lƣợng măt hàng đã đƣợc lƣợt giảm
Tính độ tương tự theo Cosine: Hai ngƣời dùng và đƣợc coi là hai vectơ
trong không gian m chiều mặt hàng hoặc d chiều mặt hàng trong các ma trận đã
đƣợc giảm. Độ tƣơng tự giữa chúng đƣợc tính bằng cosin của góc giữa hai vectơ, cụ thể là:
Độ bất tương tự trung bình bình phương (Mean-squared difference): Độ bất tƣơng tự trung bình bình phƣơng là các phƣơng pháp tính toán sự không tƣơng
đồng giữa một ngƣời dùng cần tƣ vấn và ngƣời dùng khác , cụ thể nhƣ
sau:
Theo một nghiên cứu đánh giá thực nghiệm đƣợc tiến hành bởi Herlocker et al.
(1999), Hệ số tương quan Pearson có hiệu suất tƣơng tự nhƣ phƣơng pháp Hệ số
tương quan Spearman và có hiệu suất vƣợt trội so với phƣơng pháp Khoảng cách Euclide, Độ tương tự Cosine và Độ bất tương tự trung bình bình phương. Theo đánh
giá các biện pháp tƣơng tự khác nhau của Shardanand và Maes (1995) (bao gồm cả Hệ
số tương quan Pearson, Hệ số tương quan Pearson hạn chế và Độ bất tương tự trung bình bình phương) đã đề xuất rằng Hệ số tương quan Pearson đạt đƣợc hiệu suất tốt nhất về sự cân bằng giữa độ chính xác của dự báo và các mặt hàng có thể đƣợc dự đoán. Từ đó, hệ thống đƣợc xây dựng ở chƣơng 3 sẽ sử dụng phƣơng pháp tính toán
Hệ số tương quan Pearson.
Sau khi n × n ma trận tƣơng tự đƣợc tính toán cho n ngƣời sử dụng bằng cách
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 29
vùng lân cận cho ngƣời sử dụng cần tƣ vấn. Ta có thể sử dụng phƣơng pháp k láng
giềng gần nhất, nó tạo thành một vùng lân cận kích thƣớc k xác định trƣớc, hay hiểu
một cách đơn giản là lựa chọn k ngƣời dùng gần nhất.
3. Tư vấn
Sau khi những ngƣời láng giềng gần nhất của ngƣời sử dụng cần tƣ vấn đƣợc xác định, các tƣ vấn sẽ đƣợc tạo ra. Kể từ khi quá trình lọc cộng tác đƣợc sử dụng cho một ngƣời dùng cụ thể, các phƣơng pháp tƣ vấn lọc cộng tác thông thƣờng là dự đoán
và đƣa ra top N tƣ vấn. Các phƣơng pháp tƣ vấn lọc cộng tác không áp dụng để đƣa ra
top M ngƣời sử dụng cho một mặt hàng mới vì không có sở thích ngƣời dùng nào có
sẵn cho mặt hàng này.
Để ƣớc tính số điểm đánh giá cho mặt hàng ∉ cho một ngƣời sử dụng cần
tƣ vấn , các phƣơng pháp sau đây có thể đƣợc sử dụng:
1. Trung bình trọng số (Weighted average): Để kết hợp tất cả điểm đánh giá của các láng giềng trên mặt hàng vào một dự đoán, chúng ta có thể sử dụng phƣơng pháp bình quân gia quyền để tính toán trọng số trung bình của các điểm đánh giá bằng cách sử dụng các mối tƣơng quan là trọng số.
2. Độ lệch chuẩn (Deviation-from-mean): Phƣơng pháp này đƣợc sử dụng bởi GroupLens, dựa trên giả định rằng điểm số đánh giá của ngƣời sử dụng có thể tập trung vào các mức khác nhau. Để tính toán ý nghĩa sự khác biệt, độ lệch điểm số đánh giá của một ngƣời láng giềng từ điểm đánh giá của lần tính toán đầu tiên, số điểm đánh giá trung bình đƣợc thực hiện trên tất cả các mặt hàng mà ngƣời láng giềng đã đánh giá. Độ lệch là trung bình tính trên tất cả các láng giềng sau đó đƣợc dùng để tính điểm số đánh giá ngƣời sử dụng cần tƣ vấn. Số điểm đánh giá dự đoán của ngƣời dùng cần tƣ vấn đƣợc tính nhƣ sau:
3. Điểm số Z (Z score): Để điểm tƣ vấn đƣợc tính toán mà bao hàm cả sự lây lan
điểm số đánh giá của ngƣời sử dụng khác nhau, phƣơng pháp Điểm số Z đã
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 30
pháp này, điểm đánh giá của ngƣời láng giềng trên mặt hàng i đƣợc chuyển đổi
sang điểm Z và trọng số trung bình của điểm Z đƣợc bắt nguồn nhƣ là số điểm
đánh giá dự đoán của ngƣời dùng cần tƣ vấn đối với mặt hàng i:
Đánh giá thực nghiệm cho thấy phƣơng pháp Độ lệch chuẩn thực hiện tốt hơn
nhiều so với phƣơng pháp Bình quân gia quyền. Tuy nhiên, phƣơng pháp Điểm số Z
lại không hiệu quả bằng phƣơng pháp Độ lệch chuẩn, cho thấy những điểm số đánh
giá của ngƣời dùng khác nhau có thể dự báo một cách không chính xác.
Để đƣa ra top N tƣ vấn cho ngƣời sử dụng , đầu tiên cần làm rõ số điểm đánh
giá dự đoán trên từng mặt hàng đƣợc đánh giá bởi . Sau đó, top N mặt hàng với số
điểm đánh giá dự đoán cao nhất sẽ đƣợc thống kê lại trong 1 danh sách tƣ vấn.