Phân loại kỹ thuật láng giềng

Một phần của tài liệu Khóa luận tốt nghiệp Nghiên cứu phương pháp lọc cộng tác cho hệ thống tư vấn phim (Trang 34)

1. Tư vấn dựa trên người dùng (User-based)

Phƣơng pháp tƣ vấn dựa trên ngƣời dùng dự đoán đánh giá của ngƣời dùng

u cho một mặt hàng mới i bằng cách sử dụng các đánh giá cho i bởi những ngƣời sử

dụng tƣơng tự nhất với u, đƣợc gọi là láng giềng gần nhất (nearest-neighbors). Giả sử

chúng ta cho mỗi ngƣời dùng v u một giá trị đại diện cho sở thích giống nhau

giữa uv. k láng giềng gần nhất (k-NN) của u, ký hiệu là N(u), và k ngƣời sử dụng v

với độ tƣơng tự cao nhất với u. Tuy nhiên, chỉ những ngƣời dùng đã đánh giá mặt

hàng i mớicó thể đƣợc sử dụng trong dự đoán của , và thay việc xem xét k ngƣời sử

dụng tƣơng tự u nhất bằng việc đã đánh giá i. Đánh giá có thể đƣợc ƣớc tính là

đánh giá trung bình cho i bởi những ngƣời láng giềng:

Một vấn đề với công thức tính toán trên đó là không đƣa ra thực tế rằng những ngƣời láng giềng có thể có độ tƣơng tự khác nhau. Một giải pháp chung cho vấn đề này là phải cân nhắc đóng góp của mỗi ngƣời láng giềng bởi mức độ tƣơng đồng đối

với u. Tuy nhiên, nếu các trọng số này không có tổng là 1, xếp hạng dự đoán có thể

nằm bên ngoài phạm vi của các giá trị đƣợc phép. Do đó, nó là cách để bình thƣờng hóa các trọng số, nhƣ vậy mà đánh giá dự đoán trở thành:

NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 33

Trong mẫu số , | | đƣợc sử dụng thay vì vì trọng số âm có

thể tạo ra xếp hạng bên ngoài phạm vi cho phép. Ngoài ra, có thể đƣợc thay thế

bằng , với α > 0 là một yếu tố khuếch đại. Khi α > 1, những ngƣời láng giềng gần

nhất với u có vai trò quan trọng trong việc đƣa ra những gợi ý.

2. Tư vấn dựa trên các mặt hàng (Item-based)

Trong khi phƣơng pháp dựa trên ý kiến của ngƣời sử dụng để dự đoán một đánh giá, phƣơng pháp tiếp cận dựa trên mặt hàng nhìn vào đánh giá cho các mặt hàng tƣơng tự chúng.

Ý tƣởng này có thể đƣợc thể hiện nhƣ sau. Biểu thị bởi các mặt hàng

đánh giá bởi ngƣời sử dụng tƣơng tự u đối với mặt hàng i. Các đánh giá dự đoán của u

cho i thu đƣợc nhƣ là một trọng số trung bình đánh giá đƣợc đƣa ra bởi u đối với các

mặt hàng của :

3. Đánh giá kỹ thuật tư vấn dựa trên người dùng và mặt hàng

Khi lựa chọn giữa việc hệ thống nên sử dụng kỹ thuật tƣ vấn dựa trên ngƣời dùng hay dựa trên mặt hàng, ta có 5 tiêu chuẩn cần đƣợc xem xét:

Độ chính xác: Độ chính xác của phƣơng pháp tƣ vấn láng giềng phụ thuộc chủ

yếu vào tỷ lệ giữa số lƣợng ngƣời sử dụng và các mặt hàng trong hệ thống. Trong trƣờng hợp số lƣợng ngƣời dùng là lớn hơn nhiều hơn số lƣợng mặt hàng, phƣơng pháp dựa trên các mặt hàng có thể đƣa ra các tƣ vấn chính xác hơn. Tƣơng tự nhƣ vậy, hệ thống có ngƣời sử dụng ít hơn so với các mặt hàng thì có thể có hiệu quả hơn khi sử dụng phƣơng pháp tƣ vấn dựa trên ngƣời dùng.

NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 34

Hiệu suất: Bộ nhớ và hiệu quả tính toán của hệ thống tƣ vấn cũng phụ thuộc

vào tỷ lệ giữa số lƣợng ngƣời dùng và các mặt hàng. Vì vậy, khi số lƣợng ngƣời dùng vƣợt quá số lƣợng mặt hàng, phƣơng pháp tƣ vấn dựa trên mặt hàng yêu cầu ít bộ nhớ và thời gian để tính toán độ tƣơng tự hơn phƣơng pháp dựa trên ngƣời dùng. Tuy nhiên, sự phức tạp về thời gian của giai đoạn tƣ vấn (phụ thuộc vào số lƣợng các mặt hàng có sẵn và số lƣợng tối đa các láng giềng) là nhƣ nhau cho cả hai phƣơng pháp dựa trên ngƣời sử dụng và dựa trên mặt hàng. (adsbygoogle = window.adsbygoogle || []).push({});

Tính ổn định: Sự lựa chọn giữa phƣơng pháp dựa trên ngƣời sử dụng và dựa

trên mặt hàng phụ thuộc vào tần số và số lƣợng thay đổi ngƣời sử dụng và các mặt hàng của hệ thống. Nếu trong danh sách các mặt hàng có sẵn ít thay đổi so với những ngƣời sử dụng của hệ thống, phƣơng pháp dựa trên mặt hàng có thể đƣợc ƣa thích hơn. Ngƣợc lại, nếu các mặt hàng có sẵn đƣợc thay đổi liên tục thì phƣơng pháp dựa trên ngƣời dùng sẽ ổn định hơn.

Tính hợp pháp: Một lợi thế của phƣơng pháp dựa trên mặt hàng là nó có thể

đƣợc sử dụng để giải thích cho một tƣ vấn. Do đó, danh sách các mặt hàng láng giềng sử dụng trong dự đoán, cũng nhƣ độ tƣơng tự của họ, có thể đƣợc trình bày cho ngƣời sử dụng nhƣ là một giải thích về các tƣ vấn. Tuy nhiên, phƣơng pháp dựa trên ngƣời dùng không tuân theo quá trình này bởi vì ngƣời dùng cần tƣ vấn không biết những ngƣời sử dụng khác đóng vai trò là các láng giềng trong tƣ vấn.

Sự ngẫu nhiên: Trong phƣơng pháp dựa trên mặt hàng, đánh giá dự đoán cho

một mặt hàng đƣợc dựa trên đánh giá cho các mặt hàng tƣơng tự. Do đó, hệ thống tƣ vấn sử dụng phƣơng pháp này sẽ có xu hƣớng giới thiệu loại mặt hàng cho một ngƣời sử dụng có liên quan đến những ngƣời thƣờng đánh giá cao chính các loại mặt hàng đó. Điều này có thể dẫn đến các tƣ vấn không phong phú, đa dạng. Mặt khác, sử dụng phƣơng pháp tƣ vấn dựa trên ngƣời dùng có nhiều khả năng đƣa ra các tƣ vấn tình cờ, ngẫu nhiên hơn.

NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 35

Một phần của tài liệu Khóa luận tốt nghiệp Nghiên cứu phương pháp lọc cộng tác cho hệ thống tư vấn phim (Trang 34)