Khuyến nghị sản phẩm cho người dùng dựa trên nội dung

Một phần của tài liệu (LUẬN văn THẠC sĩ) kỹ thuật datamining để khuyến nghị khách hàng trong hệ thống BI (business intelligence) (Trang 42 - 44)

IV. PHƢƠNG PHÁP NGHIÊN CỨU

1. 21 Khai phá dữ liệu(Data Minin g DM)

2.2.6 Khuyến nghị sản phẩm cho người dùng dựa trên nội dung

Với các vector hồ sơ cho cả người dùng và các mặt hàng, có thể dự đoán cấp độ ưa thích 1 mặt hàng của người dùng bằng cách tính toán khoảng cách cosin giữa vector người dùng và vector mặt hàng như trong ví dụ 2.2. Cũng có thể tính tỷ lệ các thành phần khác nhau mà giá trị không phải là giá trị logic. Mặt phẳng ngẫu nhiên và kỹ thuật theo địa phương (LSH) có thể được sử dụng để đưa các hồ sơ hàng hóa vào các khu vực. Theo cách đó, với

1 người dùng mà muốn giới thiệu 1 vài mặt hàng, có thể áp dụng 2 kỹ thuật đó để xác định trong khu vực nào có thể tìm các mặt hàng có khoảng cách cosin nhỏ với người dùng.

Đầu tiên sử dụng dữ liệu của ví dụ 2.3 Hồ sơ của người dùng sẽ có các thành phần cho các diễn viên theo tỷ lệ về khả năng diễn viên sẽ xuất hiện trong 1 bộ phim mà người dùng thích. Do đó, sự khuyến nghị cao nhất (khoảng cách cosin thấp nhất) thuộc về các bộ phim với nhiều diễn viên xuất hiện trong nhiều bộ phim mà người dùng thích. Miễn là các diễn viên là các thông tin duy nhất mà ta có về đặc điểm của bộ phim thì đó có thể là điều tốt nhất mà ta có thể làm.

Vector cho người dùng sẽ có các con số khả quan cho các diễn viên có xu hướng xuất hiện trong các bộ phim người dùng thích và có các con số không khả quan cho các diễn viên xuất hiện trong các bộ phim mà người dùng không thích.

Xem xét ví dụ 2.4 thấy rằng vector cho người dùng có các con số dương đối với các diễn viên mà có xu hướng trong các bộ phim mà người dùng thích và các con số âm đối với các diễn viên mà có xu hướng trong các bộ phim mà người dùng không thích. Xem xét một bộ phim với nhiều diễn viên mà người dùng ưa thích, và chỉ 1 vài hoặc không có bộ phim nào mà người dùng không thích. Cosin của góc giữa vector của người dùng và vector của bộ phim sẽ là 1 phân số dương lớn. Điều đó ngụ ý 1 góc gần với 0, và do đó khoảng cách cosin giữa các vector là nhỏ.

Với bộ phim mà số lượng diễn viên được nhiều người dùng thích nhiều như số diễn viên người dùng không. Trong tình huống này, cosin của góc giữa người dùng và bộ phim là gần 0, và do đó góc giữa 2 vector là khoảng gần 90 độ. Cuối cùng, xem xét 1 bộ phim với hầu hết các diễn viên mà người dùng

không thích. Trong trường hợp đó cosin sẽ là 1 phân số âm lớn, và góc giữa 2 vector sẽ gần với 180 độ - khoảng cách cosin có thể là lớn nhất.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kỹ thuật datamining để khuyến nghị khách hàng trong hệ thống BI (business intelligence) (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(74 trang)