Similarity Metrics (Các chỉ số tương tự)

Một phần của tài liệu Xây dựng hệ thống đánh giá và khuyến nghị khách sạn (Trang 40 - 42)

Chương 4 : ÁP DỤNG GỢI Ý KHÁCH SẠN

4.1. Thực nghiệm

4.1.1.2. Similarity Metrics (Các chỉ số tương tự)

Sau khi biểu diễn các rating thành Utility Matrix, mỗi cột (user) là một vector với độ dài là số lượng item. Để dự đốn được u0 có thích i2 hay khơng (hình 4.1), ta sẽ tìm user có sở thích gần giống với u0, từ đó dựa trên đánh giá của user gần giống đó về i2 để dự đốn u0 có thích i2 hay khơng. Bài tốn đưa về dạng xác định mức độ tương tự của một vector với một vector đã cho.

Có 4 cách để tính mức độ tương tự chủ yếu sau: - Cosine Similarity

- Euclidian Distance - Dot Product

- Pearson Similarity

4.1.1.2.1. Cosine Similarity

Hình 4.2 - Cosine Similarity

Cosine Similarity là phương pháp tính mức độ tương tự của hai vector bằng việc tính cosin của góc giữa hai vector đó.

Cơng thức: similarity(�1, �2) = �1 . �2 �1 . �2 = �=1 � �1�× �2� �=1 � �1�2× �=1� �2�2 Trong đó:

-u1, u2là vector tương ứng với users 1, 2

- �1 , �2 là tích vơ hướng của 2 vectoru1, u2

- �1 . �2 lần lượt là độ dài 2 vectoru1,u2

Độ similarity của hai vector là một số trong đoạn [-1, 1]. Cosin của một góc bằng 1 nghĩa là góc giữa hai vector bằng 0, thể hiện hai vector hồn tồn tương tự nhau. Cosin của một góc bằng -1 thể hiện hai vector này hoàn toàn trái ngược nhau. Do đó, hai users càng tương tự nhau thì similarity giữa hai vector đó là cao nhất và ngược lại.

Hình 4.3 - Sự tương đồng giữa hai vector

4.1.1.3. Root Mean Squared Error (RMSE)

Sử dụng RootMean Squared Error để đánh giá hiệu quả của thuật tốn, RMSE được tính bằng cơng thức:

RMSE= 1

����� �, �, � ∈ ����� ��� − ��� Trong đó:

- ����� : tập kiểm tra

- ��� : dự đoán của người dùng u trênitem itrên tập kiểm tra - ��� : dự đoán của người dùng u trênitem itheo thuật toán gợi

Một phần của tài liệu Xây dựng hệ thống đánh giá và khuyến nghị khách sạn (Trang 40 - 42)

Tải bản đầy đủ (PDF)

(54 trang)