Cơng thức tính RMSE

Một phần của tài liệu Xây dựng ứng dụng kinh doanh thiết bị điện tử hỗ trợ khuyến nghị sản phẩm (Trang 105 - 107)

- Trong đó:

• Dtest : tập kiểm tra

• rui: dự đốn của người dùng u trên item i trên tập kiểm tra

5.1.2. Phương pháp

- Các bước thực hiện bao gồm:

+ Tìm hiểu thuật tốn.

+ Cài đặt thuật tốn, chạy trên dữ liệu test.

+ Tính RMSE của các thuật toán và so sánh, đánh giá.

- Dữ liệu test sử dụng: MoviesLens 100K Dataset (https://grouplens.org/datasets/movielens/100k/)

- MoviesLens 100K Dataset:

u.data: Chứa toàn bộ các ratings của 943 users cho 1682 movies. Mỗi user rate ít nhất 20 movies. Thơng tin về thời gian rate cũng được cho không sử dụng trong bài viết này.

ua.base, ua.test, ub.base, ub.test: là hai cách chia toàn bộ dữ liệu ra thành hai tập con, một cho training, một cho test

u.user: Chứa thông tin về users, bao gồm: id, tuổi, giới tính, nghề nghiệp, zipcode (vùng miền), vì những thơng tin này cũng có thể ảnh hưởng tới sở thích của các users. Tuy nhiên, trong bài viết này, sẽ không sử dụng các thông tin này, trừ thông tin về id để xác định các user khác nhau.

u.genre: Chứa tên của 19 thể loại phim. Các thể loại bao gồm: unknown, Action, Adventure, Animation, Children's, Comedy, Crime, Documentary, Drama, Fantasy, Film-Noir, Horror, Musical, Mystery, Romance, Sci-Fi, Thriller, War, Western

5.1.2.1. Content-based Recommender System

Trong các hệ thống content-based, tức dựa trên nội dung của mỗi item, cần xây dựng một bộ hộ sơ (profile) cho mỗi item. Profile này được biểu diễn dưới dạng toán học là một feature vector. Trong những trường hợp đơn giản, feature vector được trực tiếp trích xuất từ item.

Các bước thực hiện:

+ Đọc dữ liệu items

+ Xây dựng item profiles

+ Tìm mơ hình cho mỗi user

Đọc dữ liệu items: đọc dữ liệu items từ file u.item, dữ liệu train từ ua.base, dữ liệu test từ ua.test

Một phần của tài liệu Xây dựng ứng dụng kinh doanh thiết bị điện tử hỗ trợ khuyến nghị sản phẩm (Trang 105 - 107)

Tải bản đầy đủ (PDF)

(126 trang)