Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4 2 1 3 2 2 u5 4 5 1 5 4 5 3
Tất cả các giá tr đã được đánh giá, thuật toán t thúc
Phương pháp học chuyển giao từ sản phẩm đến người dùng
Ta tính tương tự các ước như phương pháp học chuy n giao từ người d ng đ n sản phẩm nhưng ta thực hiện tính tốn dựa trên iệc quan át theo ản phẩm trước.
2.6. Kết luận chương 2
Chương này đã giới thiệu v ài toán ọc c ng tác à hai phương pháp trong lọc c ng tác dựa trên nhớ: ItemBa ed à U erBased. Trên cơ ở hai phương pháp ọc c ng tác cơ ản, luận n xây dựng hai phương pháp ọc dựa ào phương pháp học chuy n giao. M i phương pháp thực hiện quá trình chuy n giao tri thức từ người d ng đ n sản phẩm à ngược lại. Phương pháp đã cải thiện được chất ượng dự đoán của các phương pháp ọc trong trường hợp d liệu thưa.
CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ
Hiệu quả lọc c ng tác được xác đ nh dựa trên hả n ng thuật toán dự đốn chính xác đánh giá của hách hàng. Chương này ẽ ti n hành i m nghiệm đánh giá hiệu quả của các phương pháp lọc c ng tác dựa ào U er a ed, ọc c ng tác dựa ào ItemBased, lọc c ng tác dựa ào Tran fer-UserBased, lọc c ng tác dựa ào Transfer-ItemBa ed à o ánh t quả gi a các phương pháp ới nhau.
3.1. Dữ liệu thử nghiệm
Thuật toán ọc c ng tác được thử nghiệm trên các d liệu MovieLens của nh m nghiên cứu GroupLens thu c trường đại học Minnesota. MovieLens gồm c ba b d liệu: B d liệu thứ nhất ml-100K bao gồm 100.000 đánh giá của 943
người d ng cho 1682 phim. Giá tr đánh giá được thực hiện từ 1 đ n 5. Mức đ
thưa thớt d liệu đánh giá à 98.7%. B d liệu thứ hai ml-1M bao gồm 1000.000
đánh giá của 6000 người d ng cho 4000 phim. B d liệu thứ ba ml-10M bao gồm
10.000.000 đánh giá của 72000 người d ng. Người d ng được mô tả bằng các thơng
tin cá nhân như tuổi, giới tính, ngh nghiệp à zip code… Phim được mô tả bằng các thông tin như tựa phim, đạo diễn, rating,…
Lần ượt chọn ngẫu nhiên 200, 400, à 600 người d ng trong tập ml-100K
àm d liệu huấn luyện, 200 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 1000, 2000, à 3000 người d ng trong tập
ml-1M àm d liệu huấn luyện, 1000 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 10000, 20000, à 40000 người d ng
trong tập ml-1M àm d liệu huấn luyện, 10000 người d ng được lựa chọn ngẫu
nhiên trong ố còn ại đ àm tập ki m tra.
Đ thử nghiệm khả n ng của phương pháp mới đ xuất so với nh ng phương pháp hác trong trường hợp c ít d liệu, chúng tôi thay đổi số ượng đánh giá của m i người d ng trong tập ki m tra sao cho số ượng đánh giá đã i t lần ượt à 5,
Chọn = 14, =0.8 cho các tập d liệu huấn luyện đ thực hiện tính tốn
theo mơ hình học chuy n giao. Đi u này c nghĩa, iệc tính tốn mức đ tương tự gi a các cặp người d ng hoặc sản phẩm chỉ thực hiện trên các cặp người d ng hoặc sản phẩm giao nhau 2/3 sản phẩm hoặc người d ng c ng đánh giá. Tập áng gi ng gi a các cặp người d ng hoặc sản phẩm chỉ được lấy trên tập inh c mức đ tương tự à 0.8 (rất giống nhau).
3.2. Phương pháp thử nghiệm
Trước tiên, toàn d liệu thử nghiệm được chia thành hai phần, m t phần
Utr được sử dụng àm d liệu huấn luyện, phần còn ại Ute được sử dụng đ ki m tra. Tập Utr chứa 75% đánh giá à tập Ute chứa 25% đánh giá. D liệu huấn luyện được sử dụng đ xây dựng mơ hình theo thuật tốn mơ tả ở trên. Với m i người d ng i
thu c tập d liệu ki m tra, các đánh giá (đã c ) của người d ng được chia àm hai phần Oi à Pi. Oi được coi à đã i t, trong hi đ Pi à đánh giá cần dự đoán từ d liệu huấn luyện à Oi.
Độ đo trung bình giá trị tuyệt đối lỗi.
Đ đo này được tính ằng trung ình giá tr tuyệt đối gi a hiệu của đánh giá theo dự đoán à đánh giá thực t của hách hàng u ới tất cả mặt hàng thu c tập Pu
(3.1) Trong đ n à tổng số đánh giá của tất cả người dung, u
y
rˆ à giá tr đánh giá theo dự đoán của người d ng u ới sản phẩm y, à ryu à giá tr đánh giá trên thực t . Sai số dự đốn trên tồn tập d liệu ki m tra được tính ằng trung ình c ng sai số dự đoán cho m i hách hàng thu c Ute.
te U u u U MAE MAE te (3.2)
Hoặc M E được tính ằng cơng thức:
Trong đ n à tổng số đánh giá của tất cả người dung, pi,j à giá tr đánh giá theo dự đoán của người d ng i ới sản phẩm j, à ri,j à giá tr đánh giá trên thực t . Giá tr của M E càng thấp thì t quả dự đốn dự đốn càng tốt.
Ví dụ: