.10 Ma trận kết quả của phương pháp Transfer-UserBased

Một phần của tài liệu NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO LỌC CỘNG TÁC 8 LUẬN VĂN THẠC SĨ KỸ THUẬT (Trang 46 - 49)

Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4 2 1 3 2 2 u5 4 5 1 5 4 5 3

Tất cả các giá tr  đã được đánh giá, thuật toán t thúc

Phương pháp học chuyển giao từ sản phẩm đến người dùng

Ta tính tương tự các ước như phương pháp học chuy n giao từ người d ng đ n sản phẩm nhưng ta thực hiện tính tốn dựa trên iệc quan át theo ản phẩm trước.

2.6. Kết luận chương 2

Chương này đã giới thiệu v ài toán ọc c ng tác à hai phương pháp trong lọc c ng tác dựa trên nhớ: ItemBa ed à U erBased. Trên cơ ở hai phương pháp ọc c ng tác cơ ản, luận n xây dựng hai phương pháp ọc dựa ào phương pháp học chuy n giao. M i phương pháp thực hiện quá trình chuy n giao tri thức từ người d ng đ n sản phẩm à ngược lại. Phương pháp đã cải thiện được chất ượng dự đoán của các phương pháp ọc trong trường hợp d liệu thưa.

CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ

Hiệu quả lọc c ng tác được xác đ nh dựa trên hả n ng thuật toán dự đốn chính xác đánh giá của hách hàng. Chương này ẽ ti n hành i m nghiệm đánh giá hiệu quả của các phương pháp lọc c ng tác dựa ào U er a ed, ọc c ng tác dựa ào ItemBased, lọc c ng tác dựa ào Tran fer-UserBased, lọc c ng tác dựa ào Transfer-ItemBa ed à o ánh t quả gi a các phương pháp ới nhau.

3.1. Dữ liệu thử nghiệm

Thuật toán ọc c ng tác được thử nghiệm trên các d liệu MovieLens của nh m nghiên cứu GroupLens thu c trường đại học Minnesota. MovieLens gồm c ba b d liệu: B d liệu thứ nhất ml-100K bao gồm 100.000 đánh giá của 943

người d ng cho 1682 phim. Giá tr đánh giá được thực hiện từ 1 đ n 5. Mức đ

thưa thớt d liệu đánh giá à 98.7%. B d liệu thứ hai ml-1M bao gồm 1000.000

đánh giá của 6000 người d ng cho 4000 phim. B d liệu thứ ba ml-10M bao gồm

10.000.000 đánh giá của 72000 người d ng. Người d ng được mô tả bằng các thơng

tin cá nhân như tuổi, giới tính, ngh nghiệp à zip code… Phim được mô tả bằng các thông tin như tựa phim, đạo diễn, rating,…

Lần ượt chọn ngẫu nhiên 200, 400, à 600 người d ng trong tập ml-100K

àm d liệu huấn luyện, 200 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 1000, 2000, à 3000 người d ng trong tập

ml-1M àm d liệu huấn luyện, 1000 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 10000, 20000, à 40000 người d ng

trong tập ml-1M àm d liệu huấn luyện, 10000 người d ng được lựa chọn ngẫu

nhiên trong ố còn ại đ àm tập ki m tra.

Đ thử nghiệm khả n ng của phương pháp mới đ xuất so với nh ng phương pháp hác trong trường hợp c ít d liệu, chúng tôi thay đổi số ượng đánh giá của m i người d ng trong tập ki m tra sao cho số ượng đánh giá đã i t lần ượt à 5,

Chọn  = 14, =0.8 cho các tập d liệu huấn luyện đ thực hiện tính tốn

theo mơ hình học chuy n giao. Đi u này c nghĩa, iệc tính tốn mức đ tương tự gi a các cặp người d ng hoặc sản phẩm chỉ thực hiện trên các cặp người d ng hoặc sản phẩm giao nhau 2/3 sản phẩm hoặc người d ng c ng đánh giá. Tập áng gi ng gi a các cặp người d ng hoặc sản phẩm chỉ được lấy trên tập inh c mức đ tương tự à 0.8 (rất giống nhau).

3.2. Phương pháp thử nghiệm

Trước tiên, toàn d liệu thử nghiệm được chia thành hai phần, m t phần

Utr được sử dụng àm d liệu huấn luyện, phần còn ại Ute được sử dụng đ ki m tra. Tập Utr chứa 75% đánh giá à tập Ute chứa 25% đánh giá. D liệu huấn luyện được sử dụng đ xây dựng mơ hình theo thuật tốn mơ tả ở trên. Với m i người d ng i

thu c tập d liệu ki m tra, các đánh giá (đã c ) của người d ng được chia àm hai phần Oi à Pi. Oi được coi à đã i t, trong hi đ Pi à đánh giá cần dự đoán từ d liệu huấn luyện à Oi.

Độ đo trung bình giá trị tuyệt đối lỗi.

Đ đo này được tính ằng trung ình giá tr tuyệt đối gi a hiệu của đánh giá theo dự đoán à đánh giá thực t của hách hàng u ới tất cả mặt hàng thu c tập Pu

(3.1) Trong đ n à tổng số đánh giá của tất cả người dung, u

y

rˆ à giá tr đánh giá theo dự đoán của người d ng u ới sản phẩm y, à ryu à giá tr đánh giá trên thực t . Sai số dự đốn trên tồn tập d liệu ki m tra được tính ằng trung ình c ng sai số dự đoán cho m i hách hàng thu c Ute.

te U u u U MAE MAE te    (3.2)

Hoặc M E được tính ằng cơng thức:

Trong đ n à tổng số đánh giá của tất cả người dung, pi,j à giá tr đánh giá theo dự đoán của người d ng i ới sản phẩm j, à ri,j à giá tr đánh giá trên thực t . Giá tr của M E càng thấp thì t quả dự đốn dự đốn càng tốt.

Ví dụ:

Một phần của tài liệu NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO LỌC CỘNG TÁC 8 LUẬN VĂN THẠC SĨ KỸ THUẬT (Trang 46 - 49)

Tải bản đầy đủ (PDF)

(58 trang)