.6 Ma trận đánh giá quan sát theo sản phẩm- 123docz.net

Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4  1 5  1 3 u2  5 2 5 2  2 u3 2 4 5 1 4  4 u4 1 5   5 2  u5  4 1 1 4 5 1

 Phương pháp học chuyển giao từ người dùng đến sản phẩm

uá trình huấn luyện theo người d ng sẽ thực hiện trước: uá trình này cho k t quả như í dụ quan át theo người d ng đã trình ày ở trên.

uá trình huấn luyện theo sản phẩm: Ở đây hác ới í dụ quan át theo ản phẩm ở trên, chúng ta thừa các nhãn phân oại chắc chắn do quá trình huấn luyện theo người d ng đ lại àm ti n đ đ tính tốn các đánh giá dự đốn.

Bước 1: Với ta tìm được tập: C1={p2, p3 , p4, p5, p6, p7}, C2={p1,

p3 , p4, p5, p6, p7}, C3={p1, p2 , p4, p6, p7}, C4={p1, p2 , p3, p6, p7}, C5={p1, p2, p6}, C6={p1, p2 , p3, p4, p5, p7}, C7={p1, p2 , p3, p4, p6}

Ta xác đ nh mức đ tương tự gi a nh ng sản phẩm theo công thức (2.2) : Ta được bảng k t quả: Bảng 2.7 Bảng mức độ tương tự giữa các sản phẩm p1 p2 p3 p4 p5 p6 p7 p1 - 0.962 -0.808 1 -0.375 -0.778 -0.866 p2 0.962 - -0.97 0.333 -0.5 -0.578 -0.866 p3 -0.808 -0.97 - -0.971  0 0.721 p4 1 0.333 -0.971 -  0 -0.866 p5 -0.375 -0.5   - 0.862  p6 -0.778 -0.578 0 0 0.862 - 0 p7 -0.866 -0.866 0.721 -0.866  0 - Bước 2: Ta tìm được tập K1={p4}, K2={p1}, K3={p7}, K4={p1}, K5={p6}, K6={p5}, K7={p3} theo công thức

Bảng 2.8 Ma trận kết quả Transfer – UserBased sau vòng lặp t=1 Người dùng Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4  1 3 2  u5  5   4 5 

Lặp lần 2: K thừa nhãn phân oại chắc chắn ở ước trên ta thực hiện quan

át theo người d ng:

Bước 1: Với  ta tìm được tập: S1={u2, u3, u4, u5}, S2={u1, u3, u4, u5}, S3={u1, u3, u4, u5}, S4={u1, u2, u3, u5}, S5={u1, u2, u3, u4}

Tính đ tương tự gi a người d ng theo công thức (2.1) ta được bảng k t quả:

Bảng 2.9 Bảng mức độ tương quan giữa các người dùng

u1 u2 u3 u4 u5 u1 - 0.951 -0.056 -0.04 0.832 u2 0.951 - -0.67 0.617 0 u3 -0.056 -0.67 - 0.11 0.5 u4 -0.04 0.617 0.11 - 0 u5 0.832 0 0.5 0 -

Bước 2: Ta xác đ nh được tập K1={u2}, K2={u1}, K3={u5}, K4={u2}, K5={u1} theo công thức

Bước 3: Tính dự đốn đánh giá của người d ng theo công thức ta được k t

quả:

Bảng 2.10 Ma trận kết quả của phương pháp Transfer-UserBased

Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4 2 1 3 2 2 u5 4 5 1 5 4 5 3

Tất cả các giá tr  đã được đánh giá, thuật toán t thúc

 Phương pháp học chuyển giao từ sản phẩm đến người dùng

Ta tính tương tự các ước như phương pháp học chuy n giao từ người d ng đ n sản phẩm nhưng ta thực hiện tính tốn dựa trên iệc quan át theo ản phẩm trước.

2.6. Kết luận chương 2

Chương này đã giới thiệu v ài toán ọc c ng tác à hai phương pháp trong lọc c ng tác dựa trên nhớ: ItemBa ed à U erBased. Trên cơ ở hai phương pháp ọc c ng tác cơ ản, luận n xây dựng hai phương pháp ọc dựa ào phương pháp học chuy n giao. M i phương pháp thực hiện quá trình chuy n giao tri thức từ người d ng đ n sản phẩm à ngược lại. Phương pháp đã cải thiện được chất ượng dự đoán của các phương pháp ọc trong trường hợp d liệu thưa.

CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ

Hiệu quả lọc c ng tác được xác đ nh dựa trên hả n ng thuật toán dự đốn chính xác đánh giá của hách hàng. Chương này ẽ ti n hành i m nghiệm đánh giá hiệu quả của các phương pháp lọc c ng tác dựa ào U er a ed, ọc c ng tác dựa ào ItemBased, lọc c ng tác dựa ào Tran fer-UserBased, lọc c ng tác dựa ào Transfer-ItemBa ed à o ánh t quả gi a các phương pháp ới nhau.

3.1. Dữ liệu thử nghiệm

Thuật toán ọc c ng tác được thử nghiệm trên các d liệu MovieLens của nh m nghiên cứu GroupLens thu c trường đại học Minnesota. MovieLens gồm c ba b d liệu: B d liệu thứ nhất ml-100K bao gồm 100.000 đánh giá của 943

người d ng cho 1682 phim. Giá tr đánh giá được thực hiện từ 1 đ n 5. Mức đ

thưa thớt d liệu đánh giá à 98.7%. B d liệu thứ hai ml-1M bao gồm 1000.000

đánh giá của 6000 người d ng cho 4000 phim. B d liệu thứ ba ml-10M bao gồm

10.000.000 đánh giá của 72000 người d ng. Người d ng được mô tả bằng các thơng

tin cá nhân như tuổi, giới tính, ngh nghiệp à zip code… Phim được mô tả bằng các thông tin như tựa phim, đạo diễn, rating,…

Lần ượt chọn ngẫu nhiên 200, 400, à 600 người d ng trong tập ml-100K

àm d liệu huấn luyện, 200 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 1000, 2000, à 3000 người d ng trong tập

ml-1M àm d liệu huấn luyện, 1000 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 10000, 20000, à 40000 người d ng

trong tập ml-1M àm d liệu huấn luyện, 10000 người d ng được lựa chọn ngẫu

nhiên trong ố còn ại đ àm tập ki m tra.

Đ thử nghiệm khả n ng của phương pháp mới đ xuất so với nh ng phương pháp hác trong trường hợp c ít d liệu, chúng tôi thay đổi số ượng đánh giá của m i người d ng trong tập ki m tra sao cho số ượng đánh giá đã i t lần ượt à 5,

Chọn  = 14, =0.8 cho các tập d liệu huấn luyện đ thực hiện tính tốn

theo mơ hình học chuy n giao. Đi u này c nghĩa, iệc tính toán mức đ tương tự gi a các cặp người d ng hoặc sản phẩm chỉ thực hiện trên các cặp người d ng hoặc sản phẩm giao nhau 2/3 sản phẩm hoặc người d ng c ng đánh giá. Tập áng gi ng gi a các cặp người d ng hoặc sản phẩm chỉ được lấy trên tập inh c mức đ tương tự à 0.8 (rất giống nhau).

3.2. Phương pháp thử nghiệm

Trước tiên, toàn d liệu thử nghiệm được chia thành hai phần, m t phần

Utr được sử dụng àm d liệu huấn luyện, phần còn ại Ute được sử dụng đ ki m tra. Tập Utr chứa 75% đánh giá à tập Ute chứa 25% đánh giá. D liệu huấn luyện được sử dụng đ xây dựng mơ hình theo thuật tốn mơ tả ở trên. Với m i người d ng i

thu c tập d liệu ki m tra, các đánh giá (đã c ) của người d ng được chia àm hai phần Oi à Pi. Oi được coi à đã i t, trong hi đ Pi à đánh giá cần dự đoán từ d liệu huấn luyện à Oi.

Độ đo trung bình giá trị tuyệt đối lỗi.

Đ đo này được tính ằng trung ình giá tr tuyệt đối gi a hiệu của đánh giá theo dự đoán à đánh giá thực t của hách hàng u ới tất cả mặt hàng thu c tập Pu

(3.1) Trong đ n à tổng số đánh giá của tất cả người dung, u

rˆ à giá tr đánh giá theo dự đoán của người d ng u ới sản phẩm y, à ryu à giá tr đánh giá trên thực t . Sai số dự đốn trên tồn tập d liệu ki m tra được tính ằng trung ình c ng sai số dự đoán cho m i hách hàng thu c Ute.

te U u u U MAE MAE te    (3.2)

Hoặc M E được tính ằng cơng thức:

Trong đ n à tổng số đánh giá của tất cả người dung, pi,j à giá tr đánh giá theo dự đoán của người d ng i ới sản phẩm j, à ri,j à giá tr đánh giá trên thực t . Giá tr của M E càng thấp thì t quả dự đốn dự đốn càng tốt.

Ví dụ:

Bảng 3.1 Bảng ví dụ đánh giá độ đo trung bình tuyệt đối

Phim Khán giả Đánh giá theo dự

đoán Đánh giá thực tế của người dùng P1 U1 3 4 P2 U2 5 4 P3 U3 5 5 P4 U4 2 1 P5 U5 4 5 P6 U6 2 3 3.3. Kết quả thử nghiệm

Các phương pháp ọc c ng tác dựa học chuy n giao Transfer-U erBa ed à Transfer-ItemBased hác ới phương pháp ọc c ng tác dựa ào U erBa ed à ItemBased ở ch phương pháp lọc c ng tác dựa ào học chuy n giao thực hiện việc đồng quan át huấn luyện theo cả người d ng à ản phẩm. Hai quá trình này, thực hiện iên ti p, lặp đi ặp lại, m i quá trình ại bổ xung thêm các nhãn đánh giá chắc

chắn àm ti n đ dự đốn nhãn đánh giá cho q trình au. Vì ậy các phương pháp lọc c ng tác dựa ào học chuy n giao đưa ra được nhi u dự đoán đánh giá hơn phương pháp U erBa ed à ItemBa ed thuần túy.

Phương pháp Tran fer-U erBa ed à Tran fer-ItemBa ed hơng tính tốn đ tương quan gi a người d ng trên cả tập người d ng U mà chỉ tính tốn trên tập người d ng c ố đánh giá giao nhau tối thi u  sản phẩm Si, hơng tính tốn đ tương tự gi a các sản phẩm trên cả tập sản phẩm P mà chỉ tính tốn trên tập các ản phẩm giao nhau tối thi u  người d ng Cx. Đi u này giúp hạn ch nh ng ảnh hưởng của vấn đ d liệu thưa thớt àm cho các dự đốn đánh giá được chính xác hơn.

Do tập d liệu tương đối lớn à iệc đồng quan át d liệu huấn luyện theo cả người d ng à ản phẩm, việc ki m nghiệm sẽ mất rất nhi u thời gian, ì ậy ở đây, ta chỉ o ánh t quả ki m nghiệm phương pháp Tran fer-U erBa ed à Transfer-ItemBased theo đ thưa thớt d liệu, bỏ qua việc o ánh t quả ki m nghiệm theo ích thước tập hàng x m hác nhau. Với tập d liệu mà ố ượng đánh giá đã i t lần ượt à 5, 10, 15 à 20 ta chọn  lần lượt bằng 3, 6, 10, 14 nghĩa à chúng ta chỉ tính tốn đ tương quan gi a người d ng à đ tương tự gi a sản phẩm chỉ trên nh ng người d ng, ản phẩm c giao nhau 2/3 các đánh giá.

 Phương pháp học chuyển giao dựa vào người dùng

K t quả ki m nghiệm

Bảng 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng

Số đánh giá i t trước 5 10 15 20

Hình 3.1 Kết quả thực nghiệm phương học chuyển giao dựa vào người dùng

 Phương pháp học chuyển giao dựa vào sản phẩm

K t quả ki m nghiệm

Bảng 3.3: Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm

Số đánh giá i t trước 5 10 15 20 MAE 0.59856 0.57201 0.50778 0.50712 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 0.62

movielens5 movielens10 movielens15 movielens20

Movielens

Hình 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm

3.4. Đánh giá kết quả

Phương pháp học chuy n giao dựa ào người d ng Tranfer-UserBased à phương pháp học chuy n giao dựa ào ản phẩm Transfer- ItemBased được o ánh với hai phương pháp U erBa ed à ItemBa ed của lọc c ng tác được trình ày ở trên. Ta c ảng o ánh au : 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 0.62

movielens5 movielens10 movielens15 movielens20

Movielens

Bảng 3.4 Giá trị MAE trên tập ml -100K Phương pháp Phương pháp Số đánh giá i t trước 5 10 15 20 UserBased 0.82314 0.78935 0.81359 0.66134 ItemBased 0.93971 0.82314 0.81359 0.78188 Transfer-UserBased 0.62128 0.59447 0.53854 0.51292 Transfer-ItemBased 0.59856 0.57201 0.50778 0.50712

Hình 3.3 Giá trị MAE trên tập ml-100K

Giá tr MAE trong bảng trên được ước ượng từ trung ình của 10 lần thử nghiệm ngẫu nhiên. t quả thử nghiệm cho thấy cả hai phương pháp ọc c ng tác bằng phương pháp học chuy n giao đ u cho k t quả tốt hơn o ới phương pháp ọc U erBa ed à ItemBa ed. Sai ố MAE của phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm đ u nhỏ hơn trên mọi số ượng

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Movielens5 Movielens10 Movielens15 Movielens20

M A E UserBased ItemBased TF-UserBased TF-ItemBased

đánh giá cho trước của người d ng. Đi u đ c th khẳng đ nh phương pháp đ xuất cải thiện đáng k t quả dự đoán cho ọc c ng tác.

Trong trường hợp d liệu tương đối đầy đủ, cụ th à hi i t trước nhi u đánh giá của người d ng trong tập ki m tra, phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm cho lại k t quả tương đương nhau. Tuy nhiên, hi d liệu ít đi, cụ th à hi chỉ bi t trước 5 hoặc 10 đánh giá của người d ng i m tra thì trong đa ố trường hợp, học chuy n giao dựa ào ản phẩm cho sai số MAE nhỏ hơn o ới học chuy n giao dựa ào người d ng. L do chủ y u à do ực ượng của tập Cx xác đ nh theo (2.13) lớn hơn ực ượng của tập Si xác đ nh theo (2.9). Đi u này cho phép dự đoán các nhãn phân oại bổ ung ào quá trình huấn luyện theo người d ng tốt hơn.

3.5. Kết luận chương 3

Phương pháp ọc c ng tác ằng phương pháp học chuy n giao đã được trình ày trong luận n này à m t cách ti p cận mới. Bằng cách k t hợp 2 cách quan át: quan át theo người d ng à quan át theo ản phẩm đ huấn luyện b d liệu đánh giá. Trong đ , quá trình quan át theo người d ng ẽ bổ ung được các nhãn phân oại chắc chắn cho q trình tính tốn mức đ tương tự gi a các cặp sản phẩm. Ngược lại, quá trình quan át theo ản phẩm c ng ẽ bổ ung được các nhãn phân loại chắc chắn cho q trình tính tốn mức đ tương tự gi a các cặp người d ng. Bằng cách này, trong trường hợp d liệu đầu ào thưa thớt đánh giá thì hệ thống vẫn c th đưa ra được các tư ấn c ích. Ưu đi m chủ y u của phương pháp này à việc phân oại đồng thời theo cả người d ng à ản phẩm cho phép ử dụng thông tin từ nh ng nh m người d ng hoặc sản phẩm tương tự nhau à nhờ vậy cải thiện đ chính xác phân oại hi c ít d liệu. K t quả thử nghiệm trên các d liệu Mo ieLen đã cho thấy phương pháp đ xuất cho k t quả tốt hơn hai phương pháp hác trong cả trường c đầy đủ d liệu à trường hợp c ít d liệu.

Trong thử nghiệm ban đầu, các phương pháp ọc c ng tác dựa theo người d ng, ọc c ng tác dựa theo sản phẩm à phương pháp mới lọc c ng tác ằng phương pháp học chuy n giao được o ánh qua các t quả thử nghiệm dựa trên

đ đo cơ ản M E. Các i m thử được thực hiện ở 3 thuật toán ới các tập d liệu c đ lớn hác nhau. C n cứ ào các t quả của ki m thử thì cách ti p cận lọc c ng tác ằng phương pháp học chuy n giao àm iệc tốt hơn các cách ti p cận lọc c ng tác thuần túy. Đặc biệt, trong các trường hợp d liệu thưa thớt.

KẾT LUẬN

Trong luận n em đã trình ày phương pháp cải ti n mới thay th cho hai phương pháp truy n thống của lọc c ng tác MemoryBa ed à U erBa ed à

.6 Ma trận đánh giá quan sát theo sản phẩm

.10 Ma trận kết quả của phương pháp Transfer-UserBased

.4 Giá trị MAE trên tập ml-100K