.6 Ma trận đánh giá quan sát theo sản phẩm

Một phần của tài liệu NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO LỌC CỘNG TÁC 8 LUẬN VĂN THẠC SĨ KỸ THUẬT (Trang 43)

Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4  1 5  1 3 u2  5 2 5 2  2 u3 2 4 5 1 4  4 u4 1 5   5 2  u5  4 1 1 4 5 1

Phương pháp học chuyển giao từ người dùng đến sản phẩm

uá trình huấn luyện theo người d ng sẽ thực hiện trước: uá trình này cho k t quả như í dụ quan át theo người d ng đã trình ày ở trên.

uá trình huấn luyện theo sản phẩm: Ở đây hác ới í dụ quan át theo ản phẩm ở trên, chúng ta thừa các nhãn phân oại chắc chắn do quá trình huấn luyện theo người d ng đ lại àm ti n đ đ tính tốn các đánh giá dự đốn.

Bước 1: Với ta tìm được tập: C1={p2, p3 , p4, p5, p6, p7}, C2={p1,

p3 , p4, p5, p6, p7}, C3={p1, p2 , p4, p6, p7}, C4={p1, p2 , p3, p6, p7}, C5={p1, p2, p6}, C6={p1, p2 , p3, p4, p5, p7}, C7={p1, p2 , p3, p4, p6}

Ta xác đ nh mức đ tương tự gi a nh ng sản phẩm theo công thức (2.2) : Ta được bảng k t quả: Bảng 2.7 Bảng mức độ tương tự giữa các sản phẩm p1 p2 p3 p4 p5 p6 p7 p1 - 0.962 -0.808 1 -0.375 -0.778 -0.866 p2 0.962 - -0.97 0.333 -0.5 -0.578 -0.866 p3 -0.808 -0.97 - -0.971  0 0.721 p4 1 0.333 -0.971 -  0 -0.866 p5 -0.375 -0.5   - 0.862  p6 -0.778 -0.578 0 0 0.862 - 0 p7 -0.866 -0.866 0.721 -0.866  0 - Bước 2: Ta tìm được tập K1={p4}, K2={p1}, K3={p7}, K4={p1}, K5={p6}, K6={p5}, K7={p3} theo công thức

Bảng 2.8 Ma trận kết quả Transfer – UserBased sau vòng lặp t=1 Người dùng Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4  1 3 2  u5  5   4 5 

Lặp lần 2: K thừa nhãn phân oại chắc chắn ở ước trên ta thực hiện quan

át theo người d ng:

Bước 1: Với  ta tìm được tập: S1={u2, u3, u4, u5}, S2={u1, u3, u4, u5}, S3={u1, u3, u4, u5}, S4={u1, u2, u3, u5}, S5={u1, u2, u3, u4}

Tính đ tương tự gi a người d ng theo công thức (2.1) ta được bảng k t quả:

Bảng 2.9 Bảng mức độ tương quan giữa các người dùng

u1 u2 u3 u4 u5 u1 - 0.951 -0.056 -0.04 0.832 u2 0.951 - -0.67 0.617 0 u3 -0.056 -0.67 - 0.11 0.5 u4 -0.04 0.617 0.11 - 0 u5 0.832 0 0.5 0 -

Bước 2: Ta xác đ nh được tập K1={u2}, K2={u1}, K3={u5}, K4={u2}, K5={u1} theo công thức

Bước 3: Tính dự đốn đánh giá của người d ng theo công thức ta được k t

quả:

Bảng 2.10 Ma trận kết quả của phương pháp Transfer-UserBased

Người dùng Sản phẩm p1 p2 p3 p4 p5 p6 p7 u1 4 5 1 5 2 1 3 u2 4 5 2 5 3 1 2 u3 2 4 5 1 1 1 4 u4 1 4 2 1 3 2 2 u5 4 5 1 5 4 5 3

Tất cả các giá tr  đã được đánh giá, thuật toán t thúc

Phương pháp học chuyển giao từ sản phẩm đến người dùng

Ta tính tương tự các ước như phương pháp học chuy n giao từ người d ng đ n sản phẩm nhưng ta thực hiện tính tốn dựa trên iệc quan át theo ản phẩm trước.

2.6. Kết luận chương 2

Chương này đã giới thiệu v ài toán ọc c ng tác à hai phương pháp trong lọc c ng tác dựa trên nhớ: ItemBa ed à U erBased. Trên cơ ở hai phương pháp ọc c ng tác cơ ản, luận n xây dựng hai phương pháp ọc dựa ào phương pháp học chuy n giao. M i phương pháp thực hiện quá trình chuy n giao tri thức từ người d ng đ n sản phẩm à ngược lại. Phương pháp đã cải thiện được chất ượng dự đoán của các phương pháp ọc trong trường hợp d liệu thưa.

CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ

Hiệu quả lọc c ng tác được xác đ nh dựa trên hả n ng thuật toán dự đốn chính xác đánh giá của hách hàng. Chương này ẽ ti n hành i m nghiệm đánh giá hiệu quả của các phương pháp lọc c ng tác dựa ào U er a ed, ọc c ng tác dựa ào ItemBased, lọc c ng tác dựa ào Tran fer-UserBased, lọc c ng tác dựa ào Transfer-ItemBa ed à o ánh t quả gi a các phương pháp ới nhau.

3.1. Dữ liệu thử nghiệm

Thuật toán ọc c ng tác được thử nghiệm trên các d liệu MovieLens của nh m nghiên cứu GroupLens thu c trường đại học Minnesota. MovieLens gồm c ba b d liệu: B d liệu thứ nhất ml-100K bao gồm 100.000 đánh giá của 943

người d ng cho 1682 phim. Giá tr đánh giá được thực hiện từ 1 đ n 5. Mức đ

thưa thớt d liệu đánh giá à 98.7%. B d liệu thứ hai ml-1M bao gồm 1000.000

đánh giá của 6000 người d ng cho 4000 phim. B d liệu thứ ba ml-10M bao gồm (adsbygoogle = window.adsbygoogle || []).push({});

10.000.000 đánh giá của 72000 người d ng. Người d ng được mô tả bằng các thơng

tin cá nhân như tuổi, giới tính, ngh nghiệp à zip code… Phim được mô tả bằng các thông tin như tựa phim, đạo diễn, rating,…

Lần ượt chọn ngẫu nhiên 200, 400, à 600 người d ng trong tập ml-100K

àm d liệu huấn luyện, 200 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 1000, 2000, à 3000 người d ng trong tập

ml-1M àm d liệu huấn luyện, 1000 người d ng được lựa chọn ngẫu nhiên trong ố còn ại đ àm tập ki m tra. Chọn ngẫu nhiên 10000, 20000, à 40000 người d ng

trong tập ml-1M àm d liệu huấn luyện, 10000 người d ng được lựa chọn ngẫu

nhiên trong ố còn ại đ àm tập ki m tra.

Đ thử nghiệm khả n ng của phương pháp mới đ xuất so với nh ng phương pháp hác trong trường hợp c ít d liệu, chúng tôi thay đổi số ượng đánh giá của m i người d ng trong tập ki m tra sao cho số ượng đánh giá đã i t lần ượt à 5,

Chọn  = 14, =0.8 cho các tập d liệu huấn luyện đ thực hiện tính tốn

theo mơ hình học chuy n giao. Đi u này c nghĩa, iệc tính toán mức đ tương tự gi a các cặp người d ng hoặc sản phẩm chỉ thực hiện trên các cặp người d ng hoặc sản phẩm giao nhau 2/3 sản phẩm hoặc người d ng c ng đánh giá. Tập áng gi ng gi a các cặp người d ng hoặc sản phẩm chỉ được lấy trên tập inh c mức đ tương tự à 0.8 (rất giống nhau).

3.2. Phương pháp thử nghiệm

Trước tiên, toàn d liệu thử nghiệm được chia thành hai phần, m t phần

Utr được sử dụng àm d liệu huấn luyện, phần còn ại Ute được sử dụng đ ki m tra. Tập Utr chứa 75% đánh giá à tập Ute chứa 25% đánh giá. D liệu huấn luyện được sử dụng đ xây dựng mơ hình theo thuật tốn mơ tả ở trên. Với m i người d ng i

thu c tập d liệu ki m tra, các đánh giá (đã c ) của người d ng được chia àm hai phần Oi à Pi. Oi được coi à đã i t, trong hi đ Pi à đánh giá cần dự đoán từ d liệu huấn luyện à Oi.

Độ đo trung bình giá trị tuyệt đối lỗi.

Đ đo này được tính ằng trung ình giá tr tuyệt đối gi a hiệu của đánh giá theo dự đoán à đánh giá thực t của hách hàng u ới tất cả mặt hàng thu c tập Pu

(3.1) Trong đ n à tổng số đánh giá của tất cả người dung, u

y

rˆ à giá tr đánh giá theo dự đoán của người d ng u ới sản phẩm y, à ryu à giá tr đánh giá trên thực t . Sai số dự đốn trên tồn tập d liệu ki m tra được tính ằng trung ình c ng sai số dự đoán cho m i hách hàng thu c Ute.

te U u u U MAE MAE te    (3.2)

Hoặc M E được tính ằng cơng thức:

Trong đ n à tổng số đánh giá của tất cả người dung, pi,j à giá tr đánh giá theo dự đoán của người d ng i ới sản phẩm j, à ri,j à giá tr đánh giá trên thực t . Giá tr của M E càng thấp thì t quả dự đốn dự đốn càng tốt.

Ví dụ:

Bảng 3.1 Bảng ví dụ đánh giá độ đo trung bình tuyệt đối

Phim Khán giả Đánh giá theo dự

đoán Đánh giá thực tế của người dùng P1 U1 3 4 P2 U2 5 4 P3 U3 5 5 P4 U4 2 1 P5 U5 4 5 P6 U6 2 3 3.3. Kết quả thử nghiệm

Các phương pháp ọc c ng tác dựa học chuy n giao Transfer-U erBa ed à Transfer-ItemBased hác ới phương pháp ọc c ng tác dựa ào U erBa ed à ItemBased ở ch phương pháp lọc c ng tác dựa ào học chuy n giao thực hiện việc đồng quan át huấn luyện theo cả người d ng à ản phẩm. Hai quá trình này, thực hiện iên ti p, lặp đi ặp lại, m i quá trình ại bổ xung thêm các nhãn đánh giá chắc

chắn àm ti n đ dự đốn nhãn đánh giá cho q trình au. Vì ậy các phương pháp lọc c ng tác dựa ào học chuy n giao đưa ra được nhi u dự đoán đánh giá hơn phương pháp U erBa ed à ItemBa ed thuần túy.

Phương pháp Tran fer-U erBa ed à Tran fer-ItemBa ed hơng tính tốn đ tương quan gi a người d ng trên cả tập người d ng U mà chỉ tính tốn trên tập người d ng c ố đánh giá giao nhau tối thi u  sản phẩm Si, hơng tính tốn đ tương tự gi a các sản phẩm trên cả tập sản phẩm P mà chỉ tính tốn trên tập các ản phẩm giao nhau tối thi u  người d ng Cx. Đi u này giúp hạn ch nh ng ảnh hưởng của vấn đ d liệu thưa thớt àm cho các dự đốn đánh giá được chính xác hơn. (adsbygoogle = window.adsbygoogle || []).push({});

Do tập d liệu tương đối lớn à iệc đồng quan át d liệu huấn luyện theo cả người d ng à ản phẩm, việc ki m nghiệm sẽ mất rất nhi u thời gian, ì ậy ở đây, ta chỉ o ánh t quả ki m nghiệm phương pháp Tran fer-U erBa ed à Transfer-ItemBased theo đ thưa thớt d liệu, bỏ qua việc o ánh t quả ki m nghiệm theo ích thước tập hàng x m hác nhau. Với tập d liệu mà ố ượng đánh giá đã i t lần ượt à 5, 10, 15 à 20 ta chọn  lần lượt bằng 3, 6, 10, 14 nghĩa à chúng ta chỉ tính tốn đ tương quan gi a người d ng à đ tương tự gi a sản phẩm chỉ trên nh ng người d ng, ản phẩm c giao nhau 2/3 các đánh giá.

Phương pháp học chuyển giao dựa vào người dùng

K t quả ki m nghiệm

Bảng 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng

Số đánh giá i t trước 5 10 15 20

Hình 3.1 Kết quả thực nghiệm phương học chuyển giao dựa vào người dùng

Phương pháp học chuyển giao dựa vào sản phẩm

K t quả ki m nghiệm

Bảng 3.3: Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm

Số đánh giá i t trước 5 10 15 20 MAE 0.59856 0.57201 0.50778 0.50712 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 0.62

movielens5 movielens10 movielens15 movielens20

M

A

E

Movielens

Hình 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm

3.4. Đánh giá kết quả

Phương pháp học chuy n giao dựa ào người d ng Tranfer-UserBased à phương pháp học chuy n giao dựa ào ản phẩm Transfer- ItemBased được o ánh với hai phương pháp U erBa ed à ItemBa ed của lọc c ng tác được trình ày ở trên. Ta c ảng o ánh au : 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 0.62

movielens5 movielens10 movielens15 movielens20

M

A

E

Movielens

Bảng 3.4 Giá trị MAE trên tập ml -100K Phương pháp Phương pháp Số đánh giá i t trước 5 10 15 20 UserBased 0.82314 0.78935 0.81359 0.66134 ItemBased 0.93971 0.82314 0.81359 0.78188 Transfer-UserBased 0.62128 0.59447 0.53854 0.51292 Transfer-ItemBased 0.59856 0.57201 0.50778 0.50712

Hình 3.3 Giá trị MAE trên tập ml-100K

Giá tr MAE trong bảng trên được ước ượng từ trung ình của 10 lần thử nghiệm ngẫu nhiên. t quả thử nghiệm cho thấy cả hai phương pháp ọc c ng tác bằng phương pháp học chuy n giao đ u cho k t quả tốt hơn o ới phương pháp ọc U erBa ed à ItemBa ed. Sai ố MAE của phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm đ u nhỏ hơn trên mọi số ượng

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Movielens5 Movielens10 Movielens15 Movielens20

M A E UserBased ItemBased TF-UserBased TF-ItemBased

đánh giá cho trước của người d ng. Đi u đ c th khẳng đ nh phương pháp đ xuất cải thiện đáng k t quả dự đoán cho ọc c ng tác. (adsbygoogle = window.adsbygoogle || []).push({});

Trong trường hợp d liệu tương đối đầy đủ, cụ th à hi i t trước nhi u đánh giá của người d ng trong tập ki m tra, phương pháp học chuy n giao dựa ào người d ng à học chuy n giao dựa ào ản phẩm cho lại k t quả tương đương nhau. Tuy nhiên, hi d liệu ít đi, cụ th à hi chỉ bi t trước 5 hoặc 10 đánh giá của người d ng i m tra thì trong đa ố trường hợp, học chuy n giao dựa ào ản phẩm cho sai số MAE nhỏ hơn o ới học chuy n giao dựa ào người d ng. L do chủ y u à do ực ượng của tập Cx xác đ nh theo (2.13) lớn hơn ực ượng của tập Si xác đ nh theo (2.9). Đi u này cho phép dự đoán các nhãn phân oại bổ ung ào quá trình huấn luyện theo người d ng tốt hơn.

3.5. Kết luận chương 3

Phương pháp ọc c ng tác ằng phương pháp học chuy n giao đã được trình ày trong luận n này à m t cách ti p cận mới. Bằng cách k t hợp 2 cách quan át: quan át theo người d ng à quan át theo ản phẩm đ huấn luyện b d liệu đánh giá. Trong đ , quá trình quan át theo người d ng ẽ bổ ung được các nhãn phân oại chắc chắn cho q trình tính tốn mức đ tương tự gi a các cặp sản phẩm. Ngược lại, quá trình quan át theo ản phẩm c ng ẽ bổ ung được các nhãn phân loại chắc chắn cho q trình tính tốn mức đ tương tự gi a các cặp người d ng. Bằng cách này, trong trường hợp d liệu đầu ào thưa thớt đánh giá thì hệ thống vẫn c th đưa ra được các tư ấn c ích. Ưu đi m chủ y u của phương pháp này à việc phân oại đồng thời theo cả người d ng à ản phẩm cho phép ử dụng thông tin từ nh ng nh m người d ng hoặc sản phẩm tương tự nhau à nhờ vậy cải thiện đ chính xác phân oại hi c ít d liệu. K t quả thử nghiệm trên các d liệu Mo ieLen đã cho thấy phương pháp đ xuất cho k t quả tốt hơn hai phương pháp hác trong cả trường c đầy đủ d liệu à trường hợp c ít d liệu.

Trong thử nghiệm ban đầu, các phương pháp ọc c ng tác dựa theo người d ng, ọc c ng tác dựa theo sản phẩm à phương pháp mới lọc c ng tác ằng phương pháp học chuy n giao được o ánh qua các t quả thử nghiệm dựa trên

đ đo cơ ản M E. Các i m thử được thực hiện ở 3 thuật toán ới các tập d liệu c đ lớn hác nhau. C n cứ ào các t quả của ki m thử thì cách ti p cận lọc c ng tác ằng phương pháp học chuy n giao àm iệc tốt hơn các cách ti p cận lọc c ng tác thuần túy. Đặc biệt, trong các trường hợp d liệu thưa thớt.

KẾT LUẬN

Trong luận n em đã trình ày phương pháp cải ti n mới thay th cho hai phương pháp truy n thống của lọc c ng tác MemoryBa ed à U erBa ed à

Một phần của tài liệu NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO LỌC CỘNG TÁC 8 LUẬN VĂN THẠC SĨ KỸ THUẬT (Trang 43)