MỤC LỤC MỤC LỤC...................................................................................................................................... iii DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT .......................................................................................v DANH MỤC CÁC BẢNG .............................................................................................................. vi DANH MỤC CÁC HÌNH ............................................................................................................. vii MỞ ĐẦU ......................................................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO ............................................................... 3 1.1. Giới thiệu chung .................................................................................................................. 3 1.2. hái niệm à đ nh nghĩa ..................................................................................................... 3 1.3. Phân oại các phương pháp học chuy n giao ...................................................................... 4 1.3.1. Học chuy n giao quy nạp (Inductive transfer learning) ...................................................... 4 1.3.2. Học chuy n giao t ng cường (Transductive transfer learning) ........................................... 5 1.3.3. Học chuy n giao hông giám át (Un uper i ed tran fer earning) ................................... 5 1.3.4. Tổng k t phân oại các phương pháp học chuy n giao: ...................................................... 6 1.4. Chuy n giao tri thức thông qua í dụ huấn luyện (Transferring knowledge of instances) . 7 1.4.1. Chuy n giao tri thức thông qua í dụ huấn luyện trong học quy nạp ................................. 7 1.4.2. Chuy n giao tri thức thông qua í dụ huấn luyện trong học t ng cường ............................ 8 1.5. Chuy n giao tri thức từ bi u diễn đặc trưng ........................................................................ 9 1.5.1. Chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao quy nạp .................... 9 1.5.2. Chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao t ng cường ................ 9 1.5.3. Chuy n giao tri thức từ bi u diễn đặc trưng trong học hông giám át .............................. 9 1.6. Chuy n giao tri thức từ các quan hệ .................................................................................. 10 1.7. Ứng dụng của học chuy n giao ......................................................................................... 10 1.8.Kết luận chương 1 ................................................................................................................... 10 CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC CHUYỂN GIAO .................... 12 2.1. Phát i u ài toán ọc c ng tác .......................................................................................... 12 2.2. M t số nghiên cứu iên quan ............................................................................................. 13 iv 2.3. Lọc c ng tác dựa ào nhớ ............................................................................................ 14 2.3.1. Phương pháp U erBa ed à ItemBa ed ............................................................................ 15 2.3.2. Hạn ch của phương pháp U er-Ba ed à Item-Based ..................................................... 16 2.3.3. Phương pháp cải ti n ......................................................................................................... 17 2.4. Phương pháp học chuy n giao cho lọc c ng tác ............................................................... 18 2.4.1. Học chuy n giao từ người d ng đ n sản phẩm ................................................................. 18 2.4.2. Học chuy n giao từ sản phẩm đ n người d ng ................................................................. 20 2.4.3. K t hợp gi a hai ki u quan át .......................................................................................... 22 2.4.3.1. Phương pháp Tran fer - UserBased ....................................................................... 23 2.4.3.2. Phương pháp Tran fer -ItemBased ......................................................................... 27 2.5. Ví dụ minh họa .................................................................................................................. 30 2.6. Kết luận chương 2 ........................................................................................................... 37 CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................................ 38 3.1. D liệu thử nghiệm ........................................................................................................... 38 3.2. Phương pháp thử nghiệm .................................................................................................. 39 3.3. K t quả thử nghiệm ........................................................................................................... 40 3.4. Đánh giá t quả ............................................................................................................... 43 3.5. Kết luận chương 3 ........................................................................................................... 45 KẾT LUẬN ................................................................................................................................... 47 TÀI LIỆU THAM KHẢO ............................................................................................................. 48
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
NGUYỄN THANH HẢI
ĐỀ TÀI NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
NGUYỄN THANH HẢI
ĐỀ TÀI NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
LỌC CỘNG TÁC
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ: 60.48.01.04 8
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN DUY PHƯƠNG
HÀ NỘI, 2013
Trang 3LỜI CẢM ƠN
Trong thời gian học tập tại Học viện Công nghệ Bưu chính Viễn thông em đã được sự quan tâm dạy bảo, hướng dẫn tận tình của các thầy cô giáo, em xin gửi lời cảm ơn chân thành tới các thầy, các cô Đặc biệt xin gửi lời cảm ơn trân trọng nhất tới thầy giáo TS Nguyễn Duy Phương, người đã tận tình hướng dẫn em trong suốt quá trình thực hiện uận n tốt nghiệp này
Bên cạnh đ em c ng đã nhận được ự tạo đi u iện à h trợ nhiệt tình của các cán , trợ hoa uốc t à Sau đại học, nhận được ự chia à phối hợp ới tinh thần đoàn t của tập th ớp M12CQCT01 B in được trân trọng cảm ơn các
nh, các Ch à các Bạn
Cuối c ng xin được n i ời cảm ơn tới gia đình à nh ng người thân yêu -
nh ng người đã uôn uôn đ ng iên, h trợ trong quá trình học tập chương trình Thạc k thuật tại Học iện Công nghệ Bưu chính iễn thông, đặc iệt à quá trình tốt nghiệp, thực hiện à hoàn thành cuốn uận n này
Trân trọng!
Học viên
Nguyễn Thanh Hải
Trang 4LỜI CAM ĐOAN
Tôi cam đoan đây à công trình nghiên cứu của riêng tôi Các ố liệu, k t quả nêu trong uận n à trung thực à chưa từng được ai công ố trong bất
kỳ công trình nào hác
Hà Nội, ngày tháng năm 2013
Tác giả luận văn
Nguyễn Thanh Hải
Trang 5MỤC LỤC
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO 3
1.1 Giới thiệu chung 3
1.2 hái niệm à đ nh nghĩa 3
1.3 Phân oại các phương pháp học chuy n giao 4
1.3.1 Học chuy n giao quy nạp (Inductive transfer learning) 4
1.3.2 Học chuy n giao t ng cường (Transductive transfer learning) 5
1.3.3 Học chuy n giao hông giám át (Un uper i ed tran fer earning) 5
1.3.4 Tổng k t phân oại các phương pháp học chuy n giao: 6
1.4 Chuy n giao tri thức thông qua í dụ huấn luyện (Transferring knowledge of instances) 7 1.4.1 Chuy n giao tri thức thông qua í dụ huấn luyện trong học quy nạp 7
1.4.2 Chuy n giao tri thức thông qua í dụ huấn luyện trong học t ng cường 8
1.5 Chuy n giao tri thức từ bi u diễn đặc trưng 9
1.5.1 Chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao quy nạp 9
1.5.2 Chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao t ng cường 9
1.5.3 Chuy n giao tri thức từ bi u diễn đặc trưng trong học hông giám át 9
1.6 Chuy n giao tri thức từ các quan hệ 10
1.7 Ứng dụng của học chuy n giao 10
1.8.Kết luận chương 1 10
CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC CHUYỂN GIAO 12
2.1 Phát i u ài toán ọc c ng tác 12
2.2 M t số nghiên cứu iên quan 13
Trang 62.3 Lọc c ng tác dựa ào nhớ 14
2.3.1 Phương pháp U erBa ed à ItemBa ed 15
2.3.2 Hạn ch của phương pháp U er-Ba ed à Item-Based 16
2.3.3 Phương pháp cải ti n 17
2.4 Phương pháp học chuy n giao cho lọc c ng tác 18
2.4.1 Học chuy n giao từ người d ng đ n sản phẩm 18
2.4.2 Học chuy n giao từ sản phẩm đ n người d ng 20
2.4.3 K t hợp gi a hai ki u quan át 22
2.4.3.1 Phương pháp Tran fer - UserBased 23
2.4.3.2 Phương pháp Tran fer -ItemBased 27
2.5 Ví dụ minh họa 30
2.6 Kết luận chương 2 37
CHƯƠNG 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ 38
3.1 D liệu thử nghiệm 38
3.2 Phương pháp thử nghiệm 39
3.3 K t quả thử nghiệm 40
3.4 Đánh giá t quả 43
3.5 Kết luận chương 3 45
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48
Trang 7DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT
l i
Trang 8DANH MỤC CÁC BẢNG
Bảng 1.1 Phân loại các phương pháp học chuyển giao 6
Bảng 1.2 Phân loại theo tình trạng dữ liệu 7
Bảng 2.1 Ma trận đánh giá người dùng - sản phẩm 13
Bảng 2.2 Ma trận đánh giá theo quan sát từ người dùng 20
Bảng 2.3 Ma trận đánh giá theo quan sát từ sản phẩm 22
Bảng 2.4 Ma trận đánh giá ban đầu 31
Bảng 2.5 Ma trận đánh giá quan sát theo người dùng 33
Bảng 2.6 Ma trận đánh giá quan sát theo sản phẩm 34
Bảng 2.7 Bảng mức độ tương tự giữa các sản phẩm 35
Bảng 2.8 Ma trận kết quả Transfer – UserBased sau vòng lặp t=1 36
Bảng 2.9 Bảng mức độ tương quan giữa các người dùng 36
Bảng 2.10 Ma trận kết quả của phương pháp Transfer-UserBased 37
Bảng 3.1 Bảng ví dụ đánh giá độ đo trung bình tuyệt đối 40
Bảng 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 41
Bảng 3.3: Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 42
Bảng 3.4 Giá trị MAE trên tập ml -100K 44
Trang 9DANH MỤC CÁC HÌNH
Hình 2.1 Thuật toán Transfer -UserBased 23
Hình 2.2 Thuật toán Transfer-ItemBased 27
Hình 3.1 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 42
Hình 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 43
Hình 3.3 Giá trị MAE trên tập ml-100K 44
Trang 10hệ thống tư ấn này à lọc theo n i dung Content-Ba ed Fi tering à ọc c ng tác Collaborative Filtering Trong đ ọc c ng tác chỉ hai thác nh ng hía cạnh iên quan đ n th i quen ử dụng sản phẩm của c ng đồng người d ng c c ng ở thích
đ gợi nh ng sản phẩm thích hợp cho m i người d ng Do tính chất đơn giản à hiệu quả cao nên ọc c ng tác đã được áp dụng thành công cho nhi u hệ thống thương mại điện tử
Trong quá trình nghiên cứu tri n khai ứng dụng, ên cạnh nh ng vấn đ chung của ài toán ọc c ng tác như tính thưa thớt d liệu huấn luyện, xử người
d ng mới, hàng h a mới thì yêu cầu áp dụng các thuật học máy hác nhau đ nâng cao t quả dự đoán cho ọc c ng tác được chú trọng quan tâm nghiên cứu
Hướng tới mục tiêu trên đ tài của em sẽ nghiên cứu áp dụng phương pháp học chuy n giao cho lọc c ng tác đ cải thiện k t quả dự đoán của lọc c ng tác, nâng cao chất ượng của hệ thống tư ấn
Luận n gồm 3 chương tập trung nghiên cứu nh ng vấn đ sau:
Chương 1: Tổng quan về học chuyển giao
Chương này trình ày tổng quan v phương pháp học chuy n giao N i dung chính của Chương trình ày nh ng ki n thức cơ ản v học chuy n giao Phân oại các phương pháp học chuy n giao, các phương pháp chuy n giao tri thức, phân tích lợi th à hạn ch của m i phương pháp học chuy n giao Trên cơ ở nghiên cứu các phương pháp học chuy n giao, lựa chọn phương pháp cụ th giải quy t ài toán lọc c ng tác
Trang 11Chương 2: Lọc cộng tác bằng phương pháp học chuyển giao
Chương này trình ày ài toán ọc c ng tác à m t số phương pháp truy n thống đ thực hiện ài toán ọc c ng tác à phương pháp U erBa ed à phương pháp ItemBa ed Phân tích hạn ch của các phương pháp này à đ xuất phương án cải
ti n à đưa ra m t phương pháp mới cho lọc c ng tác dựa ào các thuật học chuy n giao à phương pháp Transfer-U erBa ed à Tran fer-ItemBased
Chương 3: Thử nghiệm và đánh giá
Chương này thực hiện thử nghiệm đánh giá phương pháp mới đ xuất Tranfer-U erBa ed à Tran fer-ItemBa ed trên d liệu MovieLens của nh m nghiên cứu GroupLens thu c trường đại học Minne ota So ánh t quả với các phương pháp U erBa ed, ItemBa ed truy n thống đ đánh giá hiệu quả của phương pháp mới
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO
1.1 Giới thiệu chung
Các hệ thống máy học à hai phá d liệu truy n thống thường được xây dựng trên m t giả thuy t à nh ng d liệu huấn luyện trong quá trình học à nh ng
d liệu thực t trong tương ai phải c c ng hông gian đặc trưng à c c ng phân
bố xác uất Tuy nhiên trong thực t đi u này hông phải úc nào c ng đúng Ngoài
ra giả sử chúng ta cần c m t tác ụ phân oại trong m t mi n mới, nhưng ại hông
đủ d liệu huấn luyện trong mi n này, trong hi ại c rất nhi u d liệu sẵn c trong
m t mi n hác được thu thập, phân oại từ trước, mặc d hai mi n này c th c hông gian đặc trưng hác nhau hoặc c th c phân ố d liệu hác nhau Trong trường hợp đ , chuy n giao tri thức từ mi n c ang mi n mới n u áp dụng thành công ẽ cải thiện hiệu quả của việc học à giảm chi phí cho việc thu thập phân oại
d liệu mới Trong nh ng n m gần đây học chuy n giao đã nổi ên như m t n n tảng học máy mới nhằm giải quy t vấn đ trên
1.2 Khái niệm và định nghĩa
Trước hi đi ào đ nh nghĩa học chuy n giao (tran fer earning) chúng ta ẽ đưa ra các hái niệm, đ nh nghĩa mi n (domain) à tác ụ (task)
M t mi n D bao gồm hai thành phần: Thứ nhất à m t hông gian đặc trưng
X, thứ hai à m t hàm phân ố mật đ xác xuất P( ) trong đ ={x1,…,xn} ϵ X
N i chung n u hai mi n gọi à hác nhau thì chúng c th chỉ hác nhau hông gian đặc trưng hoặc hác nhau phân ố mật đ xác xuất trong đ
Trên m t mi n D = { X , P( ) } cho trước, m t tác ụ bao gồm hai thành phần, m t hông gian các nhãn Y à m t hàm dự đoán phân oại nhãn f(.) được k hiệu bởi T ={Y,f(.)} Hàm dự đoán phân oại f(.) tuy chưa i t trước nhưng c th học được thông qua d liệu huấn luyện, d liệu huấn luyện bao gồm các cặp {xi,yi} trong đ xi ϵ X, yi ϵ Y Hàm dự đoán phân oại au đ được d ng đ dự đoán nhãn f(x) của m t của m t mẫu x mới
Trang 13Chúng ta đưa ra hái niệm d liệu mi n nguồn DS = {(xS1,yS1),…,(xSn,ySn)} trong đ xSi ϵ XS à các mẫu d liệu, ySi ϵ YS à nhãn tương ứng Và hái niệm d liệu mi n đích DT ={(xT1,yT1),…,(xTn,yTn)} trong đ xTi ϵ XT à d liệu đầu ào, yTi
ϵ YT à các nhãn đầu ra tương ứng Trong hầu h t các trường hợp đ u giả thi t chúng ta c ẵn m t ượng d liệu rất lớn ở mi n nguồn so với d liệu ở mi n đích
nS >>nT
Bây giờ chúng ta đưa ra đ nh nghĩa chung nhất cho học chuy n giao:
Định nghĩa học chuyển giao: Cho m t mi n nguồn DS à m t tác ụ TS,
m t mi n đích DT à m t tác ụ TT, học chuy n giao à quá trình ử dụng tri thức
c được từ DS, TS đ cải thiện quá trình học hàm dự đoán phân oại fT(.) của TTtrong mi n DT trong đi u kiện DS c th hác DT hoặc TS hác TT
1.3 Phân loại các phương pháp học chuyển giao
Từ đ nh nghĩa chung học chuy n giao, dựa ào tình trạng của d liệu
mi n nguồn à d liệu mi n đích chúng ta c th c các phương pháp học chuy n giao sau:
1.3.1 Học chuyển giao quy nạp (Inductive transfer learning)
vụ TS, m t mi n đích DT à m t tác ụ TT, học chuy n giao quy nạp à quá trình học chuy n giao nhằm cải thiện quá trình học hàm dự đoán phân oại fT(.) của TTtrong mi n DT sử dụng các tri thức của DS, TS trong đi u kiện TS != TT
Trong phương pháp học chuy n giao quy nạp, tác ụ TT !=TS hông cần bi t
DS, DT c hác nhau hay hông Do TT !=TS nên phương pháp này đòi hỏi phải c
d liệu đã được gán nhãn phân oại trong mi n đích đ việc học c giám át hàm
fT(.) của TT c th thực hiện được, việc học chuy n giao chỉ nhằm cải thiện quá trình học này
Trong trường hợp c rất nhi u d liệu được gán nhãn phân oại ở mi n nguồn, hi đ ta c th ti n hành học TS,TT đồng thời như trong phương pháp học
đa nhiệm Nhưng hác ới phương pháp học đa nhiệm, ở đây chúng ta chỉ quan tâm
Trang 14đ n việc cải thiện chất ượng của việc học TT dựa trên nh ng tri thức thu được từ
TS
Trong trường hợp hông c d liệu đã được gán nhãn phân oại ở mi n nguồn, học chuy n giao sẽ tương tự quá trình tự học
1.3.2 Học chuyển giao tăng cường (Transductive transfer learning)
tác ụ TS, m t mi n đích DT à m t tác ụ TT, học chuy n giao t ng cường à quá trình học chuy n giao nhằm cải thiện quá trình học hàm dự đoán phân oại fT(.) của
TT trong mi n DT sử dụng các tri thức của DS, TS trong đi u kiện TS = TT,DS != DT
à c m t ượng d liệu chưa được phân oại trong mi n đích
Trong phương pháp học chuy n giao t ng cường, tuy hông c d liệu đã được phân oại tại mi n đích, nhưng ại c rất nhi u d liệu đã được phân oại ở
mi n nguồn tạo đi u kiện thuận lợi cho việc học hàm fT(.) trong quá trình huấn luyện do TT = TS Nhưng do c ự hác iệt DS != DT nên nh ng tri thức học được
ở mi n nguồn sẽ phải đi u chỉnh à i m thử đ ph hợp ơi mi n đích
Trong trường hợp DS != DT do PS(X) != PT(X), hai mi n c hông gian đặc trưng tương tự nhau chỉ c phân ố mật đ xác xuất hác nhau Nh ng đi u kiện trên rất giống với đi u kiện của các ấn đ tương thích mi n à chọn mẫu c chọn lọc
Trong trường hợp DS != DT do XS !=XT, do hông gian đặc trưng gi a hai
mi n hác nhau, iệc tận dụng lại nh ng tri thức trong mi n nguồn cho mi n đích à rất hạn ch
1.3.3 Học chuyển giao không giám sát (Unsupervised transfer learning)
m t tác ụ TS, m t mi n đích DT à m t tác ụ TT, học chuy n giao dẫn nạp à quá trình học chuy n giao nhằm cải thiện quá trình học hàm dự đoán phân oại fT(.) của
TT trong mi n DT sử dụng các tri thức của DS, TS trong đi u kiện TS != TT à YS,
YT hông quan át được
Trang 15Ở phương pháp này TS != TT giống như trong phương pháp học chuy n giao quy nạp, tuy nhiên học chuy n giao hông giám át tập chung ào các oại tác ụ học hông giám át ở mi n đích như phân cụm, giảm chi u, đánh giá mật đ Với các tác ụ học hông giám át này hông c các d liệu đã được gán nhãn cả trong
mi n nguồn lẫn mi n đích
1.3.4 Tổng kết phân loại các phương pháp học chuyển giao:
Từ các đ nh nghĩa trên ta dựa ào ự giống à hác nhau gi a mi n nguồn với mi n đích à gi a tác ụ nguồn với tác ụ đích ta c th phân oại các phương
pháp học truy n giao theo bảng sau:
Bảng 1.1 Phân loại các phương pháp học chuyển giao
hông
C hông
Dựa ào tình trạng của d liệu mi n nguồn à d liệu mi n đích ta c th chia ra các trường hợp sau:
Trang 16Bảng 1.2 Phân loại theo tình trạng dữ liệu
Phương pháp học DT c nhãn DS c nhãn Tác ụ Lĩnh ực iên quan
1.4.1 Chuyển giao tri thức thông qua ví dụ huấn luyện trong học quy
nạp
Trong trường hợp này, chúng ta c d liệu đã được gán nhãn cả trong mi n nguồn lẫn mi n đích, nhưng DS c th giống hoặc hác DT Tuy nhiên cả trong trường hợp DS hác DT thì chúng ta ẫn giả thuy t rằng chúng c m t mức đ iên quan nhất đ nh Vì ậy mặc d c th hông ử dụng trực ti p được tất cả các í dụ huấn luyện của mi n nguồn chúng ta ẫn c th sử dụng được phần nào đ , t hợp với các d liệu huấn luyện ở mi n đích đ cải thiện quá trình học
Trang 17Trong trường hợp DS à DT c c ng hông gian đặc trưng chỉ hác nhau phân ố xác uất, thì m t số mẫu d liệu mi n nguồn c th c tác dụng tích cực, trong khi m t số mẫu lại c th c tác dụng tiêu cực đ n quá trình học ở mi n đích,
ì ậy đ sử dụng hiệu quả các í dụ huấn luyện ở mi n nguồn, nâng cao các tác dụng tích cực à giảm các tác dụng tiêu cực của các mẫu d liệu huấn luyện chúng
ta cần phải thay đổi lại trọng số của các í dụ huấn luyện này cho ph hợp với mi n đích
1.4.2 Chuyển giao tri thức thông qua ví dụ huấn luyện trong học tăng
cường
Trong phương pháp học chuy n giao t ng cường, chúng ta chưa c d liệu được gán nhãn trong mi n đích nhưng c tác ụ mi n nguồn à mi n đích à giống nhau Với trường hợp chuy n giao tri thức qua í dụ huấn luyện chúng ta đã c d liệu được gán nhãn ở mi n nguồn Vì ậy việc học hàm dự đoán f(.) tuy hông th học trên mi n đích nhưng hoàn toàn c th thực hiện được trên mi n nguồn
N i chung trong quá trình học máy chúng ta mong muốn tìm được m t mô hình máy học tối ưu ứng với m t tham số α àm cực ti u h a ai ố dự ki n Trong thực t chúng ta rất h i t được hàm phân ố xác uất d liệu mà chúng ta chỉ bi t bản thân các d liệu huấn luyện ì ậy chúng ta dựa ào các d liệu huấn luyện đ tìm máy học ứng với tham số α àm cực ti u h a ai ố thực nghiệm
Do P(DS) c th hác P(DT) nên hi d ng d liệu mi n nguồn đ tính toán tìm mô hình máy học tối ưu trên mi n đích chúng ta phải thay đổi trọng số của các mẫu d liệu bằng cách thêm các hệ số phạt tương ứng với tỷ số P(DT)/P(DS), đối với từng mẫu đơn tỷ số này ẽ à PT(xTi,yTi)/PS(xSi,ySi) Do TS = TT nên P(YT|XT)
= P(YS|XS) nên hệ số phạt PT(xTi,yTi)/PS(xSi,ySi) = P(xTi)/P(xSi) chỉ còn phụ thu c
ào P(xTi) à P(xSi) C rất nhi u phương pháp đ tính toán, ước ượng các giá tr này dựa ào ản thân d liệu ở mi n nguồn à mi n đích
Trang 181.5 Chuyển giao tri thức từ biểu diễn đặc trưng
Trong chuy n giao tri thức từ bi u diễn đặc trưng chúng ta cố gắng tìm ra
m t bi u diễn đặc trưng tốt nhất àm giảm sự hác iệt gi a hai mi n, à giảm tỷ lệ
l i phân oại à hồi quy Chi n thuật đ tìm m t bi u diễn đặc trưng tốt theo mục tiêu trên c th rất hác nhau t y ào tình trạng d liệu của hai mi n
1.5.1 Chuyển giao tri thức từ biểu diễn đặc trưng trong học chuyển giao
quy nạp
Trong học chuy n giao quy nạp chúng ta giả thuy t à c m t số d liệu đã được gán nhãn tại mi n đích, ì ậy n u chúng ta c ng c rất nhi u các d liệu đã được gán nhãn ở mi n nguồn thì chúng ta c th tìm i m xây dựng bi u diễn đặc trưng tối ưu m t cách c giám át Nhưng n u trong trường hợp d liệu mi n nguồn chưa được gán nhãn thì chúng ta chỉ c th xây dựng bi u diễn đặc trưng này theo phương pháp hông giám át
Phương pháp xây dựng bi u diễn đặc trưng c giám át c tưởng cơ ản à học m t bi u diễn đặc trưng thấp chi u từ nh ng đặc trưng chung nhau gi a cả hai
1.5.3 Chuyển giao tri thức từ biểu diễn đặc trưng trong học không giám
sát
Trong học chuy n giao hông giám át hông c d liệu đã được gán nhãn ở
cả mi n nguồn lẫn mi n đích, à chúng ta c ng chỉ quan tâm đ n hai tác ụ chính trong học hông giám át à phần cụm à giảm chi u
Trang 19Đối với chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao hông giám át trong tác ụ tự phân cụm, mục tiêu chính của chúng ta à phân cụm
b d liệu nhỏ, chưa gán nhãn ở mi n đích ới sự giúp đỡ của m t b d liệu lớn
c ng chưa gán nhãn ở mi n nguồn bằng cách học m t hông gian đặc trưng chung chia s gi a hai mi n
Đối với chuy n giao tri thức từ bi u diễn đặc trưng trong học chuy n giao hông giám át trong tác ụ giảm chi u Đầu tiên chúng ta ẽ xây dựng giả lập m t
b nhãn cho mi n đích, au đ áp dụng giải thuật giảm chi u à gán nhãn cho mi n nguồn Hai ước trên cứ chạy lặp lại đ tìm hông gian con tốt nhất cho mi n đích
1.6 Chuyển giao tri thức từ các quan hệ
hác ới các phương pháp chuy n giao tri thức trên, chuy n giao tri thức từ các quan hệ chỉ được áp dụng trong học chuy n giao trong trường hợp hai mi n c mối quan hệ với nhau, hi mà d liệu gi a hai mi n hông phải à đ c lập à đồng phân phối Phương pháp này cố gắng chuy n giao các mối quan hệ từ gi a d liệu
mi n nguồn đ n d liệu mi n đích Các thuật học thống ê quan hệ được sử dụng
đ giải quy t vấn đ này
1.7 Ứng dụng của học chuyển giao
Trong nh ng n m gần đây, học chuy n giao đã được ứng dụng thành công trong rất nhi u ứng dụng thực t Học chuy n giao cải thiện đáng chất ượng của các máy học à àm giảm chi phí thu thập à phân oại d liệu Học chuy n giao áp dụng rất thành công trong các ĩnh ực như xử n ản từ nhi u nguồn ngôn ng hác nhau, nâng cao chất ượng của lọc c ng tác trong các hệ thống lọc email spam, chuy n giao tri thức đ nh v các hệ thống wifi theo hông gian, thời gian
Trang 20 Học chuy n giao t ng cường
Chuy n giao hông giám át
Và c 3 phương pháp ti p cận gồm:
Học chuy n giao tri thức thông qua í dụ huấn luyện
Học chuy n giao tri thức từ bi u diễn đặc trưng
Học chuy n giao tri thức từ quan hệ
Từ nh ng phần trình ày phía trên c th dễ dàng nhận thấy việc sử dụng học chuy n giao lại hiệu quả rất cao đối với ượng d liệu lớn hay sử dụng cho các ài toán mới mà hông cần phải xây dựng lại tập huấn luyện từ đầu Chính ì ậy phương pháp học chuy n giao sẽ được sử dụng cho bài toán ọc c ng tác ở phần sau
Trang 21CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC CHUYỂN GIAO
Lọc c ng tác (co a orati e fi tering) à phương pháp dự đoán quan đi m của người d ng hiện thời đối ới các ản phẩm ph hợp dựa trên th i quen ử dụng ản phẩm của c ng đồng người d ng c c ng chung ở thích Hiện nay, ọc c ng tác được xem à phương pháp hiệu quả đã được áp dụng thành công cho nhi u hệ thống thương mại điện tử N i dung chính của chương này trình ày m t phương pháp ọc
c ng tác dựa ào phương pháp học chuy n giao (Tran fer-Learning) Phương pháp học chuy n giao cho phép ta chuy n giao tri thức từ quá trình huấn uyện theo người d ng đ n à quá trình huấn uyện theo ản phẩm uá trình quan át theo người d ng ẽ xác đ nh được m t ố nhãn phân oại chắc chắn chuy n đ n quá trình huấn uyện theo ản phẩm Ngược ại, quá trình quan át theo ản phẩm ổ ung thêm các nhãn phân oại chắc chắn chuy n giao cho quá trình huấn uyện theo người d ng Việc ổ ung thêm ào các nhãn phân oại ào m i quá trình huấn uyện ẽ nâng cao được t quả dự đoán à hạn ch được ấn đ d iệu thưa của
ọc c ng tác
2.1 Phát biểu bài toán lọc cộng tác
Cho tập hợp h u hạn U = {u1, u2,…, uN} à tập gồm N người d ng, P = {p 1,
p2, , pM} à tập gồm M ản phẩm M i ản phẩm pxP c th à hàng h a, phim,
ảnh, tạp chí, tài iệu, ách, áo, d ch ụ hoặc ất ỳ dạng thông tin nào mà người
d ng cần đ n Đ thuận tiện trong trình ày, ta i t pxP ngắn gọn thành xP; à
uiU à iU
Mối quan hệ gi a tập người d ng U à tập ản phẩm P được i u diễn thông qua ma trận đánh giá R={ rix }, i = 1 N, x = 1 M M i giá tr rix th hiện đánh giá
của người d ng iU cho m t ố ản phẩm xP Giá tr r ix c th được thu thập trực
ti p ằng cách hỏi i n người d ng hoặc thu thập gián ti p thông qua cơ ch phản
Trang 22hồi của người d ng Giá tr rix = được hi u người d ng i chưa đánh giá hoặc chưa
ao giờ i t đ n ản phẩm x
Ti p đ n ta hiệu, PiP à tập các ản phẩm được đánh giá ởi người d ng
iU à UxU à tập các người d ng đã đánh giá ản phẩm xP Với m t người
d ng cần được tư ấn aU (được gọi à người d ng hiện thời, người d ng cần được
tư ấn, hay người d ng tích cực), ài toán ọc c ng tác à dự đoán đánh giá của a đối ới nh ng mặt hàng x (P \ Pa), trên cơ ở đ tư ấn cho người d ng a nh ng
ản phẩm được đánh giá cao
1, 2, 3, 4, 5} Giá tr rij= được hi u à người d ng ui chưa đánh giá hoặc chưa ao
giờ i t đ n ản phẩm pj Các giá tr r5,1 =? à ản phẩm hệ thống cần dự đoán cho
người d ng u5
2.2 Một số nghiên cứu liên quan
C nhi u phương pháp đ xuất hác nhau đ giải quy t ài toán ọc c ng tác Tuy ậy ta c th phân oại các phương pháp thành hai cách ti p cận chính: Lọc
c ng tác dựa ào nhớ (MemoryBa ed) à ọc c ng tác dựa ào mô hình (Mode
Trang 23-Based)[1, 21] Trong đ tài này, em tập trung nghiên cứu phương pháp học chuy n giao theo hướng ti p cận dựa ào nhớ
Các phương pháp ọc c ng tác dựa ào nhớ [4,8,15,19] ử dụng toàn ma trận đánh giá đ inh ra dự đoán các ản phẩm ph hợp đối ới người d ng cần được tư ấn V ản chất, đây à phương pháp học ười hay học dựa trên í dụ được
ử dụng trong học máy Phương pháp được thực hiện theo ốn ước: Tính toán mức
đ tương tự gi a các cặp người d ng (hoặc ản phẩm), ắp x p mức đ tương tự
gi a các cặp người d ng (hoặc ản phẩm) theo thứ tự giảm dần, tạo ập tập áng
gi ng cho người d ng hiện thời (hoặc ản phẩm) à tạo nên dự đoán [15, 19] Bree e đ xuất phương pháp người áng gi ng gần nhất dựa trên đ tương quan Pearson [8] Sarwar đ xuất phương pháp Top người áng gi ng gần nhất của ản phẩm dựa trên đ tương tự co in [4] Dựa trên các đ đo tương quan à đ đo tương
tự, Her oc er o ánh, đánh giá à đ xuất ử dụng đ tương quan Pear on cho các
hệ thống ọc c ng tác [18]
Trong đ tài này, em cải ti n phương pháp ọc dựa ào nhớ ằng cách xây dựng các thủ tục học chuy n giao từ người d ng đ n ản phẩm à từ ản phẩm đ n người d ng Đ áng tỏ phương pháp thực hiện của đ tài, mục ti p theo em trình
ày phương pháp ọc c ng tác dựa ào nhớ Ti p đ n à phương pháp ọc
c ng tác dựa ào phương pháp học chuy n giao
2.3 Lọc cộng tác dựa vào bộ nhớ
Lọc c ng tác dựa trên nhớ được ti p cận theo hai phương pháp chính: Phương pháp ọc dựa ào người d ng (U erBa ed [8]) à ọc dựa ào ản phẩm (ItemBased [4]) M i phương pháp đ u c nh ng ưu đi m riêng hai thác nh ng hía cạnh iên quan đ n người d ng hoặc ản phẩm Đặc đi m chung của cả hai phương pháp này à ử dụng toàn tập d iệu đánh giá đ dự đoán quan đi m của người d ng cần được tư ấn các ản phẩm mà họ chưa h i t đ n
Trang 242.3.1 Phương pháp UserBased và ItemBased
Phương pháp U erBa ed à phương pháp ước ượng mức đ tương quan gi a các cặp người d ng dựa ào các đ đo tương quan đ từ đ inh ra dự đoán các ản phẩm mới ph hợp ới người d ng cần được tư ấn Phương pháp ItemBa ed à phương pháp ước ượng mức đ tương tự gi a các cặp ản phẩm dựa ào các đ đo tương tự đ từ đ inh ra dự đoán các ản phẩm mới ph hợp ới người d ng cần được tư ấn M i phương pháp đ u được ti n hành theo a ước như au
Bước 1 Tính toán mức độ tương tự giữa các cặp người dùng hoặc sản phẩm
Tại ước này ta c th ử dụng các đ đo tương quan hoặc các đ đo tương tự đ tính toán mức đ giống nhau gi a các cặp người d ng hoặc ản phẩm [4, 8, 15, 19]
Gọi uij à mức đ tương tự gi a người d ng iU à người d ng jU, pxy à mức đ
tương tự gi a ản phẩm xP à ản phẩm yP hi đ , đ tương quan Pear on gi a người d ng iU à người d ng jU được xác đ nh theo công thức (2.1), đ tương
tự gi a ản phẩm xP à ản phẩm jP được xác đ nh theo công thức (2.2) [4, 8]
i
j i
P P x
j jx P
P x
i ix
P P x
j jx i ix
ij
r r r
r
r r r r u
x
y x
U U i
y iy U
U i
x ix
U U i
y iy x ix
xy
r r r
r
r r r r p
i
P P
i
P P
x
U U
r
1
Trang 25U U
Bước 2 Xác định tập láng giềng cho người dùng cần tư vấn Tại ước này ta
chỉ cần ắp x p các giá tr uij hoặc p xy theo thứ tự giảm dần, trong đ iU à người
d ng cần được tư ấn các ản phẩm xP Sau đ chọn tập K người d ng đầu tiên
àm tập áng gi ng của người d ng i , hoặc chọn K ản phẩm đầu tiên àm tập áng
gi ng của ản phẩm x [4, 8]
Bước 3 Sinh ra dự đoán cho người dùng cần tư vấn Phương pháp phổ i n
nhất đ inh ra dự đoán quan đi m của người d ng iU cho ản phẩm mới xP
theo công thức (2.7), đối ới ản phẩm theo công thức (2.8)[4,8, 15, 19]
K j ij
ij K
j
j jx
i ix
u
u r r r
K y xy
K y iy xy
ix
p
r p r
|
Trong đ , Ki à tập áng gi ng của người d ng hiện thời iU; Kx à tập áng
gi ng của ản phẩm xP
2.3.2 Hạn chế của phương pháp User-Based và Item-Based
Mặc d đã được áp dụng thành công cho nhi u hệ thống thương mại điện tử, tuy ậy các phương pháp U er-Ba ed à Item-Ba ed ẫn tồn tại m t ố hạn ch dưới đây:
Vấn đề dữ liệu thưa Đối ới các hệ thống ọc c ng tác, ố ượng ản phẩm
c đánh giá hác r ng nhỏ hơn rất nhi u ần ố ượng ản phẩm c đánh giá
r ng Đi u này ảnh hưởng trực ti p đ n iệc tính toán mức đ giống nhau gi a
các cặp người d ng hoặc ản phẩm Trong trường hợp hai người d ng i, jU c tập đánh giá chung PiP j =, hi đ mức đ tương tự gi a hai người d ng này
ẽ hông th xác đ nh được (Ví dụ người d ng u5 à u2 trong Bảng 2.1) Khi hai
Trang 26ản phẩm x, yP c tập người d ng c ng đánh giá ản phẩm U xU y =, thì mức đ tương tự gi a hai ản phẩm này c ng hông th xác đ nh được (Ví dụ
ản phẩm p7 à p3 trong Bảng 2.1) Đây à hạn ch ớn nhất ngay hi thực hiện Bước 1 của thuật toán [1,15,19,21]
Vấn đề dữ liệu thưa làm cho việc xác định tập láng giềng của thuật toán tại Bước 2 trở nên kém tin cậy [15] hi thực hiện tính toán các giá tr uij à pxy ,
các đ đo đ u chỉ thực hiện trên các tập P iP j ≠ à U xU y ≠ Việc các giá
tr đánh giá hông giao nhau hông tham gia ào quá trình tính toán đã ỏ qua nhi u nhãn phân oại i t trước Đi u này àm cho nhi u người d ng hoặc ản
phẩm rất tương tự nhau nhưng ại hông được xác đ nh (Ví dụ u1 à u3 trong Bảng 2.1) Ngược ại, nhi u cặp người d ng ém tương tự nhau nhưng ẫn được xác đ nh trong tập áng gi ng Tập áng gi ng được xác đ nh hông ph
hợp ẽ ảnh hưởng trực ti p đ n chất ượng dự đoán các phương pháp (Ví dụ u2
à u4 trong Bảng 2.1)
Vấn đề người dùng mới và sản phẩm mới hi m t người d ng mới chưa c
ất ỳ m t đánh giá nào cho các ản phẩm, thì cả hai phương pháp U er-Based
à Item-Ba ed đ u hông th đưa ra dự đoán các ản phẩm ph hợp đối ới người d ng này Lọc c ng tác gọi ấn đ này à ấn đ người d ng mới à ản phẩm mới [1,19, 21]
2.3.3 Phương pháp cải tiến
Đ hạn ch nh ng nhược đi m nêu trên, chúng tôi xem xét ấn đ ọc c ng tác như m t ấn đ học chuy n giao ằng phương pháp qui nạp Trong đ , quá trình huấn uyện theo người d ng ẽ ổ ung được các nhãn phân oại chắc chắn cho quá trình huấn uyện theo ản phẩm à ngược ại Đ thực hiện được tưởng này, ới
m i người d ng hoặc ản phẩm, nh ng í dụ huấn uyện i t trước nhãn phân oại
à các giá tr rij≠ Nh ng í dụ huấn uyện chưa i t trước nhãn phân oại à các
giá tr c rij= Nhiệm ụ của học chuy n giao à xây dựng được m t thuật toán xác
đ nh được các nhãn phân oại chắc chắn ào tập nhãn rij=
Trang 27uá trình quan át à huấn uyện theo người d ng iU c các nhãn phân oại
i t trước (rix≠) ẽ dự đoán được nh ng ản phẩm mới yP c hả n ng ph hợp cao ới người d ng này Các nhãn phân oại chắc chắn (riy) ẽ chuy n giao đ n quá trình huấn uyện theo ản phẩm Trọng tâm của quá trình này à àm th nào đ xác
đ nh được các nhãn phân oại chắc chắn (riy)
uá trình quan át à huấn uyện m i ản phẩm xP c tập các nhãn phân oại
i t trước rix≠ c ng ới các nhãn phân oại (riy) đã được dự đoán theo người d ng uan át theo ản phẩm cho phép ta dự đoán được mức đ ph hợp cao của người
d ng iU ới các ản phẩm zP ằng giá tr (riz) Tập các giá tr (riz) nhận được tương đối chắc chắn ại được ổ ung ào tập các nhãn phân oại đã i t đ ti p tục quá trình huấn uyện ở ước ti p theo uá trình ẽ t thúc hi ta hông th ổ ung được các giá tr dự đoán chắc chắn
2.4 Phương pháp học chuyển giao cho lọc cộng tác
Đ giải quy t ài toán ọc c ng ằng phương pháp học chuy n giao ta cần xây dựng hai i u quan át trên tập d iệu huấn uyện: Học chuy n giao từ người d ng
đ n ản phẩm à học chuy n giao từ ản phẩm đ n người d ng Ti p đ n, ta cần phải xây dựng được thuật toán chuy n giao đồng thời gi a các i u quan át đ inh
ra dự đoán cho m i người d ng
2.4.1 Học chuyển giao từ người dùng đến sản phẩm
Như đã trình ày trong Mục 2, phương pháp U erBa ed tính toán mức đ tương
tự gi a người d ng iU ới tất nh ng người d ng hác còn ại trên tập d iệu huấn
uyện [8, 18] Việc àm này ẽ dẫn đ n hai nhược đi m chính dưới đây
Thứ nhất, n u hai người d ng i, j c |PiPj| nhỏ nhưng c rix = rjx ới mọi
xPiPj thì hai người d ng này được xem à hoàn toàn giống nhau theo ở thích
Ví dụ trong Bảng 2.1, người d ng u2 được xem à hoàn toàn tương tự ới u3 ì cả
u2, u3 đ u c đánh giá chung cho p3, p4 giống nhau (r23 = r33 =5; r24 = r34 =5) t
Trang 28quả à u3 uôn à áng gi ng của u2 trong hi thực hiện dự đoán các ản phẩm mới
cho u2
Thứ hai, n u hai người d ng i, j c |PiPj|= hi đ hai người d ng này được xem à hoàn toàn hác nhau theo ở thích Mặc dầu ậy, hi quan át theo ản phẩm thì hai người d ng này ại c nhi u đi m giống nhau theo ở thích t quả à các
ản phẩm x|PiPj|= ẽ hông tham gia ào quá trình huấn uyện à dự đoán
Đ hạn ch nh ng nhược đi m trên, iệc xác đ nh mức đ tương tự gi a các
cặp người d ng iU hông d ng đ xác đ nh tập áng gi ng Ki như trong [4, 8], mà
chỉ đ d ng ào iệc xác đ nh các nhãn phân oại chắc chắn riy cho người d ng i Đ
thực hiện đi u này, chúng tôi đ xuất iệc tính toán mức đ tương tự gi a người
d ng iU trên tập nh ng người d ng Si U c tối thi u đánh giá chung cho các
Ví dụ chọn =3, hi đ ới người d ng u1 của hệ đã cho trong Bảng 2.1 ta ẽ
tìm được S1 = {u2,u3} ì cả u2 à u3 đ u c 3 đánh giá chung ới u1 Tương tự như
trên ta xác đ nh được S2 ={u1,u3}, S3 = {u1,u2}, S4 = {}, S5 ={} hi đ , mức đ tương tự gi a hai người d ng được xác đ nh theo công thức (2.10)
Trong công thức (2.10), giá tr uij = 0 khi jSi. Đi u này c th ng n ngừa được
nh ng cặp người d ng c |PiPj| nhỏ nhưng ại được đánh giá c tính tương tự cao theo phương pháp U erBa ed Các nhãn phân oại chắc chắn chỉ được dự đoán từ
nh ng người d ng jSi theo công thức (2.11)
r
r r r r u
j i j
i
j i
P P x
j jx P
P x
i ix
P P x
j jx i ix ij
0
2 2
Trang 29K j ij
ij K
j
j jx
i ix
u
u r r r
Ví dụ tập ới người d ng đã cho trong Bảng 2.1, ta tìm được K1={u3}, K2={u1},
K3={u1} hi đ , các giá tr dự đoán chắc chắn ẽ được đi n cho u1 à r14=4, r16=4
Giá tr dự đoán chắc chắn ẽ được đi n cho u2 à r22=3, r27=4 Giá tr dự đoán chắc
chắn ẽ được đi n cho u3 à r32=2, r33=5
Bảng 2.2 Ma trận đánh giá theo quan sát từ người dùng
Rõ ràng, tập nhãn phân oại r ix xác đ nh theo (2.11) nhỏ hơn rất nhi u o ới tập
r ix xác đ nh theo (2.7) Tuy ậy, đi u này ẽ được cải thiện dần thông qua iệc quan
át các nhãn phân oại theo ản phẩm
2.4.2 Học chuyển giao từ sản phẩm đến người dùng
Tương tự như đối ới người d ng, iệc xác đ nh mức đ mức đ tương tự gi a
các cặp ản phẩm xP hông d ng đ xác đ nh tập áng gi ng Ki như trong [4], mà
chỉ đ d ng ào iệc xác đ nh quan đi m chắc chắn của người d ng iU đối ới các
ản phẩm mới xP Đ thực hiện đi u này, chúng tôi đ xuất iệc tính toán mức đ