Tuy nhiên các mô hìnhgợi ý hiện hay chưa phân tích tới vấn đề này cùng với sự khó khăn trong khai thác nội dung ngắn.Chính vì vậy ở nghiên cứu này, chúng tôi đề xuất mô hình gợi ý tập tr
Trang 1HỆ GỢI Ý VỚI PHÂN RÃ MA TRẬN POISSON VÀ DROPOUT
LUẬN VĂN THẠC SĨ KHOA HỌC
Hệ thống thông tin
Hà Nội – Năm 2018
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
- NGUYỄN ĐỨC ANH
HỆ GỢI Ý VỚI PHÂN RÃ MA TRẬN POISSON VÀ DROPOUT
Chuyên ngành : Hệ thống thông tin
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS Thân Quang Khoát
Hà Nội – Năm 2018
Trang 3Lời cảm ơnĐầu tiên, tôi xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo thuộc trường đại học BáchKhoa Hà Nội, đặc biệt là các thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin và Truyền Thông.Đồng thời tôi cũng xin được gửi lời cảm ơn đặc biệt đến TS Thân Quang Khoát, ThS Ngô Văn Linh,PGS.TS Nguyễn Thị Kim Anh Các thầy cô là người đã chỉ dẫn tận tình, cho tôi những kinh nghiệmquý báu để có thể hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn tới gia đình Sự sát cánh và động viên tinh thần từ gia đình luôn là độnglực để tôi tiến lên phía trước
Trang 4Lời cam đoan
Tôi - Nguyễn Đức Anh - cam kết luận văn này là công trình nghiên cứu của bản thân tôi dưới sự
hướng dẫn của TS Thân Quang Khoát
Các kết quả nêu trong luân vặn là trung thực, không phải là sao chép của bất cứ công trình đãđược công bố nào khác Tất cả các trích dẫn đều được tham chiếu rõ ràng
Hà Nội, ngày 5 tháng 7 năm 2018
Tác giả luận văn
Nguyễn Đức AnhXác nhận của người hướng dẫn
Trang 5Tóm tắt
Hiện nay bài toán gợi ý ngày càng trở thành một vấn đề quan trọng, một mục tiêu trong đó là thuhút người dùng nhằm thúc đẩy sự tương tác với hệ thống Tuy nhiên có một vấn đề mà ít nghiên cứuchú ý tới, đó là độ dài của thông tin sản phẩm Người dùng thường tiếp xúc với sản phẩm trước tiênbởi mô tả tóm tắt như danh mục, tiêu đề của mặt hàng hay một bài báo thay vì toàn bộ nội dungcủa sản phẩm, hay nói cách khác, sản phẩm thường được đưa tới người dùng ban đầu bởi những mô
tả ngắn Mặc dù vậy vấn đề khai thác thông tin mô tả ngắn này là không đề dễ dàng Chính vì vậy,luận văn này đề cập tới vấn đề gợi ý trên sản phẩm mô tả ngắn cùng đề xuất mô hình học oissonPMatrix actorization using Word mbedding rior (PFEP) Ý tưởng chính của chúng tôi là sử dụngF E Pphân rã ma trận Poisson để mô hình hóa các tương tác rời rạc và sử dụng tri thức tiên nghiệm từbiểu diễn nhúng của từ để làm giàu thông tin cho biểu diễn sản phẩm Bên cạnh đó chúng tôi đề xuấtthuật toán học cho mô hình với sự kết hợp của kĩ thuật dropout để tăng khả năng dự đoán và tổngquát hóa Những thí nghiệm trên bộ dữ liệu thử nghiệm đã chỉ ra mô hình PFEP có chất lượng tốthơn ở phần lớn các trường hợp khi so sánh với một số mô hình gợi ý mới nhất
Trang 6in comparison with some state-of-the-art recommendation models in most cases.
Trang 7Mục lục
2.1 Mô hình đồ thị 16
2.2 Suy diễn biến phân 17
2.3 Một số phân phối xác suất phổ biến 18
2.3.1 Phân phối Gauss 18
2.3.2 Phân phối Poisson 19
2.3.3 Phân phối Gamma 19
2.3.4 Phân phối Multinomial 21
2.4 Phân rã ma trận 21
2.4.1 Tổng quan về phân rã ma trận 21
2.4.2 Phân rã ma trận bằng phương pháp Gaussian 23
2.4.3 Phân rã ma trận bằng phương pháp Poisson 24
2.5 Dropout 26
2.6 Tri thức tiên nghiệm 27
Trang 83 Các nghiên cứu liên quan 29
3.1 Một số mô hình gợi ý mới nhất 29
3.1.1 Mô hình gợi ý dùng rã ma trận Gaussian dùng trọng số - WMF 29
3.1.2 Mô hình gợi ý dùng phân rã ma trận Poisson phân cấp - HPF 30
3.1.3 Mô hình gợi ý dùng phân rã ma trận Poisson kết hợp nội dung - CTMP 34
3.2 Nghiên cứu về sử dụng tri thức tiên nghiệm trong mô hình xác suất 36
4 Mô hình đề xuất 38 4.1 Mô hình sinh 38
4.2 Học mô hình 40
4.2.1 Thuật toán học gradient ascent cho PFEP 40
4.2.2 Thuật thoán học loại bỏ PFEP-Dropout 44
4.3 Phân tích mô hình 47
5 Thử nghiệm và đánh giá 49 5.1 Thử nghiệm 49
5.1.1 Dữ liệu 49
5.1.2 Các phương pháp đối sánh 50
5.1.3 Độ đo đánh giá 50
5.1.4 Kịch bản thử nghiệm 50
5.1.5 Cài đặt 50
5.2 Kết quả và đánh giá 51
5.2.1 Gợi ý với sản phẩm mô tả ngắn 51
5.2.2 Gợi ý với sản phẩm mô tả thông thường 51
5.3 Sự phụ thuộc vào các siêu tham số 53
5.3.1 Sự phụ thuộc vào tỉ lệ loại bỏ dr 54
5.3.2 Sự phụ thuộc vàoλ 55
5.3.3 Sự phụ thuộc vàoK 56
Trang 9Word Embedding Từ nhúng (biểu diễn nhúng)
Variational Inference Suy diễn biến phân
Variational distribution Phân phối biến phân
Trang 10r ui Giá trị tương tác của người dùngu và sản phẩmi
E Ma trận vector biểu diễn nhúng của từ
Trang 11Danh sách hình vẽ
1.1 Tương tác người dùng - sản phẩm 13
1.2 Ví dụ về mô tả ngắn 14
2.1 Ví dụ mô hình đồ thị xác suất 16
2.2 Minh họa phân phối Gauss với cùng kì vọngµ = 1và độ lệch chuẩn khác nhau 18
2.3 Minh họa phân phối Poisson với kì vọng khác nhau 20
2.4 Minh họa phân phối Gamma với các giá trị shape, rate khác nhau 20
2.5 Minh họa phân rã ma trận 21
2.6 Mô hình đồ thị xác suất cho phân rã ma trận 22
2.7 Mô hình phân rã ma trận Gauss với ràng buộc biến 24
2.8 Biến phụ cho mô hình phân rã ma trận Poisson z 25 2.9 Ví dụ về dropout 27
3.1 Mô hình gợi ý dùng phân rã ma trận Poisson với phân cấp mức 1 31
3.2 Mô hình gợi ý dùng phân rã ma trận Poisson với phân cấp mức 2 32
3.3 Mô hình gợi ý CTMP 34
4.1 Mô hình đồ thị củaP F EP 39
5.1 Kết quả gợi ý trên dữ liệu mô tả ngắn 52
5.1 Kết quả gợi ý trên dữ liệu mô tả ngắn 53
5.2 Kết quả gợi ý trên dữ liệu mô tả thông thường 53
5.3 Độ thay đổi của PFEP theoλở Movielens-10M và Movielens-20M (dữ liệu mô tả ngắn) 54 5.4 Độ thay đổi của PFEP theoλở CiteuLike (dữ liệu mô tả thông thường) 55
5.5 Độ thay đổi của PFEP theoK ở Movielens-1M(dữ liệu mô tả ngắn) 55
5.6 Độ thay đổi của PFEP theoK ở CiteuLike (dữ liệu mô tả thông thường) 56
Trang 12Danh sách bảng
5.1 Thông tin các bộ dữ liệu 49
A.1 Độ chính xác trung bình của gợi ý theo top-10 tới top-100 trên Movielen-1M 61
A.2 Độ bao phủ trung bình của gợi ý theo top-10 tới top-100 trên Movielen-1M 62
A.3 Độ chính xác trung bình của gợi ý theo top-10 tới top-100 trên Movielen-10M 62
A.4 Độ bao phủ trung bình của gợi ý theo top-10 tới top-100 trên Movielen-10M 63
A.5 Độ chính xác trung bình của gợi ý theo top-10 tới top-100 trên Movielen-20M 63
A.6 Độ bao phủ trung bình của gợi ý theo top-10 tới top-100 trên Movielen-20M 64
A.7 Độ chính xác trung bình của gợi ý theo top-10 tới top-100 trên Netflix 64
A.8 Độ bao phủ trung bình của gợi ý theo top-10 tới top-100 trên Netflix 65
A.9 Độ chính xác trung bình của gợi ý theo top-10 tới top-100 trên Citeulike 65
A.10 Độ bao phủ trung bình của gợi ý theo top-10 tới top-100 trên Citeulike 66
Trang 13Chương 1
Tổng quan
Ngày nay hệ gợi ý ngày càng quan trọng trong các hệ thống để tăng sự tiện lợi cho người dùng và gópphần quan trọng vào việc thúc đẩy lợi nhuận của các công ty, tổ chức Theo các thống kê, hiện nay35% doanh thu trên Amazon và 70% trên Netflix1 là từ các sản phẩm gợi ý Trong tình hình đa dạngcủa các loại mặt hàng, mỗi sản phẩm thường được đưa ra bởi một mô tả ngắn với tiêu đề và danhmục sản phẩm để thu hút người dùng tương tác, chẳng hạn tiêu đề bài báo Tuy nhiên các mô hìnhgợi ý hiện hay chưa phân tích tới vấn đề này cùng với sự khó khăn trong khai thác nội dung ngắn.Chính vì vậy ở nghiên cứu này, chúng tôi đề xuất mô hình gợi ý tập trung vào các sản phẩm mô tảngắn này, cùng với đề xuất phương pháp học mới và hiệu quả cho mô hình
Ta xem xét một hệ thống gợi ý ở mặt đầu cuối gồm người sử dụng và sản phẩm:
• Hệ thống có U người dùng vàI sản phẩm
• Mỗi sản phẩm trong sản phẩm được mô tả bằng tập các từ i I a i = {a iv } V
v=1, với aivlà số lượng
từ xuất hiện của từ thứ trong từ điểmv V từ ( biểu diễn dạng túi từ (bag of word))
• Tương tác giữa người dùng và sản phẩm (hình 1.1) được lưu trữ thành ma trận tương tác
R = { r ui } U,I u=1 =1,i
Các phương pháp gợi ý thường được chia thành ba hướng chính: lọc cộng tác (collaborativefiltering), dựa theo nội dung (content-based) và hướng kết hợp (hybrid) Ở hướng lọc cộng tác, môhình chỉ sử dụng thông tin từ ma trận tương tácR Trong khi hướng này khai thác được thông tincộng đồng bằng cách tận dụng được hành vi của các nhóm người song không giải quyết được các đốitượng ít tương tác như người dùng mới hay sản phẩm mới Ngược lại hướng gợi ý theo nội dung chỉ
sử dụng thông tin sản phẩm {a I
i=1} lại giải quyết được vấn đề cho sản phẩm mới bằng việc tìm các
sản phẩm tương đồng, song lại bị giới hạn về tính da dạng của nội dung do chỉ tập trung vào tìmcác sản phẩm tương tự Chính vì vậy hướng kêt hợp giữa nội dung với lọc cộng tác nổi lên như mộtphương án tốt cho hệ gợi ý [1, 8, 15, 25, 30, 31]
1
https://www.mckinsey.com/industries/retail/our-insights/how-retailers-can-keep-up-with-consumers
Trang 14Hình 1.1: Tương tác người dùng - sản phẩm
Ở khía cạnh lọc cộng tác, bằng việc biểu diễn tương tác giữa người dùng và sản phẩm dưới dạng
ma trận và áp dụng các chiến lược phân rã ma trận về dạng tích của hai ma trận chiều thấp, chúng
ta có thể dự đoán được những giá trị khuyết thiếu trong ma trận tương tác [17] Gần đây, phươngpháp phân rã ma trận bằng Poisson và Gauss đã chứng minh tính hiệu quả ở mặt độ chính xác Mặc
dù vậy, với việc các tương tác có xu hướng được biểu diễn rời rạc (thích - không thích hay mức độ
ưa thích thay đổi từ 1 tới 5), một số nghiên cứu [7, 8, 18] đã chỉ ra phân rã bằng Poisson có nhiềutiềm năng hơn Gauss chính ở mặt thích hợp hơn khi biểu diễn các giá trị rời rạc thay vì liên tục Cácnghiên cứu này cũng cho thấy việc kết hợp nội dung sản phẩm với phân rã ma trận tạo ra những kếtquả rất tích cực Tuy nhiên vẫn tồn tại hai vấn đề mà chúng tôi muốn đề cập trong nghiên cứu này:Vấn đề đầu tiên, trong nhiều trường hợp, thông tin của sản phẩm thường là văn bản dạng ngắn
Ở đây chúng tôi định nghĩa văn bản ngắn là văn bản mà sau khi tiền xử lí, số từ còn lại nhỏ hơn
20 từ Thực tế tồn tại mô tả ngắn, bởi người dùng không dành thời gian để đọc đầy đủ các mô tảvới độ dài lớn của một sản phẩm trước khi có ý định cụ thể Chẳng hạn khi đọc báo thì người dùngthường quan tâm trước tiên bởi tiêu đề và chủ đề của bài viết (và cùng với một câu tóm tắt đi kèm),điều thường thấy ở các trang đọc báo trực tuyến (Hình 1.2a) Hoặc ở các trang bán hàng qua mạng,các sản phẩm thường chỉ được nổi bật với tên sản phẩm (và một số ít thông tin đặc trưng đi kèm)(Hình 1.2b), chứ không hiển thị toàn bộ thông tin của sản phẩm đó Khai thác trên các biểu diễnvăn bản ngắn cũng là thách thức đối với xây dựng các mô hình dựa trên sự đồng xuất hiện của các
từ [3, 22, 24, 26] Để giải quyết vấn đề này, nhiều nghiên cứu đã đề xuất sử dụng tri thức tiên nghiệm,chẳng hạn biểu diễn nhúng của các từ được học từ tập dữ liệu lớn, để tăng cường thông tin cho cácvăn bản ngắn [6, 20,32,33] Hướng tiếp cận này cũng chứa tiềm năng để đưa vào hệ gợi ý để giải quyếtcác cho các sản phẩm mô tả ngắn
Trang 15(a) Mô tả bài báo Nguồn: Cafef.vn
(b) Mô tả sản phẩm Nguồn: Lazada.vn
Hình 1.2: Ví dụ về mô tả ngắn
Trang 16Vấn đề thứ hai, các phương pháp học ngẫu nhiên (stochastic), học kết hợp (ensemble) hay họcloại bỏ (dropout) đã chứng minh tính hiệu quả trong việc giải quyết nhiều vấn đề [9, 10,28] Khi khaithác trong bài toán gợi ý, chúng ta hoàn toàn có thể ngẫu nhiên lựa chọn một số tương tác của ngườidùng để học mô hình thay vì sử dụng tất cả dữ liệu Ý tưởng này xem là sự kết hợp giữa học loại bỏ
và học kết hợp
Với ý tưởng trên, chúng tôi đề xuất môt mô hình mới dùng cho hệ gợi ý: Phân rã ma trận Poissondùng tri thức tiên nghiệm biểu diễn nhúng của từ vựng cho các sản phẩm mô tả ngắn ( oisson MatrixPFactorization using Word mbedding rior - PFEP), trong đó có sự kết hợp của các biểu diễn nhúngE Pđược học trước của các từ vào một mạng neuron truyền thẳng để tăng cường thông tin cho biểu diễncủa sản phẩm khi đưa vào phân rã ma trận Ở khía cạnh học mô hình, chúng tôi kết hợp học suy diễnbiến phân và học stochastic gradient ascent (ngẫu nhiên theo hướng dốc tăng) thành một bài toántối ưu cùng với đề xuất đưa học loại bỏ - dropout vào mỗi vòng lặp của quá trình học Từ đó chúngtôi có hai biến thể đề xuất: PFEP (không học loại bỏ) và PFEP-Dropout (có học loại bỏ)
• PFEP dùng phân rã Poisson, thích hợp cho các biểu diễn tương tác dạng rời rạc của hệ gợi ý.
Ngoài ra, PFEP có sự kết hợp giữa tri thức tiên nghiệm của biểu diễn nhúng của từ giúp tăngthêm thông tin cho mô hình
• PFEP-Dropout kế thừa những điểm mạnh từ học kết hợp và học ngẫu nhiên giúp cho quá trình
học có thể thoát khỏi overfitting và cực trị địa phương, giúp cải thiện chất lượng của việc học.Các thí nghiệm đối sánh của PFEP và PFEP-Dropout khi so sánh với các mô hình phân rã matrận Poisson hay Gauss có hoặc không sử dụng thông tin sản phẩm đã cho thấy PFEP cải thiện chấtlượng rõ rệt so với các phương pháp khác, ngoài ra, dropout khi đưa vào lại tiếp tục cải thiện chấtlượng học mô hình khi so với không sử dụng
Các phần của luận văn được bố cục như sau: chương 2 trình bày các cơ sở lý thuyết chính được
sử dụng, chương 3 điểm qua một số nghiên cứu liên quan trong việc xây dựng hệ gợi ý bằng phân rã
ma trận Chương 4 trình bày đề xuất mô hình mới cùng các phân tích về mô hình Các thí nghiệmđánh giá và so sánh mô hình được thực hiện trong chương 5 Cuối cùng chương 6 tóm tắt lại nhữngkết quả đạt được trong luận văn
Trang 17Chương 2
Cơ sở lý thuyết
Ở chương này, chúng tôi trình bày những lý thuyết cơ bản được sử dụng trong luận văn Đầu tiênchúng tôi giới thiệu tóm lược khái niệm về mô hình đồ thị, suy diễn biến phân và một số phân phốixác suất thường gặp Sau đó là hướng nhìn trong phân rã ma trận theo phương pháp xác suất Cuốicùng chúng tôi điểm qua về kĩ thuật dropout và khái niệm về tri thức tiên nghiệm
Mô hình đồ thị, hay mô hình đồ thị xác suất (probabilistic graphical model), là một mô hình xác suấtbiểu diễn sự phụ thuộc có điều kiện giữa các biến ngẫu nhiên bằng các nốt trên đồ thị [16] Trongphạm vi luận án, chúng tôi chỉ đề cập tới lớp mô hình đồ thị mạng Bayes với các cạnh kết nối cóhướng trên đồ thị
Xét một đồ thị gồmnnốt biểu diễn chonsự kiệnX1, , X n với xác suất hợp thõa mãn:
Trang 182.2 Suy diễn biến phân
Suy diễn biến phân là một kĩ thuật được dùng trong tối ưu trên một số bài toán không thể giải chínhxác mà thông qua việc xấp xỉ xác suất hậu nghiệm bằng một phân phối biến phân [13] Cụ thể, xétmột mô hình có siêu tham số , các biến ẩnη Z và dữ liệu quan sátX, thay vì trực tiếp tìm xác suấthậu nghiệmp Z X, η ( | ), chúng ta xấp xỉ bằng phân phối biến phânq Z :
q Z ( ) ≈ ( | p Z X, η)Xét khoảng cáchKL(Kullback–Leibler) giữa hai phân phối q Z vàp Z X, η ( | )ta có:
Để ý rằng vế trái của 2.2 là một hằng số theo , như vậy việc tối giảm khoảng cáchq KLgiữaq Z
và p Z X, η ( | )tương đương với việc cực đạiLở biểu thức 2.1 Mặc khác doKL q Z ( ( )|| ( | p Z X, η))≥0nên:log (p X η | ) ≥ L Vì vậyLcòn được gọi là biên dưới của hàm log xác suất chứng cứlog (p X η | ).Chú ý rằng ta có thể đưa ra kết quả tương tự khi sử dụng bất đẳng thức Jensen Cụ thể:
Trang 19Từ đây để cho thuận tiện, chúng tôi sử dụng đồng thời hai kiểu kí hiệu cho tích và tổng các phần
tử, một kiểu ghi đầy đủ thông tin các chỉ số và kiểu còn lại chỉ ghi chỉ số, theo nghĩa, sẽ duyệt quatất cả các chỉ số có thể có Cụ thể, Pi và PIi=1hay QivàQIi=1là tương đương
Phân phối Gauss hay còn gọi là phân phối chuẩn là một phân phối xác suất liên tục rất phổ biến [29].Hàm mật độ xác suất của phân phối Gauss xác định bởi:
Trang 20Phân phối Gauss có dạng đối xứng xung quanh giá trị kì vọng (hình 2.2) Khi giá trị phương saiµ
δ2càng lớn thì sự biến động quanh giá trị kì vọng càng lớn và ngược lại Khi sử dụng δ2= 1/c thì
ta xem là độ tin cậy của phân phối quanh kì vọng Khi càng nhỏ (ứng với phương sai lớn thì độc c
tin cậy càng thấp, nói cách khác giá trị của biến ngẫu nhiên dao động mạnh quanh kì vọng Ngượclại khi càng lớn thì giá trị biến ngẫu nhiên tập trung quanh giá trị kì vọng.c
Ở dạng đa biếnK chiều:x= [x1, x2, , x K]T với kì vọng
µ= [ ] = [ [E x E x1], E x[ 2], , E x[ K]] T
và ma trận tương quan
X
= [(E X − µ)(X − µ)T]thì hàm mật độ xác suất trở thành:
f X(x1, x2, , x K) = exp(
−1
2 (x − µ)TP−1
(x − µ)p
(2 ))π K |P|
Phân phối Poisson là một phân phối xác suất rời rạc biểu thị xác suất của số lần xảy ra sự kiện trongmột khoảng không thời gian khi biết được sự kiện đó xảy ra với một kì vọng không đổi và đọc lập vớithời gian xảy ra sự kiện gần nhất [29]
Một cách cụ thể, phân phối Poisson xét một sự kiện với kì vọng số lần xảy ra trong khoảng thờigianT là , thì kì vọng số lần xảy ra bằngλ ktrong khoảng thời gian này với xác suất:
p k( ) = e −λ λ −
k k!
Hình 2.3 minh họa phân phối Poisson với các giá trị kì vọngλ khác nhau
Phân phối Gamma là một phân phối xác suất liên tục với hai tham số đầu vào, ở đây ta xét lớp phân
phối Gamma với hai tham số: shape (hình dạng) γshp và rate (tốc độ) γrte Một biến ngẫu nhiên tuântheo phân phối Gamma nếu hàm mật độ của nó có dạng (Hình 2.4):
f x γ( ; shp , γ rte) = γ rte
γ shp x γ shp −1e −γ rte x Γ(γshp) ,vớix > , γ0 shp , γ rte > 0
Trang 21Hình 2.3: Minh họa phân phối Poisson với kì vọng khác nhau
Hình 2.4: Minh họa phân phối Gamma với các giá trị shape, rate khác nhau
Ngoài ra:
E[ln( )] = Ψ(x γ shp) −ln(γ rte) (2.4)trong đóΨlà hàm digamma:
Trang 222.3.4 Phân phối Multinomial
Phân phối Multinomial là phân phối tổng quát cho phân phối binomial (hai biến) bằng việc xác địnhxác suất của các biến đếm của một xúc xắcK mặt được gieonlần Một các tổng quát, xét một sựkiện vớiKkhả năng xảy ra với xác suất lần lượt làp1, p2, , p Ksao choPk p k= 1 Xét tập khả năng
x1, x2, , x K với Pk x k = n thì phân phối Multinomial thõa mãn hàm mật độ:
p x p ( | 1, , p K) = n!
x1! xK!p
x1
1 p x K K
Hình 2.5: Minh họa phân rã ma trận
Phân rã ma trận có nhiều mục đích, chúng ta có thể để ý tới việc giảm chiều Dễ thấy với U, I >> K
thì:
I.U >> K I( +U) = K.I+K.U
Trang 23Như vậy thay vì lưu trữ toàn bộ ma trận R với số phần tửI.U ta chỉ cần lưu trữ hai ma trận con vớikích thước lần lượt là K.I vàK.U với số lượng phần tử nhỏ hơn đáng kể.
Tuy nhiên ở khía cạnh khác, khi chúng ta xem ma trậnRlà ma trận tương tác giữa các phần tửtương ứng của hai tập hợp lần lượt có số lượng phần tử là và , khi đó mỗi cột của ma trậnI U βhay
θlà các vector thuộc tính của phần tử trong không gian thuộc tínhK chiều, kí hiệu lần lượt là βi với
i= 1 I và θu vớiu= 1 U Mức độ tương tác giữa các phần tử tỉ lệ với độ "tương tự" nhau của cácthuộc tính, độ tương tự càng lớn thì sự tương tác có trọng số càng cao Tính chất này phù hợp vớicông thức tính tích trong của các thuộc tính:
r ui = β T i θ u Trong đó rui là điểm tương tác giữa đối tượng uvà đối tượng , còni β i và θu lần lượt là các vectorthuộc tính của và i u
Phân rã ma trận trọng hệ gợi ý [17] dùng tích chất này để học ra các ma trận thuộc tính của ngườidùngU và sản phẩm Trên thực tế ma trận tương tácI Rthường không đầy đủ, tức là chỉ có một số
vị trí biết trước, cũng như không phải tất cả mọi người dùng đều có tương tác với sản phẩm trong hệthống Những cặp người dùnguvà sản phẩm chưa tương tác chính là giá trị ta cần phải dự đoán.i
Chú ý rằng, chúng ta không thể đảm bảo tìm được ma trận thuộc tính con :β, θthõa mãn côngthức 2.5 Chẳng hạn giả thiết U = I, và ma trậnR lúc này có hạng U ( như ma trận đơn vị kíchthướcU × I) , vàK < U, thì hai ma trận conβ và chỉ có hạng tối đa làθ K Hạng của hai vế ở 2.5
là khác nhau nên không thể tồn tại nghiệm Do vậy ta tìm β và sao choθ β T × θgầnRnhất
Có một số hướng để xác định hàm lỗi cho mục tiêu xấp xỉ này Nếu dùng hàm lỗi Euclid, thì ta
cần tối thiểu hàm sai số || − R β T
× || θ Tuy nhiên hiện nay các phương pháp sử dụng theo hướng xác
suất đã thể hiện tính hiệu quả hơn tối ưu hàm lỗi trên Đặt:
Trang 24Với giả thiết độc lập của các xác suất này, ta có hàm mục tiêu :
Ở dạng phân phối sử dụng cho , thì hai phân phối phổ biến được dùng là Gauss và Poisson sẽp
được trình bày ở phần tiếp theo
Ở phân rã ma trận Gauss, hàm xác suấtP ở công thức 2.7 xác định bởi phân phối Gauss:
kì vọng ¯rui Đặt 1/σ2 = c, khi đó c là độ tin tưởng của giá trị quan sát r ui Khi càng nhỏ, độ tin c
cậy càng nhỏ, hay nói cách khác, r uicó thể khác xa kì vọng và ngược lại
Thay lại vào 2.7, ta có hàm mục tiêu cần tối ưu:
Ta nhận thấy công thức 2.9 chính là hàm lỗi Euclid của ma trận tương tác quan sát đượcRvới
ma trận tích của hai ma trận thuộc tính và Đặtθ β r u là một vector cộtI × 1biểu diễn tương táccủa người dùnguvớiI sản phẩm Tính đạo hàm theo từng biếnθ u, βi, ta có:
Trang 25Chú ý rằng, thực tế các mô hình cần có giá trị các tham số là nhỏ để đảm bảo tính ổn định của
mô hình và tránh overfitting Ta có thể giả thiết, các giá trị thuộc tính người dùng θu và thuộc tính
sản phẩm βi biến động quanh kì vọng với độ tin cậy lần lượt là0 λ u và λi Nói cách khác, ta thêm
giả thiết điều kiện:
Choc = 1 với ý nghĩa tất cả các quan sát đều có ý nghĩa như nhau Lại lấy đạo hàm của biểu
thức 2.14 lần lượt theo θu và βi và điều kiện bằng , ta được công thức cập nhật:0
θ u = (ββ T + λU I K) −1βr u (2.15)
β i = (θθ T + λI I K) −1θr i (2.16)
Ở phân rã ma trận Poisson, ta giả thiết các giá trị mức độ tương tác là các giá trị rời rạc trong tập
số nguyên rui ∈ N, khi đó giá trị quan sát được của tương tác giữa người dùng với sản phẩm tuânu i
theo phân phối Poisson với kì vọng β T
Trang 26• z uik ∼ P oisson β( ik θ uk)
k
φ uik= 1
E q z( )z uik = rui φ uik
Áp dụng suy diễn biến phân, ta có hàm biên dưới:
Trang 27dropout, một số liên kết bị loại bỏ và ta có hình 2.9b.
Dropout giúp cho mô hình tránh overfitting, tăng chất lượng dự đoán của mô hình Để giải thíchmột cách định tính cho tính chất này, chúng ta có thể giải thích theo một số góc độ sau Đầu tiên,sau mỗi lần loại bỏ ngẫu nhiên, ta sẽ học được một mô hình với các tham số tương ứng Ở vòng lặptiếp theo chúng ta lại học trên một bộ dữ liệu đầu vào khác thay vì giống hệt như lần trước Chuỗi
mô hình học liên tiếp này giống tư tưởng của học kết hợp (ensemble learning), giúp làm giảm phươngsai trong quá trình học của mô hình và tránh overfitting Ngoài ra trong mạng neuron, các giá trị đầuvào được đưa vào mạng và lan truyền thông qua liên kết giữa các nốt trong mạng Việc loại bỏ đi một
số đầu vào giúp cho mạng vẫn giữ được khả năng học chỉ trên một phần cục bộ các liên kết Điều nàylàm tăng tính bền vững của mạng và khả năng suy diễn của mô hình Kĩ thuật dropout tuy đơn giảnnhưng thực sự hiệu quả trên thực nghiệm
Trang 28Khái niệm: Tri thức tiên nghiệm là những tri thức biết trước về một sự kiện hay một đối tượng nào
1 https://nlp.stanford.edu/projects/glove/
Trang 29pháp đơn giản cho vấn đề này.
Hình 2.10: Minh họa word embedding trên mặt phẳng 2 chiều Nguồn: Web2
2
https://es.mathworks.com/help/textanalytics/examples/visualize-word-embedding-using-text-scatter-plot.html
Trang 30Chương 3
Các nghiên cứu liên quan
Ở phần này, chúng tôi trình bày một số nghiên cứu mới nhất về xây dựng mô hình gợi ý bằng phân rã
ma trận, cùng một số nghiên cứu khác về ý tưởng đưa tri thức tiên nghiệm vào nằm tăng chất lượng
mô hình
Ở đây chúng tôi tóm lược 3 mô hình gợi ý có kết quả tốt được công bố gần đây với nhóm phân
rã ma trận không sử dụng thông tin sản phẩm, đại diện lần lượt là Weighted Matrix Factorization
-WMF [11] Hierarchical Poisson Factorization - HPF [7], và nhóm kết hợp thông tin sản phẩm và phân
rã ma trận với đại diện là Collaborative Topic Model for Poisson distributed ratings (CTMP) [18].
Những mô hình này sẽ được dùng để đối sánh kết quả với mô hình đề xuất trong phần thực nghiệm
Weighted Matrix Factorization (WMF) là phương pháp lọc cộng tác dựa trên phân rã ma trận Gaussđược đề xuất bởi Yifan Hu và cộng sự [11] WMF tập trung vào các tương tác ngầm định và sau đóchuyển về tương tác nhị phân:
c ui = 1 + ρrui
Trang 31Thuật toán 1 Thuật toán học cho mô hình W M F
Input: Dữ liệu quan sát , siêu tham sốR ρ, λ U , λ V
Output: Ước lượng βi , θ u
Trong đó quyết định độ gia tăng của độ tin cậy theo giá trị của tương tác ρ c r
Lúc này đặt C i là ma trận đường chéo kích thước U × U sao choC i
uu = c ui và C u là ma trậnđường chéo kích thướcI × I sao choC u
ii = cui, thay giá trị của c vào hàm mục tiêu ở công thức 2.14
và tính đạo hàm, ta được công thức cập nhật mới tương tự như ở phần 2.4.2:
θ u = (βC u β T + λU I K) −1βr u (3.1)
β i = (θC i θ T + λI I K) −1θr i (3.2)
Nghiên cứu sử dụng mô hình Poisson phân cấp (Hierarchical Poisson Factorization - HPF )được đềxuất trong nghiên cứu của Gopalan và cộng sự [7] Khác với phân rã ma trận Poisson ở phần 2.4.3,
HPF sử dụng các mức phân cấp cho θu và βi Cụ thể, ở mức phân cấp thứ nhất (Hình 3.1), ta thêm
các giả thiết về phân phối xác suất theo hàm Gammavới tham số shape, rate:
Trang 32Lúc này ta có công thức cập nhật của các biến:
φ ui ∝ exp Ψ(γ { shp uk )−logγ uk rte + Ψ(ζ ik shp)−log(ζ ik rte )}
Và công thức tính các giá trị thuộc tính:
θ uk = γ shp
uk /γ rte uk
1 Cho mỗi sản phẩm :i
Trang 33(a) Lấy mẫu bi ∼ Gamma a( , a /b)
(b) Cho mỗi thành phần , lấy mẫu:k β ik ∼ Gamma a, b( i)
2 Cho mỗi người dùng :u
(a) Lấy mẫu du ∼ Gamma c( 0 , c 0 /d 0)
(b) Cho mỗi thành phần , lấy mẫu:k θ uk ∼ Gamma c, d( u)
3 Cho mỗi cặp người dùng và sản phẩmu, i, lấy mẫu giá trị tương tác:r ui ∼ P oisson β( T
Hình 3.2: Mô hình gợi ý dùng phân rã ma trận Poisson với phân cấp mức 2
Lúc này phân phối biến phân có dạng: