DANH MĀC CÁC TĆ VI¾T TÀT CBF Content-Based Filtering Lác thông tin dąa trên nái dung CF Collaborative Filtering Lác thông tin dąa trên cáng tác Matrix Ma trÅn ghi nhÅn đánh giá cąa ng°åi
T ò ng quan nghiờn c ą u
Há tháng gāi ý (RS) là mát ph°¢ng tián và ph°¢ng pháp ph¿n mÃm giỳp đà xuất tin tćc và hành vi tiờu dựng cho ng°ồi dựng Chỳng t¿o ra cỏc gāi ý tựy chỉnh, đ°a ra danh sỏch cỏc sản phÁm, dòch vă, hoặc nỏi dung đ°āc sắp xÁp theo thć tą °u tiờn dąa trờn sỗ thớch cỏ nhõn để dą bỏo ląa chỏn phự hāp nhất vói hỏ Nhăng ląa chỏn này bao gòm viỏc mua sắm, õm nh¿c mà hỏ lắng nghe, và tin tćc trąc tuyÁn mà há đác [1] Há tháng này giải quyÁt đ°āc tỡnh tr¿ng ngÅp lăt thụng tin bằng cỏch cung cấp dòch vă và nỏi dung riờng biỏt, phự hāp vói nhu c¿u và mong muỏn cąa tÿng ng°ồi dựng Măc tiờu cąa RS là mang đÁn cho ng°ồi dựng nhăng đà xuất và °u đói că thể liờn quan đÁn nhăng sản phÁm hoặc đái t°āng mà há có khả năng quan tâm đÁn Mát ví dă điển hỡnh là Netflix, hỏ ỏp dăng hỏ thỏng gāi ý để phõn tớch xu h°óng và sỗ thớch cąa ng°ồi dựng, qua đú giói thiỏu cỏc bỏ phim phự hāp trờn trang web cąa mỡnh để tăng c°ồng trải nghiỏm và thu hỳt l°āng ng°ồi xem lón hÂn [2]
B¿n có thể t¿o há tháng gāi ý bằng nhiÃu ph°¢ng pháp và thuÅt toán khỏc nhau Cỏc khuyÁn nghò dąa trờn nỏi dung, cỏc khuyÁn nghò hāp tỏc và các ph°¢ng pháp kÁt hāp (dąa trên t°¢ng tác và dąa trên nái dung) [1] [2], [3] Hỏ thỏng gāi ý dąa trờn nỏi dung cung cấp cho ng°ồi dựng nhăng mún đò (măc) t°Âng tą Nhăng hỏ thỏng gāi ý cỏng tỏc ng°ồi dựng s¿ cung cấp nhăng măc tin mà mỏt sỏ ng°ồi cú cựng sỗ thớch đó tÿng thớch Cỏc hỏ thỏng dąa trên đặc tính, dąa trên hành vi, dąa trên ngă cảnh, dąa trên kiÁn thćc, dąa trờn luÅt và cỏc hỏ thỏng dąa trờn đặc tớnh khỏc cũng bao gòm kā thuÅt khụng cá nhân hóa [3].
M ā c tiêu c ăa đÁ tài
Với công cụ tìm kiếm phim tiên tiến, người dùng có thể dễ dàng tìm kiếm và khám phá những bộ phim phù hợp với sở thích cá nhân một cách nhanh chóng và hiệu quả, giúp nâng cao trải nghiệm giải trí của họ.
N á i dung nghiên c ą u
Nghiên cću, đánh giá °u/nh°āc điểm các ph°¢ng pháp gāi ý phá biÁn trong các há tháng hián nay: Lác dąa trên nái dung và Láccáng tác.
Nghiờn cću và phõn căm mồ và thuÅt toỏn Fuzzy C-Means
Thu thÅp và xā lý dă liỏuđỏnh giỏ phim tÿ ng°ồi dựng
Nghiên cću mô hình kÁt hāp ph°¢ng pháp Lác cáng tác vãi thuÅt toán phõn căm mồ nhằm tăng hiỏu năng, cải thiỏn tỏc đỏ và đỏ chớnh xỏc gāi ý
ThiÁt kÁ và triển khai há tháng gāi ý dąa trên mô hình đã ląa chán
Thā nghiám và đánh giá mô hình.
K ¿ t c ¿u đÁ án
PH¯ĂNG THĄ C HO ắ T Đà NG C Ă A H ặ TH ị NG G ỵ I í
Khi đưa ra quyết định mua sắm, khách hàng thường dựa trên hai phương pháp chính Thứ nhất là kiểm tra chi tiết các thông tin về sản phẩm, bao gồm tính năng, công dụng và thành phần, tùy thuộc vào nhu cầu sử dụng của họ Thứ hai, khách hàng có thể bị ảnh hưởng bởi các ý kiến xung quanh và sản phẩm đó.
Hỏ thỏng khuyÁn nghò mụ phòng l¿i quỏ trỡnh đ°a ra quyÁt đònh mua hàng cąa ng°ồi dựng bằng hai kā thuÅt chớnh: gāi ý dąa trờn lỏc nỏi dung và gāi ýdąa trên lác cáng tác, dąa trên nhăng phát hián đ°āc nêu trên.
Ph°¢ng pháp lác dąa trên nái dung tÅn dăng nhăng thông tin t°¢ng tác trong quỏ khć cąa ng°ồi dựngcũng nh°thụng tin và thuỏc tớnh cąa đỏi t°āng để xỏc đònh cỏc đặc tớnh cú ảnh h°ỗng đỏng kể đÁn đỏnh giỏ cąa ng°ồi dựng
Vector hồ sơ người dùng (Profile(U)) với các thành phần nội dung (A1, A2, , An) phản ánh mức độ ảnh hưởng của từng thành phần vào sở thích của người dùng Tương tự, khi hệ thống tìm kiếm (RS) sử dụng kỹ thuật truy hồi thông tin (IR) để phân tích đối tượng I, các thành phần nội dung được biểu diễn bằng vector thông tin nội dung (Content(I)) gồm có (A1, A2, , An).
Vớ dă, thụng tin liờn quan đÁn mỏt đỏi t°āng thụng th°ồng đ°āc trỡnh bày d°ãi d¿ng văn bản, chẳng h¿n nh° mát đo¿n văn, bài viÁt hoặc mÁu tin ngắn Kā thuÅt IR đ°āc sā dăng bỗi hỏ thỏng RS để trớch xuất đặc tớnh nh° tÿ khúa, n-grams và thąc thể để t¿o mụ hỡnh biểu diònd¿ng vector tÿ khúa cąa đỏi t°āng [11] Do đú, hỏ thỏng RS ỏnh x¿ cả sỗ thớch cąa ng°ồi dựng và nỏi dung cąa đái t°āng vào cùng mát không gian vector, còn đ°āc gái là không gian thuác tính cąa sản phÁm, trong cách tiÁp cÅn lác dąa trên nái dung
Trong hỏ thỏng gāi ý, để đo l°ồng są t°Âng đòng giăa hai vector, đỏ đo cosine th°ồng đ°āc sā dăng để đỏnh giỏ đỏ phự hāp giăa sản phÁm I và ng°ồi dựng U. ÿ(ý, ý) = ýĀĀ(�㕃ÿĀĀ�㕖ýÿ(ý)⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ,ÿĀÿāÿÿā(ý)⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ) (1.1)
Trong phương pháp lập cấu hình nhóm, ta tìm kiếm những nhóm người dựng nên cụm hành vi "tương đồng" bằng cách phân tích lịch sử tương tác của họ, được lưu trữ trong ma trận tương tác User × Item Ta có thể đưa ra đánh giá dựa trên độ phủ hợp u(i, i') giữa người dựng hiện tại i và đối tượng i' bằng cách sử dụng độ phủ hợp s(ī, I) của những người dựng khác ī có sở thích tương đồng với i.
Để giải quyết bài toán ra quyết định, cần phát triển một hàm đánh giá \( \hat{u} (a_i, a_j) \) nhằm ước lượng giá trị của trò chơi mà người dựng chiến lược \( a_i \) đưa ra cho đối tượng \( a_j \) Mục tiêu là làm cho sai số giữa giá trị của trò chơi do dự đoán \( \hat{u}_{ij} \) và các giá trị của trò chơi thực tế \( u_{ij} \) trở nên nhỏ nhất trong ma trận tương tác.
PH¯ĂNG PHÁP TIắ P C ắ N KHI XÂY D Ă NG H ặ TH ị NG G ỵ I í
D°ãi đây là mát táng quan và các ph°¢ng pháp đ°āc sā dăng để xây dąng hỏ thỏng gāi ý, dąa trờn nguòn tham khảo.
Hỏ thỏng gāi ý ghi l¿i hò s ng°ồi dựng d°ói d¿ng vector Ă̂ {Ă 1 , Ă 2 , & , Ă Ą }, trong đú Ăÿbiểu thò są yờu thớch và quan tõm đỏi vói tÿng chi tiÁt sản phÁm cąa ng°ồi dựng Vector hò s sản phÁm ă̂ = {ă 1 , ă 2 , & , ă Ą }, chća thông tin chi tiÁt và sản phÁm bằng các đặc tr°ng ă ÿ Do đó, cả thông tin và sản phÁm và thụng tin và sỗ thớch cąa ng°ồi dựng đÃu đ°āc thể hiỏn trờn mỏt khụng gian vector chung bao gòm cỏc đặc tr°ng cąa sản phÁm
Hỡnh 1.3 cho thấy gúc lỏch giăa hai vector hò sÂđ°āc sā dăng để đỏnh giỏ khả năng thớch hāp cąa sản phÁm đỏi vói sỗ thớch cąa ng°ồi dựng.
Hình 1.3 Cách thức phương pháp lọc cộng tác hoạt động
Ph°¢ng pháp cosine góc lách giăa là ph°¢ng pháp so sánh hai vectorĂ⃗ và ă đ°āc sā dăng để đỏnh giỏ đỏ t°Âng đòng và đ°a ra khuyÁn nghò: Āÿþÿý�㕎ÿÿāĆ = cos(�㔃) = Ă⃗ ă
Trong Hình 1.4 d°ãi đây, chúng ta có thể thấy đ°āc táng quan mô hình cąa há tháng gāi ý dąa trên nái dung:
Hình 1.4 Cơ chế hoạt động theo lọc nội dung
Ph°¢ng pháp đà xuất dąa trên nái dung mang l¿i nhiÃu lāi ích cho há tháng gāi ý (RS), nhất là khi so sánh vãi ph°¢ng pháp lác cáng tác D°ãi đây là mát sá lāi ích chính:
Phương pháp đề xuất được đặc trưng bởi khả năng cung cấp gợi ý chính xác và được người dùng chấp nhận cao mà không cần đến lượng lớn dữ liệu từ người dùng Điều này tạo nên sự khác biệt rõ ràng so với phương pháp học cá nhân hóa, trong đó hiệu suất của hệ thống gợi ý phụ thuộc nhiều vào việc phân tích và xử lý tập hợp dữ liệu lớn từ người dùng để tìm ra các mẫu và quy luật, như xác định sản phẩm được ưa chuộng.
Thć hai, há tháng có thể đ°a ra gāi ý và sản phÁm mãi kể cả khi khụng cú sẵn dă liỏu t°Âng tỏc tÿ ng°ồi dựng, nhồ vào viỏc sā dăng thụng tin mô tả sản phÁm ĐiÃu này là do c¢ chÁ cąa ph°¢ng pháp đà xuất dąa trên nái dung, n¢i mà các đà xuất đ°āc t¿o ra thông qua viác phân tích nái dung sản phÁm Vỡ vÅy, mòi khi cú mỏt sản phÁm mói đ°āc thờm vào hỏ thỏng và sản phÁm đú cú nhăng đặc điểm t°Âng tą vói sản phÁm mà ng°ồi dựng đó quan tâm tr°ãc đây, há tháng có khả năng đà xuất nhăng sản phÁm mãi này cho ng°ồi dựng
Thć ba, trong tr°ồng hāp ng°ồi dựng cú sỗ thớch đặc biỏt cho mát sản phÁm không mấy phá biÁn trong dă liáu t°¢ng tác, há tháng vÃn có khả năng nhÅn diỏn và hiểu rừ sỗ thớch đú dąa trờn nỏi dung cąa sản phÁm ĐiÃu này cho phép há tháng gāi ý các sản phÁm t°¢ng tą dąa vào các đặc điểm nỏi dung că thể, ngay cả khi sản phÁm đú khụng đ°āc nhiÃu ng°ồi dựng khác biÁt đÁn hoặc quan tâm
Thć t°, nhồ vào viỏc sā dăng giỏ trò trỏng sỏ trong vector hò s cąa mụ hỡnh, cú khả năng tą giải thớch cao và są ảnh h°ỗng cąa cỏc đặc tr°ng đÁn sỗ thớch cąa ng°ồi dựng Cỏc giỏ trò trỏng sỏ lón hÂn bỏo hiỏu mćc đỏ quan tõm cao hÂn cąa ng°ồi dựng đỏi vói sản phÁm và cỏc đặc tớnh cąa nú ĐiÃu này cho phép doanh nghiáp tÅn dăng thông tin này để tái °u hóa nái dung và tớnh năng sản phÁm, nhằm phăc vă tỏt hÂn cho sỗ thớch cỏ nhõn cąa ng°ồi dựng
Há tháng gāi ý dąa trên nái dung có mát sá h¿n chÁ, ngoài nhăng °u điểm đã nêu, nh° sau:
Yêu c¿u cao và đặc tr°ng chi tiÁt cąa sản phÁm: Hián ch°a có ph°¢ng thćc thích hāp vãi đá chính xác cao để trích chán dă liáu liên quan đÁn cỏc sản phÁm đa ph°Âng tiỏn nh° phim ảnh và õm nh¿c Bỗi lý do đú, để t¿o đ°āc vector đặc tr°ng cho các thuác tính cąa tÅp sản phÁm này đặc biát khó khăn và chất l°āng thông tin có thể không cao Ph°¢ng pháp dąa trên lác nái dung có thể không hiáu quả khi mô tả không chất l°āng hoặc sai
Hiỏn t°āng đ°āc gỏi là "cćng nhắc" trong kÁt quả khuyÁn nghò
(tăng chuyờn mụn): Hỏ thỏng cú thể trỗ nờn "cćng nhắc" và gāi ý cỏc sản phÁm chỉ phự hāp vói hò s cąa ng°ồi dựng că thể mà khụng tÅn dăng thụng tin cąa nhăng ng°ồi dựng khỏc cú cựng sỗ thớch Vấn đà này cú thể gõy cản trỗ đỏi vói phong phỳ và đa d¿ng cąa cỏc gāi ý
1.3.2.1 Lọc cộng tác dựa trên bộ nhớ (Memory -based Collaborative Filtering)
Hỏ thỏng sā dăng hai b°óc sau để xỏc đònh đỏ t°Âng đòng giăa ng°ồi dựng hiỏn t¿i và ng°ồi dựng t°Âng tą dąa trờn thụng tin đỏnh giỏ cąa ng°ồi dùng trong trÅn User4 Item:
B°óc 1: Đỏ t°Âng tą cąa cỏc ng°ồi dựng đ°āc hỏ thỏng tớnh toỏn nh° sau: Āÿþÿý�㕎ÿÿāĆ(ą, Ć) = cos(ą , Ć ) = ą ∙ Ć
B°óc 2: Tớnh toỏn giỏ trò xÁp h¿ng dą đoỏn bằng cỏch sā dăng cụng thćc sau: ÿ(�㕎, ÿ) = ÿ̅ + �㕎 ∑ (ÿ Ą ÿ=1 Ă,ÿ 2 ÿ̅) × Āÿþÿý�㕎ÿÿāĆ(ą, Ć) Ă
Nhăng lāi ích cąa quy trình lác cáng tác dąa trên bá nhã:
Thứ nhất, hệ thống gợi ý không yêu cầu xây dựng mô hình người dùng hoặc sản phẩm chuyên sâu đòi hỏi rất nhiều chuyên gia ngành Đối với các sản phẩm phổ biến, phương pháp lọc dựa trên công tác sử dụng các dữ liệu và sở thích của người dùng Do đó, khi hệ thống RS phát hiện ra những sản phẩm được ưa thích, nó có thể đưa ra gợi ý trực tiếp cho chúng mà không cần quan tâm đến thiết kế hay nội dung cụ thể của chúng Điều này mang lại cho hệ thống khả năng cung cấp khuyến nghị cho nhiều loại đối tượng khác nhau.
Hai là, hỏ thỏng cú thể đ°a ra khuyÁn nghò bằng cỏch sā dăng dă liỏu tÿ cỏc nhúm ng°ồi dựng t°Âng tą để xỏc đònh khuynh h°óng đỏi vói są yêu thích vãi mặt hàng cąa há
Mặt khác, ph°¢ng pháp dąa trên bá nhã vÃn có nhăng h¿n chÁ:
H¿n chÁ và tớnh đặc thự trong khuyÁn nghò là mỏt vấn đà mà hỏ tháng có thể gặp phải, đặc biát là trong há tháng lác cáng tác Trong mô hình này, viỏc đà xuất sản phÁm th°ồng dąa trờn są t°Âng đòng cąa hành vi hoặc đỏnh giỏ giăa cỏc ng°ồi dựng, mà khụng nhất thiÁt phản ỏnh chớnh xỏc sỗ thớch că thể cąa mòi cỏ nhõn ĐiÃu này cú thể dÃn đÁn tỡnh tr¿ng mỏt sỏ khuyÁn nghò khụng chớnh xỏc hoặc khụng hoàn toàn phản ỏnh đ°āc nhu c¿u đặc biỏt cąa ng°ồi dựng, khiÁn hỏ thỏng khụng thể cung cấp cỏc gāi ý hoàn toàn phự hāp vói mòi ng°ồi
KhuyÁn nghò thiÁu dă liỏu và kộm chất l°āng là mỏt thỏch thćc lãn trong há tháng lác cáng tác dąa trên bá nhã, đặc biát khi dă liáu t°¢ng tác giăa ng°ồi dựng và sản phÁm trỗ nờn th°a thót Są thąc là, ng°ồi dựng th°ồng chỉ để l¿i đỏnh giỏ cho sản phÁm khi hỏ cảm thấy rất hài lũng hoặc không hài lòng, điÃu này dÃn đÁn viác ma trÅn t°¢ng tác không phản ánh chớnh xỏc mćc đỏ quan tõm đa d¿ng cąa ng°ồi dựng đỏi vói sản phÁm KÁt quả là, viỏc sā dăng đo l°ồng cosine để tỡm są t°Âng đòng giăa ng°ồi dựng hoặc giăa sản phÁm trỗ nờn kộm hiỏu quả, gõy ra viỏc khuyÁn nghò khụng chính xác hoặc thiÁu đá tin cÅy, làm giảm chất l°āng táng thể cąa các gāi ý
CÁC TIấU CHU ẨN ĐÁNH GIÁ Hặ G ỵ I í
Các nhà nghiên cću đã đà xuất nhiÃu tiêu chí đánh giá khác nhau để phản ỏnh đ¿y đą cỏc tr°ồng hāp că thể, tựy thuỏc vào cỏch tÿng ngă cảnh sā dăng hỏ thỏng khuyÁn nghò Cỏc tiờu chuÁn đỏnh giỏ cú thể đ°āc chia thành hai nhóm chính sau đây [1]:
Các tiêu chí đánh giá chính xác mức độ tương đồng giữa danh sách đánh giá đồ đỏ do thuật toán đề xuất và danh sách đánh giá đồ đỏ thực tế của người dùng Nhóm này bao gồm các tiêu chuẩn như MAE (Mean Absolute Error) và RMSE (Root Mean Square Error); trong đó, Netflix thường ưu tiên chọn RMSE trong các cuộc thi như The Netflix Prize.
Tiêu chuẩn chính xác trong quá trình ra quyết định còn được gọi là tiêu chuẩn chính xác trong hỗ trợ ra quyết định, tập trung vào việc sử dụng thông tin khuyến nghị để cung cấp danh sách các đối tượng mà người dùng có thể đánh giá Mối quan tâm chính của người dùng trong bối cảnh này là khả năng của hệ thống khuyến nghị trong việc đưa ra các đối tượng mà họ quan tâm một cách chính xác, biến bài toán khuyến nghị thành bài toán phân loại đối tượng.
1.4.1 Trung bỡnh lòi tuyầt đòi
Giỏ trò sai sỏ tuyỏt đỏi trung bỡnh (MAE) đ°āc tớnh bằng cỏch lấy giỏ trò trung bỡnh cąa cỏc sai sỏ tuyỏt đỏi giăa giỏ trò xÁp h¿ng thąc tÁ và dą đoỏn ĐiÃu này đ°āc thąc hián bằng cách sā dăng công thćc sau đây: ý�㔴ā = 1 þ ∑|ÿ ÿ 2 ÿ̂ ÿ | Ą ÿ=1 (1.5)
Cỏc °u điểm cąa tiờu chuÁn sai sỏ tuyỏt đỏi trung bỡnh bao gòm viỏc thąc hiỏn và sā dăng dò dàng.
1.4.2 Lòi bỡnh ph°Âng trung bỡnh
Sai sá bình ph°¢ng trung bình gác (RMSE) là sai sá bình ph°¢ng trung bỡnh căn bÅc hai giăa cỏc giỏ trò đỏnh giỏ thąc tÁ và dą đoỏn: ýýþā = :∑ (ÿ þ ÿ=1 ÿ 2 ÿ̂ ÿ ) 2 þ (1.6)
Tiờu chuÁn RMSE tÅp trung vào cỏc lòi cú giỏ trò lón hÂn 1, trỏi ng°āc vãi tiêu chuÁn MAE.
Măc tiờu cąa RMSE là xỏc đònh mụ hỡnh đỏnh giỏ giỏ trò ng°ồi dựng tỏt h¢n mô hình Cinematch cąa Netflix vào năm 2007 khi nó đ°āc chán làm tiêu chí đánh giá cho cuác thi Netflix Awards [9].
K¿t lu¿n ch°¢ng 1: Ch°¢ng 1 đã trình bày nhăng nái dung c¢ bản và táng quan và há tháng gāi ý Ch°¢ng tiÁp theo s¿ thảo luÅn chi tiÁt và mô hình đà xuất cáng tác sā dăng hác máy trong ch°¢ng tiÁp theo và đà xuất mát mụ hỡnh că thể cho cỏc hỏ thỏng gāi ý, sā dăng thuÅt toỏn phõn căm mồ
Hặ GỵI í DĂA TRấN LàC CàNG TÁC VÀ CÁC PH¯ĂNG PHÁP
PHÂN CĀM 2.1 BÀI TOÁN GþI Ý DĂA TRÊN CàNG TÁC
- TÅp hāp ng°ồi dựng U = {Ă 1 , Ă 2 , & , Ă ý } - TÅp hāp sản phÁm I = {ÿ 1 , ÿ 2 , & , ÿ þ }
- Ma trÅn R = (ÿ ÿĀ ) vãi ÿ = 1, ⋯ , ý; Ā = 1, ⋯ , þ thông tin t°¢ng tỏc giăa tÅp ng°ồi dựng ý và tÅp sản phÁm ý Trong đú ÿ ÿĀ là đỏnh giỏ cąa ng°ồi dựng Ă ÿ đỏi vói sản phÁm ÿ Ā NÁu ng°ồi dựng Ă ÿ ch°a đánh giá hoặc ch°a tÿng biÁt đÁn sản phÁm ÿ Ā thì ÿ ÿĀ = ∅
- Ma trÅn đ¿y đą ý, tćc là vãi ∀ÿ ÿĀ ∈ R, ÿ ÿĀ ≠ ∅
Hình 2.1 Quy trình đề xuất dựa trên sự hợp tác
Hai ph°¢ng pháp chính đ°āc sā dăng là CF dąa trên bá nhã (còn đ°āc gái là CF dąa trên vùng lân cÅn) [1] và lác cáng tác dąa trên mô hình (còn đ°āc gái là CF dąa trên mô hình).
2.1.1 Lác cáng tác dăa vào bá nhã
Ph°Âng phỏp lỏc cỏng tỏc dąa trờn bỏ nhó bao gòm hai giai đo¿n chính:
Tính tương tác giữa người dùng/sản phẩm hiện tại và người dùng lớn cần dựa trên dữ liệu từ ma trận tương tác Công thức tính tương tác giữa người dùng A và người dùng B là: Ā(�㕎, Ă) = ∑ (ÿ Ą ÿ=1 �㕎,ÿ 2 ÿ̅)(ÿ �㕎 Ă,ÿ 2 ÿ̅) Ă
Trong đú: ÿ �㕎,ÿ là điểm xÁp h¿ng cho mặt hàng ÿ cąa ng°ồi dựng
�㕎, ÿ̅ �㕎 là điểm xÁp h¿ng trung bỡnh cąa ng°ồi dựng �㕎 cho tất cả cỏc mặt hàng mà ng°ồi dựng đóđỏnh giỏ
- B°óc 2: Tớnh giỏ trò đỏnh giỏ (rating) dą đoỏn ÿ(�㕎, ÿ) = ÿ̅ + �㕎 ∑ (ÿ Ą ÿ=1 Ă,ÿ 2 ÿ̅) × Ā(�㕎, Ă) Ă
Ph°¢ng pháp lác cáng tác dąa trên bá nhã có thể đ°āc triển khai thông qua viỏc tÅp trung vào ng°ồi dựng hoặc tÅp trung vào đỏi t°āng:
Phương pháp dựa trên người dùng (Hình 2.2) tính toán đá t°¢ng đòng giăa cỏc ng°ồi dựng dąa trờn xÁp h¿ng cąa hỏ cho cỏc sản phÁm t°¢ng tą ĐiÃu này đ°āc thąc hián bằng cách xem xét xÁp h¿ng cąa các mặt hàng t°¢ng tą Bằng cách nhân xÁp h¿ng trung bình cąa mặt hàng đú vói trỏng sỏ để dą đoỏn xÁp h¿ng hiỏn t¿i cąa ng°ồi dựng; điÃu này chą yÁu dąa trờn mćc đỏ t°Âng đòng cąa ng°ồi dựng hiỏn t¿i vói ng°ồi dựng t°Âng tą
Phương phỏp lọc dựa trờn đối tượng (Hỡnh 2.3) tớnh toỏn cỏc giỏ trò dą đoỏn dąa trờn są t°Âng đòng cąa cỏc sản phÁm Lấy tất cả cỏc măc đ°āc ng°ồi dựng đỏnh giỏ hiỏn t¿i tÿ ma trÅn t°Âng tỏc để t¿o ra mụ hỡnh và są t°Âng đòng giăa cỏc măc TiÁp theo, đỏnh giỏ są t°Âng đòng giăa măc tiờu và măc đ°āc truy xuất Để làm nh° vÅy, ląa chỏn k cỏc mặt hàng giỏng nhau nhất và dą đoỏn giỏ trò cąa chỳng bằng cỏch lấy mćc trung bỡnh cú trỏng sỏ cąa cỏc đỏnh giỏ ng°ồi dùng hián t¿i và các mặt hàng giáng nhau này
Hình 2.2 Lọc cộng tác dựa theo người dùng
Hình 2.3 Lọc cộng tác dựa theo sản phẩm
Há sá t°¢ng quan Pearson [17] và th°ãc đo cosine [17] là nhăng th°ãc đo t°¢ng tą phá biÁn khác.
- Mćc đá hai biÁn có quan há tuyÁn tính vãi nhau đ°āc đo bằng há sá t°¢ng quan Pearson: Āÿþ �㕃�㕒�㕎ÿĀąĄ = (�㕎, Ă) = ∑ (ÿ Ą ÿ=1 �㕎,ÿ 2 ÿ̅)(ÿ �㕎 Ă,ÿ 2 ÿ̅) Ă
- Há sá cosin t°¢ng tą có thể đ°āc tính bằng cách sā dăng đái sá giăa hai vect¢ n chiÃu nh° sau: Āÿþ �㔶ąĀÿĄ�㕒 = Ā(Ă⃗ , ă ) = Ă⃗⃗⃗⃗ ă 0
Nhìn chung, kā thuÅt lác cáng tác dąa trên bá nhã có nhiÃu h¿n chÁ, chẳng h¿n nh° nú minh b¿ch và dò hiểu Tr°óc hÁt, thuÅt toỏn này thuỏc nhóm các ph°¢ng pháp dąa trên cá thể, vì vÅy mô hình dą đoán cąa nó chỉ đ°āc ỏp dăng cho mỏt ng°ồi dựng duy nhất Hỏ thỏng phải xõy dąng l¿i mụ hỡnh tÿ dă liỏu gỏc nÁu c¿n dą đoỏn cho ng°ồi dựng mói ĐiÃu này cú thể gõy ra chi phớ tớnh toỏn lón nÁu b¿n cú hàng triỏu bản ghi dă liỏu ng°ồi dựng và đái t°āng Thć hai, th°ãc đo cosin đ°āc sā dăng để đánh giá đá t°¢ng tą giăa hai vect Khi mỏt l°āng lón dă liỏu bò mất, biỏn phỏp này trỗ nờn không hiáu quả
2.1.2 Lác cáng tác dăa vào trên mô hình
Lác cáng tác dąa trên mô hình sā dăng hác máy và thuÅt toán khai thác dă liáu để tính tr°ãc và dą đoán Sau đó, chiÁn l°āc này sā dăng các mô hình này để tớnh toỏn trąc tiÁp cỏc giỏ trò xÁp h¿ng cąa ng°ồi dựng Lỏc cỏng tỏc dąa trên mô hình giảm đáng kể chi phí tính toán và yêu c¿u bá nhã trong khi vÃn đ¿t đ°āc đá chính xác t°¢ng đ°¢ng vãi các ph°¢ng pháp dąa trên bá nhã bằng cách sā dăng các ph°¢ng pháp hác máy hián đ¿i H¢n năa, khi dă liáu th°a thãt xảy ra, ph°¢ng pháp này cũng có thể khắc phăc đ°āc nhăng h¿n chÁ cąa ph°¢ng pháp dąa trên bá nhã
Mỏt sỏ kā thuÅt lỏc cỏng tỏc phỏ biÁn dąa trờn mụ hỡnh bao gòm:
S ỵ D Ā NG K Ỹ THU ắ T PHÂN C Ā M K ắ T H ỵ P V õ I H ặ G ỵ I í 1 Phân c ā m là gì?
Phân căm là mát kā thuÅt Hác máy nhằm măc đích nhóm các điểm dă liáu t°¢ng tą l¿i vãi nhau dąa trên các đặc điểm chung cąa chúng Trong bái cảnh cąa cỏc hỏ thỏng khuyÁn nghò, viỏc phõn căm cú thể là mỏt cụng că m¿nh m¿ để phõn chia ng°ồi dựng hoặc cỏc măc thành cỏc nhúm riờng biỏt cú cỏc sỗ thớch hoặc thuỏc tớnh chung Bằng cỏch này, hỏ thỏng cú thể cung cấp các đà xuất đ°āc cá nhân hóa, có măc tiêu h¢n, nâng cao trải nghiám táng thể cąa ng°ồi dựng Vớ dă: xem xột mỏt hỏ thỏng đà xuất phim Bằng cỏch sā dăng cỏc kā thuÅt phõn căm, nhăng ng°ồi dựng cú sỗ thớch hoặc kiểu xem phim t°Âng tą cú thể đ°āc xÁp vào cỏc căm Mòi căm đ¿i diỏn cho mỏt phõn khỳc c sỗ ng°ồi dựng duy nhất, chẳng h¿n nh°"Nhăng ng°ồi đam mờ phim hành đỏng" sau đú hỏ thỏng cú thể giói thiỏu phim cho ng°ồi dựng dąa trờn sỗ thớch phim cąa hỏ
2.2.2 Lý do nên sÿ dāng phân cām cho hÇ gÿi ý
Phân căm đ°āc sā dăng trong các há tháng gāi ý vì mát sá lý do chính
Nú t¿o điÃu kiỏn cho viỏc cỏ nhõn húa bằng cỏch nhúm ng°ồi dựng hoặc cỏc măc cú sỗ thớch t°Âng tą, cho phộp đ°a ra cỏc đà xuất phự hāp Nú giải quyÁt vấn đà "khỗi đỏng nguỏi" bằng cỏch liờn kÁt ng°ồi dựng hoặc măc mói vói các căm hián có, cải thián các đà xuất ban đ¿u Viác phân căm cũng tăng c°ồng tớnh đa d¿ng cąa đà xuất, đảm bảo khả năng mỗ rỏng bằng cỏch thąc hiỏn tớnh toỏn hiỏu quả hÂn và cung cấp khả năng diòn giải để hiểu lý do t¿i sao mỏt sỏ đà xuất nhất đònh đ°āc đ°a ra Nú xā lý hiỏu quả dă liỏu th°a thót và cho phép đà xuất nhóm H¢n năa, viác phân căm cho phép các há tháng đà xuất thớch ćng vói viỏc thay đỏi sỗ thớch cąa ng°ồi dựng, khiÁn nú trỗ thành mỏt cụng că quan trỏng để cung cấp cỏc đà xuất chớnh xỏc, lấy ng°ồi dựng làm trung tâm
Ngoài ra, viác phân căm là rất quan tráng để đảm bảo đá chính xác và są hài lũng cąa ng°ồi dựng Cỏc bài viÁt cąa LinkedIn nhấn m¿nh t¿m quan trỏng cąa nú trong viỏc tỡm hiểu sỗ thớch cąa con ng°ồi và nỏi dung đa d¿ng
Các thuÅt toán nh° K-mean tiÁt lá các mÃu tiÃm Án, cho phép đà xuất đ°āc cá nhân hóa Nái dung chất l°āng là điÃu tái quan tráng; phân căm mô tả są khỏc biỏt và thò hiÁu, tăng c°ồng mćc đỏ liờn quan và giảm thiểu tỡnh tr¿ng quỏ tải thụng tin Ph°Âng phỏp này cung cấp cho ng°ồi dựng mỏt ląa chỏn đ°āc tuyển chỏn phản ỏnh cỏc sỗ thớch đỏc đỏo Năng ląc kā thuÅt liờn quan đÁn viác tái °u hóa quá trình lác cáng tác, sā dăng các bián pháp t°¢ng tą phćc t¿p để đ°a ra các đà xuất tinh tÁ.
2.2.3 Cách sÿ dāng phân cām cho hÇ gÿi ý Để sā dăng phân căm trong há tháng gāi ý, b¿n bắt đ¿u bằng cách biểu diòn cỏc t°Âng tỏc giăa ng°ồi dựng và măc trong mỏt ma trÅn B¿n trớch xuất cỏc tớnh năng cú liờn quan cho ng°ồi dựng và măc, chuÁn húa dă liỏu và chỏn thuÅt toỏn phõn căm nh° k-mean Sau đú, ng°ồi dựng hoặc măc đ°āc gỏn vào cỏc căm dąa trờn są t°Âng đòng và tớnh năng và cỏc căm đ°āc gắn nhón để diòn giải Đà xuất đ°āc t¿o bằng cỏch đà xuất cỏc măc phỏ biÁn trong căm cąa ng°ồi dựng hoặc cỏc măc t°Âng tą vói nhăng măc hỏ đó t°Âng tỏc Xā lý hÅu kỳ, chẳng h¿n nh° xem xét tính đa d¿ng, tinh chỉnh các đà xuất Phân căm đáng và đánh giá liên tăc đảm bảo các đà xuất vÃn phù hāp và hiáu quả
Phản hòi cąa ng°ồi dựng là rất quan trỏng để cải thiỏn thuÅt toỏn
2.2.4 Nhāng thỏch thąc và h¿n ch¿ căa viầc phõn cām cho cỏc hầ thòng gÿi ý
Viỏc phõn căm trong hỏ thỏng gāi ý th°ồng đi kốm vói nhăng thỏch thćc và h¿n chÁ Cỏc thỏch thćc bao gòm viỏc chỏn thuÅt toỏn phõn căm và sỏ l°āng căm phự hāp, xā lý dă liỏu nhiÃu chiÃu, giải quyÁt vấn đà khỗi đỏng nguỏi cho ng°ồi dựng hoặc măc mói cũng nh° quản lý khả năng mỗ rỏng và phỏt triển căm Phõn căm giả đònh rằng ng°ồi dựng trong mỏt căm cú cỏc °u tiờn đòng nhất, điÃu này cú thể khụng phải lỳc nào cũng đỳng Đỏ nh¿y đỏi vói viỏc khỗi t¿o và dă liỏu nhiòu, cũng nh° khả năng trang bò quỏ mćc là nhăng mỏi lo ng¿i Cỏc h¿n chÁ bao gòm viỏc thiÁu cỏ nhõn húa hoàn toàn, vỡ viỏc phõn căm cung cấp khả năng cỏ nhõn húa ỗ cấp đỏ căm, giả đònh và tớnh đòng nhất cú thể khụng nắm bắt đ°āc thò hiÁu đa d¿ng trong mỏt căm Phõn căm cũng cú thể nh¿y cảm vói dă liỏu nhiòu
Ví dă: bản thân dă liáu chỉ biÁt mát l°āng thông tin h¿n chÁ và nhăng ng°ồi mà hỏ đ°a ra đà xuất Cú thể cú nhiÃu ng°ồi sā dăng tài khoản vói sỗ thớch rất khỏc nhau và nỏi dung hoặc giao dòch mua đ°āc thąc hiỏn, điÃu này có thể dÃn đÁn kÁt quả đà xuất khác nhau Nó cũng có thể không liên kÁt vãi cỏc nÃn tảng khỏc mà ng°ồi dựng cú thể truy cÅp, cho dự đú là để mua hàng hay xem nái dung
2.2.5 Lÿi ích và c¢ hái căa viÇc phân cām cho hÇ gÿi ý
Viác phân căm cho các há tháng gāi ý có thể mang l¿i nhiÃu lāi ích và c hỏi để cải thiỏn hỏ thỏng cąa b¿n và trải nghiỏm ng°ồi dựng Bằng cỏch giảm đỏ th°a thót và nhiòu cąa dă liỏu, viỏc phõn căm cú thể cải thiỏn chất l°āng và khả năng sā dăng dă liáu, cho phép các kā thuÅt hác máy tiên tiÁn h¢n
H¢n năa, viác phân căm có thể cung cấp các đà xuất chính xác và phù hāp hÂn, phự hāp vói sỗ thớch cąa ng°ồi dựng, cũng nh° cỏc đà xuất mói và đa d¿ng hÂn giỳp mỗ rỏng cỏc tựy chỏn cąa hỏ Cuỏi cựng, phõn căm cú thể tỏi °u húa tài nguyờn và hiỏu quả cąa hỏ thỏng, cho phộp xā lý dă liỏu ỗ quy mụ lón và đa chiÃu, đòng thồi cung cấp cỏc đà xuất nhanh chúng và đỏng tin cÅy cho ng°ồi dựng
K¿t lu¿n ch°¢ng 2: Ch°¢ng 2 đã trình bày giải pháp xây dąng há gāi ý dąa trên lác cáng tác kÁt hāp vãi phân căm dă liáu Phân căm là b°ãc tiÃn xā lý dă liỏu, cú thể giỳp gom nhúm theo quan điểm và sỗ thớch cąa ng°ồi dùng Tÿ đó giúp các há gāi ý làm viác hiáu quả h¢n
LĂA CHàNMễ HèNH Hặ GỵI í Sỵ DĀNG PH¯ĂNG PHÁP PHÂN
CĀM Mọ 3.1 LĂA CHàN Mễ HèNH Hặ GỵI í
Ph¿n này giải thích và ph°¢ng pháp đ°āc ląa chán nh° mát giải pháp dąa trên các thuÅt toán CF và phân căm để giải quyÁt các vấn đà Ph°¢ng pháp cąa tác giả dąa trên bán b°ãc nh° mô tả trong Hình 3.1 [5]: (1) Phân căm theo mặt hàng bằng k-means, (2) Phõn căm mồ theo ng°ồi dựng, (3) Quy trình dą đoán, và (4) Đà xuất Top-N
Trong b°ãc phân căm theo mặt hàng, ph°¢ng pháp k-means đ°āc ląa chán để phân căm các mặt hàng t°¢ng tą dąa trên đặc điểm cąa chúng và giảm thiểu są khụng t°Âng đòng giăa cỏc mặt hàng đ°āc gỏn vào cựng mỏt căm B°óc phõn căm theo ng°ồi dựng sā dăng ph°Âng phỏp phõn căm mồ fuzzy c-means trờn ma trÅn t°Âng tỏc ng°ồi dựng-mặt hàng để gỏn tÿng ng°ồi dùng vào k-căm vãi các mćc đá thành viên khác nhau Sau đó, quy trình dą đoỏn kÁt hāp mćc đỏ thành viờn cąa ng°ồi dựng vào mòi căm vói mỏt đỏ đòng nhất để tỡm ng°ồi dựng lỏng giÃng và dą đoỏn sỗ thớch cąa ng°ồi dựng đái vãi các mặt hàng ch°a xem, và cuái cùng, b°ãc đà xuất Top-N đà xuất cỏc mặt hàng cú giỏ trò đỏnh giỏ cao (mặt hàng cú đỏnh giỏ cao hÂn 3) [5]
Chi tiÁt và mụ hỡnh đ°āc ląa chỏn s¿ đ°āc giải thớch chi tiÁt hÂn ỗ cỏc ph¿n tiÁp theo sau đây.
Hình 3.1 Biểu đồ của phương phápđãlựa chọnvề hệ thống gợi ý
3.1.1 K-means clustering dăa trên item
Thuật toán phân cụm K-means là một phương pháp học không giám sát có thể xử lý hiệu quả lượng dữ liệu lớn và dữ liệu thưa bằng cách nhóm toàn bộ dữ liệu thành các nhóm K khác nhau Mô hình này sử dụng thuật toán phân cụm K-means để phân chia các mẫu thành k nhóm và thực hiện tương quan giữa các mẫu bằng cách giảm thiểu khoảng cách giữa các mẫu và tâm cụm Mục tiêu chính của giai đoạn này trong phương pháp là khám phá sự tương quan đáng kể giữa các mẫu và chi tiết của giai đoạn này được minh họa trong Bảng 1.
Mô hình đã ląa chán áp dăng mát hàm khoảng cách Euclidean trên toàn bá bá dă liáu cąa các măc để tìm phân vùng cąa chúng và gán các măc khác nhau vào k căm [5] Cho mát bá dă liáu toàn bá cąa các măc (ÿ 1 , ÿ 2 , & , ÿ Ą ) trong đú mòi măc đ°āc biểu diòn bỗi mỏt vector cú kớch th°óc d chiÃu, thuÅt toán phân căm k-means này chia n măc này thành k tÅp hāp (k ≤ n) þ {ỵ 1 , ỵ 2 , & , ỵ Ą }, trong đú �㔇ÿ là giỏ trò trung bỡnh cąa cỏc điểm dă liỏu trong ỵÿ Trong phân căm k-means, mát măc không đ°āc phép thuác và nhiÃu h¢n mát căm, xỏc đònh cỏc nhúm đỏi lÅp chộo cąa cỏc măc
Bảng 3.1 Phân cụm của các mục dựa trên hồ sơ của mục với thuật toán
Input: Hò s cąa cỏc măc và K (sỏ l°āng căm) Output: Bá căm cąa các măc
1 Chán các đặc tính cąa các măc có liên quan và cung cấp mát quá trình phân căm hiáu quả h¢n khi tính toán są t°¢ng tą giăa các măc
2 Thąc hiỏn tiÃn xā lý dă liỏu và chuÁn húa dă liỏu hoặc giỏ trò cąa cỏc đặc tính tr°ãc khi ch¿y phân căm (dă liáu đặc tính đ°āc tÿ lá để phù hāp trong mát khoảng că thể và phù hāp cho phân tích căm)
3 Xỏc đònh sỏ l°āng căm k thớch hāp
4 Chỏn mỏt tÅp hāp ban đ¿u cąa trung tõm căm ngÃu nhiờn để mòi căm cú mát tráng tâm
5 Tớnh toỏn khoảng cỏch giăa mòi măc và trỏng tõm cąa căm và Gỏn mòi măc vào căm có tráng tâm g¿n nhất
6 Tớnh toỏn l¿i vò trớ cąa K trỏng tõm cho mòi căm khi tất cả cỏc măc đó đ°āc gán vào các căm
M à T S ị NH ắ N XẫT V À Mễ HèNH
So vãi các đá đo t°¢ng tą truyÃn tháng trong CF, đá đo t°¢ng tą đã ląa chán phía trên có mát sá °u điểm Đá đo t°¢ng tą mà tác giả ląa chán không chỉ mang l¿i kÁt quả đà xuất tỏt hÂn so vói cỏc đỏ đo truyÃn thỏng, mà cũn giảm thồi gian tớnh toỏn c¿n thiÁt để tớnh đỏ t°Âng tą giăa ng°ồi dựng do tỡm kiÁm trờn cỏc ng°ồi dựng t°Âng tą trong cỏc nhúm nhò
Bên cạnh đó, hệ thống thang điểm do tác giả lựa chọn bao gồm trong sổ đo gọn cho các mặt tương tác và sổ lượng mặt tương tác mà hai người dựng đó xem để tính toán kẻ dựng tương tác nhất.
KÁt quả thąc nghiám trong Ch°¢ng 4 s¿ cho thấy hiáu suất cąa há tháng gāi ý đó ląa chỏn so vói cỏc ph°Âng phỏp gāi ý khỏc đang tòn t¿i
K¿t lu¿n ch°¢ng 3: Ch°¢ng 3 đã đà xuất ląa chánxây dąng mô hình há gāi ý sā dăng lỏc cỏng tỏc và phõn căm mồ, thuÅt toỏn phõn căm mồ FCM đ°āc sā dăng để phõn nhúm ng°ồi dựng và tớnh toỏn giỏ trò hàm thuỏc cho mòi ng°ồi dựng Thụng tin này đ°āc sā dăng để tỡm ra mćc đỏ t°Âng tą giăa cỏc ng°ồi dựng, tÿ đú cú dą bỏo/dą đoỏn sỗ thớch cąa ng°ồi dựng Ph¿n thąc nghiỏm đ°āc trỡnh bày ỗ ch°Âng 4.
CH¯¡NG 4 CÀI ĐắT VÀ THĂCNGHIặM TRấN Mễ HèNH LĂA CHàN 4.1 TắP DĀ LIặU VÀ THIắT LắP MễI TR¯ọNG
Tỏc giả ląa chỏn mỏt ph°Âng phỏp sỏng t¿o và hiỏu quả để tỡm ng°ồi dùng láng giÃng bằng cách sā dăng K-means và fuzzy C-means Để đánh giá hiáu suất cąa thuÅt toán, tác giả đã sā dăng các bá dă liáu MovieLens trong thí nghiám (ml-20M) Bá dă liáu MovieLens đ°āc t¿o ra tÿ dă liỏu thu thÅp tÿ trang web khuyÁn nghò phim, bao gòm hÂn 25 triỏu đỏnh giỏ cho ~27.000 bỏ phim tÿ hÂn 138.000 ng°ồi dựng Cỏc đỏnh giỏ đ°āc thang điểm tÿ 1 (phim kộm) đÁn 5 (tuyỏt vồi) Bỏ dă liỏu MovieLens rất th°a và mćc th°a thãt cąa ma trÅn này là 95,8% và đ°āc tính nh° sau: Āā�㕎ÿĀÿāĆ = 1 2āổÿā Āố ý±ÿÿā đáÿ/ āÿá /ÿệÿ ýó ýÿ�㕎 ÿā±ờÿ þùÿā āổÿā Āố ÿā±ờÿ þùÿā ∗ āổÿā Āố þÿý
Các bá dă liáu đ°āc chia ngÃu nhiên thành mát tÅp huấn luyán, bao gòm 80395% sỏ l¿n đỏnh giỏ cho mòi ng°ồi dựng, và mỏt tÅp kiểm thā (cỏc l¿n đánh giá còn l¿i) Bắt đ¿u tÿ tÅp huấn luyán vãi các thuÅt toán đà xuất dą đoán xÁp h¿ng ch°a biÁt, tÅp kiểm thā đ°āc sā dăng để đánh giá đá chính xác cąa các dą đoán Bá dă liáu MovieLens bá dă liáu lãn và kiểm tra đ°āc sā dăng th°ồng xuyờn trong l*nh vąc hỏ thỏng gāi ý để kiểm thā cỏc thuÅt toỏn gāi ý Do đó, có thể so sánh hiáu suất và đá chính xác dą đoán cąa thuÅt toán vãi mát sá thuÅt toán tiên tiÁn khác
ThuÅt toán đ°āc triển khai bằng Python và ch¿y trên mát máy vãi 4 GB RAM và CPU 3.1 GHz.
TH Ă C NGHI ặM VÀ ĐÁNH GIÁ 1 T ò ng quan v Á t ¿ p d ā li Ç u th ă c nghi Ç m
Các tác giả đã sā dăng bá dă liáu mÃu Movielens để thąc hián mô hình đã ląa chán Bá dă liáu cho các bài toán xây dąng há t° vấn đ°āc cung cấp bỗi nhúm nghiờn cću này Thụng tin và xÁp h¿ng cąa ng°ồi dựng cho phim đ°āc l°u tră trong bỏ dă liỏu này Ngoài ra, thụng tin và ng°ồi dựng và phim đ°āc cung cấp ĐÁn thồi điểm này, Movielens đó phỏt triển tỏng cỏng sỏu bỏ dă liỏu mÃu, bao gòm:
Bộ dữ liệu MovieLens 100k, còn được gọi là "ml-100k", là một bộ dữ liệu công khai được sử dụng rộng rãi trong nghiên cứu về hệ thống đề xuất Bộ dữ liệu này bao gồm 100.000 đánh giá phim từ 943 người dùng đối với 1.682 bộ phim Các bộ phim trong bộ dữ liệu này được phát hành trước tháng 4 năm 1998.
Bỏ dă liỏu MovieLens 1M (ml-1M) là mỏt nguòn dă liỏu rỏng lón và phong phú h¢n so vãi bá dă liáu MovieLens 100k, đem l¿i cái nhìn sâu ráng và hành vi đỏnh giỏ phim cąa ng°ồi dựng Bỏ này chća 1.000.209 đỏnh giỏ phim tÿ 6.040 ng°ồi dựng, đỏi vói 3.900 bỏ phim đ°āc phỏt hành tr°óc thỏng 2 năm 2003
Dữ liệu đánh giá phim MovieLens 10M (ml-10M) là một đại diện đáng kể với quy mô mở rộng so với các phiên bản trước của dữ liệu MovieLens Với 10.681 bộ phim và 10.000.054 đánh giá từ 71.567 người dùng, dữ liệu này cung cấp một nguồn dữ liệu dồi dào cho nghiên cứu và phát triển trong lĩnh vực đề xuất, học máy và khám phá dữ liệu Dữ liệu được phát hành vào tháng 2 năm 2015.
2003, ml-10M không chỉ chća l°āng lãn đánh giá phim mà còn đi kèm vãi thụng tin chi tiÁt và ng°ồi dựng và phim, bao gòm nh°ng khụng giói h¿n ỗ đỏ tuỏi, giói tớnh, nghà nghiỏp cąa ng°ồi dựng và thể lo¿i, tiờu đà cąa phim
Bá dă liáu MovieLens 20M (ml-20M) là mát trong nhăng tÅp dă liáu lãn và phćc t¿p nhất đ°āc sā dăng trong nghiên cću há tháng gāi ý, vãi 20.000.263 đỏnh giỏ tÿ 138.493 ng°ồi dựng cho 27.278 bỏ phim, đ°āc thu thÅp và phát hành vào tháng 10 năm 2016 Są phong phú cąa bá dă liáu này khụng chỉ thể hiỏn qua sỏ l°āng lón ng°ồi dựng và đỏnh giỏ, mà cũn qua są đa d¿ng cąa cỏc bỏ phim tÿ nhiÃu thể lo¿i và thồi kỳ khỏc nhau
Phiên bản MovieLens 25M (ml-25M) mới nhất mở rộng quy mô và độ phức tạp so với các phiên bản trước, cung cấp một nguồn dữ liệu phong phú cho các nhà nghiên cứu và phát triển trong lĩnh vực học máy và hệ thống gợi ý Với 25.000.095 đánh giá từ 162.541 người dùng cho 62.423 bộ phim, được phát hành vào tháng 10 năm 2019, ml-25M đại diện cho một trong những tập dữ liệu công khai lớn nhất và chi tiết nhất để phân tích đánh giá phim.
Bá dă liáu nhân t¿o MovieLens 1B (ml-1B) là mát sáng kiÁn đác đáo nhằm mụ phòng quy mụ và đỏ phćc t¿p cąa cỏc hỏ thỏng gāi ý vói dă liỏu cąc kỳ lón, đ°āc t¿o ra tÿ bỏ dă liỏu gỏc ml-20M Bỏ dă liỏu ml-1B bao gòm khoảng 1.223.962.043 xÁp h¿ng cho dă liáu huấn luyán và 12.709.557 xÁp h¿ng cho dă liỏu kiểm tra, t¿o ra mỏt nguòn dă liỏu khỏng lò để thā nghiỏm và phát triển các thuÅt toán gāi ý
Dą án Movielens không chỉ cung cấp dă liáu xÁp h¿ng phim mà còn cung cấp thụng tin nhõn khÁu hỏc cąa ng°ồi dựng và thụng tin mụ tả và phim, chẳng h¿n nh° thể lo¿i và thẻ mà mòi phim đ°āc gỏn
Vớ dă, bỏ dă liỏu MovieLens-1M bao gòm khoảng 1 triỏu bỏ (ng°ồi dựng, phim và đỏnh giỏ) tÿ khoảng 3900 bỏ phim và 6040 ng°ồi dựng.
D°ói đõy là m°ồi dũng đ¿u tiờn cąa đỏnh giỏ dataframe Dă liỏu đỏnh giỏ bao gòm mó ng°ồi dựng UserID, mó phim MovieID và đỏnh giỏ thang điểm 5
Hình 4.1 Dữ liệu đánh giá các bộ phim
Trong biểu đò d°ói đõy, chỳng ta thấy rằng điểm 4 nhÅn đ°āc nhiÃu đánh giá nhất, trong khi điểm 1 và 2 nhÅn đ°āc nhiÃu đánh giá nhất ĐiÃu này cú thể đ°āc giải thớch bỗi vỡ ng°ồi xem th°ồng đỏnh giỏ mỏt bỏ phim khi hỏ thąc są thích nó, nh°ng khi há không thích nó, há s¿ không đánh giá nó nhiÃu
Hình 4 2 Biểu đồ phân phối điểm đánh giá
Chỳng ta s¿ xem xột sỏ l°āng phim mà mòi ng°ồi dựng đỏnh giỏ và sỏ l°āng đỏnh giỏ mà mòi phim nhÅn đ°āc sau đõy:
Hình 4 3 Số lượng phim mà mỗi người dùng xem và đánh giá
Mó sỏ 4169 cąa ng°ồi dựng đó đỏnh giỏ 2314 bỏ phim, vói 20 là sỏ l°āng đỏnh giỏ ớt nhất mà ng°ồi dựng đó đỏnh giỏ Cú thể thấy rằng cỏc tỏc giả cąa bỏ dă liỏu này đó lỏc đi nhăng ng°ồi dựng cú đỏnh giỏ thấp Vỡ ph¿n lón ng°ồi dựng khụng đ°a ra đỏnh giỏ, lý t°ỗng này khú đ¿t đ°āc trong thąc tÁ Khi mòi ng°ồi dựng đỏnh giỏ nhiÃu bỏ phim, gāi ý trỗ nờn chớnh xỏc hÂn
Trong l*nh vąc bá phim, bá phim có mã sá 2858 và nhÅn đ°āc 3428 đánh giá, mặc dù nhiÃu bá phim chỉ có mát đánh giá.
Hình 4 4 Số lượng đánh giá của mỗi bộ phim
Dā liầu ng°ồi dựng:
Hình 4 5 Số lượng dữ liệu người dùng
Do đú, cú 6040 ng°ồi dựng vói giói tớnh, tuỏi, nghà nghiỏp và Zip-code chớnh xỏc Do đú s¿ khụng sā dăng thụng tin Zip-code vỡ cú quỏ nhiÃu giỏ trò khác nhau
Xem xét mát cách nhanh chóng phân bá thông tin và giãi tính, tuái và nghà nghiáp
Hình 4 6 Thông tin về giới tính của người dùng
KÁt quả thu đ°āc gòm1709 ng°ồi dựng là nă và 4331 ng°ồi dựng là nam Đỏ tuỏi phỏ biÁn nhất cąa ng°ồi dựng là tÿ 18 đÁn 34 tuỏi; nhúm nhò nhất là d°ãi 18 tuái
Hình 4 7 Thông tin về tuổi của người dùng
Dă liáu liên quan đÁn nghà nghiáp đ°āc mã hóa thành các sá tÿ 0320:
Hình 4 8 Dữ liệu về nghề nghiệp của người dùng
Bất ngồ thay, cỏc b¿n sinh viờn xuất hiỏn nhiÃu nhất trong bỏ dă liỏu trong khi các bác nông dân xuất hián ít nhất
Có 3883 bá phim có thông tin chi tiÁt và tiêu đà và thể lo¿i.
Hình 4 9 Số lượng bộ phim
Hình 4 10 Dữ liệu về các bộ phim
Do đó, tiêu đà cũng nêu năm bá phim đã đ°āc sản xuất Ngoài ra, thông tin và năm sản xuất có thể hău ích cho viác xây dąng mô hình Ngoài ra, mát bá phim có thể thuác mát sá thể lo¿i khác nhau.
4.2.2 Cài đ¿t thăc nghiÇm và đánh giá k¿t quÁ
Bá dă liáu Movies 25M đ°āc sā dăng để huấn luyán và đánh giá kÁt quả dą đoán cąa mô hình Tuy nhiên, để có thêm thông tin và các bá phim phăc vă cho viỏc huấn luyỏn, chỳng ta s¿ sā dăng thờm dă liỏu đ°āc cung cấp bỗi OMDB API để trích xuất dă liáu và IMDB Sā dăng API OMDb, chúng ta có thể trích xuất thông tin sau:
- Title: Tiêu đà phim/ch°¢ng trình truyÃn hình
- Genre: Danh sách các thể lo¿i cąa phim
- Writer: Danh sỏch nhà biờn kòch.
- Actors: Tờn diòn viờn chớnh.
- Language: Ngôn ngă xuất bản
- Awards: Giải th°ỗng đ°āc đà cā và nhÅn đ°āc.
- imdbRating: Tÿ lỏ phim dąa trờn ng°ồi dựng IMDB.
- imdbVotes: Sá l°āt bình chán mà bá phim nhÅn đ°āc
- imdbID: ID cąa phim trờn c sỗ dă liỏu IMDB
Măc đích cąa chúng ta là cung cấp thêm thông tin cho các mô hình cąa mình vãi hy váng đ¿t đ°āc kÁt quả phân căm tát h¢n
Mụ tả cỏch thćc cài đặt và chuÁn bò kòch bản khỗi đỏng ch°Âng trỡnh cho tÿng tr°ồng hāp hoặc bài toỏn că thể
Hình 4 11 Thông tin trích xuất từ OMDB API