Mộtphương pháp điển hình để cung cấp phản hồi là ở dạng xếp hạng, trong đóngười dùng chọn các giá trị bằng số từ một hệ thống đánh giá cụ thể ví dụ:hệ thống xếp hạng năm sao chỉ rõ lượt
Trang 1Chương 1 Giới thiệu về hệ thống gợi ý
1.1 Giới thiệu
Tầm quan trọng ngày càng tăng của Web như một phương tiện cho các giaodịch điện tử và kinh doanh đã đóng vai trò là động lực cho sự phát triển củacông nghệ hệ thống gợi ý Một chất xúc tác quan trọng trong vấn đề này là
sự dễ dàng mà Web cho phép người dùng đưa ra phản hồi về những điều họthích hoặc không thích Ví dụ: hãy xem xét kịch bản của một nhà cung cấpnội dung như Netflix Trong những trường hợp như vậy, người dùng có thể
dễ dàng cung cấp phản hồi chỉ bằng một cú nhấp chuột đơn giản Mộtphương pháp điển hình để cung cấp phản hồi là ở dạng xếp hạng, trong đóngười dùng chọn các giá trị bằng số từ một hệ thống đánh giá cụ thể (ví dụ:
hệ thống xếp hạng năm sao) chỉ rõ lượt thích và lượt không thích của họ đốivới các mục khác nhau
Các dạng phản hồi khác không hoàn toàn rõ ràng nhưng thậm chí còn dễthu thập hơn trong mô hình lấy Web làm trung tâm Ví dụ: hành động đơngiản là người dùng mua hoặc duyệt một mặt hàng có thể được xem là sựchứng thực cho mặt hàng đó Những hình thức phản hồi như vậy thườngđược sử dụng bởi những người bán trực tuyến như Amazon.com và việcthu thập loại dữ liệu này hoàn toàn dễ dàng xét theo yêu cầu công việc củakhách hàng Ý tưởng cơ bản của hệ thống tư vấn là sử dụng các nguồn dữliệu khác nhau này để suy ra sở thích của khách hàng Thực thể được cungcấp đề xuất được gọi là người dùng và sản phẩm được đề xuất cũng đượcgọi là một mặt hàng Do đó, phân tích đề xuất thường dựa trên sự tương táctrước đó giữa người dùng và sản phẩm, bởi vì sở thích và xu hướng trongquá khứ thường là những chỉ báo tốt về các lựa chọn trong tương lai Mộtngoại lệ đáng chú ý là trường hợp của hệ thống tư vấn dựa trên kiến thức,trong đó các khuyến nghị được đề xuất trên cơ sở các yêu cầu do ngườidùng chỉ định chứ không phải dựa trên lịch sử quá khứ của người dùng
Vì vậy, nguyên tắc cơ bản làm nền tảng cho hoạt động của các thuật toán
đề xuất là gì? Nguyên tắc cơ bản của khuyến nghị là tồn tại sự phụ thuộcđáng kể giữa hoạt động lấy người dùng và vật phẩm làm trung tâm Ví dụ:người dùng quan tâm đến phim tài liệu lịch sử có nhiều khả năng quan tâmđến phim tài liệu lịch sử hoặc chương trình giáo dục khác hơn là phim hànhđộng Trong nhiều trường hợp, các danh mục mặt hàng khác nhau có thểcho thấy mối tương quan đáng kể, mối tương quan này có thể được tậndụng để đưa ra đề xuất chính xác hơn Ngoài ra, các phần phụ thuộc có thểxuất hiện ở mức độ chi tiết hơn của các mục riêng lẻ thay vì các danh mục.Những sự phụ thuộc này có thể được tìm hiểu theo cách dựa trên dữ liệu từ
ma trận xếp hạng và mô hình kết quả được sử dụng để đưa ra dự đoán chongười dùng mục tiêu Số lượng mục được xếp hạng có sẵn cho người dùngcàng lớn thì càng dễ dàng đưa ra dự đoán chắc chắn về hành vi trong tươnglai của người dùng Nhiều mô hình học tập khác nhau có thể được sử dụng
để hoàn thành nhiệm vụ này Ví dụ: hành vi mua hoặc xếp hạng chung củanhiều người dùng khác nhau có thể được tận dụng để tạo nhóm gồm những
Trang 2[Type here]
người dùng tương tự quan tâm đến các sản phẩm tương tự Sở thích và hànhđộng của các nhóm này có thể được tận dụng để đưa ra khuyến nghị chotừng thành viên của các nhóm này
Mô tả nói trên dựa trên một nhóm thuật toán đề xuất rất đơn giản, đượcgọi là mô hình vùng lân cận Họ này thuộc về một lớp mô hình rộng hơn,được gọi là lọc cộng tác Thuật ngữ "lọc cộng tác" đề cập đến việc sử dụngxếp hạng từ nhiều người dùng theo cách cộng tác để dự đoán xếp hạng bịthiếu Trong thực tế, hệ thống gợi ý có thể phức tạp hơn và giàu dữ liệuhơn, với nhiều loại dữ liệu phụ trợ khác nhau Ví dụ: trong các hệ thống đềxuất dựa trên nội dung, nội dung đóng vai trò chính trong quy trình đề xuất,trong đó xếp hạng của người dùng và mô tả thuộc tính của các mặt hàngđược tận dụng để đưa ra dự đoán Ý tưởng cơ bản là sở thích của ngườidùng có thể được mô hình hóa dựa trên các thuộc tính (hoặc thuộc tính) củacác mục mà họ đã xếp hạng hoặc truy cập trước đây Một khuôn khổ khác
là khuôn khổ của các hệ thống dựa trên tri thức, trong đó người dùng xácđịnh mối quan tâm của họ một cách tương tác và đặc tả người dùng đượckết hợp với kiến thức miền để đưa ra khuyến nghị Trong các mô hình nângcao, dữ liệu theo ngữ cảnh, chẳng hạn như thông tin thời gian, kiến thứcbên ngoài, thông tin vị trí, thông tin xã hội hoặc thông tin mạng, có thểđược sử dụng
Cuốn sách này sẽ nghiên cứu tất cả các loại hệ thống cơ bản, bao gồmcác hệ thống cộng tác, dựa trên nội dung và dựa trên tri thức Chúng tacũng sẽ thảo luận về cả mô hình cơ bản và mô hình nâng cao của hệ thốnggợi ý trong các lĩnh vực khác nhau Chúng tôi sẽ nghiên cứu các khía cạnhkhác nhau về tính mạnh mẽ của hệ thống gợi ý, chẳng hạn như mô hình tấncông và việc xây dựng các mô hình đáng tin cậy Ngoài ra, nhiều mô hìnhđánh giá và lai ghép cho các hệ tư vấn sẽ được nghiên cứu kỹ lưỡng Trongchương này, mục tiêu là cung cấp một cái nhìn tổng quan về tính đa dạngcủa công việc trong lĩnh vực hệ thống gợi ý, đồng thời liên hệ các chủ đềkhác nhau với các chương riêng lẻ của cuốn sách này
Chương này được tổ chức như sau Phần 1.2 thảo luận về các mục tiêuchính của hệ thống tư vấn Phần 1.3 sẽ giới thiệu các mô hình cơ bản vàphương pháp đánh giá được sử dụng trong các hệ tư vấn Việc sử dụng hệthống gợi ý trong các miền dữ liệu khác nhau được thảo luận trong phần1.4 Các mô hình nâng cao cho hệ thống tư vấn được thảo luận trong phần1.5 Phần 1.6 thảo luận về kết luận và tóm tắt
1.2 Mục tiêu của hệ thống gợi ý
Trước khi thảo luận về mục tiêu của hệ thống gợi ý, chúng tôi giới thiệunhững cách khác nhau để hình thành vấn đề gợi ý Hai mô hình chính nhưsau:
1 Phiên bản dự đoán của vấn đề: Cách tiếp cận đầu tiên là dự đoán giá trịxếp hạng cho sự kết hợp mục người dùng Giả định rằng dữ liệu huấnluyện có sẵn, cho biết sở thích của người dùng đối với các mục Đốivới m người dùng và n mục, điều này tương ứng với ma trận mxnkhông đầy đủ, trong đó các giá trị được chỉ định (hoặc được quan sát)được sử dụng để huấn luyện Các giá trị còn thiếu (hoặc không đượcquan sát) được dự đoán bằng mô hình đào tạo này Vấn đề này còn
Trang 3được gọi là vấn đề hoàn thành ma trận vì chúng ta có một ma trận giátrị được chỉ định không đầy đủ và các giá trị còn lại được dự đoán bởithuật toán học.
2 Phiên bản xếp hạng của bài toán: Trong thực tế, không cần thiết phải
dự đoán đánh giá của người dùng đối với các mặt hàng cụ thể để đưa
ra khuyến nghị cho người dùng Thay vào đó, người bán có thể muốngiới thiệu các mặt hàng top-k cho một người dùng cụ thể hoặc xácđịnh những người dùng top-k để nhắm mục tiêu cho một mặt hàng cụthể Việc xác định các mục top-k phổ biến hơn việc xác định ngườidùng top-k, mặc dù các phương pháp trong hai trường hợp hoàn toàngiống nhau Xuyên suốt cuốn sách này, chúng ta sẽ chỉ thảo luận vềviệc xác định các mục top-k, bởi vì đây là cách thiết lập phổ biến hơn.Bài toán này còn được gọi là bài toán đề xuất top-k và nó là công thứcxếp hạng của bài toán đề xuất
Trong trường hợp thứ hai, giá trị tuyệt đối của xếp hạng dự đoán là khôngquan trọng Công thức đầu tiên tổng quát hơn, bởi vì giải pháp cho trườnghợp thứ hai có thể được rút ra bằng cách giải công thức đầu tiên cho các kếthợp mục người dùng khác nhau và sau đó xếp hạng các dự đoán Tuynhiên, trong nhiều trường hợp, việc thiết kế các phương pháp giải trực tiếpphiên bản xếp hạng của bài toán sẽ dễ dàng và tự nhiên hơn Nhữngphương pháp như vậy sẽ được thảo luận ở Chương 13
Tăng doanh số bán sản phẩm là mục tiêu chính của hệ thống giới thiệu.Suy cho cùng, hệ thống gợi ý được người bán sử dụng để tăng lợi nhuậncủa họ Bằng cách đề xuất các mục được lựa chọn cẩn thận cho người dùng,
hệ thống đề xuất sẽ thu hút sự chú ý của người dùng về các mục có liênquan Điều này làm tăng khối lượng bán hàng và lợi nhuận cho người bán.Mặc dù mục tiêu chính của hệ thống đề xuất là tăng doanh thu cho ngườibán, nhưng mục tiêu này thường đạt được theo những cách ít rõ ràng hơn sovới cái nhìn đầu tiên Để đạt được mục tiêu rộng hơn là tăng doanh thu lấydoanh nghiệp làm trung tâm, các mục tiêu hoạt động và kỹ thuật chung của
hệ thống gợi ý như sau:
1 Mức độ liên quan: Mục tiêu hoạt động rõ ràng nhất của hệ thống gợi ý
là đề xuất các mục có liên quan đến người dùng hiện tại Người dùng
có nhiều khả năng tiêu thụ những mặt hàng mà họ thấy thú vị hơn.Mặc dù mức độ liên quan là mục tiêu hoạt động chính của hệ thống tưvấn nhưng nếu đứng riêng lẻ thì nó vẫn chưa đủ Do đó, chúng tôi thảoluận về một số mục tiêu phụ dưới đây, không quan trọng bằng mức độphù hợp nhưng vẫn đủ quan trọng để có tác động đáng kể
2 Tính mới: Hệ thống gợi ý thực sự hữu ích khi mặt hàng được đề xuất
là thứ mà người dùng chưa từng thấy trước đây Ví dụ: những bộ phimnổi tiếng thuộc thể loại ưa thích sẽ hiếm khi mới lạ đối với ngườidùng Khuyến nghị lặp đi lặp lại các mặt hàng phổ biến cũng có thểdẫn đến giảm tính đa dạng trong doanh số bán hàng [203]
3 Tình cờ: Một khái niệm liên quan là tình cờ [229], trong đó các mụcđược đề xuất hơi bất ngờ, và do đó có một yếu tố khiêm tốn của khámphá may mắn, trái ngược với các khuyến nghị hiển nhiên Serendipity
Trang 4[Type here]
khác với tính mới ở chỗ các đề xuất thực sự gây ngạc nhiên cho ngườidùng, thay vì chỉ đơn giản là điều họ chưa biết trước đây Thôngthường, có thể xảy ra trường hợp một người dùng cụ thể chỉ tiêu thụcác mặt hàng thuộc một loại cụ thể, mặc dù mối quan tâm tiềm ẩn đốivới các mặt hàng thuộc loại khác có thể tồn tại mà bản thân ngườidùng có thể thấy ngạc nhiên Không giống như sự mới lạ, các phươngpháp tình cờ tập trung vào việc khám phá những đề xuất như vậy
Ví dụ: nếu một nhà hàng Ấn Độ mới mở ở khu vực lân cận thì đề xuất
về nhà hàng đó cho người dùng thường ăn đồ ăn Ấn Độ là mới lạnhưng không nhất thiết phải là ngẫu nhiên Mặt khác, khi cùng mộtngười dùng được giới thiệu món ăn Ethiopia và người dùng không biếtrằng món ăn đó có thể hấp dẫn cô ấy, thì lời đề xuất đó là tình cờ.Serendipity có tác dụng phụ có lợi là tăng tính đa dạng trong bán hànghoặc bắt đầu một xu hướng mới được người dùng quan tâm Việc tăngcường khả năng tình cờ thường mang lại lợi ích lâu dài và chiến lượccho người bán vì khả năng khám phá các lĩnh vực quan tâm hoàn toànmới Mặt khác, các thuật toán cung cấp đề xuất ngẫu nhiên thường có
xu hướng đề xuất các mục không liên quan Trong nhiều trường hợp,lợi ích chiến lược và lâu dài của các phương pháp tình cờ sẽ lớn hơnnhững bất lợi ngắn hạn này
4 Tăng tính đa dạng của đề xuất: Hệ thống đề xuất thường đề xuất danhsách các mục hàng đầu Khi tất cả các mặt hàng được đề xuất này rấtgiống nhau, sẽ làm tăng nguy cơ người dùng có thể không thích bất kỳmặt hàng nào trong số này Mặt khác, khi danh sách được đề xuất chứacác mục thuộc nhiều loại khác nhau, có nhiều khả năng người dùng sẽthích ít nhất một trong các mục này Sự đa dạng có lợi ích là đảm bảorằng người dùng không cảm thấy nhàm chán khi được đề xuất lặp đilặp lại các mặt hàng tương tự
Bên cạnh những mục tiêu cụ thể này, một số mục tiêu mềm cũng được đápứng bởi quy trình đề xuất cả từ góc độ của người dùng và người bán Từquan điểm của người dùng, các đề xuất có thể giúp cải thiện sự hài lòngchung của người dùng đối với trang Web Ví dụ: người dùng liên tục nhậnđược các đề xuất có liên quan từ Amazon.com sẽ hài lòng hơn với trảinghiệm này và có nhiều khả năng sử dụng lại trang web hơn Điều này cóthể cải thiện lòng trung thành của người dùng và tăng thêm doanh số bánhàng tại trang web Ở phía người bán, quy trình đề xuất có thể cung cấpthông tin chi tiết về nhu cầu của người dùng và giúp tùy chỉnh trải nghiệmngười dùng hơn nữa Cuối cùng, việc cung cấp cho người dùng lời giảithích tại sao một mục cụ thể được đề xuất thường hữu ích Ví dụ: trongtrường hợp của Netflix, các đề xuất được cung cấp cùng với các bộ phim đãxem trước đó Như chúng ta sẽ thấy sau, một số thuật toán đề xuất phù hợphơn để đưa ra lời giải thích so với các thuật toán khác
Có rất nhiều loại sản phẩm được các hệ thống như vậy khuyên dùng.Một số hệ thống giới thiệu, chẳng hạn như Facebook, không trực tiếp giớithiệu sản phẩm Thay vào đó, họ có thể đề xuất các kết nối xã hội mang lạilợi ích gián tiếp cho trang web bằng cách tăng khả năng sử dụng và lợi
Trang 5nhuận quảng cáo Để hiểu bản chất của những mục tiêu này, chúng ta sẽthảo luận về một số ví dụ phổ biến về hệ thống tư vấn trong lịch sử và hiệntại Những ví dụ này cũng sẽ thể hiện sự đa dạng rộng rãi của các hệ thốnggợi ý được xây dựng dưới dạng nguyên mẫu nghiên cứu hoặc hiện có dướidạng hệ thống thương mại trong các bối cảnh vấn đề khác nhau.
Hệ thống đề xuất GroupLens
GroupLens là hệ thống đề xuất tiên phong, được xây dựng như một nguyênmẫu nghiên cứu để đề xuất tin tức Usenet Hệ thống thu thập xếp hạng từđộc giả Usenet và sử dụng chúng để dự đoán xem những độc giả khác cóthích một bài báo hay không trước khi họ đọc nó
Một số thuật toán lọc cộng tác tự động sớm nhất đã được phát triển trongcài đặt GroupLens l Những ý tưởng chung do nhóm này phát triển cũngđược mở rộng sang các sản phẩm khác như sách và phim Các hệ thống gợi
ý tương ứng được gọi lần lượt là BookLens và MovieLens Bên cạnh nhữngđóng góp tiên phong cho nghiên cứu lọc cộng tác, nhóm nghiên cứuGroupLens còn nổi tiếng với việc phát hành một số bộ dữ liệu trong nhữngnăm đầu của lĩnh vực này, khi không dễ dàng có được các bộ dữ liệu để đođiểm chuẩn Các ví dụ nổi bật bao gồm ba bộ dữ liệu [688] từ hệ thống đềxuất MovieLens Các bộ dữ liệu này có kích thước tăng dần và chúng lầnlượt chứa 10 5 10 6 và 10 7 xếp hạng
Hệ thống gợi ý của Amazon.com
Amazon.com [698] cũng là một trong những công ty tiên phong trong hệthống gợi ý, đặc biệt là trong môi trường thương mại Trong những nămđầu, đây là một trong số ít các nhà bán lẻ có tầm nhìn xa để nhận ra tínhhữu ích của công nghệ này Ban đầu được thành lập như một nhà bán lẻsách điện tử, doanh nghiệp này đã mở rộng sang hầu hết mọi dạng sảnphẩm Do đó, Amazon.com hiện nay bán hầu như tất cả các loại sản phẩmnhư sách, đĩa CD, phần mềm, đồ điện tử, v.v Các đề xuất trênAmazon.com được cung cấp trên cơ sở xếp hạng, hành vi mua và hành viduyệt web được cung cấp rõ ràng Xếp hạng trên Amazon.com được chỉđịnh theo thang điểm 5, với xếp hạng thấp nhất là I sao và xếp hạng caonhất là 5 sao Dữ liệu mua và duyệt web cụ thể của khách hàng có thể đượcthu thập dễ dàng khi người dùng đăng nhập bằng cơ chế xác thực tài khoảnđược Amazon hỗ trợ Các khuyến nghị cũng được cung cấp cho người dùngtrên trang Web chính của trang web, bất cứ khi nào họ đăng nhập vào tàikhoản của mình Trong nhiều trường hợp, lời giải thích cho các khuyếnnghị được cung cấp Ví dụ: mối quan hệ của một mặt hàng được đề xuấtvới các mặt hàng đã mua trước đó có thể được đưa vào giao diện hệ thốnggợi ý
Hành vi mua hàng hoặc duyệt web của người dùng có thể được xemdưới dạng một loại xếp hạng ngầm, trái ngược với xếp hạng rõ ràng dongười dùng chỉ định Nhiều hệ thống thương mại cho phép linh hoạt đưa racác khuyến nghị trên cơ sở phản hồi rõ ràng và ngầm Trên thực tế, một số
mô hình đã được thiết kế (xem phần 3.6.4.6 của Chương 3) để cùng giảithích các phản hồi rõ ràng và ngầm trong quá trình đề xuất
Trang 6[Type here]
Hệ thống đề xuất phim Netflix
Netflix được thành lập như một công ty cho thuê đĩa video kỹ thuật số(DVD) đặt hàng qua thư [690] các bộ phim và chương trình truyền hình,công ty này cuối cùng đã được mở rộng sang phân phối trực tuyến Ở thờiđiểm hiện tại, hoạt động kinh doanh chính của Netflix là cung cấp dịch vụphát trực tuyến phim và chương trình truyền hình trên cơ sở đăng ký.Netflix cung cấp cho người dùng khả năng đánh giá phim và chương trìnhtruyền hình theo thang điểm 5 Hơn nữa, các hành động của người dùngtrong việc xem các mục khác nhau cũng được Netflix lưu trữ Những xếphạng và hành động này sau đó được Netflix sử dụng để đưa ra đề xuất.Netflix thực hiện rất tốt việc đưa ra lời giải thích cho các mục được đề xuất
Nó cung cấp rõ ràng các ví dụ về đề xuất dựa trên các mục cụ thể mà ngườidùng đã xem Những thông tin như vậy cung cấp cho người dùng nhữngthông tin bổ sung thông tin để quyết định xem có nên xem một bộ phim cụthể hay không Việc đưa ra những lời giải thích có ý nghĩa là điều quantrọng để cung cấp cho người dùng hiểu lý do tại sao họ có thể thấy một bộphim cụ thể thú vị Cách tiếp cận này cũng giúp người dùng có nhiều khảnăng thực hiện theo đề xuất hơn và thực sự cải thiện trải nghiệm ngườidùng Cách tiếp cận thú vị này cũng có thể giúp cải thiện lòng trung thành
và giữ chân khách hàng
Netflix đã đóng góp đáng kể cho cộng đồng nghiên cứu nhờ Netflia;Cuộc thi có thưởng Cuộc thi này được thiết kế để cung cấp một diễn đàncạnh tranh giữa các thuật toán lọc cộng tác khác nhau do các thí sinh đónggóp Một tập dữ liệu về xếp hạng phim Netflix đã được phát hành và nhiệm
vụ là dự đoán xếp hạng của các kết hợp mục cụ thể của người dùng Vớimục đích này, Netflix đã cung cấp cả tập dữ liệu huấn luyện và tập dữ liệu
đủ điều kiện Tập dữ liệu huấn luyện chứa 100.480.507 xếp hạng mà480.189 người dùng đưa ra cho 17.770 phim Tập huấn luyện bao gồm mộttập thăm dò nhỏ hơn chứa 1.408.395 xếp hạng Tập thăm dò dựa trên cácxếp hạng gần đây hơn so với dữ liệu huấn luyện còn lại và nó tương tự vềmặt thống kê với phần của tập dữ liệu có xếp hạng ẩn Phần này của tập dữliệu được gọi là tập dữ liệu đủ điều kiện và nó chứa hơn 2.817.131 bộ ba códạng (Người dùng, Phim, Ngày xếp hạng) Lưu ý rằng bộ ba không chứaxếp hạng thực tế mà chỉ ban giám khảo mới biết Người dùng cần dự đoánxếp hạng trong tập dữ liệu đủ điều kiện dựa trên các mô hình của dữ liệuhuấn luyện Dự đoán này được ban giám khảo chấm điểm (hoặc một hệthống tự động tương đương) và người dùng được thông báo (liên tục) về kếtquả dự đoán chỉ trên một nửa dữ liệu đủ điều kiện được đặt trên bảng xếphạng Một nửa tập dữ liệu đủ điều kiện này được gọi là tập câu hỏi Nửacòn lại được dùng làm tập kiểm tra để tính điểm cuối cùng và xác địnhngười đoạt giải Điểm số của nửa còn lại không bao giờ được tiết lộ chongười dùng cho đến phút cuối cùng Hơn nữa, các thí sinh cũng không đượctiết lộ bộ ba nào trong phần thi vòng loại thuộc bộ câu đố và bộ ba nàothuộc bộ bài kiểm tra Lý do cho sự sắp xếp bất thường này trên tập kiểmtra là để đảm bảo rằng người dùng không tận dụng điểm số trên bảng xếphạng để làm cho thuật toán của họ phù hợp quá mức với tập kiểm tra Cácvấn đề liên quan đến overfitting sẽ được mô tả trong Chương 7 về các thuật
Trang 7toán đánh giá Thật vậy, khuôn khổ xử lý bài dự thi của Netflix là một ví dụtuyệt vời về thiết kế đánh giá phù hợp của các thuật toán đề xuất.
Bộ thăm dò, bộ câu hỏi và bộ kiểm tra được thiết kế để có các đặc điểmthống kê tương tự Giải thưởng được trao dựa trên việc cải tiến thuật toán
đề xuất riêng của Netflix, được gọi là Cinematch hoặc bằng cách cải thiệnđiểm số tốt nhất trước đó theo một ngưỡng nhất định Nhiều thuật toán đềxuất nổi tiếng, chẳng hạn như mô hình nhân tố tiềm ẩn, đã được cuộc thiNetflix phổ biến rộng rãi Cuộc thi Giải thưởng Netflix đáng chú ý vì cónhiều đóng góp cho nghiên cứu đề xuất [71, 373]
Hệ thống cá nhân hóa Google Tin tức
Hệ thống cá nhân hóa Google Tin tức [697] có thể đề xuất tin tức cho ngườidùng dựa trên lịch sử nhấp chuột của họ Các lượt click được liên kết vớingười dùng cụ thể dựa trên cơ chế nhận dạng được kích hoạt bởi tài khoảnGmail Trong trường hợp này, các bài báo được coi là các mục Hành độngngười dùng nhấp vào một bài báo có thể được xem là đánh giá tích cực chobài báo đó Những xếp hạng như vậy có thể được xem là xếp hạng đơnnhất, trong đó tồn tại một cơ chế để người dùng bày tỏ sự yêu thích của họđối với một mặt hàng, nhưng không tồn tại cơ chế nào để họ thể hiện sựkhông thích của mình Hơn nữa, xếp hạng là ngầm định vì chúng được suy
ra từ hành động của người dùng thay vì được người dùng chỉ định rõ ràng.Tuy nhiên, các biến thể của phương pháp này cũng có thể được áp dụngcho các trường hợp xếp hạng được chỉ định rõ ràng Các thuật toán đề xuấtcộng tác được áp dụng cho các xếp hạng được thu thập để có thể đưa ra suyluận về Bảng 1.1: Các ví dụ về các sản phẩm được các hệ thống giới thiệutrong thế giới thực khác nhau đề xuất
Hệ thống Mục tiêu sản phẩmAmazon.com
[698]
Sách và các sản phẩmkhác
Netflix [690] DVD, Video trực
tuyếnTên hề [689] truyện cườiNhómLens
[687]
Tin tức
cuối cùng.fm[692]
Âm nhạc
Google Tin tức[697]
Tin tức
Tìm kiếm của Google [696]
Quảng cáo
Facebook [691] Bạn bè, Quảng cáoPandora [693] Âm nhạcYouTube [694] Video trực tuyếnTripadvisor Sản phẩm du lịch
Trang 8Đề xuất kết bạn trên Facebook
Các trang mạng xã hội thường giới thiệu bạn bè tiềm năng cho người dùngnhằm tăng số lượng kết nối xã hội tại trang web Facebook [691] là một ví
dụ như vậy về một trang Web mạng xã hội Loại đề xuất này có mục tiêuhơi khác so với đề xuất sản phẩm Mặc dù đề xuất sản phẩm trực tiếp làmtăng lợi nhuận của người bán bằng cách tạo điều kiện thuận lợi cho việcbán sản phẩm, nhưng việc tăng số lượng kết nối xã hội sẽ cải thiện trảinghiệm của người dùng trên mạng xã hội Điều này, đến lượt nó, khuyếnkhích sự phát triển của mạng xã hội Mạng xã hội phụ thuộc rất nhiều vào
sự phát triển của mạng để tăng doanh thu quảng cáo Do đó, sự giới thiệucủa bạn bè (hoặc liên kết) tiềm năng sẽ giúp mạng lưới phát triển và kết nốitốt hơn Vấn đề này còn được gọi là dự đoán liên kết trong lĩnh vực phântích mạng xã hội Những hình thức khuyến nghị như vậy dựa trên mối quan
hệ mang tính cấu trúc hơn là dữ liệu xếp hạng Do đó, bản chất của cácthuật toán cơ bản là hoàn toàn khác nhau Vấn đề đề xuất liên kết đượckhám phá chi tiết trong Chương 10 Mối quan hệ của quảng cáo tính toánvới công nghệ hệ thống đề xuất được thảo luận trong Chương 13
1.2.1 Phổ ứng dụng khuyến nghị
Sau đây, chúng tôi sẽ cung cấp một cái nhìn tổng quan ngắn gọn về cácmục tiêu dành riêng cho ứng dụng được hoàn thành bằng cách triển khaicác hệ thống đề xuất khác nhau Tổng quan ngắn gọn về các sản phẩm được
đề xuất và mục tiêu đạt được của các hệ thống tư vấn khác nhau được minhhọa trong Bảng 1.1 Nhiều hệ thống gợi ý này tập trung vào các ứng dụngthương mại điện tử truyền thống cho nhiều sản phẩm khác nhau, bao gồmsách, phim, video, du lịch cũng như các hàng hóa và dịch vụ khác Khảnăng ứng dụng rộng rãi hơn của hệ thống gợi ý cho các ứng dụng thươngmại điện tử được thảo luận trong [530] Tuy nhiên, hệ thống gợi ý đã mởrộng ra ngoài lĩnh vực gợi ý sản phẩm truyền thống Đáng chú ý là một số
hệ thống trong Bảng 1.1 có thể không đề xuất các sản phẩm cụ thể Một ví
dụ là ứng dụng tìm kiếm Google, ứng dụng này có thể quảng cáo sản phẩmcùng với kết quả tìm kiếm của chúng Đây là lĩnh vực quảng cáo bằng máytính, vốn là một lĩnh vực riêng biệt nhưng vẫn có liên quan chặt chẽ với các
hệ thống gợi ý Lĩnh vực này được thảo luận chi tiết trong phần 13.8.2 củaChương 13 Tương tự, Facebook giới thiệu bạn bè và các trang tuyển dụngtrực tuyến giới thiệu nhà tuyển dụng và người tìm việc với nhau Hệ thốngcuối cùng trong số này còn được gọi là hệ thống tư vấn tương hỗ Mô hình
Trang 9của một số thuật toán đề xuất này khá khác so với mô hình của các hệ thống
đề xuất truyền thống Cuốn sách này sẽ nghiên cứu chi tiết nhiều biến thểnày
1.3 Các mô hình cơ bản của hệ thống tư vấn
Các mô hình cơ bản cho hệ thống gợi ý hoạt động với hai loại dữ liệu, đó là(i) tương tác giữa người dùng và mục, chẳng hạn như xếp hạng hoặc hành
vi mua hàng và (ii) thông tin thuộc tính về người dùng và các mục như hồ
sơ văn bản hoặc từ khóa có liên quan Các phương pháp sử dụng phươngpháp trước được gọi là phương pháp lọc cộng tác, trong khi các phươngpháp sử dụng phương pháp sau được gọi là phương pháp đề xuất dựa trênnội dung Lưu ý rằng các hệ thống dựa trên nội dung cũng sử dụng ma trậnxếp hạng trong hầu hết các trường hợp, mặc dù mô hình thường tập trungvào xếp hạng của một người dùng thay vì của tất cả người dùng Trong các
hệ thống tư vấn dựa trên kiến thức, các đề xuất dựa trên yêu cầu của ngườidùng được chỉ định rõ ràng Thay vì sử dụng xếp hạng lịch sử hoặc dữ liệumua hàng, cơ sở kiến thức bên ngoài và các ràng buộc được sử dụng để đưa
ra đề xuất Một số hệ thống gợi ý kết hợp các khía cạnh khác nhau này đểtạo ra các hệ thống kết hợp Các hệ thống kết hợp có thể kết hợp điểmmạnh của nhiều loại hệ thống gợi ý khác nhau để tạo ra các kỹ thuật có thểhoạt động mạnh mẽ hơn trong nhiều môi trường khác nhau Trong phầntiếp theo, chúng ta sẽ thảo luận ngắn gọn về các mô hình cơ bản này vàcũng cung cấp gợi ý cho các chương có liên quan trong cuốn sách màchúng sẽ được thảo luận
1.3.1 Mô hình lọc cộng tác
Các mô hình lọc cộng tác sử dụng sức mạnh cộng tác của xếp hạng donhiều người dùng cung cấp để đưa ra đề xuất Thách thức chính trong việcthiết kế các phương pháp lọc cộng tác là các ma trận xếp hạng cơ bản cònthưa thớt Hãy xem xét một ví dụ về ứng dụng phim trong đó người dùngchỉ định xếp hạng cho biết họ thích hoặc không thích một bộ phim cụ thể.Hầu hết người dùng sẽ chỉ xem một phần nhỏ trong kho phim rộng lớn cósẵn Kết quả là, hầu hết các xếp hạng đều không được chỉ định Xếp hạngđược chỉ định cũng được gọi là xếp hạng được quan sát Xuyên suốt cuốnsách này, các thuật ngữ “được chỉ định” và “được quan sát” sẽ được sửdụng theo cách có thể hoán đổi cho nhau Xếp hạng không được chỉ định sẽđược coi là "không được quan sát" hoặc bị thiếu
Ý tưởng cơ bản của phương pháp lọc cộng tác là những xếp hạng khôngxác định này có thể được quy cho vì xếp hạng được quan sát thường có mốitương quan cao giữa nhiều người dùng và mục khác nhau Ví dụ, hãy xemxét hai người dùng tên Alice và Bob, những người có sở thích rất giốngnhau Nếu xếp hạng mà cả hai đều đã chỉ định rất giống nhau thì sự giốngnhau của chúng có thể được xác định bằng thuật toán cơ bản Trong nhữngtrường hợp như vậy, rất có thể các xếp hạng mà chỉ một trong số chúng xácđịnh một giá trị cũng có khả năng tương tự nhau Sự giống nhau này có thểđược sử dụng để đưa ra suy luận về các giá trị được chỉ định không đầy đủ.Hầu hết các mô hình lọc cộng tác đều tập trung vào việc tận dụng mối
Trang 10[Type here]
tương quan giữa các mục hoặc mối tương quan giữa các người dùng choquá trình dự đoán Một số mô hình sử dụng cả hai loại tương quan Hơnnữa, một số mô hình sử dụng các kỹ thuật tối ưu hóa được thiết kế cẩn thận
để tạo ra một mô hình đào tạo gần giống nhau
Trang 11cách trình phân loại tạo mô hình huấn luyện từ dữ liệu được dán nhãn Sau
đó, mô hình này được sử dụng để xác định các giá trị còn thiếu trong matrận, giống như cách mà bộ phân loại áp đặt các nhãn kiểm tra bị thiếu Cóhai loại phương pháp thường được sử dụng trong lọc cộng tác, được gọi làphương pháp dựa trên bộ nhớ và phương pháp dựa trên mô hình:
1 Phương pháp dựa trên bộ nhớ: Phương pháp dựa trên bộ nhớ còn đượcgọi là thuật toán lọc cộng tác dựa trên vùng lân cận Đây là một trongnhững thuật toán lọc cộng tác sớm nhất, trong đó xếp hạng của các kếthợp mục người dùng được dự đoán dựa trên các vùng lân cận củachúng Những vùng lân cận này có thể được xác định theo một tronghai cách:
• Lọc cộng tác dựa trên người dùng: Trong trường hợp này, xếphạng được cung cấp bởi những người dùng có cùng quan điểm củangười dùng mục tiêu A được sử dụng để đưa ra đề xuất cho A Do
đó, ý tưởng cơ bản là xác định những người dùng tương tự nhưmục tiêu người dùng A và đề xuất xếp hạng cho xếp hạng khôngđược quan sát của A bằng cách tính giá trị trung bình có trọng sốcủa xếp hạng của nhóm ngang hàng này Do đó, nếu Alice và Bob
đã xếp hạng phim theo cách tương tự trong quá khứ thì người ta cóthể sử dụng xếp hạng được quan sát của Alice trên phim Kẻ hủydiệt để dự đoán xếp hạng không được quan sát của Bob trên bộphim này Nói chung, k người dùng giống Bob nhất có thể được
sử dụng để đưa ra dự đoán xếp hạng cho Bob Các hàm tương tựđược tính toán giữa các hàng của ma trận xếp hạng để tìm ranhững người dùng tương tự
• Lọc cộng tác dựa trên mục: Để đưa ra dự đoán xếp hạng cho mụctiêu B của người dùng A, bước đầu tiên là xác định tập S gồm cácmục giống nhất với mục tiêu B Xếp hạng trong bộ mục S, là do Achỉ định, được sử dụng để dự đoán liệu người dùng A có thíchmục B hay không Do đó, xếp hạng của Bob trên các bộ phimkhoa học viễn tưởng tương tự như Alien và Predator có thể được
sử dụng để dự đoán xếp hạng của anh ấy về Terminator Các hàmtương tự được tính toán giữa các cột của ma trận xếp hạng đểkhám phá các mục tương tự
Ưu điểm của các kỹ thuật dựa trên trí nhớ là chúng dễ thực hiện và cáckhuyến nghị thu được thường dễ giải thích Mặt khác, các thuật toándựa trên bộ nhớ không hoạt động tốt với các ma trận xếp hạng thưathớt Ví dụ: có thể khó tìm được những người dùng đủ giống Bob,người đã xếp hạng Gladiator Trong những trường hợp như vậy, thậtkhó để dự đoán chính xác đánh giá của Bob về Gladiator Nói cách
Trang 12khác, những phương pháp như vậy có thể thiếu khả năng bao quát đầy
đủ các dự đoán xếp hạng Tuy nhiên, việc thiếu phạm vi phủ sóngthường không phải là vấn đề khi chỉ yêu cầu các mục top-k Cácphương pháp dựa trên bộ nhớ sẽ được thảo luận chi tiết trong Chương2
2 Phương pháp dựa trên mô hình: Trong các phương pháp dựa trên môhình, phương pháp học máy và khai thác dữ liệu được sử dụng trongbối cảnh các mô hình dự đoán Trong trường hợp mô hình được tham
số hóa, các tham số của mô hình này sẽ được học trong bối cảnhkhung tối ưu hóa Một số ví dụ về các phương pháp dựa trên mô hìnhnhư vậy bao gồm cây quyết định, mô hình dựa trên quy tắc, phươngpháp Bayes và mô hình nhân tố tiềm ẩn Nhiều phương pháp trong sốnày, chẳng hạn như mô hình nhân tố tiềm ẩn, có mức độ bao phủ caongay cả đối với các ma trận xếp hạng thưa thớt Các thuật toán lọccộng tác dựa trên mô hình được thảo luận trong Chương 3
Mặc dù các thuật toán lọc cộng tác dựa trên bộ nhớ được đánh giá cao vìtính đơn giản của chúng nhưng chúng có xu hướng mang tính chất phỏngđoán và không hoạt động tốt trong mọi cài đặt
Hình 1.1: Ví dụ về xếp hạng theo khoảng 5 điểm
Hình 1.2: Ví dụ về xếp hạng thứ tự được sử dụng trong đánh giá khóa học
của Đại học Stanford
các phương pháp dựa trên bộ nhớ cũng có thể được coi là các mô hình dựatrên sự tương đồng, mặc dù là các mô hình heuristic Trong phần 2.6 củaChương 2, cũng sẽ chỉ ra rằng một số biến thể của phương pháp dựa trênvùng lân cận có thể được biểu diễn chính thức dưới dạng mô hình dựa trênhồi quy Các mô hình yếu tố tiềm ẩn đã được phổ biến rộng rãi trong những
Trang 13năm sau đó nhờ cuộc thi Giải thưởng Netflix, mặc dù các thuật toán tương
tự đã được đề xuất sớm hơn nhiều trong bối cảnh các tập dữ liệu (chung)không đầy đủ [24] Gần đây, người ta đã chứng minh rằng một số kết hợpphương pháp dựa trên bộ nhớ và dựa trên mô hình [309] mang lại kết quảrất chính xác
1.3.1.1 Các loại xếp hạng
Việc thiết kế các thuật toán đề xuất bị ảnh hưởng bởi hệ thống được sửdụng để theo dõi xếp hạng Xếp hạng thường được chỉ định trên thang đocho biết mức độ thích hoặc không thích cụ thể của mặt hàng đó Xếp hạng
có thể là các giá trị liên tục, chẳng hạn như trong trường hợp công cụ đềxuất trò đùa Jester [228, 689], trong đó xếp hạng có thể nhận bất kỳ giá trịnào từ -10 đến 10 Tuy nhiên, điều này tương đối hiếm Thông thường, việcxếp hạng dựa trên khoảng thời gian, trong đó một tập hợp các số thứ tựriêng biệt được sử dụng để định lượng mức độ thích hoặc không thích Xếphạng như vậy được gọi là xếp hạng dựa trên khoảng thời gian Ví dụ: thangđánh giá 5 điểm có thể được rút ra từ tập hợp {—2, —1, 0, 1, 2}, trong đóxếp hạng —2 biểu thị sự không thích cực độ và xếp hạng 2 biểu thị sự yêuthích mạnh mẽ đến mục đó Các hệ thống khác có thể rút ra xếp hạng từ tậphợp {1, 2, 3, 4, 5}
Số lượng xếp hạng có thể có có thể khác nhau tùy theo hệ thống hiện có.Việc sử dụng xếp hạng 5 điểm, 7 điểm và 10 điểm đặc biệt phổ biến Hệthống xếp hạng 5 sao, được minh họa trong Hình 1.1, là một ví dụ về xếphạng theo khoảng thời gian Cùng với mỗi xếp hạng có thể có, chúng tôi đãchỉ ra cách giải thích ngữ nghĩa về mức độ quan tâm của người dùng Cáchgiải thích này có thể hơi khác nhau tùy theo những người bán khác nhau,chẳng hạn như Amazon hoặc Netflix Ví dụ: Netflix sử dụng hệ thống xếphạng 5 sao trong đó điểm 4 sao tương ứng với "thực sự thích nó" và điểm 3sao trung tâm tương ứng với "thích nó" Vì vậy, Netflix có ba xếp hạngthuận lợi và hai xếp hạng không thuận lợi trên Netflix, dẫn đến thang đánhgiá không cân bằng Trong một số trường hợp, có thể có số lượng xếp hạngchẵn và xếp hạng trung lập có thể bị thiếu Cách tiếp cận này được gọi là hệthống đánh giá lựa chọn bắt buộc
Người ta cũng có thể sử dụng các giá trị phân loại theo thứ tự như {Rấtkhông đồng ý, Không đồng ý, Trung lập, Đồng ý, Rất đồng ý} để đạt đượccác mục tiêu tương tự Nói chung, các xếp hạng như vậy được gọi là xếphạng thứ tự và thuật ngữ này bắt nguồn từ khái niệm thuộc tính thứ tự Một
ví dụ về xếp hạng thứ tự, được sử dụng trong các mẫu đánh giá khóa họccủa Đại học Stanford, được minh họa trong Hình 1.2 Trong xếp hạng nhịphân, người dùng chỉ có thể thể hiện thích hoặc không thích đối với mặthàng đó và không có gì khác Ví dụ: xếp hạng có thể là 0, 1 hoặc các giá trị
Trang 14không xác định Các giá trị không xác định cần được dự đoán là giá trị 0-1.Một trường hợp đặc biệt của xếp hạng là xếp hạng đơn nhất, trong đó có cơchế để người dùng chỉ định mức độ thích đối với một mục nhưng không có
cơ chế chỉ định mức không thích Xếp hạng đơn nhất đặc biệt phổ biến, đặcbiệt trong trường hợp tập dữ liệu phản hồi ngầm [259, 260, 457] Trongnhững trường hợp này, sở thích của khách hàng xuất phát từ hoạt động của
họ chứ không phải từ xếp hạng được chỉ định rõ ràng của họ Ví dụ: hành
vi mua hàng của khách hàng có thể được chuyển đổi thành xếp hạng đơnnhất Khi một khách hàng mua một mặt hàng, nó có thể được xem như một
sự ưa thích đối với mặt hàng đó Tuy nhiên, hành động không mua mộtmón đồ từ vô số khả năng không phải lúc nào cũng biểu thị sự không thích.Tương tự, nhiều mạng xã hội, chẳng hạn như Facebook, sử dụng nút
"thích", cung cấp khả năng thể hiện sự thích thú đối với một mục Tuynhiên, không có cơ chế xác định mức độ không thích đối với một mặt hàng.Cài đặt phản hồi ngầm có thể được xem như là tương tự hoàn thành ma trậncủa bài toán học không được gắn nhãn tích cực (PU) trong phân loại dữ liệu[259]
n thường không giống nhau trong các tình huống thực tế Ma trận xếp hạngđôi khi được gọi là ma trận tiện ích, mặc dù cả hai có thể không phải lúcnào cũng giống nhau Nói một cách chính xác, khi tiện ích đề cập đến sốtiền lợi nhuận, thì tiện ích của sự kết hợp hạng mục người dùng đề cập đến
số tiền lợi nhuận phát sinh bằng cách giới thiệu mặt hàng đó cho ngườidùng cụ thể Mặc dù ma trận tiện ích thường được đặt giống với ma trậnxếp hạng, nhưng ứng dụng có thể chuyển đổi rõ ràng xếp hạng thành giá trịtiện ích dựa trên tiêu chí của từng miền cụ thể Tất cả các thuật toán lọccộng tác sau đó được áp dụng cho ma trận tiện ích thay vì ma trận xếphạng Tuy nhiên, cách tiếp cận như vậy hiếm khi được sử dụng trong thực
tế và hầu hết các thuật toán lọc cộng tác đều hoạt động trực tiếp với ma trậnxếp hạng
Một ví dụ về ma trận xếp hạng đơn nguyên được minh họa trong Hình1.3(b) Đối với các trường hợp xếp hạng là đơn nguyên, ma trận được gọi là
ma trận tiện ích ưu tiên tích cực vì nó chỉ cho phép đặc tả các ưu tiên tích
Trang 15cực Hai ma trận trong Hình 1.3 có cùng một tập hợp các mục được quansát nhưng chúng cung cấp những hiểu biết rất khác nhau Ví dụ: UI và U3của người dùng rất khác nhau trong Hình 1.3(a) vì chúng có các xếp hạngrất khác nhau cho các mục nhập được chỉ định lẫn nhau Mặt khác, nhữngngười dùng này sẽ được coi là rất giống nhau trong Hình 1.3(b) vì nhữngngười dùng này đã bày tỏ sự ưa thích tích cực đối với cùng một mặt hàng.Tiện ích dựa trên xếp hạng cung cấp một cách để người dùng thể hiện sởthích tiêu cực đối với các mục Ví dụ: giao diện người dùng không thích bộphim Đấu sĩ trong Hình 1.3(a) Không có cơ chế nào để xác định điều nàytrong ma trận tiện ích ưu tiên tích cực của Hình 1.3(b) ngoài
Trang 16(a) Xếp hạng theo thứ tự (b) Xếp hạng đơn nhất
Trang 171.4 17
Hình 1.3: Ví dụ về ma trận tiện ích
một mục bị thiếu tương đối mơ hồ Nói cách khác, ma trận trong Hình1.3(b) ít biểu cảm hơn Trong khi Hình 1.3(b) cung cấp một ví dụ về matrận nhị phân, các phần tử khác 0 có thể có giá trị dương tùy ý Ví dụ:chúng có thể tương ứng với số lượng mặt hàng được mua bởi những ngườidùng khác nhau Nói chung, ma trận một ngôi được tạo bởi hành động củangười dùng chẳng hạn như mua một mặt hàng và do đó còn được gọi là matrận phản hồi ngầm
Xếp hạng đơn nhất có ảnh hưởng đáng kể đến thuật toán đề xuất hiện tại
vì không có thông tin nào về việc người dùng có không thích một mặt hànghay không Trong trường hợp ma trận một ngôi, người ta thường khuyên[260] thực hiện phân tích một cách đơn giản bằng cách coi các phần tử cònthiếu là O trong giai đoạn đầu Tuy nhiên, giá trị dự đoán cuối cùng củathuật toán học có thể lớn hơn 0 rất nhiều, đặc biệt nếu mục đó phù hợp với
sở thích của người dùng Do đó, các mục được đề xuất dựa trên các mục cósai số dự đoán dương lớn nhất so với giả định "không" ban đầu Trong thực
tế, nếu các mục bị thiếu không được thay thế bằng O thì có thể xảy ra hiệntượng trang bị quá mức đáng kể Kiểu trang bị quá mức này là sự giả tạocủa thực tế là thường không có đủ mức độ phân biệt giữa các giá trị xếphạng được quan sát khác nhau Trong ma trận phản hồi rõ ràng, xếp hạngtương ứng với các ưu tiên (có tính phân biệt cao), trong khi ở ma trận phảnhồi ngầm, xếp hạng tương ứng với độ tin cậy (ít phân biệt đối xử) Trongchương sau, chúng tôi sẽ cung cấp một ví dụ cụ thể về việc trang bị quámức với ma trận phản hồi ngầm khi các mục bị thiếu không được coi là số
0 (xem phần 3.6.6.2 của Chương 3)
Việc thay thế trước các xếp hạng bị thiếu không được khuyến nghị trongcác ma trận xếp hạng rõ ràng Trong ma trận xếp hạng rõ ràng có cả lượtthích và lượt không thích, việc thay thế các mục bị thiếu bằng bất kỳ giá trịnào (chẳng hạn như 0 hoặc cột hàng/trung bình dữ liệu) luôn dẫn đến mức
độ sai lệch đáng kể trong phân tích Trong trường hợp đơn nhất, việc thaythế các mục bị thiếu bằng O cũng dẫn đến một số sai lệch [457, 467, 468],mặc dù nó thường nhỏ vì giả định mặc định trong dữ liệu phản hồi ngầm,chẳng hạn như dữ liệu mua hàng, là người dùng sẽ không mua nhiều nhất.của các mặt hàng Người ta thường sẵn sàng chấp nhận sự thiên vị nàytrong trường hợp đơn nhất, bởi vì sự thay thế giảm đáng kể lượng trang bịquá mức đáng kể Ngoài ra còn có một số hiệu ứng tính toán thú vị củanhững lựa chọn như vậy Những sự đánh đổi này được thảo luận trongChương 2 và 3
Trang 181.3.1.2 Mối quan hệ với phân tích giá trị bị thiếu
Các mô hình lọc cộng tác có liên quan chặt chẽ đến việc phân tích giá trịcòn thiếu Các tài liệu truyền thống về phân tích giá trị còn thiếu nghiêncứu vấn đề gán các mục trong một ma trận dữ liệu được chỉ định không đầy
đủ Lọc cộng tác có thể được xem như một trường hợp đặc biệt (khó) củabài toán này trong đó ma trận dữ liệu cơ bản rất lớn và thưa thớt Có thể tìmthấy thảo luận chi tiết về các phương pháp phân tích giá trị còn thiếu trongtài liệu thống kê trong [362] Nhiều phương pháp trong số này cũng có thểđược sử dụng cho các hệ thống tư vấn, mặc dù một số trong số chúng cóthể yêu cầu những điều chỉnh chuyên biệt cho các ma trận rất lớn và thưathớt Trên thực tế, một số loại mô hình gần đây dành cho hệ thống tư vấn,chẳng hạn như mô hình nhân tố tiềm ẩn, đã được nghiên cứu trước đó trongbối cảnh phân tích giá trị còn thiếu [24] Các phương pháp tương tự đãđược đề xuất độc lập trong bối cảnh các hệ thống gợi ý [252, 309, 313, 500,
517, 525] Nói chung, nhiều phương pháp ước lượng giá trị thiếu cổ điển[362] cũng có thể được sử dụng để lọc cộng tác
1.3.1.3 Lọc cộng tác như một sự tổng quát hóa của mô hình phân loại và
hồi quy
Các phương pháp lọc cộng tác có thể được xem như là sự khái quát hóa của
mô hình phân loại và hồi quy Trong các bài toán mô hình phân loại và hồiquy, lớp/biến phụ thuộc có thể được xem như một thuộc tính bị thiếu cácgiá trị Các cột khác được coi là đặc điểm/biến độc lập Vấn đề lọc cộng tác
Trang 191.4 19
có thể được xem như một sự khái quát hóa của khung này vì bất kỳ cột nàocũng được phép thiếu các giá trị thay vì (chỉ) biến lớp Trong vấn đềkhuyến nghị, có sự phân biệt rõ ràng
sẽ có ý nghĩa hơn khi nói về các mục huấn luyện và kiểm tra trong lọc cộngtác hơn là các hàng huấn luyện và kiểm tra Lọc cộng tác là sự tổng quáthóa của mô hình phân loại/hồi quy trong đó dự đoán được thực hiện theokiểu đầu vào thay vì kiểu theo hàng Cần ghi nhớ mối quan hệ giữa môhình phân loại/hồi quy và lọc cộng tác vì nhiều nguyên tắc về phương pháp
mô hình phân loại và hồi quy có thể được khái quát hóa cho các hệ thống
đề xuất Mối quan hệ giữa hai vấn đề được minh họa trong Hình 1.4 Hìnhnày đặc biệt hữu ích trong việc liên hệ giữa lọc cộng tác với phân loại và nó
sẽ được xem lại nhiều lần trong cuốn sách này bất cứ nơi nào những điểmtương đồng giữa hai vấn đề này được tận dụng theo một cách nào đó đểphát triển thuật toán hoặc lý thuyết
Bài toán hoàn thiện ma trận cũng có một số đặc điểm với cài đặt quy nạptrong phân loại và hồi quy Trong cài đặt chuyển đổi, các trường hợp kiểmtra cũng được đưa vào quá trình đào tạo (thường sử dụng thuật toán bángiám sát) và thường khó đưa ra dự đoán cho các trường hợp kiểm tra không
có sẵn tại thời điểm đào tạo Mặt khác, các mô hình trong đó có thể dễ dàngđưa ra dự đoán cho các trường hợp mới được gọi là mô hình quy nạp Ví
dụ, một mô hình Bayes đơn giản trong phân loại vốn có tính chất quy nạp
vì người ta có thể dễ dàng sử dụng nó để dự đoán nhãn của một thể hiệnthử nghiệm mà các đặc điểm chưa được biết đến tại thời điểm xây dựng môhình Bayes
Cài đặt để hoàn thành ma trận vốn có tính chất chuyển nạp vì dữ liệuhuấn luyện và kiểm tra được tích hợp chặt chẽ với nhau trong ma trận xếphạng m >< n R và nhiều mô hình không thể dễ dàng dự đoán xếp hạng chongười dùng và/hoặc hạng mục ngoài mẫu Ví dụ: nếu John được thêm vào
ma trận xếp hạng (với nhiều xếp hạng được chỉ định) sau khi mô hình lọccộng tác đã được xây dựng, nhiều phương pháp sẵn có sẽ không thể đưa ra
dự đoán cho John Điều này đặc biệt đúng với các phương pháp lọc cộngtác dựa trên mô hình Tuy nhiên, một số mô hình hoàn thiện ma trận gầnđây cũng đã được thiết kế theo mô hình quy nạp trong đó xếp hạng có thểđược dự đoán cho những người dùng và/hoặc vật phẩm ngoài mẫu