Ứng dụng mô hình lọc cộng tác và phân cụm mờ trong hệ thống gợi ý phim dựa trên thông tin đánh giá của người dùng

MỤC LỤC

Kết cấu đề án

MỘT SỐ KHÁI NIỆM PHỔ BIẾN VỀ HỆ THỐNG GỢI Ý

Nhiệm vụ của hệ thống này là tận dụng hiểu biết sâu sắc về cơ sở dữ liệu sản phẩm, thông tin cá nhân người dùng và sự tương tác giữa các sản phẩm để đưa ra các gợi ý chính xác nhất, nhằm đảm bảo rằng mỗi người dùng có thể tìm thấy những sản phẩm ưng ý nhất trong thời gian ngắn nhất. Mục tiờu cốt lừi của hệ thống gợi ý là chọn lọc và đề xuất một loạt cỏc mục dữ liệu phù hợp, với mục đích không chỉ đáp ứng nhu cầu cơ bản mà còn tinh tế đến nỗi cú thể dự đoỏn và đỏp ứng cả những mong muốn khụng rừ ràng của người dùng, nhằm nâng cao trải nghiệm và sự thỏa mãn của họ đối với hệ thống.

Hình 1.1. Sơ đồ tổng quát của một hệ thống gợi ý

PHƯƠNG THỨC HOẠT ĐỘNG CỦA HỆ THỐNG GỢI Ý

Trong phương pháp lọc cộng tác, hệ thống gợi tìm kiếm những nhóm người dùng có hành vi "tương đồng" bằng cách phân tích lịch sử tương tác của họ, được lưu trữ trong ma trận tương tác User – Item. Hệ thống gợi ý đưa ra đánh giá dựa trên độ phù hợp 𝑟(𝑈, 𝐼) giữa người dùng hiện tại 𝑈 và đối tượng 𝐼 bằng cách sử dụng độ phù hợp r(𝑈𝑗, I) của những người dùng 𝑈𝑗 khác, có sở thích tương đồng với 𝑈.

PHƯƠNG PHÁP TIẾP CẬN KHI XÂY DỰNG HỆ THỐNG GỢI Ý Dưới đây là một tổng quan về các phương pháp được sử dụng để xây

Điều này tạo nên sự khỏc biệt rừ ràng so với phương phỏp lọc cộng tỏc, trong đú hiệu suất của hệ thống gợi ý phụ thuộc nhiều vào việc phân tích và xử lý tập hợp dữ liệu tương tác lớn từ người dùng để tìm ra các mẫu và quy luật, như xác định sản phẩm được ưa chuộng.  Hiện tượng được gọi là "cứng nhắc" trong kết quả khuyến nghị (tăng chuyên môn): Hệ thống có thể trở nên "cứng nhắc" và gợi ý các sản phẩm chỉ phù hợp với hồ sơ của người dùng cụ thể mà không tận dụng thông tin của những người dùng khác có cùng sở thích.

Hình 1.4. Cơ chế hoạt động theo lọc nội dung

CÁC TIÊU CHUẨN ĐÁNH GIÁ HỆ GỢI Ý

Tiêu chuẩn RMSE tập trung vào các lỗi có giá trị lớn hơn 1, trái ngược với tiêu chuẩn MAE. Mục tiêu của RMSE là xác định mô hình đánh giá giá trị người dùng tốt hơn mô hình Cinematch của Netflix vào năm 2007 khi nó được chọn làm tiêu chí đánh giá cho cuộc thi Netflix Awards [9]. Kết luận chương 1: Chương 1 đã trình bày những nội dung cơ bản và tổng quan về hệ thống gợi ý.

Chương tiếp theo sẽ thảo luận chi tiết về mô hình đề xuất cộng tác sử dụng học máy trong chương tiếp theo và đề xuất một mô hình cụ thể cho các hệ thống gợi ý, sử dụng thuật toán phân cụm mờ.

BÀI TOÁN GỢI Ý DỰA TRÊN CỘNG TÁC Input

Lọc cộng tác dựa trên mô hình giảm đáng kể chi phí tính toán và yêu cầu bộ nhớ trong khi vẫn đạt được độ chính xác tương đương với các phương pháp dựa trên bộ nhớ bằng cách sử dụng các phương pháp học máy hiện đại. Trong thuật toán dựa trên hợp tác, phân cụm có thể giúp giảm số lượng cụm ứng viên, làm cho việc tính toán trở nên hiệu quả hơn bằng cách giảm kích thước của ma trận người dùng-mục đích cần xem xét, từ đó tăng cường hiệu suất của hệ thống gợi ý. Chúng hoạt động bằng cách phân tích một tập hợp dữ liệu huấn luyện đã được gắn nhãn, từ đó xây dựng một mô hình dạng cây với các nút đại diện cho các quyết định dựa trên thuộc tính của dữ liệu và các lá của cây đại diện cho kết quả phân loại hoặc giá trị đầu ra.

Một trong những ưu điểm chính của cây quyết định là tính trực quan và dễ hiểu; chúng cho phộp chỳng ta dễ dàng theo dừi cỏch một quyết định được đưa ra thụng qua một loạt các câu hỏi và quyết định dựa trên các thuộc tính dữ liệu. So với các thuật toán phức tạp khác như Mạng nơ-ron nhân tạo (ANN) và Máy vector hỗ trợ (SVM), cây quyết định thường được coi là dễ hiểu hơn nhiều bởi vì chúng thể hiện các quyết định và phân loại dữ liệu một cách rừ ràng và logic. Một điểm mạnh khỏc của cõy quyết định là khả năng xử lý dữ liệu hỗn hợp – tức là, chúng có thể đồng thời xử lý dữ liệu số (liên tục) và danh mục (phân loại) mà không cần phải chuyển đổi hay tiền xử lý dữ liệu một cách phức tạp.

Hình 2.2. Lọc cộng tác dựa theo người dùng

LỰA CHỌN MÔ HÌNH HỆ GỢI Ý

Vì điểm ngoại lệ không thuộc về bất kỳ cụm nào và các ma trận con được nhóm trong các cụm có khả năng dày đặc hơn so với ma trận lớn gốc, ta có kỳ vọng tìm thấy các tương quan tốt hơn trong các cụm. Thực hiện tiền xử lý dữ liệu và chuẩn hóa dữ liệu hoặc giá trị của các đặc tính trước khi chạy phân cụm (dữ liệu đặc tính được tỷ lệ để phù hợp trong một khoảng cụ thể và phù hợp cho phân tích cụm). Giả định như vậy không đúng vì các thuộc tính ảnh hưởng đến hiệu suất của quá trình phân cụm: trong khi một số thuộc tính có thể ảnh hưởng tiêu cực đến quá trình phân cụm hoặc không có ảnh hưởng gì đối với mô hình, thì những thuộc tính khác có thể quan trọng để xác định cấu trúc của vấn đề.

Do đó, việc chuẩn hóa và tỉ lệ thuộc tính là cần thiết trước khi thực hiện phân cụm, sau đó, chúng ta thực hiện phân cụm K-means trên mỗi đặc trưng của mục một cách độc lập cho K cụm với phạm vi từ 2 đến 10 để chọn các đặc trưng và số lượng cụm mang lại quá trình phân cụm hiệu quả hơn. Fuzzy C- means là một phương pháp phân cụm trong đó một đối tượng được gán cho hai hoặc nhiều hơn hai cụm với các mức độ thành viên khác nhau trong khi phân cụm K-means nhóm một bộ đối tượng trong một số k cụm đã được xác định. Ngoài ra, tác giả kết hợp kết quả của fuzzy c-means vào độ đo tương tự Jaccard như một đánh giá về sự tương tự giữa hai người dùng để cung cấp kết quả khuyến nghị tốt hơn so với các phương pháp truyền thống trong CF.

Hình 3.1. Biểu đồ của phương pháp đã lựa chọn về hệ thống gợi ý

MỘT SỐ NHẬN XÉT VỀ MÔ HÌNH

Cuối cùng, thuật toán dự đoán đánh giá cho các mục chưa được xem bởi người dùng u và chọn ra các mục Top-N để đề xuất. Tác giả lựa chọn một phương pháp sáng tạo và hiệu quả để tìm người dùng láng giềng bằng cách sử dụng K-means và fuzzy C-means. Để đánh giá hiệu suất của thuật toán, tác giả đã sử dụng các bộ dữ liệu MovieLens trong thí nghiệm (ml-20M).

Các bộ dữ liệu được chia ngẫu nhiên thành một tập huấn luyện, bao gồm 80–95% số lần đánh giá cho mỗi người dùng, và một tập kiểm thử (các lần đánh giá còn lại). Bắt đầu từ tập huấn luyện với các thuật toán đề xuất dự đoán xếp hạng chưa biết, tập kiểm thử được sử dụng để đánh giá độ chính xác của các dự đoán. Bộ dữ liệu MovieLens bộ dữ liệu lớn và kiểm tra được sử dụng thường xuyên trong lĩnh vực hệ thống gợi ý để kiểm thử các thuật toán gợi ý.

THỰC NGHIỆM VÀ ĐÁNH GIÁ

 Bộ dữ liệu MovieLens 25M (ml-25M) mở rộng quy mô và độ phức tạp so với các phiên bản trước, cung cấp một nguồn dữ liệu đáng giá cho các nhà nghiên cứu và phát triển trong lĩnh vực hệ thống gợi ý và học máy.  Bộ dữ liệu nhân tạo MovieLens 1B (ml-1B) là một sáng kiến độc đáo nhằm mô phỏng quy mô và độ phức tạp của các hệ thống gợi ý với dữ liệu cực kỳ lớn, được tạo ra từ bộ dữ liệu gốc ml-20M. Dự án Movielens không chỉ cung cấp dữ liệu xếp hạng phim mà còn cung cấp thông tin nhân khẩu học của người dùng và thông tin mô tả về phim, chẳng hạn như thể loại và thẻ mà mỗi phim được gán.

Nó được sử dụng như một đại diện để đánh giá sự hài lòng chung của khách hàng đối với sản phẩm hoặc dịch vụ của công ty và lòng trung thành của khách hàng đối với thương hiệu. Để chuẩn bị dữ liệu hoàn chỉnh trước khi phân cụm bằng K-means, chúng ta sẽ kết hợp dữ liệu OMDB API đã được chuẩn hoá bên trên cùng với dữ liệu về movies, ratings của tập dữ liệu MovieLens. Về việc lựa chọn số lượng cụm, dựa trên các biểu đồ số liệu ở trên và nhận thức kinh nghiệm về số lượng cụm tối ưu, K được đặt thành 11 cho những người dùng nhóm nhằm đạt được kết quả trung thực tốt nhất.

Đối với các cụm có độ thưa thớt tăng lên (cụm người dùng 4 và 6), Hệ thống đã cố gắng đề xuất phim phù hợp theo nguyên tắc loại bỏ thưa thớt của chúng ta bằng cách chọn các tùy chọn có xếp hạng tổng thể (IMDB) tốt hơn và tương đối giống với sở thích chung của người dùng. Trong các giá trị của RMSE, thuật toán được sử dụng trong đề án có kết quả vượt trội hơn và có giá trị tốt nhất khi được so sánh với bốn thuật toán được sử dụng để làm dữ liệu so sánh khi sử dụng trên cùng tập dữ liệu Movielens.