MỤC LỤC
Nhiệm vụ của hệ thống này là tận dụng hiểu biết sâu sắc về cơ sở dữ liệu sản phẩm, thông tin cá nhân người dùng và sự tương tác giữa các sản phẩm để đưa ra các gợi ý chính xác nhất, nhằm đảm bảo rằng mỗi người dùng có thể tìm thấy những sản phẩm ưng ý nhất trong thời gian ngắn nhất. Mục tiờu cốt lừi của hệ thống gợi ý là chọn lọc và đề xuất một loạt cỏc mục dữ liệu phù hợp, với mục đích không chỉ đáp ứng nhu cầu cơ bản mà còn tinh tế đến nỗi cú thể dự đoỏn và đỏp ứng cả những mong muốn khụng rừ ràng của người dùng, nhằm nâng cao trải nghiệm và sự thỏa mãn của họ đối với hệ thống.
Trong phương pháp lọc cộng tác, hệ thống gợi tìm kiếm những nhóm người dùng có hành vi "tương đồng" bằng cách phân tích lịch sử tương tác của họ, được lưu trữ trong ma trận tương tác User – Item. Hệ thống gợi ý đưa ra đánh giá dựa trên độ phù hợp 𝑟(𝑈, 𝐼) giữa người dùng hiện tại 𝑈 và đối tượng 𝐼 bằng cách sử dụng độ phù hợp r(𝑈𝑗, I) của những người dùng 𝑈𝑗 khác, có sở thích tương đồng với 𝑈.
Điều này tạo nên sự khỏc biệt rừ ràng so với phương phỏp lọc cộng tỏc, trong đú hiệu suất của hệ thống gợi ý phụ thuộc nhiều vào việc phân tích và xử lý tập hợp dữ liệu tương tác lớn từ người dùng để tìm ra các mẫu và quy luật, như xác định sản phẩm được ưa chuộng. Hiện tượng được gọi là "cứng nhắc" trong kết quả khuyến nghị (tăng chuyên môn): Hệ thống có thể trở nên "cứng nhắc" và gợi ý các sản phẩm chỉ phù hợp với hồ sơ của người dùng cụ thể mà không tận dụng thông tin của những người dùng khác có cùng sở thích.
Tiêu chuẩn RMSE tập trung vào các lỗi có giá trị lớn hơn 1, trái ngược với tiêu chuẩn MAE. Mục tiêu của RMSE là xác định mô hình đánh giá giá trị người dùng tốt hơn mô hình Cinematch của Netflix vào năm 2007 khi nó được chọn làm tiêu chí đánh giá cho cuộc thi Netflix Awards [9]. Kết luận chương 1: Chương 1 đã trình bày những nội dung cơ bản và tổng quan về hệ thống gợi ý.
Chương tiếp theo sẽ thảo luận chi tiết về mô hình đề xuất cộng tác sử dụng học máy trong chương tiếp theo và đề xuất một mô hình cụ thể cho các hệ thống gợi ý, sử dụng thuật toán phân cụm mờ.
Trong thuật toán dựa trên hợp tác, phân cụm có thể giúp giảm số lượng cụm ứng viên, làm cho việc tính toán trở nên hiệu quả hơn bằng cách giảm kích thước của ma trận người dùng-mục đích cần xem xét, từ đó tăng cường hiệu suất của hệ thống gợi ý. Chúng hoạt động bằng cách phân tích một tập hợp dữ liệu huấn luyện đã được gắn nhãn, từ đó xây dựng một mô hình dạng cây với các nút đại diện cho các quyết định dựa trên thuộc tính của dữ liệu và các lá của cây đại diện cho kết quả phân loại hoặc giá trị đầu ra. Một trong những ưu điểm chính của cây quyết định là tính trực quan và dễ hiểu; chúng cho phộp chỳng ta dễ dàng theo dừi cỏch một quyết định được đưa ra thụng qua một loạt các câu hỏi và quyết định dựa trên các thuộc tính dữ liệu.
So với các thuật toán phức tạp khác như Mạng nơ-ron nhân tạo (ANN) và Máy vector hỗ trợ (SVM), cây quyết định thường được coi là dễ hiểu hơn nhiều bởi vì chúng thể hiện các quyết định và phân loại dữ liệu một cách rừ ràng và logic. Một điểm mạnh khỏc của cõy quyết định là khả năng xử lý dữ liệu hỗn hợp – tức là, chúng có thể đồng thời xử lý dữ liệu số (liên tục) và danh mục (phân loại) mà không cần phải chuyển đổi hay tiền xử lý dữ liệu một cách phức tạp.
Việc phân cụm cũng tăng cường tính đa dạng của đề xuất, đảm bảo khả năng mở rộng bằng cách thực hiện tính toán hiệu quả hơn và cung cấp khả năng diễn giải để hiểu lý do tại sao một số đề xuất nhất định được đưa ra. Hơn nữa, việc phân cụm cho phép các hệ thống đề xuất thích ứng với việc thay đổi sở thích của người dùng, khiến nó trở thành một công cụ quan trọng để cung cấp các đề xuất chính xác, lấy người dùng làm trung tâm. Các thách thức bao gồm việc chọn thuật toán phân cụm và số lượng cụm phù hợp, xử lý dữ liệu nhiều chiều, giải quyết vấn đề khởi động nguội cho người dùng hoặc mục mới cũng như quản lý khả năng mở rộng và phát triển cụm.
Các hạn chế bao gồm việc thiếu cá nhân hóa hoàn toàn, vì việc phân cụm cung cấp khả năng cá nhân hóa ở cấp độ cụm, giả định về tính đồng nhất có thể không nắm bắt được thị hiếu đa dạng trong một cụm. Cuối cùng, phân cụm có thể tối ưu hóa tài nguyên và hiệu quả của hệ thống, cho phép xử lý dữ liệu ở quy mô lớn và đa chiều, đồng thời cung cấp các đề xuất nhanh chóng và đáng tin cậy cho người dùng.
Vì điểm ngoại lệ không thuộc về bất kỳ cụm nào và các ma trận con được nhóm trong các cụm có khả năng dày đặc hơn so với ma trận lớn gốc, ta có kỳ vọng tìm thấy các tương quan tốt hơn trong các cụm. Giả định như vậy không đúng vì các thuộc tính ảnh hưởng đến hiệu suất của quá trình phân cụm: trong khi một số thuộc tính có thể ảnh hưởng tiêu cực đến quá trình phân cụm hoặc không có ảnh hưởng gì đối với mô hình, thì những thuộc tính khác có thể quan trọng để xác định cấu trúc của vấn đề. Do đó, việc chuẩn hóa và tỉ lệ thuộc tính là cần thiết trước khi thực hiện phân cụm, sau đó, chúng ta thực hiện phân cụm K-means trên mỗi đặc trưng của mục một cách độc lập cho K cụm với phạm vi từ 2 đến 10 để chọn các đặc trưng và số lượng cụm mang lại quá trình phân cụm hiệu quả hơn.
Fuzzy C- means là một phương pháp phân cụm trong đó một đối tượng được gán cho hai hoặc nhiều hơn hai cụm với các mức độ thành viên khác nhau trong khi phân cụm K-means nhóm một bộ đối tượng trong một số k cụm đã được xác định. Ngoài ra, tác giả kết hợp kết quả của fuzzy c-means vào độ đo tương tự Jaccard như một đánh giá về sự tương tự giữa hai người dùng để cung cấp kết quả khuyến nghị tốt hơn so với các phương pháp truyền thống trong CF.
Cuối cùng, thuật toán dự đoán đánh giá cho các mục chưa được xem bởi người dùng u và chọn ra các mục Top-N để đề xuất.
Bộ dữ liệu MovieLens 25M (ml-25M) mở rộng quy mô và độ phức tạp so với các phiên bản trước, cung cấp một nguồn dữ liệu đáng giá cho các nhà nghiên cứu và phát triển trong lĩnh vực hệ thống gợi ý và học máy. Bộ dữ liệu nhân tạo MovieLens 1B (ml-1B) là một sáng kiến độc đáo nhằm mô phỏng quy mô và độ phức tạp của các hệ thống gợi ý với dữ liệu cực kỳ lớn, được tạo ra từ bộ dữ liệu gốc ml-20M. Dự án Movielens không chỉ cung cấp dữ liệu xếp hạng phim mà còn cung cấp thông tin nhân khẩu học của người dùng và thông tin mô tả về phim, chẳng hạn như thể loại và thẻ mà mỗi phim được gán.
Để chuẩn bị dữ liệu hoàn chỉnh trước khi phân cụm bằng K-means, chúng ta sẽ kết hợp dữ liệu OMDB API đã được chuẩn hoá bên trên cùng với dữ liệu về movies, ratings của tập dữ liệu MovieLens. Về việc lựa chọn số lượng cụm, dựa trên các biểu đồ số liệu ở trên và nhận thức kinh nghiệm về số lượng cụm tối ưu, K được đặt thành 11 cho những người dùng nhóm nhằm đạt được kết quả trung thực tốt nhất. Đối với các cụm có độ thưa thớt tăng lên (cụm người dùng 4 và 6), Hệ thống đã cố gắng đề xuất phim phù hợp theo nguyên tắc loại bỏ thưa thớt của chúng ta bằng cách chọn các tùy chọn có xếp hạng tổng thể (IMDB) tốt hơn và tương đối giống với sở thích chung của người dùng.
Trong các giá trị của RMSE, thuật toán được sử dụng trong đề án có kết quả vượt trội hơn và có giá trị tốt nhất khi được so sánh với bốn thuật toán được sử dụng để làm dữ liệu so sánh khi sử dụng trên cùng tập dữ liệu Movielens.