Phân tích và ứng dụng học sâu trong hệ tư vấn

MỤC LỤC

Ti ́nh cấp thiết của đề tài

Trên thực tế, trước đây chúng ta thường nhờ các chuyên gia hoă ̣c ba ̣n bè giúp đỡ để đưa ra quyết đi ̣nh, nhưng trong khoảng thời gian vừa qua, với sự gia tăng chóng mặt của các sàn thương mại điện tử, nhu cầu tìm kíếm và mua bán sản phẩm một cách nhanh chó ng và phù hợp với sở thích của người tiêu dùng được đặc biệt quan tâm, điều này đã thu hút được sự chú ý và quan tâm từ nhiều nhà nghiên cứu từ khắp nơi trên thế giới với mục tiêu đáp ứng được những đòi hỏi cấp thiết của thị trường. Những công trình nghiên cứu đã được kiểm chứng như phương pháp Content- Based (đề xuất dựa trên nô ̣i dung), Collborative Filtering (lo ̣c cô ̣ng tác) đều dựa trên nền tảng ho ̣c máy truyền thống hay phương pháp được phát triển gần đây như Autoencoder dựa trên kỹ thuâ ̣t học sâu.

Đă ̣t vấn đề

Sau cùng là nghiên cứu cài đặt phương pháp áp dụng đồ thị với bộ tự mã hóa rồi thực hiện so sánh hiệu suất với các phương pháp được cài đặt trước đó.

Mu ̣c tiêu đề ra

Xây dựng mô hình mạng học sâu kết hợp với đồ thị và giải thuật K-means, tiến hành cài đặt và so sánh hiệu suất với các phương pháp phổ biến.

Phương pháp nghiên cứu

Bố cu ̣c của báo cáo

TỔNG QUAN VỀ HỆ TƯ VẤN

Ca ́c lĩnh vực ứng du ̣ng của hê ̣ tư vấn

Phát biểu bài toán cho hệ tư vấn

Thông thường giá trị của 𝑟𝑛,𝑚 nằm trong tập số tự nhiên {1, 2, 3, … } được thu thập bằng cách lấy đánh giá trực tiếp của người dùng hoặc gián tiếp thông qua hệ thống phản hồi đánh giá của khách khàng. Và để giải quyết bài toán hệ tư vấn này, thông thường sẽ được thực hiện theo quy trình xây dựng ở mục tiếp theo.

Quy trình xây dựng hệ tư vấn

 Người dùng (User): được mô tả qua thông tin cá nhân mà khách hàng cung cấp và nhờ vậy lập trình viên có thể xây dựng dữ liệu thô cho từng sản phẩm. Kết quả đầu ra của Bước 3 sẽ được dùng để dự đoán các đánh giá xếp loại của người dùng với sản phẩm chưa có đánh giá trước đó và chọn ra 𝒛 sản phẩm mới phù hợp nhất đối với người dùng hiện thời để đưa ra gợi ý cho họ.

Các hướng tiếp cận xây dựng hệ tư vấn

    Những vấn đề gặp phải: Người dùng mới: Trong trường hợp người dùng mới, họ không có đánh giá cho bất kỳ sản phẩm nào, khi đó CF không thể đưa ra đề xuất chính xác cho những khách hàng này; Sở thích thay đổi theo thời gian: Theo tuổi tác tăng trưởng, hoàn cảnh thay đổi theo mùa thì để đưa ra được đề xuất chính xác sẽ gặp khó khăn rất nhiều; Dữ liệu thưa: Trên thực tế, lượng sản phẩm lẫn người dùng đều rất lớn nên những đánh giá thu được chỉ là một phần rất nhỏ so với những đánh giá cần dự đoán. Những vấn đề gặp phải: Phức tạp trong triển khai: Hệ tư vấn lai thường khó triển khai thực tế hơn các phương pháp khác do kiến trúc phức tạp của chúng; Khó trong việc hiểu và giải thích: Các đặc trưng tiềm ẩn chứa nhiều thứ phức tạp, không thể mô tả theo cách thông thường; Và không phải lúc nào kết hợp đặc tính của CF với lọc nội dung cũng thích hợp, khi bao gồm nhiều đặc trưng thì dữ liệu sẽ chứa nhiều biến dư thừa hơn dẫn đến hiện tượng đa cộng tuyến có thể xảy ra [5].

    Phương pháp đánh giá hệ tư vấn

      Time-sensitive dựa trên vấn đề thay đổi theo thời gian như đã đề cập trước đó cũng mở đầu đầu cho một phương pháp tiếp cận mới có thể xử lý được bài toán này. Demography-based [8], một hệ tư vấn dựa trên nhân khẩu học, thông tin về người dùng được tận dụng để tìm hiểu, phân loại và ánh xạ tới việc đánh giá sản phẩm hoặc xu hướng mua sắm [5].

      Cơ sở lý thuyết cho các phương pháp phổ biến

      • Hệ tư vấn sử dụng lọc cộng tác

        Thuật toỏn cốt lừi của User - CF là tỡm những người dựng cú hành vi đỏnh giỏ trong quá khứ tương tự với người dùng cần dự đoán và sử dụng đánh giá của những người dùng tương tự đó để dự đoán cái mà người dùng cần dự đoán sẽ thích. Các vectơ đặc trưng được xây dựng dựa trên ma trận tiện ích 𝒀, tuy nhiên khó khăn đặt ra vì ma trận này thường là một ma trận thưa (sparse matrix) bao gồm nhiều giá trị bị khuyết vì người dùng thường chỉ đánh giá một lượng rất nhỏ các sản phẩm. User – CF đạt được nhiều thành công trong quá khứ nhưng cũng gặp phải một số hạn chế khi được sử dụng rộng rãi như: Sự thưa thớt: Thực tế ngay cả với người dùng tích cực nhất cũng chỉ có thể mua được số sản phẩm chiếm tỷ lệ rất thấp trong tổng số sản phẩm.

        Và nếu lượng sản phẩm nhỏ hơn số lượng người dùng, mô hình này sẽ có những ưu điểm như tính toán ít hơn do ma trận tiện ích có số hàng ít hơn số cột nên ảnh hưởng bởi đánh giá của một người dùng sẽ ít ảnh hưởng đến giá trị trung bình của tổng các đánh giá của mọi người dùng tới sản phẩm đó. Thay vì áp dụng mô hình Singular Value Decomposition (SVD), giải pháp của Simon Funk là phân tích ma trận tiện ích thành tích hai ma trận có số chiều thấp hơn, ma trận thứ nhất có hàng cho mỗi người dùng và ma trận thứ hai có cột tương ứng với mỗi sản phẩm. Thay vì phải tính ma trận tương tự người dùng hay sản phẩm luôn yêu cầu về bộ nhớ rất lớn thì việc huấn luyện để tối ưu một trong hai ma trận 𝐗 hoặc 𝐖 và cố định ma trận còn lại có vẻ phức tạp hơn nhưng khi thực hiện tính giá trị dự đoán đơn giản hơn rất nhiều vì chỉ cần tính tích vô hướng hai ma trận để tìm 𝐘̂.

        MÔ HÌNH DỰA TRÊN ĐỒ THỊ VÀ HỌC SÂU

        Cơ sở lý thuyết cho mô hình GHRS

        • Lựa chọn đặc trưng dựa trên đồ thị
          • Autoencoder
            • Phân cụm người dùng

              Tuy nhiên công thức (2.3) gặp phải một vấn đề có tên là đường cụt (dead ends), nghĩa là trong quá trình tính toán khi đồ thị đầu vào xuất hiện nút không có liên kết đi ra (links out) khỏi nút đó và giá trị bị kẹt tại đó và khiến giá trị một vài nút hoặc tất cả các nút sau khi thực hiện tính toán lặp nhiều lần tiến dần về 0. Giá trị của hệ số này chạy từ 0 đến 1 và khi giá trị tiến gần đến 1 thì tính trung tâm của nút càng lớn, tức là nút này càng có nhiều kết nối với các nút khác trong đồ thị, điều này đồng nghĩa với việc nút đó nắm giữ nhiều thông tin nhất. Phương pháp được sử dụng để tìm đường đi ngắn nhất khi sử dụng hàm closeness_centrality() của thư viện networkx được đặt mặc định là thuật toán Dijkstra, trong khi các thuật toán thông dụng khác như Bellman-Ford, Floyd-Warshall hay Johnson vẫn chưa được hỗ trợ.

              Mục đích là làm sao để chia dữ liệu thành các cụm (cluster) khác nhau sao cho dữ liệu trong cùng một cụm có những tính chất giống nhau, hiểu theo một cách hình học là khoảng cách của các thành viên trong cụm tới tâm cụm (centroid) của chúng phải là gần hơn so với tâm của các cụm khác, kiểu phân chia này trong toán học được gọi là sơ đồ Voronoi.

              Hình 2.2: Đồ thị 4 nút chứa đường cụt
              Hình 2.2: Đồ thị 4 nút chứa đường cụt

              Cơ sở thực nghiệm

              Xây dựng mô hình GHRS

               Bước 3: Tiến hành kết hợp thông tin phụ như giới tính và độ tuổi với các đặc trưng dựa trên đồ thị ở bước 2 làm đầu vào cho giai đoạn Autoencoder.  Bước 5: Sử dụng các đặc trưng mới được mã hóa bởi Autoencoder để phân cụm người dùng, sử dụng thuật toán K-means đã trình bày trong mục 2.1.3 để tạo ra một số lượng các nhóm người dùng có sự tương đồng.  Bước 6: Phân bố người dùng mới vào cụm thích hợp dựa trên các đặc trưng được mã hóa và dự đoán xếp hạng các mục mới mà người dùng đó chưa xếp hạng.

              Sáu kỹ thuật được sử dụng trong quá trình xây dựng đồ thị, phương pháp Autoencoder với nhiễu đầu nhằm tăng cường khả năng học các đặc trưng tiềm ẩn và hai phương pháp phổ biến cho việc tìm hệ số phân cụm tối ưu.

              Hình 2.4: Framework của phương pháp GHRS [21]
              Hình 2.4: Framework của phương pháp GHRS [21]

              KẾT QUẢ THỰC NGHIỆM

              • Môi trường thực nghiệm

                Các phương pháp đã được trình bày tại chương I và chương II sẽ được đưa vào thực nghiệm bao gồm Content-based, User-based CF, Item-based CF, User-based Matrix Factorization, Item-based MF, Autoencoder-based CF, User- based SVD, Item-based SVD và GHRS. Việc tác giả bỏ qua thực nghiệm kiểm tra trên tập dữ liệu huấn luyện có phân phối không đồng nhất là một thiếu sót khiến người đọc khụng nhận thức được rừ ràng phạm vi mà mụ hỡnh GHRS cú thể đạt được hiệu quả cao và những trường hợp GHRS không thể cho ra kết quả tốt hơn so với các phương pháp phổ biến khác. Đề án đã triển khai cài đặt được một số phương pháp nổi bật nhất trong lĩnh vực xây dựng hệ tư vấn, kết quả thực nghiệm của từng phương pháp, từ đó đánh giá được ưu nhược điểm của các phương pháp đó dựa trên tập dữ liệu Movielens-100k.

                [13] Fethi Fkih, Similarity measures for Collaborative Filtering-based Recommender Systems: Review and experimental comparison, Journal of King Saud University - Computer and Information Sciences, Volume 34, Issue 9, 2022, Pages 7645-7669, ISSN 1319-1578.

                Hình 3.2: Các đặc trưng đầu vào cho Autoencoder
                Hình 3.2: Các đặc trưng đầu vào cho Autoencoder