4. Bố cục của luận án
2.1.3. Các phƣơng pháp hạn chế vấn đề dữ liệu thƣa
Hƣớng tiếp cận phổ biến để hạn chế ảnh hƣởng vấn đề dữ liệu thƣa dựa vào các phƣơng pháp giảm số chiều của ma trận đánh giá. Về bản chất, những phƣơng pháp này hạn chế vấn đề dữ liệu thƣa bằng cách tạo nên ma trận tƣơng tác đặc hơn, sau đó sử dụng ma trận này để tính toán mức độ tƣơng quan giữa ngƣời dùng hoặc sản phẩm.
Chiến lƣợc đơn giản nhất để giảm số chiều của ma trận đánh giá là tạo lập nên các cụm sản phẩm hoặc cụm ngƣời dùng, sau đó sử dụng những cụm này nhƣ những đơn vị cơ bản để sinh ra dự đoán [14, 20, 24, 55, 103]. Ungar và Foster [68] sử dụng kỹ thuật K-median phân cụm ngƣời dùng và sản phẩm độc lập nhau, sau đó các cụm ngƣời dùng và sản phẩm đƣợc phân cụm lại để tạo nên các
cụm có mức độ tƣơng tự cao theo cả ngƣời dùng và sản phẩm. Si và Jin [66] thƣ̣c hiê ̣n phân cụm đồng thời cho cả ngƣời dùng và sản phẩm. Mô hình cho phép ngƣời dùng hoặc sản phẩm có thể ở những cụm khác nhau. Kết quả dự đoán đƣợc thực hiện trong cụm ngƣời dùng hoặc sản phẩm có mật độ đánh giá cao nhất.
Phƣơng pháp giảm số chiều của ma trận đánh giá bằng các kỹ thuật thống kê đƣợc quan tâm nhiều hơn so với các kỹ thuật phân cụm [20, 29, 62, 79]. Billsus và Pazzani [29] đề xuất việc sử dụng phƣơng pháp phát hiện ngữ nghĩa ẩn (LSM) dựa trên kỹ thuật phân rã giá trị riêng (SVD). K.Goldberg cùng các cộng sự [62] cải tiến phƣơng pháp phân cụm sử dụng kỹ thuật phân tích thành phần chính (PCA). Tuy nhiên, trong nhiều trƣờng hợp thông tin hữu ích có thể bị mất trong quá trình giảm chiều ma trận làm cho kết quả dự đoán gặp nhiều hạn chế.
Một hƣớng tiếp cận khác hạn chế vấn đề dữ liệu thƣa dựa vào việc khai thác các mối liên hệ gián tiếp trên ma trận đánh giá. Huang [119] biểu diễn ngƣời dùng và sản phẩm nhƣ một đồ thị hai phía (Bipart Graph Model), một phía là tập ngƣời dùng, phía còn lại là tập sản phẩm, mỗi cạnh nối từ đỉnh ngƣời dùng đến đỉnh sản phẩm đƣợc thiết lập nếu ngƣời dùng đã mua hoặc đánh giá cao cho sản phẩm tƣơng ứng. Dựa trên biểu diễn mối quan hệ ngƣời dùng và sản phẩm, dữ liệu đƣợc điền vào các ô còn trống trong ma trận đánh giá thực hiện bằng cách lan truyền có trọng số trên đồ thị hai phía.
Desrosiers và Karypis [24] hạn chế vấn đề dữ liệu thƣa bằng độ tƣơng quan gián tiếp (Indirect Similarity). Trong phƣơng pháp này, mức độ tƣơng tự giữa các cặp ngƣời dùng không chỉ đƣợc tính toán dựa trên tập sản phẩm cả hai ngƣời dùng cùng đánh giá, mà còn đƣợc tăng cƣờng thêm giá trị tƣơng tự gián tiếp đƣợc tính dựa trên tập sản phẩm hai ngƣời dùng đánh giá không giao nhau.
Phƣơng pháp hạn chế vấn đề dữ liệu thƣa của lọc cộng tác đề xuất trong chƣơng này đƣợc thực hiện dựa trên kỹ thuật học đa nhiệm [3, 81]. Học đa nhiệm cho phép phát hiện ra các đặc trƣng chung cho một hoặc nhiều ngƣời dùng khác nhau. Các đặc trƣng chung tìm đƣợc đóng vai trò chia sẻ, bổ sung
thông tin cho những ngƣời dùng khác sẽ làm tăng dữ liệu huấn luyện, vì vậy nâng cao kết quả dự đoán và hạn chế đƣợc ảnh hƣởng của tình trạng dữ liệu thƣa của lọc cộng tác.