Ma trận mô tả trung bình các giá trị trong ma trận user-item

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến (Trang 47 - 49)

i1 i2 ij item i User u 1 2 … j ... … … … … ui … ri,ji r …. … … … j r

Trong sơ đồ trung bình đối tượng (đối tượng average scheme) chúng ta sử dụng mức trung bình rj của từng đối tượng ij bằng cách điền đầy vào vị trí lỗi (thiếu) trong ma trận một giá trị ri,j. Chúng ta tính trung bình cột của mỗi cột trong ma trận user- matrix và điền đầy vào ma trận các cột tương tự (đối tượng tương tự) mà chưa có giá trị.

rj nếu người dùng ui chưa đánh giá đối tượng ij

r nếu người dùng ui đã đánh giá đối tượng ij với giá trị là r

(rij: điểm đánh giá của hàng i, cột j)

Áp dụng sơ đồ trung bình đối tượng hay trung bình người dùng cho mỗi giá trị lỗi trong ma trận sẽ dẫn đến một chi tiết mới, ma trận hoàn chỉnh. Vấn đề dữ liệu thưa hoàn toàn đã được loại bỏ.

Sử dụng kỹ thuật giảm số chiều

Chiến lược đơn giản để giảm số chiều là hình thành tập các cụm đối tượng hoặc người dùng, sau đó sử dụng các cụm này như một thành phần cơ bản trong dự đoán [17]. Để phương pháp này tốt hơn thì nên sử dụng phương pháp thống kê như kỹ thuật phân tích thành phần PCA (Principal Component Analysis) và kỹ thuật truy vấn thông tin như chỉ mục ngữ nghĩa LSI (Latent Semantic Indexing). Có một số kỹ thuật trích chọn đặc trưng như SVD (Singular Value Decomposition) – kĩ thuật đại số cũng có thể được áp dụng nhằm làm giảm số chiều ma trận.

rij=

Về bản chất, những phương pháp giảm số chiều giải quyết vấn đề thưa thớt bằng cách sinh ra nhiều ma trận tương tác user - item được xem là gần gũi nhất với người dùng và đối tượng. Tuy nhiên, trong một vài trường hợp thông tin hữu ích có thể bị mất trong suốt tiến trình giảm chiều ma trận làm cho các dự đoán không còn đáng tin cậy nữa. Giải quyết sự khác nhau của vấn đề thưa thớt dữ liệu chính là sự kết hợp giữa phương pháp lọc cộng tác với những phương pháp tiếp cận dựa trên nội dung. Thêm vào đó là những tương tác giữa người dùng – đối tượng. Vì vậy các kỹ thuật này cũng xem độ tương tự đối tượng xuất phát từ nội dung của chúng, điều này tạo ra dự đoán chính xác hơn. Tuy nhiên, khuyết điểm chính của những kỹ thuật này là chúng chỉ có thể được sử dụng khi nội dung thông tin có sẵn trong hệ thống.

Sử dụng đồ thị song phương

Ở phương pháp này xem dữ liệu giống như đồ thì song phương, ở đó mỗi nút biểu diễn người dùng và đối tượng tư vấn, mỗi cạnh (u,i) được nối giữa người dùng u

và sản phẩm i nếu u được đánh giá bởi i. Hơn nữa, cạnh (u, i) đưa ra trọng số tương ứng với đánh giá được người dùng u gán cho sản phẩm i. Những phương pháp này sau đó chuyển hóa độ tương tự giữa những người dùng hoặc sản phẩm sử dụng lý thuyết đồ thị. Chẳng hạn phương pháp này tính toán độ tương tự giữa hai người dùng tương ứng với việc tính độ trung bình giữa những nút tương ứng của chúng trong những đường ngẫu nhiên của đồ thị. Các phép đo khác trên đồ thị cũng được nghiên cứu, chẳng hạn như khoảng cách ngắn nhất giữa hai nút trên đồ thị, khoảng cách ảnh hưởng của các nút trên đồ thị. Hạn chế của các phương pháp này là không thể hiện tốt độ đo tương tự trong bài toán dự đoán đánh giá.

Ngoài ra theo tác giả Duy Phương [32] còn đề xuất sử dụng phương pháp học đa nhiệm vào lọc cộng tác nhằm sử dụng tập đặc trưng chung của tập người dùng khác nhau vào quá trình huấn luyện. Những đặc trưng chung tìm được đóng vai trò chia sẻ thông tin trong tập người dùng tương ứng không chỉ nâng cao được kết quả dự đoán mà còn hạn chế được ảnh hưởng của vấn đề dữ liệu thưa.

2- Đối tượng mới

Chúng ta có thể dùng kỹ thuật user average scheme (đã mô tả ở mục 1- trong phần này) để giải quyết vấn đề này chúng ta sử dụng mức trung bình đối tượng ri của từng người dùng ui để điền vào giá trị thiếu ri,j trong ma trận. Cụ thể, chúng ta tính trung bình hàng trong ma trận user-item và điền vào tất cả các chỗ khuyết của cùng một hàng không có giá trị, sử dụng trung bình là:

i

r khi người dùngui chưa đánh giá đối tượng mới ij (quan sát bảng mô tả 3.6)

(rij:điểm đánh giá của hàng i cột j)

3- Khắc phục người dùng mới

Tạo lập cộng đồng tương tự dựa trên mô hình cộng đồng đa tiêu chí.

Với hai phương pháp tìm cộng đồng tương tự theo hàng xóm gần nhất và khoảng cách tâm thì quá trình tạo lập cộng đồng chỉ dựa trên một tiêu chí là điểm đánh giá. Trong trường hợp người dùng mới đăng kí với hệ thống, khi đó hệ thống chưa có thông tin đánh giá của người dùng. Để tạo lập cộng đồng hệ thống phải cung cấp các tài nguyên để người dùng đánh giá và dựa trên những thông tin này để thành lập cộng đồng. Theo cách này người dùng phải tốn khá nhiều công sức trước khi được xếp vào một cộng đồng nào đó. Mô hình không gian cộng đồng đa tiêu chí có thể khắc phục được những hạn chế trên [21]. Với cách tiếp cận này, mỗi thuộc tính trong hồ sơ (tuổi, nghề, nơi cư trú, trình độ, chủ đề quan tâm, sở thích, thông tin phản hồi..) đều có thể được sử dụng như một tiêu chí để thành lập cộng đồng. Như vậy, một người dùng có thể thuộc về nhiều cộng đồng khác nhau và tập hợp tất cả những cộng đồng trong hệ thống hình thành nên một không gian cộng đồng và sẽ được biểu diễn bằng một bảng cộng đồng (alpha – community table) Tmxn

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến (Trang 47 - 49)

Tải bản đầy đủ (PDF)

(69 trang)