User ID Tuổi Giới tính Nghề nghiệp
1 24 M technician
2 53 F other
3 23 M writer
50
Trong quá trình xây dựng và đánh giá hệ thống, ta sẽ chia bộ dữ liệu này thành các tập học và tập thử, đầu ra hệ thống là một tập các sản phẩm gợi ý kèm theo các dự đốn đánh giá của mỗi sản phẩm cho khách hàng cĩ ID bất kỳ cho trước.
3.2. Đề xuất cách tiếp cận
Như đã nĩi ở phần trước, mỗi kỹ thuật gợi ý cĩ điểm mạnh điểm yếu riêng, cho nên ta sẽ xây dựng hệ thống lai bao gồm nhiều hệ thống thành phần sử dụng những kỹ thuật khác nhau:
3.2.1.Hệ thống gợi ý thứ nhất
Do ở đây ta sử dụng dữ liệu đánh giá sản phẩm, mặt khác do dữ liệu về thơng tin sản phẩm nghèo nàn nên khơng thích hợp sử dụng phương pháp content-based. Ta sẽ sử dụng phương pháp lọc cộng tác dựa trên sản phẩm để tận dụng thế mạnh của đánh giá người dùng, lý do sử dụng item-based chứ khơng phải user-based ở đây là vì những lợi thế của nĩ:
- Số lượng người dùng trên các hệ thống TMĐT thực tế thường nhiều hơn so với số lượng sản phẩm, cĩ thể gấp 10 lần đến cả hàng trăm, hàng nghìn lần. Do đĩ nếu ta sử dụng item-based sẽ giảm nhẹ được quá trình tính tốn.
- Người dùng thường được tự thêm vào tự phát bên phía khách hàng, người quản trị hệ thống khơng thể kiểm sốt được, cịn sản phẩm thì thường do phía người bán hoặc người quản trị hệ thống mới cĩ quyền thêm vào, vì vậy sử dụng kỹ thuật lọc cộng tác dựa trên sản phẩm ổn định hơn.
Thời gian xử lý là một trong những yếu tố sống cịn với các hệ thống tương tác thời gian thực, tuy số lượng sản phẩm tuy ít hơn người dùng nhưng thực tế vẫn cĩ số lượng lớn, ta sẽ sử dụng thêm kỹ thuật phân cụm sản phẩm để giảm thời gian xử lý cho hệ thống.
51
Kỹ thuật phân cụm: Từ bộ dữ liệu đầu ta xuất ra được ma trận tương đồng các sản phẩm, lấy nĩ làm đầu vào cho quá trình phân cụm, ta sẽ dựa vào ma trận này để phân cụm sản phẩm.
So sánh một số phương pháp phân cụm sản phẩm trong bộ dữ liệu MovieLens 100K thì theo nghiên cứu của Mark O’Connor & Jon Herlocker trong [8] đã chỉ ra kết quả của các phương pháp phân cụm trên tập dữ liệu này như sau:
Phương pháp MAE Khơng phân cụm 0.7594 Random 0.8211 Genre 0.7806 Average Link 0.7754 hMetis k = 5, Ubfactor = 10 0.7859 hMetis k = 5, Ubfactor = 1 0.7951 kMetis k = 5 0.8033
ROCK Khơng hiệu quả