5.3.3. Kết quả thực nghiệm 3: Thống kê theo độđo CBD cho Amazon sách-phim phim
Với bộ dữ liệu 100k của Amazon, kết quả thực nghiệm thể hiện trong bảng 5.4 (theo cả hai tỷ lệ phân chia 50% huấn luyện và 50% kiểm tra cũng như 65% huấn luyện và 35% kiểm tra) cho thấy thuật toán liên lĩnh vực cho kết quả overfit mô hình cao hơn thuật toán tư vấn trên một lĩnh vực. Trong khi đó thuật toán cải tiến của luận văn cũng giúp làm giảm overfit trong mô hình học thống kê so với thuật toán CRF gốc cũng như so với thuật toán tư vấn trên một lĩnh vực nhờ vào quá trình ánh xạ hồ sơ NSD của thuật toán cải tiến.
0.31 0.315 0.32 0.325 0.33 0.335 0.34 0.345 Tr50-Ts50 Tr65-Ts35 TV1_sách TV1_phim CRF CRF_cải tiến
Bảng 5. 4. Kết quả thực nghiệm theo độ đo CBD trên Amazon 100K.
Thuật toán Tỉ lệ (huấn luyện: kiểm tra)
50%:50% 65%:35%
Thuật toán tư vấn dựa trên một lĩnh
vực sách 0.229 0.229
Thuật toán tư vấn dựa trên một lĩnh
vực phim 0.267 0.267
Thuật toán tư vấn liên lĩnh vực CRF 0.272 0.272
Thuật toán tư vấn liên lĩnh vực CRF
cải tiến 0.233 0.233
Kết quả thực nghiệm thể hiện ở biểu đồ hình 5.4 cho thấy kết quả tư vấn của các thuật toán dựa trên hai lĩnh vực không tốt hơn thuật toán chỉ dựa trên một lĩnh vực theo độ đo CBD. Tuy nhiên, biểu đồ thực nghiệm trong hình 4.5 đã chỉ ra thuật toán CRF cải tiến đề xuất nâng cao hiệu quả cho hệ thống tư vấn trên CSDL 100K của Amazon so với thuật toán gốc. Kết quả tư vấn trên một lĩnh vực sách cho kết quả tốt nhất có thể vì các hành vi lựa chọn sách của NSD ít biến đổi theo thời gian so với phim. Hay nói cách khác nếu tính bất ngờ khi tư vấn sách mà cao sẽ không chính xác với CSDL thu thập của Amazon Books.