Do hệ thống được xây dựng dựa trên nền tảng là xenoNews nên tất cả các thành phần đều được cài đặt cùng máy chủ với hệ thống xenoNews ban đầu đã sử dụng.
4.1.1. Điều kiện thực nghiệm
Dưới đây là thông số kỹ thuật về phần cứng và phần mềm mà tôi đã sử dụng để làm thực nghiệm:
- Phần cứng:
o Máy chủ: IBM x3650 M4 – 7915D2A
o CPU: Intel Xeon CPU 6 cores E5-2630 2.3 Ghz o RAM: 32 GB
o Ổ cứng: 3 ổ cứng 300GB chạy RAID 5 - Phần mềm:
o Hệ điều hành: Windows Server 2012 R2 o Máy chủ web: Apache
o Cơ sở dữ liệu: MariaDB
4.1.2. Dữ liệu thực nghiệm
Trong quá trình thực nghiệm, ngoài hệ thống xenoNews ban đầu, tôi có cài đặt thêm module tiếp nhận và xử lý phản hồi ẩn của người dùng để cập nhật vào hệ thống gợi ý. Các dữ liệu mà tôi đã sử dụng được bao gồm:
- Hơn 50.000 tin tức từ các trang báo Dân Trí, VnExpress, VietNamNet, Tuổi Trẻ, Tiền Phong và Thanh Niên, …
- 25 người dùng tham gia sử dụng hệ thống trong một tháng
4.1.3. Quá trình thực nghiệm
Mỗi người dùng sẽ được cấp một tài khoản trên hệ thống. Người dùng sẽ sử dụng tài khoản của họ để truy cập vào hệ thống hàng ngày vào các thời điểm khác nhau (tùy thuộc vào người dùng thu xếp được thời gian).
Hệ thống sẽ được thực hiện theo lịch tuần, mỗi tuần sẽ có những đánh giá, được thực hiện theo lịch như bảng 4.1 dưới đây (Người dùng sẽ không được biết quá trình chuyển đổi của hệ thống):
Bảng 4.1: Thử nghiệm hệ thống qua các tuần
Tuần thứ Thực hiện
1 Thu thập thông tin từ người sử dụng (hệ thống xenoNews ban đầu) 2 Tích hợp module phản hồi ẩn, thực hiện tính toán lại sở thích của người
dùng
3 Tính toán lại sở thích của người dùng 4 Tính toán lại sở thích của người dùng
4.1.4. Độ đo dùng để đánh giá
Trong lĩnh vực thu thập thông tin, độ chính xác (precision) và độ hồi tưởng (recall) được dùng làm thước đo đánh giá hệ thống. Tôi cũng sẽ sử dụng các tiêu chí này để sử dụng làm độ đo đánh giá hệ thống của mình.
Trong trường hợp hệ thống này, độ chính xác là tỉ lệ phần trăm các tin bài được hệ thống đánh giá là có liên quan, sau đó được người dùng phản hồi là gợi ý chính xác. Độ hồi tưởng là tỉ lệ phần trăm các bài báo người dùng cho là có liên quan, đồng thời hệ thống cũng đã đưa vào kết quả gợi ý cho người dùng đó.
Độ đo F1 được tổng hợp từ độ chính xác và độ hồi tưởng và được tính bằng công thức: 1 2*precision recall* F precision recall (4.1)
Như vậy, chúng ta sẽ sử dụng độ chính xác, độ hồi tưởng và độ đo F1 để đánh giá chất lượng hệ thống.
4.1.5. Kết quả thực nghiệm
Sau một tháng, hệ thống hoạt động với 25 người dùng khác nhau, thống kê của hệ thống cho ra kết quả như trong bảng 4.2 dưới đây.
Bảng 4.2: Số lượng tin tức và tỉ lệ so với tuần đầu người dùng đã đọc Chuyên mục Số tin đọc tuần 1
Tuần 2 Tuần 3 Tuần 4
Số tin đọc So với tuần đầu Số tin đọc So với tuần đầu Số tin đọc So với tuần đầu Thời sự 476 523 110% 602 126% 711 149% Thị trường 483 557 115% 613 127% 704 146% Thể thao 356 492 138% 535 150% 549 154% Công nghệ 681 801 118% 976 143% 1034 152% Phong cách 389 469 121% 542 139% 585 150% Giáo dục 334 443 133% 437 131% 489 146% Sức khỏe 352 430 122% 443 126% 438 124% Nhà đất 271 368 136% 359 132% 362 134%
Theo bảng 4.2 ta thấy số lượng lượt truy cập của người dùng từ tuần 1 đến tuần 2 đã tăng lên từ 10% đến 38%, tỉ lệ tăng trung bình là khoảng 24%. Từ tuần thứ 3 đến tuần thứ 4, nếu so với các tuần trước đó, tỉ lệ tăng gần như không đáng kể và cũng có chuyên mục bị giảm. Nhưng nếu so sánh với tuần đầu thì các tuần sau đó cũng có tỉ lệ tăng dần theo các tuần.
Bảng 4.3: Số liệu sau mỗi tuần huấn luyện (tính trung bình tất cả người dùng)
Tuần Precision Recall F1
2 77.2 62.1 68.8
3 88.6 63.7 74.1
4 89.3 63.9 74.5
Điều này có nghĩa là, khi sử dụng thêm module phản hồi ẩn, hệ thống đã gợi ý được cho người dùng những tin tức mà họ quan tâm. Còn sau khi hệ thống hoạt động một thời gian, vẫn sử dụng module này, người dùng vẫn có mức quan tâm cao hơn so với trước kia.