Bộ test để kiểm tra độ chính xác của thuật toán bao gồm 302 tin được chọn từ 4 nguồn báo trong khoảng thời gian từ ngày 20/04/2010 đến ngày 13/05/2010: vnexpress.net (51 tin), dantri.com.vn (50 tin), vietnamnet.vn (64 tin) và baomoi.vn (136
Chương 4. Module thu thập tin tức và phát hiện tin trùng lặp Nguyễn Trung Kiên
tin). Bộ test bao gồm 68 cặp tin trùng lặp, đều là các tin từ trang baomoi.vn đăng lại của các nguồn báo kia. Cụ thể các tin đăng lại như sau: 16 tin đăng lại từ vnexpress.vn, 24 tin đăng lại từ dantri.com.vn, 28 tin đăng lại từ vietnamnet.vn
Tất cả các tin được lưu giữ trong cơ sở dữ liệu MySQL server.
Mỗi lần test, chúng tôi thay đổi hai tham số kiểm tra độ tương đồng của các tin tức đó là TITLE_SIMILARITY (mức độ tương đồng của tiêu đề hai bài báo) và CONTENT_SIMILARITY (mức độ tương đồng của nội dung hai bài báo). Ý nghĩ của hai tham số này giống như ở phần 3.3.2 đã trình bày. Trong quá trình kiểm tra, nếu như hai bài báo bất kỳ mà có tỉ lệ giống nhau ở tiêu đề > TITLE_SIMILARITY và ở nội dung > CONTENT_SIMILARITY thì hai bài báo đó được coi là lặp lại nhau.
Sau khi test xong, tất cả các cặp bài báo giống nhau sẽ được lưu vào trong bảng duplicate_news_test của cơ sở dữ liệu. Việc kiểm tra lại từng cặp báo giống nhau mà chương trình đưa ra, được chúng tôi thực hiện lại hoàn toàn bằng tay. Chúng tôi viết một script PHP để xem chi tiết hai bài báo của từng cặp một. Hình 13 là màn hình khi chúng tôi kiểm tra nội dung của từng cặp dữ liệu được đưa ra bởi chương trình. Hai bài báo được so sánh với nhau dựa trên nội dung mà chúng được crawler lấy về.
Cụ thể các lần chạy test như sau:
+ Lần 1: TITLE_SIMILARITY = CONTENT_SIMILARITY = 90%. Kết quả phát hiện ra 46 tin trùng lặp. Thời gian chạy : 1.5150001049 s
+ Lần 2: TITLE_SIMILARITY = CONTENT_SIMILARITY = 80%. Kết quả phát hiện 57 tin trùng lặp. Thời gian chạy 1.65600013733 s
+ Lần 3: TITLE_SIMILARITY = CONTENT_SIMILARITY = 70%. Kết quả phát hiện: 63 tin trùng lặp. Thời gian chạy: 1.82899999619s
+ Lần 4: TITLE_SIMILARITY = CONTENT_SIMILARITY = 60%. Kết quả phát hiện 64 tin trùng lặp, trong đó có một tin phát hiện không chính xác. Thời gian chạy: 1.78099989891s
+ Lần 5: TITLE_SIMILARITY = 50%, CONTENT_SIMILARITY = 0 (coi như chỉ chạy với TITLE). Kết quả phát hiện 71 tin trùng lặp, trong đó có 3 tin sai. Thời gian chạy: 1.90600013733s