Sau quá trình phân tích, thiết kế và cài đặt hệ thống loại bỏ mẩu tin nhân bản thừa đã được xây dựng. Dưới đây là một số giao diện của hệ thống.
3.3.2.1 Một số giao diện của hệ thống
(2) Màn hình chính
(5) Màn hình hiển thị những bản ghi nghi ngờ
(7) Màn hình tạo mới user
3.3.2.2 Kết quả kiểm thử (1) Độđo
Hiệu quả của phương pháp làm sạch dữ liệu được đo bằng “chất lượng” của dữ liệu sau khi áp dụng phương pháp. Để đánh giá hiệu quả của thuật toán trong phạm vi luận văn tốt nghiệp này tôi đề xuất 2 độ đo như sau:
Tỉ lệ phán đoán đúng (RC). Độ đo này được tính bằng tỉ lệ những bản ghi nhân
bản thừa được phát hiện đúng. Giả sử ta có 7 bản ghi A1, A2, A3, B1, B2, B3, C1 trong đó {A1, A2, A3}, {B1, B2, B3} là 2 nhóm những bản ghi nhân bản. Phương pháp này tìm ra được {A1, A2, C1} và {B1, B2} là hai nhóm bản ghi nhân bản, lúc đó tỉ lệ phán đoán đúng được tính bằng 4/6*100% = 66.7%. Tỉ lệ này càng cao thì hiệu quả của thuật toán càng tốt.
Tỉ lệ phán đoán sai (FPE). Độ đo này phản ánh tỉ lệ phán đoán sai của phương pháp. Cách tính như sau:
Trong ví dụ trên, C1 bị phán đoán nhầm, do vậy FPE = 1/5*100% = 20%. Tỉ lệ này càng thấp thì hiệu quả của thuật toán càng tốt.
(2) Kết quả kiểm thử
Tôi tiến hành kiểm thử phần mềm này trên máy tính IBM ThinkPad T60, RAM 512MB, hệ điều hành Windows XP Professional và Microsoft .NET Framework 2.0. Bảng dữ liệu thực được dùng để kiểm thử là bảng Student. Hiệu suất xử lý và kết quả
thực hiện đối với từng bảng được trình bày chi tiết ở mục dưới đây.
Bảng dữ liệu Student
Bảng Student có 60 bản ghi. Bảng dữ liệu này bao gồm 6 trường nhưng kiến thức chuyên gia chỉ dùng 3 trường. Các luật áp dụng cho bảng dữ liệu này như sau:
Tổng số bản ghi nhân bản đã phán đoán Tổng số bản ghi phán đoán nhầm
Luật 1.(CF = 0) NẾU Số chứng minh thư nhân dân giống nhau THÌ là nhân bản của nhau.
Luật 2.(CF = 0.4) NẾU Họ Tên và Quê Quán giống nhau THÌ là nhân bản của nhau. Hiệu suất thực hiện và kết quả phát hiện nhân bản được thống kê trong bảng dưới đây. Tên bảng Student
Số lượng nhân bản thực tế 4 bộ
Số lượng nghi ngờ nhân bản thực tế 5 bộ Số lượng nhân bản phát hiện được 4 bộ Số lượng nghi ngờ nhân bản phát hiện được 4 bộ