Kết quả thực nghiệm

Một phần của tài liệu Loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ (Trang 62)

Sau quá trình phân tích, thiết kế và cài đặt hệ thống loại bỏ mẩu tin nhân bản thừa đã được xây dựng. Dưới đây là một số giao diện của hệ thống.

3.3.2.1 Mt s giao din ca h thng

(2) Màn hình chính

(5) Màn hình hiển thị những bản ghi nghi ngờ

(7) Màn hình tạo mới user

3.3.2.2 Kết qu kim th (1) Độđo

Hiệu quả của phương pháp làm sạch dữ liệu được đo bằng “chất lượng” của dữ liệu sau khi áp dụng phương pháp. Để đánh giá hiệu quả của thuật toán trong phạm vi luận văn tốt nghiệp này tôi đề xuất 2 độ đo như sau:

Tỉ lệ phán đoán đúng (RC). Độ đo này được tính bằng tỉ lệ những bản ghi nhân

bản thừa được phát hiện đúng. Giả sử ta có 7 bản ghi A1, A2, A3, B1, B2, B3, C1 trong đó {A1, A2, A3}, {B1, B2, B3} là 2 nhóm những bản ghi nhân bản. Phương pháp này tìm ra được {A1, A2, C1} và {B1, B2} là hai nhóm bản ghi nhân bản, lúc đó tỉ lệ phán đoán đúng được tính bằng 4/6*100% = 66.7%. Tỉ lệ này càng cao thì hiệu quả của thuật toán càng tốt.

Tỉ lệ phán đoán sai (FPE). Độ đo này phản ánh tỉ lệ phán đoán sai của phương pháp. Cách tính như sau:

Trong ví dụ trên, C1 bị phán đoán nhầm, do vậy FPE = 1/5*100% = 20%. Tỉ lệ này càng thấp thì hiệu quả của thuật toán càng tốt.

(2) Kết qu kim th

Tôi tiến hành kiểm thử phần mềm này trên máy tính IBM ThinkPad T60, RAM 512MB, hệ điều hành Windows XP Professional và Microsoft .NET Framework 2.0. Bảng dữ liệu thực được dùng để kiểm thử là bảng Student. Hiệu suất xử lý và kết quả

thực hiện đối với từng bảng được trình bày chi tiết ở mục dưới đây.

Bảng dữ liệu Student

Bảng Student có 60 bản ghi. Bảng dữ liệu này bao gồm 6 trường nhưng kiến thức chuyên gia chỉ dùng 3 trường. Các luật áp dụng cho bảng dữ liệu này như sau:

Tổng số bản ghi nhân bản đã phán đoán Tổng số bản ghi phán đoán nhầm

Luật 1.(CF = 0) NU Số chứng minh thư nhân dân giống nhau THÌ là nhân bản của nhau.

Luật 2.(CF = 0.4) NU Họ Tên và Quê Quán giống nhau THÌ là nhân bản của nhau. Hiệu suất thực hiện và kết quả phát hiện nhân bản được thống kê trong bảng dưới đây. Tên bảng Student

Số lượng nhân bản thực tế 4 bộ

Số lượng nghi ngờ nhân bản thực tế 5 bộ Số lượng nhân bản phát hiện được 4 bộ Số lượng nghi ngờ nhân bản phát hiện được 4 bộ

Một phần của tài liệu Loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ (Trang 62)

Tải bản đầy đủ (PDF)

(72 trang)