TIÊU CHUẨN THẨM ĐỊNH BẢN GHI NHÂN BẢN THỪA

Một phần của tài liệu Loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ (Trang 33)

Để thẩm định các bộ của một quan hệ để từ đó rút ra kết luật chúng có phải là nhân bản thừa của nhau hay không chúng ta đưa ra tiêu chuẩn thẩm định như sau: Với mỗi bản ghi i ta đặt (pj,kj) ∈ [0,1), trong đó:

9 pj: gọi là độ chắc chắn lặp của bản ghi i khi thỏa mãn luật j, pj càng nhỏ thì khả năng nhân bản càng lớn, pj càng lớn thì khả năng nhân bản càng nhỏ. Ví dụ, nếu hai

bản ghi có trường SCMT(số chứng minh thư) có giá trị bằng nhau thì p = 0, tức là chắc chắn hai bản ghi này là nhân bản của nhau, nếu trường quê quán có giá trị giống nhau thì p = 0.9, có nghĩa là hầu như không kết luận được bản ghi là nhân bản của nhau. Việc xác định hệ số chắc chắn cho từng bản ghi phải dựa vào kiến thức chuyên gia.

9 kj: là số thứ tự của mảnh có giá trị lặp khi thỏa mãn luật j. Các bộ cùng thuộc một

phân mảnh thì có cùng chỉ số kj.

Do một bộ có thể thỏa mãn nhiều luật mà chuyên gia đưa ra, vì vậy mỗi bộ có thể có nhiều cặp giá trị (pj, kj).

Ví dụ:

Ma SCMT HoTen QueQuan DanhHieu p1 k1 p2 k2

01 151435097 Trần Xuân Tiến Thái Bình Xuất sắc 0 1 0.5 1 02 151413097 Trần Xuân Tiến Nam Định Xuất sắc 0 1 0.5 1 03 012345678 Trần Thanh Thảo Lào Cai Tiên tiến 0 2 0.5 2 04 012345678 Trần Thanh Thảo Yên Bái Tiên tiến 0 2 0.5 2 05 012345678 Trần Thanh Thảo Bạc Liêu Xuất sắc 0 2 0.5 2 Giả sử chúng ta có mảnh hỗn hợp HV gồm các thuộc tính có giá trị lặp cùng với các giá trị của nó. Nếu trong mảnh HV có tồn tại pj = 0 thì chỉ giữ lại một bộ và xác định lại các giá trị của các thuộc tính nằm ngoài HV nhưng liên đới bộ với HV.

Ví dụ:

SCMT HoTen QueQuan NamSinh p1 k1

151435097 Cao Thi Nham Thai Binh 29/01/1984 0 1 151413097 Cao Thi Nhan Thai Binh 29/01/1983 0 1

Trong thực tế, không thể tồn tại hai người có cùng một số chứng minh thư, vì thế khả năng lặp của hai bản ghi này rất cao, ta gán cho nó giá trị bằng 0(chắc chắn lặp). Sau đó tiến hành loại bỏ một trong hai bản ghi. Tuy nhiên, bỏ bộ có ngày sinh 29/01/1983 hay 29/01/1984 thì cần phải xác minh lại.

Gọi pm, pM ∈ [0,1) là cận dưới và cận trên tương đối của độ chắc chắn lặp của phép thẩm định sao cho:

9 Nếu ∏pj < pm thì khẳng định các bộ đó là nhân bản thừa của nhau nên chỉ giữ lại một bộ và xác định các thuộc tính khác để biết nên giữ lại bản ghi nào.

9 Nếu ∏pj > pM thì khẳng định các bộ của HV không phải là nhân bản thừa của nhau nên đều được giữ lại.

9 Nếu pm ≤ ∏pj ≤ pM thì thẩm định trực tiếp từng giá trị của các thuộc tính của bộ này.

Một phần của tài liệu Loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ (Trang 33)

Tải bản đầy đủ (PDF)

(72 trang)