Phụ thuộc hàm

Một phần của tài liệu Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu (Trang 36)

2.2.4.1. Định nghĩa

a. Khái niệm phụ thuộc hàm

Cho R = {a1,...,an}là tập các thuộc tính, r = {h1,...,hm}là một quan hệ trên R, A,BR.

Khi đó chúng ta nói A xác định hàm cho B hay B phụ thuộc hàm vào A trong r. Ký hiệu:

B r f

A  hay (A,B) hay AB.

nếu(hi,hjr)(((aA)(hi(a)=hj(a))(((bB)(hi(b)=hj(b))).

b. Họ đầy đủ các phụ thuộc hàm của một quan hệ

Giả sử r là một quan hệ trên R. Họ đầy đủ các phụ thuộc hàm của r được ký hiệu Fr sao cho:

Fr={(A,B):A,BR, B

r f

A  }.

Phụ thuộc hàm trên tập các thuộc tính R là một dãy ký tự dạng AB đúng

trong quan hệ r nếu B

r f

A  . Chúng ta cũng nói rằng r thỏa mãn AB.

2.2.4.2. Hệ tiên đề Armstrong

Giả sử R là tập các thuộc tính hữu hạn. Và giả sử P(R) là tập các tập con của R. Cho Y=P(R). Khi đó ta nói Y là một họ f trên R nếu với mọi tập thuộc tính A,B,C,DR:

1. (A,A)Y.

2. (A,B)Y,(B,C)Y(A,C)Y. 3. (A,B)Y, AC, DB  (C,D)Y. 4. (A,B)Y, (C,D)Y  (AC,BD)Y

2.2.4.3. Bao đóng của tập phụ thuộc hàm và tập thuộc tính

Giả sử F là một tập các phụ thuộc hàm trên sơ đồ quan hệ s=<R,F>. Một tập tất cả các phụ thuộc hàm có thể suy dẫn logic từ F bởi các luật của hệ tiên đề Amstrong. Ký hiệu là F+ khi đó F+ được gọi là bao đóng của F.

2.2.4.4. Khóa tối tiểu của sơ đồ quan hệ và quan hệ

a. Khóa

Giả sử r là một quan hệ, s=<R,F> là một sơ đồ quan hệ. Y là một họ f trên R, và AR. Khi đó A là một khoá của r (tương ứng là một khoá của s, một khoá của

Y) nếu R

r f

A  (ARF+, (A, R)Y).

b. Khoá tối tiểu

Chúng ta gọi A là một khoá tối tiểu của r (tương ứng của s, của Y) nếu: - A là một khoá của r (tương ứng của s, của Y).

- Bất kỳ một tập con thực sự của A không là khoá của r (tương ứng của s, của Y).

Chúng ta ký hiệu Kr, (tương ứng Ks, KY) là tập tất cả các khoá tối tiểu của r, (tương ứng của s, của Y).

2.2.4.5. Các dạng chuẩn

Thông thường, việc cập nhật một cơ sở dữ liệu được thực hiện thông qua các thao tác thêm, sửa, xóa. Các thao tác này dễ gây nên những lỗi trong cơ sở dữ liệu mà nguyên nhân chính là do quá trình lặp đi lặp lại một số dữ liệu trong quan hệ. Để làm giảm thiểu các sai sót khi cập nhật dữ liệu người ta thường tách các quan hệ thành các quan hệ nhỏ hơn hay biến đổi chúng về các dạng chuẩn thích hợp. Quá trình đó gọi là quá trình chuẩn hóa.

Trước tiên, chúng ta xét các khái niệm sau:

a. Phụ thuộc hàm đầy đủ, phụ thuộc hàm bộ phận

Cho trước F là tập phụ thuộc hàm trên R và X  Y là một phụ thuộc hàm trong F. Tập Y gọi là phụ thuộc hàm đẩy đủ vào tập X nếu không tồn tại một tập con thật sự Z nào của X mà ZYF+ . Trong trường hợp ngược lại Y được gọi là phụ thuộc bộ phận vào X.

b. Phụ thuộc hàm bắc cầu

Cho F là tập phụ thuộc hàm trên R và X,YR. Tập Y được gọi là phụ thuộc bắc cầu vào X nếu tồn tại một tập con thực sự Z của X sao cho XZF+, ZYF+, XZF+ và Y không là tập con thực sự của Z. Trong trường hợp ngược lại, Y được gọi là phụ thuộc hàm trực tiếp vào X.

Cho trước một sơ đồ quan hệ s = <R,F>, với R là tập thuộc tính và F là tập phụ thuộc hàm khi đó s được gọi là:

(1)ở dạng chuẩn 1(1NF) nếu toàn bộ miền giá trị của các thuộc tính trong s là không thể phân chia được nữa.

(2)ở dạng chuẩn 2 (2NF) nếu s ở dạng chuẩn một và mọi thuộc tính không

cơ bản của s đều phụ thuộc đầy đủ vào mọi khóa tối tiểu của s

(3)ở dạng chuẩn 3 (3NF) nếu s ở dạng chuẩn một và không có thuộc tính cơ

bản của s nào phụ thuộc vào bất kỳ một khóa tối tiểu của s

(4)ở dạng chuẩn Boyce-Codd (BCNF) nếu s ở dạng chuẩn một và không có

thuộc tính nào của s phụ thuộc bắc cầu vào bất kỳ một khóa tối tiểu của s. Đối với quan hệ r trên tập thuộc tính R, thì r được gọi là ở dạng chuẩn một (tương ứng là ở dạng chuẩn hai, dạng chuẩn ba và dạng chuẩn Boyce-Codd)

Một phần của tài liệu Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu (Trang 36)

Tải bản đầy đủ (PDF)

(72 trang)