II.1 Định nghĩa phụ thuộc hàm
Khi tiến hành xây dựng thiết kế một cơ sở dữ liệu cho bài toán có các vấn đề nảy sinh:
• Dư thừa dữ liệu (Redundancy): một thông tin được lưu trữ ở nhiều nơi trong cơ sở dữ liệu.
• Không nhất quán (Inconsistency): là hệ quả của việc dư thừa dữ liệu, là do khi cập nhật dữ liệu đã không đề cập nhập hết các dữ liệu dư thừa.
• Dị thường khi thêm bộ (Insertion anomalies): xảy ra khi thêm một bộ mà các giá trị tương ứng với các thuộc tính không đủ.
• Dị thường khi xoá bộ (Deletion anomalies): xảy ra khi xoá một bộ vào một quan hệ.
Các vấn đề trên cho thấy cần có một giải pháp để khắc phục được những nhược điểm trên. đó là phương pháp chuẩn hoá các bảng dữ liệu.
Để tìm hiểu nội dung của phương pháp chuẩn hoá chúng ta xem xét một số khái niệm sau đây về phụ thuộc hàm:
Định nghĩa: Cho R(U) là một lược đồ quan hệ với U là tập các thuộc tính. X,Y là tập con của U.
Ta nói rằng X -> Y (đọc là X xác định hàm Y hoặc Y phụ thuộc hàm vào X). Nếu r là một quan hệ xác định trên R(U) sao cho bất kỳ hai bộ T1, T1∈ r mà
T1[X] = T2[X] thì T1[Y] = T2[Y]
Cần chú ý rằng chỉ xét các phụ thuộc hàm thoả mãn mọi quan hệ trên lược đồ quan hệ tương ứng của nó chứ không xét phụ thuộc hàm thoả mãn một quan hệ đặc biệt nào.
II.2 Các dạng chuẩn
Việc chuẩn hoá các quan hệ cũng như các sơ đồ quan hệ đóng vai trò cực kỳ quan trong trong việc thiết kế các hệ quản trị cơ sở dữ liệu trên mô hình dữ liệu. Nhờ có các chuẩn hoá các quan hệ và các sơ đồ quan hệ chúng ta tránh được việc dư thừa dữ liệu và tăng tốc độ của các phép toán xử lí quan hệ.
Dạng chuẩn 1 (1NF)
Định nghĩa 1NF: một lược đồ quan hệ R được gọi là ở dạng chuẩn một (1NF) nếu và chỉ nếu toàn bộ các miền có mặt trong R đều chỉ chứa giá trị nguyên tố.
Dạng chuẩn 2 (2NF)
Trước khi đưa ra định nghĩa cần xem xét tới khái niệm về phụ thuộc hàm đầy đủ:
Cho lược đồ quan hệ R(U) trên tập thuộc tính U = {A1,...Ak}. X, Y là hai tập thuộc tính khác nhau nhưng đều là tập con của U. Y là phụ thuộc hàm đầy đủ vào X nếu Y là phụ thuộc hàm vào X nhưng không phụ thuộc hàm vào bất kỳ một tập hợp con thực sự nào của X.
Định nghĩa 2NF: Lược đồ quan hệ R ở dạng chuẩn thứ hai nếu nó ở dạng chuẩn thứ nhất và mỗi thuộc tính không khoá của R là phụ thuộc hàm đầy đủ vào khoá chính.
Dạng chuẩn 3 (3NF)
Định nghĩa 3NF: lược đồ quan hệ R ở dạng chuẩn thứ ba nếu nó ở dạng chuẩn thứ hai và nếu mỗi thuộc tính không khoá của R là không phụ thuộc hàm bắc cầu vào khoá chính.
Trên đây là ba dạng chuẩn điển hình, ngoài ra còn có một số chuẩn khác như không nêu ra ở đây. Các bảng trong cơ sở dữ liệu chưa chuẩn hoá thì ta có thể tiến hành phân rã các bảng này thành các bảng ở dạng chuẩn hoá. Trong thực tế không phải lúc nào dữ liệu dư thừa cũng không tốt, đôi khi người ta chấp nhận sự dư thừa này để tránh phải trả giá cho việc thêm phép kết nối từ xa tốn kém hơn nhiều.