Kết luận chươn g3

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu (Trang 104 - 108)

Bằng thực nghiệm, thuật toỏn 3.6 đó chứng tỏ cú thời gian thực hiện nhanh hơn 5 thuật toỏn tớnh bao đúng đó biết. Thuật toỏn 3.7 rừ ràng là hiệu quả hơn thuật toỏn 3.6 vỡ quỏ trỡnh tớnh toỏn cú sự thay thế cỏc phụ thuộc hàm

bởi cỏc phụ thuộc hàm đơn giản hơn (như thuật toỏn 3.6); đặc biệt là trong nhiều trường hợp, quỏ trỡnh tớnh bao đúng và tập F được đơn giản đi rất nhiều vỡ tất cả cỏc phụ thuộc hàm cú vế phải chứa trong Xnew đều bị loại bỏ trước khi xõy dựng bao đúng (đõy chớnh là điểm mới của thuật toỏn 3.7 so với thuật toỏn 3.6). Ngoài ra, tớnh đỳng đắn của thuật toỏn 3.6 khụng được nhúm tỏc giả

A.Mora và cộng sự chứng minh một cỏch tường minh khi thực hiện phộp thay thế cỏc phụ thuộc hàm bằng cỏc phụ thuộc hàm đơn giản hơn, chỳng tụi đó thực hiện sự chứng minh tớnh đỳng đắn này trong thuật toỏn 3.7.

Với việc rỳt gọn bài toỏn tỡm khúa, dựa trờn ngữ nghĩa quen thuộc của phụ thuộc hàm trong mụ hỡnh cơ sở dữ liệu quan hệ, ta đó chứng minh được cỏc điều kiện cần (2), (3) và (4) thực chất chỉ là một. Đõy là những điều kiện cần để một tập con của  là khúa tối tiểu của lược đồ quan hệ S = <, F>. Việc tỡm một điều kiện cần tốt hơn (2), (3) hoặc (4) nhằm rỳt gọn hơn nữa bài toỏn tỡm khúa là một vấn đề rất đỏng quan tõm.

Cỏc kết quả chớnh trong chương này đó được cụng bố trong [CT3, CT4, CT6, CT7].

Chương 4.

VỀ MỘT PHẫP BIẾN ĐỔI TIỀN XỬ Lí HIỆU QUẢ CÁC TẬP PHỤ THUỘC HÀM

Ngày nay, nhu cầu lưu trữ và xử lý một lượng lớn dữ liệu trờn mỏy tớnh ngày càng trở nờn quan trọng. Thực tế cho thấy, khi lượng dữ liệu ngày càng tăng, việc tập hợp, tổ chức và lưu trữ dữ liệu sao cho cú hiệu quả là một vấn đề quan trọng và tốn nhiều chi phớ để giải quyết. Những khú khăn thường gặp phải khi xử lý dữ liệu cỡ lớn chủ yếu đến từ việc cần phải làm sạch dữ liệu và loại bỏ tối đa sự dư thừa dữ liệu. Dư thừa dữ liệu làm tăng kớch thước khụng cần thiết khi lưu trữ dữ liệu, là nguyờn nhõn dẫn đến sự khụng nhất quỏn dữ liệu và làm giảm hiệu quả trong quỏ trỡnh khai thỏc và sử dụng cỏc hệ cơ sở dữ liệu.

Trong phỏt hiện tri thức từ cỏc cơ sở dữ liệu cỡ lớn, cũng khụng trỏnh khỏi tập tri thức phỏt hiện được cú dư thừa, điều này gõy khú khăn cho cỏc tổ chức, doanh nghiệp khi ra cỏc quyết định cú tớnh chiến lược. Rừ ràng là nếu loại bỏ được cỏc tri thức dư thừa thỡ sẽ thuận lợi hơn rất nhiều kể cả trong thực tế hoạt động của cỏc cơ quan, tổ chức, doanh nghiệp (ra quyết định nhanh và chớnh xỏc hơn) cũng nhu trong khoa học (tập tri thức nhỏ gọn sẽ làm giảm thời gian giải cỏc bài toỏn khỏc cú liờn quan).

Trong chương này, ta sẽ xem xột sự dư thừa của cỏc phụ thuộc hàm trong một tập phụ thuộc hàm cho trước và đề cập đến một phộp biến đổi tiền xử lý hiệu quả một tập phụ thuộc hàm nhằm thu được một tập phụ thuộc hàm mới, tương đương nhưng cú kớch thước nhỏ hơn.

4.1. Giới thiệu

Trong mụ hỡnh dữ liệu quan hệ, dữ liệu được lưu trữ dưới dạng cỏc quan hệ (cỏc bảng). Mỗi quan hệ được định nghĩa trờn một tập hữu hạn cỏc thuộc tớnh  = {A1, A2,..., An}, trong đú mỗi thuộc tớnh Ai lấy giỏ trị trong một

con của tớch Descartes Dom(A1)  Dom(A2)  ...  Dom(An). Núi cỏch khỏc r

là một tập cỏc bộ t cú dạng t = (a1, a2,...,an) trong đú ai  Dom(Ai) với mọi i = 1, 2, ..., n.

Phụ thuộc hàm là một loại phụ thuộc dữ liệu, biểu diễn một cỏch hỡnh thức cỏc ràng buộc toàn vẹn, là cụng cụ quan trọng trong lý thuyết thiết kế cơ sở dữ liệu và được ứng dụng trong việc giải quyết cỏc bài toỏn như tớnh bao đúng của một tập thuộc tớnh, tỡm khúa của lược đồ quan hệ, tỡm phủ tối tiểu và chuẩn húa lược đồ quan hệ.

Cho r là một quan hệ trờn . Mọi khẳng định cú dạng XY , trong đú X, Y  , được gọi là một phụ thuộc hàm trờn r. Ta núi r thỏa XY nếu với mọi t1, t2  r cú t1[X] = t2[X] kộo theo t1[Y] = t2[Y].

Vớ dụ 4.1. Xột quan hệ r = PhanCong (phõn cụng) trờn tập thuộc tớnh  = {PHICONG, MAYBAY, NGAYKH, GIOKH}.

PHICONG MAYBAY NGAYKH GIOKH

Minh 83 9/8 10:15a Minh 116 10/8 1:25p Hiếu 281 8/8 5:50a Hiếu 301 12/8 6:35p Hiếu 83 11/8 10:15a Hiền 83 13/8 10:15a Hiền 116 12/8 1:25p Hưng 281 9/8 5:50a Hưng 281 13/8 5:50a Hưng 412 15/8 1:25p Bảng 4.1. Quan hệ PhanCong

Quan hệ PhanCong với bốn thuộc tớnh: PHICONG (phi cụng),

MAYBAY (mỏy bay), NGAYKH (ngày khởi hành) và GIOKH (giờ khởi hành). Quan hệ này cho biết tờn phi cụng, số hiệu mỏy bay do phi cụng lỏi và ngày giờ khởi hành của cỏc chuyến bay. Khụng phải sự phối hợp bất kỳ nào

giữa phi cụng, mỏy bay và ngày giờ khởi hành cũng đều được chấp nhận mà chỳng ta cú cỏc điều kiện ràng buộc sau:

- Mỗi mỏy bay cú một giờ khởi hành duy nhất.

- Nếu biết phi cụng và ngày giờ khởi hành thỡ biết được mỏy bay do phi cụng đú lỏi.

- Nếu biết mỏy bay, biết ngày khởi hành thỡ biết được phi cụng lỏi chuyến bay đú.

Cỏc điều kiện ràng buộc trờn là cỏc vớ dụ về phụ thuộc hàm và được phỏt biểu như sau:

{MAYBAY}  {GIOKH}

{PHICONG, NGAYKH, GIOKH}  {MAYBAY} {MAYBAY, NGAYKH}  {PHICONG}

Một cõu hỏi được đặt ra là cú thể cú bao nhiờu phụ thuộc hàm X  Y trờn tập thuộc tớnh  = {A1, A2,..., An} với X, Y  ?

Ta biết rằng tập  cú n thuộc tớnh nờn sẽ cú 2n tập con, do X, Y là cỏc

tập con bất kỳ của  nờn dễ dàng thấy rằng số lượng phụ thuộc hàm cú thể cú là 2n . 2n = 22n.

Vớ dụ 4.2. Số lượng phụ thuộc hàm cú thể cú trờn quan hệ PhanCong trong

bảng 4.1 với 4 thuộc tớnh là 22.4 = 28 = 256.

Như vậy, số lượng phụ thuộc hàm trờn một quan hệ r cú thể rất lớn (là

hàm mũ theo số lượng thuộc tớnh) và việc giải cỏc bài toỏn cú liờn quan đến số lượng lớn cỏc phụ thuộc hàm như vậy sẽ rất khú khăn. Tuy nhiờn, trong số cỏc phụ thuộc hàm cú thể cú, tồn tại những phụ thuộc hàm khụng cú ý nghĩa

thực tế hoặc cỏc phụ thuộc hàm tầm thường (X  Y là phụ thuộc hàm tầm

thường nếu Y  X).

Vớ dụ 4.3. Một số phụ thuộc hàm khụng cú ý nghĩa thực tế hoặc tầm thường, chẳng hạn như X  ,   Y, X  X, Y  Y. Phụ thuộc hàm   Y chỉ

đỳng trờn quan hệ r với tất cả cỏc bộ cú cựng giỏ trị trờn Y (thực tế cho thấy

thường thỡ cú tớnh chất là hiển nhiờn đỳng trờn mọi quan hệ r.

Việc loại bỏ (khụng cần xem xột) cỏc phụ thuộc hàm tầm thường hoặc khụng cú ý nghĩa thực tế sẽ gúp phần làm đơn giản húa khi giải quyết cỏc bài toỏn cú liờn quan.

Vớ dụ 4.4. Tớnh số phụ thuộc hàm X  Y cú thể cú trờn  = {A1, A2, A3} với X

=  hoặc Y  X.

Ta thấy tập  cú số thuộc tớnh n = 3 nờn số phụ thuộc hàm cú thể cú là 22.3 = 26 = 64. Tập  cú 23 = 8 tập hợp con. Do đú, cú 8 phụ thuộc hàm dạng   Y, cú 3.2 = 6 phụ thuộc hàm tầm thường với vế trỏi gồm 1 thuộc tớnh, cú 3.4 = 12 phụ thuộc hàm tầm thường với vế trỏi gồm 2 thuộc tớnh, cú 1.8 = 8 phụ thuộc hàm tầm thường với vế trỏi gồm 3 thuộc tớnh. Tổng cộng, số phụ thuộc hàm tầm thường cần tớnh là 8 + 6 + 12 + 8 = 34 phụ thuộc hàm.

Trong cỏc ứng dụng, số phụ thuộc hàm (cú ý nghĩa thực tế và khụng tầm thường) ứng với mỗi lược đồ quan hệ thường khụng nhiều và phụ thuộc vào cỏc điều kiện ràng buộc khi thiết kế lược đồ quan hệ.

Một phần của tài liệu (LUẬN án TIẾN sĩ) phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu (Trang 104 - 108)