1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (tóm tắt)

27 576 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 469,61 KB

Nội dung

Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ sinh AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

VIỆN CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học

1 PGS TSKH NGUYỄN XUÂN HUY

vào hồi giờ ngày tháng năm 20…

Có thể tìm hiểu luận án tại thư viên: ………

………

Trang 2

1

PHẦN MỞ ĐẦU

1 Đặt vấn đề

Trong nghiên cứu và mô tả thế giới thực, cùng với việc phản ánh ngữ nghĩa dữ

liệu của cơ sở dữ liệu thì lý thuyết về phụ thuộc dữ liệu đóng một vai trò rất cơ bản

quan trọng Phụ thuộc dữ liệu trong thiết kế và quản trị một cơ sở dữ liệu được hiểu là

sự mô tả các ràng buộc mà dữ liệu phải thỏa mản trong các bài toán thực tế và đây

cũng là yếu tố quyết định đến chất lượng dữ liệu trong quá trình xử lý và quản trị một

hệ thống Một số kết quả nghiên cứu trong các năm gần đây cho thấy có thể vận dụng

khái niệm ánh xạ đóng để tiếp tục nghiên cứu các vấn đề thuộc về ngữ nghĩa dữ liệu

Các công trình nghiên cứu về lý thuyết giàn giao từ cuối những năm 90 đến nay cũng

có nhiều đóng góp trong các lĩnh vực về khai phá dữ liệu và cơ sở dữ liệu Việc tiếp

tục nghiên cứu các ứng dụng trên lý thuyết giàn giao cũng là một vấn đề đáng quan

tâm Mỗi ánh xạ đóng được đặc trưng thông qua một hệ suy dẫn gọi là hệ sinh Để

quản lý các hệ suy dẫn lớn, phức tạp cần phải có nhiều thuật toán hiệu quả để tính

toán các đối tượng Nếu kích thước của hệ suy dẫn càng nhỏ thì hiệu quả các thuật

toán đạt được càng cao Kỹ thuật thu gọn hệ sinh là một tiếp cận để giải quyết bài

toán này với ý tưởng là loại bỏ khỏi hệ sinh ban đầu một số phần tử để thu được hệ

sinh mới có kích thước nhỏ hơn và biểu diễn lại các đối tượng của hệ sinh ban đầu

theo các đối tượng của hệ sinh mới Kỹ thuật này đã được các nhà khoa học từ đầu

những năm 2000 đến nay công bố trong nhiều công trình Vấn đề chọn lựa tập phần

tử để loại bỏ như thế nào để đạt hiệu quả cũng là một bài toán cần tiếp tục nghiên

cứu Bên cạnh đó, bài toán đặt ra là ngoài kỹ thuật thu gọn hệ sinh thì ta còn có thể sử

dụng phương pháp nào để thu nhỏ kích thước một hệ suy dẫn? Đây là bài toán cũng

cần được khảo sát và nghiên cứu

2 Mục đích của luận án

Mục đích của luận án là tìm kiếm, phát triển các công cụ và phương pháp biểu

diễn các đối tượng của một hệ suy dẫn nhằm rút gọn không gian lưu trữ và nâng cao

hiệu quả tính toán Trên cơ sở đó, vận dụng các kết quả thu được về mặt lý thuyết vào

các ứng dụng cụ thể trong một số lĩnh vực cơ sở dữ liệu và khai phá dữ liệu

3 Phương pháp nghiên cứu

Tổng hợp tài liệu và các kết quả nghiên cứu đã công bố có liên quan đến đề tài

Trao đổi, học hỏi với các chuyên gia đang làm việc cùng lĩnh vực đang nghiên cứu và

các lĩnh vực có liên quan

Đối sánh các kết quả thu được về mặt lý thuyết và thuật toán với các kết quả đã

công bố nhằm đánh giá ý nghĩa và hiệu quả của các kết quả trong khuôn khổ luận án

Vận dụng các phương pháp và cấu trúc của toán học rời rạc (bao gồm cả logic

hình thức) để chứng minh một số kết quả trong luận án

sở dữ liệu quan hệ, cụ thể như khái niệm về quan hệ, bộ, thuộc tính, LĐQH, khái niệm phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, bao đóng tập thuộc tính, bài toán thành viên, khóa và phản khóa, … Ngoài ra, trong chương cũng trình bày một

số khái niệm cơ bản được sử dụng khi khai phá dữ liệu như khái niệm về cơ sở dữ liệu giao tác, tập phổ biến, luật kết hợp, …, kết nối Galois và một số tính chất cơ bản Chương 2 Ánh xạ đóng & Lý thuyết giàn giao và ứng dụng

Chương này giới thiệu một số khái niệm, tính chất của ánh xạ đóng và lý thuyết giản giao Kết quả mới trong chương gồm có phát biểu về một điều kiện đủ để phép hợp thành các AXĐ là một AXĐ và điều kiện để một họ con các AXĐ đóng với phép hợp thành Ngoài ra, một số kết quả đạt được khi xây dựng các ứng dụng của AXĐ,

lý thuyết giàn giao trong các bài toán khai phá dữ liệu và lý thuyết cơ sở dữ liệu cũng được trình bày ở đây

Chương 3 Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ sinh AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của hệ sinh AXĐ thông qua

kỹ thuật thu gọn hệ sinh Kết quả mới và chủ yếu trong chương này là đề xuất một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh cùng với thuật toán thu gọn một hệ sinh bất kỳ về một hệ sinh đơn giản gọi là hệ sinh cân bằng

và định lý về tính đúng của thuật toán Bên cạnh đó, trong chương cũng trình bày một

số kết quả nghiên cứu thu được khi xây dựng các dạng giản lược của tập luật sinh, sự tương quan giữa các đối tượng trong hệ sinh AXĐ, …

CHƯƠNG 1: MỘT SỐ KHÁI NIỆM CƠ BẢN TRONG CƠ SỞ DỮ

LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU

VÀ KHAI PHÁ DỮ LIỆU1.1 Khái niệm về cơ sở dữ liệu quan hệ

Cơ sở dữ liệu quan hệ và các khái niệm cơ bản đã được công bố trong rất nhiều công trình Ở đây chỉ trình bày tóm tắt lại các khái niệm về quan hệ, thuộc tính, bộ cùng một vài ký hiệu và quy ước

Trang 3

3

Định nghĩa 1.1

Cho tập hữu hạn và khác rỗng U = {A 1, A2 , , An } với n 1 Các phần tử

thuộc U gọi là thuộc tính Với mỗi thuộc tính A i U, i = 1, 2, , n là một tập tương

ứng dom(A i)với dom(A i ) 2 gọi là miền giá trị của thuộc tính A i Gọi D là hợp của

các dom(A i ), i = 1,2, ,n Ta ký hiệu quan hệ R với các thuộc tính trên U là R(U), với

R là một tập các ánh xạ t: UD với t(Ai ) dom(A i ), A i U Mỗi ánh xạ gọi là một

bộ của quan hệ R

1.2 Phụ thuộc hàm

Phụ thuộc hàm là một trong những lớp phụ thuộc logic được đề xuất đầu tiên có

một vai trò rất quan trọng trong việc thiết kế và xử lý các cơ sở dữ liệu Trong phần

này sẽ trình bày các khái niệm cơ bản như phụ thuộc hàm, bao đóng tập phụ thuộc

hàm, các loại suy dẫn, bao đóng tập thuộc tính, …

1.2.1 Khái niệm phụ thuộc hàm

Cho tập thuộc tính U hữu hạn và khác rỗng Một phụ thuộc hàm (PTH) trên U

có dạng f: XY ; X,Y  U Nếu XY là một PTH trên U thì ta nói tập thuộc tính Y

phụ thuộc vào tập thuộc tính X, hoặc tập thuộc tính X xác định hàm tập thuộc tính Y

Cho quan hệ R(U) và PTH f: XY trên U Ta nói quan hệ R thoả PTH f và viết

R(f), nếu hai bộ tuỳ ý trong R giống nhau trên X thì chúng cũng giống nhau trên Y,

R(XY)  (u,v  R): (u.X = v.X)  (u.Y = v.Y) Cho tập PTH F trên tập thuộc tính U Ta nói quan hệ R(U) thoả tập PTH F, và

viết R(F), nếu R thoả mọi PTH trong F, R(F)  ( f  F): R(f)

Nếu quan hệ R thỏa PTH f ta cũng nói PTH f đúng trong quan hệ R

1.2.2 Lược đồ quan hệ

Cặp a = (U, F) được gọi là một lược đồ quan hệ (LĐQH) với U là tập hữu hạn

các thuộc tính, F là tập các PTH trên tập thuộc tính U.

1.2.3 Bao đóng tập phụ thuộc hàm

Định nghĩa 1.2

Cho tập PTH F trên tập thuộc tính U Tập nhỏ nhất các PTH trên U chứa F được

gọi là bao đóng của F, ký hiệu F + thoả các tính chất F1-F3 của hệ tiên đề Armstrong

A o được trình bày như sau:

X, Y, Z  U:

F1 Tính phản xạ: Nếu X  Y thì XY  F +

F2 Tính gia tăng: Nếu XY  F + thì XZYZ  F +

F3 Tính bắc cầu: Nếu XY  F + và YZ  F + thì XZ  F +

4

Định nghĩa 1.3

Ta nói PTH f được suy dẫn theo tiên đề (suy dẫn logic) từ tập PTH F và ký hiệu

là F╞ f, nếu f  F + , F╞ f  f  F + Định nghĩa 1.4

Gọi F là tập PTH trên tập thuộc tính U và f là một PTH trên U PTH f được nói

là suy dẫn theo quan hệ từ tập PTH F, ký hiệu là F├ f, nếu mọi quan hệ R(U) thoả F thì cũng thoả f, F├ f  SAT(F)  SAT(f)

Định nghĩa 1.5 Cho tập PTH F trên tập thuộc tính U, ta ký hiệu F* là tập các PTH f trên U được suy dẫn theo quan hệ từ tập PTH F Ta viết: F * = { f: XY | X,Y  U, F├ f }

Ta có thể khẳng định suy dẫn theo quan hệ và suy dẫn theo tiên đề là một, nghĩa

F + = F * Nói cách khác, ta có, F╞ f  F├ f Định nghĩa 1.6

Cho tập thuộc tính U và F là tập PTH trên U Gọi f là một PTH trên U f gọi là PTH được suy dẫn theo quan hệ có không quá p bộ từ F và viết F ├ p f, nếu mọi quan

hệ R trong REL p (U) thoả tập F thì R cũng thoả f Ta có thể viết:

F├p f  SAT p (F)  SAT p (f) Gọi F là tập PTH trên tập thuộc tính U, F' là tập các PTH f trên U được suy dẫn theo quan hệ có không quá hai bộ từ tập PTH F Khi đó,

F' = { f: XY | X,Y  U, F├2 f }

Để chứng tỏ các loại suy dẫn theo tiên đề, suy dẫn theo quan hệ và suy dẫn theo

quan hệ có không quá P bộ là hoàn toàn tương đương, ta xem định lý sau,

Cho LĐQH a = (U,F) Khi đó  X, Y  U ta có (i) Tính phản xạ: X  X +

(ii) Tính đồng biến: X  Y X + Y +(iii) Tính lũy đẳng: (X +)+ = X +

1.2.6 Bài toán thành viên

Bài toán được phát biểu: Cho tập thuộc tính U, tập các PTH F trên U và một PTH f: XY trên U Hỏi rằng, f  F+ hay không? Định lý thành viên phát biểu như

Trang 4

5

sau, phụ thuộc hàm XY  F + khi và chỉ khi Y  X +

1.3 Khóa và phản khóa của LĐQH

Khi làm việc với một lược đồ quan hệ thì khóa và phản khóa là những khái niệm

rất cơ bản và quan trọng Sau đây là phần trình bày lại một số khái niệm và tính chất

có liên quan đến khóa và phản khóa của một lược đồ quan hệ

1.3.1 Khoá của lược đồ quan hệ

Định nghĩa 1.7

Cho LĐQH a = (U, F) Tập thuộc tính K  U gọi là khoá của LĐQH a nếu,

(i) K + = U

(ii) A K: (K \ A)+ U

Nếu K thoả điều kiện (i) thì K được gọi là một siêu khoá.

Định nghĩa 1.8

Tập thuộc tính Y U được gọi là phụ thuộc đầy đủ vào tập thuộc tính X U, và

được ký hiệu là X  Y nếu,

(i) X Y, và

(ii) (A X): X \ A ↛ Y

Khi nghiên cứu về khóa của một LĐQH, trong nhiều công trình các tác giả đã

phát biểu về một số tính chất của khóa như sau: Cho LĐQH a = (U, F) Khi đó:

(i) K  U là một khoá khi và chỉ khi U phụ thuộc đầy đủ vào K

(ii) Hai khoá khác nhau của một LĐQH không bao nhau

(iii) Mọi LĐQH đều có ít nhất một khoá

Ngoài ra, tính chất đặc trưng của các thuộc tính khóa trong LĐQH được phát

biểu như sau,

Cho K là một khóa của LĐQH a = (U,F) Khi đó, X  K: X+ K=X

Bên cạnh đó, công thức tính giao các khóa của một LĐQH cũng được trình bày

như sau, Cho LĐQH a = (U,F) với n thuộc tính trong U và m PTH trong F Gọi U I là

giao các khóa của a Khi đó, giao các khóa được tính qua công thức sau ,

F R L

Từ công thức tính giao các khóa, tính chất về khóa duy nhất của LĐQH cũng

được phát biểu như sau,

Cho LĐQH a = (U,F) Gọi U I là giao của các khóa trong a Khi đó a có một

khóa duy nhất khi và chỉ khi U I + = U.

1.3.2 Phản khóa của lược đồ quan hệ

Định nghĩa 1.9

Cho LĐQH a = (U, F) Tập con P  U được gọi là phản khóa của a nếu:

i P +  U, và

6

ii AU \ P: PA = U

1.4 Một số khái niệm trong khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực được quan tâm hiện nay Trong phần này sẽ trình bày một số khái niệm về cơ sở dữ liệu giao dịch, khái niệm tập phổ biến, luật kết hợp và một số khái niệm khác có liên quan đến khai phá dữ liệu Cũng trong phần

này, kết nối Galois và một số tính chất cũng sẽ được đề cập

1.4.1 Một số khái niệm cơ bản

Cơ sở dữ liệu giao dịch được định nghĩa là một cặp α = (T, I) với I = {x 1, x2, …,

xn } là tập các mục dữ liệu và T = {t 1, t2, …, tm } là tập các giao tác trên α Mỗi giao tác

t  T được biểu diễn dưới dạng một vector nhị phân, trong đó giá trị tại vị trí i bằng 1 cho biết mục xi xuất hiện trong t, bằng 0 cho biết mục xi không xuất hiện trong t Cho tập mục X  I Ta gọi độ phổ biến của X trong α là số giao tác trong α chứa

X, ký hiệu là (X) Tập X  I được gọi là tập phổ biến nếu (X) ≥ minsup với minsup

là ngưỡng phổ biến do người dùng quy định

Từ các khái niệm trên, ta có thể nhận xét như sau, Mọi tập con của tập phổ biến là tập phổ biến Ngược lại, mọi tập cha của một tập không phổ biến thì không phổ biến

1.4.2 Luật kết hợp và kết nối Galois

Định nghĩa 1.10 Luật kết hợp (Association Rule) trên cơ sở dữ liệu giao dịch α = (T, I) là một biểu thức có dạng X 1 → X 2 , với X 1, X2  I và X 1 ∩ X 2 = 

+ Độ phổ biến của luật kết hợp, X 1 → X 2, là ( X 1  X 2)= (X 1X2)

+ Độ tin cậy của luật kết hợp, X 1 → X 2, là tỷ số  (X 1X2) / (X 1)

+ Ta gọi X 1 → X 2 là luật phổ biến nếu (X 1X2 ) ≥ minsup, là luật tin cậy nếu

(X 1X2) / (X 1 ) ≥ minconf với minsup, minconf là ngưỡng phổ biến và ngưỡng tin

cậy do người dùng quy định

Định nghĩa 1.11 Cho cơ sở dữ liệu giao dịch α = (T, I) Gọi Subset(X) là tập chứa tất cả các tập con của X Ta định nghĩa các ánh xạ sau,

t: Subset(I) → Subset(T), t(X) = {u  T | u.X =1} Nói cách khác thì t(X) là tập tất cả các giao tác trên T chứa mọi mục dữ liệu trong X

i: Subset(T) → Subset(I), i(Y) = {x  I | t  Y, t.x =1} Nói cách khác thì i(Y) là tập tất cả các mục dữ liệu thuộc I có mặt ở tất cả các giao tác t thuộc Y

Cặp ánh xạ (t, i) được gọi là kết nối Galois Kết nối Galois thỏa các tính chất sau,

Y, Y1 , Y 2  T và X, X 1 , X 2  I,:

(i) Y 1  Y 2  i(Y 2 )  i(Y 1)

Trang 5

7

(ii) X 1  X 2  t(X 2 )  t(X 1)

(iii) Y  t(i(Y)), X  i(t(X))

(iv) i(Y 1  Y 2 ) = i(Y 1 )  i(Y 2)

(v) t(X 1  X 2 ) = t(X 1 )  t(X 2)

CHƯƠNG 2: ÁNH XẠ ĐÓNG & LÝ THUYẾT GIÀN GIAO VÀ

ỨNG DỤNG 2.1 Ánh xạ đóng

Ánh xạ đóng thuộc về họ các ánh xạ được sử dụng để thiết lập mối quan hệ giữa

các tập con của một tập hữu hạn thỏa các tính chất phản xạ, đồng biến và lũy đẵng

Trong chương này của luận án sẽ trình bày một số định nghĩa và tính chất cơ bản của

ánh xạ đóng, vai trò của ánh xạ đóng trong việc ứng dụng giải quyết các bài toán về

khai phá dữ liệu và lý thuyết cơ sở dữ liệu

2.1.1 Các khái niệm và tính chất ánh xạ đóng

Định nghĩa 2.1

Cho tập U hữu hạn. Ánh xạ f: SubSet(U)  SubSet(U)được gọi là đóng trên

U nếu với mọi tập con X, Y U thỏa các tính chất sau,

(i) Tính phản xạ: f (X)  X,

(ii) Tính đồng biến: Nếu X  Y thì f(X)  f(Y),

(iii) Tính lũy đẳng: f(f(X)) = f(X)

Ngoài ba tính chất trên, ánh xạ đóng (AXĐ) còn thỏa các tính chất sau, Gọi f là

AXĐ cho trước trên U Khi đó, với mọi X,Y  U ta thu được,

(iv) f(f(X)Y) = f(Xf(Y)) = f(XY)

(v) fXY  fXfY

(vi) f(XY)  f(X) f(Y)

Ngoài các khái niệm trên, các định nghĩa và định lý sau đây sẽ trình bày về phép

hạn chế của AXĐ trên một tập con Đây cũng được xem là một tính chất quan trọng

của AXĐ, cụ thể là hạn chế của một AXĐ trên một tập con cũng là một AXĐ

2.1.2 Phép hạn chế của ánh xạ đóng

Định nghĩa 2.2

Cho AXĐ f trên U và một tập con M của U Hạn chế của ánh xạ f trên M, ký

hiệu f M là ánh xạ trên M được xác định như sau: X  M, f M (X) = f(X )  M

Ngoài ra, các nhà nghiên cứu cũng đã chứng minh được là với mọi AXĐ f trên

U và với mọi tập con M của U, fM là một AXĐ trên M

8

2.1.3 Điểm bất động (tập đóng) trên ánh xạ đóng

Cho AXĐ f trên tập U hữu hạn Tập con X  U được gọi là điểm bất động (hay

là tập đóng) của AXĐ f nếu f(X) = X

Ta ký hiệu Fix(f) là tập toàn bộ các điểm bất động của AXĐ f Vì f(U) = U nên Fix(f) luôn chứa U Mặt khác, dựa vào tính lũy đẳng của các AXĐ ta có thể mô tả Fix(f) như sau, Fix(f) = { f(X) | X  U}

Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, khi nghiên cứu về các phép toán trên AXĐ thì phép toán hội và phép toán hợp thành trên AXĐ cũng đóng một vai trò cơ bản trong việc giải quyết các bài toán ứng dụng trong cơ sở dữ liệu Phần sau đây sẽ lần lượt trình bày các định nghĩa và các mệnh đề, định lý có liên quan đến các phép toán trên Ngoài các kết quả đã được các tác giả khác công bố, trong luận án cũng phát biểu thêm một điều kiện đủ để phép toán hợp thành các AXĐ

là một AXĐ, đồng thời chỉ ra điều kiện để họ con các AXĐ đóng với phép hợp thành

2.2 Các phép toán trên ánh xạ đóng

Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, phép toán hội và phép toán hợp thành trên AXĐ cũng đóng một vai trò cơ bản khi giải quyết các bài toán ứng dung trong cơ sở dữ liệu Phần này cũng trình bày một số khái niệm cơ bản

có liên quan đến các phép toán trên cùng với một số kết quả nghiên cứu của chúng tôi liên quan đến phép toán hợp thành các AXĐ

2.2.1 Phép toán hội

Định nghĩa 2.3 Cho các AXĐ f, g trên tập U hữu hạn Ta xác định ánh xạ h trên U như sau, h(X) = f(X)  g(X), X  U Ta gọi h là hội các AXĐ f và g và ký hiệu là h = f*g Các nhà nghiên cứu cũng đã chứng minh được là hội của hai AXĐ trên U là một AXĐ trên U Nói cách khác, không gian các AXĐ đóng với phép toán hội.

2.2.2 Phép toán hợp thành

Định nghĩa 2.4 Cho hai AXĐ f, g trên tập U hữu hạn Ánh xạ k được xác định trên U như sau, k(X) = f(g(X)), X  U k gọi là hợp thành của hai AXĐ f và g, ký hiệu là k = f g

Tuy nhiên, các nhà nghiên cứu cũng đã chứng minh được phép hợp thành các AXĐ chỉ thỏa tính phản xạ và đồng biến nhưng không thỏa tính lũy đẵng và cũng không có tính chất giao hoán

Định nghĩa 2.5 Cho tập hữu hạn U và các ánh xạ f, g  Map(U) Ta nói ánh xạ f hẹp hơn ánh

xạ g và ký hiệu là f  g, nếu với mọi X  U ta luôn có f(X)  g(X)

Với mọi ánh xạ f, g, h  Map(U), quan hệ “hẹp hơn”  thoả các tính chất sau:

Trang 6

Với mọi AXĐ f, g  CloseU ba điều kiện sau đây là tương đương:

(i) f  g, (ii) fg = g, (iii) gf = g

Để phép hợp thành các AXĐ là một AXĐ thì điều kiện cần và đủ thứ nhất được

phát biểu qua định lý sau,

Định lý 2.1

Cho hai AXĐ f và g Các hợp thành fg và gf đồng thời là các AXĐ khi và chỉ

khi chúng giao hoán

Định lý sau đây cũng sẽ phát biểu điều kiện cần và đủ thứ hai để hợp thành các

AXĐ là một AXĐ,

Định lý 2.2

Hợp thành f.g của hai AXĐ f và g là một AXĐ khi và chỉ khi fgf = fg

Sau đây là phần trình bày một vài kết quả nghiên cứu về phép hợp thành,

Hệ quả 2.1

Cho các ánh xạ đóng f, g trên tập U hữu hạn Nếu f  g hay g  f thì hợp thành

f.g và g.f là các ánh xạ đóng

Bổ đề 2.1

Cho G  Close(U) với Close(U) là tập toàn thể các AXĐ trên U hữu hạn Tập G

đóng với phép hợp thành nếu G là thứ tự toàn phần đối với phép  “hẹp hơn”

2.2.3 Ứng dụng phép toán hợp thành

Bài toán được phát biểu như sau: Cho hai tập phụ thuộc hàm F và G trên cùng

một tập thuộc tính U Có tồn tại hay không tập phụ thuộc hàm H trên U thỏa tính chất

sau: X  U: (X ) H

+

= ((X ) G +

)F +

10

Để tiện trình bày, ta ký hiệu f, g, h lần lượt là các ánh xạ tính bao đóng của các tập con thuộc tính theo các tập phụ thuộc hàm F, G, H tương ứng Cụ thể là ta có thể viết f(X) = X F+, g(X) = X G+, h(X) = X H+

Do f, g là các ánh xạ đóng trên U nên tập phụ thuộc hàm H tồn tại khi và chỉ khi phép hợp thành f.g là ánh xạ đóng Lúc này, ta có thể vận dụng các định lý 2.1, 2.2 và

hệ quả 2.1 của phép hợp thành AXĐ đã trình bày trong mục 2.2.2

2.3 Cơ sở và phản cơ sở của ánh xạ đóng

Trong phần này sẽ trình bày một số các định nghĩa về cơ sở và phản cơ sở của ánh xạ đóng Một số các bổ đề, tính chất và định lý có liên quan đến kết quả nghiên cứu về phản cơ sở trong luận án cũng được trình bày ở đây

2.3.1 Cơ sở ánh xạ đóng

Định nghĩa 2.6 Cho AXĐ f trên U Tập con K của U được gọi là cơ sở của AXĐ f nếu K thỏa

đồng thời hai tính chất sau đây

i Tính toàn thể: fK = U, và

ii Tính tối tiểu:  X  K: fX  U

Nếu K thỏa tính chất (i) thì K được gọi là siêu cơ sở của AXĐ f

Base(f) được ký hiệu là tập các cơ sở của AXĐ f.

Một đặc trưng của cơ sở AXĐ cũng được trình bày như sau: Nếu gọi K là một

cơ sở của AXĐ f trên tập U Khi đó: X  K: f(X)  K = X

Từ đặc trưng trên, ta nhận thấy, do X = f(X)  K = f K (X), nên X là điểm bất động (tập đóng) đối với f K

Việc xác định cơ sở ánh xạ đóng theo đặc trưng trên cũng được trình bày như

sau: Cho AXĐ f trên U và siêu cơ sở K của f Nếu X  K: f(X)  K = X thì K là cơ

sở của f

Định nghĩa 2.7 Cho f là AXĐ trên U Phần tử A trong U được gọi là phần tử cơ sở hoặc phần tử nguyên thủy của AXĐ f nếu A xuất hiện trong một cơ sở nào đó của f A được gọi là phần tử phi cơ sở hoặc phần tử phi nguyên thủy của AXĐ f nếu A không có trong bất

kỳ cơ sở nào của f Ta ký hiệu U B là tập các phần tử cơ sở của AXĐ f trên U; Uo là tập của các phần tử phi cơ sở của f U I là tập giao các cơ sở của f Khi đó, U = U B | Uo

là một phân hoạch trên U

Ngoài ra, các nhà nghiên cứu cũng trình bày một phát biểu về công thức tính giao các cơ sở trên ánh xạ đóng như sau,

Cho AXĐ f trên tập hữu hạn U Khi đó:

U X

U

 \ ( ( ) \ )

Trang 7

11

Bên cạnh đó, một phát biểu về điều kiện cần và đủ để AXĐ có duy nhất một cơ

sở cũng được các nhà nghiên cứu trình bày như sau,

Nếu gọi f là một AXĐ trên tập hữu hạn U thì f có duy nhất một cơ sở khi và chỉ

khi f(U I ) = U, trong đó U I là giao các cơ sở

2.3.2 Phản cơ sở ánh xạ đóng

Như đã trình bày ở các phần trước, một khái niệm đối ngẫu với cơ sở AXĐ là

phản cơ sở AXĐ Khái niệm đối ngẫu ở đây theo nghĩa là cơ sở là tập phần tử nhỏ

nhất có ảnh là U, còn phản cơ sở là tập lớn nhất chứa các phần tử có ảnh khác U Ta

có thể sử dụng phản cơ sở thay cho vai trò của cơ sở, thuật toán xác định phản cơ sở

từ cơ sở và ngược lại có độ phức tạp là tuyến tính Các khái niệm và tính chất liên

quan đến phản cơ sở AXĐ được trình bày qua các định nghĩa, bổ đề và định lý sau

đây,

Định nghĩa 2.8

Cho AXĐ f trên U Tập con P của U được gọi là phản cơ sở của AXĐ f nếu:

i fP  U, và

ii A U \ P: fPA = U

Ta ký hiệu AntiBase(f) là tập các phản cơ sở của AXĐ f.

2.4 Giàn giao ánh xạ đóng

Trong một số lĩnh vực như cơ sở dữ liệu, khai phá dữ liệu,… thì giàn giao AXĐ

được sử dụng như một công cụ toán học và có nhiều đóng góp, ứng dụng hiệu quả

Phần sau đây sẽ trình bày các khái niệm, tính chất cơ bản về điểm bất động (hay còn

gọi là tập đóng) và lý thuyết giàn giao AXĐ cùng với các bổ đề, định lý phát biểu về

sự tương quan giữa các tập đặc trưng trong một giàn giao

2.4.1 Một số khái niệm cơ bản

Định nghĩa 2.9

Gọi G là một họ các tập con của tập hữu hạn U đóng với phép giao, cụ thể là

giao của mọi họ con trong G đều cho kết quả là một tập con trong G,

H X

X

 G)

G được gọi là giàn giao trên tập hữu hạn U Khi đó tồn tại một họ con duy nhất

S chứa trong G sao cho mọi phần tử của G đều được biểu diễn qua giao của các phần

tử trong S Nói cách khác, S là tập nhỏ nhất của G thỏa tính chất:

G = {X 1    Xk | k X 1 ,…, X k S}

S được gọi là tập sinh của giàn giao G và được ký hiệu là Gen(G) Để biểu diễn

tập sinh theo nhiều ngữ nghĩa khác nhau, các tác giả đã chỉ ra các tập sau đây thì bằng

nhau trên một giàn giao G cho trước,

12

(i) Gen(G) (ii) { VG | VU, (X,YG, X V, Y V)  XYV } (iii) { VG | VU,(V=X 1 …X k ; X 1 ,…,X k G, k1) (i,1ik:V = X i )}

(iv) { V  G | V 

X V G

X

}

Định nghĩa 2.10 Cho (M, ) là một tập hữu hạn có thứ tự bộ phận Phần tử A trong M được gọi là cực đại nếu từ A  B và BM, ta luôn có A=B Ta ký hiệu MAX(M) là tập các phần tử cực đại của M Với họ các tập con của tập hữu hạn, xét thứ tự bộ phận 

Phần tử cực đại thuộc các tập trong các công trình nghiên cứu được tác giả trình

bày như sau: Cho (M, ) là một tập hữu hạn có thứ tự bộ phận và P  Q  M Khi đó, nếu X  MAX(Q) và X  P thì X  MAX(P)

Bổ đề 2.2 Cho giàn giao G trên tập hữu hạn U, ta có, MAX(Gen(G)) = MAX(G\{U})

Khẳng định về tập đóng (tập các điểm bất động) của AXĐ tạo thành một giàn

giao được trình bày như sau, Cho AXĐ f trên U hữu hạn Khi đó, Fixf là giàn giao với phần tử cực đại U

Khi làm việc với giàn giao thì các tác giả cũng đã đưa ra các khái niệm về đối

nguyên tử và tập Coatom của một giàn giao Các khái niệm này được trình bày qua

định nghĩa sau,

Định nghĩa 2.11 Cho G là giàn giao trên tập U Ta ký hiệu Coatom(G) = MAX(G \ {U}) và gọi các phần tử trong Coatom(G) là đối nguyên tử của giàn giao G

Định lý sau đây sẽ trình bày về đặc trưng của tập đối nguyên tử (coatom) trong

giàn giao AXĐ,

Định lý 2.3 Với mọi giàn giao G trên tập hữu hạn U, ta có CoatomG = MAXGenG

2.4.2 Sự tương quan giữa tập phản cơ sở và tập đối nguyên tử Tính đóng của tập phản cơ sở được trình bày qua bổ đề sau đây,

Bổ đề 2.3 Với mọi AXĐ f trên tập hữu hạn U, ta có AntiBasef)  MAX(Fix(f)\{U})

Ngoài tính đóng của tập phản cơ sở đã chỉ ra ở trên, sự tương quan giữa tập phản

cơ sở và tập đối nguyên tử của giàn giao qua định lý sau đây,

Định lý 2.4 Với mọi AXĐ f trên tập hữu hạn U, AntiBasef) = Coatom(f)

Trang 8

13

2.5 Ứng dụng giàn giao với bài toán ẩn tập mục nhạy cảm

2.5.1 Đặt vấn đề

Bài toán khai thác tri thức nhằm phát hiện các luật phổ biến trên các tập mục

phổ biến Một số các tập mục không muốn hiển thị vì một lý do nào đó gọi là các tập

mục nhạy cảm Giải pháp thường được lựa chọn là vẫn công bố đầy đủ các tập mục

nhưng sẽ tìm cách sửa tần suất xuất hiện của các tập mục nhạy cảm xuống dưới

ngưỡng phổ biến  Khi đó, các tập mục nhạy cảm sẽ trở thành các tập mục không

phổ biến và do đó chúng không thể trở thành các thành phần trong bất kỳ luật nào

Giải pháp này được gọi là ẩn các tập mục nhạy cảm Hướng nghiên cứu này rõ ràng

cần thiết cho trường hợp cần bảo vệ bí mật và tính riêng tư trong một số tình huống

2.5.2 Phát biểu bài toán

Bài toán ẩn tập mục nhạy cảm được phát biểu như sau: Cho bảng T gồm N giao

tác trên M mục Cho ngưỡng hỗ trợ và danh sách P các tập mục phổ biến theo

ngưỡng Cho tập mục nhạy cảm H P.

Yêu cầu bài toán là hãy ẩn tập mục nhạy cảm H theo nghĩa: cần chỉ ra các vị trí

cần sửa dữ liệu trên bảng T sao cho (X) < và các tập mục phổ biến khác bị ảnh

hưởng ít nhất

2.5.3 Cơ sở lý thuyết

Mệnh đề 2.5

Họ các tập mục phổ biến P tạo thành một giàn giao AXĐ

Khi xét mỗi tập mục phổ biến X trong P, ta nhận thấy tập Poset(X)  P là một

giàn giao đầy đủ với tập Gen gồm các phần tử trên hàng thứ hai.

Ngoài ra, ta cũng có thêm một số nhận xét sau,

(i) Nếu tập phổ biến X ẩn thì mọi tập phổ biến Y chứa X cũng ẩn theo.

(ii) Nếu X  P thì mọi Update(A,X,T,d), A  X đều kéo theo Update(A,Y,T,d),

Y  X, A  Y tức là độ phổ biến của mọi tập con chứa A của X đều bị giảm d đơn vị

(iii) Các tập mục Y như mô tả trong (i) được gọi là các tập mục chịu hiệu ứng

phụ khi cập nhật (xóa) mục A trong tập mục X Điều này cho thấy, nếu cập nhật mục

A trong tập mục X cần chú ý đến các tập mục con đúng và chứa A của X Nếu độ phổ

biến của chúng lớn hơn ngưỡng  không nhiều thì chúng sẽ có nguy cơ bị ẩn theo

2.5.4 Thuật toán ẩn tập mục nhạy cảm

Từ định lý 2.3, mệnh đề 2.5 cùng các nhận xét trên, thuật toán Itemhide được đề

xuất để ẩn một tập mục nhạy cảm H cho trước

2.6 Giàn giao và ứng dụng trong khai thác tập phổ biến

Phần này sẽ minh họa cho việc vận dụng AXĐ và lý thuyết giàn giao vào lĩnh

vực khai phá dữ liệu, cụ thề là trình bày một phương pháp xác định tập phổ biến tối

cả Ký hiệu MFI là họ các tập phổ biến tối đại của α

Ta nhận thấy rằng, với mỗt tập phổ biến, tồn tại một tập phổ biến tối đại chứa nó.2.6.2 Thuật toán xác định tập phổ biến tối đại

Thuật toán 2.5

Tư tưởng thuật toán Coatom được đề xuất với ý tưởng là từ cơ sở dữ liệu giao

dịch cho trước, trước hết sẽ xác định họ các tập phổ biến với một thuật toán nào đó,

chẳng hạn như thuật toán khai thác song song với thuật toán SABMA Sau đó, từ họ các tập phổ biến thu được ta sẽ xây dựng một đồ thị có hướng H để xác định họ các

tập phổ biến tối đại

CHƯƠNG 3: HỆ SINH ÁNH XẠ ĐÓNG VÀ MỘT SỐ KẾT QUẢ

NGHIÊN CỨU 3.1 Hệ sinh ánh xạ đóng

Mỗi ánh xạ đóng được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ Phần sau đây sẽ trình bày các khái niệm cơ bản về tập luật sinh, hệ sinh, tập bao của một tập con các phần tử, ánh xạ cảm sinh và một số tính chất quan trọng của hệ sinh 3.1.1 Khái niệm hệ sinh ánhxạ đóng

Định nghĩa 3.1 Cho tập hữu hạn U, luật sinh f trên U là biểu thức dạng f: L  R; L, R  U Các tập L và R được gọi tương ứng là vế trái và vế phải của luật sinh f và được ký hiệu tương ứng là LS(f) và RS(f)

Ta ký hiệu  = (U, F) là một hệ sinh ánh xạ đóng, trong đó U là một tập hữu hạn, F là tập các luật sinh trên U

Định nghĩa 3.2

Cho một hệ sinh AXĐ  = (U, F) và các tập con X, Z của U Ta gọi Z là một tập bao của tập X trong hệ sinh nếu Z thỏa,

(i) Z  X, (ii) L  R  F, L  Z thì R  Z

Kí hiệu [X] là họ các tập bao của X trong hệ sinh cho trước.

Trang 9

15

3.1.2 Ánhxạ cảm sinh

Định nghĩa 3.3

Cho  = (U,F) Ánh xạ f: SubSet(U)  SubSet(U) được xác định như sau,

X  U: f(X) = [X] Nói cách khác, f(X) là tập con nhỏ nhất của U thỏa các tính

chất sau:

(i) f(X)  X,

(ii)  L  R  F, L  f(X)  R  f(X)

f được gọi là ánh xạ cảm sinh của , X là vật, f(X) là ảnh của f Ta nhận

thấy, f(X) chính là tập bao nhỏ nhất của X trong hệ sinh

Khẳng định mỗi hệ sinh thì xác định duy nhất một AXĐ và ngược lại mỗi AXĐ

thì xác định một hệ sinh được trình bày qua định lý sau đây,

Định lý 3.1

(i) Với mỗi hệ sinh = (U,F), ánh xạ cảm sinh f là AXĐ trên U

(ii) Với mỗi AXĐ h trên U, tồn tại một hệ sinh = (U,F) thỏa tính chất,

 X  U: f(X) = h(X)

3.1.3 Thuật toán xác định ảnh một tập con trong hệ sinh

Thuật toán 3.1

Cho hệ sinh  = (U,F) và tập con X của U Hãy tính f(X) Thuật toán Image

tính f(X) với độ phức tạp thời gian là đa thức theo chiều dài dữ liệu vào

3.2 Giản lược tập luật sinh

Trong một hệ sinh AXĐ, nếu số lượng luật sinh ít đi hay số các phần tử tham gia

vào luật sinh không nhiều thì không gian lưu trữ được rút gọn và hiệu quả tính toán

các đối tượng trong hệ sinh sẽ được cải thiện Phần này sẽ trình bày một tiếp cận theo

hướng giản lược các tập luật sinh bằng cách xây dựng một số khái niệm bao gồm khái

niệm tập luật sinh tương đương, các dạng suy dẫn của tập luật sinh và các dạng giản

lược của tập luật sinh như tập giản lược tự nhiên, tập giản lược không dư cùng với

các thuật toán tương ứng để giản lược tập luật sinh ban đầu về các dạng thu gọn

3.2.1 Một số khái niệm cơ sở

Để xây dựng được các khái niệm đã trình bày ở trên, trước hết trong phần này sẽ

trình bày cách xây dựng một số khái niệm cơ sở như ảnh của tập luật sinh, dạng suy

dẫn logic (còn gọi là suy dẫn theo tiên đề) của luật sinh, thuật toán xác định một luật

sinh có thuộc về tập luật sinh hay không qua các định nghĩa và định lý sau đây,

Định nghĩa 3.4

Cho tập luật sinh F trên tập U hữu hạn Ảnh của F, ký hiệu là F* là tập nhỏ nhất

các luật sinh trên U chứa F và thỏa các tính chất của hệ tiên đề Armstrong sau:

+ Một luật sinh f được suy dẫn logic (hay suy dẫn theo tiên đề) từ tập luật sinh

F, ký hiệu là F╞ f, nếu f  F* Ta có thể viết: F╞ f  f F*

+ Cho hai tập luật sinh F và G trên U hữu hạn Ta nói F suy dẫn ra được G, ký hiệu F╞ G, nếu gG: F╞ g Ta nói F tương đương với G, ký hiệu F  G, nếu F╞ G và G╞ F Ký hiệu F ≢ G có nghĩa F và G không tương đương

(ii) G có dạng giản lược tự nhiên với ý nghĩa như sau:

+ Hai vế trái và phải của mọi luật sinh trong G rời nhau:

f  G: LS(f)  RS(f) =  + Các vế trái của mọi luật sinh trong G khác nhau đôi một:

f, g  G: f g LS(f) LS(g)

3.2.3 Tập giản lược không dư

Định nghĩa 3.7 Cho hai tập luật sinh F và G trên tập U hữu hạn G được gọi là tập giản lược không dư của F nếu,

(i) G tương đương F, và (ii) G có dạng giản lược không dư theo nghĩa sau: gG: G \{g} ≢ G

3.3 Thu gọn hệ sinh ánh xạ đóng

Trong quản lý các hệ suy dẫn lớn và phức tạp đòi hỏi phải có nhiều thuật toán hữu hiệu để tính toán các đối tượng như ảnh, cơ sở, phản cơ sở, Một thuật toán tốt

Trang 10

17

theo nghĩa độ phức tạp tính toán giới hạn ở các hàm tuyến tính hoặc đa thức theo

chiều dài dữ liệu vào Bên cạnh đó, ta cũng nhận thấy, nếu kích thước của các hệ suy

dẫn càng nhỏ thì các thuật toán càng phát huy hiệu quả hơn Một trong số các hướng

nghiên cứu tinh giản các hệ suy dẫn được thực hiện thông qua các phép biến đổi

tương đương, chẳng hạn, trong phần trên của luận án đã trình bày các dạng giản lược

của một tập luật sinh

Trong phần này của luận án sẽ trình bày theo một cách tiếp cận khác là sử dụng

kỹ thuật thu gọn một hệ suy dẫn Bản chất của kỹ thuật này là loại bỏ khỏi hệ suy dẫn

ban đầu một số phần tử không quan trọng theo nghĩa chúng không làm ảnh hưởng

đến kết quả tính toán các đối tượng đang quan tâm như ảnh, cơ sở, phản cơ sở, Mặc

dù hệ suy dẫn thu được qua phép thu gọn không tương đương với hệ suy dẫn ban đầu,

nhưng điểm đặc biệt là ta vẫn có thể thu được các đối tượng cần tìm bằng những phép

toán đơn giản như loại bỏ hoặc thêm vào một số phần tử

3.3.1 Các khái niệm và thuật toán thu gọn hệ sinh AXĐ

Định nghĩa 3.8

Cho hai hệ sinh  = (U,F), = (V,G) và tập M  U Ta nói hệ sinh nhận được

từ hệ sinh qua phép thu gọn theo tập M, và kí hiệu là  = \M, nếu sau khi loại bỏ

mọi xuất hiện của các phần tử của M trong hệ sinh  thì thu được hệ sinh 

Sau khi thực hiện thủ tục G = F\M, nếu:

- G chứa các luật sinh tầm thường (dạng XY, X  Y) thì ta loại các luật sinh

này khỏi G,

- G chứa các luật sinh trùng lặp thì ta lược bớt các luật sinh này

3.3.2 Biểu diễn ảnh tập con theo phép thu gọn hệ sinh AXĐ

Công thức biểu diễn ảnh của tập con theo phép thu gọn hệ sinh được trình bày

Cho hệ sinh  = (U,F) và tập X  U Khi đó: X * = X () *\X

Phần sau đây sẽ trình bày một số khái niệm và tính chất của cơ sở, phản cơ sở hệ

sinh AXĐ và các phát biểu biểu diễn các đối tượng này theo kỹ thuật thu gọn hệ sinh

Trong phần này cũng giới thiệu một kết quả nghiên cứu mới về phương pháp biểu

diễn phản cơ sở của một hệ sinh theo vế phải cực đại của tập luật sinh

18

3.4 Cơ sở và phản cơ sở hệ sinh ánh xạ đóng

3.4.1 Cơ sở hệ sinh ánh xạ đóng

Định nghĩa 3.9

Ta gọi cơ sở của hệ sinh là cơ sở của ánh xạ cảm sinh của hệ sinh đó Với mỗi

hệ sinh  = (U,F), ta ký hiệu Base() là tập các cơ sở của ánh xạ cảm sinh của hệ

sinh ; U B là tập các phần tử cơ sở của hệ sinh , tức là tập các phần tử có trong một

cơ sở của ; U0 là tập các phần tử phi cơ sở của , tức là tập các phần tử không có

trong bất kỳ cơ sở nào của ; U I là giao các cơ sở của  Khi đó, U B | U0 là một phân hoạch trên U

Ngoài các phương pháp sử dụng để biểu diễn cơ sở của hệ sinh theo phép thu gọn hệ sinh đã được công bố thì một cách tiếp cận khác để biểu diễn cơ sở hệ sinh cũng dựa trên kỹ thuật thu gọn hệ sinh, nhưng điểm đặc biệt ở cách tiếp cận này là tập thu gọn là một vế trái tối tiểu của tập luật sinh của hệ sinh cho trước

3.4.2 Phản cơ sở hệ sinh ánh xạ đóng Một số các định nghĩa, định lý sau đây sẽ trình bày các khái niệm về phản cơ sở

và cách biểu diễn phản cơ sở của hệ sinh ánh xạ đóng theo phép thu gọn hệ sinh Mặt khác, trong phần này cũng trình bày các điều kiện cần và đủ về bảo toàn tập phản cơ

sở thông qua phép thu gọn hệ sinh

Định nghĩa 3.10

Ta gọi phản cơ sở của hệ sinh là phản cơ sở của ánh xạ cảm sinh của hệ sinh đó

Với hệ sinh  = (U,F) Ta ký hiệu, AntiBase() là tập các phản cơ sở của hệ sinh ;

Fix là họ các điểm bất động của hệ sinh ; U B là tập các phần tử phản cơ sở của

tức là các phần tử có mặt trong một phản cơ sở của hệ sinh ; U I là giao của các phản cơ sở của  tức là các phần tử có mặt trong mọi phản cơ sở của hệ sinh ; U o là tập các phần tử không có trong bất kỳ phản cơ sở nào của hệ sinh  Ta nhận thấy là

Uo | U B là một phân hoạch trên U

Các tính chất liên quan đến tập đóng(tập các điểm bất động) khi thu gọn hệ sinh được trình bày qua định lý sau đây,

Định lý 3.4 Cho hai hệ sinh AXĐ = (U, F) và = (V,G) Biết = \XvớiX, M  U,

X  M =  Khi đó:

1 XM  Fix khi và chỉ khi M  Fix

2 XM  Gen khi và chỉ khi M  Gen

3 XM  Coatom khi và chỉ khi M  Coatom

4 XM  AntiBase khi và chỉ khi M  AntiBase

Ngoài ra, trong nhiều công trình, các tác giả cũng đã trình bày một phương pháp

Trang 11

19

biểu diễn phản cơ sở hệ sinh AXĐ với kỹ thuật thu gọn hệ sinh Cụ thể nếu gọi hệ

sinh  = U,F với tập AntiBase ≠  Đặt  =  \ X, X  U Khi đó, ta thu được,

1 AntiBase() = AntiBase() khi và chỉ khi X = 

2 AntiBase() = X  AntiBase() khi và chỉ khi X  U I

3.4.3 Một dạng biểu diễn phản cơ sở hệ sinh AXĐ

Trong phần này sẽ giới thiệu thêm một kết quả về một dạng biểu diễn phản cơ

sở hệ sinh theo vế phải cực đại của tập luật sinh Khái niệm về vế phải cực đại của

tập luật sinh cùng với việc phát biểu và chứng minh các bổ đề, định lý sau sẽ minh

họa cho dạng biểu diễn phản cơ sở này

Định nghĩa 3.11

Cho hệ sinh =(U, F) Ta ký hiệu MR(F) là tập các vế phải cực đại của F,

MR(F) = MAX {RS(f) | f F}

Bổ đề 3.1

Cho hệ sinh  = (U, F) Nếu R  MR(F) thì R là tập con của phản cơ sở nào đó

của  khi và chỉ khi R*  U

Định lý 3.5

Mọi phản cơ sở của hệ sinh AXĐ  = (U, F) đều biểu diễn được dưới dạng RM

với R là vế phải cực đại không chứa cơ sở của tập luật sinh và M là phản cơ sở của hệ

sinh  = \R.

3.4.4 Sự tương quan giữa các đối tượng trong hệ sinh AXĐ

Bên cạnh các phương pháp biểu diễn phản cơ sở đã trình bày, phần sau đây sẽ

giới thiệu thêm một số kết quả nghiên cứu về mối tương quan giữa các đối tượng

trong hệ sinh AXĐ

Cho hai hệ sinh = U,F và = U,G Khi đó,

Base=Base  AntiBase=AntiBase

Bổ đề 3.3

Cho hai tập luật sinh F và G trên U Nếu F và G tương đương thì hai hệ sinh

AXĐ = U,F và = U,G có cùng tập cơ sở và do đó có cùng tập phản cơ sở,

Base = Base, AntiBase = AntiBase.

20

3.5 Ứng dụng hệ sinh AXĐ giải bài toán hệ suy dẫn

3.5.1 Các khái niệm và quy tắc suy dẫn

3.5.2 Một số dạng bài toán suy dẫn Trong thực tế, có thể sử dụng hệ suy dẫn để giải quyết một số bài toán Vận dụng các khái niệm trong hệ sinh ánh xạ đóng để minh họa cho việc giải các dạng bài toán sau đây

(1) Cho hệ suy dẫn = (U,F) và luật dẫn h: X  Y Hãy cho biết tính đúng của luật dẫn h theo nghĩa, luật dẫn h là đúng khi và chỉ khi xuất phát từ tập luật dẫn F ban đầu, sau hữu hạn bước vận dụng các tiên đề F1-F3 của hệ Armstrong ta thu được h Vận dụng các khái niệm trong hệ sinh AXĐ, ta có thể chỉ ra mệnh đề h: XY đúng khi và chỉ khi Y  f(X), với f là ánh xạ cảm sinh của 

(2) Cho hệ suy dẫn = (U,F) và hai tập sự kiện X và Y Cho biết xuất phát từ các sự kiện X có thể suy ra những sự kiện nào trong số các sự kiện Y

Với dạng bài toán này, sử dụng các tính chất của ánh xạ cảm sinh của hệ sinh và

phép giao trong tập hợp, ta có thể khẳng định rằng từ các sự kiện X có thể suy ra những sự kiện f(X)  Y trong số các sự kiện Y

3.6 Hệ sinh cân bằng

Phần sau đây sẽ trình bày một số khái niệm và tính chất của một hệ sinh đặc biệt

gọi là hệ sinh cân bằng Kết quả nghiên cứu chính trong luận án khi làm việc với hệ

suy dẫn này là xây dựng một thuật toán trình bày cách thu gọn một hệ sinh bất kỳ về

dạng hệ sinh cân bằng và phát biểu định lý chứng minh tính đúng của thuật toán

3.6.1 Các khái niệm và một sô tính chất

Định nghĩa 3.13

Hệ sinh α = (U,F) gọi là cân bằng nếu α thỏa các tính chất sau đây:

(B1) Hợp các vế trái, vế phải của các luật sinh trong F đúng bằng tập U:

LS(F) = RS(F) = U (B2) F không chứa luật sinh tầm thường, là các luật sinh có vế trái chứa vế phải:

Trang 12

21

 X,Y  U: X  Y  (X  Y  F) (B3) Hai vế trái và phải của mọi luật sinh trong F rời nhau (không giao nhau):

 f  F: LS(f)  RS(f) =  (B4) Các vế trái của mọi luật sinh trong F khác nhau đôi một:

 f, g  F: LS(f) = LS(g)  f = g

Ngoài bốn tính chất cơ bản đã trình bày trên, hệ sinh cân bằng còn thỏa một số

các tính chất sau đây,

Tính chất 3.1

Hệ sinh cân bằng thỏa một số tính chất sau,

(B5) Nếu tập luật sinh F trong hệ sinh AXĐ α = (U,F) thỏa B2-B4 và chỉ có một

luật sinh thì α không thể là HSCB

(B6) Từ B5 ta suy ra hệ sinh AXĐ chỉ có một thuộc tính thì không thể là HSCB

(B7) Trong HSCB  = (U,F), giao các cơ sở U I = 

(B8) Nếu hệ sinh α = (U,F) là HSCB thì A  U, ta có α\A cũng là HSCB

3.6.2 Thuật toán thu gọn hệ sinh AXĐ về dạng cân bằng

Thuật toán BS được trình bày và mô tả các bước để thu gọn một hệ sinh AXĐ

về dạng hệ sinh cân bằng Thuật toán thu gọn hệ sinh ban đầu về dạng hệ sinh cân

bằng với các bước có độ phức tạp không quá O(mn), với m là số lượng luật sinh trong

tập luật F, n số lượng các phần tử có trong U

Định lý 3.7

Hệ sinh thu được sau khi thực hiện thuật toán BS là một hệ sinh cân bằng.

3.7 Ứng dụng hệ sinh AXĐ trong cơ sở dữ liệu

Các khái niệm về lược đồ quan hệ đã trình bày trong chương một là trường hợp

riêng của hệ sinh AXĐ thông qua một số các tương ứng được trình bày sau đây

Thông qua các tương ứng này cho thấy có thể vận dụng công cụ hệ sinh AXĐ để

nhận lại các kết quả về khóa, phản khóa, bao đóng, … trong CDSL Mặt khác, sử

dụng công cụ này còn có thể giải quyết được một số bài toán khác trong CSDL

= t[R] và t s = t[S]

Định nghĩa 3.15 Cho các quan hệ s 1 (S 1 ), s 2 (S 2 ), …, s m (S m ) và quan hệ r(R) sao cho R = S 1S2…Sm

Gọi t 1 , t 2 , …, t m là các bộ thỏa t 1  s 1 , t 2  s 2 , …, t m s m Ta nói, các bộ t 1 , t 2 , …, t m

khả kết nếu tồn tại bộ t  r(R) thỏa ti = t(S i ), 1  i  m Bộ t được gọi là kết quả của phép kết t 1, t2, …, tm , t  s 1 *s 2 *…*s m

Định nghĩa 3.16 Các quan hệ s 1, s2, …, sm được gọi là kết đầy đủ nếu mọi bộ của mỗi quan hệ s i , 1

 i  m đều là thành phần của một số bộ khả kết trên các quan hệ này

Mệnh đề 3.1 Cho q(U) là quan hệ trên tập thuộc tính U, S i là các tập con của U, 1  i  k Ta định nghĩa s i = q[S i ], 1  i  k Các quan hệ s 1, s2, …, sk là kết đầy đủ

Bài toán phân rã Cho lược đồ quan hệ a = (U, F) Với mỗi phép phân rã m = (M 1, M2, …, Mk) trên

U, ta xét phép toán mU như sau,

Gọi REL(U) là tập toàn thể các quan hệ trên U, với mỗi quan hệ r trong REL(U),

ta đặt m U (r) = r[M 1 ]*r[M 2 ]*…*r[M k]

Tính chất 3.2 Nếu gọi m U (r) = r[M 1 ]*r[M 2 ]*…*r[M k ] thì m U là một ánh xạ đóng, nghĩa là m U

thỏa các tính chất sau:

Gọi r, s là các quan hệ trên tập thuộc tính U, (i) Tính phản xạ: r  m U (r),

(ii) Tính đồng biến: r  s  m U (r)  m U (s), (iii) Tính lũy đẵng: m U (m U (r))= m U (r) Nhận xét 3.1

Khi thực hiện phép toán trên, nếu ta nhận được kết quả của phép kết là một quan

hệ đúng là quan hệ ban đầu thì phép kết này gọi là kết không mất mát thông tin Cụ

thể, nếu gọi r(U) là quan hệ trước khi phân rã và m U (r) là quan hệ sau khi kết thì

m U (r)=r(U) Hay nói cách khác, theo ngôn ngữ của ánh xạ đóng thì r(U) chính là điểm bất động (tập đóng) của ánh xạ đóng m U

Trang 13

23

3.7.2 Một dạng biểu diễn phản khóa của lược đồ quan hệ

Định lý 3.8

Mọi phản khóa của LĐQH a = (U, F) đều biểu diễn được dưới dạng RM với R là

vế phải cực đại không chứa khóa của tập phụ thuộc hàm và M là phản khóa của lược

đồ quan hệ b = a\R

KẾT LUẬN

Luận án đã trình bày một cách khái quát một số các nội dung cơ bản về lược đồ

quan hệ trong lý thuyết cơ sở dữ liệu Từ đó, luận án đã sử dụng ánh xạ đóng như một

công cụ toán học trong việc biễu diễn lại các đối tượng trong lĩnh vực này Hơn thế

nữa, luận án cũng chỉ ra việc áp dụng các lý thuyết về ánh xạ đóng trong lĩnh vực

khai phá dữ liệu như áp dụng lý thuyết giàn giao ánh xạ đóng để ẩn các tập mục nhạy

cảm hay xác định và quản lý tập phổ biến tối đại đã trình bày ở chương 2

Luận án cũng đề cập về một hệ suy dẫn gọi là hệ sinh ánh xạ đóng cùng với kỹ

thuật thu gọn hệ sinh, trình bày cách biểu diễn ảnh, cơ sở và phản cơ sở của một hệ

suy dẫn và đề xuât một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của

tập luật sinh Ý nghĩa việc giản lược tập luật sinh trong một hệ suy dẫn và các dạng

giản lược một tập luật sinh cùng với thuật toán cũng được trình bày trong luận án

Cuối cùng, trong luận án cũng đã xây dựng một thuật toán cùng với định lý chứng

minh tính đúng của thuật toán này khi thu gọn hệ sinh về dạng cân bằng

Cụ thể, luận án đã tập trung nghiên cứu, đóng góp một số vấn đề qua các nội

dung sau:

1 Ánh xạ đóng được xem là một công cụ toán học có nhiều ứng dụng khi giải

quyết một số bài toán đối với các hệ suy dẫn Luận án đã thu được một số kết quả khi

nghiên cứu về phép toán hợp thành các AXĐ và lý thuyết giàn giao Cụ thể, các kết

quả đạt được là như sau:

+ Phát biểu, chứng minh điều kiện đủ để phép hợp thành các AXĐ là một AXĐ

+ Phát biểu, chứng minh điều kiện để họ con AXĐ đóng với phép hợp thành

+ Ứng dụng lý thuyết giàn giao AXĐ để giải bài toán ẩn tập mục nhạy cảm khi

khai thác luật kết hợp trong khai phá dữ liệu Cụ thể về bài toán này, luận án đã phát

biểu và chứng minh họ các tập phổ biến tạo thành một giàn giao, đồng thời xây dựng

thuật toán ItemHide để ẩn các tập mục nhạy cảm khi khai thác luật kết hợp trong một

cơ sở dữ liệu giao dịch

+ Ứng dụng lý thuyết giàn giao để xác định tập phổ biến tối đại nhằm tiết kiệm

không gian lưu trữ và thời gian trao đổi dữ liệu trong bài toán khai thác luật kết hợp

24

2 Mỗi AXĐ được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ Việc nghiên cứu về hệ sinh nói chung, biểu diễn các đối tượng trong hệ sinh nói riêng đòi hỏi phải có những thuật toán hiệu quả như thuật toán giản lược tập luật sinh, cùng với những kỹ thuật làm cho việc biểu diễn các đối tượng trở nên đơn giản hơn như kỹ thuật thu gọn hệ sinh, xây dựng các hệ sinh mới, đặc biệt như hệ sinh cân bằng,… Từ các nhận xét trên, luận án đã thu được một số kết quả khi nghiên cứu về các hệ sinh AXĐ như sau,

+ Xây dựng các khái niệm, thuật toán giản lược tập luật sinh của một hệ sinh AXĐ về dạng tập giản lược tự nhiên và tập giản lược không dư

+ Phát biểu các bổ đề và định lý để biểu diễn phản cơ sở hệ sinh theo vế phải tối đại của tập luật sinh

+ Phát biểu định lý về sự tương quan giữa tập cơ sở và tập phản cơ sở của một

+ Cung cấp một số thuật toán tiện ích cho thiết kế cơ sở dữ liệu, các hệ sinh và các hệ suy dẫn Cung cấp một số dạng thu gọn các hệ sinh và các dạng biểu diễn đối tượng trong hệ suy dẫn như cơ sở, phản cơ sở Các thuật toán này cho phép thu gọn không gian lưu trữ các luật và tăng tốc độ xử lý các luật

Các nghiên cứu và đóng góp trong luận án chủ yếu là sử dụng công cụ ánh xạ đóng được đặc trưng qua một hệ suy dẫn gọi là hệ sinh để giải quyết bài toán biểu diễn các đối tượng trong một hệ suy dẫn và ứng dụng các đặc trưng, tính chất của hệ suy dẫn này để giải quyết một số bài toán Bài toán đặt ra là với công cụ ánh xạ đóng thì việc biểu diễn các đối tượng cơ sở, phản cơ sở của một hệ suy dẫn còn có thể biểu diễn theo phương pháp nào khác hay không? Đây cũng là hướng cần tiếp tục nghiên cứu Bên cạnh đó, qua một số ứng dụng được trình bày trong luận án cũng cho thấy khả năng sử dụng công cụ ánh xạ đóng trong nhiều lĩnh vực Việc chỉ ra những lĩnh vực nào còn có thể áp dụng công cụ này là bài toán mở khá thú vị và là một vấn đề cần tiếp tục nghiên cứu, phát triền trong thời gian tới

Ngày đăng: 18/08/2014, 09:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w