DƯ THỪA VÀ BẢO TOÀN PHỤ THUỘC TRONG DẠNG CHUẨN

Trang 1

Học phần: Các hệ CSDL nâng cao Giáo viên: PGS TS Đồng Thị Bích Thủy

Đ I H C KHOA H C T NHIÊN TP HCMẠ Ọ Ọ Ự

KHOA CÔNG NGH THÔNG TINỆ

- -1

Trang 3

Tóm tắt

tích dư thừa trong thiết kế cơ sở dữ liệu, cụ thể là BCNF đã giải quyết triệt để việc dư thừa dữ liệu

thông tin dữ liệu trong từng trường hợp, nếu gần đến 1 thì ít dư thừa hơn

3

Trang 4

Tóm tắt

thì vấn đề nào được quan tâm nhiều hơn?

4

Trang 5

Tóm tắt

thể loại bỏ tất cả dư thừa nhưng luôn luôn đảm bảo bảo quản phụ thuộc

với dạng chuẩn 3

5

Trang 6

Tóm tắt

6

Trang 7

Giới thiệu

7

Trang 8

Giới thiệu

trong lý thuyết và thực hành, nhưng vẫn chưa giải quyết được làm sao để thiết kế được một cơ sở dữ liệu tốt

một khung lý thuyết thông tin đó là hoàn toàn độc lập với quan niệm của ngôn ngữ truy vấn cập nhật, và được dựa trên tính chất nội tại của dữ liệu

8

Trang 9

Giới thiệu

9

Trang 10

Giới thiệu

tin, giải quyết vấn đề trùng lắp thông tin

10

Trang 11

Giới thiệu

11

Trang 12

Giới thiệu

12

Trang 13

Nền tảng

13

Trang 14

Đo lường nội dung thông tin

đồ cơ sở dữ liệu với đảm bảo các tập ràng buộc toàn vẹn

mỗi vị trí p trong mỗi thể hiện của I w.r.t với tập ràng buộc ∑

14

Trang 15

nhiên

◦ X là biến ngẫu nhiên

◦ p(X) là cột của xác xuất p(X = x1), p(X = x2), …

◦ X đại diện cho biến ngẫu nhiên (column)

◦ x đại diện cho giá trị của X(field in a tuple)

◦ p(x) là xác xuất phân phối p(X = x)

15

Trang 16

16

Trang 17

Entropy thông tin

lực học và cơ học thống kê sang cho lý thuyết thông tin

kiện ngẫu nhiên

tự tiếp theo sẽ luôn là "a" Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu

nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự

17

Trang 18

Etropy của A column

Trang 19

Etropy của A column

Trang 20

Conditional Probability

thuôc vào X là bao nhiêu?

◦ p(X = x1 | Y = y1) = p(X = x1, Y = y1)/p(Y = y1)

20

Trang 21

Conditional Probability P(X|Y)

◦ p(X = x1 | Y = y1) = p(X = x1, Y = y1)/p(Y = y1)

21

Trang 22

Conditional Entropy

 Đặt h(x|y) = log2 1/p(x|y)

 H(X|Y) = Ex,y[h(x|y)] = Σx Σy p(x,y) log2 1/p(x|y)

 H(X|Y) = H(X,Y) – H(Y)

 H(X|Y) = 0.25*0 + 0.25*0+ 0.25*1 + 0.125*2+ 0.125*2 =0.75

 Nếu X, Y độc lập H(X|Y) = H(X)

22

Trang 23

Mối quan hệ thông tin

 Mối quan hệ thông tin giữa sự phân bố xác suất của X và Y, và lượng phân bố của X, Y

 Đ t i(x,y) = log p(x,y)/p(x)p(y) ặ

 I(X,Y) = Ex,y[I(X,Y)] = Σx Σy p(x,y) log p(x,y)/p(x)p(y)

23

Trang 24

Mối quan hệ thông tin

24

Trang 25

Trang 26

DCBC

là DC4

luôn luôn được bảo đảm

26

Trang 27

Giá của phụ thuộc hàm

trong NF khi với mọi vị trí p trong quan hệ được phân tích, thấp nhất là giá trị c

27

Trang 28

28

Trang 29

đi để đảm bảo phụ thuộc hàm

như thế nào?

29

Trang 30

◦ PRICE(NF) = ½

◦ Nếu NF là đảm bảo phụ thuộc hàm trong dạng chuẩn, thì PRICE(NF)≥1/2

◦ Nói cách khác, 3NF mang cái giá nhỏ nhất cần phải trả để bảo toàn PTH

30

Trang 31

3NF Decomposition (Bernstein’76)

◦ Tìm giá trị nhỏ nhất Fc của F

◦ Với mỗi giá trị X->A thuộc Fc output (X A, {X->A})

◦ Kết hợp 2 quan hệ nếu nó có chứa cái khác

◦ Nếu không, output lược đồ có chứa khóa (K,0)

31

Trang 32

3NF Decomposition (Bernstein’76)

32

Trang 33

So sánh các dạng chuẩn

33

Trang 34

chuẩn

34

Trang 35

35

Trang 38

38

Trang 39

Kết luận

so với các DC khác

39

Định dạng
Số trang	39
Dung lượng	268,55 KB