DƯ THỪA VÀ BẢO TOÀN PHỤ THUỘC TRONG DẠNG CHUẨN
Trang 1DƯ THỪA VÀ BẢO TOÀN PHỤ THUỘC TRONG DẠNG CHUẨN
Học phần: Các hệ CSDL nâng cao Giáo viên: PGS TS Đồng Thị Bích Thủy
Đ I H C KHOA H C T NHIÊN TP HCMẠ Ọ Ọ Ự
KHOA CÔNG NGH THÔNG TINỆ
- -1
Trang 3Tóm tắt
tích dư thừa trong thiết kế cơ sở dữ liệu, cụ thể là BCNF đã giải quyết triệt để việc dư thừa dữ liệu
thông tin dữ liệu trong từng trường hợp, nếu gần đến 1 thì ít dư thừa hơn
3
Trang 4Tóm tắt
thì vấn đề nào được quan tâm nhiều hơn?
4
Trang 5Tóm tắt
thể loại bỏ tất cả dư thừa nhưng luôn luôn đảm bảo bảo quản phụ thuộc
với dạng chuẩn 3
5
Trang 6Tóm tắt
6
Trang 7Giới thiệu
7
Trang 8Giới thiệu
trong lý thuyết và thực hành, nhưng vẫn chưa giải quyết được làm sao để thiết kế được một cơ sở dữ liệu tốt
một khung lý thuyết thông tin đó là hoàn toàn độc lập với quan niệm của ngôn ngữ truy vấn cập nhật, và được dựa trên tính chất nội tại của dữ liệu
8
Trang 9Giới thiệu
9
Trang 10Giới thiệu
tin, giải quyết vấn đề trùng lắp thông tin
10
Trang 11Giới thiệu
11
Trang 12Giới thiệu
12
Trang 13Nền tảng
13
Trang 14Đo lường nội dung thông tin
đồ cơ sở dữ liệu với đảm bảo các tập ràng buộc toàn vẹn
mỗi vị trí p trong mỗi thể hiện của I w.r.t với tập ràng buộc ∑
14
Trang 15Đo lường nội dung thông tin
nhiên
◦ X là biến ngẫu nhiên
◦ p(X) là cột của xác xuất p(X = x1), p(X = x2), …
◦ X đại diện cho biến ngẫu nhiên (column)
◦ x đại diện cho giá trị của X(field in a tuple)
◦ p(x) là xác xuất phân phối p(X = x)
15
Trang 16Đo lường nội dung thông tin
16
Trang 17Entropy thông tin
lực học và cơ học thống kê sang cho lý thuyết thông tin
kiện ngẫu nhiên
tự tiếp theo sẽ luôn là "a" Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu
nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự
17
Trang 18Etropy của A column
Trang 19Etropy của A column
Trang 20Conditional Probability
thuôc vào X là bao nhiêu?
◦ p(X = x1 | Y = y1) = p(X = x1, Y = y1)/p(Y = y1)
20
Trang 21Conditional Probability P(X|Y)
◦ p(X = x1 | Y = y1) = p(X = x1, Y = y1)/p(Y = y1)
21
Trang 22Conditional Entropy
Đặt h(x|y) = log2 1/p(x|y)
H(X|Y) = Ex,y[h(x|y)] = Σx Σy p(x,y) log2 1/p(x|y)
H(X|Y) = H(X,Y) – H(Y)
H(X|Y) = 0.25*0 + 0.25*0+ 0.25*1 + 0.125*2+ 0.125*2 =0.75
Nếu X, Y độc lập H(X|Y) = H(X)
22
Trang 23Mối quan hệ thông tin
Mối quan hệ thông tin giữa sự phân bố xác suất của X và Y, và lượng phân bố của X, Y
Đ t i(x,y) = log p(x,y)/p(x)p(y) ặ
I(X,Y) = Ex,y[I(X,Y)] = Σx Σy p(x,y) log p(x,y)/p(x)p(y)
23
Trang 24Mối quan hệ thông tin
24
Trang 25Đo lường nội dung thông tin
Trang 26Đo lường nội dung thông tin
DCBC
là DC4
luôn luôn được bảo đảm
26
Trang 27Giá của phụ thuộc hàm
trong NF khi với mọi vị trí p trong quan hệ được phân tích, thấp nhất là giá trị c
27
Trang 28Giá của phụ thuộc hàm
28
Trang 29Giá của phụ thuộc hàm
đi để đảm bảo phụ thuộc hàm
như thế nào?
29
Trang 30Giá của phụ thuộc hàm
◦ PRICE(NF) = ½
◦ Nếu NF là đảm bảo phụ thuộc hàm trong dạng chuẩn, thì PRICE(NF)≥1/2
◦ Nói cách khác, 3NF mang cái giá nhỏ nhất cần phải trả để bảo toàn PTH
30
Trang 313NF Decomposition (Bernstein’76)
◦ Tìm giá trị nhỏ nhất Fc của F
◦ Với mỗi giá trị X->A thuộc Fc output (X A, {X->A})
◦ Kết hợp 2 quan hệ nếu nó có chứa cái khác
◦ Nếu không, output lược đồ có chứa khóa (K,0)
31
Trang 323NF Decomposition (Bernstein’76)
32
Trang 33So sánh các dạng chuẩn
33
Trang 34So sánh các dạng chuẩn
chuẩn
34
Trang 35So sánh các dạng chuẩn
35
Trang 38So sánh các dạng chuẩn
38
Trang 39Kết luận
so với các DC khác
39