DƯ THỪA VÀ BẢO TOÀN PHỤ THUỘC TRONG DẠNG CHUẨN
DƯ THỪA VÀ BẢO TOÀN PHỤ THUỘC TRONG DẠNG CHUẨN Học phần: Các hệ CSDL nâng cao Giáo viên: PGS. TS. Đồng Thị Bích Thủy Đ I H C KHOA H C T NHIÊN TP HCMẠ Ọ Ọ Ự KHOA CÔNG NGH THÔNG TINỆ 1 Nội dung: Tóm tắt Giới thiệu Nền tảng So sánh các dạng chuẩn Kết luận 2 Tóm tắt Một số thông tin lý thuyết gần đây đã giới thiệu cách tiếp cận để phân tích dư thừa trong thiết kế cơ sở dữ liệu, cụ thể là BCNF đã giải quyết triệt để việc dư thừa dữ liệu Khái niệm chính là dùng 1 con số trong khoảng [0,1], thể hiện nội dung thông tin dữ liệu trong từng trường hợp, nếu gần đến 1 thì ít dư thừa hơn 3 Tóm tắt Tuy nhiên câu hỏi đặt ra là giữa bảo toàn thông tin và bảo toàn phụ thuộc thì vấn đề nào được quan tâm nhiều hơn? 4 Tóm tắt Người ta thường quan tâm đến 3NF, không giống như BCNF, 3NF không thể loại bỏ tất cả dư thừa nhưng luôn luôn đảm bảo bảo quản phụ thuộc. Các lược đồ ở các dạng chuẩn khác sẽ có số lượng dư thừa gấp 2 lần so với dạng chuẩn 3 5 Tóm tắt Gọi c là chi phí bảo toàn phụ thuộc hàm, c nằm trong khoảng [0,1] Nếu c càng lớn thì bảo toàn phụ thuộc hàm càng cao Đối với dạng chuẩn 3, c =1/2 6 Giới thiệu Mục tiêu Cơ sở lý thuyết 7 Giới thiệu Các vấn đề về chuẩn hóa cơ sở dữ liệu đã được nghiên cứu từ lâu đời trong lý thuyết và thực hành, nhưng vẫn chưa giải quyết được làm sao để thiết kế được một cơ sở dữ liệu tốt Trong bài báo này tác giả cung cấp thông tin lý thuyết của DC3, đề xuất một khung lý thuyết thông tin đó là hoàn toàn độc lập với quan niệm của ngôn ngữ truy vấn cập nhật, và được dựa trên tính chất nội tại của dữ liệu 8 Giới thiệu Để thiết kế cơ sở dữ liệu tốt, các thuật toán chuẩn hóa thường hướng đến Loại bỏ dư thừa Bảo toàn dữ liệu Bảo toàn phụ thuộc hàm và ràng buộc toàn vẹn 9 Giới thiệu Dạng chuẩn BC: bảo toàn phụ thuộc hàm nhưng không bảo toàn thông tin, giải quyết vấn đề trùng lắp thông tin Dạng chuẩn 3: vẫn còn trùng lắp thông tin nhưng bảo toàn phụ thuộc hàm 10 [...]... đảm bảo nội dung thông tin trong NF khi với mọi vị trí p trong quan hệ được phân tích, thấp nhất là giá trị c 27 Giá của phụ thuộc hàm Giá của phụ thuộc hàm, PRICE(NF)=1-c 28 Giá của phụ thuộc hàm PRICE(NF) là giá trị nhỏ nhất của lượng nội dung thông tin mà NF mất đi để đảm bảo phụ thuộc hàm Vậy giá của NF trong các dạng chuẩn bảo toàn phụ thuộc hàm được tính như thế nào? 29 Giá của phụ thuộc. ..Giới thiệu Nếu ưu tiên bảo toàn phụ thuộc hàm: Một vài dư thừa dữ liệu có thể được bỏ qua Làm thế nào biết được lượng thông tin dư thừa có thể chấp nhận được? Chúng ta cần ước lượng giá trị trong các dạng chuẩn: giá của phụ thuộc hàm (price of dependency preservation) 11 Giới thiệu Chúng ta cần tìm ta lượng thông tin ít nhất cần thiết để cân bằng với phụ thuộc hàm sử dụng lý thuyết thông... thuật toán bảo đảm lượng thông tin lớn nhất Những lược đồ này không thể thiết kế lại Những lược đồ này được gọi là 3NF+ Không phải tất cả (R,F) trong 3NF đều có trong 3NF+ 32 So sánh các dạng chuẩn Làm sao để so sánh lược đồ 3NF với 3NF+? Làm sao để so sánh lược đồ không theo dạng chuẩn và 3NF? 33 So sánh các dạng chuẩn Gọi inf POSSp(m) là lượng nội dung thông tin ít nhất thỏa mãn dạng chuẩn 34... thông tin Giá của phụ thuộc hàm trong dạng chuẩn So sánh các dạng chuẩn 13 Đo lường nội dung thông tin Được đề xuất bởi Arenas & Libkin trong PODS’03 Bằng trực quan, đo lường sự liên quan thông tin nội dung của mỗi vị trí p trong mỗi thể hiện của I w.r.t với tập ràng buộc ∑ Độc lập với mô hình dữ liệu và ngôn ngữ truy vấn Được sử dụng để đo lường giá trị của dữ liệu trong mỗi thể hiện của... hàm Định lý: ◦ ◦ ◦ PRICE(NF) = ½ Nếu NF là đảm bảo phụ thuộc hàm trong dạng chuẩn, thì PRICE(NF)≥1/2 Nói cách khác, 3NF mang cái giá nhỏ nhất cần phải trả để bảo toàn PTH 30 3NF Decomposition (Bernstein’76) Input: Lược đồ quan hệ R và tập các PTH Output: 3NF được thiết kế lại của (R, F) ◦ ◦ ◦ ◦ Tìm giá trị nhỏ nhất Fc của F Với mỗi giá trị X->A thuộc Fc output (X A, {X->A}) Kết hợp 2 quan hệ nếu... với mọi I thuộc inst(S, Σ) và mỗi p thuộc Pos(I) =1 Kết quả (Arenas & Libkin, PODS’03): Nếu Σ bao gồm các tập FDs, thì (S, Σ) được gọi là thiết kế tốt khi đó là DCBC Nếu Σ bao gồm các tập MDVs, thì (S, Σ) được gọi là thiết kế tốt khi đó là DC4 Nhưng nếu để đảm bảo phụ thuộc hàm, thì để thiết kế tốt điều trên không luôn luôn được bảo đảm 26 Giá của phụ thuộc hàm Gọi c là số lớn nhất trong khoảng... dạng chuẩn và 3NF? 33 So sánh các dạng chuẩn Gọi inf POSSp(m) là lượng nội dung thông tin ít nhất thỏa mãn dạng chuẩn 34 So sánh các dạng chuẩn Với DC1 và DC2 thì độ lợi của DC là 35 So sánh các dạng chuẩn Định lý: Với mọi m > 2: 3NF tốt gấp 2 lần so với dạng chuẩn khác 3NF+ tốt hơn theo hàm mũ 36 ... tin là một khái niệm mở rộng của entropy trong nhiệt động lực học và cơ học thống kê sang cho lý thuyết thông tin Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên Ví dụ: Một dòng chữ luôn chỉ có các ký tự "a" sẽ có entropy bằng 0, vì ký tự tiếp theo sẽ luôn là "a" Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự... xác suất của X và Y, và lượng phân bố của X, Y Đặt i(x,y) = log p(x,y)/p(x)p(y) I(X,Y) = Ex,y[I(X,Y)] = Σx Σy p(x,y) log p(x,y)/p(x)p(y) 23 Mối quan hệ thông tin I(X;Y) = H(X) + H(Y) – H(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X) Nếu X, Y độc lập thì I(X;Y) = 0: 24 Đo lường nội dung thông tin R(A, B, C) Σ = {Α−>Β} k là giá trị thuộc về Với mỗi tính phân bố xác suất P(a|X) cho mỗi a thuộc {1, ,k}... H(X)=0.5*1+0.25*2+0.125*3+0.125*3= 1.75 18 Etropy của A column Hai nhận xét về entropy Trong dữ liệu không chắc chắn : entropy càng cao càng khó đoán trước được Trong nội dung thông tin: entropy càng cao càng nhiều thông tin 19 Conditional Probability Cho phân phối ngẫu nhiên trên các biến X, Y, lượng thông tin mà Y phụ thuôc vào X là bao nhiêu? Conditional probability: p(X|Y) ◦ p(X = x1 | Y = y1) = p(X . thường hướng đến Loại bỏ dư thừa Bảo toàn dữ liệu Bảo toàn phụ thuộc hàm và ràng buộc toàn vẹn 9 Giới thiệu Dạng chuẩn BC: bảo toàn phụ thuộc hàm nhưng không bảo toàn thông tin, giải quyết. luôn đảm bảo bảo quản phụ thuộc. Các lược đồ ở các dạng chuẩn khác sẽ có số lượng dư thừa gấp 2 lần so với dạng chuẩn 3 5 Tóm tắt Gọi c là chi phí bảo toàn phụ thuộc hàm, c nằm trong khoảng. vấn đề trùng lắp thông tin Dạng chuẩn 3: vẫn còn trùng lắp thông tin nhưng bảo toàn phụ thuộc hàm 10 Giới thiệu Nếu ưu tiên bảo toàn phụ thuộc hàm: Một vài dư thừa dữ liệu có thể được bỏ