1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu tt

26 78 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 769,23 KB

Nội dung

BỘ GIÁO DỤC ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC CÔNG NGHỆ - VŨ QUỐC TUẤN PHÁT HIỆN PHỤ THUỘC HÀM PHỤ THUỘC HÀM SUY RỘNG TRONG SỞ DỮ LIỆU Chuyên ngành: sở Toán học cho Tin học Mã số: 46 01 10 TĨM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC Hà Nội - 2019 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS TS Hồ Thuần Người hướng dẫn khoa học 2: PGS TS Nguyễn Thanh Tùng Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 201… thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Các phụ thuộc liệu vai trò quan trọng thiết kế sở liệu, quản lý chất lượng liệu biểu diễn tri thức Các phụ thuộc phát tri thức trích xuất từ liệu sở liệu Q trình trích xuất gọi phát phụ thuộc Mục đích việc phát phụ thuộc tìm phụ thuộc quan trọng (thỏa mãn) liệu sở liệu Các phụ thuộc (được phát hiện) biểu diễn tri thức dùng để kiểm tra thiết kế sở liệu, đánh giá chất lượng liệu Từ năm đầu thập kỷ 80 kỷ 20, toán phát phụ thuộc thu hút đông đảo nhà khoa học thời điểm tại, vấn đề phát phụ thuộc từ tập liệu lớn (big data) trở nên quan trọng tập liệu lớn chứa nhiều tri thức quý giá Hiện nay, với phát triển thiết bị số, đặc biệt ứng dụng mạng xã hội điện thoại thông minh, lượng liệu ứng dụng tăng nhanh làm nảy sinh vấn đề lưu trữ, quản lý, đặc biệt vấn đề phát tri thức từ tập liệu lớn Bài tốn phát FD RFD sở liệu vấn đề quan trọng phát tri thức Ba loại phụ thuộc điển hình ý phát FD, AFD CFD AFD mở rộng FD, tính chất "xấp xỉ" dựa độ thỏa độ đo lỗi; CFD mở rộng FD, nhằm nắm bắt yếu tố không quán liệu Các hướng nghiên cứu giải toán phát RFD sở liệu, trước hết tập trung vào phát FD FD trường hợp riêng tất loại RFD, kết phát FD thích nghi để phát loại phụ thuộc khác (chẳng hạn AFD) Mơ hình chung tốn phát FD xây dựng khơng gian tìm kiếm FD, kiểm tra thỏa mãn FD, tỉa khơng gian tìm kiếm, xuất tập FD phát làm gọn tập FD (giảm bớt thừa) Trong tốn phát FD, phát khóa trường hợp đặc biệt toán quan trọng chuẩn hóa sở liệu quan hệ Độ phức tạp thời gian tổng quát toán phát FD đa thức theo số ghi sở liệu hàm mũ theo số thuộc tính sở liệu Do đó, để giảm thời gian xử lý, cần xây dựng luật tỉa hiệu Trong số luật tỉa đề xuất, tỉa khóa quan trọng, phát khóa tỉa (xóa) nút chứa khóa khơng gian tìm kiếm Tuy nhiên, luật tỉa khóa nhược điểm tìm khóa tồn tập thuộc tính  sở liệu (đây thực vấn đề khó độ phức tạp thời gian hàm mũ theo số thuộc tính ), cách phát khóa tập thực  hay không? Câu hỏi động lực luận án Sau phát tập phụ thuộc, tập lớn gây khó khăn cho việc sử dụng chứa thừa không cần thiết Vấn đề quan trọng đặt làm để loại bỏ (càng nhiều tốt) thừa tập phụ thuộc phát Đây toán quan tâm luận án Một hướng nghiên cứu luận án tập trung nghiên cứu, phát hai loại RFD điển hình, AFD CFD Cả AFD CFD nhiều ứng dụng xuất nhiều sở liệu quan hệ, đặc biệt CFD cơng cụ mạnh giải toán làm liệu Với AFD, vấn đề quan trọng cải tiến phát triển kỹ thuật tính tốn độ thỏa độ đo lỗi; với CFD, việc phát hiện, việc tìm hiểu thứ tự phân cấp CFD số loại phụ thuộc khác vấn đề đáng quan tâm Nội dung nghiên cứu luận án vấn đề thời sự, xới lại, làm với hàng loạt cơng trình tác giả nước ngồi; trong nước, nhiều cơng trình cơng bố liên quan tới phương pháp thuật toán xác định tập rút gọn (reduct) bảng định theo nhiều tiếp cận khác Mục tiêu luận án nghiên cứu số vấn đề phân tích phạm vi sở liệu quan hệ Để thực mục tiêu trên, tập trung vào nội dung sau: Chương Trình bày tổng quan mơ hình liệu quan hệ, khái niệm FD, bao đóng tập thuộc tính, khóa lược đồ quan hệ,…Đồng thời tập trung trình bày RFD khát quát phương pháp sử dụng để phát FD RFD Chương Trình bày AFD CFD (hai loại FD suy rộng điển hình) số kết liên quan Chương Trình bày thuật tốn tính bao đóng tập thuộc tính tập FD, vấn đề rút gọn cho tốn xác định khóa lược đồ quan hệ số kết liên quan Chương Trình bày phép biến đổi tiền xử lý hiệu tập FD (nhằm hạn chế thừa tập FD cho trước) số kết liên quan Chương PHỤ THUỘC HÀM PHỤ THUỘC HÀM SUY RỘNG TRONG MƠ HÌNH DỮ LIỆU QUAN HỆ 1.1 Nhắc lại số khái niệm Một quan hệ r tập thuộc tính Ω = {A1, A2,…,An} r  {(a1, a2,…,an) |  Dom(Ai), i = 1, 2,…, n} Dom(Ai) miền trị thuộc tính Ai, i = 1, 2,…, n Một lược đồ quan hệ S cặp thứ tự S = , Ω tập hữu hạn thuộc tính, F tập FD 1.2 Phụ thuộc hàm Phụ thuộc hàm Giả sử X, Y   Khi X  Y với quan hệ r lược đồ S(), t1, t2  r mà t1[X] = t2[X] t1[Y] = t2[Y] Hệ quy tắc suy diễn Armstrong Với X, Y, Z  , ta Q1 (Phản xạ): Nếu Y  X X  Y Q2 (Gia tăng): Nếu X  Y XZ  YZ Q3 (Bắc cầu): Nếu X  Y Y  Z X  Z Bao đóng X   tập FD F, tập X F với: X F = {A    (X  A)  F+} Khóa lược đồ quan hệ Cho S = K   Ta nói K khóa S hai điều kiện sau đồng thời thỏa mãn: (i) (K  )  F+ (ii) Nếu K'  K (K'  )  F+ Nếu K thỏa mãn (i) K gọi siêu khóa 1.3 Phụ thuộc hàm suy rộng (RFD) 1.3.1 Phụ thuộc hàm xấp xỉ (AFD) AFD FD thỏa mãn với phần lớn quan hệ Để xác định mức độ vi phạm X  Y quan hệ r, độ đo lỗi đó, ký hiệu e( X  Y , r ) , sử dụng Cho trước ngưỡng lỗi ,    Ta nói X  Y AFD e( X  Y , r )   1.3.2 Phụ thuộc hàm mêtric (MFD) Xét X  Y quan hệ r Một MFD mở rộng FD cách thay điều kiện t1[Y] = t2[Y] d(t1[Y], t2[Y]) ≤ , d mêtric Y, d: dom(Y)  dom(Y)  R   tham số 1.3.3 Phụ thuộc hàm điều kiện (CFD) Một CFD dạng  = (X  Y, Tp), X  Y FD Tp bảng mẫu với thuộc tính XY Bảng mẫu xác định quan hệ thỏa X  Y Một cách trực quan, bảng mẫu Tp  làm mịn X  Y nhúng  việc áp đặt mối liên kết giá trị liệu liên quan mặt ngữ nghĩa 1.3.4 Phụ thuộc hàm mờ (FFD) Cho r quan hệ Ω = {A1, A2,…,An} X, Y   Với Ai  Ω, mức độ giá trị liệu Dom(Ai) xác định quan hệ (hàm) Ri Cho trước tham số  (0 ≤  ≤ 1), ta nói hai t1[X] t2[X] với mức , kí hiệu t1[X] E() t2[X], Rk(t1[Ak], t2[Ak])   với Ak  X Khi đó, X  Y gọi FFD mức  t1, t2  r, t1[X] E() t2[X]  t1[Y] E() t2[Y] 1.3.5 Phụ thuộc sai phân (DD) DD mở rộng quan hệ FD X  Y quan hệ r Điều kiện t1, t2 X Y tương ứng thay điều kiện hai thỏa mãn hàm L hàm R Thực chất, hàm sai phân sử dụng khoảng cách mêtric để mở rộng quan hệ sử dụng FD FD trường hợp đặc biệt DD L[t1[X], t2[X]) = R[t1[Y], t2[Y]) = Ngồi ra, DD mở rộng MFD L[t1[X], t2[X]) = R[t1[Y], t2[Y]) ≤  1.3.6 Các loại RFD khác Còn nhiều loại RFD khác Xuất phát từ ứng dụng thực tế, loại RFD kết mở rộng (nới lỏng) quan hệ khái niệm FD truyền thống theo cách thức hay nghĩa 1.4 Phát FD Phương pháp top-down Phương pháp sinh FD ứng viên dựa dàn thuộc tính, kiểm tra thỏa mãn FD ứng viên sau sử dụng FD phát để tỉa FD ứng viên mức thấp dàn nhằm thu hẹp khơng gian tìm kiếm Một vấn đề quan trọng làm để kiểm tra FD ứng viên thỏa mãn hay khơng Một số phương pháp tính tốn sử dụng phương pháp phân hoạch phương pháp tập tự Hai thuật toán tiếng sử dụng phương pháp phân hoạch TANE FD_Mine Thuật toán cài đặt phương pháp tập tự FUN Phương pháp bottom-up Khác với phương pháp top-down trên, phương pháp bottom-up so sánh quan hệ để tính tập tập khác Các tập sau sử dụng để FD quan hệ xét Đặc trưng kỹ thuật bottom-up chúng kiểm tra FD ứng viên dựa tập khác tính Hai thuật tốn điển hình sử dụng phương pháp Dep-Miner FastFDs Độ phức tạp trường hợp xấu toán phát FD hàm mũ theo số thuộc tính  số chủ đề liên quan đến phát FD lấy mẫu, trì FD phát hiện, phát khóa, 1.5 Phát RFD 1.5.1 Phát AFD Để kiểm tra AFD, phương pháp phát FD thích nghi để phát AFD cách bổ sung vào phần tính tốn độ thỏa độ đo lỗi 1.5.2 Phát CFD Những khó khăn xuất phát CFD đến từ hai khía cạnh Số lượng FD nhúng cần kiểm tra hàm mũ theo số thuộc tính Mặt khác, tốn phát bảng mẫu tối ưu NP-C Ba thuật toán điển hình để phát CFD CFDMiner, CTANE FastCFD 1.6 Tổng kết chương Chương trình bày khái qt FD RFD mơ hình liệu quan hệ Bài toán phát phụ thuộc liệu khơng gian tìm kiếm hàm mũ theo số thuộc tính Các phương pháp phát FD thích nghi để phát RFD Chẳng hạn, bổ sung phần tính độ đo lỗi độ thỏa vào thuật toán phát FD để phát AFD Đã số thuật toán đề xuất để giải toán phát FD RFD Chương PHỤ THUỘC HÀM XẤP XỈ PHỤ THUỘC HÀM ĐIỀU KIỆN 2.1 Về số kết liên quan đến FD AFD Phần rõ mối quan hệ kết hai báo thuộc hai nhóm tác giả ([Y Huhtala et al., 1999] [S King et al., 2003]) chứng minh số bổ đề quan trọng, tảng để phát FD AFD (chưa chứng minh) 2.1.1 Phân hoạch Với t  r X  , ký hiệu: [t]X = {u  r | t[X] = u[X]}và X = {[t]X | t  r} Tích hai phân hoạch X Y, ký hiệu X  Y Số lớp tương đương phân hoạch X ký hiệu |X | 2.1.2 Một số kết Các định lý [S.King et al., 2003]) thực chất số bổ đề [Y Huhtala et al., 1999], bổ đề chứng minh chi tiết luận án Định lý 2.1 FD X  A thoả mãn X mịn A Định lý 2.2 FD X  A thoả mãn |X| = |X{A}| Định lý 2.3 FD X  A thỏa mãn g3(X) = g3(X  {A}) Định lý 2.4 Ta X  Y = X  Y Định lý 2.5 Giả sử B  X X - {B}  B Khi đó, X  A X {B}  A Nếu X siêu khố X - {B} siêu khoá Định lý 2.6 C+(X) = {A  R | B  X, X - {A, B}  B không thoả mãn} Định lý 2.7 Giả sử A  X X - {A}  A FD X - {A}  A tối tiểu với B  X, ta A  C+(X - {B}) phát FD (kiểm tra tính FD) AFD (tính độ đo TRUTHr(X  Y), g1(X  Y, r), g2(X  Y, r)) 2.3 Phụ thuộc hàm điều kiện (CFD) Định nghĩa Một CFD  xác định lược đồ quan hệ R cặp  = (X  Y, Tp), X  Y FD (được gọi FD nhúng ) Tp bảng mẫu với thuộc tính X  Y Bảng mẫu Tp chứa mẫu, mẫu  Tp chứa giá trị biến không tên "" Biến không tên "" lấy giá trị miền thuộc tính tương ứng Ngữ nghĩa CFD Bảng mẫu Tp CFD  = (X  Y, Tp) xác định quan hệ phải thỏa FD X  Y Một cách trực quan, bảng mẫu Tp  làm mịn FD X  Y nhúng  việc áp đặt mối liên kết giá trị liệu liên quan mặt ngữ nghĩa Bài toán định xem tập CFD cho trước qn hay khơng NP-đầy đủ Đã hệ quy tắc suy diễn  xác đáng đầy đủ CFD Đã thuật tốn phát CFD CFDMiner, CTANE FastCFD 2.4 Về thứ tự phân cấp FD, CFD AR Cơng trình [R.Medina et al., 2009] cơng trình hay độc đáo Các tác giả thứ tự phân cấp FD, CFD AR: FD hợp CFD CFD hợp AR Thứ tự phân cấp FD, CFD AR mang lại nhiều lợi ích: thuật tốn để phát AR thích nghi để phát nhiều loại phụ thuộc liệu khác sinh tập rút gọn phụ thuộc Dưới số nhận xét kết bước đầu sau nghiên cứu cơng trình [R.Medina et al., 2009]: 10 Nhận xét 2.1 Khác với hầu hết tác giả nghiên cứu CFD, [R.Medina et al., 2009] mở rộng mẫu tp, xác định tồn Attr(R), tp[A] =  với A  X  Y Nhận xét 2.2 Thay cho đối sánh t  r với mẫu  Tp (tp mở rộng, xác định toàn Attr(R)), ta đối sánh t(X) với tp(X), t(Y) với tp(Y) Về thực chất t(X) tp(X) (tương tự cho t(Y) tp(Y)) sánh hợp A  X: t(X)[A] = tp(X)[A] = a  Dom(A) t(X)[A] = a tp(X)[A] =  Nhận xét 2.3 Xét định nghĩa mẫu xác định quan hệ (mảnh ngang) [R.Medina et al., 2009] sau: rt p = {t  r |  t} (*) Biểu thức (*) rõ ràng khơng chỉnh hầu hết trường hợp cho kết tập rỗng Thực vậy, trường hợp chứa thành phần  rõ ràng không tồn t  r  t Trường hợp ngược lại, với giả thiết X  Y  Attr(R), ta tp[A] =  t[A] = a với A  X  Y Do khơng thể tồn t  r  t Như vậy, rt p xác định (*) cho kết khác rỗng X  Y = Attr(R) trùng với r Do đó, biểu thức (*) phải sửa lại sau: rt p = {t  r | t(X  Y)  tp(X  Y)} [R.Medina et al., 2009] sử dụng định nghĩa sau:  Tính chất X-đầy đủ Quan hệ r gọi X-đầy đủ  t1, t2  r ta t1[X] = t2[X]  Bộ mẫu X-đầy đủ: (X, r) =  {t  r}  Phân tách ngang X-đầy đủ: RX(r) = {r'  r | r' X-đầy đủ} 11  Tập mẫu X-đầy đủ: (X, r) = {(X, r') | r'  RX(r)}  Tốn tử bao đóng: (X, r) = {A  Attr(R) | tp  (X, r), tp[A]  } Nhận xét 2.4 Như vậy, cho r' quan hệ X-đầy đủ r'  r tính (X, r') theo cơng thức (X, r') =  {t  r'} Xét định nghĩa toán tử  hai t1, t2  r [R.Medina et al., 2009]: dựa vào quan hệ thứ tự   a   với a giá trị bất kỳ, khiến cho việc tính t1  t2 gặp khó khăn Về thực chất, ta cần so sánh thành phần tương ứng hai t1 t2 để biết chúng hay khác Do đó, thay cho phép tốn  đơn giản hơn: , ta dùng phép toán  Với t1, t2  r,  t2 = t cho A  Attr(R), t[ A]  t1[ A] nÕu t1[ A]  t2 [ A] t1   t[ A]   nÕu t1[ A]  t2 [ A] Khi xem xét quan hệ (X, r) X F , chúng tơi mệnh đề Mệnh đề chứng minh chi tiết luận án Mệnh đề Cho r thể lược đồ R xác đinh tập thuộc tính Attr(R), X  Attr(R), r thỏa tập phụ thuộc hàm F Khi đó: (X, r) = {A  Attr(R) | tp  (X, r), tp[A]  } = X F = {A  Attr(R) | (X  A)  F+} 2.5 Kết luận chương Chương trình bày số kết liên quan đến FD AFD, phương pháp ma trận để phát FD CFD số kết bước đầu liên quan đến thứ tự phân cấp FD, CFD AR FD, AFD CFD ba loại phụ thuộc liệu quan trọng Nghiên cứu tiếp tục giải toán liên quan đến ba loại phụ thuộc hướng đáng quan tâm Các kết chương cơng bố [CT1, CT2, CT8, CT9] 12 Chương THUẬT TỐN TÍNH BAO ĐĨNG VẤN ĐỀ RÚT GỌN BÀI TỐN TÌM KHĨA CỦA LƯỢC ĐỒ QUAN HỆ 3.1 Thuật tốn tính bao đóng 3.1.1 Khái niệm bao đóng Cho tập FD F xác định  X   Ta có: X F = {A    (X  A)  F+} Để đơn giản, tập F rõ, kí hiệu X+ thay cho X F 3.1.2 Một số thuật tốn tính bao đóng Phần đề cập đến số thuật tốn tính bao đóng Tập trung nghiên cứu thuật tốn tính bao đóng Mora cộng cải tiến thuật toán Kết thực nghiệm cho thấy thuật toán Mora cộng hiệu thuật toán khác Tuy nhiên, tính đắn thuật tốn khơng chứng minh Hơn nữa, nhược điểm lần duyệt tập F, tất FD vế trái vế phải chứa Xnew kiểm tra vế trái để từ tính giá trị Xnew (điều làm thời gian khơng cần thiết giá trị Xnew thực chất khơng thay đổi) Thuật tốn cải tiến tránh phép kiểm tra tính tốn khơng cần thiết thực loại bỏ từ đầu FD vế phải chứa Xnew Luận án chứng minh tính đắn thuật tốn Mora cộng (và thuật toán cải tiến), đồng thời rõ thuật toán cải tiến hiệu 13 Thuật tốn tính bao đóng Mora cộng Input: , F, X   Output: X+ begin Xnew = X; repeat Xold = Xnew; for each Y Z  F if Y  Xnew then (I) Xnew = Xnew  Z; F = F - {Y Z}; elseif Z  Xnew then F = F - {Y Z}; (II) else F = F - {Y Z}; (III) F = F {Y-Xnew Z-Xnew}; end if; end for each; until ((Xnew = Xold) or (|F| = 0)); return(Xnew); end; Thuật tốn tính bao đóng cải tiến Input: , F, X   Output: X+ begin Xnew = X; repeat Xold = Xnew; for each Y  Z  F if (Z  Xnew) then F = F - {Y Z} (I) else if (Y  Xnew) then (II) Xnew = Xnew  Z; F = F - {Y  Z} else (III) F = F - {Y  Z }; F= F  {Y-XnewZ-Xnew}; end if; end for each; until (Xnew = Xold) or (|F| = 0); return(Xnew); end; 3.2 Vấn đề rút gọn toán xác định khóa lược đồ quan hệ 3.2.1 Một số kết biết Cho lược đồ quan hệ S = ,  = {A1, A2, , An} F = {L1 R1, , Lm  Rm | Li, Ri  , i = 1, ,m} Kí hiệu: m m i 1 i1 L   Li , R   Ri , S = {Kj | Kj khóa S}, G  K j S Kj , H   K j H =  \ H K j S Định lý 3.1 (Hồ Thuần Lê Văn Bào, 1985) Cho S = lược đồ quan hệ Khi đó: - Nếu X khóa S  \ R  X  ( \ R)  (L  R) (1) - Ta G =  \ R R \ L  H 14 Khái niệm lõi (core) thân (body) P Cordero cộng đưa năm 2013: Cho S = lược đồ quan hệ Khi lõi thân S định nghĩa sau:   core(, F) =  \   Ri  ( Li  Ri )F    body(, F) =   Li   [ \ core(, F)+] ( Li  Ri )F  Bằng tính tốn đơn giản, ta nhận được: core(, F) =  \ R body(, F) = L  [ \ ( \ R)+] Định lý 3.2 (Mora cộng sự, 2011) Cho S = lược đồ quan hệ K khóa (tối tiểu) S Khi đó, ta có: core  K  (core  body), nghĩa  \ R  K  ( \ R)  [L  [ \ ( \ R)+] ] (2) Rõ ràng (2) điều kiện cần để K khóa S 3.2.2 Một dạng cải tiến cho điều kiện cần (1) Dựa (1) ngữ nghĩa quen thuộc FD mơ hình quan hệ, chúng tơi định lý sau: Định lý 3.3 Cho S = lược đồ quan hệ Khi  \ R  K  ( \ R)  [(L  R) \ (R  ( \ R)+ )],  K  S (3) Rõ ràng (3) dạng cải tiến (1) 3.2.3 So sánh điều kiện cần Định lý 3.4 Hai điều kiện (2) (3) diễn đạt biểu thức khác Định lý 3.5 (Hồ Thuần cộng sự, 1996) Cho S = lược đồ quan hệ K khóa S Khi đó: ( \ R)  K  ( \ R)  [(L  R) \ ( \ R)+] (4) Định lý sau rõ mối quan hệ (2) (4) Định lý 3.6 Điều kiện cần (2) thực trùng với điều kiện cần (4) 15 Các định lý 3.3, 3.4 3.6 chứng minh chi tiết luận án Xét trực quan, mục đích tốn xác định khóa tìm tất khóa K lược đồ S = ta biết khóa K chứa Ω Nếu tìm khóa tập vũ trụ Ω khơng hiệu Ω siêu khóa lớn chứa tất khóa Do đó, vấn đề đặt cần tìm siêu khóa Z (càng thuộc tính tốt) chứa tất khóa S cho Z  Ω Nếu tìm tập Z việc tìm khóa Z thay tìm Ω đơn giản Các điều kiện cần (1), (2), (3) (4) viết lại cho thấy cấu trúc chung khóa K S, cận bên phải siêu khóa chứa khóa S  \ R  K  ( \ R)  (L  R)  \ R  K  ( \ R)  [L  [ \ ( \ R)+] ]  \ R  K  ( \ R)  [(L  R) \ (R  ( \ R)+ )]  \ R  K  ( \ R)  [(L  R) \ ( \ R)+] Trong luận án, ta cận bên phải (2) tốt cận bên phải (1) chứng minh (2), (3) (4) thực chất chúng diễn đạt biểu thức khác Như phân tích, ta mong muốn cận bên phải thuộc tính tốt (càng nhỏ tốt) Điều rõ ràng liên quan đến việc rút gọn tốn tìm khóa Thật vậy, giả sử xác định Z   siêu khóa chứa khóa S = Khi đó, việc rút gọn tốn tìm khóa S tiến hành qua bước sau: Bước Xây dựng lược đồ S' = ' = Z \ ( \ R) F' = {Li  '  Ri  ' | (Li  Ri)  F, i = 1, 2, , m} Bước Tìm S ' theo thuật tốn Bước Tìm S = {( \ R)  K | K  S ' } 16 3.3 Kết luận chương Bằng thực nghiệm, thuật tốn tính bao đóng Mora cộng chứng tỏ hiệu thuật tốn tính bao đóng khác Tuy nhiên, thuật tốn Mora cộng tồn vài hạn chế tính đắn chưa chứng minh Chúng tơi tiến hành chứng minh tính đắn cải tiến thuật toán Thuật toán cải tiến hiệu thuật toán Mora cộng q trình tính tốn thay FD FD đơn giản hơn; đặc biệt nhiều trường hợp, q trình tính bao đóng tập F đơn giản nhiều tất FD vế phải chứa Xnew bị loại bỏ trước xây dựng bao đóng Với việc rút gọn tốn tìm khóa, dựa ngữ nghĩa quen thuộc FD mơ hình liệu quan hệ, cải tiến điều kiện cần (1) để điều kiện cần (3), đồng thời chứng minh điều kiện cần (2), (3) (4) thực chất Đây điều kiện cần để tập  khóa tối tiểu lược đồ quan hệ S = Việc tìm điều kiện cần tốt (2), (3) (4) nhằm rút gọn tốn tìm khóa vấn đề đáng quan tâm Các kết chương công bố [CT3, CT4, CT6, CT7] 17 Chương VỀ MỘT PHÉP BIẾN ĐỔI TIỀN XỬ LÝ HIỆU QUẢ CÁC TẬP PHỤ THUỘC HÀM 4.1 Giới thiệu Cho r quan hệ  Mọi khẳng định dạng XY, X, Y  , gọi FD r Ta nói r thỏa XY với t1, t2  r t1[X] = t2[X] kéo theo t1[Y] = t2[Y] 4.2 Sự thừa tập FD Cho trước tập FD F, ký hiệu F  (Z  W) để Z  W suy diễn từ F hệ quy tắc suy diễn Armstrong Xét FD f = XY  F: Ta nói f thừa F F \{ f } | f Ta nói f l-dư thừa F tồn Z  , Z  X cho (F \{ f })  {(X  Z)Y} | f Ta nói f r-dư thừa F tồn U  , U  Y cho (F \{ f })  { X(Y  U)} | f Ta nói F thừa F chứa phần tử thừa ldư thừa r-dư thừa 4.3 Một phép biến đổi tiền xử lý hiệu tập FD Mora cộng thiết kế phép biến đổi tiền xử lý hiệu sử dụng toán tử thay logic thay SLFD để loại bỏ thừa tập FD sở tính đắn phép biến đổi tiền xử lý định lý 4.1 Trong phần này, lỗi sai không chấp nhận chứng minh định lý 4.1 đưa chứng minh mới, đơn giản cho định lý đó; điều tác giả Mora xác nhận hoàn toàn 18 4.3.1 Logic Paredaens  Định nghĩa ngôn ngữ Par: Par = {XY | X, Y  2 X  }  Định nghĩa: Logic Paredaens (LFD) logic cho cặp (Par, SPar) SPar lược đồ tiên đề AxPar: |S Par XY Y  X quy tắc suy diễn sau: Trans XY, Y Z |SPar XZ Augm XY |SPar XXY Union XY, X Z Comp XY, W Z |SPar XWYZ Inters XY, X Z |SPar XY Z |SPar (quy tắc gia tăng) XYZ Y Z   Reduc XY |SPar XY Z Y Z   Frag XYZ |SPar XY gAug (quy tắc bắc cầu) (quy tắc hợp) (quy tắc hợp thành) (quy tắc giao) (quy tắc rút gọn) (quy tắc phân mảnh) XY |SPar UV X  U V  XY (quy tắc gia tăng suy rộng) gTrans XY, Z U |SPar VW Z  XY, X  V W  UV (quy tắc bắc cầu suy rộng) Định lý 4.1 (P.Cordero et al.): Cho XY, UV  LFD với X  Y =  (a) Nếu X  U {XY, UV} S Par {XY, (U Y)(V  Y)} (1) (b) Nếu X  U X  UV {XY, UV} S Par {XY, U(V  Y)} (2) Cái hay định lý 4.1 cho phép đưa vào hai quy tắc thay quan trọng Rõ ràng khơng hệ tiên đề cho FD 19 quy tắc thay nói trên, khả phát loại bỏ thừa tập FD hiệu Chứng minh định lý 4.1 P.Cordero et al thực Hãy xét chứng minh phần (b) chiều  P.Cordero et al sau: U  X AxFD (tiên đề phản xạ) XY (giả thiết) U  Y (1, 2, bắc cầu suy rộng) U  (V  Y) (giả thiết) U  VY (3, 4, quy tắc hợp) U  V (2, 5, gia tăng suy rộng) Tiếp theo, ta xem bước 1: U  X AxFD (tiên đề phản xạ) Khẳng định rõ ràng sai phát biểu phần (b) định lý 4.1, ta giả thiết X  U, X  UV, X  Y =  4.3.2 Một chứng minh cho định lý 4.1 Để đơn giản cách chứng minh định lý 4.1, ta sử dụng hệ ba tiên đề A1, A2, A3 Armstrong với hai quy tắc suy diễn sau: - Nếu X  Y U  V XU  YV (Quy tắc hợp) - Nếu X  Y X  Z với Z  Y (Quy tắc tách) Chứng minh (a)  Vì X  U nên X  Y  U  Y Vì X  Y =  nên X  Y = X  U  Y Từ ta dãy suy diễn sau: (U  Y)  X (A1) XY (Giả thiết) (U  Y)  Y (1, 2, A3) (U  Y)  (U Y) (A1) (U  Y)  UY (3, 4, Quy tắc hợp) (U  Y)  U (5, Quy tắc tách) U  V (Giả thiết) 20 (U  Y)  V (6, 7, A3) (U  Y)  (V  Y) (8, Quy tắc tách) (a)  XY (Giả thiết) (U  Y)  (V  Y) (Giả thiết) U  X (A1, X  U) U  Y (3, 1, A3) U  VY (2, 4, Quy tắc hợp) U  V (5, Quy tắc tách) (b)  U  V (Giả thiết) U  (V  Y) (1, Quy tắc tách) (b)  XY (Giả thiết) U  (V  Y) (Giả thiết) U  U(V  Y) (2, A2) U(V  Y)  (UV  Y) (A1) U  (V  Y)  (U  Y)  (V  Y) (U  Y)  (V  Y) = UV  Y U  (UV  Y) (3, 4, A3) (UV  Y)  X (A1) X  UV X  Y =  nên X = (X  Y)  UV  Y (UV  Y)  Y (6, 1, A3) U  Y (5, 7, A3) U  UVY (5, 8, A2) 10 U  V (9, Quy tắc tách) Trong chứng minh định lý 4.1, việc chứng minh phần (a) giống với chứng minh phần (a) ban đầu Cái khác chỗ cách thức giải thích bước suy diễn Hơn nữa, chứng minh mới, sử dụng hệ tiên đề Armstrong, nên việc giải thích bước suy diễn đơn giản, rõ ràng Để khắc phục lỗi sai chứng minh phần (b) định lý 4.1, chứng minh phần (b) chúng tơi hồn tồn Nó khiến cho định lý 4.1, định lý hay, tảng cho phép biến đổi tiền xử lý loại bỏ hiệu thừa tập FD cho trước, đứng vững sử dụng Trong thực hành, nhiều trường hợp, để đơn giản hơn, ta dùng quy tắc thay sau: Nếu X  U, X  V X  Y =  {X  Y, U  V}  {X  Y, U  (V  Y)} (3) Thực nghiệm quy tắc thay nhiều tập FD với số lượng kích thước khác cho thấy tỷ lệ phần trăm số lần áp dụng quy tắc thay cao tăng đáng kể với độ phức tạp tập FD - Đối với 28,25% tập FD, không cần thiết áp dụng quy tắc bắc cầu (A3) phép biến đổi tiền xử lý loại bỏ thừa hiệu 21 - Kích thước tập FD rút gọn tới 52,89% - Khi số thuộc tính tăng lên số trường hợp khơng cần áp dụng quy tắc bắc cầu (A3) tăng lên Điều chứng tỏ quy tắc thay đặc biệt thích hợp để làm việc với lược đồ sở liệu lớn - Số phần trăm áp dụng quy tắc thay không phụ thuộc vào số thuộc tính độ dài FD 4.4 Tổng kết chương Sự thừa làm tăng kích thước khơng cần thiết lưu trữ liệu, nguyên nhân dẫn đến không quán liệu làm giảm hiệu trình quản lý khai thác hệ sở liệu Phép biến đổi tiền xử lý để loại bỏ thừa tập FD hiệu sở phép biến đổi tiền xử lý định lý 4.1 Đáng tiếc chứng minh phần (b) định lý 4.1 sai không chấp nhận Trong chương này, đưa chứng minh cho định lý 4.1, đưa quy tắc thay đơn giản dễ áp dụng thực hành Điều khiến cho định lý 4.1 đứng vững áp dụng Xây dựng thêm quy tắc thay cho việc tiền xử lý tập FD hướng nghiên cứu đáng quan tâm Các kết chương công bố [CT5] 22 KẾT LUẬN Luận án trình bày khái quát FD RFD mơ hình liệu quan hệ, nghiên cứu thuật tốn tính bao đóng tập thuộc tính vấn đề rút gọn cho tốn xác định khóa lược đồ quan hệ, nghiên cứu phép biến đổi tiền xử lý hiệu tập FD, nghiên cứu AFD CFD Các kết đạt luận án tóm tắt sau: - Một số kết FD, AFD (chỉ rõ mối quan hệ kết hai cơng trình, chứng minh số bổ đề, tìm số liên hệ số độ đo xấp xỉ thường xuyên sử dụng cho AFD, xây dựng thuật toán dùng ma trận để phát FD, AFD) vài kết bước đầu thứ tự phân cấp FD, CFD AR (điều chỉnh phù hợp cho biểu thức xác định quan hệ (mảnh ngang), đề xuất cải tiến toán tử giao mẫu , chứng minh (X, r) = X F ) - Đề xuất thuật toán cải tiến tính bao đóng tập thuộc tính tập FD - Với việc rút gọn toán tìm (phát hiện) khóa, dựa ngữ nghĩa quen thuộc FD mơ hình quan hệ, chúng tơi cải tiến điều kiện cần chứng minh ba điều kiện cần thực chất chúng diễn đạt biểu thức khác - Chỉ lỗi sai nghiêm trọng chứng minh định lý sở cho phép biến đổi tiền xử lý để loại bỏ thừa tập FD Đồng thời, đưa chứng minh mới, đơn giản cho định lý đó, đưa quy tắc thay đơn giản dễ áp dụng thực hành 23 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [CT1] Vũ Quốc Tuấn, Về số kết liên quan tới phụ thuộc hàm xấp xỉ sở liệu quan hệ, Kỷ yếu Hội thảo quốc gia lần thứ XVI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông - Đà Nẵng, 11-2013, tr 352-354 [CT2] Vũ Quốc Tuấn, Vũ Chính Thúy, Phương pháp ma trận phát phụ thuộc hàm sở liệu, Tạp chí NCKH & CN Quân sự, Số 34, 12-2014, tr 73-80 [CT3] Hồ Thuần, Vũ Quốc Tuấn, Một thuật tốn tính bao đóng tập thuộc tính tập phụ thuộc hàm, Tạp chí NCKH & CN Quân sự, Số 45, 10-2016, tr 109-117 [CT4] Vũ Quốc Tuấn, Hồ Thuần, Một số kết rút gọn tốn tìm khóa, Tạp chí NCKH & CN Quân sự, Số 47, 02-2017, tr 102-107 [CT5] Vũ Quốc Tuấn, Hồ Thuần, Về phép biến đổi tiền xử lý hiệu tập phụ thuộc hàm, Tạp chí NCKH & CN Quân sự, Số 50, 08-2017, tr 162-170 [CT6] Vũ Quốc Tuấn, Hồ Thuần, Một số kết thuật tốn tính bao đóng rút gọn tốn tìm khóa lược đồ quan hệ, Journal of Research and Development on Information and Communication Technology (Bộ Thông tin Truyền thông), Tập V-2, Số 18 (38), 12-2017, tr 12-18 [CT7] Vũ Quốc Tuấn, Hồ Thuần, Về số kết liên quan đến rút gọn tốn tìm khóa lược đồ quan hệ, Tạp chí NCKH & CN Quân sự, Số 54, 04-2018, tr 157-162 [CT8] Vu Quoc Tuan, Some results about relaxed functional dependencies, Journal of Cybernetics and Information Technologies, Bulgarian (Submitted) [CT9] Vu Quoc Tuan, Some improvements about a unified hierarchy for functional dependencies, conditional functional dependencies and association rules, Journal of Military Science and Technology, Vietnam, Special issue - No.60A, 05-2019, pp 87-94 24 ... kế sở liệu, quản lý chất lượng liệu biểu diễn tri thức Các phụ thuộc phát tri thức trích xuất từ liệu có sở liệu Q trình trích xuất gọi phát phụ thuộc Mục đích việc phát phụ thuộc tìm phụ thuộc. .. trọng (thỏa mãn) liệu sở liệu Các phụ thuộc (được phát hiện) biểu diễn tri thức dùng để kiểm tra thiết kế sở liệu, đánh giá chất lượng liệu Từ năm đầu thập kỷ 80 kỷ 20, toán phát phụ thuộc thu hút... FD cho trước) số kết liên quan Chương PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG MƠ HÌNH DỮ LIỆU QUAN HỆ 1.1 Nhắc lại số khái niệm Một quan hệ r tập thuộc tính Ω = {A1, A2,…,An} r  {(a1,

Ngày đăng: 01/06/2019, 05:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w