MỞ ĐẦU Các phụ thuộc dữ liệu có vai trò quan trọng trong thiết kế cơ sở dữ liệu, quản lý chất lượng dữ liệu và biểu diễn tri thức. Việc sử dụng các phụ thuộc trong thiết kế cơ sở dữ liệu và quản lý chất lượng dữ liệu được giới thiệu trong phần lớn các sách về cơ sở dữ liệu. Các phụ thuộc trong trường hợp này được trích xuất từ các yêu cầu về ứng dụng, được sử dụng trong việc chuẩn hóa cơ sở dữ liệu và được cài đặt trong cơ sở dữ liệu đã được thiết kế để đảm bảo chất lượng dữ liệu. Ngược lại, các phụ thuộc trong phát hiện tri thức được trích xuất từ dữ liệu hiện có của cơ sở dữ liệu. Quá trình trích xuất này được gọi là phát hiện phụ thuộc với mục đích tìm tất cả các phụ thuộc được thỏa mãn (đúng) trên dữ liệu hiện có. Mục đích của việc phát hiện phụ thuộc là tìm các phụ thuộc quan trọng đúng (thỏa mãn) trên dữ liệu của cơ sở dữ liệu. Các phụ thuộc (được phát hiện) biểu diễn tri thức (thuộc lĩnh vực hoạt động nào đó) và có thể được sử dụng để kiểm tra thiết kế cơ sở dữ liệu cũng như đánh giá chất lượng dữ liệu. Ví dụ. Bằng việc kiểm tra dữ liệu của một cơ sở dữ liệu y học có hai thuộc tính Bệnh và Triệu chứng, nếu viêm phổi là một giá trị của Bệnh và sốt là một giá trị của Triệu chứng, đồng thời nếu mỗi bệnh nhân viêm phổi đều bị sốt thì sốt được cho là có liên quan đến viêm phổi. Nếu điều này xảy ra (đúng) đối với mọi cặp giá trị Triệu chứng và Bệnh thì Bệnh xác định hàm Triệu chứng và đây là một phụ thuộc hàm. Nếu phụ thuộc hàm này là một tri thức mới, nó sẽ giúp cho việc chẩn đoán bệnh hiệu quả hơn. Trong lĩnh vực khoa học sức khỏe hiện đại, việc tìm các mối liên hệ và các phụ thuộc như vậy (giữa các đoạn DNA và Bệnh) trở nên rất quan trọng đối với sự phát triển của y học. Bên cạnh việc phát hiện tri thức, các phụ thuộc được phát hiện từ dữ liệu có thể được sử dụng để kiểm tra xem các phụ thuộc đã được định nghĩa trước đây trên cơ sở dữ liệu có đúng (thỏa mãn) và đầy đủ hay không, đồng thời có thể dùng để kiểm tra ngữ nghĩa của dữ liệu trong cơ sở dữ liệu. Một ứng dụng nữa của các phụ thuộc (được phát hiện) là để đánh giá chất lượng của dữ liệu. Vai trò chính của việc cài đặt các phụ thuộc trong một cơ sở dữ liệu là để đảm bảo chất lượng dữ liệu của cơ sở dữ liệu. Do đó, trên cơ sở phân tích các phụ thuộc được phát hiện và các phụ thuộc phải có giữa các thuộc tính của dữ liệu, ta có thể tìm và xác định được sự không nhất quán giữa các thuộc tính và các lỗi sai trên dữ liệu; từ đó, đánh giá được chất lượng dữ liệu. Từ những năm đầu thập kỷ 80 của thế kỷ 20, bài toán phát hiện phụ thuộc đã thu hút được sự quan tâm của đông đảo các nhà khoa học thuộc nhiều lĩnh vực nghiên cứu khác nhau như thiết kế cơ sở dữ liệu, học máy và phát hiện tri thức ([3], [10], [12], [18], [21], [26], [32], [33], [34], [37], [42], [45], [57], [65], [72], [75],...). Và cho đến thời điểm hiện tại, vấn đề phát hiện phụ thuộc từ các tập dữ liệu lớn (big data) càng trở nên quan trọng vì trong các tập dữ liệu lớn này chứa rất nhiều tri thức quý giá. Hiện nay, với sự phát triển của toàn xã hội và các thiết bị số, đặc biệt là các ứng dụng mạng xã hội và điện thoại thông minh (smartphone), lượng dữ liệu trong các ứng dụng tăng rất nhanh làm nảy sinh vấn đề lưu trữ, quản lý dữ liệu và đặc biệt là vấn đề phát hiện tri thức từ các tập dữ liệu lớn đó. Bài toán phát hiện phụ thuộc hàm và phụ thuộc hàm suy rộng trong cơ sở dữ liệu là một trong những vấn đề quan trọng của phát hiện tri thức (dưới dạng các phụ thuộc). Ba loại phụ thuộc điển hình được chú ý phát hiện là phụ thuộc hàm (FD: Functional Dependency), phụ thuộc hàm xấp xỉ (AFD: Approximate Functional Dependency) và phụ thuộc hàm điều kiện (CFD: Conditional Functional Dependency). AFD là sự mở rộng của FD, tính chất xấp xỉ dựa trên độ thỏa hoặc độ đo lỗi; CFD là sự mở rộng của FD, nhằm nắ m bắt những yếu tố không nhất quán trong dữ liệu. Các hướng nghiên cứu giải quyết bài toán phát hiện FD suy rộng trong cơ sở dữ liệu, trước hết tập trung vào vấn đề phát hiện FD do loại phụ thuộc này là trường hợp riêng của tất cả các loại FD suy rộng, các kết quả về phát hiện FD có thể được thích nghi để phát hiện các loại phụ thuộc khác (chẳng hạn AFD). Mô hình chung của bài toán phát hiện FD là xây dựng không gian tìm kiếm các FD, kiểm tra sự thỏa mãn của từng FD, tỉa không gian tìm kiếm , xuất ra tập FD đã phát hiện được và làm gọn tập FD này (giảm bớt sự dư thừa). Trong bài toán phát hiện FD, phát hiện khóa là trường hợp đặc biệt và cũng là bài toán rất đáng quan tâm do khóa đóng vai trò quan trọng trong chuẩn hóa cơ sở dữ liệu quan hệ. Độ phức tạp thời gian tổng quát của bài toán phát hiện FD là đa thức theo số bản ghi trong cơ sở dữ liệu nhưng là hàm mũ theo số thuộc tính của cơ sở dữ liệu đó. Do đó, để giảm thời gian xử lý, cần xây dựng các luật tỉa hiệu quả. Trong số các luật tỉa đã được đề xuất, tỉa khóa là rất quan trọng, khi phát hiện được khóa thì có thể tỉa (xóa) mọi nút chứa khóa trong không gian tìm kiếm. Tuy nhiên, các luật tỉa khóa hiện có vẫn còn nhược điểm là tìm khóa trên toàn bộ tập thuộc tính của cơ sở dữ liệu (đây thực sự là vấn đề rất khó vì độ phức tạp thời gian có thể là hàm mũ theo số thuộc tính của ), vậy có cách nào phát hiện được khóa trong một tập con thực sự của hay không? Câu hỏi trên chính là một trong những động lực cơ bản của luận án này. Sau khi đã phát hiện được tập các phụ thuộc, tập này có thể rất lớn và gây khó khăn cho việc sử dụng vì chứa những dư thừa không cần thiết. Vấn đề quan trọng đặt ra là làm thế nào để loại bỏ được (càng nhiều càng tốt) sự dư thừa trong tập phụ thuộc đã được phát hiện. Đây cũng là bài toán được quan tâm trong luận án. Một hướng nghiên cứu nữa trong luận án là tập trung nghiên cứu, phát hiện hai loại FD suy rộng điển hình, đó là AFD và CFD. Cả AFD và CFD đều có nhiều ứng dụng và xuất hiện nhiều trong các cơ sở dữ liệu quan hệ, đặc biệt CFD còn là công cụ mạnh trong giải quyết bài toán làm sạch dữ liệu ([12]). Với AFD, vấn đề quan trọng nhất là cải tiến và phát triển các kỹ thuật tính toán các độ thỏa hoặc độ đo lỗi ([34], [72]); với CFD, ngoài việc phát hiện, thì việc tìm hiểu về một thứ tự phân cấp giữa CFD và một số loại phụ thuộc khác cũng là vấn đề rất đáng quan tâm.
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - VŨ QUỐC TUẤN PHÁT HIỆN PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG CƠ SỞ DỮ LIỆU LUẬN ÁN TIẾN SỸ TOÁN HỌC HÀ NỘI – 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - VŨ QUỐC TUẤN PHÁT HIỆN PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG CƠ SỞ DỮ LIỆU LUẬN ÁN TIẾN SỸ TOÁN HỌC Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 46 01 10 Người hướng dẫn khoa học: PGS TS Hồ Thuần PGS TS Nguyễn Thanh Tùng Hà Nội – 2019 LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu tác giả thực hướng dẫn khoa học PGS TS Hồ Thuần PGS TS Nguyễn Thanh Tùng Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Tất kết trình bày luận án trung thực, không chép từ cơng trình khác Nếu có điều khơng trung thực, tác giả xin chịu hoàn toàn trách nhiệm Tác giả Vũ Quốc Tuấn i LỜI CẢM ƠN Luận án thực Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam hướng dẫn khoa học PGS TS Hồ Thuần PGS TS Nguyễn Thanh Tùng Tác giả xin bày tỏ lòng biết ơn sâu sắc tới Thầy tận tình bảo, động viên, hướng dẫn tạo điều kiện thuận lợi để tác giả hoàn thành luận án Tác giả xin trân trọng cảm ơn tập thể Thầy Cô Viện Công nghệ Thơng tin có nhiều ý kiến đóng góp phản biện suốt trình tác giả nghiên cứu hoàn chỉnh luận án Tác giả xin chân thành cảm ơn nhà khoa học, tác giả cơng trình tham khảo trích dẫn luận án Tác giả xin trân trọng cảm ơn Lãnh đạo Viện Công nghệ Thông tin, Học Viện Khoa học Công nghệ tạo điều kiện tốt để tác giả có mơi trường nghiên cứu hồn thành chương trình nghiên cứu sinh Xin chân thành cảm ơn Phòng ban Viện Công nghệ Thông tin giúp đỡ, tạo điều kiện cho tác giả suốt trình thực luận án Tác giả xin cảm ơn Ban giám hiệu Trường Cao đẳng Hải Dương, Khoa Tự Nhiên Khoa Điện-Cơ-Tin tạo điều kiện thuận lợi cho tác giả thực luận án Xin cảm ơn tất bạn đồng nghiệp chia sẻ, động viên tác giả lúc khó khăn Cuối cùng, tác giả xin bày tỏ lòng biết ơn người thân gia đình, đặc biệt mẹ vợ, ủng hộ động viên cho tác giả suốt thời gian hoàn thành luận án ii MỤC LỤC Danh sách hình vẽ Danh sách bảng Danh sách chữ viết tắt v v vi MỞ ĐẦU Chương PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG MƠ HÌNH DỮ LIỆU QUAN HỆ 1.1 Nhắc lại số khái niệm 1.1.1 Miền 1.1.2 Quan hệ 1.1.3 Các tính chất đặc trưng quan hệ 1.1.4 Lược đồ quan hệ 1.2 Phụ thuộc hàm 1.2.1 Khái niệm phụ thuộc hàm 1.2.2 Hệ quy tắc suy diễn Armstrong 1.2.3 Bao đóng tập thuộc tính 1.2.4 Khóa lược đồ quan hệ 1.3 Phụ thuộc hàm suy rộng 10 1.3.1 Phụ thuộc hàm xấp xỉ 11 1.3.2 Phụ thuộc hàm mêtric 13 1.3.3 Phụ thuộc hàm điều kiện 14 1.3.4 Phụ thuộc hàm mờ 16 1.3.5 Phụ thuộc sai phân 17 1.3.6 Các loại phụ thuộc hàm suy rộng khác 18 1.4 Phát phụ thuộc hàm 18 1.4.1 Phương pháp top-down 19 1.4.2 Phương pháp bottom-up 28 1.4.3 Một số chủ đề liên quan đến phát phụ thuộc hàm 32 1.5 Phát phụ thuộc hàm suy rộng 34 1.5.1 Phát phụ thuộc hàm xấp xỉ 34 1.5.2 Phát phụ thuộc hàm điều kiện 36 1.6 Tổng kết chương 39 iii Chương PHỤ THUỘC HÀM XẤP XỈ VÀ PHỤ THUỘC HÀM ĐIỀU KIỆN 41 2.1 Về số kết liên quan đến FD AFD 41 2.1.1 Phân hoạch 41 2.1.2 Một số kết 42 2.2 Phát FD AFD 45 2.2.1 Ma trận tương đương 45 2.2.2 Một số tính chất ma trận thuộc tính 48 2.2.3 Sử dụng ma trận để kiểm tra phụ thuộc hàm 49 2.2.4 Sử dụng ma trận để tính số độ đo xấp xỉ 50 2.3 Phụ thuộc hàm điều kiện 54 2.3.1 Sự cần thiết phải mở rộng FD thành CFD 54 2.3.2 Cú pháp ngữ nghĩa CFD 54 2.3.3 Một số kết quan trọng biết CFD 57 2.4 Về thứ tự phân cấp FD, CFD AR 62 2.5 Kết luận chương 72 Chương THUẬT TỐN TÍNH BAO ĐĨNG VÀ VẤN ĐỀ RÚT GỌN BÀI TỐN TÌM KHĨA CỦA LƯỢC ĐỒ QUAN HỆ 73 3.1 Thuật tốn tính bao đóng 73 3.1.1 Khái niệm bao đóng 73 3.1.2 Một số thuật tốn tính bao đóng 74 3.2 Vấn đề rút gọn toán xác định khóa lược đồ quan hệ 87 3.2.1 Một số kết biết 87 3.2.2 Một dạng cải tiến cho điều kiện cần công bố năm 1985 89 3.2.3 So sánh điều kiện cần 91 3.2.4 Một toán định 95 3.3 Kết luận chương 96 Chương VỀ MỘT PHÉP BIẾN ĐỔI TIỀN XỬ LÝ HIỆU QUẢ CÁC TẬP PHỤ THUỘC HÀM 97 4.1 Giới thiệu 97 4.2 Sự dư thừa tập phụ thuộc hàm 100 4.3 Một phép biến đổi tiền xử lý hiệu tập FD 101 4.3.1 Logic Paredaens 102 4.3.2 Một chứng minh cho định lý 4.1 107 4.4 Tổng kết chương 113 KẾT LUẬN DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ TÀI LIỆU THAM KHẢO iv 114 116 117 DANH SÁCH HÌNH VẼ Hình 1.1 Minh họa dàn thuộc tính 20 Hình 2.1 Các luật suy diễn CFD 60 DANH SÁCH BẢNG BIỂU Bảng 1.1 Quan hệ Nhân viên 11 Bảng 1.2 Quan hệ Phim 13 Bảng 1.3 Quan hệ Qh1 14 Bảng 1.4 Quan hệ Cust 15 Bảng 1.5 Quan hệ Qh2 17 Bảng 1.6 Quan hệ Qh3 19 Bảng 1.7 Minh họa phụ thuộc hàm điều kiện 38 Bảng 2.1 Một quan hệ minh họa 47 Bảng 2 Quan hệ r 67 Bảng 2.3 Quan hệ r1 68 Bảng 2.4 Quan hệ r2 68 Bảng 2.5 Quan hệ r3 68 Bảng 2.6 Quan hệ r4 68 Bảng 3.1 Minh họa cho ví dụ 3.3 80 Bảng 3.2 Kết thử nghiệm 82 Bảng 3.3 Minh họa thuật toán 3.7 84 Bảng 4.1 Quan hệ phân công 98 Bảng 4.2 Minh họa cho ví dụ 4.6 111 Bảng 4.3 Minh họa cho ví dụ 4.7 112 v DANH SÁCH CHỮ VIẾT TẮT Từ Tiếng Anh viết tắt FD Tiếng Việt Functional dependency Phụ thuộc hàm RFD Relaxed functional dependencies Phụ thuộc hàm suy rộng AFD Approximate functional dependency Phụ thuộc hàm xấp xỉ MFD Metric functional dependency Phụ thuộc hàm mêtric FFD Fuzzy functional dependency Phụ thuộc hàm mờ DD Differential dependencies Phụ thuộc sai phân CFD Conditional Functional dependency Phụ thuộc hàm điều kiện AR Association Rule Luật kết hợp Extended Conditional Functional Phụ thuộc hàm điều kiện dependency mở rộng eCFD CIND Conditional Inclusion Dependency vi Phụ thuộc bao hàm điều kiện MỞ ĐẦU Các phụ thuộc liệu có vai trò quan trọng thiết kế sở liệu, quản lý chất lượng liệu biểu diễn tri thức Việc sử dụng phụ thuộc thiết kế sở liệu quản lý chất lượng liệu giới thiệu phần lớn sách sở liệu Các phụ thuộc trường hợp trích xuất từ yêu cầu ứng dụng, sử dụng việc chuẩn hóa sở liệu cài đặt sở liệu thiết kế để đảm bảo chất lượng liệu Ngược lại, phụ thuộc phát tri thức trích xuất từ liệu có sở liệu Q trình trích xuất gọi phát phụ thuộc với mục đích tìm tất phụ thuộc thỏa mãn (đúng) liệu có Mục đích việc phát phụ thuộc tìm phụ thuộc quan trọng (thỏa mãn) liệu sở liệu Các phụ thuộc (được phát hiện) biểu diễn tri thức (thuộc lĩnh vực hoạt động đó) sử dụng để kiểm tra thiết kế sở liệu đánh giá chất lượng liệu Ví dụ Bằng việc kiểm tra liệu sở liệu y học có hai thuộc tính Bệnh Triệu chứng, viêm phổi giá trị Bệnh sốt giá trị Triệu chứng, đồng thời bệnh nhân viêm phổi bị sốt sốt cho có liên quan đến viêm phổi Nếu điều xảy (đúng) cặp giá trị Triệu chứng Bệnh Bệnh xác định hàm Triệu chứng phụ thuộc hàm Nếu phụ thuộc hàm tri thức mới, giúp cho việc chẩn đoán bệnh hiệu Trong lĩnh vực khoa học sức khỏe đại, việc tìm mối liên hệ phụ thuộc (giữa đoạn DNA Bệnh) trở nên quan trọng phát triển y học Bên cạnh việc phát tri thức, phụ thuộc phát từ liệu sử dụng để kiểm tra xem phụ thuộc định nghĩa trước sở liệu có (thỏa mãn) đầy đủ hay khơng, đồng thời dùng để kiểm tra ngữ nghĩa liệu sở liệu Một ứng dụng phụ thuộc (được phát hiện) để đánh giá chất lượng liệu Vai trò việc cài đặt phụ thuộc sở liệu để đảm bảo chất lượng liệu sở liệu Do đó, sở phân tích phụ thuộc phát phụ thuộc phải có thuộc tính liệu, ta tìm xác định khơng qn thuộc tính lỗi sai liệu; từ đó, đánh giá chất lượng liệu Từ năm đầu thập kỷ 80 kỷ 20, toán phát phụ thuộc thu hút quan tâm đông đảo nhà khoa học thuộc nhiều lĩnh vực nghiên cứu khác thiết kế sở liệu, học máy phát tri thức ([3], [10], [12], [18], [21], [26], [32], [33], [34], [37], [42], [45], [57], [65], [72], [75], ) Và thời điểm tại, vấn đề phát phụ thuộc từ tập liệu lớn (big data) trở nên quan trọng tập liệu lớn chứa nhiều tri thức quý giá Hiện nay, với phát triển toàn xã hội thiết bị số, đặc biệt ứng dụng mạng xã hội điện thoại thông minh (smartphone), lượng liệu ứng dụng tăng nhanh làm nảy sinh vấn đề lưu trữ, quản lý liệu đặc biệt vấn đề phát tri thức từ tập liệu lớn Bài toán phát phụ thuộc hàm phụ thuộc hàm suy rộng sở liệu vấn đề quan trọng phát tri thức (dưới dạng phụ thuộc) Ba loại phụ thuộc điển hình ý phát phụ thuộc hàm (FD: Functional Dependency), phụ thuộc hàm xấp xỉ (AFD: Approximate Functional Dependency) phụ thuộc hàm điều kiện (CFD: Conditional Functional Dependency) AFD mở rộng FD, tính chất xấp xỉ dựa độ thỏa độ đo lỗi; CFD mở rộng FD, nhằm nắm bắt yếu tố không quán liệu Các hướng nghiên cứu giải toán phát FD suy rộng sở liệu, trước hết tập trung vào vấn đề phát FD loại phụ thuộc trường hợp riêng tất loại FD suy rộng, kết phát FD thích nghi để phát loại phụ thuộc khác (chẳng Điều hiển nhiên X U, X V X Y = đương nhiên X U, X UV X Y = ta rơi vào trường hợp (b) định ly 4.1 Nhận xét 4.8 Trên sở phép thay (1), (2), (3), ta làm đơn giản thủ tục removeRedundancy [24] thủ tục Loại bỏ dư thừa cho tập phụ thuộc hàm F dạng thu gọn gồm bước sau: -Procedure Loại bỏ dư thừa -INPUT: F (Một tập phụ thuộc hàm dạng thu gọn) OUTPUT: F' (Một tập phụ thuộc hàm tương đương với F với dư thừa hơn) begin repeat B1 Thực phép hợp cho phụ thuộc hàm có vế trái; B2 Thực phép thay (1), (2), (3); until (không thực thao tác B1 B2 thêm nữa); B3 Kiểm tra xem tập phụ thuộc hàm thu được, có phụ thuộc hàm suy từ hai phụ thuộc hàm khác từ việc áp dụng (A3) Nếu có loại bỏ end; Nhận xét 4.9 Trong [24] [55], tác giả cho chạy thủ tục removeRedundancy nhiều tập phụ thuộc hàm với số lượng kích thước khác thấy tỷ lệ phần trăm số lần áp dụng quy tắc thay cao tăng đáng kể với độ phức tạp tập phụ thuộc hàm Ngoài ra, tác giả [24] [55] rút kết luận tổng quát sau: - Đối với 28,25% tập phụ thuộc hàm, không cần thiết áp dụng quy tắc bắc cầu (A3) phép biến đổi tiền xử lý loại bỏ dư thừa cách hiệu - Kích thước tập phụ thuộc hàm rút gọn tới 52,89% 110 - Khi số thuộc tính tăng lên số trường hợp khơng cần áp dụng quy tắc bắc cầu (A3) tăng lên Điều chứng tỏ quy tắc thay đặc biệt thích hợp để làm việc với lược đồ sở liệu lớn - Số phần trăm áp dụng quy tắc thay không phụ thuộc vào số thuộc tính độ dài phụ thuộc hàm Nhận xét 4.10 Để thấy ý nghĩa ưu việt quy tắc thay (tức phép biến đổi tiền xử lý tập phụ thuộc hàm), ta xét hai ví dụ sau, ví dụ 3.6 lấy lại từ ví dụ [55] với việc chỉnh sửa lại sai sót nhỏ Ví dụ 4.6 ([55]) Cho F = {abc, abce, bdac, afb, cdba} Ta áp dụng phép thay để thu tập phụ thuộc hàm với dư thừa Quy tắc áp dụng F abc, abce |SPar ae abc, ae, bdac, afb, cdba Subst: Quy tắc hợp: abc, ae |SPar abce abce, bdac, afb, cdba Subst: abce, afb |SPar af abce, bdac, af, cdba A1: |SPar af (sẽ loại bỏ) abce, bdac, cdba rSubst: abce, bdac |SPar bda abce, bda, cdba rSubst: bda, cdba |SPar cdb abce, bda, cdb Bảng 4.2 Minh họa cho ví dụ 4.6 111 Như vậy, sau thực phép biến đổi tiền xử lý, ta thu tập F' tương đương với F chứa dư thừa F' = {abce, bda, cdb} Ví dụ 4.7 Áp dụng phép thay tập phụ thuộc hàm F = {ba, bgh, da, bih, abde, abfg, abcdj, abck} Quy tắc áp dụng F Quy tắc hợp: bagh, ba, bgh |SPar bagh da, bih, abde, abfg, abcdj, abck Quy tắc hợp: bagh, da, bih, abdefg, abde, abfg |SPar abdefg abcdj, abck Quy tắc hợp: bagh, da, bih, abdefg, abcdj, abck |SPar abcdjkh abcdjk Subst: bagh, da, bi, abdefg, bagh, bih |SPar bi abcdjk A1: bagh, da, abdefg, abcdjk |SPar bi (sẽ loại bỏ) Subst: bagh, da, bdef, abcdjk bagh, abdefg |SPar bdef Quy tắc hợp: badefgh, da, abcdjk bagh, bdef |SPar badefgh Subst: badefgh, da, bcjk badefgh, abcdjk |SPar bcjk rSubst: bdefgh, da, bcjk da, badefgh |SPar bdefgh Bảng 4.2 Minh họa cho ví dụ 4.7 112 Như vậy, cuối ta thu tập F' = {bdefgh, da, bcjk} tương đương với F chứa dư thừa 4.4 Tổng kết chương Sự dư thừa liệu làm tăng kích thước khơng cần thiết lưu trữ liệu, nguyên nhân dẫn đến không quán liệu làm giảm hiệu trình khai thác sử dụng hệ sở liệu Phép biến đổi tiền xử lý để loại bỏ dư thừa tập phụ thuộc hàm trình bày [24] [55] tỏ hiệu Cơ sở phép biến đổi tiền xử lý định lý 4.1 Đáng tiếc chứng minh phần (b) định lý 4.1 sai không chấp nhận Trong chương này, đưa chứng minh cho định lý 4.1, đưa quy tắc thay đơn giản dễ áp dụng thực hành Điều khiến cho định lý 4.1 đứng vững áp dụng Xây dựng thêm quy tắc thay cho việc tiền xử lý tập phụ thuộc hàm hướng nghiên cứu đáng quan tâm Các kết chương công bố [CT5] 113 KẾT LUẬN Luận án trình bày khái quát FD RFD mơ hình liệu quan hệ, nghiên cứu thuật tốn tính bao đóng tập thuộc tính vấn đề rút gọn cho toán xác định khóa lược đồ quan hệ, nghiên cứu phép biến đổi tiền xử lý hiệu tập FD, nghiên cứu AFD CFD Các kết đạt luận án tóm tắt sau: - Một số kết liên quan đến FD, AFD (chỉ rõ mối quan hệ kết hai cơng trình [37] [40], chứng minh số bổ đề, xây dựng thuật toán dùng ma trận để phát FD, AFD; đưa số mối liên hệ độ đo xấp xỉ thường xuyên sử dụng cho AFD) vài kết bước đầu liên quan đến thứ tự phân cấp FD, CFD AR trình bày [51] (chỉnh sửa lại cho biểu thức xác định quan hệ (mảnh ngang), đề xuất cải tiến toán tử giao mẫu , chứng minh (X, r) = X F ) - Đề xuất thuật tốn cải tiến tính bao đóng tập thuộc tính tập FD Thuật tốn cải tiến thực có hiệu q trình tính bao đóng có thay phụ thuộc hàm phụ thuộc hàm đơn giản hơn; đặc biệt tất FD có vế phải chứa Xnew bị loại bỏ trước tính bao đóng - Với việc rút gọn tốn tìm khóa, dựa ngữ nghĩa quen thuộc FD mơ hình liệu quan hệ, cải tiến điều kiện cần chứng minh ba điều kiện cần (đã cơng bố nhóm tác giả khác nhau, thời điểm khác nhau) thực chất Đây điều kiện cần để tập khóa tối tiểu lược đồ quan hệ S = - Phép biến đổi tiền xử lý [24, 55] để loại bỏ dư thừa tập FD tỏ hiệu Cơ sở phép biến đổi tiền xử lý định lý 4.1 Đáng tiếc chứng minh phần (b) định lý 4.1 sai không chấp nhận Trong luận án, đưa chứng minh mới, đơn giản cho định lý 4.1, đưa quy tắc thay đơn giản dễ áp 114 dụng thực hành Điều khiến cho định lý 4.1 đứng vững áp dụng Chúng cho kết nghiên cứu đạt luận án thiết thực có đóng góp cụ thể, đạt mục tiêu đề Tuy nhiên, kết khiêm tốn cần cải tiến cho sâu sắc Các hướng nghiên cứu tiếp theo: tìm mối liên kết eCFD với AR; mở rộng thứ tự phân cấp thiết lập [51] cho AFD AR xấp xỉ; thuật toán sinh tất bảng mẫu tương đương với bảng mẫu Tp CFD cho trước; thực nghiệm cải tiến, tiến hành nghiên cứu so sánh thuật tốn phát CFD tiếng có 115 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [CT1] Vũ Quốc Tuấn, Về số kết liên quan tới phụ thuộc hàm xấp xỉ sở liệu quan hệ, Kỷ yếu Hội thảo quốc gia lần thứ XVI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông - Đà Nẵng, 11-2013, tr 352-354 [CT2] Vũ Quốc Tuấn, Vũ Chính Thúy, Phương pháp ma trận phát phụ thuộc hàm sở liệu, Tạp chí NCKH & CN Quân sự, Số 34, 12-2014, tr 73-80 [CT3] Hồ Thuần, Vũ Quốc Tuấn, Một thuật tốn tính bao đóng tập thuộc tính tập phụ thuộc hàm, Tạp chí NCKH & CN Quân sự, Số 45, 10-2016, tr 109-117 [CT4] Vũ Quốc Tuấn, Hồ Thuần, Một số kết rút gọn tốn tìm khóa, Tạp chí NCKH & CN Quân sự, Số 47, 02-2017, tr 102-107 [CT5] Vũ Quốc Tuấn, Hồ Thuần, Về phép biến đổi tiền xử lý hiệu tập phụ thuộc hàm, Tạp chí NCKH & CN Quân sự, Số 50, 082017, tr 162-170 [CT6] Vũ Quốc Tuấn, Hồ Thuần, Một số kết thuật tốn tính bao đóng rút gọn tốn tìm khóa lược đồ quan hệ, Journal of Research and Development on Information and Communication Technology (Bộ Thông tin Truyền thông), Tập V-2, Số 18 (38), 12-2017, tr 1218 [CT7] Vũ Quốc Tuấn, Hồ Thuần, Về số kết liên quan đến rút gọn toán tìm khóa lược đồ quan hệ, Tạp chí NCKH & CN Quân sự, Số 54, 04-2018, tr 157-162 [CT8] Vu Quoc Tuan, Some results about relaxed functional dependencies, Journal of Cybernetics and Information Technologies, Bulgarian (Submitted) [CT9] Vu Quoc Tuan, Some improvements about a unified hierarchy for functional dependencies, conditional functional dependencies and association rules, Journal of Military Science and Technology, Vietnam, Special Issue - No.60A, 05-2019, pp 87-94 116 TÀI LIỆU THAM KHẢO [1] Abedjan Z., Schulze P., and Naumann F., DFD: Efficient Functional Dependency Discovery, CIKM’14, November 3–7, pp.949-958, 2014 [2] Abraham J, and Priya R., Mining Approximate Functional Dependencies from Large Databases Based on Concept Similarities to Answer Imprecise Queries, International Journal of Pure and Applied Mathematics, Volume 114 No 7, 2017, 351-361 [3] Al-Hamouz S., and Biswas R., Fuzzy Functional Dependencies in Relational Databases, International Journal of Computational Cognition, Vol 4, No 1, 2006 [4] Atzeni P., and Antonellis V D., Relational Database Theory, The Benjamin/Cummings Publishing Company Inc, 1993 [5] Bahmani A H., Naghibzadeh M., and Bahmani B., Automatic database normalization and primary key generation, Electrical and Computer Engineering, pages 000011-000016, 2008 [6] Balu V S., and Verma V K., A Closure Set Based Approach for Identifying Data Dependency in Relation Database, International Journal of Emerging Technologies in Engineering Research (IJETER) ,Volume 4, Issue 9, pp 46-49, 2016 [7] Balu V S., and Verma V K., Identify Data Dependency in Relational Database: A Recent Survey, International Journal for Innovative Research in Science & Technology, Volume 3, Issue 03, pp.10-12, 2016 [8] Beeri C., and Bernstein P A., Computational Problems related to the design of normal form relational schemas ACM Transactions on Database Systems, (1): 30-59, 1979 [9] Beeri C., Dowd M., Fagin R., and Statman R., On the structure of Armstrong relations for functional dependencies, Journal of Association for Computing Machinery, 31(1):30–46, 1984 [10] Bell S., Discovery and Maintenance of Functional Dependencies by 117 Independencies, Proc Workshop Knowledge Discovery in Databases (KDD’ 95), pp 27-32, 1995 [11] Berti-Équille L., Harmouch H., and Naumann F., Discovery of Genuine Functional Dependencies from Relational Data with Missing Values, PVLDB, 11(8): 880-892, 2018 [12] Bohannon P., Fan W., Geerts F., Jia X., and Kementsietsidis A., Conditional functional dependencies for data cleaning, IEEE 23rd International Conference on Data Engineering, pages 746–755, 2007 [13] Bordoloi S., and Kalita B., A graph based approach to find candidate keys in a relational database scheme, International Journal of Computer Engineering and Technology (IJCET), Volume 4, Issue 6, pp 219-231, 2013 [14] Bra P D., and Paredaens J., An algorithm for horizontal decompositions, Information Processing Letters, 17(2), pp 91-95, 1983 [15] Bravo L., Fan W., Geerts F., and Ma S., Increasing the Expressivity of Conditional Functional Dependencies without Extra Complexity, In ICDE, pp 516-525, 2008 [16] Caruccio L., Deufemia V., and Polese G., A genetic algorithm to discover relaxed functional dependencies from data, http://ceur-ws.org/Vol- 2037/paper_22.pdf, 2017 [17] Caruccio L., Deufemia V., and Polese G., On the Discovery of Relaxed Functional Dependencies, IDEAS ’16, July 11-13, 2016, Montreal, QC, Canada [18] Caruccio L., Deufemia V., and Polese G., Relaxed Functional Dependencies - A Survey of Approaches, IEEE Transactions on Knowledge and Data Engineering, Vol 28, No 1, January 2016 [19] Chen W., Fan W., and Ma S., Analyses and Validation of Conditional Dependencies with Built-in Predicates, In Proc 20th Int Conf Database and Expert Systems Applications, pp.576-591, 2009 118 [20] Chen W., Fan W., and Ma S., Incorporating cardinality constraints and synonym rules into conditional functional dependencies, nformation Processing Letters 109 (2009) 783–789 [21] Chiang F., and Miller R J., Discovering data quality rules VLDB Conference, 1(1):1166–1177, 2008 [22] Cordero P., Enciso M., and Mora A., Automated Reasoning to Infer all Minimal Keys, In Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence, (IJCAI13), F.Rossi ed.,pp.817-823, AAAI Press, 2013 [23] Cordero P., Enciso M., Mora A., and Guzmán I P., A tableaux-like method to infer all minimal keys, DOI:10.1093/jigpal/jzu025, Advance Access published 24 September 2014 [24] Cordero P., Enciso M., Mora A., and Guzmán I P., SLFD Logic: Elimination of data redundancy in Knowledge Representation, Advances in Artificial Intelligence, IBERAMIA 2002, LNAI 2527, pp.141-150, 2002 [25] Cordero P., Mora A., Guzmán I P., and Enciso M., Non-deterministic ideal operators: An adequate tool for formalization in Data Bases, Discrete Applied Mathematics 156 (2008) 911-923 [26] Cormode G., Golab L., Flip K., McGregor A., Srivastava D., and Zhang X., Estimating the Confidence of Conditional Functional Dependencies, Proc SIGKDD Int’l Conf., pp 469-482, 2009 [27] Cosmadakis S S., Kanellakis P C., and Spyratos N., Partition semantics for relations, PODS, pages 261–275, 1985 [28] Diederich J., and Milton J., New methods and fast algorithms for database normalization, ACM Transactions on Database Systems, 13 (3):339-365, 1988 [29] Eckerson W W., Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data Technical report, The Data Warehousing Institute, 2002, 119 http://www.tdwi.org/research/display.aspx?ID=6064 [30] Fagin R., Functional dependencies in a Relational Database and Propositional Logic, IBM Journal of Research and Development 21(6), pp 534-544, 1977 [31] Fan W., and Geerts F., Foundations of Data Quality Management, Morgan & Claypool Publisher, 2012 [32] Fan W., Geerts F., Li J., and Xiong M., Discovering conditional functional dependencies, IEEE Transactions on Knowledge and Data Engineering, Volume 23, Issue 5, pp 683-698, 2011 [33] Flach P A., and Savnik I., Database dependency discovery: a machine learning approach, AI Communications, 12(3):139–160, 1999 [34] Giannella C., and Robertson E., On approximation measures for functional dependencies, Information Systems, 29(6):483–507, 2004 [35] Golab L., Karloff H., Korn F., Srivastava D., and Yu B., On generating near-optimal tableaux for conditional functional dependencies, VLDB Conference, pages 376–390, 2008 [36] Hồ Thuần, Hồ Cẩm Hà, Các hệ sở liệu (lý thuyết thực hành, T2), Nhà xuất giáo dục Việt Nam, 2004 [37] Huhtala Y., Karkkainen J., Porkka P., and Toivonen H., TANE: An efficient algorithm for discovering functional and approximate dependencies, Computer Journal, 42(2):100–111, 1999 [38] Ibaraki T., Kogan A., and Makino K., Functional dependencies in Horn theories, Artificial Intelligence 108(1-2), pp 1-30, 1999 [39] Ilyas I F., Mark V., Haas P., Brown P., and Aboulnaga A., CORDS: Automatic discovery of correlations and soft functional dependencies, SIGMOD Conference, 2004 [40] King R S., and Oil J., Discovery of functional and approximate functional dependencies in relational databases, Journal of Applied Mathematics and Decision Sciences, 7(1):49–59, 2003 120 [41] Kivinen J., and Mannila H., Approximate dependency inference from relations, LNCS 646 - Database Theory ICDT ’92, pages 86–98, 1992 [42] Koudas N., Saha A., and Srivastava D., Metric Functional Dependencies, ICDE '09 Proceedings of the IEEE International Conference on Data Engineering, Pages 1275-1278, 2009 [43] Laxman P S., and Verma V K., Discovering of Data Dependencies in Relational DataBase: A Recent Overview, International Journal of Computing and Technology, Volume 3, Issue 9, pp.440-442, 2016 [44] Li H., Li J., Wong L., Feng M., and Tan Y P., Relative Risk and Odds Ratio: A Data Mining Perspective, Proc 24th ACM SIGMOD-SIGACTSIGART Symp Principles of Database Systems (PODS ’05), pp 368-377, 2005 [45] Liu I., Li J., Liu C., and Chen Y., Discover Dependencies from Data - A Review, IEEE Transactions on Knowledge and Data Engineering, Vol 24, No 2, 2012 [46] Lopes S., Petit J M., and Lakhal L., Effcient discovery of functional dependencies and Armstrong relations, LNCS 1777-7th International Conference on Extending Database Technology (EDBT): Advances in Database Technology, 1777:350–364, 2000 [47] Lopes S., Petit J M., and Lakhal L., Functional and approximate dependency mining: database and fca points of view, Journal of Experimental and Theoretical Artificial Intelligence, 14(2):93–114, 2002 [48] Maier D., The theory of relational database, Computer Science Press, USA, 1983 [49] Mannila H., and Rih K J., Dependency inference, VLDB, pages 155–158, 1987 [50] Marchi F D., and Petit J M., Semantic sampling of existing databases through informative Armstrong databases, Information Systems, 32(3):446– 457, 2007 121 [51] Medina R., and Nourine L., A Unified Hierarchy for Functional Dependencies, Conditional Functional Dependencies and Association Rules, ICFCA 2009, LNAI 5548, pp 98–113, 2009 [52] Mora A, Guzmán I P., Enciso M., and Cordero P., Ideal nondeterministic operators as a formal framework to reduce the key finding problem, International Journal of Computer Mathematics, Vol 88, No 9, 1860–1868, June 2011 [53] Mora A., Aguilera G., Enciso M., Cordero P., and Guzmán I P., A new closure algorithm based in logic: SLFD-Closure versus classical closures, Inteligencia Artificial Vol 10, No31, pp.31-40, 2006 [54] Mora A., Cordero P., Enciso M., Guzmán I P., and Aguilera G., Closure via Functional Dependence Simplication - Special issue CMMSE 2010, International Journal of Computer Mathematics Vol 00, No 00, January 2008, pp.1-13 [55] Mora A., Enciso M., Cordero P., and Guzmán I P., An Efficient Preprocessing Transformation for Functional Dependencies Sets Based on the Substitution Paradigm, R Conejo et al (Eds.): CAEPIA - TTIA 2003, LNAI 3040, pp.136-146, 2004 [56] Nguyễn Đăng Khoa, Vũ Huy Hoàng, Một vài nhận xét thuật tốn QuickReduct tính tập rút gọn bảng định, Tạp chí Nghiên cứu KH & CN Quân sự, Số 7, tr 49 - 56, 2010 [57] Nguyễn Đăng Khoa, Vũ Huy Hoàng, Phụ thuộc hàm suy rộng sở lý thuyết tập thơ, Tạp chí Tin học Điều khiển học, T 20, S 1, tr 91 - 98, 2004 [58] Nisha, Functional Dependency Based Data Distribution by Using Association Patterns, International Journal of Computer Science and Information Technologies, Vol (1) , 2017, 68-72 [59] Novelli N., and Cicchetti R., FUN: An effcient algorithm for mining functional and embedded dependencies, ICDT, pages 189–203, 2001 [60] Novelli N., and Cicchetti R., Functional and embedded dependency 122 inference: a data mining point of view, Information Systems, 26(7):477– 506, 2001 [61] Papenbrock T., and Naumann F., A Hybrid Approach to Functional Dependency Discovery, SIGMOD’16, June 26-July 01, San Francisco, CA, USA, pp.821-833, 2016 [62] Papenbrock T., Ehrlich J., and Marten J., Functional Dependency Discovery: An Experimental Evaluation of Seven Algorithms, Proceedings of the VLDB Endowment, Vol 8, No 10, pp.1082-1093, 2015 [63] Paredaens J., Bra P D., Gyssens M., and Gucht D V., The structure of the relational database model, EATCS Monographs on Theoretical Computer Science Ed Springer-Verlag New York, Inc.,1989 [64] Rushdi A M A., and Ba-Rukab O M., Map Derivation of the Closures for Dependency and Attribute Sets and all Candidate Keys for a Relational Database, JKAU: Eng Sci., Vol 25 No.2, pp: 3- 33 (2014 A.D / 1435 A.H.) [65] Song S., and Chen L., Differential dependencies: Reasoning and discovery, ACM Trans Database Syst., Vol 36, Article No.16, 2011 [66] Surana R., and Verma V K., Discovering useful data dependencies using agree set and closure of attributes, International Journal of Recent Innovation in Engineering and Research, pp.1-6, 2018 [67] Thuan H and Bao L V., Some results about keys of relational schemas, Acta Cybernetica, Tom 7, Fasc.1, Szeged, pp 99-113, 1985 [68] Thuan H., Souad S., and Djamila M B., Some more properties and remarks about keys for relation scheme, Tạp chí Tin học Điều khiển học, T.12, S.4 (1996) (101-113) [69] Tu S., and Huang M., Scalable Functional Dependencies Discovery from Big Data, pp.426-431, 2016 IEEE Second International Conference on Multimedia Big Data [70] Ullman J D., Database and Knowledge-base Systems, Computer Science Press, 1988 123 [71] Vitalie C., An approach for testing the primeness of attributes in relational schemas, Computer Science Journal of Moldova, vol.17, no.1(49), 2009 [72] Wei Q., and Chen G., Efficient discovery of functional dependencies with degrees of satisfaction, International Journal of Intelligent Systems, Volume 19, Issue 11, pp 1089-1110, 2004 [73] Wyss C., Giannella C., and Robertson E., FastFDs: a heuristic-driven, depth-first algorithm for mining functional dependencies from relation instances -extended abstract DaWaK, pages 101–110, 2001 [74] Yao H., and Hamilton H J., Mining functional dependencies from data, Journal of Data Mining and Knowledge Discovery, 16(2):197–219, 2008 [75] Yeh P Z., and Puri C A., Discovering conditional functional dependencies to detect data inconsistencies, ACM Transactions on Database Systems (TODS), Volume 33, Issue 2, Article No 6, 2008 [76] Yi-Shun Z., Determining All Candidate Keys Based on Karnaugh Map, International Conference on Information Management, Management and Industrial Engineering, pages 226-229, 2009 124 Innovation ... cứu Chương PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG MƠ HÌNH DỮ LIỆU QUAN HỆ Chương nhắc lại khái niệm mơ hình liệu quan hệ, tập trung vào khái niệm phụ thuộc hàm, phụ thuộc hàm suy rộng khái... liệu sở liệu Một ứng dụng phụ thuộc (được phát hiện) để đánh giá chất lượng liệu Vai trò việc cài đặt phụ thuộc sở liệu để đảm bảo chất lượng liệu sở liệu Do đó, sở phân tích phụ thuộc phát phụ. .. GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - VŨ QUỐC TUẤN PHÁT HIỆN PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM SUY RỘNG TRONG CƠ SỞ DỮ LIỆU LUẬN