TÓM TẮTTiểu luận này nghiên cứu về việc tìm ra các phụ thuộc hàm có điều kiện (CFD). CFD là sự mở rộng gần đây của phụ thuộc hàm (FD) nhờ hỗ trợ thêm các biểu mẫu (pattern) của các hằng số có liên quan về mặt ngữ nghĩa, và có thể được sử dụng làm các quy luật để làm sạch dữ liệu liên quan. Tuy nhiên, tìm ra các CFD chất lượng là một quy trình tốn kém đòi hỏi nhiều nỗ lực thủ công. Để nhận diện hiệu quả các quy luật làm sạch dữ liệu, ta cần xây dựng các kỹ thuật phát hiện các CFD từ các hệ thức. Tìm ra các FD đặc thù đã khó, vấn đề tìm ra các CFD còn khó hơn. Thật vậy, khai thác các biểu mẫu trong CFD mang đến rất nhiều thử thách. Bài báo cung cấp 3 phương pháp tìm ra CFD. Phương pháp thứ nhất, được nhắc đến với tên gọi CFDMiner, dựa trên các kỹ thuật khai thác các bộ phần tử đóng, và được sử dụng để tìm các CFD bất biến, cụ thể là các CFD chỉ có các biểu mẫu bất biến. Các CFD bất biến đặc biệt quan trọng đối với việc nhận diện đối tượng, vốn là điểm thiết yếu đối với việc xóa và tích hợp dữ liệu. Hai thuật toán khác được xây dựng để tìm ra các CFD tổng hợp. Một thuật toán, được gọi là CTANE, là một thuật toán phân cấp mở rộng thêm TANE, một thuật toán phổ biến dùng cho khai thác các FD. Cái còn lại, được gọi là FastCFD, dựa trên phương pháp ưu tiên chiều sâu được sử dụng trong FastFD, một phương thức tìm ra các FD. Nó tận dụng tối đa việc khai thác bộ phần tử đóng để giảm khoảng tìm kiếm. Đã được kiểm nghiệm bởi nghiên cứu thực tiễn của chúng tôi, CFDMiner có thể là nhiều bậc nhanh hơn so với CTANE và FastCFD đối với việc tìm ra CFD bất biến. CTANE hoạt động ổn khi một hệ thức đưa ra là lớn, nhưng nó không thích ứng tốt với hạng (arity) của hệ thức. FastCFD hiệu quả hơn nhiều so với CTANE khi hạng của hệ thức là lớn; nó cũng tốt hơn khi tận dụng sự tối ưu hóa dựa trên việc khai thác bộ phần tử đóng, FastCFD cũng thích ứng tốt với quy mô của hệ thức. Các thuật toán này tạo ra một bộ các công cụ tìm kiếm quy luật làm sạch dữ liệu cho người dùng lựa chọn với các ứng dụng khác nhau.
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH NGUYỄN MINH PHƯƠNG TÌM KIẾM CÁC PHỤ THUỘC HÀM CÓ ĐIỀU KIỆN (DISCOVERING CONDITIONAL FUNCTIONAL DEPENDENCIES) Tiểu luận môn Khám phá tri thức Khai thác liệu TP HỒ CHÍ MINH - 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH NGUYỄN MINH PHƯƠNG TÌM KIẾM CÁC PHỤ THUỘC HÀM CÓ ĐIỀU KIỆN (DISCOVERING CONDITIONAL FUNCTIONAL DEPENDENCIES) Tiểu luận môn Khám phá tri thức Khai thác liệu Người hướng dẫn khoa học: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH – 2015 MỤC LỤC TÓM TẮT .4 I GIỚI THIỆU 1.1 Các công trình trước 1.2 Các đóng góp 1.3 Tổ chức II 2.1 2.2 2.3 III CÁC PHÁT HIỆN CFD VÀ CFD 10 CÁC PHỤ THUỘC HÀM CÓ ĐIỀU KIỆN 10 2.1.1 Các CFD 10 2.1.2 Ngữ Nghĩa 10 2.1.3 Phân Loại CFD 11 BÀI TOÁN TÌM KIẾM CÁC CFD .12 2.2.1 Các CFD cực tiểu 12 2.2.2 Các CFD phổ biến 13 2.2.3 Nêu toán 13 Tìm CFD với mẫu Tableaus 13 TÌM CÁC CFD KHÔNG ĐỔI 15 3.1 Các ItemSet tự đóng .15 3.2 CFD MINER 17 IV CTANE: THUẬT TOÁN THEO CẤP ĐỘ 18 4.1 Chiến lược tỉa bớt 18 4.2 CTANE để tìm CFD k-phổ biến 20 4.3 Tính đắn 22 4.4 Chi tiết thực 22 FASTCFD: PHƯƠNG PHÁP CHIỀU SÂU ĐẦU TIÊN 24 V 5.1 Các tập sai phân 25 5.2 Chiến lược tỉa bớt mẫu hiệu 26 5.3 Chi tiết thực tối ưu hóa 30 5.4 Naive Fast .31 5.5 Fast CFD 31 5.6 Sắp xếp lại thuộc tính động 31 VI NGHIÊN CỨU VÀ THỰC NGHIỆM 32 6.1 Các cài đặt thực nghiệm 32 6.2 Các kết thực nghiệm 33 VII VIII 6.2.1 Khả mở rộng thử nghiệm 33 6.2.2 Dữ liệu thử nghiệm thực tế 36 6.2.3 Tóm lại 37 CÁC NGHIÊN CỨU LIÊN QUAN .38 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 TÓM TẮT Tiểu luận nghiên cứu việc tìm phụ thuộc hàm có điều kiện (CFD) CFD mở rộng gần phụ thuộc hàm (FD) nhờ hỗ trợ thêm biểu mẫu (pattern) số có liên quan mặt ngữ nghĩa, sử dụng làm quy luật để làm liệu liên quan Tuy nhiên, tìm CFD chất lượng quy trình tốn đòi hỏi nhiều nỗ lực thủ công Để nhận diện hiệu quy luật làm liệu, ta cần xây dựng kỹ thuật phát CFD từ hệ thức Tìm FD đặc thù khó, vấn đề tìm CFD khó Thật vậy, khai thác biểu mẫu CFD mang đến nhiều thử thách Bài báo cung cấp phương pháp tìm CFD Phương pháp thứ nhất, nhắc đến với tên gọi CFDMiner, dựa kỹ thuật khai thác phần tử đóng, sử dụng để tìm CFD bất biến, cụ thể CFD có biểu mẫu bất biến Các CFD bất biến đặc biệt quan trọng việc nhận diện đối tượng, vốn điểm thiết yếu việc xóa tích hợp liệu Hai thuật toán khác xây dựng để tìm CFD tổng hợp Một thuật toán, gọi CTANE, thuật toán phân cấp mở rộng thêm TANE, thuật toán phổ biến dùng cho khai thác FD Cái lại, gọi FastCFD, dựa phương pháp ưu tiên chiều sâu sử dụng FastFD, phương thức tìm FD Nó tận dụng tối đa việc khai thác phần tử đóng để giảm khoảng tìm kiếm Đã kiểm nghiệm nghiên cứu thực tiễn chúng tôi, CFDMiner nhiều bậc nhanh so với CTANE FastCFD việc tìm CFD bất biến CTANE hoạt động ổn hệ thức đưa lớn, không thích ứng tốt với hạng (arity) hệ thức FastCFD hiệu nhiều so với CTANE hạng hệ thức lớn; tốt tận dụng tối ưu hóa dựa việc khai thác phần tử đóng, FastCFD thích ứng tốt với quy mô hệ thức Các thuật toán tạo công cụ tìm kiếm quy luật làm liệu cho người dùng lựa chọn với ứng dụng khác I GIỚI THIỆU Các phụ thuộc hàm có điều kiện (CFD) gần giới thiệu nhằm phục vụ việc làm liệu Chúng mở rộng phụ thuộc hàm (FD) tiêu chuẩn cách củng cố biểu mẫu số có quan hệ ngữ nghĩa Các CFD chứng minh hiệu so với FD việc phát sửa chữa điểm không quán (tình trạng không sạch) liệu, trông đợi sử dụng công cụ làm liệu sử dụng FD tiêu chuẩn (VD: Xem mục 3, 4, phần tài liệu tham khảo Xem mục 6, để biết thêm khảo sát thực công cụ làm liệu) Tuy nhiên, để phương thức làm dựa CFD có hiệu thực tế, cần phải có kỹ thuật chỗ tự động phát tìm hiểu CFD từ liệu mẫu, để dùng làm quy luật làm liệu Thật vậy, không thực tế dựa vào chuyên gia để thiết kế CFD qua quy trình thủ công tốn thời gian Như mô tả [8], việc tìm quy luật làm liệu quan trọng sản phẩm thương mại quản lý liệu Vấn đề nhấn mạnh cần thiết việc nghiên cứu vấn đề tìm CFD; chẳng hạn cho thể mẫu r lược đồ quan hệ R, dùng để tìm vỏ bọc tiêu chuẩn CFD nắm giữ r, nghĩa tập hợp CFD tương đồng logic với tập hợp CFD nắm giữ r Để giảm phần dư, CFD vỏ bọc tiêu chuẩn phải nhỏ (minimal), nghĩa nontrivial left-reduced (xem [9] để biết FD nontrivial left-reduced) Tuy nhiên, vấn đề tìm kiếm lại nontrivial Vốn khó FD truyền thống vì, so với thứ khác, vỏ bọc tiêu chuẩn FD tìm từ hệ thức r vốn có tính lũy thừa hạng lược đồ r, tức số thuộc tính R Vì việc tìm CFD gồm việc tìm FD, nên độ phức tạp lũy thừa đưa vào việc tìm CFD Hơn nữa, việc tìm CFD đòi hỏi phải khai thác biểu mẫu ngữ nghĩa có số, thử thách không gặp phải tìm FD, mô tả ví dụ Ví dụ Lược đồ quan hệ cust lấy từ [1] Nó xác định khách hàng dựa vào số điện thoại (mã nước (CC), mã vùng (AC), số điện thoại (PN)), tên (NM), địa (phố (STR), thành phố (CT), mã zip (ZIP)) Một thể r0của cust thể Hình Các FD truyền thống nắm giữ r0 gồm có: Ở đây, f1 đòi hỏi khách hàng có mã nước mã vùng thành phố; tương tự với f2 Trái lại, CFD nắm giữ r0 gồm không FD f1 f2, mà giá trị (và nữa): MỤC LỤC TÓM TẮT .4 I GIỚI THIỆU 1.1 Các công trình trước 1.2 Các đóng góp 1.3 Tổ chức II 2.1 2.2 2.3 III CÁC PHÁT HIỆN CFD VÀ CFD 10 CÁC PHỤ THUỘC HÀM CÓ ĐIỀU KIỆN 10 2.1.1 Các CFD 10 2.1.2 Ngữ Nghĩa 10 2.1.3 Phân Loại CFD 11 BÀI TOÁN TÌM KIẾM CÁC CFD .12 2.2.1 Các CFD cực tiểu 12 2.2.2 Các CFD phổ biến 13 2.2.3 Nêu toán 13 Tìm CFD với mẫu Tableaus 13 TÌM CÁC CFD KHÔNG ĐỔI 15 3.1 Các ItemSet tự đóng .15 3.2 CFD MINER 17 IV CTANE: THUẬT TOÁN THEO CẤP ĐỘ 18 4.1 Chiến lược tỉa bớt 18 4.2 CTANE để tìm CFD k-phổ biến 20 4.3 Tính đắn 22 4.4 Chi tiết thực 22 FASTCFD: PHƯƠNG PHÁP CHIỀU SÂU ĐẦU TIÊN 24 V 5.1 Các tập sai phân 25 5.2 Chiến lược tỉa bớt mẫu hiệu 26 5.3 Chi tiết thực tối ưu hóa 30 5.4 Naive Fast .31 5.5 Fast CFD 31 5.6 Sắp xếp lại thuộc tính động 31 VI NGHIÊN CỨU VÀ THỰC NGHIỆM 32 6.1 Các cài đặt thực nghiệm 32 6.2 Các kết thực nghiệm 33 hợp thuộc tính tìm FD có k + thuộc tính từ tập hợp gồm k thuộc tính, lược bớt dựa FD tạo cấp độ trước TANE lấy thời gian tuyến tính cỡ |r| mẫu đầu vào r, hoạt động tốt hạng |R| không lớn Các thuật toán [16], [17], [18] tuân theo phương thức tiếp cận theo cấp độ tương tự Tuy nhiên thuật toán theo cấp độ lấy thời gian lũy thừa |R| Từ đó, thuật toán khác, gọi FastFD [14], khám phá mối liên hệ việc tìm FD vấn đề tìm vỏ bọc tối thiểu siêu đồ thị, sử dụng chiến lược theo chiều sâu để tìm vỏ bọc tối thiểu Nó lấy (hầu hết) thời gian tuyến tính kích cỡ output, nghĩa kích cỡ vỏ bọc FD Nó thay đổi kích cỡ tốt so với TANE hạng (arity) lớn, lại dễ bị tác động kích cỡ |r| Thật vậy, nằm thời gian O(|r|2 log |r|), xem xét độ phức tạp liệu (|R| giả định số) Ngoài có phương thức từ lên [15] dựa kỹ thuật phục vụ việc tìm hiểu mô tả logic chung không gian giả định Như thể [13], TANE có hiệu hẳn so với thuật toán [15] Gần đây, có thuật toán phát triển cho việc tìm CFD [10], [21] Đối với FD truyền thống cố định fd, [10] cho thấy NP-complete tìm kiếm biểu mẫu hữu ích mà chúng, với fd, có khả tạo CFD có chất lượng Chúng cung cấp thuật toán tự tìm hiệu để tìm cho biểu mẫu từ mẫu w.r.t FD cố định Một thuật toán để tìm CFD, gồm FD truyền thống biểu mẫu liên quan, giới thiệu [21], vốn phần mở rộng TANE Việc tìm CFD số có liên quan chặt chẽ với khai thác luật kết hợp (VD [22]) đặc biệt khai thác tập hợp phần tử tự (VD [23], [24]) Với 100% độ tin cậy, luật kết hợp (X, tp) –> (A, α) CFD số (X –> A, (tp || α)), biểu mẫu số gồm thuộc tính X α giá trị miền thuộc tính A Tốt có liên hệ gần gũi CFD số left-reduced luật kết hợp không dư, mối liên hệ tìm thấy nhờ tính toán tập hợp phần tử đóng tập hợp phần tử tự Các ứng dụng tiềm CFD việc làm liệu nhấn mạnh cần thiết nghiên cứu sâu cách tìm CFD 1) Như nhấn mạnh phần trước, CFD số đặc biệt quan trọng việc nhận diện đối tượng, cần xem xét riêng biệt Người ta muốn có phương pháp hiệu để tìm CFD số, mà trả mức giá để tìm CFD Thật vậy, thấy sau đây, việc tìm CFD số thường nhanh vài bậc so với tìm CFD tổng hợp 2) Các thuật toán theo cấp độ [21] không hoạt động tốt hệ thức mẫu có hạng lớn, độ phức tạp lũy thừa vốn có chúng Các phương pháp hữu ích cần phải sẵn sàng giải liệu có hạng lớn 3) Một tập hợp kỹ thuật phát triển để phục vụ khai thác luật kết hợp (không dư), lẽ tự nhiên tận dụng kỹ thuật để tìm CFD Như ta thấy, kỹ thuật không sử dụng việc tìm CFD số, mà làm tăng đáng kể tốc độ tìm CFD tổng hợp Theo biết, công trình trước xem xét vấn đề cho việc tìm CFD 1.2 Các đóng góp Sau cân nhắc lựa chọn, tác giả báo cung cấp thuật toán cho việc tìm CFD: thuật toán để tìm CFD số, lại để tìm CFD tổng hợp 1) Bài báo đề xuất khái niệm CFD tối giản dựa tính tối giản tính tính tối giản biểu mẫu Theo trực giác, CFD tối giản không chứa thuộc tính dư biểu mẫu dư Hơn nữa, ta xem xét CFD phổ biến nắm giữ tập liệu mẫu r, gọi CFD, biểu mẫu hỗ trợ tập rnêu ngưỡng Các CFD thường gặp cho phép ta điều chỉnh để liệu không đáng tin cậy thích ứng với lỗi tạp nhiễu Các thuật toán tìm CFD tối giản thường gặp để giúp người dùng nhận diện quy luật làm liệu có chất lượng từ tập lớn CFD nắm giữ mẫu 2) Thuật toán thứ báo, gọi tắt CFDMiner, để tìm kiếm CFD không đổi Bài báo tìm kết nối CFD không đổi cực tiểu mẫu đóng tự Dựa điều này, CFDMiner tìm CFD không đổi thúc đẩy kỹ thuật khai thác đề xuất [24], khai thác tập mục đóng tập mục tự song song, theo chương trình tìm kiếm sâu-bậc 3) Thuật toán thứ hai báo, gọi tắt CTANE, mở rộng TANE để tìm CFD chung Nó dựa tập thuộc tính/lưới mẫu, khai thác CFD mức độ k +1 lưới (tức là, set at the cấp độ bao gồm k + thuộc tính) với kỹ thuật tỉa bớt dựa those mức độ k CTANE tìm CFD cực tiểu 4) Thuật toán thứ ba báo, gọi tắt FastCFD, tìm CFD chung cách sử dụng chiến lược tìm kiếm sâu bậc thay the cấp độwise phương pháp Nó mở rộng không đơn giản FastFD nêu trên, cách khai thác mẫu kỹ thuật tỉa bớt giới thiệu FastCFD, thúc đẩy CFD không đổi phát CFDMiner Ngược với CTANE, FastCFD không thời gian hàm mũ arity liệu mẫu mũ kiểu mẫu CFD không lớn số mũ Đóng góp thứ năm cuối báo nghiên cứu thực nghiệm tính hiệu hiệu suất thuật toán báo, dựa liệu thực tế (các tập liệu Wisconsin ung thư vú ngực từ UCI) tập liệu tổng hợp tạo từ liệu lầy từ Web Bài báo đánh giá khả mở rộng phương pháp cách thay đổi kích thước mẫu, arity sơ đồ quan hệ, miền tích cực thuộc tính, ngưỡng hỗ trợ cho phổ biến CFD Bài báo phát CFDMiner thường tốt CTANE FastCFD gấp ba lần Bài báo phát FastCFD chia tỷ lệ tốt với arity: nhanh gấp ba lần so với CTANE arity 10 đến 15, hoạt động tốt arity lớn 30; ngược lại, CTANE chạy hoàn tất arity 17 Mặt khác, CTANE nhạy cảm để hỗ trợ ngưỡng tốt FastCFD ngưỡng lớn arity có kích cỡ trung bình Bài báo phát kỹ thuật tỉa bớt thông qua khai thác tập mục hiệu quả: cải thiện hiệu FastCFD gấp 5-10 lần giúp FastCFD tính tỷ lệ tốt với kích thước mẫu Các kết cung cấp dẫn phải sử dụng CFDMiner, CTANE FastCFD ứng dụng khác Các thuật toán cung cấp tập công cụ có triển vọng để giúp giảm công việc thủ công thiết kế quy tắc chất lượng liệu, để người dùng lựa chọn cho ứng dụng khác Chúng giúp biến làm dựa CFD thành công cụ chất lượng liệu thực tế 1.3 Tổ chức Mục định nghĩa CFD cực tiểu phổ biến, đưa toán tìm kiếm Bài báo giới thiệu CFDMiner, CTANE FastCFD Mục 3, 4, Các kết thử nghiệm Mục 6, nghiên cứu liên quan trình bày Mục đề tài nghiên cứu tương lai Mục Hình 4: Thực phần FindCover Giải thich mục A, B, C, D khoanh tròn nêu Ví dụ phần tập tập mục tự k-thường xuyên Frk(r), tập tập mục tự mô tả mũi tên chấm cách; góc trái có vẽ thực thi phần FindMin để tìm mẫu tự (CC, 01) Bài báo làm bật điểm khoanh tròn A, B, C D thực thi FindCover Chú ý việc thực thi FindCover tạo tìm kiếm chiều sâu bậc cho mẫu tự mẫu (CC, 01) nêu hình (A) Như trình bày trên, FindCover qua mẫu tự tới FindMin Giả định mẫu tự thứ xem Ø Trong TH này, việc thực thi FindMin giống hệt thuật toán FastFD [14] Sau bước này, tất FDs tối thiểu có dạng trả (B) Tiếp theo, xem xét mẫu tự (CC, 01) với tập sai phân tối thiểu Do đó, FindMin tìm lớp phủ cho , đệ quy suy Bước Cây đánh số (một phần) tập {AC, CT, PN} theo [...]... thúc đẩy các tập mục đóng từ CFDMiner để xây dựng các tập sai phân 33 I GIỚI THIỆU Các phụ thuộc hàm có điều kiện (CFD) gần đây đã được giới thiệu nhằm phục vụ việc làm sạch dữ liệu Chúng mở rộng các phụ thuộc hàm (FD) tiêu chuẩn bằng cách củng cố các biểu mẫu của các hằng số có quan hệ về ngữ nghĩa Các CFD đã được chứng minh là hiệu quả hơn so với các FD trong việc phát hiện và sửa chữa các điểm không... thu được có phải là cực tiểu không Để làm được, nó thúc đẩy mối quan hệ với các tập sai phân để tỉa bớt các tập con không dẫn đến các CFD cực tiểu Như giải thích chi tiết dưới đây, FindMin sử dụng một giao cắt sâu bậc nhất, trái-qua phải của không gian của các tập con 24 TÓM TẮT Tiểu luận này nghiên cứu về việc tìm ra các phụ thuộc hàm có điều kiện (CFD) CFD là sự mở rộng gần đây của phụ thuộc hàm (FD)...II CÁC PHÁT HIỆN CFD VÀ CFD Trong phần này, tác giả xem lại định nghĩa của các CFD [1] Bài báo sau đó hình thức hóa các khái niệm về các CFD cực tiểu và các Thường xuyên CFD Cuối cùng, bài báo đưa ra bài toán tìm kiếm các CFD 2.1 CÁC PHỤ THUỘC HÀM CÓ ĐIỀU KIỆN Xem xét một sơ đồ quan hệ R xác định trên một tập thuộc tính cố định, k ý hi ệu l à attr(R ) Đối với mỗi thuộc tính A ϵ attr(R),... gồm có kích cỡ |X| - và b2 không có các hằng số trong tc, có thể được thay thế bằng một "_", tức là, không tồn tại có kích cỡ |X|-1 sao cho Các điều kiện (b1) và (b2) đối với và bao gồm Chúng đảm bảo rằng là giảm bên trái Thủ tục FindCover sử dụng một phép tìm chiều sâu bậc nhất của tất cả các tập con attr(R) \ {A} để tìm ra các bao phủ cực tiểu của các tập sai phân cho các bộ mẫu t p thỏa mãn các điều. .. gọi là các bao phủ của các tập sai phân Về trực giác, bằng bằng cách sử dụng các tập sai phân r đối với một thuộc tính A và bộ mẫu tp, bài báo xác định các thuộc tính đó (bao gồm thuộc tính A) trong đó các cặp bộ trong r khớp với bộ mẫu có thể khác nhau Một bao phủ của các tập sai phân này chứa ít nhất một thuộc tính cho mỗi cặp các bộ Như sẽ thể hiện dưới đây (Bổ đề 4), các bao phủ cực tiểu của các tập... thêm các biểu mẫu (pattern) của các hằng số có liên quan về mặt ngữ nghĩa, và có thể được sử dụng làm các quy luật để làm sạch dữ liệu liên quan Tuy nhiên, tìm ra các CFD chất lượng là một quy trình tốn kém đòi hỏi nhiều nỗ lực thủ công Để nhận diện hiệu quả các quy luật làm sạch dữ liệu, ta cần xây dựng các kỹ thuật phát hiện các CFD từ các hệ thức Tìm ra các FD đặc thù đã khó, vấn đề tìm ra các CFD... FastCFD tìm ra các CFD kphổ biến cực tiểu theo phương thức chiều sâu trước tiên Nó là hút vào bằng FastFD [14], một thuật toán chiều sâu thứ nhất để tìm ra các FD FastCFD trước tiên phân giải bài toán tìm ra một mũ kiểu mẫu bằng tìm ra mũ kiểu các mẫu bao gồm các CFD với một thuộc tính bên phải quy định trước Cụ thể hơn, đối với mỗi thuộc tính A trong attr(R), FastCFD tìm tất cả các CFD có dạng φ = (Y... khi t p [A]là một hằng số, bài báo có thể thả tất cả thuộc tính B vào trong LHS của với 11 Bổ đề 1 [1] với mọi tập ∑ của các CFD trên một sơ đồ R, tồn tại một tập ∑c của các CFD không đổi và một tập ∑v của các CFD biến đổi trên R, sao cho ∑ là tương ứng với 2.2 BÀI TOÁN TÌM KIẾM CÁC CFD Cho một quan hệ mẫu r của một sơ đồ R, một thuật toán Tìm kiếm CFD nhằm tìm ra các CFD xác định trên R giữ trên r... mẫu bao gồm các CFD không thừa phổ biến trên r, từ đó tất cả các Phổ biến CFD giữ trên r có thể được suy luận ra 2.3 Tìm ra các CFD với mẫu Tableaus Đến đây, bài báo xem xét ed các CFD có dạng φ = (X → A, tp) trong [1], tuy nhiên, các CFD được cho phép có nhiều bộ mẫu Cụ thể, một tableau CFD là có dạng φ = (X → A, Tp) trong đó Tp là một mẫu tableau bao gồm một số lượng hữu hạn các bộ mẫu với thuộc tính... dụng bởi các công cụ làm sạch dữ liệu hiện đang sử dụng các FD tiêu chuẩn (VD: Xem mục 3, 4, 5 ở phần tài liệu tham khảo Xem mục 6, 7 để biết thêm các cuộc khảo sát đã thực hiện về các công cụ làm sạch dữ liệu) Tuy nhiên, để các phương thức làm sạch dựa trên CFD có hiệu quả thực tế, cần phải có các kỹ thuật tại chỗ có thể tự động phát hiện hoặc tìm hiểu các CFD từ dữ liệu mẫu, để dùng làm các quy luật