1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu một số thuật toán khai phá luật kết hợp mờ

84 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 0,97 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC TÌM HIỂU MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP MỜ NGÀNH: TOÁN TIN ỨNG DỤNG MÃ SỐ: ĐÀO XUÂN VIỆT Người hướng dẫn khoa học: PGS.TSKH BÙI CÔNG CƯỜNG HÀ NỘI 2008 LỜI CẢM ƠN Trong trình tìm hiểu, nghiên cứu đề tài khoa học này, thân gặp khơng khó khăn mặt kiến thức thời gian nghiên cứu, lúc vậy, tơi ln nhận động viên, khích lệ thầy giáo, PGS-TSKH Bùi Công Cường Thầy giúp đỡ tơi nhiều q trình nghiên cứu, hướng dẫn tận tình cách thức phương pháp nghiên cứu khoa học hỗ trợ q trình tìm kiếm tài liệu Để có kết luận văn này, xin gửi lời cảm ơn sâu sắc đến thầy giáo, PGS-TSKH Bùi Công Cường, đồng thời cho gửi lời cảm ơn đến thầy giáo khoa Tốn ứng dụng, trường Đại học Bách Khoa Hà Nội, gia đình bạn tôi, người động viên để có kết Hà nội, ngày 26 tháng 11 năm 2008 Tác giả Đào Xuân Việt MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG CHƯƠNG I TỔNG QUAN VỀ LOGIC MỜ - HỆ MỜ LÝ THUYẾT TẬP MỜ I 1.1 Tập mờ 1.2 Số mờ 10 1.3 Nguyên lý suy rộng Zadeh 11 II QUAN HỆ MỜ VÀ SUY LUẬN XẤP XỈ, SUY DIỄN MỜ 18 2.1 Quan hệ mờ 18 2.2 Suy luận xấp xỉ suy diễn mờ 20 HỆ MỜ 24 III 3.1 Bộ mờ hóa 24 3.2 Hệ luật mờ 25 3.3 Động suy diễn 25 3.4 Bộ giải mờ 26 CHƯƠNG II 28 KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG KHAI THÁC LUẬT KẾT HỢP TRONG CSDL GIAO DỊCH 28 I KHAI PHÁ DỮ LIỆU 29 1.1 Gom liệu (Gathering) 31 1.2 Trích lọc liệu (Selection) 31 1.3 Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre- processing and Preparation) 31 1.4 Chuyển đổi liệu (Transformation) 31 1.5 Phát trích mẫu liệu (Pattern Extraction and Discovery) 32 1.6 Đánh giá kết mẫu (Evaluation of Result) 32 II LUẬT KẾT HỢP-VẤN ĐỀ PHÁT HIỆN LUẬT KẾT HỢP 33 2.1 Mơ hình hình thức vấn đề phát luật kết hợp 34 2.2 Một số tính chất liên quan đến hạng mục phổ biến 39 2.3 Duyệt khơng gian tìm kiếm 41 2.4 Các giải thuật thông dụng 45 2.5 Thuật toán APRIORI 46 2.6 Thuật toán Eclat 53 Khai phá luật kết hợp mờ 56 III 3.1 Luật kết hợp có thuộc tính số 56 3.2 Luật kết hợp mờ 61 CHƯƠNG III 66 CÀI ĐẶT PHẦN MỀM KHAI PHÁ LUẬT KẾT HỢP 66 I Mơ tả tốn thiết kế phần mềm 66 Chương IV 73 KẾT LUẬN & HƯỚNG PHÁT TRIỂN 73 TÀI LIỆU THAM KHẢO 76 PHỤ LỤC 78 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa Association Rules Các luật kết hợp Candidate Ứng viên Confidence Độ tin cậy CSDL Database - Cơ sở liệu KPDL Data mining - Khai phá liệu TID Unique Transaction Identifier Transaction Giao dịch Support Độ hỗ trợ DANH MỤC CÁC HÌNH VẼ Hình 1.1 Hệ thống nhiều đầu vào, đầu 11 Hình 1.2 Phép giao hai tập mờ theo t-chuẩn T(x, y) = min(x, y) T(x, y) = x.y 14 Hình 1.3 Phép hợp hai tập mờ theo t-chuẩn S = max(x, y) S = min(1, x + y), S = x + y – x.y 16 Hình 1.4 Cấu hình hệ mờ 24 Hình 2.1 Quy trình phát tri thức 29 Hình 2.2 Quá trình khai phá liệu 30 Hình 2.3 Dàn cho tập I = {1,2,3,4} 42 Hình 2.4 Cây cho tập I = {1,2,3,4} 43 Hình 2.5 Hệ thống hóa giải thuật 46 DANH MỤC CÁC BẢNG Bảng 1.1 Các cặp t-chuẩn t-đối chuẩn 15 Bảng 1.2 Một số phép kéo theo mờ thông dụng 18 Bảng 2.1 Cơ sở liệu tác vụ biểu diễn dạng bảng 37 Bảng 2.2 Bảng tính độ tin cậy độ hỗ trợ giao dịch 37 Bảng 2.3 Một số ký hiệu dùng thuật toán 46 Bảng 2.4 CSDL sử dụng minh hoạ thuật toán APRIORI 49 Bảng 2.5 Kết thực thuật toán APRORI cho CSDL D 51 Bảng 2.6 Bảng sở liệu ví dụ thuật tốn Eclat 54 Bảng 2.7 CSDL khám chuẩn đoán bệnh tim cho 18 bệnh nhân 57 Bảng 2.8 Rời rạc hố thuộc tính Dạng đau ngực 59 Bảng 2.9 Rời rạc hố thuộc tính Lưọng Cholesterol máu 59 Bảng 2.10 Rời rạc hố thuộc tính Tuổi 60 MỞ ĐẦU Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế, xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu ln phân tích Mặt khác, mơi trường cạnh tranh, người ta cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Đặc biệt, năm gần đây, với phát triển lý thuyết mờ, hai lĩnh vực có kết hợp thơng minh hoàn hảo với để giải tốn thực tế Trong phát luật kết hợp từ CSDL lần giới thiệu vào năm 1993; đặc biệt quan tâm phát triển mạnh vài năm gần trở thành hướng nghiên cứu quan trọng lĩnh vực phát liệu Trong luận văn này, tác giả đề cập đến số thuật toán khai phá luật kết hợp ứng dụng luật kết hợp mờ Cấu trúc luận văn bao gồm: • Chương I: Tổng quan Logic mờ-Hệ mờ Nghiên cứu sở lý thuyết tập mờ suy luận xấp xỉ, suy diễn mờ, cấu hình thành phần hệ mờ • Chương II: Khai phá liệu ứng dụng khai thác luật kết hợp sở liệu giao dịch Nghiên cứu số kiến thức khai phá liệu, luật kết hợp khai phá liệu, số thuật toán phát luật kết hợp ứng dụng luật kết hợp khai phá liệu giao dịch Cuối chương tập trung nghiên cứu thuật tốn Apriori Eclat • Chương III: Cài đặt phần mềm khai phá luật kết hợp Cài đặt thử nghiệm thuật tốn Apriori • Chương IV: Kết luận Đưa kết luận từ nhìn nhận lại kết đạt CHƯƠNG I TỔNG QUAN VỀ LOGIC MỜ - HỆ MỜ Trong năm cuối thập kỷ XX, ngành khoa học hình thành phát triển mạnh mẽ, hệ mờ - Fuzzy System Đây hệ thống làm việc với mơi trường khơng hồn tồn xác định, với tham số, tiêu kinh tế - kỹ thuật, dự báo môi trường sản xuất kinh doanh chưa khó xác định cách thật rõ ràng, chặt chẽ Năm 1965, giáo sư Lofti A.Zadeh - Đại học California, Mỹ người cống vào lĩnh vực khoa học mẻ này, thực người khai sinh ngành khoa học “lý thuyết tập mờ” tiền đề vững để phát triển Logic mờ hệ thống mờ sau I LÝ THUYẾT TẬP MỜ 1.1 Tập mờ Cho U không gian chẳng hạn: U = tập công ty niêm yết thị trường chứng khoán Việt nam A1 = tập công ty niêm yết sở giao dịch chứng khốn TP Hồ chí minh (HoSE) Khi đó, A1 rõ U A2 = tập công ty kinh doanh tốt, niêm yết sàn HoSE Khi đó, A2 tập mờ U Định nghĩa 1.1: F tập mờ không gian U F xác định hàm 69 Thực Find Frequent ItemSet 70 Thực Find Asscociation 71 Áp dụng giải thuật Apriori tìm luật kết hợp mờ, liệu mờ item lưu sau 0.8,0.5,0.6 0.9,0.7,0.8 0.2,0.4 0.5,0.6 0.8,0.8,0.9 Giao diện chương trình 72 Thực Find Frequent ItemSet Thực Find Association 73 Chương IV KẾT LUẬN & HƯỚNG PHÁT TRIỂN Luận văn có hai mục đích chủ yếu Một là, nghiên cứu số thuật tốn Tìm luật kết hợp Khai phá liệu Hai là, ứng dụng thuật tốn việc tìm luật kết hợp mờ, chạy thử kiểm nghiệm Trong trình hoàn thành đề tài này, dù đạt kiến thức định, nhận thấy Khai phá liệu nói chung khai phá luật kết hợp mờ nói riêng lĩnh vực nghiên cứu rộng lớn, nhiều triển vọng Đề tài trình bày vấn đề khai phá liệu: Tầm quan trọng KPDL, hướng tiếp cận khai phá liệu kỹ thuật khai phá liệu Khai phá liệu sử dụng luật kết hợp mờ số thuật tốn tìm tập mục thường xuyên theo hướng sinh ứng cử không sinh ứng cử Phần cài đặt chương trình cài đặt thuật toán khai phá liệu APRIORI Tuy nhiên, hạn chế tài liệu thời gian nên chưa hồn thành việc cài đặt thuật tốn khai phá luật kết hợp Eclat mờ, thời gian tơi cố gằng hồn thành phần cài đặt để đề tài hoàn thiện 74 TĨM TẮT LUẬN VĂN Trong năm gần đây, khai phá liệu lónh vực liên ngành phát triển với tốc độ chóng mặt, hội tụ nhiều ngành khoa học khác hệ quản trị sở liệu, xác suất thống kê, máy học lónh vực liên quan khác, chung mục đích tiếp cận tri thức hữu ích từ tập số liệu khổng lồ Khai phá liệu ứng dụng thành công lónh vực thương mại, tài chính, thị trường chứng khoáng, bảo hiểm, y học, thiên văn, sinh học, giáo dục, viễn thông,vv Khai phá liệu bao gồm nhiều hướng tiếp cận Trong khai phá luật kết hợp nội dung quan trọng khai phá liệu lónh vực nghiên cứu có nhiều triển vọng, nội dung nghiên cứu luận văn Luận văn bao gồm chương Chương I trình bày tổng quan Logic mờ - Hệ mờ Các sở lý thuyết tập mờ, quan hệ mờ suy luận xấp xỉ, suy diễn mờ, cấu hình thành phần hệ mờ Chương II trình bày số kiến thức khai phá liệu, luật kết hợp KPDL, luật kết hợp mờ Cuối chương tập trung nghiên cứu thuật toán Apriori Eclat Chương III Cài đặt phần mềm khai phá luật kết hợp Chương IV đưa kết luận từ nhìn nhận lại kết đạt từ khóa: khai phá liệu, Apriori, Eclat, luật kết hợp, luật kết hợp mờ 75 THESIS’S SUMMARY In recent years, data mining is one of the interdisciplinary fields developing at high speed Together with many other fields such as administrative system of data base, probability and statistics, manchine learning and other relating fields, it aims at accessing to useful knowledge among a huge file of data Data mining has been successfully applied in many fields of commerce, finance, stock market, insurance, medicine, astronomy, biology, education, telecommunication, etc Data mining includes a lot of accessing ways Among them, eploiting data by the combination rule is one of the most important contents, and this is also a studying fields with great prospect That is the reason why exploiting data by the combination rule has been chosen to be the subject of my thesis The thesis includes four following chapters Chapter I Generalview of fuzzy sets theory, fuzzy system… Chapter II Present the overview of data mining, data mining in the process discover knowledge: directions to approach, techniques use in the data mining and principal application fields Introduces some algorithm to find association rule At the end of the Chapter II, researching about Apriori, Eclat Algorithm Chapter III Install a application software to present Apriori algorithm Chapter IV Reviews all results in this thesis keys: data mining, Apriori, Eclat, association rules, fuzzy association rules 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hệ mờ, mạng noron ứng dụng, Bùi Cơng Cường Nguyễn Dỗn Phúc (Chủ biên), NXB Khoa học Kỹ thuật, Hà Nội, 2001 [2] Giáo trình Khai thác liệu, T.S Đỗ Phúc (Chủ biên), NXB Đại học Quốc gia TP Hồ Chí Minh, TP Hồ Chí Minh, 2006 Tiếng Anh [3] R Agrawal, T Imielinski, and A Swami Mining association rules between sets of items in large databases In Proc of the ACM SIGMOD Conference on Management of Data, pages 207–216, 1993 [4] R Agrawal, H Mannila, R Srikant, H Toivonen, and A I Verkamo Fast discovery of association rules In Advances in Knowledge Discovery and Data Mining, pages 307–328, 1996 [5] R Agrawal and R Srikant Fast algorithms for mining association rules The International Conference on Very Large Databases, pages 487–499, 1994 [6] R Agrawal and R Srikant Mining sequential patterns In P S Yu and A L P Chen, editors, Proc 11th Int Conf Data Engineering, ICDE, pages 3–14 IEEE Press, 6–10 1995 [7] N F.Ayan, A U Tansel, and M E Arkun An efficient algorithm to update large itemsets with early pruning In Knowledge Discovery and Data Mining, pages 287–291, 1999 77 [8] R J Bayardo, Jr Efficiently mining long patterns from databases In Proceedings of the 1998 ACM SIGMOD international conference on Management of data, pages 85–93 ACM Press, 1998 [9] F Bodon and L R´onyai Trie: an alternative data structure for data mining algorithms to appear in Computers and Mathematics with Applications, 2003 [10] S Brin, R Motwani, J D Ullman, and S Tsur Dynamic itemset counting and implication rules for market basket data SIGMOD Record (ACM Special Interest Group on Management of Data),26(2):255, 1997 78 PHỤ LỤC Cơ sở lý thuyết thuật toán Vấn đề phát luật kết hợp có liên quan đến só khái niệm hình thức Dàn tập liệu đóng Định nghĩa 1: ngữ cảnh phát liệu (data mining context) ba D = (O,T,R) O tập hữu hạn đối tượng(context), T tập hữu hạn tất mục liệu R ⊆ O x T quan hệ nhị phân, cặp (o,i) ∈ R ký hiệu cho kiện đối tượng o ∈ O quan hệ với mục liệu i ∈ T Định nghĩa 2: (Kết nối Galois) Cho D = (O,T,R) ngữ cảnh phát liệu.với O ⊆ O I ⊆ T, xác định f: 2O→2T g: 2T→2O f(O) = {i∈ T|∀o ∈ O,(o,i) ∈R} g(I) = {o∈ O|∀i ∈ I,(o,i) ∈R} f(O) tập liệu chung cho tất đối tượng O g(I) tập đối tượng quan hệ với tất mục liệu I Cặp ánh xạ (f,g) gọi kết nối Galois tập tập O tập tập T từ định nghĩa này, có tính chất sau đây: tính chất I: Với I1,I2 ⊆ T O1,O2 ⊆ O, ta có: (1) I1 ⊆ I2 ⇒ g(I1) ⊇ g(I2) (1’) O1 ⊆ O2 ⇒ f(I1) ⊇ f(I2) (2) O ⊆ g(I) ⇔ I ⊆ f(O) Định nghĩa 3: cho S tập Hàm c: 2S |→ 2S xác định tập tất tập S, tốn tử đóng (closure operator) S với tất I, I’ ⊆ S, c thỏa mãn tính chất sau: 1) Mở rộng (Extension): I ⊆ c(I) 79 2) Đơn điệu (Monotonicity): Nếu I1 ⊆ I2 , c(I1) ⊆ c(I2) 3) Tính Idempotency: c(c(I)) = c(I) Tập I S gọi đóng (closed) c(I) = I Định nghĩa 4: ánh xạ hợp h=fog 2T h’= gof 2T gọi phép tốn đóng Galois Các ánh xạ có tính chất sau: mở rộng: (3) I ⊆ h(I) (3’) O ⊆ h’(O) Idempotency: (4) h(h(I)) = h(I) (4’) h’(h’(O)) = h’(O) Đơn điệu (5) I1 ⊆ I2 ⇒ h(I1) ⊆ h(I2) (5’) O1 ⊆ O2 ⇒ h’(O1) ⊆ h’(O2) Tập liệu I ⊆ T gọi đóng h(I)=I tập liệu đóng nhỏ chứa I h(I) h(I) gọi bao đóng I Ví dụ : hình có 19 tập phổ biến tổ chức thành dàn tập đóng sinh cách lấy hợp tập phổ biến có khái niệm đối tượng tập đóng có tập phổ biến lớn nhất: ACTW, CDW AT ACT A C TW AW ATW D T AC CTW W CD ACW CT CW DW CDW ACTW Tính chất 2: Giả sử I1, I2 tập liệu ta có h(I1∪ I2) = h(h(I1))∪h(h(I2)) 80 Chứng minh: theo tính chất đóng tốn tử đóng Galois: I1 ⊆ h(I1) I2 ⊆ h(I2) nên I1∪ I2 ⊆ h(I1)∪h(I2) h(I1)∪h(I2) ⊆ h(h(I1))∪h(h(I2)) Do I1 ⊆ I1∪ I2 I2 ⊆ I1∪ I2 h(I1) ⊆ h(I1∪ I2) h(I2) ⊆ h(I1∪ I2) Theo tính chất Idempotency tốn tử Galois: h(h(I1))∪h(h(I2))⊆ h(h(I1∪ I2)), h(h(I1))∪h(h(I2)) ⊆ h(h(I1∪ I2)) : h(h(I1))∪h(h(I2))=h(I1∪ I2) Tính chất 3: giả sử I2 tập tập liệu cho Support(I2 ) = support(I1) h(I1) =h(I2) với tập liệu I3 ta có h(I1∪ I3) = h(I2∪ I3) Chứng minh: Theo giả thiết ta có : ||g(I1)||=||g(I2)|| nói g(I1) = g(I2) f(g(I1)) = f(g(I2)), tức h(I1) = h(I2) với I3 tập liệu đó, theo tính chất h(I1∪ I3) = h(h(I1))∪h(h(I3)) = h(h(I2))∪h(h(I3)) = h(I2∪ I3) Định nghĩa 5: (dàn liệu tập đóng) Ký hiệu C tập tất tập liệu đóng nhận từ D theo phép tốn Galois h Cặp LC = (C, ≤) gọi dàn tập liệu, cấu trúc dàn có tính chất: tồn thứ tự phần phần tử dàn cho với phần tử I, I’ ∈LC, I ≤ I’ I⊆I’ tất tập LC có phần tử biên lớn (phần tử join) có phần tử biên nhỏ (phần tử meet) LC dàn đầy đủ Định lý (định lý Dàn Galois): Join (S) = h(∪C) với C∈S Meet(S) = ∩C với C∈S Định lý 2: h(I) =∩{f{o}/I⊆f({o}) với o ∈O } 81 Chứng minh: H = ∩{f{o}/I⊆f({o}) với o ∈O } ta có h(I) = f(g(I)) = ∩{f{o}/với o⊆g(I)} ta thấy : {o∈O/ I ⊆f({o})} = {o ∈O / o ∈g(I)} vì: I⊆f({o}) ⇒ o ∈g(I) o ∈ g(I) ⇒ I ⊆f(g(I)) ⊆ f({o}) h(I) = H Mơ hình luật kết hợp Ở ta định nghĩa tập phổ biến tập phổ biến đóng, luật kết hợp luật kết hợp chắn theo kết nối Galois Định nghĩa 6: giả sử I ⊆ T tập liệu D, độ hỗ trợ tập I D là: support(I) = ||g(I)||/||O|| Định nghĩa 7: tập liệu I gọi tập phổ biến support(I) ≥ minsupp; tập phổ biến đóng gọi tập phổ biến đóng Ký hiệu FC tập tất tập phổ biến đóng nhận từ sở liệu D, tức FC = {I ⊆ T/I = h(I) support(I) ≥ minsupp} Tính chất 4: tập tập phổ biến tập phổ biến Chứng minh: Giả sử I, I’ ⊆ T , I tập phổ biến, I’ ⊆ I theo tính chất kết nối Galois I’ ⊆ I ⇒ g(I’) ⊇ g(I) ⇒ support(I’) ≥ support(I) ≥ minsupp Tính chất 2’: tập chứa tập tập phổ biến không phổ biến Định nghĩa 8: Tập MC gồm tất tập phổ biến đóng khơng phải tập thực tập phổ biến đóng khác gọi tập tập phổ biến đóng cực đại, nói cách khác: MC = {I∈FC / khơng tồn tập I’ ∈FC I ⊂ I’} Tính chất tập tất tập phổ biến cực đại tập phổ biến đóng cực đại trùng tức M = MC 82 Chứng minh: Ta cần chứng minh với I∈ M, I tập đóng tức I = h(I) theo tính chất (2) dàn Galois ta có I ⊆ h(I) I tập phổ biến cực đại nên support(h(I)) = support(I) ≥ minsupp, ta suy I = h(I) hay I tập phổ biến đóng cực đại Định nghĩa 9: (theo cách sử dụng kết nối Galois) luật kết hợp có dạng I1 → I2, I1,I2 tập liệu I1 ∩ I2 = ∅; support(I1 → I2) = ||g(I1 ∪ I2)||/||O|| conf(I1 → I2) = support(I1 ∪ I2)/support(I1) = ||g(I1 ∪ I2)||/||g(I1)|| Tính chất 6: độ hỗ trợ tập liệu I nhận từ sở liệu D độ hỗ trợ bao đóng nó, tức support(I) = support(h(I)) chứng minh: Giả sử I ⊆ T tập liệu, độ hỗ trợ I D support(I) = ||g(I)||/||O|| h(I) bao đóng I trước hết ta cần h’(g(I)) = g(I) ta có g(I) ⊆ h’(g(I)) theo tính chất mở rộng kết nối Galois I ⊆ h(I) nên g(h(I)) ⊆ g(I) hay h’(g(I)) ⊆ g(I) support(h(I)) = ||g(h(I))||/||O|| = ||h’(g(I))||/||O|| = ||g(I)||/||O|| = support(I) Tập thu gọn luật kết hợp Các luật kết hợp tin cậy (valid association rules) luật kết hợp có độ hỗ trợ độ tin tưởng lớn hay ngưỡng minsupp minconf cho trước Giả sử I1, I2 tập liệu I1 ∩ I2 = ∅, luật I1 → I2 gọi luật xác conf(I1 → I2) = gọi luật xấp xỉ conf(I1 → I2) < Định nghĩa 10: tập liệu I từ D gọi tập giả đóng h(I) ≠ I với tập I’ I cho I’ giả đóng h(I’) ⊆ I 83 Định lý 3: (định lý luật xác) Giả sử D tập tất tập giả đóng R tập luật xác D Tập Ω = {r: I1 ⇒ h(I1) – I1/I1 ∈ D}là sở tất luật xác, tức với r’ ∈ R conf(r’) = ≥ minconf Ω |=r’ hệ (định lý luật tin cậy xác) Giả sử FD tập tập liệu phổ biến giả đóng D Tập BD = {r: I1 ⇒ h(I1) – I1/I1 ∈ FD} sở đốí với tất luật tin cậy xác Định lý 4(Định lý tập thu gọn luật kết hợp xấp xỉ): Giả sử C tập tất tập liệu đóng R tập luật kết hợp xấp xỉ D Tập A = {r: I2 ⇒ I1 – I2/I2 ⊂ I1 I1, I2 ∈ C} tập chuẩn thu gọn luật kết hợp xấp xỉ, tức với r’ ∈ R > conf(r’) ≥ minconf A |= r’ Hệ (Định lý tập thu gọn luật kết hợp tin cậy xấp xỉ) Giả sử FC tập tất tập liệu đóng phổ biến D Tập BA = {r: I2 ⇒ I1 – I2/I2 ⊂ I1 I1, I2 ∈ FC} tập chuẩn thu gọn tất luật kết hợp tin cậy xấp xỉ (approximate valid association rules), tức với r’ ∈ AR = {r: I2 ⇒ I1 – I2/I2 ⊂ I1 I1 tập phổ biến, minconf ≤ conf(r’)} conf(r’) ≤ BA |= r’ ... phá liệu, số thuật toán phát luật kết hợp ứng dụng luật kết hợp khai phá liệu giao dịch Cuối chương tập trung nghiên cứu thuật tốn Apriori Eclat • Chương III: Cài đặt phần mềm khai phá luật kết. .. tập mờ suy luận xấp xỉ, suy diễn mờ, cấu hình thành phần hệ mờ • Chương II: Khai phá liệu ứng dụng khai thác luật kết hợp sở liệu giao dịch Nghiên cứu số kiến thức khai phá liệu, luật kết hợp khai. .. toán APRIORI 46 2.6 Thuật toán Eclat 53 Khai phá luật kết hợp mờ 56 III 3.1 Luật kết hợp có thuộc tính số 56 3.2 Luật kết hợp mờ 61 CHƯƠNG III

Ngày đăng: 25/02/2021, 16:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In Proc.of the ACM SIGMOD Conference on Management of Data, pages 207–216, 1993 Sách, tạp chí
Tiêu đề: In Proc. "of the ACM SIGMOD Conference on Management of Data
[4] R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. I. Verkamo. Fast discovery of association rules. In Advances in Knowledge Discovery and Data Mining, pages 307–328, 1996 Sách, tạp chí
Tiêu đề: Advances in Knowledge Discovery and Data Mining
[5] R. Agrawal and R. Srikant. Fast algorithms for mining association rules. The International Conference on Very LargeDatabases, pages 487–499, 1994 Sách, tạp chí
Tiêu đề: The International Conference on Very Large "Databases
[6] R. Agrawal and R. Srikant. Mining sequential patterns. In P. S. Yu and A. L. P. Chen, editors, Proc. 11th Int. Conf. Data Engineering, ICDE, pages 3–14. IEEE Press, 6–10 1995 Sách, tạp chí
Tiêu đề: Proc. 11th Int. Conf. Data Engineering, ICDE
[7] N. F.Ayan, A. U. Tansel, and M. E. Arkun. An efficient algorithm to update large itemsets with early pruning. In KnowledgeDiscovery and Data Mining, pages 287–291, 1999 Sách, tạp chí
Tiêu đề: Knowledge "Discovery and Data Mining
[8] R. J. Bayardo, Jr. Efficiently mining long patterns from databases. In Proceedings of the 1998 ACM SIGMOD international conference on Management of data, pages 85–93.ACM Press, 1998 Sách, tạp chí
Tiêu đề: Proceedings of the 1998 ACM SIGMOD international conference on Management of data
[9] F. Bodon and L. R´onyai. Trie: an alternative data structure for data mining algorithms. to appear in Computers andMathematics with Applications, 2003 Sách, tạp chí
Tiêu đề: to appear in Computers and "Mathematics with Applications
[10] S. Brin, R. Motwani, J. D. Ullman, and S. Tsur. Dynamic itemset counting and implication rules for market basket data. SIGMOD Record (ACM Special Interest Group on Management of Data),26(2):255, 1997 Sách, tạp chí
Tiêu đề: SIGMOD Record (ACM Special Interest Group on Management of Data),26(2):255
[1] Hệ mờ, mạng noron và ứng dụng, Bùi Công Cường và Nguyễn Doãn Phúc (Chủ biên), NXB Khoa học Kỹ thuật, Hà Nội, 2001 Khác
[2] Giáo trình Khai thác dữ liệu, T.S Đỗ Phúc (Chủ biên), NXB Đại học Quốc gia TP Hồ Chí Minh, TP Hồ Chí Minh, 2006.Tiếng Anh Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w