1. Trang chủ
  2. » Thể loại khác

Phát hiện luật kết hợp mờ có hỗ trợ không giống nhau

85 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 30,15 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CƠNG NGHỆ HỒNG VIỆT NGUYÊN Phát luật kết hợp mờ có hỗ trợ không giống LUẬN VĂN THẠC SĨ Người hướng dẫn: TS Đỗ Văn Thành Hà nội - 2003 f n* r Phát luật kêt hợp mờ có độ hô trợ không giông Trang MỤC LỤC LỜI GIỚI THIỆU CHƯƠNG I C SỞ LÝ THUYẾT CỦA CÁC THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP CHARM VÀ ACLOSE 10 I Giới thiệu luật kết hợp 10 Lì Ỷ nghĩa thực tiễn luật kết hợp 10 1.2 Mơ hình hình thức luật kết hợp 11 1.3 Phân loại thuật tốn phát luật kết hợp c ó 13 II Cơ sở lý thuyết thuật toán CHARM ACLOSE 15 II Các kiến thức chuẩn b ị 15 II Phương pháp xây dựng thuật toán CHARM ACLOSE 19 III Thuật toán CHARM ACLOSE 20 III Thuật toán CHARM 20 III Thuật toán AC LO SE 25 IV So sánh thuật toán CHARM VÀ AC LOSE 32 CHƯƠNG II MỘT SỐ CÁCH TIẾP CẬN PHÁI HIỆN LUẬT KẾT HỢP M ỚI 37 I Phát luật kết hợp có ràng buộc độ hỗ trợ 38 1.1 Vấn đề đặt r a 38 1.2 Các kiến thức chuẩn bị 39 1.3 Thuật toán phát luật kết hợp ràng buộc độ hỗ trợ 40 II Phát luật kết hợp gắn trọng số 41 II Vấn đề đặt 41 11.2 Các kiến thức chuẩn b ị 41 II Thuật toán phát luật kết hợp với mụcdữ liệu gắn trọng số 45 III Phát luật kết hợp có độ hỗ trợ khơng giống 49 III Vấn đề đặt r a 49 111.2 Các kiền thức cần thiết 49 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQ(Ỉ Hà Nội ĐẠí học q u ị c gia hà NƠI 'Ị TRÙNGTÃM THỜNGTỊN.THƯVIỆN I f f Phát luật kêt hợp mờ có độ hơ trợ khơng giỏng Trang III Thuật tốn tìm tập phổ biến cực đại có độ hỗ trợ khơng giống 51 CHƯƠNG III PHÁT HIỆN LUẬT KẾT HỢP MỜ VỚI MỤC DỮ LIỆU CĨ Đ ộ HỒ TRỢ KHƠNG GIỐNG NHAU 60 I Tại cần phải phát luật kết hợp m 60 II Luật kết họp m 62 II.ỉ Luật kết hợp m .62 II.2 Một số thuật toán phát luật kết hợp mờ c ỏ 63 III Các kiến thức cần thiết xây dựng thuật tốn tìm tập phổ biến mờ cực đại có độ hỗ trợ khơng giống 66 IV Thuật toán phát tập phổ biến mờ có độ hỗ trợ khơng giống .72 IV Tư tưởng xây dựng thuật toán 72 IV.2 Thuật toán FUZZY CHARM-NEW 74 IV.3 Ví dụ minh hoạ thuật tốn FUZZY CHARM-NEW 75 IV.4 Nhận xét - Đánh g iả 79 KÉT LUẬN TÀI LIỆU THAM KHẢO Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ** r Phát luật kêt hợp mờ cỏ độ hô trợ khơng giơng Trang DANH MỤC HÌNH VẺ Hĩnh Hệ thống số thuật toán phát luật kết hợp có 14 Hình Cây tìm kiếm minh hoạ thuật tốn CHARM .24 Hình So sảnh thuật tốn -Cây tìm kiếm thuật tốn Apriori 35 Hình So sảnh thuật tốn - Cây tìm kiếm thuật tốn CHARM 35 Hình So sảnh thuật tốn - Cây tìm kiếm thuật tốn ACLOSE 36 Hình Cây tìm kiếm thuật tốn CHARM-NEW .56 Hình 7.Rời rạc hoá mục liệu Tuổi(Age) miền giá trị [10 40] thành khoảng[10 20], [20 30], [30 40] 62 Hình s Gắn ihuộc tính Tuổi(Age) miền giả trị [10 40] với tập mờ Tuỏi trẻ, Tuổi niên, Tuổi trung niên Các giá trị thuộc tính miền [20 30] thuộc tập mờ Tuổi niên 62 Hình Cây tìm kiếm mơ tả thuật tốn FUZZY CHARM-NEW .77 Hồng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ~ r Phát luật kêt hợp mờ cỏ độ hô trợ không giông Trang DANH MỤC BẢNG BIẺU • Bảng Cơ sở liệu tác v ụ 12 Bảng Độ ho trợ tập mục dừ liệu 12 Bảng Luật kết hợp 13 Bảng CSDL minh họa thuật toán CHARM 23 Bảng Bảng ký kiệu thuật toán ACLOSE 26 Bảng CSDL ví dụ thuật tốn ACLOSE .30 Bảng Ket thuật toán ACLOSE 32 Bảng Ví dụ minh hoạ ràng buộc độ ho trợ .40 Bảng CSDL minh huạ mục liệu gắn trọng sổ 47 Bảng 10 Các biên K- hỗ trợ cho tập Y gắn trọng sổ 48 Bảng 11 CSDL minh hoạ thuật toán CHARM-NEW 55 Bảng 12 Rời rạc hoá liệu trường hợp thuộc tính định lượng rời rạ c 60 Bảng 13 Rời rạc hoá liệu trường hợp thuộc tính định lượng liên tụ c 61 Bảng 14 Cơ sở liệu định lượng ban đần 68 Bảng 15 Cơ sở liệu m 69 Bảng 16 CSDL định lượng minh họa thuật toán FUZZY CHARM-NEW 75 Bảng 17 Ngữ cảnh liệu mờ CSDL minh họa 76 Bảng 18 Một ngữ cảnh phát liệu mờ ví dụ minh hoạ 76 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ không giống Trang KÝ HIỆU VÀ TỪ VIÉT TẤT Từ cụm từ Từ viêt tăt Từ tiêng Anh Cơ sở liệu CSDL Database Định danh TID Transaction ID Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ~ r Phát luật kêt hợp mờ có độ hơ trợ khơng giông Trang LỜI GIỚI THIỆU Vấn đề phát luật kết họp từ sở liệu tác vụ (CSDL có thuộc tính nhận giá trị nhị phân) nhóm Data Quest thuộc Trung tâm nghiên cứu Amaden tập đoàn IBM kết hợp số nhà khoa học Trường Đại học Tổng hợp Hensinki đề xuất lần đầu vào năm 1993 [5] Từ đến đặc biệt quan tâm phát triển , trở thành khuynh hướng nghiên cứu ứng dụng quan trọng khai phá liệu (data mining) Việc phát luật kết hợp không ứng dụng thương mại mà ứng dụng nhiều ngành kinh tế, khoa học, xã hội khác Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường, [1-3,5-7,9,13] Vấn đề phát luật kết hợp phân thành vấn đề là: (a) Tìm tập phổ biến (đó tập mục liệu có độ hỗ trợ không nhỏ giá trị chung minsup đó) (b) sinh luật kết hợp có độ tin cậy không nhỏ giá trị minconf từ tập phổ biến vừa tìm Sự phức tạp khó khăn vấn đề phát luật kết hợp chủ yếu tập trung vần đề tìm tập phổ biến (a) Việc cải tiến tìm kiếm thuật tốn hiệu để tìm tập phổ biến từ CSDL nói chung lớn, chí lớn hướng nghiên cứu ưu tiên vấn đề phát luật kết hợp thời gian qua Hiện có nhiều thuật toán phát luật kết hợp theo nhiều cách tiếp cận khác thuật toán dựa việc tìm tập phổ biến với độ hỗ trợ chung Quan điểm sử dụng độ hỗ trợ chung để tìm tập phổ biến cho thấy chưa thật hợp lý với thực tế sống người ta khắc phục vấn đề cách xây dựng thuật toán phát luật kết hợp điều kiện có ràng buộc độ hỗ trợ [11] Phát luật kết hợp tập liệu (itemsets) gắn với trọng số [8] luật kết hợp phát thông qua việc tìm tập phổ biển với mục liệu có độ hỗ trợ cực tiểu khơng giống [2] Thực tế việc phát luật kết hợp thực Hồng Việt Ngun - Luận văn ThạcSĩ - Khoa Cơng nghệ ĐHQG Hà Nội r /V f Phát luật kêt hợp mờ có độ hơ trợ khơng giơng Trang trở lên có ý nghĩa ứng dụng to lớn người ta giải vấn đề phát luật kết hợp từ sở liệu định lượng (CSDL mà thuộc tính nhận giá trị số phân loại) Phương pháp giải chuyển sở liệu định lượng thành sở liệu tác vụ (hay CSDL nhị phân), sau áp dụng thuật tốn phát luật kết họp từ CSDL tác vụ biết Việc chuyển CSDL định lượng thành CSDL tác vụ có nhược điểm quan trọng cồng kềnh thiếu “tự nhiên” điểm “gãy” rõ [8], Khắc phục tình trạng người ta đề xuất ứng dụng lý thuyết tập mờ trình chuyển đổi CSDL định lượng thành CSDL thay vai trị CSDL nhị phân (có thể gọi CSDL mờ), từ vấn đề phát luật kết hợp mờ đời Dây ỉà vấn đề quan tâm nghiên cứu mạnh vài năm gần Các nghiên cứu [2,8] làm nẩy sinh vấn đề nghiên cứu xây dựng kỹ thuật phát luật kết hợp mờ với mục liệu có độ hỗ trợ cực tiểu không giổng từ CSDL có định lượng Đề tài luận văn cao học “Phát luật kết hợp mờ có độ hỗ trợ khơng giống nhau” thực theo hướng góp phần giải đáp vấn đề Cụ thể mục đích luận văn hệ thống vấn đề liên quan theo hướng chuẩn bị số kiến thức cần thiết nhằm giải vấn đề đặt trình bầv số kết nghiên cứu ban đầu giải pháp kỹ thuật giải vấn đề Luận văn có 83 trang bao gồm phần mở đầu, chương nội dung, phần kết luận tài liệu tham khảo Chương 1: Cơ sở lý thuyết thuật toán khai phá luật kết hợp CHARM ACLOSE gồm trang từ 10 đến trang 38 Sau trình bày tổng quát số khái niệm, nội dung vấn đề phát luật kết hợp, thuật toán phát luật kết hợp, chương tập trung trình bầy sở lý thuyết thuật toán phát luật kết họp hiệu CHARM ACLOSE giới thiệu chi tiết thuật tốn Thực thuật tốn xây dựng Hoàng Việt Nguyên - Luận văn ThạcSĩ Khoa Công nghệ ĐHQG Hà Nội - Phát luật kết hợp mờ có độ hỗ trợ khơng giống Trang theo cách tiếp cận khác với cách tiếp cận thuật toán xây dựng trước việc đánh giá so sánh hai thuật tốn với góp phần làm rõ thêm cách tiếp cận xây dựng chúng Chương 2: Một số cách tiếp cận phát luật kết hợp từ trang 39 đến trang 61 tập trung trình bầy số hạn chế luật kết họp phát điều kiện chúng có độ hỗ trợ cực tiểu chung (cho đến thời điểm việc ứng dụng luật kết họp chủ yếu thực điều kiện vậy) số cách tiếp cận nghiên cứu nhằm khắc phục hạn chế Chương trình bầy cách tiếp cận phát luật kết hợp tập liệu (itemsets) có ràng buộc độ hỗ trợ; phát luật kết họp có mục liệu gắn trọng số phát luật kết họfp mục đừ liệu có độ hỗ trợ cực tiểu không giống Một số so sánh đánh giá ban đầu cách tiếp cận giới thiệu chương Chương 3: Phát luật kết hợp mờ có độ hỗ trợ cực tiếu không giống gồm trang từ trang 62 đến trang 82 Sau trình bầy số lý cần phát luật kết hợp mờ, số khái niệm phát luật kết hợp mờ, chương tập trung trình bầy số kiến thức chuẩn bị thuật toán FUZZY CHARM-NEW để tìm tập phổ biến mờ với tập thuộc tính có độ hỗ trợ cực tiểu khơng giống Trong Phần kết luận trình bầy tóm tắt nội dung luận văn, số hạn chế chủ yếu hướng nghiên cứu luận văn Cuối tác giả xin cảm ơn giúp đỡ hướng dẫn tận tình Ts Đỗ Văn Thành - Văn Phịng Chính Phủ trình thực luận văn Tác giả xin chân thành cám ơn thầy cô khoa Công nghệ- Đại học Quốc gia Hà Nội tạo điều Hoàng Việt Nguyên Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội - f ~ r Phát luật kêt hợp mờ có độ hơ trợ khơng giơng Trang kiện giúp đỡ trình học tập làm luận văn Xê mi na: “ Khai phá tri thức sở liệu” Khoa tạo điều kiện cho tác giả trình bầy góp ý kiến để tác giả chỉnh sửa, hoàn thiện luận văn Xin cám ơn giúp đỡ bạn bè đồng nghiệp bạn lớp 7KT - Khoa Cơng Nghệ suốt q trình học tập làm khoá luận Hà Nội, ngày 01 tháng 06 năm 2003 Học viên Hoàng Việt Nguyên Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r »v f Trang 69 Phát luật kêt hợp mờ có độ hơ trợ khơng giơng 0.3 0.5 Bảng 15 Cơ sở liệu mờ - Giả sử X={Tuổi, Thu nhập}, A={trung niên, cao}, ta có: Độ hỗ trợ tập liệu mờ < X, A> sở liệu D ký hiệu s< X, A> xác định theo Định nghĩa sau: c v A _ 1X0.9 + 0.6x 0.7 + 0.5X 0.3 + X0.8 + X _ n n A Độ hỗ trợ luật kết hợp mờ " Tuổi = trung niên —> Thu nhập = cao " sở liệu D xác định theo Định nghĩa sau( tốn tử T- norm chọn tích đại số): _ X 0.9 + 0.6 X 0.7 + 0.5 X 0.3 +0.3 X 0.8 + x(l „ _ Conf = - —— ———— - = 0.502 + + + 0.3 + Định nghĩa Ngữ cảnh liệu mờ (Data Fuzzy context) ba D = (O, I, Fj), o tập hữu hạn đối tượng (object), I tập tất thuộc tính Fi tập tất tập mờ liên kết với thuộc tính I Ký hiệu M tập số tập mờ ứng với thuộc tính I tức M C Fị, cho ứng với i e l có tập mờ M ngược lại; Định nghĩa Ngữ cảnh phát liệu mờ (Data Fuzzy mining context) ba D = (O, I, M) Nhận xét: - Giả sử A* số tập mờ liên kết với thuộc tính ik tập I gồm n phần tử, ngữ cảnh liệu mờ tương ứng với A-! x A-n ngữ cảnh phát liệu mờ Việc phát luật kết hợp thực ngữ cảnh phát liệu mờ - Khái niệm ngữ cảnh liệu ngữ cảnh phát liệu mờ phát triển có nhiều điểm khác so với khái niệm tương ứng [2,15,16] Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống Trang 70 Các khái niệm kết nối Galoa tập mục liệu mờ đóng phát triển từ khái niệm có liên quan sau [2,15-16]: Định nghĩa (Kết nối Galois) Cho D = (O, I, M) ngữ cảnh phát liệu mờ Với C c O v < X , A > C Ị xác định: Y : ° -> J , 7(C ) = < x , A>, với X = { ie l I Voe c , ma (ơ[i]) > Wữ j} , otj e A tập mờ liên kết với thuộc tính i X v A c M J : J -> ° () = {oeO I Vi eX, m aj (o[i]> > Wữj } Ký hiệu h ánh xạ hợp ánh xạ g / , tức h = f g Định nghĩa Tập mục liệu mờ gọi đóng h () = Nhận xét: - Các ánh xạ h , , g phát triển tiếp từ ánh xạ h, f, g tương ứng [2, 15, 16 ] cho trường hợp ngữ cảnh phát liệu mờ - Trong trường hợp CSDL nhị phân, tập mục liệu mờ đóng X tập đóng, tức h(X) = X với ánh xạ h xác định [2,15, 16] - Trường hợp CSDL mờ nói chung khơng xẩy mối quan hệ tính đóng tập mục liệu mờ tập thuộc tính X Giả sử < x, A> tập mục liệu mờ, ký hiệu: I~g | = { í a ( [ * y.])} • eO Tính chất sau làm sở để xây dựng thuật tốn tìm tập phổ biến mờ đóng phát triển từ tính chất liên quan [3,15,16] Hồng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r r+t r Phát luật kêt hợp mờ có độ hơ trợ khơng giơng Trang 71 Tính chất a).Giả sử < x, A>, hai tập mục liệu bất kỳ, minSuppX > |g()|/||0|| minSuppY > |g (< x , A>)|/||0|| khơng tập phổ biến mờ b) Neu g() c g() < x, A> tập phổ biến mờ, minSuppX > minSuppY Ii(< x , A>)|/||0|| > minSuppY tập phổ biến mờ; c) Nếu g( ) = g() < x, A> tập phổ biến mờ tập phổ biến mờ Chứng minh' a) Theo định nghĩa : Ii(< x , A>)|/||0|| = S; Giả sử tập phổ biến S > minSupp (X uY ) > minSuppY > S điều vô lý tập nên S > S Nhận xét: Tính chất a) thường áp dụng hai tập < x, A>, tập phổ biển mờ b) Từ g() c g() định nghĩa g ta nhận g = g() nên suy S = S (*); Mặt khác tập phổ biến mờ ta có S > minSuppX; - Nếu minSuppX > minSuppY minSupp x = minSupp(X uY ) (**); Từ (*) (**) suy S > minSupp(X u Y ) hay tập phổ biến mờ - Nếu Ii(< x , A>)|/||0|| > minSuppY hay S > minSuppY , S > minSuppX nên suy S > Max (minSupp X, minSuppY) = minSupp(X uY ), từ * suy tập phổ biến mờ c) Được suy trực tiếp từ chứng minh b) Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống Trang 72 Nhận xét: Tính chất sở để cải tiến thuật tốn tìm tập phổ biến đóng CHARM CHARM-NEW thành thuật tốn tìm tập phổ biến mờ đóng có độ hồ trợ cực tiểu khơng giống IV Thuật tốn phát tập phổ biến mờ có độ hỗ trợ khơng giống IV Tư tưởng xây dựng thuật toán Thuật tốn đề xuất theo cách sau: Để tìm tập phổ biến mờ cực đạit tương tự thuật toán CHARM [15] toán CHARM-NEW [2], thuật toán sử dụng phương pháp duyệt theo chiều sâu không gian dàn tập mục liệu mờ Tương tự CHARM-NEW đỉnh đồ thị biểu diễn khơng gian tìm kiếm tập phổ biến đóng ba « X ,A > , minSuppX, g()>- Thuật toán xếp nút mức đồ thị không gian tập phổ biến theo thứ tự tăng dần độ hỗ trợ cực tiểu minSupp từ trái qua phải với cách xếp tập k-mục liệu (k>l) sinh theo phương pháp duyệt theo chiều sâu nhánh đổ thị xếp theo thứ tự tăng dần độ hỗ trợ cực tiểu chúng theo thứ tự từ trái sang phải, tập sinh trước có độ hỗ trợ cực tiểu nhỏ độ hỗ trợ cực tiểu tập sinh sau, nút thuộc nhánh bên trái có độ hỗ trợ cực tiểu nhỏ nút nhánh phải Cơ chế hoạt động thuật tốn tìm tập phổ biến mờ tương tự CHARM-NEW Cụ thể minSuppX, g()>, )> g()> giả sử xử lý nhánh có nút gốc « X ,A > , ta muốn kết hợp nút « Y ,B > , minSuppB, để sinh nút mới, thứ tự sau Khi xẩy trường hợp sau: Khi g( = g(, tập phổ biến tập phổ biến (tính chất 2c) ta thay xuất không cần xem xét nhánh tập Y bước tìm kiếm tiếp theo; Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống Khi g (< x ,A>) g(), Trang 73 , tập phổ biến nút đồ thị theo thứ tự tãng dần độ hỗ trợ cực tiểu tập mục liệu nút nên minSuppX < minSuppY tập phổ biến (tính chất 2b) nên ta loại bỏ nhánh có nút gốc « Y ,B > minSupp Y, = Ì(> bổ sung nút « X u Y , A uB >, minSuppXuY, g(X uY , A uB >) > vào tập nút; Khi g() c g() , tập phổ biến ta chưa thể kết luận có phải tập phổ biến hay khơng, nói cách khác từ nút gốc có tiềm sinh tập phổ biến đóng khác nên ta khơng thể loại bỏ hay thay chúng nút khác được; nhiên thêm điều kiện Ii(< x , A>)|/||0|| > minSuppY minSuppX > minSuppY tập phổ biến mờ nên bổ sung nút « X u Y , A uB >, minSuppXuY, g(X uY , A uB >) > vào tập nút; Khi g() * g() xẩy tình tương tự trường hợp 3, tức chưa chưa thể kết luận có phải tập phổ biến hay khơng, từ nhánh có nút gốc « X ,A > , minSuppX, g()>, )>, « Y ,B > , minSuppB, g()> phát sinh tập phổ biến mờ Dưới giới thiệu phần cốt lõi thuật tốn tìm tập phổ biến mờ đóng cải tiến từ CHARM [15] phát triển từ CHARM-NEW [2] gọi FUZZY-CHARM-NEW Các thủ tục hàm FUZZY-CHARM-EXTENDEDNEW, FUZZY-CHARM-PROPERTY-NEW có ý nghĩa vai trị CHARMEXTENDED, CHARM-PROPERTY CHARM [15] Ký hiệu Q tập tất tập phổ biến mờ; Thuật tốn tìm tập phổ biến mờ đóng cải tiến từ CHARM [15 ]và phát triển từ CHARM-NEW[2]gọi FUZZY CHARM-NEW Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ~ r Phát luật kêt hợp mờ có độ hơ trợ khơng giơng Trang 74 IV.2 Thuật tốn FUZZY CHARM-NEW FUZZY-CHARM-NEW ( « i ] Xik >, minSupp iị >, « i2, Xi2 >, minSupp i2 >, « ims X im>, minSupp im>}, 1.Nodes={< , minSuppi, ~g()l i e l , s ^ minSuppi } Các đỉnh xếp từ trái sang phải theo thứ tự tăng dần thành phần thứ hai minSupp i FUZZY-CHARM-EXTENDED-NEW (Nodes, Q); FUZZY-CHARM-EXTENDED-NEW (Nodes, Q) for each (, minSupp Xj, g( ) in Nodes { N ew N := 0;X := X i;j:= i+ l;A := A i While (j < m and (, minSupp Xj, g( ) in Nodes ) { X := X u X j ; A := A u A j v Y := i ( < X j, A ,> ) n g ( < X j, Aj > ); B = Aj n Ajj FUZZY-CHARM-PROPERTY-NEW (Nodes, NewN) j ++ } 10 If New N * then FUZZY-CHARM-EXTEND (NewN) Q : = i i u < x, A> } FUZZY-CHARM-PROPERTY-NEW (Nodes, NewN) 11 if (|Y|/||0|| > minSupp (X)) then 12 if i( = i( ) then 13 Loai (, minSupp Xj, g( khoi Nodes 14 Thay the tat ca boi 15 else if g ( ) Z) g( ) then 16.Bo sung « x , A >, minSuppX, i( < x , A >)> vao Notes Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống 17 Trang 75 Loai « X j , Aj >, minSuppXj, g()> khoi Nodes 18 else if ( g () c i()) and (minSuppXj < |i() |/1 |0 ||)) 19 then Thay the tat ca boi < X ,A > 20 else if ị (i( * g() and (minSuppXj < |g()| / 1|0||) and (minSuppX, < |g()|/1|0||) then 21 Bo sung « x , A >, minSuppX, g()> vao NewN IV.3 Ví dụ minh hoạ thuật tốn FUZZY CHARM-NEW CSDL mô tả Bảng sử dụng làm CSDL mẫu minh họa, giả sử độ hỗ trợ cực tiểu thuộc tính Tuổi, s ố xe máy, Thu nhập, Có gia đình xác định trước cách tương ứng là: 0,15; 0,1; 0,05; 0,2; Ta cỏ bảng sau: Định danh ti h t3 u t5 tó A • r n Ti 60 40 30 25 70 57 Số xe máy Thu nhập (triệu đồng) Có Gia đình 0 ,6 ,0 khơng có có khơng có có 1,5 3,0 4,0 Bảng 16 : CSDL định lượng minh họa thuật toán FUZZY CHARM-NEW a) Đối với thuộc tính Tuổi ta có khái niệm mờ: a) T-trẻ, b) T-trung niên, c) T- già; Sổ xe máy ta có khái niệm mờ: d) X-nhiều, e) X-ít; Thu nhập có khái niệm mờ f) N-cao, N-trung bình, h) N-thấp; Có gia đình có khái niệm mờ: i) G-cỏ, j) G-khơng Khi CSDL định lượng cho chuyển thành ngữ cảnh liệu mờ mơ tả Bảng 16: Hồng Việt Ngun - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ không giống Định danh Tuồi ti 60 ,0 ,0 1,0 t2 tì 40 30 0,5 1,0 0,5 ,75 ,75 ,25 u 25 70 57 ,87 ,44 ,1 ,0 ,0 1,0 ,08 ,28 ,92 ts h a b c Số XM d 0 ,0 1,0 ,6 e Trang 76 f g h 0,6 ,1 ,2 1,0 0,4 6,0 1,0 ,0 ,0 1,0 0,3 ,2 0,4 ,6 ,8 ,2 1,5 3,0 0,0 4,0 Thu Có GĐ i j ,0 1,0 ,0 k c 1,0 ,0 0,5 1,0 c 1,0 ,0 0,5 ,6 ,0 1,0 ,0 ,0 1,0 1,0 ,0 ,8 ,33 1,0 ,0 nhâp k c c Bảng 17 Ngữ cảnh liệu mờ CSDL minh họa b) Giả sử ta chọn ngữ cảnh phát liệu mờ với thuộc tính Tuổi liên kết với khái niệm mờ: b) T-trung niên, thuộc tính s ố xe máy liên kết với khái niệm mờ: d) X-nhiều, Thu nhập: g) N-trung bình, thuộc tính Có gia đình liên kết với khái niệm mờ: i) G-có Ta giả sử ngưỡng cực tiểu khái niệm mờ b, d, g, i tương ứng là: 0,3; 0,1; 0,15; 0,5 Khi ngữ cảnh phát liệu mờ tương ứng xác định bảng 3, o ký hiệu tập định danh: rw i A • Ti b SỐ XM d Thu g CÓGĐ i 0,15 0,3 0,1 0,15 nhập ,1 0,4 ,6 0,05 Í Ị 60 ,0 0 ,0 0,6 ,2 k ,0 t2 40 1,0 ,6 6,0 ,0 c 1,0 tì 30 c 1,0 u 0,5 k ,0 ts ,0 c 1,0 ,0 ,2 1,5 3,0 70 ,0 0,4 0,0 57 ,28 ,8 4,0 c 1,0 Bảng 18 Một ngữ cảnh phát liệu mờ ví dụ minh hoạ h c) 25 ,75 ,44 Đe cho gọn sử dụng chữ B, D, G, I để ký hiệu cho thuộc tính Tuổi, Số xe máy, Thu nhập, Có gia đình\ số i để biểu diễn cho giao dịch thứ i tập định danh Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống Trang 77 Đồ thị biểu diễn khơng giam tìm kiếm tập mục liệu mờ phổ biến theo thuật toán FUZZY CHARM-NEW mơ tả Hình Hình Cây tìm kiếm mơ tả thuật tốn FUZZY CHARM-NEW d) Thuật toán hoạt động sau - Mức đồ thị tập đỉnh có dạng « A ,a > , minSuppA,g(), A thuộc tính {G,B,DJ}> a khái niệm mờ ứng với thuộc tính A ngữ cảnh phát dừ liệu mờ nói trên; g( xác định theo định nghĩa trên, chẳng hạn g() = 234 ngưỡng cực tiểu khái niệm mờ b 0.3 giao dịch thứ 1, 5, thuộc mức không thuộc tập định danh g() Các nút theo thứ tự tăng dần độ hỗ trợ cực tiểu thuộc tính CSDL Do S() = (mg(t,[G]) + mg(t3[G]) + mg(t4[G]) + mg(t6[G]))/6 = (0,2 +0,5 +1,0 +l,0)/6 = 0,45 > 0,05 = minSuppG; tương tự: S() = 0,33 > 0,1 = minSuppD; S() = 0,37 > 0,15 = minSuppB S() = 0,66 > 0,4 = minSuppI tất đỉnh thuộc mức tập mờ phổ biến Tương tự CHARM, CHARM-NEW [3,15] việc tìm tập phổ biến mờ cực đại được thực theo chiến lược tìm kiếm theo chiều sâu khơng gian tìm kiếm theo thứ tự từ trái sang phải theo thứ tự sau: - Bắt đầu íừ nút « G ,g > , 0.05, 1346>: Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kết hợp mờ có độ hỗ trợ khơng giống Trang 78 Xét kết hợp nút « G ,g > , 0.05, 1346> với nút « D , d>, 0.1, 2456>: g() n g() = 46, nên |g() n g()|/||0|| = |g(u)|/||0|| - S( = {mg(t4 [G]) md(t4 [D]) + mg(t6 [G]).md(t6 [D) } / = {1 0,2 + 0,8}/6 = 0,16 > miSuppGD = 0,1 Mặt khác do: g() = 1346 * g() = 2456 , minSuppD < |g()|/||0||, minSuppG < |i(< D ,d> )|/||0||, nên bổ sung « G Đ ,gđ> , 0.1, 46> vào nút đồ thị Xét kết họp nút « G ,g > , 0.05, 1346> với « B , b>, 0.15, 234>: S( = 0,09 < 0,15= minSupp GB nên kết hợp khơng thực Xét kết hợp nút « G ,g > , 0.05, 1346> với « , i>, 0.4, 2356>: S( = 0,25 < 0,4 = minSupp GI nên kết họp không thực Như nhánh với nút gốc « G ,g > , 0.05, 1346> không phát triển tập phổ biến mờ cực đại - Tiếp tục với nhánh có nút gốc « D , d>, 0.1, 2456>: Nhận xét thấy S() = {md(t2 [D]) mb(t2 [B]) + md(t4 [D]) mb(t4 [B ] } / = {0,6 1,0 + 0,2 0.44}/6 = 0,11 < 0,15 = minSuppDB nên kết hợp nút « D , d>, 0.1, 2456> với nút « B ,b > , 0.15, 234> không thực Tương tự S() = (0,6 + 0,4 + 0,8)/6 = 0,3 < 0,4 = minSuppDI nên kết hợp nút « D , d>, 0.1, 2456> với nút « I ,i> , 0.4, 2356> khơng thực Hồng Việt Ngun - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát luật kêt hợp mờ có độ hơ trợ khơng giống Trang 79 Nói cách tập phổ biến mờ khơng phát triển từ nhánh có nút gốc « D d> 0.1, 2456> - Thực tương tự thuật tốn FUZZY CHARM-NEW cho nhánh cịn lại Kết cuối nhận được: tập phổ biến cực đại với độ hồ trợ S() = 16 ( độ hỗ trợ cực tiểu tương ứng , ); tập phổ biến cực đại với độ hỗ trợ S() = 0,37 (độ hỗ trợ cực tiểu tương ứng 0,15); tập phổ biến cực đại với độ hỗ trợ S() - 0,66 (độ hồ trợ cực tiểu tương ứng 0,4); IV.4 Nhận xét - Đánh giá Thuật tốn FUZZY CHARM-NEW cho phép tìm tập mục liệu mờ cực đại có độ hơ trợ lớn độ hô trợ cực tiểu không giống cho tập thuộc tính từ CSDL định lượng bắt kỳ Thuật toán phát triển từ thuật tốn CHARM-NEW tìm tập phổ biến đóng có độ hỗ trợ cực tiểu không giống từ CSDL nhị phân (hay tác vụ) hình thức FUZZY CHARM-NEW giống CHARM-NEW tìm tập tập phơ biên đóng có độ hỗ trợ cực tiểu khác từ CSDL nhị phân; FUZZY CHARM-NEW phức tạp CHARM-NEW chủ yếu việc tính |i()| trình tìm kiếm tỉa bớt tập khơng phải phổ biến mờ Bởi tinh đăn phức tạp có thê chứng minh thực ước lượng thơng qua thuật tốn CHARM-NEW, thực chất cuối qua CHARM Độ hỗ trợ cực tiểu tập thuộc tính theo Định nghĩa độ hỗ trợ cực tiểu thuộc tính thuật tốn CHARM-NEW trở thành thuật tốn CHARM tìm tập phổ biến đong co đọ ho trợ cực tiêu chung từ CSDL nhị phân Ta thấy thuật toán FUZZY CHARM-NEW trở thành thuật toán CHARM-NEW CSDL định lượng suy biến thành sở liệu nhị phân Hồng Việt Ngun - Luận văn ThạcSĩ-Khoa Cơng nghệ ĐHQG Hà Nội Phá, luật kế, hạp m có đọ h ê trạ khơng giống Trang 80 KÉT LUẬN Các kêt đại luận văn: , , n r r tì n h ,iến hành :!!'! “ cứu hệ thỐ"S hóa ^ !chvàm ột r kết ĩ cáchchínhp sau: cận mĨi phát luật kê' bày th vín dề tốn N " I hồn hành rin! m! l : ố m i niệm vấn đề Phát h* « luật kết hạp, ca sả lý ™ ,th r p^!nIuậtkéthọp ^^ X ig z Z i T ĩĩ:ĩ:hbz ‘huật ,0“ " * * ^ h giá ban đầu thuật toán CHARM ACLOSE “ » I phí VàyvL ĩxiri?rỉ cácm ụcđữ,iệucođộqua"^ «0 h ii! iit ™.gian8ần%đưara”*°ố í r qufj đỉnả"!!■Ràngbu;cđộhỗtrợ’

Ngày đăng: 23/09/2020, 22:43

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đỗ Văn Thành, Phạm Thọ Hoàn. Một cách tiếp cận nghiên cứu phát hiện tri thức trong các Cơ Sở dữ liệu - Trợ giúp quyết định, Hệ mờ-Mạng Nơ tron và ứng dụng, Biên tập: Bùi Công Cường và.. , NXB Khoa học-Kỹ thuật, 7/ 2001 được tuyến chọn từ Tập các Báo cáo Khoa học Trường thu: Hệ mờ và ứng dụng, Hà nội tháng 8 / 2000 Sách, tạp chí
Tiêu đề: Hệ mờ-Mạng Nơ tron và ứng dụng, Biên tập: Bùi Công Cường và.. , NXB Khoa học-Kỹ thuật," 7/ "2001 được tuyến chọn từ Tập các Báo cáo Khoa học Trường thu: Hệ mờ và ứng dụng, Hà nội tháng 8"/
Nhà XB: NXB Khoa học-Kỹ thuật
[3].Đỗ Văn Thành và cộng sự. Phát hiện luật kết hợp mờ với độ hỗ trợ không giống nhau, Báo Cảo Khoa học Hội nghị FAIR lần thứ nhất, ĐHQG Hà Nội, 5-6/10/2003 [4]. Phan Đình Diệu. Lô gíc trong các hệ trị thức. ĐHQG Hà Nội, 1999.Tiếng Anh Sách, tạp chí
Tiêu đề: Phát hiện luật kết hợp mờ với độ hỗ trợ không giống nhau, Báo Cảo Khoa học Hội nghị FAIR lần thứ nhất, ĐHQG Hà Nội, 5-6/10/2003
[9] fayyad U.M., Platstsky-Shapiro G., Smyth p., and Uthurusamy. From Data Mining to Knowledge Discovery. Advances in Knowledge discovery and DataMining, , edited by the same authors, AAAI Press/The MIT Press, page. 1-34,1996 Sách, tạp chí
Tiêu đề: Advances in Knowledge discovery and DataMining, , edited by the same authors
[10] Han,J., and Fu,Y. Attribute-Oriented Induction in Data Mining. Advances in Knowledge discovery and DataMining, , edited by Ư.M. fayyad, G.Platstsky- Shapiro,P.Smyth, and Uthurusamy, AAAI Press/The MIT Press, page 399- 421,1996 Sách, tạp chí
Tiêu đề: Advances in Knowledge discovery and DataMining, , edited by Ư.M. fayyad, G.Platstsky- Shapiro,P.Smyth, and Uthurusamy
[16] N. Pasquier, Y. Bastide, R. taouil, and Lotfi Lakhal. Discovering Frequent itemsets for Association rules. In 7th Inter. Conf. on Database Theory, 1999 Sách, tạp chí
Tiêu đề: In 7th Inter. Conf. on Database Theory
[2]. Đô Văn Thành và cộng sự. Phát hiện luật kêt hợp với độ hô trợ không giống nhau, Báo Cáo Khoa học kỷ niệm 5 năm thành lập Khoa Công nghệ, ĐHQG Hà nội, thảng 2/2002 Khác
[7] Bayardo R.J., Efficiently mining long patterns from Databases. In ACM SIGMOD Conf. Management of Data, 1998.[ 8 ] Chun Hing Cai. Mining Association Rules with Weighted Items, Thesis, Chinese University of HongKong, page 30 - 75, 1998 Khác
[11] Ke Wang, Yu He, Jiwei Han. Mining Frequent Itemset Using Support Constraints. Proceedings o f the 26th VLDB Conference, Cairo, Egypt, 2000 Khác
[12] ICe Wang, Yu He, Jiwei Han. Pushing support constraints into frequent itemset mining. School o f Computing, National Univer. O f Singapore, 2000 Khác
[13] Lin D.I. and Kedem z.. M.; Pincer Search: A new algorithms for discovering the maximum frequent set. In 6 th Int. Conf. On Database Theory, 1997 Khác
[14] Lin D.I. and Dunham M.H.; Mining Association Rules: Anti-Skew algorithms. In 14th Int. Conf. On Data Engineering, 1998 Khác
[15] Mohamet J.Zaki, Charm: An efficient algorithm for Close asociation rule mining. Computer science departement Rensselear polytechnic Institute, Troy NY12180 Khác
[17] Zaki, M. J. and Ching-Jui Hsiao. CHARM: an efficient algorithm for closed association rule m ining., 2000. In Htttp//www.cs.rpi.edu/~zaki Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w