Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 93 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
93
Dung lượng
35,72 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI T RƯ Ờ NG Đ Ạ• I HỌ • C CƠNG NGHỆ • Pham Thi • H oa Nam • KHAI PHÁ DỮ LIỆU LUẬT KẾT HỢP MỜ VÀ ỨNG DỤNG CHO BÀI TOÁN KHAI PHÁ D LIỆU CƯỚC INTERNET Ngành : Công nghệ thông tin Ma số: 1.01.10 LUẬN VĂN THẠC s ĩ NGƯỜI HƯỚNG DÃN KHOA HỌC: PGS.TS NGUYỄN THANH THUY Hà Nội - 2007 MỤC LỤC LỜI CẢM Ơ N MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Mục tiêu khai phá liệu 1.1.2 Định nghĩa khai phá liệu 1.1.3 Các dạng liệu khai phá liệu.[l][3] 1.1.4 Quá trình khai phá liệu 1.1.4.1 Các bước q trình khai phá 1.1.4.2 Các thành phần giải thuật khai p h 1.1.4.3 Hướng tiếp cận bàn kỹ thuật áp dụng trình khai phá 10 1.1.4.4 ứng dụng khai phá liệu 11 1.2 Phương pháp khai phá liệu 12 1.2.1 Một số phương pháp khai phá liệu phổ biến [1][3] 12 1.2.1.1 Cây định luật 12 1.2.1.2 Phương pháp suy diễn quy nạp .12 1.2.1.3 Phát luật kết hợ p 13 1.2.1.4 Phân nhóm phân đoạn 14 1.2.1.5 M ạngnơron 15 1.2.1.6 Giải thuật di truyền .16 1.2.2 Phân loại hệ thống khai phá liệu 16 1.2.3 Những vấn đề quan tâm hệ thống khai phá liệu lựa chọn kỹ thuật khai phá 17 Chương KHAI PHÁ DỮ LIỆU BẢNG LUẬT KẾT HỢP 20 2.1 Ý nghĩa ỉuật kết hợp[5] .20 2.2 Phát biểu toán [1][5] 21 2.3 Một số khái niệm pha thực hiện.[3][4][5] 22 2.4 Một số tính chất tập mục phổ biến luật kết hợ p 24 2.4.1 Một số tính chật tập mục phổ biến 24 2.4.2 Một số tính chất luật kết hợ p 25 2.4.3 Cácloại luật kết họp [5][6][8] 26 2.5 Các thuật toán khai phá liệu nhờ luật kết hợp 27 2.5.1 Khai phá luật kết hợp nhị phân đơn chiều tò sở liệu tác v ụ 27 2.5.1.1 Thuật tốn Apriori tìm tập mục phổ biến sử dụng phương pháp sinh ứng cử [5] 27 2.5.1.2 Nâng cao hiệu thuật toán Apriori [7][8][9] 33 2.5.1.3 Thuật tốn sinh luật kết hợp tị tập mục phổ biến 35 2.5.1.4 Khai phá tập mục phổ biến không sinh ứng cử [3 ] 38 2.5.2 Khai phá luật ket hợp định lượng [6] .44 2.5.3 Khai phá luật kết hợp đa mức [6] 45 2.5.3.1 Luật kết họp đa m ức 45 2.5.3.2 Các cách tiep cận khai phá luật kết hợp đa m ức 45 2.5.4 Khai phá luật kết hợp đóng .46 2.5.4.1 Tập mục phổ biến đóng 47 2.5.4.2 Sinh luật! 50 2.5.4.3 Thuật toán CHARM [8] 51 Chương KHAI PHÁ DỮ LIỆU BANG LUẬT KÉT HỢP M Ờ 54 3.1 Khái niệm tập mờ (Fuzzy Sets), logic mờ hệ mờ .54 3.1.1 Tập mờ [2], .54 3.1.2 Các phép toán tập mờ [2] .56 3.1.2.1 Phép phủ định 56 3.1.2.2 Phép hội ’ 56 3.1.2.3 Phép tuyển 57 3.1.2.4 Luật De Morgan 57 3.1.2.5 Phép kéo theo 57 3.1.3 Áp dụng tập mờ để rời rạc hóa liệu ưu điểm 58 3.2 Các luật kết hợp mờ [3] [11] 59 3.3 Các thuật toán khai phá luật kết hợp mờ 63 3.4 Luật kết hợp mờ dạng phủ định 68 3.5 Luật kết hợp mờ với thuộc tính đánh trọng số[5][6][11] 68 3.6 Tìm luật thật có ích [3] .69 3.6.1 Phương pháp dùng quy luật loại bỏ luật thừa 69 3.6.2 Phương pháp tìm luật đơn giản 70 3.6.3 Phương pháp tìm luật lạ dựa tri thức biết 70 3.6.4 Chuyển iuật kết hợp mờ luật kết hợp thuộc tính s ố 72 Chương ỨNG DỤNG LUẬT KẾT HỢP MỜ CHO BÀI TOÁN KHAI PHÁ DỮ LIỆU CƯỚC INTERNET 74 4.1 Nguồn liệu cuớc Internet 74 4.2 Cài đặt hệ thống khai phá liệu cước Internet 75 4.2.1 Các bước tiến hành xây dựng hệ thống khai phá liệu cước Internet 75 4.2.2 Giao diện hệ thống khai phá liệu cước Internet 80 4.2.2.1 Hệ thống hàm chuẩn 80 4.2.2.2 Mờ hoá liệu sinh luật kết hợp m 81 4.2.2.3 Tìm luật có ích 87 KẾT LUẬN 89 LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn sâu sắc đến thầy giáo, cán hướng dẫn khoa học PGS.TS Nguyễn Thanh Thủy, người truyền cho cảm hứng đề tài, phương pháp nghiên cứu khoa học, giảng dạy, bảo hướng dẫn tận tình suốt thịi gian qua Tơi xin bầy tỏ lịng biết ơn sâu sắc đến tất thầy cô giáo Trường Đại học Công nghệ, Viện công nghệ thông tin giảng dạy, truyền đạt cho kiến thức suốt năm qua Cuối xin chân thành cảm ơn bạn học viên lớp K10T3, đồng nghiệp, gia đình giúp đỡ, động viên tơi suốt thời gian qua Hà nội, ngày 23 tháng 10 năm 2007 Học viên I Pham Thi• Hoa Nam • DANH MỤC CÁC HÌNH VẼ, ĐỊ THỊ Ví dụ FP-tree với minsup=20% Mơ hình vận hành hệ thống (theo quy trình đấu nối khai thác dịch vụ) Mơ hình tổng quan hệ thống khai phá liệu: Mơ hình sở liệu quan hệ Loại hàm thuộc Hàm thuộc tham sổ cho hàm thuộc Tập mờ thuộc tính gốc n ó Giao diện thực Mờ hoá liệu sở liệu cước gốc Cơ sở liệu sau thực mờ hoá Sinh tập phổ biến sử dụng tốn tử T-norm - Tích đại sổ Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy Sinh tập phổ biến sử dụng toán tử T-norm - Tích bị chặn Sinh tập phổ biến sử dụng tốn tử T-norm - Tích Drastic Sinh tập phổ biến sử dụng toán tử T-norm - Phép giao Sinh tập luật mờ từ tập phổ biến Diễn giải luật Sinh tập luật luật phủ đ ịn h 40 74 77 79 80 80 81 81 82 82 83 83 84 84 85 85 Sinh luật kết hợp với thuộc tính đánh trọng số 86 86 Tìm luạt lạ dựa tri thức biết Tìm luật đom giản Loại bỏ luật thừ a 87 87 88 M Ở ĐẦU Trong năm gần đây, vấn đề nhà khoa học quan tâm nghiên cứu khai phá liệu mà nội dung chủ yếu phát thơng tin có tính trí tuệ kho tàng liệu, tính ứng dụng cao thực tiễn sống Khai phá liệu thường đôi với phát tri thức Trong phát triển mạnh mẽ cơng nghệ máy tính điện tử, việc ứng dụng phổ biến lĩnh vực quản lý, lĩnh vực hoạt động cần có nhiều thơng tin tri thức Trong phát triển xã hội mà yếu tố khoa học cơng nghệ có tính định nhu cầu trở nên ngày to lớn dẫn đến việc tràn ngập thông tin nhà quản lý đứng trước tĩnh trạng phải đối mặt với việc lụt “thơng tin” Ví dụ Hệ thống vệ tinh cùa NASA trung bình phải tạo 50 Gb liệu ảnh, thị trường giao dịch chứng khoán thực khoảng 20 triệu giao dịch liệu ngày, Chính nhà khoa học cho sổng xã hội giàu thơng tin nghèo tri thức Vì địi hỏi phải nghiên cứu phát triển phương pháp khai phá, phát thơng tin, tri thức hữu ích bị che giấu đống “dữ liệu” để phục vụ công việc nhà quản lý, chuyên gia, chuyên viên M ục tiêu toán khai phá liệu tìm thơng tin, tri thức (những mối quan hệ hay phụ thuộc đại lượng (các biến) kho tàng liệu (về lĩnh vực đó) Chúng ta dễ dàng nhận thấy, người dù người nước tư ngôn ngữ tri thức đầu người biểu thị qua ngôn ngữ Vì ngơn ngữ hàm chứa thơng tin mờ việc ứng dụng phương pháp luận mờ ừong việc biểu diễn, xử lý, xây dựng hệ tri thức tự nhiên thực vào giải vấn đề cách chất Chính mơ hình mờ (fuzzy) sừ dụng để mơ phỏng, phản ánh, giải tốn liên quan đến khía cạnh định tính tri thức Luật kết hợp mờ phương pháp khai phá liệu có hiệu có tính ứng dụng cao Hướng nghiên cứu “Khai phá liệu luật kết hợp mờ” xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu luật kết họp mờ năm gần số hội nghị quốc tế, số báo cơng bố tạp chí chun ngành, Internet Nội dung luận văn gồm chương sau: Chương 1: Tổng quan khai phá liệu Chương trình bày khái quát khai phá liệu, phương pháp khai phá, lĩnh vực ứng dụng Chương 2: Khai phá liệu luật kết họp Chương trình bày phương pháp khai phá liệu luật kết hợp từ thuật toán đến thuật tốn cải tiến Đồng thời trình bày số vấn đề luật kết họp đa mức, định lượng, đóng Chương 3: Khai phá liệu luật kết hợp mờ Chương trình bày khái niệm tập mờ, phép toán tập mờ, luật kết hợp mờ, cách tìm kiếm luật thực có ích Chương 4: ứ n g dụng luật kết hợp mờ cho toán khai phá liệu cước Internet Trong chương trình bày tốn, xác định nhiệm vụ khai phá liệu, phân tích thiết kế mơđul, giao diện chương trình Chương trình xây dựng với mục đích thử nghiệm để đánh giá kết C h n g TỔNG QUAN VÈ KHAI PHÁ D Ữ LIỆU 1.1 Khái niêm 1.1.1 Mục tiêu khai phá liệu Trong thập niên gần đây, lượng thông tin lun trữ thiết bị khơng ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta dự đốn rằng, lượng thơng tin tồn cầu tăng khoảng gấp đơi sau hai năm đồng thời số lượng kích cỡ sở liệu tăng lên nhanh chóng Trong lĩnh vực kinh doanh, nhà quản lý ngập liệu việc tìm tri thức thơng tin hữu ích lại khó Lượng liệu khổng lồ thực trở thành nguồn tài nguyên giá trị thông tin yểu tố then chốt hoạt động thương mại thơng tin ợ giúp người điều hành nhà quản lý có nhìn sâu sắc, xác, khách quan trước định Việc khai thác thông tin tiềm ẩn mang tính dự đốn từ sở liệu lớn mục tiêu khai phá liệu - hướng tiếp cận với khả giúp đơn vị, tổ chức trọng vào thơng tin có giá trị, ý nghĩa từ tập bợp liệu lớn mang tính lịch sử Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu khiến có ưu hẳn so với phân tích thơng thường dựa kiện khứ hệ hỗ trợ định truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Với tất ưu trên, khai phá liệu chứng tỏ tính hữu dụng mơi trường kinh doanh, quản lý phức tạp ngày Giờ khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức Phạm vi ứng dụng ban đầu khai phá liệu lĩnh vực thương mại tài Nhưng ngày nay, khai phá liệu ứng dụng rộng rãi lĩnh vực khác như: sinh học, y học, viễn thông, giáo dục, ngân hàng, 1.1.2 Định nghĩa khai phá liệu Có thể hiểu sơ lược khai phá liệu trình tìm kiếm thơng tin hữu ích, tiềm ẩn mang tính dự báo sở liệu lớn Như vậy, q trình cịn gọi khám phá tri thức Nhiều nhà khoa học đồng ý với hai thuật ngữ khám phá tri thức khám phá liệu tương đương với thay cho Vì họ lý giải mục đích q trình khám phá tri thức thơng tin có ích, đối tượng mà xừ lý nhiều trình lại liệu Mặt khác, chia bước trình khám phá tri thức, nhiều nhà khoa học khác cho khám phá liệu bước trình khám phá tri thức 1.1.3 Các dạng liệu khai phá Iiệu.[l][3] Có nhiều dạng liệu khác áp dụng phương pháp khai phá liệu Sau liệt kê số loại sở liệu phổ biến: Cơ sở liệu quan hệ (relational database): sở liệu tác nghiệp tổ chức theo mơ hình liệu quan hệ Hầu hết hệ quản trị sở liệu hỗ trợ dạng sở liệu như: Oracle, IBM DB2, MS SQL Server, MS Access, Cơ sở liệu đa chiều (multimension structures, data warehouses, data mart): kho liệu tập hợp, chọn lọc từ nhiều nguồn liệu khác Dạng liệu mang tính lịch sử (tức có tình thời gian) chủ yếu phục vụ cho trình phân tích khai phá tri thức nhằm hỗ trợ cho việc định Cơ sở liệu dạng giao dịch (transactional databases): dạng sở liệu tác nghiệp ghi thường giao dịch Dạng liệu thường phổ biến lĩnh vực thương mại ngân hàng Cơ sở liệu quan hệ - hướng đổi tượng (object-relational databases’): dạng sở liệu lai hai mơ hình quan hệ hướng đối tượng C s d ữ liệu không gian vù thời gian (spatial, tem poral a n d tim e-series data): dạng liệu có tích hợp thuộc tính khơng gian (ví dụ liệu đồ) thời gian (ví dụ liệu thị trường chứng khoán) Cơ sở liệu đa phương tiện (multimedia databases): dạng liệu âm (audio), hình ảnh (image), phim ảnh (video), Text W W W , Dạng liệu phổ biến Internet 1.1.4 Quá trình khai phá liệu 1.1.4.1 Các bước q trình khai phá Q trình khai phá liệu thực bước sau: Xác đinh nhiệm vụ: Xác định xác vấn đề cần giải Xác định liệu liên quan : dùng để xây dựng giải pháp giải nhiệm vụ tốn Thu nhập liệu có liên quan với xừ lý chúng thành dạng đỏ cho giải thuật khai phá liệu hiểu Chọn thuật tốn khai phá liệu thích hợp thực việc khai phá nhằm tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa 1.1.4.2 Các thành phần giải thuật khai phá Quá trình khai phá liệu q trình phát triển mẫu giải thuật khai phá liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định luật, phân lớp, hồi quy, phân nhóm , Giải thuật khai phá liệu gồm thành phần chính: Biểu diễn mơ hình Mơ hình biểu diễn ngơn ngữ cho khai phá Nấu mơ hình có mơ tả hạn chế khơng thể học khơng thể có mẫu tạo Nếu diễn tả mơ hình lớn làm tăng mức độ nguy hiểm bị học nhiều làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trờ nên phức tạp việc giải thích mơ hình khó khăn Tích bị chặn Tích Drastic Phép giao Sinh tập luật: Luật kết hợp mờ Luật phủ định Luật kết hợp với thuộc tính đánh trọng số Tìm luật có ích: gồm Loại bỏ luật thừa Sinh luật lạ từ tập tri thức biết Luật đơn giản Luật kết hợp thuộc tính số 78 4.2.3 Mơ hình sở liệu chương trình khai phá liệu cước Internet C SD L cước CSDL Khách hàng Account N gày cập nhật Em ail Đ ịa Loại dịch vụ A ccount Starttim e Stoptim e B ytes in B ytesout Packets in Packetsout A cctsesiontim e Datevaiue Typeprice chot Hàm thuộc Loại hàm thuộc M ã loại hàm thuộc ■■ ' Tên loại hàm thuộc M ã hàm thuộc ■1 W Tên hàm thuộc Tham số hàm thu Thuộc tính mờ hóa STT G iờ kết nối Thời gian kết nối Số gói tin tải Số gói tin truyền CSDLmở STT Ặv ThúỌc tỉnh mờ Giá tri T ậ p lu ậ t ặ Ị p p n o Dien rạp priồ bicn Độ hỗ trợ Độ tin cậy Hình STT T ập luật Đ ộ hồ trợ Đ ộ tin cậy Tập mờ STT Tập m Tri thức biết STT Tập tri thức Tập luật CĨ ích STT Tập luật có ích Mơ hình sở liệu quan hệ 79 4.2.4 Giao diện hệ thống khai phá liệu cước Internet 4.2.4.1 Hệ thống hàm chuẩn Hình Loại hàm thuộc Danh sách hàm thuộc • Mã hàm thuộc Hình Tên hàm thuộc Mồ tả hàm th u ộ c ' :: Hàm thuộc tham số cho hàm thuộc 80 Hình Tập mờ thuộc tính gốc 4.2.4.2 Mờ hố liệu sinh luật kết hợp mờ ^ '%:#•.ffi-■ ■ỂẾ1; ■ Tập mờ ■Tính chât (Ve cùa luật) • v ế trái •• Ve phải ■ Thưọc tình mo' Thuốc tinhgốc vế trái & ve phải :rĩl— Số ghi thuc hiên mờ hoả ( |£ ỉ^ S B ịỊ Ị Ị |i — Mã hamthuọc fiTffHTTTiTnflMi g?c?»MWMWMM E E S H S E jeS h Q SĩB B B iB É M I S o b a i l SỈ11 t r o n g C S D L g ố c III I l l ' l l ' ! Kerri d ũlièu a c e Hình Ĩ lv.It h en me? hủố I Xem i M i i n s a g p a a tnờ Giao diện thực Mờ hoá liệu sờ liệu cước gốc 81 Hình Cơ sở liệu sau thực mờ hoá Sinh tập phổ biến từ C O ’sở liệu m Hình 10 Sinh tập phổ biến sử dụng toán tử T-norm - Tích đại số 82 Hình 11 Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy ĩạv;IM DCôW !ã mmmMw S m S m .*ã L-w-iiiLi■' ■ m 'ỊắầỂấắ-ị ■••• •••••* Hình 12 Sinh tập phổ biến sừ dụng tốn tử T-norm - Tích bị chặn Hình 13 Sinh tập phổ biến sử dụng tốn từ T-norm - Tích Drastic Hình 14 Sinh tập phổ biến sử dụng toán tử T-norm - Phép giao 84 Sinh luật từ tập phổ biến Tâp luât Độ hỗ trợ (fminsupp % ) : Ợ Xập luật mờ H W * Luật phủ địứh i i Danh sách tất luật ® L iiậ tk ế th ọ p vói ứiuoc tínli dứ-ỵc đánh trọng số Đ ộ tui cầy (&runconf%) i M ••• P D anh sách tắt cầ tạp t i e r r Tập laạt - V ĩ>ộ till c ậ y ; Đ ộ h o trợ C1 11 -1 mX Ịf _ ỊyỊ r 11,r «♦-—v rn UJ.nIJ 1n U.U F4, F7 =>7l ““ ; 63.13 11.09 F10,F7 => F1 i 63.13 11.09 F11ịF7=>F1 63.13 10.02 F4=> F1 “ 63.13 30.66 F7 => F1 63.13 11.09 F10 => F1 63.13 11.19 F11 => F1 63.13 10.02 F1 =>F4 48.57 30.66 63.13 11.19 F10.F4 => F1 tó? T ập tiiuộc: tỉnh F1.F11.F4 F1.F4.F7 I f 10.F4.F7 IF 11 F4.F7 F1(Fiq,F7 IF1.F11.F7 I.F4.F8 ,Độ h o trợ 15.87 17.57 17.57 15.87 17.57 15.87 ’C ác tập mi' ; ■Thuộc tẾrili m :, XM ô tả ■ L J [Tap mo cua thoi dlem ketỊỄ] _ £ - J Tap mo cua Khoang thoi d F4 ,_J Tap mo cua khoang thoi d “ £ « J Tap mo cua khoang thoi si Tap mo cua gol tin tai ve H F7 Tap mo cua goi tin tai ve tjj F8 J Tap mo cua goi tin tai ve H 1 7ủ-j '59WINDOW! 'Diễn gịẫilũât! Thoi gian ket noi trung binh, So luong Goi tin tai ve trung binh => Gio cao diem So luong goi tin truyen di trung binh, So hiong Goi tin tai ve trung binh => Giũ cac Sũ luong gũi tin truyen di lon, So luong Goi tin tai ve trung binh => Gio cao diem Thoi gian ket noi trung binh => Gio cao diem So luong Goi tin tai ve trung binh => Gio cao diem So hiong goi tin truy en di trunq binh => Gio cao diem So juong goi tin tmyen di trung binh Thoi gian ket noi trung binh => Gio cao dien Hình 16 Diễn giải luật 85 Hình 17 Sinh tập luật luật phủ định V d ' h >• lfp' tcM È tía lổ J I I P F1 F10.F8 => F1 F10,F8=>F4 F ÌÌ|F 8= >n F11,F8 => F4 F1fF10=>F4 F1.F11 =>F4 F1 => F10.F4.F7 F1 => F11.F4.F7 F4=> F1.F10.F7 F4=> F1.F11.F7 F1 => F10.F4.F8 F1 => F11.F4.F0 F4 => F1.F10.F8 F4=> F1.F11.F8 F10,F7=> F1.F4 F11.F7 => F1.F4 F10.F8 => F1.F4 Danh sách tất các.tập biển Đọ tin cây! Đỗ hỗ tr} 63.13 9.76 I 48.57 7.51 - j 8.61 ỊẬ 48.57 7.71 48.57 ™ ĨT 09 11 17.57 10.02 g l 15.87 17.57 ■“1 F 15.87 7.71 15.46 9.76 9.76 ~n 15.46 7'õĩ ỊBỊ 15.46 7.51 15.46 48.57 8.53 p 7.71 48.57 48.57 _ -51 - i ip f Tập thuộc tính ; : Độ hỗ trợ C ác tập mờ Thuôc tirihitK' Tap mo cua thoi dlem ket]j ỉ F2 F3 Tap mo cua khoang thoi cj F4 Tap mo cua khoana thoi dji Tap mo cua khoang thoi SỀ F5 Tap mo cua goi tin tai V8 rfl I F6 Tap mo cua gol tin tal ve till I F7 Tap mo cua goi tin ỉal ve 1$ F8 * Hình 18 Sinh luật kêt hợp với thuộc tính đánh trọng sơ 86 4.2.4.3 Tìm luật có ích '• ' T a p l u ậ t • Đ o HỖ trợ (% ) T ìm h ệ t men lạ ĩMÊÊÊÊÊm 4* ' Đ o n g ià n : M lM M R (B o tu ố t t h a ) ': L u â t k ế t h o p th u c tín h D ó txn c â y -' \ |n = : F p p 30 ■: ■ H H ( I B I tim - H m E [4 1Luật m ói lạ • V - :T ' •' '■ - w m fc Hình 19 Tìm luật lạ dựa tri thức biết ■20 0.5 9 3 7 9 1 s g |F11,F0=> F1.F4 So luong goi tin ừuyen di lon, S o luong Gol tin ta Ị Ịf 1D,F7 => F1.F4 8.56959156033' ịf>.; |F10,F7= > F1.F4 So luong gol tin truyen dl trung binh, S o luong |F11.F7 => F1.F4 59156033 ịịt | f i i ,F7= > F1.F4 So luong goi tín truyen di lon, So luong Ool tin ỉa =>F1 ,F4 59156033 ô l i |F F = > F F So luong gol tỉn truyen di trung binh, o luong G F11.F0 => F1.F4 59156033 |F 1 F = > F F So luong goi tin truyen đl lon, So luong ỡ o l tin taịỊ F4 => F Ỉ 63.12844821441 4 4 |§ “ |F4 => F1 Thoi gian k e t nol trung binh => Glo cao đlem ỊF7 -> F1 63.12844621441 4 4 |g F7=>F1 S o luong Goi tin tai ve trung binh => Gio cao die ị ỈF8=> F1 63.12844821441 4 4 |jg F = > F1 S o luong ỡ o i tin tal ve lon => Glo cao diem |f i o = > f i 63.12844821441 63 4 4 ® |F = > F1 So luong goi tin truyen trung binh => Oio cao F11 =* F1 63.12844621441 3.1284482144 i l l F11 = » F So luong goi tin truyen di lon => ỗ lo cao diem F1 => F4 9 ? 48 9 ^ F1 «> F4 Olo cao d iem => Thoi gian ket nol trung binh ỈF - > F4 48.5 9 3 9 3 ^ [F7 => F4 So luong Goi tin tai ve trung binh => Ttìol Qlan k j |F0"=>F4 959156033 48 9 3 $ $ [F8 => F4 So luong Goi tin tai ve lon => Thoi gian ket noi trj Ịf Ĩ ổ => F4 959156033 9 3 s |F = > F So luong gol tin truyen dl trung b in h ->Thoi gia [F11 => F4 959156033 9 3 ^ [Fiji => F4 So luong gol tin truyen ỚI lon => Thoi gian ket n d F10.F8 Hình 20 Tìm luật đơn giản 87 13MMR(BỊ luật thừa) * lìm luật ĩnciỉạ Đ ộ ho trc»(%) £ Luất kết liọp ứíUỘc tính số Đo hn cậy (%) 48.5 9 3 B.53335422461 9 3 7.507995411201 Glo cao dlem , Thoi g ian ket nol trung binh => Si 48.5 9 3 0.60801755140; Qlo cao dlem , Thoi g ian ket nol trung binh 59156033 7.706248251121 Qlo cao dlem , Thoi g ian ket nol trung binh => S( 17.5 3 9 11.09124851491* ỊQIo cao dlem , Thũl g ian ket nol trung binh => s< 3 9 8.53335422461 Glo cao diem , So luong Goi tin tai ve trung binh 15.4582222539D 9.75853583042: Giũ cao diem So luong Ool tin tal ve lon => Tho 15.4 2 2 7 9 1 2DÍ ISO luong gol tin truyen dl trung bỉnh => Qio cao 17.7 7 0 11.1882923608: So luong gol tin truy en dỉ trung binh => Thoi giai 17.72305937700] 8.60801755140; So luong QQl tin truy en di trung binh, Thoi plan 6 3 10.01621545531 So luong gol tin truyen dl trung binh, So luong 6 3 7.706248251121 So luong gol tin ừưyen di trung binh, So luong 48.5 9 3 8.53335422461 So luong goi tin truyen dí trung bính, S o luong 48.5 9 3 7.50799541120! [So luong gol tin truyen dl trung binh, o luong 0,F8 => F1 ,F4 48.569591560 3 5 fi Ketn luật Xoa luật I s o luong gol Mn truyen dl trung binh, o luong Q pỹl Thối Hình 21 Loại bỏ luật thừa 88 K ẾT LUẬN Những vấn đề tìm hiểu giải luận văn Với cách tiếp cận dựa đề xuất có lĩnh vực nghiên cứu khai thác liệu, luận văn tổng hợp nét khai phá liệu nói chung khai phá luật kết họp mờ nói riêng Sau vấn đề luận văn tập trung giải Trong chương 1, luận văn trình bày cách tổng quát khai phá liệu - cụ thể định nghĩa, mục đích nghiên cứu khai phá liệu Chương phát biểu toán khai phá luật kết hợp Bên cạnh việc phát biểu tốn, chương cịn đề cập đến tính chất số thuật tốn khai phá luật kết hợp thuật toán Apriori nhị phân để tìm tập phổ biến Mục tiêu chương trình bày tất khái niệm bán toán khai phá luật kết hợp mở rộng toán Chương tập trung luật kết hợp mờ, định lý tính chất logic mờ Điểm quan trọng chương nêu ý nghĩa cùa luật kết hợp mờ phép kéo theo logic mờ Luận văn nêu lên cách sử dụng phép tính cho tốn tị Tnorm ưu điểm áp dụng tập mờ để rời rạc hoá liệu Phần IĨ1Ơ tả chi tiết thuật tốn tìm luật kết họp mờ dựa thuật tốn Apriori Trong chương đề xuất số phương pháp tìm luật kết hợp thực có ích luật kết hợp mờ với thuộc tính trọng số, phương pháp dùng quy luật loại bỏ luật thừa, phương pháp tìm luật đon giản, phương pháp tìm luật dựa tri thức biết làm bật ưu điểm luật kết hợp mờ cần chuyển dạng luật kết hợp thơng thường cách dễ dàng 89 Công việc nghiên cứu tương lai Khai phá luật kết hợp tốn nhiều nhà nghiên cứu quan tâm ứng dụng rộng rãi nhiều lĩnh vực có nhiều hướng mở rộng khác Trong luận văn này, chọn hướng nhỏ để nghiên cứu Trong thời gian tới, mở rộng nghiên cứu số hướng sau: Khai phá mẫu phổ biến mà không cần phát sinh ứng cử viên Trong nghiên cứu đề cập đến cấu trúc gọi cấu trúc Frequent Pattern (FP-tree), cấu trúc tiền tố mở rộng để lưu trữ cô đọng thông tin chủ yếu mẫu phổ biến phát triển khai phá dựa FP-tree hiệu FP-Growth để khai phá tập đầy đủ mẫu phổ biến cách tăng chiềudài mẫu.Hiệu việc khai phá thực với kỹ thuật sau: Thu gọn sở liệu lớn nhằm giảm chi phí lặp lại q trình duyệt sở liệu Khai phá dựa FP làm theo phương pháp gia tăng độ phân mảnh mẫu để tránh chi phí phát sinh số lượng lớn tập ứng cử Phương pháp phân chia để tách công việc khai phá thành tập công việc nhỏ để khai phá mẫu có ràng buộc sở liệu có điều kiện 90 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt Nguyễn Thanh Thủy (8-2001), Khai phá liệu —Kĩ thuật ứng dụng, Hà Nội Bùi Công Cường, Nguyễn Doãn Phước (2001), Hệ mờ, mạng nơron ứng dụng, Nhà xuất Khoa học kỹ thuật Hồ Anh Tài (2006), Khai thác luật kết hợp mờ số ứng dụng , Luận văn thạc sỹ - Đại học Quốc Gia TP Hồ Chí Minh Tài liệu Tiếng Anh Alan Rea (1995), Data Mining - An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast Jiawei Han and Micheline Kamber (2002), Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers Han, Y.Fu, Discovery o f Multiple - level Association Rules from Large Databases, Proceedings of the 21 St IC on Very large Databases, Zurich, Switzerland, 1995 Rakesh Agrawal and RAmakrichnan Srikant, Mining Quantitative Association Rules In Large Databases, Proc ACM SIGMOD, 1998 Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets o f items in large databases ”, InProc of the ACM SIGMOD Conference on Management of Data, Washington, D c Mohammed J.Zaki and Ching-Jui Hsiao (1999), CHAM: An Efficient Algorithm for Closed Association Rules Mining, RPI Technical Report 99 10 R.Agrawal, T.Imielinski, and A.Swami, Mining Association Rule Between Sets o f Items in Lager Databases In Proc 1993 ACM-SIGMOD Int Conf Management of Data, Washington, D.c, May 1993 91 11 Zaki M., Parthasarathy s., Ogihara M.: New algorithms for fast discovery o f association rule, KDDM 1998 12 Keith c.c Chan, Wai-Ho Au, Mining Fuzzy Association Rules, Department of Computing, The Hongkong Polytechnic University Hung Horn, Kowloon, Hong Kong 92 ... 3.6.3 Phương pháp tìm luật lạ dựa tri thức biết 70 3.6.4 Chuyển iuật kết hợp mờ luật kết hợp thuộc tính s ố 72 Chương ỨNG DỤNG LUẬT KẾT HỢP MỜ CHO BÀI TOÁN KHAI PHÁ DỮ LIỆU CƯỚC INTERNET. .. mờ, phép toán tập mờ, luật kết hợp mờ, cách tìm kiếm luật thực có ích Chương 4: ứ n g dụng luật kết hợp mờ cho toán khai phá liệu cước Internet Trong chương trình bày tốn, xác định nhiệm vụ khai. .. khai phá liệu, v ấ n đề thách thức lớn nhà khoa học lĩnh vực khai phá liệu 19 C h n g KHAI PHÁ DỮ LIỆU LU ẬT KÉT HỢP Khai phá liệu luật kết hợp phương pháp quan trọng phổ biến khai phá liệu Nó