Nghiên cứu thuật toán Charm trong khai phá tập mục thường xuyên đóng

27 371 0
Nghiên cứu thuật toán Charm trong khai phá tập mục thường xuyên đóng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHAN VĂN TUYÊN NGHIÊN CỨU THUẬT TOÁN CHARM TRONG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN ĐÓNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHAN VĂN TUYÊN NGHIÊN CỨU THUẬT TOÁN CHARM TRONG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN ĐÓNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN HUY ĐỨC Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Để hoàn thành luận văn nhận giúp đỡ tận tình thầy cô Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên, thầy cô Viện công nghệ thông tin – Viện Khoa học Công nghệ Việt Nam, anh chị lớp Cao học K8 - khóa 2009-2011 Đặc biệt TS Nguyễn Huy Đức, người thầy trực tiếp hướng dẫn trình nghiên cứu thực luận văn Nhân dịp xin bày tỏ lời cảm ơn tới tất thầy cô giáo Viện Công nghệ thông tin – Viện Khoa học Công nghệ Việt Nam, thầy cô Trường đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên giảng dạy tạo điều kiện thuận lợi giúp đỡ trình học tập, nghiên cứu Tôi xin trân trọng cảm ơn TS Nguyễn Huy Đức – Khoa Thông tin - Máy tính, Trường Cao đẳng Sư phạm Trung ương, người thầy trực tiếp hướng dẫn, đưa ý tưởng, định hướng, đóng góp ý kiến chuyên môn tận tình giúp đỡ suốt trình nghiên cứu thực luận văn Tôi xin cảm ơn bạn bè đồng nghiệp gia đình giúp đỡ, đóng góp ý kiến động viên suốt qua trình học, trình nghiên cứu hoàn thành luận văn Tác giả Phan Văn Tuyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung Luận văn hoàn toàn theo nội dung đề cương nội dung mà giáo viên hướng dẫn giao cho Nội dung luận văn, phần trích lục tài liệu hoàn toàn xác Nếu có sai sót hoàn toàn chịu trách nhiệm Tác giả luận văn Phan Văn Tuyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn I MỤC LỤC Trang Lời cảm ơn Lời cam đoan MỤC LỤC I DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT III DANH MỤC CÁC BẢNG IV DANH MỤC HÌNH VẼ V MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.2 KIẾN TRÚC CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU 1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 1.4 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 1.4.1.Phân lớp liệu 1.4.2.Phân cụm liệu 1.4.3.Khai phá luật kết hợp 1.4.4.Hồi quy 1.4.5.Giải thuật di truyền 1.4.6.Mạng nơron 1.4.7.Cây định 1.5 MỘT SỐ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 10 1.6 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 11 1.6.1 Cơ sở liệu giao tác 11 1.6.2 Tập mục thƣờng xuyên 13 1.6.3 Các cách tiếp cận khai phá tập mục thƣờng xuyên 14 1.6.4 Một số thuật toán điển hình tìm tập mục thƣờng xuyên 16 1.6.4.1 Thuật toán Apriori 16 1.6.4.2 Thuật toán FP-Growth 20 1.7 KẾT LUẬN CHƢƠNG 28 CHƢƠNG 2: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN ĐÓNG 29 2.1 CƠ SỞ TOÁN HỌC 29 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn II 2.1.1 Ánh xạ đóng 29 2.1.2 Tập đóng 30 2.1.3 Kết nối Galois 30 2.1.4 Bao đóng tập mục liệu 31 2.2 TẬP MỤC THƢỜNG XUYÊN ĐÓNG 32 2.2.1 Định nghĩa 32 2.2.2 Các tính chất tập mục thƣờng xuyên đóng 32 2.3 THUẬT TOÁN CHARM 32 2.3.1 Giới thiệu thuật toán CHARM 32 2.3.2 Cây tìm kiếm lớp tƣơng đƣơng 33 2.3.3 Các tính chất cặp tập mục - tập định danh: 34 2.3.4 Thiết kế thuật toán 35 2.3.5 Ví dụ minh họa 37 2.3.6 Đánh giá thuật toán 39 2.4 KẾT LUẬN CHƢƠNG 39 CHƢƠNG 3: CÀI ĐẶT THỰC NGHIỆM 41 3.1 XÂY DỰNG CHƢƠNG TRÌNH 41 3.2 GIAO DIỆN CỦA CHƢƠNG TRÌNH 43 3.3 KẾT QUẢ THỰC NGHIỆM 44 3.4 NHẬN XÉT 47 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 PHỤ LỤC 51 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn III DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Diễn giải Ký hiệu Ck Tập k tập mục ứng viên BFS Breadth First Search CSDL Cơ sở liệu CHARM Closed Asociation RuleMning DB Cơ sở liệu giao tác DFS Depth First Search FP -growth Frequent -Pattern Growth FP -tree Frequent pattern tree IT-tree Itemset-Tidset tree I Tập mục liệu k-itemset Tập mục gồm k mục KPDL Khai phá liệu Minsup Ngƣỡng hỗ trợ tối thiểu Lk Tập k-tập mục thƣờng xuyên Supp Độ hỗ trợ (support) TID Định danh giao tác T Giao tác (transaction) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG Bảng 1.1: Biểu diễn ngang sở liệu giao tác .11 Bảng 1.2: Biểu diễn dọc sở liệu giao tác 12 Bảng 1.3: Ma trận giao tác sở liệu cho bảng 1.1 12 Bảng 1.4: Cơ sở liệu giao tác minh họa thực thuật toán Apriori .19 Bảng 1.5: CSDL giao tác minh hoạ cho thuật toán FP- growth 22 Bảng 2.1: a) CSDL giao tác biểu diễn ngang 31 Bảng 2.1: b) CSDL giao tác biểu diễn dọc .31 Bảng 3.1: Đặc điểm tệp liệu thử nghiệm .41 Bảng 3.2: Kết thực nghiệm tệp liệu Input1.txt 46 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn V DANH MỤC HÌNH VẼ Hình 1.1: Qúa trình phát tri thức Hình 1.2: Kiến trúc hệ thống khai phá liệu .5 Hình 1.3 Quá trình KPDL Hình 1.4: Phân loại các thuật toán khai phá tập mục thƣờng xuyên .15 Hình 1.5: Cây FP-tree đƣợc xây dựng dần thêm giao tác t1, t2, t3 23 Hình 1.6: Cây FP-tree CSDL DB bảng 1.5 .23 Hình 1.7 : FP-tree phụ thuộc m 26 Hình 1.8 : Các FP-tree phụ thuộc am, cm cam .27 Hình 2.1: Kết nối Galois 30 Hình 2.2 Cây IT-tree tìm tập thƣờng xuyên đóng thoả ngƣỡng minsup =50% 38 Hình 3.1: CSDL giao tác mã hóa chuẩn bị cho khai phá 42 Hình 3.2: Giao diện chƣơng trình thực nghiệm sau khởi động 43 Hình 3.3: Kết tìm tập mục thƣờng xuyên với ngƣỡng minsup = 10% 44 Hình 3.4: Kết tìm tập mục thƣờng xuyên đóng với ngƣỡng minsup = 10% .45 Hình 3.5: So sánh thời gian thực khai phá tệp Input1.txt 46 Hình 3.6: So sánh số tập mục kết khai phá tệp Input1.txt 47 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn MỞ ĐẦU Chúng ta "thời đại thông tin", thời đại đƣợc định hình ngành khoa học công nghệ kỹ thuật trẻ phát triển nhƣ vũ bão, ảnh hƣởng vô sâu sắc mãi đến sống chúng ta, ngành công nghiệp "công nghệ thông tin" Trong kinh doanh có nhiều thông tin ngƣời làm chủ thị trƣờng, nghiên cứu nhiều thông tin hội thành công ngƣời lớn Vì việc thu thập thông tin có vai trò đặc biệt quan trọng công việc sống Khai phá liệu khám phá tri thức (Data Mining and Knowledge Discovery) lĩnh vực quan trọng ngành công nghệ thông tin Đây hƣớng nghiên cứu tập trung đƣợc hùng hậu nhà khoa học giới tham gia Hội nghị quốc tế khai phá liệu khám phá tri thức đƣợc tổ chức hàng năm, luân phiên nhiều nƣớc giới, hội thảo có hàng trăm nhà khoa học hàng đầu tham gia Tại Việt Nam, khai phá liệu đƣợc nhóm nghiên cứu Viện Công nghệ Thông tin thuộc Viện Khoa học Công nghệ Việt Nam, nhóm nghiên cứu số trƣờng đại học nhƣ Đại học Quốc gia Hà Nội, Đại học Bách Khoa Hà Nội, Đại học Quốc gia thành phố Hồ Chí Minh thực có nhiều kết đƣợc công bố Một nội dung khai phá liệu toán khai phá luật kết hợp Khai phá luật kết hợp gồm hai bƣớc: Bƣớc một, tìm tất tập mục thờng xuyên Bƣớc hai, dựa vào tập mục thƣờng xuyên tìm luật kết hợp Bƣớc thứ đòi hỏi tính toán lớn, bƣớc thứ hai đòi hỏi tính toán hơn, song gặp phải vấn đề là: sinh nhiều luật, vƣợt khỏi kiểm soát ngƣời khai phá ngƣời dùng, có nhiều luật không cần thiết Để giải vấn đề đó, bƣớc thứ nhất, không cần thiết phải khai phá tất tập mục thƣờng xuyên mà cần Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... 2.1.4 Bao đóng tập mục liệu 31 2.2 TẬP MỤC THƢỜNG XUYÊN ĐÓNG 32 2.2.1 Định nghĩa 32 2.2.2 Các tính chất tập mục thƣờng xuyên đóng 32 2.3 THUẬT TOÁN CHARM ... 10 1.6 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 11 1.6.1 Cơ sở liệu giao tác 11 1.6.2 Tập mục thƣờng xuyên 13 1.6.3 Các cách tiếp cận khai phá tập mục thƣờng xuyên ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHAN VĂN TUYÊN NGHIÊN CỨU THUẬT TOÁN CHARM TRONG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN ĐÓNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC

Ngày đăng: 16/04/2017, 18:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan