Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
260,15 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THU TRANG KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Khai phá luật kết hợp từ liệu chuỗi thời gian” công trình nghiên cứu riêng dƣới hƣớng dẫn PGS.TS Bùi Thế Hồng Toàn phần mềm lập trình kiểm thử Tôi xin chịu trách nhiệm lời cam đoan Các số liệu thông tin sử dụng luận văn hoàn toàn trung thực Tác giả Trần Thị Thu Trang iii MỤC LỤC MỤC LỤC ii DANH MỤC HÌNH VẼ iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Nhiệm vụ khai phá liệu 1.1.3 Triển khai việc khai phá liệu 1.1.4 Một số ứng dụng khai phá liệu 1.1.5 Quá trình phát tri thức sở liệu 1.1.6 Các kỹ thuật khai phá liệu 99 1.2 Dữ liệu chuỗi thời gian 14 1.2.1 Khái niệm 14 1.2.2 Tiền xử lý liệu chuỗi thời gian 17 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN 20 2.1 Luật kết hợp khai phá liệu 20 2.1.1 Khái niệm luật kết hợp 20 2.1.2 Lý thuyết luật kết hợp 21 2.2 Khai phá luật kết hợp 27 iv 2.2.1 Khai phá luật kết hợp từ sở liệu 27 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 28 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 30 2.3.1 Thuật toán khai phá luật kết hợp từ liệu thƣờng 30 2.3.2 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 40 CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 53 3.1 Phát biểu toán 53 3.2 Xây dựng chƣơng trình 54 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 v DANH MỤC HÌNH VẼ Hình 1.1 Quá trình phát tri thức sở liệu Hình 1.2 Đồ thị thể thành phần xu hƣớng dài hạn 15 Hình1.3 Đồ thị thể thành phần mùa 16 Hình 1.4 Đồ thị thể thành phần chu kỳ 16 Hình 1.5 Trung bình trƣợt hàm mũ 17 Hình 2.1 Một mẫu thƣờng xuyên 39 Hình 2.2 FP-Tree CFP-Tree 42 Hình 2.3: Các khoản mục đƣợc ánh xạ 44 Hình 2.4: Ví dụ CFP-Tree 45 Hình 3.1 Bảng sở liệu 55 Hình 3.2 Giao diện chƣơng trình 56 Hình 3.3 Thực chọn CSDL 56 Hình 3.4 Thực xóa CSDL 57 Hình 3.5 Tìm tập phổ biến dựa thuật toán CFPmine 58 Hình 3.6 Thực lệnh Reset 59 Hình 3.7 Chọn liệu cho thuật toán tìm luật kết hợp 60 Hình 3.8 Thực xóa sở liệu 60 Hình 3.9 Thực luật kết hợp 61 Hình 3.10 Thực lệnh Reset 62 vi DANH MỤC CÁC BẢNG Bảng 2.1 Ma trận biểu diễn sở liệu 3535 Bảng 2.2 Vector biểu diễn nhị phân cho tập thuộc tính 35 Bảng 2.3 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.4 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.5 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.6 Các giao tác sở liệu ………………………………………38 Bảng 2.7 Khoản mục số lần xuất sở liệu 40 vii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Tập mục thƣờng xuyên FI Frequent Itemset FCI Frequent Closed Itemset MFI Maximally CFP-Tree ITARM Tập mục thƣờng xuyên đóng Frequent Tập mục thƣờng xuyên Itemset lớn Cơ sở liệu CSDL FP-Tree Nghĩa tiếng việt Frequent Pattern Tree Cây mẫu thƣờng xuyên Compressed Frequent Cây mẫu thƣờng xuyên Pattern Tree nén Inter-Transaction Khai phá luật kết hợp liên Association Rules Mining giao dịch MỞ ĐẦU Ngày nay, cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu Dữ liệu sau phục vụ cho mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Một hƣớng tiếp cận có khả giúp công ty khai thác thông tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho ngƣời Khai phá liệu giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề khai phá luật kết hợp từ liệu chuỗi thời gian đƣợc áp dụng sở liệu bán hàng Luận văn cấu trúc gồm chƣơng: Chƣơng 1: Trong chƣơng tìm hiểu khái quát khai phá liệu liệu chuỗi thời gian phƣơng pháp tiền xử lý liệu chuỗi thời gian Chƣơng 2: Trong chƣơng tìm hiểu phƣơng pháp khai phá liệu từ chuỗi thời gian qua thuật toán ITARM dựa cấu trúc CFPTree Chƣơng 3: Trong chƣơng tiến hành cài đặt thuật toán chƣơng cài đặt ứng dụng thuật toán sở liệu bán hàng Luận văn đƣợc hoàn thành dƣới hƣớng dẫn tận tình PGS.TS Bùi Thế Hồng, em xin bày tỏ lòng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn tránh khỏi thiếu sót Em kính mong thầy cô giáo bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn(các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu để toàn trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu bƣớc đặc biệt toàn trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu (hay mô hình) từ liệu Ở mức độ trừu tƣợng định định nghĩa khai phá liệu: Khai phá liệu trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng sở liệu lớn Khám phá tri thức mục tiêu khai phá liệu, hai khái niệm đƣợc xem nhƣ hai lĩnh vực tƣơng đƣơng Nhƣng, phân chia cách tách bạch khai phá liệu bƣớc trình khám phá tri thức 1.1.2 Nhiệm vụ khai phá liệu Các toán liên quan đến khai phá liệu chất toán thống kê Điểm khác biệt kỹ thuật khai phá liệu công cụ phục vụ tính toán thống kê mà biết khối lƣợng cần tính toán Một liệu trở nên khổng lồ khâu nhƣ: thu thập liệu, tiền xử lý xử lý liệu đòi hỏi phải đƣợc tự động hóa Tuy data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... từ sở liệu 27 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 28 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 30 2.3.1 Thuật toán khai phá luật kết hợp từ liệu. .. 2.1 Luật kết hợp khai phá liệu 20 2.1.1 Khái niệm luật kết hợp 20 2.1.2 Lý thuyết luật kết hợp 21 2.2 Khai phá luật kết hợp 27 iv 2.2.1 Khai phá luật kết hợp từ. .. 99 1.2 Dữ liệu chuỗi thời gian 14 1.2.1 Khái niệm 14 1.2.2 Tiền xử lý liệu chuỗi thời gian 17 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN