Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,5 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THU TRANG KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Khai phá luật kết hợp từ liệu chuỗi thời gian” cơng trình nghiên cứu riêng dƣới hƣớng dẫn PGS.TS Bùi Thế Hồng Tồn phần mềm tơi lập trình kiểm thử Tôi xin chịu trách nhiệm lời cam đoan Các số liệu thơng tin sử dụng luận văn hoàn toàn trung thực Tác giả Trần Thị Thu Trang iii MỤC LỤC MỤC LỤC ii DANH MỤC HÌNH VẼ iv DANH MỤC CÁC BẢNG v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Nhiệm vụ khai phá liệu 1.1.3 Triển khai việc khai phá liệu 1.1.4 Một số ứng dụng khai phá liệu 1.1.5 Quá trình phát tri thức sở liệu 1.1.6 Các kỹ thuật khai phá liệu 99 1.2 Dữ liệu chuỗi thời gian 14 1.2.1 Khái niệm 14 1.2.2 Tiền xử lý liệu chuỗi thời gian 17 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TỪ DỮ LIỆU CHUỖI THỜI GIAN 20 2.1 Luật kết hợp khai phá liệu 20 2.1.1 Khái niệm luật kết hợp 20 2.1.2 Lý thuyết luật kết hợp 21 2.2 Khai phá luật kết hợp 27 iv 2.2.1 Khai phá luật kết hợp từ sở liệu 27 2.2.2 Khai phá luật kết hợp từ liệu chuỗi thời gian 28 2.3 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 30 2.3.1 Thuật toán khai phá luật kết hợp từ liệu thƣờng 30 2.3.2 Thuật toán khai phá luật kết hợp từ liệu chuỗi thời gian 40 CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 53 3.1 Phát biểu toán 53 3.2 Xây dựng chƣơng trình 54 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 v DANH MỤC HÌNH VẼ Hình 1.1 Q trình phát tri thức sở liệu Hình 1.2 Đồ thị thể thành phần xu hƣớng dài hạn 15 Hình1.3 Đồ thị thể thành phần mùa 16 Hình 1.4 Đồ thị thể thành phần chu kỳ 16 Hình 1.5 Trung bình trƣợt hàm mũ 17 Hình 2.1 Một mẫu thƣờng xuyên 39 Hình 2.2 FP-Tree CFP-Tree 42 Hình 2.3: Các khoản mục đƣợc ánh xạ 44 Hình 2.4: Ví dụ CFP-Tree 45 Hình 3.1 Bảng sở liệu 55 Hình 3.2 Giao diện chƣơng trình 56 Hình 3.3 Thực chọn CSDL 56 Hình 3.4 Thực xóa CSDL 57 Hình 3.5 Tìm tập phổ biến dựa thuật toán CFPmine 58 Hình 3.6 Thực lệnh Reset 59 Hình 3.7 Chọn liệu cho thuật tốn tìm luật kết hợp 60 Hình 3.8 Thực xóa sở liệu 60 Hình 3.9 Thực luật kết hợp 61 Hình 3.10 Thực lệnh Reset 62 vi DANH MỤC CÁC BẢNG Bảng 2.1 Ma trận biểu diễn sở liệu 3535 Bảng 2.2 Vector biểu diễn nhị phân cho tập thuộc tính 35 Bảng 2.3 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.4 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.5 Vector biểu diễn nhị phân cho tập thuộc tính 36 Bảng 2.6 Các giao tác sở liệu ………………………………………38 Bảng 2.7 Khoản mục số lần xuất sở liệu 40 vii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Tập mục thƣờng xuyên FI Frequent Itemset FCI Frequent Closed Itemset MFI Maximally CFP-Tree ITARM Tập mục thƣờng xuyên đóng Frequent Tập mục thƣờng xuyên Itemset lớn Cơ sở liệu CSDL FP-Tree Nghĩa tiếng việt Frequent Pattern Tree Cây mẫu thƣờng xuyên Compressed Frequent Cây mẫu thƣờng xuyên Pattern Tree nén Inter-Transaction Khai phá luật kết hợp liên Association Rules Mining giao dịch MỞ ĐẦU Ngày nay, cách mạng kỹ thuật số cho phép số hóa thơng tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu Dữ liệu sau phục vụ cho mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thơng tin có ích mang tính tổng qt, thơng tin có tính quy luật cịn tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có cơng cụ tự động rút thơng tin kiến thức có ích Một hƣớng tiếp cận có khả giúp cơng ty khai thác thơng tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho ngƣời Khai phá liệu giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề khai phá luật kết hợp từ liệu chuỗi thời gian đƣợc áp dụng sở liệu bán hàng Luận văn cấu trúc gồm chƣơng: Chƣơng 1: Trong chƣơng tìm hiểu khái quát khai phá liệu liệu chuỗi thời gian phƣơng pháp tiền xử lý liệu chuỗi thời gian Chƣơng 2: Trong chƣơng tìm hiểu phƣơng pháp khai phá liệu từ chuỗi thời gian qua thuật toán ITARM dựa cấu trúc CFPTree Chƣơng 3: Trong chƣơng tiến hành cài đặt thuật toán chƣơng cài đặt ứng dụng thuật toán sở liệu bán hàng Luận văn đƣợc hoàn thành dƣới hƣớng dẫn tận tình PGS.TS Bùi Thế Hồng, em xin bày tỏ lịng biết ơn chân thành thầy Em xin chân thành cảm ơn thầy, cô giáo Viện Công nghệ thông tin, Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tham gia giảng dạy, giúp đỡ em suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên điều kiện thời gian khả có hạn nên luận văn khơng thể tránh khỏi thiếu sót Em kính mong thầy giáo bạn đóng góp ý kiến để đề tài đƣợc hoàn thiện CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ CHUỖI THỜI GIAN 1.1 Khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn(các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu để tồn q trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu bƣớc đặc biệt tồn q trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu (hay mơ hình) từ liệu Ở mức độ trừu tƣợng định định nghĩa khai phá liệu: Khai phá liệu trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng sở liệu lớn Khám phá tri thức mục tiêu khai phá liệu, hai khái niệm đƣợc xem nhƣ hai lĩnh vực tƣơng đƣơng Nhƣng, phân chia cách tách bạch khai phá liệu bƣớc q trình khám phá tri thức 1.1.2 Nhiệm vụ khai phá liệu Các toán liên quan đến khai phá liệu chất toán thống kê Điểm khác biệt kỹ thuật khai phá liệu cơng cụ phục vụ tính tốn thống kê mà biết khối lƣợng cần tính tốn Một liệu trở nên khổng lồ khâu nhƣ: thu thập liệu, tiền xử lý xử lý liệu địi hỏi phải đƣợc tự động hóa Tuy 50 điều kiện ràng buộc cách riêng biệt để có đƣợc hạn chế tập phổ biến phần tử Sau đó, cách sử dụng tập phổ biến phần tử để xây dựng CFP-cây, khai thác với thuật tốn CFPmine, nhận đƣợc tất tập phổ biến luật kết hợp hạn chế số tập phổ biến Tập hợp tất luật kết hợp hạn chế tạo thành quy tắc kết hợp Quá trình ITARM nhƣ sau Trƣớc hết, đọc tất liệu từ sở liệu lƣu trữ chúng Dữ liệu đƣợc lƣu trữ nhớ nên độ hỗ trợ tính tập phổ biến khơng cần phải quét sở liệu, chi phí I / O đƣợc giảm Nếu số lƣợng liệu lớn, đƣợc lƣu trữ tập tin đĩa, nhƣng chi phí I / O đƣợc tăng lên Quá trình khai thác liệu đƣợc chia thành hai bƣớc Bƣớc tìm tất giao dịch thƣờng xuyên có tập phổ biến phần tử đáp ứng ngƣỡng hỗ trợ tối thiểu Bƣớc thứ hai là, sở bƣớc đầu tiên, để khai thác liên giao dịch tập phổ biến luật kết hợp Gọi 1 ={e1,e2,…,ek} tập hợp kiện, chúng thuộc tính chuỗi thời gian Ti giá trị tập 1 thời điểm i: Ti = {e1(i),e2(i),…,ek(i)}(1≤i≤n) Tập hợp chuỗi thời gian D đƣợc định nghĩa là: D={T1,T2,…,Tn} Đặt ={e1(0),…,e1(w-1),e2(0),…,e2(w-1),…,ek(0),…,ek(w-1)}là tập mở rộng 1 với w cửa sổ trƣợt D Lấy mốc thời gian s (1≤s≤n-w+1) mốc thời gian mở rộng, ei xảy thời điểm s+x (0≤x≤w-1) ta đánh dấu ei(x) thuộc Ts Bƣớc thứ hai dựa phƣơng pháp tiếp cận phân chia chinh phục Đối với tất khoản mục thƣờng xuyên ei(0) thực hoạt động sau 51 Trong ei(0) xuất tạo tập phổ biến FIi cửa sổ trƣợt Sắp xếp FIi theo thứ tự (ei +1(0), , eu(0), e1(1), , eu(1), , e1(w-1), , eu ( w-1)) gọi SFIi Quét liệu thiết lập D, cửa sổ trƣợt nhƣ giao dịch, tìm hiểu tất mục SFIi, xây dựng CFP-Tree Gọi thuật toán CFPmine để khai thác CFP Sau trình khai thác hồn thành, đầu tất tập thƣờng xuyên luật kết hợp bắt đầu với ei(0) Xóa CFP-Tree, tăng i lên, đến bƣớc sau để khai thác mục ei +1 (0) Thuật toán ITARM Input: tập hợp liệu chuỗi thời gian D, độ hỗ trợ tối thiểu min_sup, tin cậy tối thiểu min_conf, w kích thƣớc cửa sổ trƣợt Output: Các luật kết hợp D Method: Giai đoạn C1 = {{ei (x)} | (ei (x) ∈ Σ) ∧ (0 ≤ x ≤ w-1)} For giao dịch Ts D For ứng cử viên c: ei (x) ∈ C1 (ei (x) ∈ Ts + x) c.count + +; L1 = {c: {ei (x)} | (c ∈ C1) ∧ (c.count ≥ support) Giai đoạn For mục: ei (0) ∈ L1 { C‟2 = {{ei(0), ek(x)} | ek(x) ∈ L1((x ≠ 0) ∨ (x = ∧ i