Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
1,21 MB
Nội dung
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa TRẦM THẾ PHIÊN MƠ HÌNH KHAI PHÁ LUẬT CHO CHUỖI THỜI GIAN Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2010 TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH Độc Lập - Tự Do - Hạnh Phúc oOo Tp HCM, ngày 02 tháng 07 năm 2010 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trầm Thế Phiên … Phái: ……Nam………… Ngày, tháng, năm sinh: 01/04/1984 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa học máy tính MSHV: 00708204 1- TÊN ĐỀ TÀI: MƠ HÌNH KHAI PHÁ LUẬT CHO CHUỖI THỜI GIAN 2- NHIỆM VỤ LUẬN VĂN: - Tìm hiểu lý thuyết sở liệu chuỗi thời gian toán khai phá liệu chuỗi thời gian - Tìm hiểu toán khai phá luật cho liệu chuỗi thời gian - Đề xuất mơ hình khai phá luật cho liệu chuỗi thời gian - Xây dựng hệ thống khai phá luật cho liệu chuỗi thời gian sử dụng mơ hình đề xuất - Phát triển ứng dụng minh họa 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 02/07/2010 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuấn Anh, TS Võ Thị Ngọc Châu Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh, TS Võ Thị Ngọc Châu- Cán chấm nhận xét 1: TS Quản Thành Thơ Cán chấm nhận xét 2: PGS TS Đỗ Phúc Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 30 tháng năm 2010 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Nguyễn Văn Minh Mẫn (Chủ tịch Hội đồng) PGS TS Đỗ Phúc (Cán phản biện) TS Quản Thành Thơ (Cán phản biện) TS Phạm Văn Chung (Thư ký) PGS TS Dương Tuấn Anh (Ủy viên) Xác nhận Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành sau luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành i LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 02 tháng 07 năm 2010 Trầm Thế Phiên ii LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, TS Võ Thị Ngọc Châu, người tận tình hướng dẫn, định hướng từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận văn Xin chân thành cảm ơn tất quý Thầy Cô Khoa Khoa học Kỹ Thuật Máy Tính tận tình truyền đạt kiến thức q báu cho tơi suốt q trình học tập Tơi xin cảm ơn gia đình, người thân, bạn bè động viên tạo điều kiện tốt để tơi hồn thành luận văn iii TÓM TẮT Dữ liệu chuỗi thời gian tập quan sát có trình tự thời gian Dữ liệu tồn nhiều lĩnh vực tài chính, chứng khốn, y học, thời tiết, môi trường, địa lý,…Nhu cầu khai phá thông tin từ liệu lớn, khai phá luật cho liệu chuỗi thời gian cơng việc khó, có ý nghĩa Khai phá luật trình tìm quy luật kết hợp mẫu thức chuỗi thời gian Trong đó, mẫu thức liên quan mật thiết đến nhiều cơng trình khai phá khác chuỗi thời gian khai phá motif, khai phá chuỗi bất thường, phân đoạn chuỗi thời gian,… Việc khai phá luật chuỗi thời gian có nhiều cơng trình, cơng trình năm gần chưa thực có mơ hình thích hợp Đặc biệt yếu tố thời gian, việc hỗ trợ người dùng chưa khảo sát nhiều Do đó, đề tài đề xuất việc xây dựng mơ hình khai phá luật cho chuỗi thời gian Mục đích mơ hình đưa định nghĩa cách hình thức mẫu thức, luật, độ đo dựa tảng luận lý toán học, đại số thời gian Allen, luận lý thời gian nhằm làm tăng yếu tố thời gian, tăng việc hỗ trợ người dùng q trình khai phá Khi đó, luật khai phá đem lại ý nghĩa cho người sử dụng iv ABSTRACT A time series is a collection of observations made sequentially in time Such data exist in many fields such as finance, stock, medicine, weather, environment,… There is a huge demand of information discovery from this type of data where rule mining (or rule discovery) for time series is one of the tough tasks but not meaningless Rule mining is a process of discovering the associations among patterns from time series Moreover, the discovered patterns from time series are tightly related to many other researches such as motif discovery, discord discovery, segmentation,… There have been many researches on time series rule mining but have not yet had a relevant model Model-free rule discovery has recently been subject to considerable criticism Moreover, time factors and the user support were not observed much yet Therefore, the thesis will propose a model for rule mining on time series so as to propose formal definitions of patterns, rules, and measures based on predicate logic, Allen’s temporal algebra, Temporal Logic This approach will take into account the time factors and user support in the rule mining process Thus, discovered rules will be more meaningful for users v vi MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Bài tốn phân tích giỏ thị trường 1.1.1 Mơ tả hình thức 1.1.1.1 Luật 1.1.1.2 Support 1.1.1.3 Confidence 1.1.2 Khai phá luật kết hợp 1.1.3 Giải thuật 1.2 Mục tiêu giới hạn luận văn 1.2.1 Động 1.2.2 Mục tiêu 1.2.3 Dự kiến giải pháp 1.2.4 Giới hạn đề tài 1.3 Cấu trúc luận văn CHƯƠNG 2: TỔNG QUAN KHAI PHÁ LUẬT TRÊN CHUỖI THỜI GIAN 2.1 Tổng quan chuỗi thời gian 2.1.1 Khái niệm chuỗi thời gian 10 2.1.2 Các công việc chủ yếu chuỗi thời gian 10 2.1.2.1 Tiền xử lý 11 2.1.2.2 Độ đo tương tự 12 2.1.2.2.1 Khoảng cách chuỗi thời gian dạng ký số 12 2.1.2.2.2 Khoảng cách chuỗi thời gian dạng ký hiệu 16 2.1.2.3 Biểu diễn chuỗi thời gian 16 2.1.2.4 Khai phá luật 17 2.1.2.4.1 Phân loại 18 2.1.2.5 Phân đoạn 20 2.1.2.6 Tìm kiếm motif 21 2.1.2.7 So trùng mẫu 23 2.1.2.8 Trực quan hóa 23 2.2 Khai phá luật chuỗi thời gian 24 2.2.1 Quá trình khai phá 24 2.2.2 Các công trình liên quan 25 2.3 LUẬN LÝ THỜI GIAN VÀ ĐẠI SỐ THỜI GIAN ALLEN 27 2.3.1 Luận lý thời gian 27 2.3.1.1 Hướng tiếp cận Modal-Logic đến luận lý thời gian 27 2.3.1.2 Hướng tiếp cận luận lý vị từ đến luận lý thời gian 28 2.3.2 Đại số thời gian Allen 29 CHƯƠNG 3: PHÁT BIỂU VẤN ĐỀ VÀ GIẢI PHÁP 31 3.1 Phát biểu vấn đề 31 3.1.1 Định nghĩa hình thức mẫu thức luật 31 3.1.2 Định nghĩa độ đo 32 3.1.3 Việc hỗ trợ người dùng 32 3.2 Giải pháp 32 3.2.1 Giải pháp cho vấn đề 32 3.2.1.1 Định nghĩa hình thức mẫu thức 32 3.2.1.2 Dạng luật 33 3.2.1.3 Độ đo 33 3.2.2 Kết mong muốn đạt 33 3.2.2.1 Kết mong muốn 33 3.2.2.2 Ý nghĩa 34 3.2.3 Phương pháp đánh giá dự kiến 35 CHƯƠNG 4: MƠ HÌNH KHAI PHÁ LUẬT TRÊN DỮ LIỆU CHUỖI THỜI GIAN 36 4.1 Chuỗi thời gian 36 4.2 Chuỗi 37 4.3 Mẫu thức 38 4.3.1 Mẫu thức xây dựng sẵn 38 Hinh 5.6 Giải thuật Brute Force khai phá motif quan trọng 5.3 Chức khai phá luật Trong ứng dụng minh họa này, chương trình cho phép người dùng đặc tả vế trái, vế phải luật dựa mẫu thức xây dựng sẵn Chương trình cho phép đặc tả vế trái, vế phải, ràng buộc luật, cung cấp độ đo Sau đó, chương trình thực việc khai phá luật dựa đặc tả Kết trả việc đặc tả vế trái tập ID mẫu thức Tương tự vế phải Khi đó, luật khai phá bao gồm PID vế trái vế phải Kết việc khai phá thể hình 5.7, đó, kết gồm ID, thuộc tính (dạng mẫu thức: khuynh hướng tăng, giảm, motif, discord,…) mẫu thức xuất luật 59 Việc đặc tả ràng buộc người dùng có hai hướng tiếp cận Một người dùng đặc tả biểu thức ràng buộc (đó cơng thức đại số quan hệ) dạng file text Sau đó, hệ thống thực việc phân tích cú pháp cho biểu thức ràng buộc để ngơn ngữ lập trình hiểu Cách tiếp cận không sử dụng ứng dụng minh họa Cách tiếp cận thứ hai tất ràng buộc chuyển thành điều kiện câu truy vấn sở liệu Cách tiếp cận đơn giản hơn, áp dụng ứng dụng minh họa Hinh 5.7 Kết khai phá luật Chức khai phá luật chuyển đổi ràng buộc người dùng (bao gồm ràng buộc vế trái luật, vế phải luật ràng buộc mẫu thức vế trái lẫn vế phải, độ đo) thành điều kiện câu truy vấn 60 sở liệu Sau đó, chương trình thực thi câu truy vấn để trả bảng giá trị ID mẫu thức Chẳng hạn, người dùng đặc tả vế trái LHS sau: LHS = { A, B | Increase(A) ∧ Decrease(B) ∧ diff(A, B)