1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nâng cao hiệu quả nhận dạng mẫu chuỗi dữ liệu thời gian bằng cấu trúc chỉ mục đa chiều

83 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,04 MB

Nội dung

Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa HUỲNH HỮU VIỆT NÂNG CAO HIỆU QUẢ NHẬN DẠNG MẪU TRONG DỮ LIỆU CHUỖI THỜI GIAN BẰNG CÁC CẤU TRÚC CHỈ MỤC ĐA CHIỀU Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 02 năm 2009 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: PGS.TS Đỗ Phúc Cán chấm nhận xét : TS Quản Thành Thơ Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ Xà HỘI CHỦ NGHIà VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc oOo Tp HCM, ngày tháng năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Huỳnh Hữu Việt … Phái: Nam…………… Ngày, tháng, năm sinh: 02/02/1983 Nơi sinh: Bình Định Chuyên ngành: Khoa học máy tính MSHV: 00706156 1- TÊN ĐỀ TÀI: NÂNG CAO HIỆU QUẢ NHẬN DẠNG MẪU TRONG DỮ LIỆU CHUỖI THỜI GIAN BẰNG CÁC CẤU TRÚC CHỈ MỤC ĐA CHIỀU 2- NHIỆM VỤ LUẬN VĂN: 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN (Ghi đầy đủ học hàm, học vị ): PGS.TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) PGS.TS Dương Tuấn Anh TS Đinh Đức Anh Vũ TS Thoại Nam Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 30 tháng 11 năm 2008 Huỳnh Hữu Việt Huỳnh Hữu Việt i Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS.TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt trình từ đại học tới cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Huỳnh Hữu Việt ii Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian ngày đóng vai trị quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học dự báo, định, đòi hỏi phải đề giải pháp tìm kiếm mẫu tương tự cách hiệu xác Luận văn đề nghị mơ hình so trùng mẫu có q trình lập mục thực qua bước: trích xuất đặc trưng phương pháp biến đổi wavelet lưu trữ liệu cấu trúc mục không gian Chúng sử dụng phương pháp biến đổi Haar wavelet làm phương pháp biến trích xuất đặc trưng, đề nghị sử dụng cấu trúc liệu M-Tree làm cấu trúc lưu trữ cho liệu sau thu giảm số chiều Qua thực nghiệm cho thấy, cấu trúc liệu M-Tree có hiệu đáng kể việc tăng tốc trình tìm kiếm Huỳnh Hữu Việt iii Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều ABSTRACT Similarity search on time-series data sets is of growing inportance in data mining With the increasing amount of time-series data in many application, from financial to scientific, such as prediction, it is important to study methods of retrieving similarity sequences efficiently and precisely This thesis proposes model of efficient retrieval of all subsequences in the time series databases with index stage includes steps: feature extraction by discrete wavelet transform and store data in spatial index structure We use Haar transform as feature extraction method and propose M-Tree data structure for indexing feature extraction data The experiments show that MTree considerable improves retrieval performance Huỳnh Hữu Việt iv Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT .iv MỤC LỤC v DANH MỤC HÌNH vii CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Những yêu cầu đòi hỏi phải so trùng mẫu 1.2.1 Mơ hình tốn so trùng chuỗi thời gian 1.2.2 Phân loại toán so trùng mẫu 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG 2: 2.1 NHỮNG CƠNG TRÌNH LIÊN QUAN 10 Các công trình phương pháp đo độ tương tự 10 2.1.1 Độ đo Minkowski 11 2.1.2 Phương pháp xoắn thời gian động 12 2.1.3 Phương pháp chuỗi chung dài (longest common subsequence ) 13 2.2 Các cơng trình liên quan đến tìm kiếm tương tự .13 2.2.1 Các công trình sử dụng trích xuất đặc trưng hay thu giảm số chiều 14 2.2.2 Cơng trình trích xuất đặc trưng kết hợp đồng thời với cấu trúc mục 15 2.2.3 Các cơng trình thực theo bước 16 2.3 Các cơng trình cấu trúc lập mục (indexing) 18 2.4 Kết luận 22 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT NỀN TẢNG 23 3.1 Phương pháp biến đổi Wavelet 23 3.2 Cây R*-Tree 28 3.2.1 Các thao tác xây dựng R*-Tree 29 3.2.2 Tìm kiếm R*-Tree 35 3.3 Cây M-Tree 36 Huỳnh Hữu Việt v Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều 3.3.1 Các thao tác xây dựng M-Tree 38 3.3.2 Tìm kiếm M-Tree 40 CHƯƠNG 4: HỆ THỐNG SO TRÙNG MẪU 43 4.1 Giới thiệu .43 4.2 Kiến trúc hệ thống 44 4.2.1 Lập mục 45 4.2.2 So trùng mẫu 53 CHƯƠNG 5: THỰC NGHIỆM 55 5.1 Các tiêu chuẩn thực nghiệm 55 5.2 Đánh giá kết thực nghiệm 58 5.2.1 Thực nghiệm có tần số thay đổi thấp 58 5.2.2 Thực nghiệm liệu có tần số thay đổi cao 61 5.3 Kết luận 64 CHƯƠNG 6: KẾT LUẬN 65 6.1 Tổng kết 65 6.2 Những đóng góp đề tài 65 6.3 Hướng phát triển 66 CHƯƠNG 7: TÀI LIỆU THAM KHẢO 67 PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT i Huỳnh Hữu Việt vi Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều DANH MỤC HÌNH Hình 1.1 Đường biểu diễn liệu chuỗi thời gian Hình 1.2 Mơ hình chủ yếu sử dụng toán so trùng chuỗi thời gian Hình 1.3 Minh họa so trùng mẫu (nguồn [13]) Hình 2.1 Phương pháp chuỗi chung dài (nguồn [9]) 13 Hình 2.2 Các mơ hình phổ biến tìm kiếm tương tự cho chuỗi thời gian 14 Hình 2.3 Quá trình thu giảm số chiều dùng phương pháp DDR (nguồn[11]) 15 Hình 2.4 Phương pháp biểu diễn đặc trưng thành ký tự (nguồn [40]) 15 Hình 2.5 Cây TSA (nguồn [7]) 16 Hình 2.6 Cách thức tạo tập tin đánh dấu từ chuỗi ký tự (nguồn [2]) 18 Hình 2.7 Ví dụ cấu trúc PTrie .19 Hình 2.8 Ví dụ K-D-Tree với chín điểm (nguồn [2]) 20 Hình 2.9 Ví dụ R-Tree với 12 điểm 21 Hình 3.1 Ba dạng wavelet (a) Haar wavelet (b) wavelet dựa hàm phân bố xác suất Guass (c) wavelet dạng mũ Mehico 24 Hình 3.2 Phép biến đổi wavelet rời rạc (nguồn [39]) 26 Hình 3.3 Hàm ψ (t ) phép biến đổi Meyer 26 Hình 3.4 Hàm ψ (t ) phép biến đổi Daubechies n với n=2,3,7,8 27 Hình 3.5 Lưu đồ giải thuật thêm vào R*-Tree 30 Hình 3.6 Chọn nút thêm thành phần vào nút (a) Cấu trúc (b) Cấu trúc hình chữ nhật bao nhỏ 31 Hình 3.7 Thêm thành phần vào nút đẩy (a) Cấu trúc (b) Cấu trúc hình chữ nhật bao nhỏ 32 Hình 3.8 Tách nhóm thành phần, cách phân chia hình (a) ưu tiên cách hình (b) 33 Hình 3.9 Các trạng thái R*-Tree thao tác xóa thành phần nút 34 Hình 3.10 Tìm kiếm vùng R*-tree 36 Hình 3.11 Cây M-Tree (a) Cấu trúc nút nội (b) Tổ chức M-Tree 38 Hình 3.12 Tách nút nội M-Tree 39 Hình 3.13 Tính tốn khoảng cách bỏ qua nhờ tính chất bất đẳng thức tam giác hàm tính khoảng cách 41 Hình 3.14 Tìm kiếm vùng M-Tree 42 Hình 4.1 Mơ hình kiến trúc hệ thống 44 Hình 4.2 Các bước trình lập mục 45 Hình 4.3 Chuẩn hóa liệu 47 Hình 4.4 Giải thuật biến đổi Haar wavelet 49 Huỳnh Hữu Việt vii Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều 5.2 Đánh giá kết thực nghiệm Phần thực cấu trúc mục R*-Tree dựa mô tả [3] phần thực tác giả Dimitris1, thông số tương ứng pagesize=3096, M= 3096/8*(Số chiều liệu+1), m=M/2 Cấu trúc mục M-Tree thực dựa thực tác giả Ciaccia [6]2 với M=50, m=20 5.2.1 Thực nghiệm có tần số thay đổi thấp Tập liệu chứng khoán với triệu điểm thu giảm số chiều phương pháp biến đổi Haar wavelet với hệ số thu giảm số chiều 16 Sau tiến hành lập mục cấu trúc mục R*-Tree M-Tree theo giải thuật Hình 4.7 Sau lưu trữ liệu thời gian thu giảm số chiều cấu trúc mục, 100 câu truy vấn ngẫu nhiên sử dụng truy vấn cấu trúc mục Hình 5.5 Hình 5.6 biểu diễn thời gian lập mục truy vấn cấu trúc mục R*-Tree M-Tree R*-Tree M-Tree Thời gian lập mục 30 25 20 15 10 5 10 15 20 25 30 35 40 Số chiều liệu Hình 5.5 Kết thực nghiệm thời gian lập mục với tập liệu chứng khoán cấu trúc mục R*-Tree M-Tree R*-Tree source code http://www.rtreeportal.org/code/Rstar-java.zip M-Tree source code : http://www-db.deis.unibo.it/Mtree/download.html Huỳnh Hữu Việt 58 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều Thực nghiệm tiến hành với tập liệu lượng với hệ số thu giảm số chiều Biểu đồ thời gian lập mục truy vấn tập liệu thể hình Hình 5.7 Hình 5.8 Dựa vào kết thực nghiệm biểu diển đồ thị, ta có số nhận xét sau: ƒ Thời gian lập mục tăng theo số chiều thành phần liệu Nguyên nhân việc phụ thuộc q trình lập mục có tính tốn khoảng thành phần liệu Độ đo khoảng cách dùng độ đo khoảng cách Euclide có thời gian tính tốn phụ thuộc vào số chiều thành phần liệu ƒ Thời gian lập mục M-Tree lớn thời gian lập mục R*-Tree ƒ Với số chiều thành phần liệu nhỏ cấu trúc mục R*-Tree có thời gian truy vấn hiệu M-Tree Tuy nhiên, số chiều thành phần liệu lớn cấu trúc M-Tree chứng tỏ hiệu trình truy vấn Trong khoảng số chiều từ 5-15 cấu trúc R*-Tree tỏ hiệu Khi số chiều thành phần liệu lớn đáng kể (khoảng 20 trở lên) thời gian truy vấn cấu trúc R*-Tree tăng nhảy vọt, nhiên với cấu trúc M-Tree số chiều liệu lớn thời gian truy vấn không thay đổi đáng kể Huỳnh Hữu Việt 59 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều Thời gian truy vấn (ms) R*-Tree M-Tree 20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 10 15 20 25 30 35 40 Số chiều liệu Hình 5.6 Kết thực nghiệm thời gian truy vấn với tập liệu chứng khoán cấu trúc mục R*-Tree M-Tree R*-Tree M-Tree Thời gian lập mục 25 20 15 10 5 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.7 Kết thực nghiệm thời gian lập mục với tập hình 5.2 cấu trúc mục R*-Tree M-Tree Huỳnh Hữu Việt 60 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều R*-Tree M-Tree 9000 Thời gian truy vấn 8000 7000 6000 5000 4000 3000 2000 1000 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.8 Kết thực nghiệm thời gian truy vấn với tập hình 5.2 cấu trúc mục R*Tree M-Tree 5.2.2 Thực nghiệm liệu có tần số thay đổi cao Trong thực nghiệm thức nhất, tập liệu dùng liệu điện não đồ với triệu điểm thu giảm số chiều phương pháp biến đổi Haar wavelet với hệ số thu giảm số chiều 256 Sau tiến hành lập mục cấu trúc mục R*-Tree M-Tree theo giải thuật Hình 4.7 Sau lưu trữ liệu thời gian thu giảm số chiều cấu trúc mục, 100 câu truy vấn ngẫu nhiên sử dụng truy vấn cấu trúc mục Hình 5.9 Hình 5.10 biểu diễn thời gian lập mục truy vấn cấu trúc mục R*-Tree M-Tree Thực nghiệm thứ hai thực tương tự với hệ số thu giảm số chiều Hình 5.11 Hình 5.12 biểu diễn thời gian lập mục truy vấn cấu trúc mục R*-Tree M-Tree Cũng tương tự tập liệu chứng khoáng, hiệu lập mục tên M-Tree hiệu R*-Tree: ƒ Hình 5.9 Hình 5.11 cho thấy số chiều lơn (40-50) thời gian lập mục R*-Tree tăng lên đáng kể tiến gần đến thời gian lập mục cấu trúc M-Tree Huỳnh Hữu Việt 61 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều R*-Tree M-Tree Thời gian lập mục 25 20 15 10 5 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.9 Kết thực nghiệm thời gian lập mục với tập liệu điện não đồ cấu trúc mục R*-Tree M-Tree R*-Tree M-Tree Thời gian truy vấn (ms) 14000 12000 10000 8000 6000 4000 2000 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.10 Kết thực nghiệm thời gian truy vấn với tập liệu điện não đồ cấu trúc mục R*-Tree M-Tree ƒ So sánh với kết lập mục tập liệu chứng khống Hình 5.5 hiệu lập mục không phụ thuộc vào số chiều mà phụ thuộc vào loại liệu chứa cấu trúc mục ƒ Kết đo đạt thời gian truy vấn thể Hình 5.10 Thời gian truy vấn R*-Tree không tỉ lệ ổn định với số chiều Huỳnh Hữu Việt 62 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều liệu thành phần Trong khoảng số chiều từ đến 15 từ 40 đến 50 số thời gian truy vấn tăng giảm khoảng lớn Trong đó, thời gian truy vấn M-Tree phần lớn nhỏ so cấu trúc R*-Tree Đồng thời thời gian truy vấn M-Tree thể ổn định thời gian truy vấn (tuyến tính với số chiều liệu) ƒ Với số chiều lớn thời gian truy vấn cấu trúc R*-Tree tăng đánh kể so với cấu trúc M-Tree R*-Tree M-Tree Thời gian lập mục 25 20 15 10 5 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.11 Kết thực nghiệm thời gian lập mục với tập liệu nhu cầu điện cấu trúc mục R*-Tree M-Tree R*-Tree M-Tree 14000 Thời gian truy vấn 12000 10000 8000 6000 4000 2000 10 15 20 25 30 35 40 45 50 Số chiều liệu Hình 5.12 Kết thực nghiệm thời gian truy vấn với tập liệu điện não đồ cấu trúc mục R*-Tree M-Tree Huỳnh Hữu Việt 63 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều 5.3 Kết luận Trong hệ thống so trùng mẫu, cấu trúc mục giúp nâng cao hiệu tìm kiếm Tuy nhiên hiệu mục không phụ thuộc thân cấu trúc mục mà phụ thuộc vào liệu được lập mục Thông thường hệ thống liên quan đến chuỗi thời gian, người ta thường dùng cấu trúc R*-Tree biến thể làm cấu trúc mục Cấu trúc liệu M-Tree chứng tỏ hiệu số liệu không gian mức độ hiệu liệu thời gian chưa kiểm chứng Một số thực nghiệm trình bày phần trước cho thấy phải tốn nhiều thời gian cho việc tạo cấu trúc mục hiệu truy vấn chuỗi thời gian cấu trúc M-Tree tốt (đặc biệt liệu có tần số thay đổi thấp) so với cấu trúc mục dùng phổ biến cấu trúc R*-Tree với số chiều liệu lớn Có thể kết luận rằng, M-Tree làm cấu trúc lập mục cho ứng dụng liên quan liệu chuỗi thời gian, đặc biệt liệu chứng khoán Hiệu M-Tree loại dự liệu khác cần tiến hành thêm Huỳnh Hữu Việt 64 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều CHƯƠNG 6: KẾT LUẬN Trong chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiêm cứu sau 6.1 Tổng kết Bài toán so trùng mẫu toán ứng dụng khai phá liệu chuỗi thời gian Các ứng dụng khai phá liệu chuỗi thời gian thường gặp khó khăn việc xử lý lượng liệu lớn (thường lên đến hàng Terabyte) Các nghiên cứu liên quan đến chuỗi thời gian chủ yếu tập trung việc thu giảm số chiều liệu ban đầu sau tiến hành xử lý Tuy nhiên, trình khái phá liệu chủ yếu trình truy vấn, so trùng mẫu tập liệu Để hỗ trợ việc tìm kiếm nhanh chóng hiệu việc thu giảm số chiều liệu cần lưu trữ hiệu giúp nâng cao hiệu tìm kiếm Luận văn sử dụng phương pháp biến đổi Haar wavelet làm phương pháp biến đổi số chiều Phương pháp ứng dụng nhiều nhiều ứng dụng khác nhau: xử lý tín hiệu số, xủ lý ảnh…và chứng minh có hiệu cho việc thu giảm số chiều cho liệu thời gian Trong hầu hết toán, cấu trúc liệu lưu trữ chuỗi dùng lưu trữ chuỗi thời gian cấu trúc R*-Tree biến thể Luận văn đề nghị sử dụng cấu trúc M-Tree làm cấu trúc mục cho liệu chuỗi thời gian sau thu giảm số chiều liệu nhằm nâng cao hiệu tìm kiếm Các kết thực nghiệm cho thấy tính hiệu cấu trúc liệu M-Tree so với phương pháp lưu trữ liệu thời gian sử dụng cơng trình nghiên cứu trước 6.2 Những đóng góp đề tài Các kết đạt đề tài bao gồm: ™ Đề nghị mơ hình kết hợp phương pháp biến đổi wavelet với cấu trúc lưu trữ liệu khơng gian cho tốn so trùng mẫu chuỗi liệu thời gian Huỳnh Hữu Việt 65 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều ™ Đề nghị sử dụng cấu trúc liệu M-Tree làm cấu trúc liệu lưu trữ liệu chuỗi thời gian kết hợp với phương pháp biến đổi Haar wavelet Cấu trúc liệu chứng minh hiệu kết thực nghiệm ™ Mơ hình hệ thống so trùng mẫu đưa luận văn cho phép lập mục cho chuỗi thời gian thêm vào mà không cần phải xây dựng lại cấu trúc mục từ đầu 6.3 Hướng phát triển Đề tài nêu vấn đề số cách giải vấn đề so trùng mẫu Tuy nhiên nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện Các kết thực nghiệm thực nghiệm liệu giá chứng khoán điện não đồ Do cần phải có thử nghiệm nhiều loại liệu khác để đưa kết luận hiệu cấu trúc mục M-Tree loại liệu Bài toán so trùng mẫu toán khai phá liệu chuỗi thời gian, sử dụng ứng dụng khác gom cụm, phân loại, tìm luật, dự báo liệu… Đây ứng dụng hữu ích nhiều lĩnh vực khác tài chính, thời tiết… Huỳnh Hữu Việt 66 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều CHƯƠNG 7: TÀI LIỆU THAM KHẢO [1] Agrawal R., et al., 1995, Fast similarity search in the presence of noise, scaling, and translation in time-series databases In Proceedings of the 21st International Conference on Very Large Databases, VLDB95, Zurich, Switzerland, pp 490-501 [2] Andre-Jonsson, H , 2002, Indexing Strategies for Time Series Data, Ph.D Thesis, Linkoeping University, Sweden, 210 pages [3] Beckmann N., et al., 1990, The R*-tree: an efficient and robust access method for points and rectangles, In Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD90, Atlantic City, NewYork, USA, pp 322- 331 [4] Berndt D and Clifford J., 1994, Using dynamic time warping to find patterns in time series In Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94, Seattle, Washington, USA, pp 359-370 [5] Chan, K., Fu, A W., 1999, Efficient time series matching by wavelets In Proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [6] Ciaccia P., et al., 1997, M-tree: An Efficient Access Method for Similarity Search in Metric Spaces, In Proceedings of the 23rd VLDB International Conference, Athens, Greece, pp 426-435 [7] Cyrus S., et al., 2000, TSA-tree: A Wavelet-Based Approach to Improve the Efficiency of Multi-Level Surprise and Trend Queries on Time-Series Data, In Proceedings of the 12th International Conference on Scientific and Statistical Database Management, Berlin, Germany, pp 55-68 [8] Fabian M., 2003, Time series feature extraction for data mining using DWT and DFT, Technical Report No 33, Department of Mathematics and Computer Science, University of Marburg, Germany, 31 pages Huỳnh Hữu Việt 67 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều [9] Gunopulos D., et al.,1997, Finding similar time series In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [10] Guttman A., 1984, R-trees: A dynamic index structure for spatial searching, In Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD84, Boston, Massachusetts, USA, pp 4754 [11] Jiyuan A., et al., 2005, DDR: an index method for large time-series datasets, Information Systems, Volume 30, Issue 5, pp 333-348 [12] Katayama N and Satoh S., 1997, The SR-tree: An Index Structure for High-Dimensional Nearest Neighbor Queries, In Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, USA, pp 369-380 [13] Keogh E and Pazzani M., 1998, An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback, In Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, Aug 27-31 pp 239-241 [14] Keogh E., et al., 2001, An online algorithm for segmenting time series In Proceedings of the IEEE International Conference on Data Mining, California, USA, pp 289-296 [15] Keogh E., 2006, A Tutorial on Indexing and Mining Time Series Data, In Proceedings of the 32th International Conference on Very Large Databases, VLDB2006, Seoul, Korea [16] Keogh E., 2007, Mining Shape and Time Series Databases with Symbolic Representations, Tutorial of the 13rd ACM International Conference on Knowledge Discovery and Data Mining, KDD 2007, California, USA Huỳnh Hữu Việt 68 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều [17] Keogh E., et al., 2005, HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In Proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005), Louisiana, USA, pp 226-233 [18] Korn F., et al., 1997, Efficiently supporting ad hoc queries in large datasets of time sequences In Proceedings of the ACM SIGMOD International Conference on Management of Data, Tucson, Arizona, USA , pp.289-300 [19] Lavrenko V., et al., 2000, Mining of Concurent Text and Time Series, In Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining, Massachusetts, USA, pp 37-44 [20] Lee S., et al., 2003, Dimensionality Reduction for Indexing Time Series Based on the Minimum Distance, Journal of Information Science and Engineering, Volume 19, Issue 4, pp 697 -711 [21] Lkhagva B., et al., 2006, New Time Series Data Representation ESAX for Financial Applications In Proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering, ICDE 2006, Georgia, USA, pp 17-22 [22] Li C., et al., 1998, MALM: A framework for mining sequence database at multiple abstraction levels In Proceedings of the 7th ACM CIKM International Conference on Information and Knowledge Management, Bethesda, Maryland, USA, pp 267-272 [23] Li Q., et al., 2004, Skyline Index for Time Series Data, IEEE Transactions on Knowledge and Data Engineering, Volume 16, pp 669-684 [24] Lin J., et al., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 Huỳnh Hữu Việt 69 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều [25] Lin J., et al, 2007, Experiencing SAX: a novel symbolic representation of time series, Journal of Data Mining and Knowledge Discovery, Springer, Volume 10, Issue 2, pp.107-144 [26] Popivanov I., Miller R.J., 2002, Efficient Similarity Queries Over Time Series Data Using Wavelets, In Proceedings of the 18th International Conference on Data Engineering, San Jose, California, USA, pp 212 - 221 [27] NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/, 6/12/2007 [28] Park, S., et al., 2001, Segment-based approach for subsequence searches in sequence databases, In Proceedings of the 16th ACM Symposium on Applied Computing, Nevada, USA, pp 248-252 [29] Polly W P M and Wong M H., 2001, Efficient and robust feature extraction and pattern matching of time series by a lattice structure In Proceedings of the 10th ACM CIKM International Conference on Information and Knowledge Management, Atlanta, USA, pp 271-278 [30] Rafiei D and Mendelzon A O., 1998, Efficient retrieval of similar time sequences using DFT In Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms, Kobe, Japan, pp 249-257 [31] Rafiei D., 1999, On similarity-based queries for time series data In Proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 410-417 [32] Tufte E, 1992, The visual display of quantitative information Graphics Press, Cheshire, Connecticut [33] Wang C et al., Multilevel filtering for high dimensional nearest neighbor search In Proceedings of ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Dallas, Texas, USA, pp 37-43 [34] Web Page for clustering EEG data: “http://www- db.deis.unibo.it/~pcapitani/datasets/eeg/218c3EEG.rar” Huỳnh Hữu Việt 70 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều [35] Web Page for the UCR Time Series Data Mining Archive: “http://www.cs.ucr.edu/~eamonn/TSDMA/index.html” [36] Web Page for Time Series Stock Data: “http://www- Library: “http://www- cs.ucr.edu/~wli/FilteringData/stock.zip” [37] Web Page for Time Series Data personal.buseco.monash.edu.au/~hyndman/TSDL/” [38] Wikipedia, http://en.wikipedia.org/wiki/Time_series, 6/12/2007 [39] Wu Y., et al., 2000, A comparison of DFT and DWT based similarity search in time-series databases In Proceedings of the 9th ACM CIKM International Conference on Information and Knowledge Management, McLean, Virginia, USA, pp 488-495 [40] Xia B., 1997, Similarity Search in Time Series Data Sets, Master Thesis, Simon [41] Fraser University, Canada Yi B and Faloutsos C., 2000, Fast time sequence indexing for arbitrary lp norms, In Proceedings of the 26th International Conference on Very Large Databases, Cairo, Egypt, pp 385-394 [42] Zbigniew R S and Arno S., 1999, The Haar Wavelet Transform in the Time Series Similarity Paradigm, In Proceedings of Principles of Data Mining and Knowledge Discovery, 3rd European Conference, Prague, Czech Republic, pp 12-22 Huỳnh Hữu Việt 71 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Adaptive Piecewise Constant Approximation Association rule Classification Clustering Continuous Wavelet Transform Data mining Discrete Fourier transform Discrete Wavelet transform Dynamic Time Warping Grid-based Datawise Dimensionality Reduction High-dimensional data Information retrieval Minimum bounding rectangles Multi-dimensional index structure Piecewise Aggregate Approximation Piecewise Linear Approximation Rule discovery Signature files Similarity/distance measures Similarity search Singular Value Decomposition Subsequence matching Symbolic Aggregate approXimation Time series Whole matching Huỳnh Hữu Việt Thuật ngữ tiếng Việt Xấp xỉ số đoạn thích nghi Luật kết hợp Phân loại Gom cụm Biến đổi wavelet liên tục Khai phá liệu Phép biến đổi Fourier rời rạc Phép biến đổi Wavelet rời rạc Xoắn thời gian động Thu giảm số chiều dựa dạng lưới liệu Dữ liệu có số chiều lớn Truy hồi thơng tin Hình chữ nhật bao nhỏ Cấu trúc mục đa chiều Xấp xỉ gộp đoạn Xấp xỉ tuyến tính đoạn Tìm quy luật liệu Tập tin kí hiệu Độ đo tương tự/khoảng cách Tìm kiếm tương tự Phân rã giá trị riêng So trùng phần Xấp xỉ gộp ký hiệu hóa Chuỗi thời gian So trùng tồn Viết tắt APCA CWT DFT DWT DTW DDR IR MBR PAA PLA SVD SAX i ... cho phép nhận dạng mẫu có hình dạng giống chiều dài hình dạng mặt thời gian khác Huỳnh Hữu Việt 12 Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều ƒ Phương pháp DWT hiệu nhiều... Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều cho chuỗi thời gian đánh giá thích nghi tốt với thay đổi kích thước liệu ™ Cấu trúc PTrie: cấu trúc dạng không cân bằng, ... trùng chuỗi thời gian Huỳnh Hữu Việt Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều ™ So trùng mẫu: dựa vào mục lập trước đó, q trình truy vấn tìm kiếm chuỗi thời gian

Ngày đăng: 15/02/2021, 18:24

w