1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian

82 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI Đ HỌC QUỐC GIA TP.HCM TRƯ TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ MINH NHỰT PHÁT HIỆN ỆN MƠ TÍP VỚI CHIỀU DÀI DÀI KHÁC NHAU TRÊN DỮ Ữ LIỆU CHUỖI THỜI GIAN CHUYÊN NGÀNH NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ S CHUYÊN NGÀNH: 60.48.01 LUẬN VĂN THẠC SĨ TP.HCM, tháng 06 năm 2013 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Minh Nhựt……… Giới tính: Nam ฀/ Nữ ฀ Ngày, tháng, năm sinh: 02/06/1985 Nơi sinh: TP.HCM Chuyênngành: Khoa học Máy tính……………………………….Mã số: 60.48.01………………… 1-TÊN ĐỀ TÀI: PHÁT HIỆN MƠ TÍP VỚI CHIỀU DÀI KHÁC NHAU TRÊN DỮ LIỆU CHUỖI THỜI GIAN 2-NHIỆM VỤ VÀ NỘI DUNG: 3-NGÀY GIAO NHIỆM VỤ: 4-NGÀY HOÀN THÀNH NHIỆM VỤ:………………………………………………………… 5-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Dương Tuấn Anh………………………… Tp.HCM, ngày tháng năm 2013 CÁN BỘ HƯỚNG DẪN (Họ tên chữ kí) PGS.TS Dương Tuấn Anh CHỦ NHIÊM BỘ MÔN ĐÀO TẠO (Họ tên chữ kí) Phát mơ típ với chiều dài khác liệu chuỗi thời gian LỜI CẢM ƠN Để hồn thành luận văn này, tơi nhận giúp đỡ góp ý nhiều người Đầu tiên, xin gửi lời cảm ơn chân thành đến PGS TS Dương Tuấn Anh, người hướng dẫn tơi xun suốt q trình thực luận văn Với tâm huyết không quản thời gian, công sức, thầy tận tình bảo góp ý cho đề tài Tiếp theo, xin cảm ơn q thầy, khoa, người cung cấp cho kiến thức cần thiết để thực luận văn Cuối cùng, xin cảm ơn anh chị bạn lớp nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt q trình làm luận văn Một lần xin gửi lời cảm ơn chân thành đến tất người Lê Minh Nhựt – 10070491 i Phát mơ típ với chiều dài khác liệu chuỗi thời gian TÓM TẮT LUẬN VĂN Ngày nay, với phát triển không ngừng khoa học kỹ thuật việc lưu trữ, khai phá phân tích liệu chuỗi thời gian trở nên quan trọng sống người Tìm kiếm mơ típ tập liệu chuỗi thời gian kỹ thuật phổ biến việc khai phá liệu chuỗi thời gian Việc phát mơ típ giúp xác định đặc trưng liệu chuỗi thời gian, dự đoán thay đổi liệu tương lai Thấy tầm quan trọng việc phát mơ típ liệu chuỗi thời gian, nhà khoa học có nhiều cơng trình nghiên cứu để giải tốn Họ đưa nhiều giải thuật khác nhau, với cách tiếp cận khác để giải vấn đề Tuy nhiên, hạn chế phổ biến công trình nghiên cứu có tập trung phát mơ típ có chiều dài cố định Điều có nghĩa chiều dài mơ típ cần tìm phải xác định trước để cung cấp cho giải thuật hoạt động Do đó, giải thuật phát mơ típ có chiều dài định trước chuỗi liệu thời gian mà chúng khơng thể phát mơ típ khác có, với chiều dài khác chiều dài cung cấp Với hạn chế giải thuật phát mơ típ dựa vào chiều dài cố định, nhu cầu đặt tìm giải thuật phát mơ típ mà khơng cần biết trước chiều dài chúng Đề tài xem xét giải thuật thế, phát hầu hết mơ típ với chiều dài khác chuỗi thời gian Giải thuật nêu Heng Tang Stephen Liao [7] có khả phát mơ típ mà khơng cần biết trước thông tin liệu xem xét Giải thuật dựa vào tảng giải thuật chiếu ngẫu nhiên ma trận đụng độ chuỗi để giải vần đề Đề tài tiến hành nghiên cứu, thực thử nghiệm giải thuật so sánh kết thực nghiệm với giải thuật phát mơ típ dựa vào điểm cực trị quan trọng Lê Minh Nhựt – 10070491 ii Phát mơ típ với chiều dài khác liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường Đại học Bách Khoa TP.HCM hay trường khác Lê Minh Nhựt – 10070491 iii Phát mơ típ với chiều dài khác liệu chuỗi thời gian MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Phát mơ típ liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết thu 1.5 Cấu trúc luận văn CHƯƠNG 2: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các độ đo tương tự 2.1.1 Độ đo Euclid 2.1.2 Độ đo xoắn thời gian động 2.1.3 Độ đo chuỗi chung dài 2.2 Các phương pháp thu giảm số chiều 2.2.1 Các phương pháp biến đổi sang miền tần số 2.2.2 Các phương pháp xấp xỉ đoạn 10 2.3 Tổng quan cơng trình liên quan 12 2.3.1 Giải thuật EMMA 13 2.3.2 Giải thuật chiếu ngẫu nhiên 14 2.3.3 Giải thuật Mueen-Keogh 15 2.3.4 Kết luận 17 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 18 3.1 Định nghĩa 18 3.2 Thu giảm số chiều 21 3.3 Rời rạc hóa liệu 22 3.4 Độ đo tương tự 25 3.5 Giải thuật chiếu ngẫu nhiên 27 3.6 Giải thuật nối mơ típ 29 3.7 Tìm mẫu chung mơ típ 32 3.8 Kết luận 33 CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM 34 4.1 Mơ hình thực 34 4.1.1 Phát mơ típ có chiều dài khác 34 4.1.2 Phát mơ típ dựa vào điểm cực trị quan trọng 36 4.2 Kết thực nghiệm 37 4.2.1 Dữ liệu điện tâm đồ với kích thước 7900 điểm 38 4.2.2 Dữ liệu Memory kích thước 6800 điểm 43 4.2.3 Dữ liệu Power kích thước 35000 điểm 49 4.2.4 Dữ liệu điện tâm đồ kích thước 144000 điểm 54 4.3 Nhận xét kết thực nghiệm 60 CHƯƠNG 5: KẾT LUẬN 62 5.1 Tổng kết 62 5.2 Những đóng góp đề tài 62 5.3 Hướng phát triển đề tài 63 TÀI LIỆU THAM KHẢO 64 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT i Lê Minh Nhựt – 10070491 iv Phát mơ típ với chiều dài khác liệu chuỗi thời gian DANH MỤC HÌNH Hình 1-1: Dữ liệu chứng khốn Việt Nam ghi nhận lại Hình 1-2: Một chuỗi thời gian có xuất chuỗi tương tự A,B,C (hình trên) Hình phóng to chuỗi A,B,C (hình dưới) (nguồn [5]) Hình 2-1: Khoảng cách Euclid hai chuỗi thời gian Q C (Từ nguồn [5]) Hình 2-2: Độ đo xoắn thời gian động (nguồn [17]) Hình 2-3: Các phương pháp biến đổi sang miền tần số (nguồn [17]) 10 Hình 2-4: Các phương pháp xấp xỉ đoạn (nguồn [17]) 12 Hình 2-5: Minh họa ý tưởng giải thuật MK (nguồn [6]) 15 Hình 2-6: Minh họa việc cập nhật best-so-far giải thuật MK (nguồn [6]) 16 Hình 3-1: Xác định chuỗi chuỗi thời gian cách dùng cửa sổ trượt có kích thước w (Từ nguồn [7]) 19 Hình 3-2: Minh họa chuỗi thời gian T, hai chuỗi C (nét đậm) M (nét xám), M trùng với C (Từ nguồn [4]) 19 Hình 3-3: Minh họa chuỗi thời gian T, chuỗi C hai chuỗi trùng tầm thường C lệch bên trái bên phải C vài điểm (Từ nguồn [4]) 20 Hình 3-4: Sự trùng lắp thể hai mơ típ với D(Ck,Ci) > R (hình trên) tách biệt thể hai mơ típ với D(Ck,Ci) > 2R (hình dưới) (nguồn [5]) 21 Hình 3-5: Thu giảm số chiều chuỗi thời gian C chuỗi có hình dạng bậc thang (nguồn [5]) 22 Hình 3-6: Sự phân bố xác suất chuỗi chiều dài 128 có dạng phân bố Gauss (nguồn [5]) 23 Hình 3-7: Chuỗi thời gian rời rạc hóa sử dụng PAA SAX Từ thu baabccbc (nguồn [5]) 25 Hình 3-8: Khoảng cách hai chuỗi thời gian biểu diễn dạng từ 27 Hình 3-9: Xây dựng ma trận từ chuỗi thời gian T có chiều dài m = 1000, chiều dài mơ típ có chuỗi thời gian 16, chiều dài từ 4, tập ký hiệu gồm ký tự Số lượng chuỗi (1000 -16 + 1) = 985, số dòng ma trận (nguồn [4]) 28 Lê Minh Nhựt – 10070491 v Phát mô típ với chiều dài khác liệu chuỗi thời gian Hình 3-10: Các chuỗi băm vào túi với mặt nạ chọn cột 1,2 (hình bên trái) trạng thái ma trận đụng độ với ô(1,58) ô(2,985) tăng giá trị lên (hình bên phải) (nguồn [4]) 29 Hình 3-11: Các chuỗi băm vào túi với mặt nạ chọn cột 2,4 (hình bên trái) trạng thái ma trận đụng độ với ơ(1,58) có giá trị tăng giá trị thêm (hình bên phải) (nguồn [4]) 29 Hình 3-12: Biểu diễn ma trận đụng độ chuỗi Các mơ típ nhỏ tạo thành đoạn thẳng hướng lên (hình bên trái) mơ típ lớn thật chúng (hình bên phải) (nguồn [7]) 30 Hình 3-13: Khu vực tìm kiếm xác định số d (hình vng nét đứt), hai vectơ hai hệ số góc α1 α2 giới hạn khu vực hợp lệ hệ số góc (phần gạch chéo) (nguồn [7]) 31 Hình 3-14: Sự trùng lắp phân đoạn đối xứng chúng (nguồn [7]) 32 Hình 3-15: Tìm mẫu tổng quát cách cắt bỏ phần dư thừa tính giá trị trung bình phân đoạn (nguồn [7]) 33 Hình 4-1: Mơ hình hoạt động phương pháp phát mơ típ có chiều dài khác 35 Hình 4-2: Mơ hình hoạt động phương pháp phát mơ típ dựa vào điểm cực trị quan trọng 36 Hình 4-3: Biểu diễn liệu điện tâm đồ có kích thước 7900 điểm 38 Hình 4-4: Kết hiển thị chương trình sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 39 Hình 4-5: Các thể mơ típ dài ứng với lớp tương đương 138 sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 39 Hình 4-6: Mẫu chung thu mơ típ ứng với lớp 138sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 40 Hình 4-7: Các thể mơ típ ứng với lớp tương đương 102 sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 40 Hình 4-8: Các thể mơ típ ứng với lớp tương đương 84 sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 41 Hình 4-9: Các thể mơ típ ứng với lớp tương đương 75 sau chạy giải thuật MC liệu ECG 7900 điểm với w_PAA = 20, w = 20 41 Hình 4-10: Kết hiển thị chương trình sau chạy giải thuật EP_C liệu ECG 7900 điểm 42 Lê Minh Nhựt – 10070491 vi Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 4-11: Biểu diễn mơ típ kết sau chạy giải thuật EP_C liệu ECG 7900 điểm 43 Hình 4-12: Biểu diễn liệu Memory có kích thước 6800 điểm 44 Hình 4-13: Kết hiển thị chương trình sau chạy giải thuật MC liệu Memory 6800 điểm với w_PAA = 20, w = 20 45 Hình 4-14: Các thể mơ típ ứng với lớp tương đương 209 sau chạy giải thuật MC liệu Memory 6800 điểm với w_PAA = 20, w = 20 45 Hình 4-15: Các thể mơ típ ứng với lớp tương đương 132 sau chạy giải thuật MC liệu Memory 6800 điểm với w_PAA = 20, w = 20 46 Hình 4-16: Các thể mơ típ ứng với lớp tương đương 23 sau chạy giải thuật MC liệu Memory 6800 điểm với w_PAA = 20, w = 20 46 Hình 4-17: Các thể mơ típ ứng với lớp tương đương 21 sau chạy giải thuật MC liệu Memory 6800 điểm với w_PAA = 20, w = 20 47 Hình 4-18: Kết hiển thị chương trình sau chạy giải thuật EP_C liệu Memory 6800 điểm 48 Hình 4-19: Biểu diễn mơ típ kết sau chạy giải thuật EP_C liệu Memory 6800 điểm 48 Hình 4-20: Biểu diễn liệu Power có kích thước 35000 điểm 49 Hình 4-21: Kết hiển thị chương trình sau chạy giải thuật MC liệu Power 35000 điểm với w_PAA = 20, w = 20 50 Hình 4-22: Các thể mơ típ ứng với lớp tương đương 385 sau chạy giải thuật MC liệu Power 35000 điểm với w_PAA = 20, w = 20 51 Hình 4-23: Các thể mơ típ ứng với lớp tương đương 1302 sau chạy giải thuật MC liệu Power 35000 điểm với w_PAA = 20, w = 20 51 Hình 4-24: Các thể mơ típ ứng với lớp tương đương 1114 sau chạy giải thuật MC liệu Power 35000 điểm với w_PAA = 20, w = 20 52 Hình 4-25: Các thể mơ típ ứng với lớp tương đương 38 sau chạy giải thuật MC liệu Power 35000 điểm với w_PAA = 20, w = 20 52 Hình 4-26: Kết hiển thị chương trình sau chạy giải thuật EP_C liệu Power 35000 điểm 53 Hình 4-27: Biểu diễn mơ típ kết sau chạy giải thuật EP_C liệu Power 35000 điểm 54 Hình 4-28: Biểu diễn liệu ECG có kích thước 144000 điểm 55 Lê Minh Nhựt – 10070491 vii Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 4-30: Các thể mơ típ dài ứng với lớp tương đương 4323sau chạy giải thuật MC liệu ECG 144000 điểm với w_PAA = 40, w = 10 Hình 4-31: Các thể mơ típ ứng với lớp tương đương 4134sau chạy giải thuật MC liệu ECG 144000 điểm với w_PAA = 40, w = 10 Lê Minh Nhựt – 10070491 Trang 57 Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 4-32: Các thể mơ típ ứng với lớp tương đương 2074sau chạy giải thuật MC liệu ECG 144000 điểm với w_PAA = 40, w = 10 Hình 4-33: Các thể mơ típ ứng với lớp tương đương 2083sau chạy giải thuật MC liệu ECG 144000 điểm với w_PAA = 40, w = 10 Chúng thực vài thử nghiêm với thông số khác tập liệu nhận thấy tốc độ giải thuật phụ thuộc vào chiều dài w_PAA Giá trị w_PAA nhỏ tốc độ giải thuật chậm tập liệu có kích thước lớn Khi chúng tơi thử thực thử nghiệm với w_PAA = 80, w = 10, thông số Lê Minh Nhựt – 10070491 Trang 58 Phát mơ típ với chiều dài khác liệu chuỗi thời gian khác thử nghiệm Thời gian chạy giải thuật MC lúc 311576ms (5 phút 11 giây 576 mili giây) độ xác mơ típ bị giảm Qua kết thực nghiệm, nhận thấy giải thuật có khả phát mơ típ tốt Các chuỗi có nhiễu có hình dạng biến đổi tương đối giống phát mơ típ 4.2.4.2 Giải thuật phát mơ típ dựa vào điểm cực trị quan trọng Sau thử nghiệm giải thuật phát mơ típ có chiều dài khác với tập liệu ECG 144000 điểm, tiếp tục thử nghiệm giải thuật phát mơ típ dựa vào điểm cực trị quan trọng tập liệu Các thông số đầu vào giải thuật sau: Ký hiệu Giá trị Chú thích R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif r 0.2 Tổng số cụm/ tổng số điểm cực trị l_resample 500 Chiều dài ứng viên motif sau lấy mẫu Sau chạy giải thuật, chúng tơi thu 85 thể mơ típ Thời gian chạy giải thuật 47831ms (47giây 831 mili giây) Kết chương trình hình 4-34 Hình 4-35 biểu diễn thể mơ típ tìm Hình 4-34: Kết hiển thị chương trình sau chạy giải thuật EP_C liệu ECG kích thước 144000 điểm Lê Minh Nhựt – 10070491 Trang 59 Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 4-35: Biểu diễn mơ típ kết sau chạy giải thuật EP_C liệu ECG 144000 điểm 4.2.4.3 Kết luận kết thực nghiệm thu hai giải thuật Dựa vào kết thu từ thực nghiệm hai giải thuật tập liệu ECG 144000 điểm, nhận thấy giải thuật phát mơ típ có chiều dài khác có ưu điểm so với giải thuật phát mơ típ dựa vào điểm cực trị quan trọng sau:  Phát mơ típ có chiều dài khác tốt  Phát hầu hết mơ típ có tập liệu 4.3 Nhận xét kết thực nghiệm Qua kết thực nghiệm mà thực hiện, nhận thấy giải thuật phát mơ típ với chiều dài khác (MC) đạt mục tiêu đề phát hầu hết mô típ có liệu chuỗi thời gian So sánh với giải thuật phát mơ típ dựa vào điểm cực trị quan trọng (EP_C) hai giải thuật đạt mục đích phát mơ típ mà thể mơ típ có chiều dài khác Tuy nhiên, giải thuật EP_C khơng phát mơ típ có chiều dài khác liệu, giải thuật MC đạt điều MC phát hầu hết mơ típ từ nhỏ đến lớn liệu chuỗi thời gian Lê Minh Nhựt – 10070491 Trang 60 Phát mơ típ với chiều dài khác liệu chuỗi thời gian Xét độ xác, giải thuật MC phụ thuộc vào kết giải thuật chiếu ngẫu nhiên nên cho kết chưa xác mơ típ nhỏ, mơ típ lớn tìm tương đối xác Thời gian chạy giải thuật MC không chậm thời gian chạy giải thuật EP_C tập liệu nhỏ Đối với tập liệu lớn tập liệu có biến đổi giống (ví dụ liệu điện tâm đồ) giải thuật MC cho kết chậm giải thuật EP_C nhiều Khi chạy giải thuật MC tập liệu lớn, ma trận đụng độ sinh từ giải thuật chiếu ngẫu nhiên lớn, điều góp phần làm tăng thời gian giải thuật MC Đối với liệu có biến đổi giống xuyên suốt chuỗi thời gian giải thuật MC phải phát mơ típ có chiều dài lớn theo phương pháp nối mơ típ, kết làm tăng thời gian thực thi Ngoài phụ thuộc vào liệu, giống giải thuật khác, tốc độ thực thi độ xác việc phát mơ típ giải thuật MC phụ thuộc vào việc chọn thông số đầu vào hợp lý Giá trị w_PAA w lớn thời gian chạy nhanh, khả phát mơ típ độ xác giảm ngược lại Lê Minh Nhựt – 10070491 Trang 61 Phát mơ típ với chiều dài khác liệu chuỗi thời gian CHƯƠNG 5: KẾT LUẬN 5.1 Tổng kết Phát mơ típ liệu chuỗi thời ngày ứng dụng nhiều sống người Vấn đề đặt cho nhà khoa học tìm phương pháp phát mơ típ ngày tốt để giải tốn thực tế Các cơng trình nghiên cứu nêu nhiều giải thuật khác với cách tiếp cận khác để giải vần đề Nhưng đa số giải thuật phát mơ típ với chiều dài cố định Phương pháp sử dụng đề tài khắc phục hạn chế Ý tưởng phương pháp sử dụng giải thuật chiếu ngẫu nhiên để tìm mơ típ có chiều dài nhỏ Sau mơ típ nhỏ nối lại để tạo thành mơ típ lớn Kết thực nghiệm cho thấy giải thuật có khả phát mơ típ tốt Giải thuật nối mơ típ đáp ứng u cầu đề phát mơ típ có chiều dài khác Nó phát hầu hết mơ típ liệu chuỗi thời gian Các thể mơ típ có chiều dài khác Giải thuật có khả phát mơ típ mà thể có nhiễu thể có biến đổi khác dạng biến đổi tổng quát giống Ngồi kết tốt đạt giải thuật có số hạn chế Giải thuật sử dụng kết giải thuật chiếu ngẫu nhiên với chiều dài chuỗi truyền vào ngắn làm tăng thời gian thực thi giải thuật tập liệu lớn Thời gian thực thi giải thuật tăng lên liệu có biến đổi giống qua thời gian, chiều dài mơ típ tìm gần chiều dài liệu 5.2 Những đóng góp đề tài Lê Minh Nhựt – 10070491 Trang 62 Phát mơ típ với chiều dài khác liệu chuỗi thời gian Đề tài thực thử nghiệm phương pháp phát mơ típ có chiều dài khác đạt kết khả quan Đề tài giúp ích việc phát mơ típ tốn mà khơng biết trước chiều dài mơ típ Đề tài tiến hành thử nghiệm tập liệu mẫu so sánh kết với phương pháp phát mô típ khác phương pháp phát mơ típ dựa vào điểm cực trị quan trọng Các kết đạt chất kích thích giúp nhà nghiên cứu phát triển phương pháp tốt để phát mơ típ có chiều dài khác 5.3 Hướng phát triển đề tài Đề tài sử dụng kết giải thuật chiếu ngẫu nhiên, sau sử dụng giải thuật nối mơ típ để tiến hành phát mơ típ có chiều dài khác Do thời gian thực đề tài ngắn nên nghiên cứu đề tài cách sâu Chúng tơi thấy có số hướng phát triển đề tài tương lai sau:  Chúng thử nghiệm giải thuật số tập liệu mẫu Do đó, cần phải thu thập thêm nhiều nguồn liệu chuỗi thời gian khác để tiến hành thử nghiệm đưa phân tích đánh giá nhiều  Nghiên cứu cải tiến giải thuật để tăng tốc độ xử lý tập liệu lớn  Việc phát mơ típ có chiều dài lớn giúp giải thuật ứng dụng vào lĩnh vực dự báo liên quan đến liệu chuỗi thời gian dự báo giá chứng khoán, dự báo thời tiết, phân tích mơ hình tăng trưởng công ty… Lê Minh Nhựt – 10070491 Trang 63 Phát mơ típ với chiều dài khác liệu chuỗi thời gian TÀI LIỆU THAM KHẢO [1] Jessica Lin, Eamonn Keogh, Stefano Lonardi, Bill Chiu, “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms”, in Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA June 13 [2] Jeremy Buhler, Martin Tompa, “Finding motifs using random projections”, in Proceedings of the fifth annual international conference on Computational biology, April 2001 [3] Eamonn J Keogh, Michael J Pazzani, “Dimensionality reduction for fast similarity search in large time series databases”, Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286 [4] Bill Chiu, Eamonn Keogh, Stefano Lonardi, “Probabilistic discovery of time series motifs”, in Proceedings of the 9th International Conference on Knowledge Discovery and Data mining, Washington, D.C., 2003 [5] Jessica Lin, Eamonn Keogh, Pranav Patel, Stefano Lonardi, “Finding motifs in time series”, in The 2nd Workshop on Temporal Data Mining, at the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Edmonton, Alberta, Canada [6] Abdullah Mueen, Eamonn Keogh, Qiang Zhu, Sydney Cash, “Exact Discovery of Time Series Motifs”, SDM 2009, 473-484 [7] Heng Tang, Stephen Shaoyi Liao, “Discovering original motifs with different lengths from time series”, in Journal Knowledge-Based Systems, Volume 21 Issue 7, October, 2008 [8] Berndt, D and Clifford J., 1994, “Using dynamic time warping to find patterns in time series”, in Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94, Seattle, Washington, USA, pp 359-370 [9] Vlachos, M., Gunopulos, D., Das, G., 2004, “Indexing Time Series under Condition of Noise”, in M Last, A Kandel & H Bunke (Eds.), Data Mining in Time Series Databases, World Scientific Publishing, 2004 Lê Minh Nhựt – 10070491 Trang 64 Phát mơ típ với chiều dài khác liệu chuỗi thời gian [10] R Agrawal, C Faloutsos, A Swami, “Efficient similarity search in sequence databases”, in Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms (FODO '93), Chicago, Illinois, USA, October 13-15, 1993, pp 69-84 [11] Chan, K., Fu, A W., 1999, “Efficient time series matching by wavelets”, in Proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [12] E Keogh, M J Pazzani, “An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback”, in Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York City, New York, USA, Aug 27-31, 1998, pp 239-241 [13] E Keogh, S Chu, D Hart, M J Pazzani, “An online algorithm for segmenting time series”, in Proceedings of the IEEE International Conference on Data Mining (ICDM '01), San Jose, California, USA, 29 Nov 2001 - 02 Dec 2001, pp 289-296 [14] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, “Locally adaptive dimensionality reduction for indexing large time series databases”, in Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 [15] Pevzner, P A & Sze, S H (2000) “Combinatorial approaches to finding subtle signals in DNA sequences”, in Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology La Jolla, CA, Aug 19-23 pp 269-278 [16] Gruber,C.,M Coduro, Sick,B., “Signature Verification With Dynamic RBF Network and Time Seried Motif” , The 10th International Workshop on Frontiers in Hand Writing Recognition 2006 [17] Keogh E., “A Tutorial on Indexing and Mining Time Series Data”, in Proceedings of the 32th International Conference on Very Large Databases, VLDB2006, Seoul, Korea, 2006 Lê Minh Nhựt – 10070491 Trang 65 Phát mơ típ với chiều dài khác liệu chuỗi thời gian [18] Huỳnh Nguyễn Tín, “Nhận dạng motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng”, Luận văn Thạc sĩ, Khoa Khoa học Kỹ thuật Máy tính, Trường Đại học Bách Khoa TP Hồ Chí Minh, 7/2012 Lê Minh Nhựt – 10070491 Trang 66 Phát mơ típ với chiều dài khác liệu chuỗi thời gian PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT Thuật ngữ tiếng Anh Thuật Ngữ Tiếng Việt Viết tắt Non-Trivial match Trùng không tầm thường Trivial match Trùng tầm thường Longest Common Subsequence Chuỗi chung dài LCS Dinamic Time Wraping Xoắn thời gian động DTW Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Discrete Wavelet Transform Biến đổi Wavelet rời rạc DWT Piecewise Linear Approximation Xấp xỉ tuyến tính đoạn PLA PiecewiseAggregate Approximation Xấp xỉ gộp đoạn PAA Adaptive Piecewise Constant Xấp xỉ số đoạn thích APCA Approximation nghi Motif Mơ típ Dimensionality Reduction Thu giảm số chiều Discretization Rời rạc hóa Random Projection Chiếu ngẫu nhiên Collision matrix Ma trận đụng độ Subsequence Chuỗi Lê Minh Nhựt – 10070491 Trang A i Phát mơ típ với chiều dài khác liệu chuỗi thời gian Mask Mặt nạ Motif concatenation Nối mơ típ Segment Phân đoạn Equivalent class Lớp tương đương Partition Phân hoạch Lê Minh Nhựt – 10070491 Trang A ii Phát mơ típ với chiều dài khác liệu chuỗi thời gian LÝ LỊCH TRÍCH NGANG Họ tên: Lê Minh Nhựt Ngày sinh: 02/06/1985 Nơi sinh: TP.HCM Địa liên lạc: 152 đường 355, ấp Hậu, xã Tân An Hội, huyện Củ Chi, TP.HCM Email: nhutlm@gmail.com Lê Minh Nhựt – 10070491 Phát mơ típ với chiều dài khác liệu chuỗi thời gian QUÁ TRÌNH ĐÀO TẠO Thời gian 2003-2008 Trường đào tạo Chuyên ngành Trường Đại học Bách Cơng nghệ Thơng tin Trình độ đào tạo Kỹ sư Khoa TPHCM 2010-2013 Trường Đại học Bách Khoa học Máy tính Khoa TPHCM Lê Minh Nhựt – 10070491 Thạc sĩ Phát mơ típ với chiều dài khác liệu chuỗi thời gian Q TRÌNH CƠNG TÁC Thời gian 2008-2009 Đơn vị cơng tác Vị trí cơng tác Cơng ty Global Cyber Soft, Cơng viên phần Lập trình viên mềm Quang Trung , TP.HCM 2009-2013 Công ty Cổ phần Vân tải Giao nhận Bia Sài Lập trình viên Gịn, 78 Tơn Thất Thuyết, phường 16, quận 4, TP.HCM Lê Minh Nhựt – 10070491 ... típ với chiều dài khác liệu chuỗi thời gian chuỗi liệu thời gian Chúng khơng thể phát mơ típ khác có, với chiều dài khác chiều dài cung cấp Một hạn chế khác việc xác định trước chiều dài mơ típ. .. 10070491 Trang Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 1-1: Dữ liệu chứng khoán Việt Nam ghi nhận lại 1.2 Phát mơ típ liệu chuỗi thời gian Dữ liệu chuỗi thời gian tồn nhiều ứng... 10070491 Trang 27 Phát mơ típ với chiều dài khác liệu chuỗi thời gian Hình 3-9: Xây dựng ma trận từ chuỗi thời gian T có chiều dài m = 1000, chiều dài mơ típ có chuỗi thời gian 16, chiều dài từ 4, tập

Ngày đăng: 20/03/2022, 01:20

Xem thêm:

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w