Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau. Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, . . . Việc dự báo dữ liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích. Nhiều phương pháp, mô hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM. Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao, chạy nhanh và có khả năng thực thi trực tuyến (online). Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014. Phương pháp này đạt được độ chính xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến và thời gian thực thi còn lớn. Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển của lĩnh vực dự báo về dữ liệu chuỗi thời gian.
ĐẠI HỌC QUỐC GIA TP Hồ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HỮU LỘC KẾT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỘ ĐO DTW CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN Combining important extreme points and DTW measure in time series prediction Ngành : Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS DƯONG TUẤN ANH Cán chấm nhận xét : TS Phạm Văn Chung Cán chấm nhận xét : TS.Lê Văn Quốc Anh Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 12 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Bùi Hoài Thắng TS Võ Thị Ngọc Châu TS Phạm Văn Chung TS Lê Văn Quốc Anh PGS.TS Trần Văn Hoài Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa CHỦ TỊCH HỘI ĐÒNG TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ •••• Họ tên học viên: NGUYỄN HỮU LỘC MSHV: 1570218 Ngày, tháng, năm sinh: 13/01/1985 Nơi sinh: Long An Ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101., I TÊN ĐỀ TÀI: Kết hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW cho toán dự báo liệu chuỗi thời gian II NHIỆM VỤ VÀ NỘI DUNG: Đề xuất phương pháp kết hợp điểm cự trị quan trọng, độ đo xoắn thời gian động DTW giải thuật k lân cận gần K-NN cho toán dự báo chuỗi liệu thời gian III NGÀY GIAO NHIỆM VỤ: 15/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2018 V CÁN BỘ HƯỚNG DẪN : PGS TS DƯƠNG TUẤN ANH Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỞNG DẪN (Họ tên chữ ký) TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ LỜI CÁM ƠN Tôi xin gởi lời cám ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, Thầy tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận văn Xin chân thành cảm ơn tất quý Thầy Cô Khoa Khoa học Kỹ Thuật Máy Tính tận tình truyền đạt kiến thức quý báu cho suốt trình học tập Cuối hết, cảm ơn gia đĩnh động viên tạo điều kiện tốt để tiếp tục đường học tập nghiên cứu Con trân trọng dành tặng thành luận văn cho Ba Mẹ gia đĩnh KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ TÓM TẮT Chuỗi thời gian (time series) chuỗi trị số thực, trị biểu diễn giá trị đo thời điểm cách Dữ liệu chuỗi thời gian phổ biến nhiều lĩnh vực kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, Việc dự báo liệu chuỗi thời gian ngày quan trọng đặc biệt hữu ích Nhiều phương pháp, mơ hình dự báo đề xuất thực hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ xác cao, chạy nhanh có khả thực thi trực tuyến (online) Một công trình nghiên cứu đại gần kết họp phương pháp phân đoạn điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) đề xuất Tsinaslanidis Kugiumtzis vào 2014 Phương pháp đạt độ xác dự báo cao, nhiên phương pháp đạt yêu cầu chạy trực tuyến thời gian thực thi lớn Từ cơng trình nghiên cứu nghiên cứu khác có liên quan, đề tài nghiên cứu đề xuất mơ hình kết họp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian, có khả thực thi nhanh có độ xác cao, đóng góp phần nhỏ vào phát triển lĩnh vực dự báo liệu chuỗi thời gian KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ ABSTRACT Time series is a series of real values, each of which represents a measured value at evenly spaced intervals Time series data are common in many areas such as economy, finance, engineering, medicine, geography, meteorology, and meteorology, Forecasting of time series data is increasingly important and particularly useful Many methods, forecasting models have been proposed and implemented such as regression, ARIMA, exponential smoothing, ANN, and SVM However, today's forecasting requires high accuracy, fast execution and online performance One of the recent recent studies is a combination of the PIP critical point and dynamic time warping (DTW) measure method proposed by Tsinaslanidis and Kugiumtzis in 2014 The prediction accuracy of this approach is high, however, this method can not meet the requirements of online prediction and the execution time is still high From the above studies and other related studies, this research proposes a model combining the method of segmentation by the important extreme points and the accelerated DTW measure for the forecasting problem With fast execution and high prediction accuracy, the proposed method contributes a small part to the development of the field of study of time series prediction KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN LỜI CAM ĐOAN Tôi xin cam đoan kết báo cáo luận văn chương trình sản phẩm cơng sức lao động tơi thực hiện, khơng có chép từ cơng trình khác, ngoại trừ kết từ công trình khác ghi rõ luận văn Tất kiến thức học hỏi từ tài liệu tham khảo trích dẫn nguồn đầy đủ Nếu có sai phạm so với lời cam đoan, tơi xin chịu hình thức xử lý theo quy định KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ MUC LUC •• CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giói thiệu vấn đề 1.2 Mục tiêu 1.3 Phạm vi nghiên cứu 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG 2: Cơ SỞ LÝ THUYẾT 2.1 Chuỗi thời gian 2.2 Các thành phần chuỗithời gian 2.2.1 Thành phần xu hướng 2.2.2 Thành phần chu kỳ 2.2.3 Thành phần theo mùa 2.2.4 Thành phần bất quy tắc 2.3 Bài toán dự báo 2.3.1 Các phương pháp dự báo truyền thống 2.3.1.1 Hồi quy 2.3.1.2 Mơ hình tự hồi quy tích hợp với trung bĩnh trượt (ARIMA) 2.3.1.3 Phương pháp làm trơn hàm mũ 2.3.2 Các phương pháp dự báo đại (học máy) - 2.3.2.1 Mạng nơ ron nhân tạo - 2.3.2.2 Máy hỗ vector trợ 10 2.3.2.3 Giải 11 thuật tìm k lân cận gần (k-NN) KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ 2.4 Phân biệt dự báo trực tuyến, không trực tuyến 11 2.5 Giải thuật K-NN dùng dự báo 12 2.6 Độ đo xoắn thời gian động (Dynamic Time Wraping -DTW) 14 2.6.1 Giói thiệu 14 2.6.2 Tính tốn độ đo DTW 17 2.6.3 Kỹ thuật ràng buộc toàn cục 22 2.6.4 Kỹ thuật tính chặn 23 2.6.4.1 Phương pháp tính chặn Kim 23 2.6.4.2 Phương pháp tính chặn Yi .24 2.6.4.3 Phương pháp tính chặn Keogh 25 2.7 Chuẩn hóa liệu .28 2.7.1 Chuẩn hóa liệu min-max 28 2.7.2 Chuẩn hóa liệu z-score 28 2.8 Phép vị tự (Homothetic transformation) 29 2.9 Các tiêu chí đánh giá độ xác dự báo 30 CHƯƠNG 3: CÁC CƠNG TRÌNH LIÊN QUAN 31 3.1 3.1.1 Các phương pháp phân đoạn 31 Điểm quan trọng (Perceptually important point - PIP) 31 3.1.2 -Điểm cực trị quan trọng (Important Extreme Point - IEP) 32 3.2 Dự báo liệu thời gian mạng nơ rơn nhân tạo 34 3.3 Dự báo liệu thời gian phương pháp phân đoạn dựa vào điểm PIP kết hợp với độ đo DTW 35 3.4 3.4.1 Bộ kỹ thuật UCR-DTW để tăng tốc việc tính tốn độ đo DTW 36 Sử dụng khoảng cách bình phương - 36 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ 3.4.2 Kỹ thuật LB_Kim .37 3.4.3 Kỹ thuật LB_KimFL 37 3.4.4 Kỹ thuật từ bỏ sớm LB_Keogh 38 3.4.5 Kỹ thuật từ bỏ sớm DTW .38 3.4.6 Kỹ thuật đảo ngược LB_Keogh 39 CHƯƠNG 4: PHƯƠNG PHÁP Dự BÁO ĐỀ XUẤT 41 4.1 Mơ hình tổng quan 41 4.2 Mơ hình chi tiết 42 4.3 Chi tiết module hệ thống 43 4.3.1 Phân đoạn liệu phương pháp điểm cực trị quan trọng .43 4.3.2 Tìm chuỗi đích chuỗi nguồn .45 4.3.3 Chuẩn hóa liệu 45 4.3.4 Thay đổi chiều dài chuỗi nguồn phép vị tự 46 4.3.5 Sử dụng UCR-DTW để tăng tốc độ tìm kiếm 47 4.3.6 Giải thuật K-NN 47 4.3.7 Tìm giá trị tương ứng, chuẩn hóa lấy trung bình cộng .48 4.3.8 Tìm giá trị cần dự báo - 49 4.4 Tìm hệ số k, hệ số nén R, bề rộng dải Sakoe-Chiba r - 51 CHƯƠNG 5: THựC NGHIỆM VÀ ĐÁNH GIÁ 52 5.1 Giói thiệu tập liệu thực nghiệm - 52 5.2 Kết thực nghiệm 54 5.3 So sánh độ đo DTW túy tăng tốc UCR-DTW 60 5.3.1 Số lần gọi độ đo xoắn thời gian động DTW - 60 5.3.2 Thời gian thực thi DTW túy UCR-DTW 61 KẾT HỢP PHƯƠNG PHÁP PHẢN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN Dự BÁO Dữ LIỆU CHUỒI THỜI GIAN _ Hình 5.12 Biểu đồ chuỗi liệu mẫu kết quà dự báo dừ liệu Fancy Thực nghiệm liệu số người chết trung bình hàng tháng bệnh phổi Anh Với k =3, R = 2.2, tập huấn luyện 60 giá trị, tập kiểm tra 12 giá trị Kết dự báo: MAPE = 9.041, MAD: 135.666, MSE: 32704.166 Hình 5.13, 5.14 minh họa kết dự báo liệu Mdeaths Original data Predicted data 2500- 2000- 1500- 1000- 500- 0— -1 12 Hình 5.13 Ket quả5 dự báo dừ 9liệu Mdeaths 78 10 11 Hình 5.14 Biổu dồ chuỗi dừ liệu mẫu kết dự báo liệu Mdeaths 57 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ Thực nghiệm liệu lưu lượng dòng nước đỏ Alberta từ năm 1942 đến 1974 Vói k =2, R=14, tập huấn luyện 384 giá trị, tập liệu kiểm tra 12 giá trị Kết dự báo: MAPE = 40.379, MAD: 19.625, MSE: 800.862 Hình 5.15, 5.16 minh họa kết dự báo liệu Red deer Hình 5.15 Kết dự báo liệu Red deer Hình 5.16 Biểu đồ chuỗi liệu mẫu kết dự báo liệu Red deer Thực nghiệm liệu lượng tiêu thụ khí đốt trung bình theo quý Anh Với k =1, R=3.4, tập huấn luyện 85 giá trị, tập kiểm tra 23 giá trị Kết dự báo: MAPE = 6.571, MAD: 38.3, MSE: 2606.712 58 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ Hình 5.17, 5.18 minh họa kết dự báo liệu UKgas Original data Predicted data 1200—1 1000- 800- 600- 400- 200- 0-1 14 19 Hình 5.17 Kết dự báo liệu UKgas Hình 5.18 Biểu đồ chuỗi liệu mẫu kết dự báo liệu UKgas Kết dự báo tập liệu có độ xác cao, có tập liệu có độ xác thấp liệu lưu lượng dòng nước đỏ Alberta từ năm 1942 đến 1974 Nguyên nhân liệu có độ hỗn loạn cao nên khó dự báo Cách khắc phục cần phải gọt điểm nhọn bất thường trước ta tiến hành dự báo (Không nằm yêu cầu đề tài luận văn này) Nhìn chung kết dự báo cho thấy phương pháp dự báo “Ket hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thòi gian” có độ xác cao, giải thuật chạy nhanh nên phù họp với dự báo trực tuyến 59 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ 5.3 So sánh độ đo DTW túy tăng tốc UCR-DTW Ta cần thực nghiệm để xem xét tăng tốc UCR-DTW thực tế có chạy nhanh so với độ đo túy DTW hay không Ta biết độ phức tạp giải thuật tính tốn độ đo DTW 0(m*n) Trong UCR-DTW tiến hành liên hoàn số kỹ thuật có kỹ thuật từ bỏ sớm nhằm bỏ qua sớm chuỗi nguồn có độ tuơng đồng thấp 5.3.1 Số lần gọi độ đo xoắn thời gian động DTW Tiến hành chạy thử nghiệm liệu dự án R duới kết so sánh số lần gọi độ đo xoắn thời gian động DTW túy tăng tốc UCRDTW DTW túy AirPassenge rs C02 Fancy Mdeaths Reddeer Ukgas Bộ UCR-DTW 110 1531 59 28 240 88 60 1000 25 22 80 33 Bảng Số liệu so sánh số lần gọi DTW túy UCR-DTW Để trực quan ta nhìn vào biểu đồ hình 5.19 so sánh số lần gọi độ đo xoắn thời gian động DTW túy UCR-DTW 60 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ Called DTW Times 1800 1600 1400 1200 Air Passenger C02 s Fancy Mdeaths Reddeer Ukgas □ DTW túy 110 1531 59 28 240 88 ■ Bộ UCR-DTW 60 1000 25 22 80 33 Hình 5.19 Biểu đồ so sánh số lần gọi DTW túy UCR-DTW Kết cho ta thấy số lần gọi độ đo xoắn thời gian động phương pháp DTW túy cao so với tăng tốc UCR-DTW Điều giúp cho thòi gian thực thi phương pháp sử dụng tăng tốc UCR-DTW thấp nhiều so với phương pháp DTW túy Ta kiểm nghiệm điều thơng qua số liệu đo đạc thòi gian thực thi DTW túy UCR-DTW 5.3.2 Thời gian thực thi DTW túy UCR-DTW Ta tiến hành đo đạc thời gian thực thi liệu dự án R bảng kết số liệu thời gian tính miligiây độ đo DTW túy tăng tốc UCR-DTW DTW tủy Bộ UCR-DTW AirPassengers 1.6ms 0.5ms CO2 18ms 9ms Fancy 1.4ms 0.3ms Mdeaths 0.4ms 0.2ms Reddeer 10ms 1.5ms Ukgas 0.2ms 0.12ms Bảng Số liệu thời gian thực thi DTW túy UCR-DTW 61 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _ Để trực quan ta nhìn vào hình 5.20 biểu đồ so sánh thời gian thực thi DTW túy UCR-DTW Runtime 20 ■ Bộ UCR-DTW □ DTW túy 0.5 1.6 18 0.3 1.4 0.2 0.4 1.5 0.12 10 0.2 Hình 5.20 Biểu đồ so sánh thời gian thực thi DTW túy UCR-DTW Ket thực nghiệm chứng minh tăng tốc UCR-DTW nhanh so với DTW túy Vậy ta áp dụng tăng tốc UCR-DTW vào phuơng pháp “Kết hợp phuơng pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian” hoàn toàn đắn 5.4 So sánh độ xác phưong pháp đề xuất vổi phưoug pháp sử dụng ANN Ta cần so sánh độ xác dự báo phuơng pháp đề xuất “Ket hợp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian” với phuơng pháp dự báo đại, cụ thể mạng nơ ron nhân tạo ANN Ta tiến hành chạy thử nghiệm liệu dự án R duới kết so sánh phuơng pháp đề xuất với phuơng pháp mạng nơ ron nhân tạo ANN dựa độ đo sai số phần trăm tuyệt đối trung bĩnh MAPE 62 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ Phương pháp đề xuất Mạng nơ ron ANN 3.713 5.31 0.139 1.16 13.484 19.35 9.041 9.55 40.379 73.55 6.571 32.165 AirPassengers co2 Fancy Mdeaths Reddeer Ukgas Bảng Số liệu MAPE so sánh phưcmg pháp đề xuất ANN [20] Hình 5.21 minh họa biểu đồ so sánh phương pháp đề xuất ANN Độ sai số phần trăm tuyệt đối trung bình MAPE 80 AirPasse ngers i □ ■ m C02 Fancy □ Phương pháp đề xuất 3.713 0.139 13.484 9.041 ■ Mạng nơ rơn ANN 5.31 1.16 19.35 9.55 u Mdeaths Reddeer 40.379 73.55 , nUkgas l, 6.571 32.165 □ Phương pháp đề xuất ■ Mạng nơ rơn ANN Hình 5.21 Biểu đồ so sánh phương pháp đề xuất ANN Kết dự báo cho thấy phương pháp đề xuất dự báo có độ xác cao nhiều so với phương pháp mạng nơ ron nhân tạo ANN Nguyên nhân phương pháp đề xuất nắm bắt tính xu hướng tính mùa tốt, mạng nơ ron nhân tạo nắm bắt tính xu hướng tính mùa yếu Có thể khắc phục điểm yếu phương pháp mạng nơ ron nhân tạo ANN cách: khử mùa, khử xu hướng làm trơn lũy thừa vói mạng nơ ron nhằm nâng cao chất lương dự báo đối 63 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ với liệu chuỗi thời gian có tính mùa xu hướng Tuy nhiên khắc phục điểm yếu cách làm tăng độ phức tạp tăng thời gian thực thi giải thuật, không phù hợp để dự báo trực tuyến 64 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ CHƯƠNG 6: KẾT LUÂN Chương tổng kết lại kết đạt được, đóng góp hướng phát triển đề tài sau 6.1 Tổng kết Trong trình nghiên cứu, đề xuất xây dựng hệ thống, giải xây dựng phương pháp “kết hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian” Sử dụng phương pháp phân đoạn điểm cực trị quan trọng, tăng tốc độ thực thi cách dùng kỹ thuật tăng tốc UCR-DTW, sử dụng phương pháp grid search để tìm thơng số phù hợp cho tập liệu Kết thực nghiệm đạt độ xác dự báo cao, tốc độ thực thi nhanh Bên cạnh chúng tơi tiến hành so sánh độ xác dự báo với mạng nơ ron nhân tạo Đe tài tiến hành dự báo bước nhiều bước dựa vào phương pháp lặp 6.2 Những đóng góp đề tài • Đề xuất phương pháp kết hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian • Xây dựng hệ thống dự báo cách kết hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW tăng tốc cho toán dự báo liệu chuỗi thời gian có độ xác cao, tốc độ tính tốn nhanh • Phương pháp đề xuất làm tiền đề để dự báo trực tuyến • Hệ thống giúp người dùng tìm thơng số k R phù hợp cho tập liệu 65 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _ 6.3 Hướng phát triển Mặc dù đề tài kết hợp phương pháp phân đoạn điểm cực trị quan trọng độ đo DTW cho toán dự báo liệu chuỗi thời gian số vấn đề khác cần nghiên cứu thêm như: • Mở rộng phương pháp dự báo đề xuất để dự báo trực tuyến • Cần thực nghiệm phương pháp dự báo đề xuất với nhiều liệu mẫu khác • Cần đưa vào phương pháp dự báo đề xuất kỹ thuật làm trơn đỉnh nhọn bất thường để cải thiện độ xác dự báo liệu chuỗi thời gian có tính hỗn loạn 66 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ TÀI LIÊU THAM KHẢO [1] p Tsinaslanidis, D Kugiumtzis: A prediction scheme using perceptually important points and dynamic time warping Expert Systems with Applications, 41 (15) pp 6848-6860 ISSN 0957-4174, 2014 [2] D T Anh: Tong quan tìm kiếm tương tự liệu chuỗi thời gian(An overview of similarity search in time series data), Tạp chí Phát Triển Khoa Học Và Cơng Nghệ, Đại Học Quốc Gia TPHCM, Tập 14, số K2-2011, 71-79 http://www.cse.hcmut.edu.vn/~dtanh/timeseries/similaritysearch.pdf [3] E Fink, H s Gandhi, Important Extrema of Time Series In: Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 366-372, 2007 [4] N T Son, L N Hoai, D T Anh: Time Series Prediction Using Pattern Matching In: 2013 International Conference on Computing, Management and Telecommunications (ComManTel), Ho Chi Minh city, 2013 [5] E Keogh, c A Ratanamahatana: Exact indexing of dynamic time warping Knowledge and Information Systems, Springer-Verlag, London Ltd 2004 [6] K B Pratt, E Fink: Search For Patterns In Compressed Time Series International Journal of Image and Graphics, 2(1), pp 89-106, 2002 [7] H Rakthanmanon, B Campana, A Mueen, G Batista, B Westover, Q Zhu, J Zakaria, E Keogh: Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping Proceedings ofSIGKDD, 2012 [8] D N Bao, N D K Vy: Luận văn thạc sĩ, ứng Dụng Mạng Nơ rơn Nhân Tạo Trong Việc Dự Báo Dữ Liệu Chuỗi Thời Gian Có Tính Xu Hướng Và Tính Mùa, khoa Khoa Học Kỹ Thuật Máy Tính, Đại học Bách Khoa Tp Hổ Chỉ Minh, 2012 [9] s B Imandoust, M Bolandraftar: Application of K-Nearest Neighbor (KNN) Approach for Predicting Economic Events: Theoretical Background, Int Journal of Engineering Research and Applications, Vol 3, Issue 5, pp.605-610, 2013 [10] D T Anh: Bài giảng Time Series Forecasting, môn học Hệ Hỗ Trợ Quyết Định, Khoa Khoa Học Và Kỹ Thuật Máy Tính, Đại Học Bách Khoa TPHCM, 2014 67 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ [11] D J Berndt, J Clifford: Using dynamic time warping to find patterns in time series In: AAAIKDD Workshop, pages 229-248, 1994 [12] R Agrawal, c Faloutsos, and A N Swami Efficient Similarity Search In Sequence Databases In Proc FODO, pages 69-84, 1993 [13] L Sangjun, K Won Dongseop, L Sukho, Dimensionality Reduction for Indexing Time Series Based on the Minimum Distance, Journal of Information Science and Engineering, Volume 19, Issue 4, pp 697 -711, 2003 [15] http://en.wikipedia.org/wiki/Time series [16] F.L Chung, T.c Fu, R Luk, V Ng, An Evolutionary Approach to PatternBased Time Series Segmentation, IEEE Transactions On Evolutionary Computation, Vol 8, Vol 5, October 2004 [17] N M Hiếu: Luận văn thạc sĩ cấu Trúc Chỉ Mục TS-Tree Cho Dữ Liệu Chuỗi Thời Gian Với Độ Đo Xoắn Thời Gian Động, 2015, Khoa khoa học kỹ thuật Máy Tính , Đại học Bách Khoa Tp Hồ Chí Minh [18] c D Trường, H N Tín, D T Anh: Combining motif information and neural network for time series prediction, Int J Business Intelligence and Data Mining, Vol 7, No 4, 2012 [19] V T Huy: Gom Cụm Dữ Liệu Chuỗi Thời Gian Với Độ Đo Xoắn Thời Gian Động Dựa Vào Một Kỹ Thuật xấp Xỉ, 2015, Khoa khoa học kỹ thuật Máy Tính, Đại học Bách Khoa Tp Hồ Chí Minh [20] D N Bảo, N D K Vy: ứng Dụng Mạng Neuron Nhân Tạo Trong Việc Dự Báo Dữ Liệu Chuỗi Thời Gian Có Tính Xu Hướng Và Tính Mùa, 2012, luận văn Tốt Nghiệp Đại Học, Khoa khoa học kỹ thuật Máy Tính , Đại học Bách Khoa Tp Hồ Chí Minh [21] H Sakoe and s Chiba, Dynamic programming algorithm optimization for spoken word recognition, IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, vol.26, pp 43 - 49 [22] F Itakura, Minimum prediction residual principle applied to speech recognition, IEEE Transactions on Acoustics, Speech and Signal Processing, 1975, vol.23, pp 67 72 68 KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ PHU LUC A: BẢNG ĐỐI CHIỂU THUẢT NGỮ ANH - VIÊT •••• Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Time Series Chuỗi thời gian Autoregressive Integrated Moving Average Tự hồi quy tích hợp với trung bĩnh trượt Exponential Smoothing Làm trơn hàm mũ Artificial Neural Network Mạng nơ rơn nhân tạo ANN Support Vector Machine Máy vector hỗ trợ SVM K-Nearest Neighbors K lân cận gần k-NN Important Extreme Points Điểm cực trị quan trọng IEP Perceptually Important Points Điểm quan trọng PIP Trend Xu hướng Cyclical Chu kỳ Seasonal Mùa Irregular Bất quy tắc Regression Hồi quy Dependence Variable Biến phụ thuộc Dynamic Time Warping Độ đo xoắn thời gian động DTW Euclidean Distance Độ đo euclid ED Independence Variable Biến độc lập Regression Coefficients Hệ số hồi quy Non Stationary Time Series Chuỗi không dừng Smoothing Method Cách làm trơn Simple Exponential Smoothing Kỹ thuật làm trơn hàm mũ giản đơn Holt-Winters Kỹ thuật làm trơn hàm mũ winters Online Prediction Dự báo trực tuyến Horizon Lb_Kim Tầm dự báo ARIMA Hàm chặn giới thiệu kim (2001) A KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TỐN Dự BÂỊ Dữ LIỆU CHUỒI THỜI GIAN _ Lb_Yi Lb_Keogh Hàm chặn giới thiệu Yi (1998) Hàm chặn giới thiệu Keogh báo [5] Dynamic Programming Quy hoạch động Monotonicity Tính đơn điệu Continuity Tính liên tục Warping Window Cửa sổ xoắn Boundary Conditions Điều kiện biên Warping Matrix Ma trận xoắn Homothetic Transformation Phép vị tự Mean Absolute Error Sai số tuyệt đối trung bĩnh MAE Mean Squared Error Sai số trung bĩnh bĩnh phương MSE Mean Absolute Percentage Error Sai số phần trăm tuyệt đối trung bình MAPE Compression Rate Tỷ số nén UCR-DTW Bộ tăng tốc DTW UCR B KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN Dự BÁO Dữ LIỆU CHUỒI THỜI GIAN _ PHU LUC B: LÝ LICH TRÍCH NGANG ••• Họ tên: NGUYỄN HỮU LỘC Ngày sinh: 13/01/1985 Nơi sinh: Long An Địa liên lạc: 75 Tô Hiệu, Hiệp Tân, Tân Phú, TP.HCM Email: nguyenhuulocla2006@gmail.com Điện thoại: 0932 53 84 68 Q TRÌNH ĐÀO TẠO: Thòi gian 2003 - 2008 2015 - Trường đào tạo Chuyên ngành Đại học Bách Khoa, Đại học Khoa Học Máy Tính Ọuốc Gia TPHCM Đại học Bách Khoa, Đại học Khoa Học Máy Tính Quốc Gia TPHCM Trình độ đào tạo Kỹ Sư Thạc Sĩ c ... UCR -DTW, dự báo liệu thời gian mạng nơ rơn nhân tạo ANN, dự báo liệu thời gian phương pháp phân đo n dựa vào điểm quan trọng kết hợp với độ đo xoắn thời gian động KÉT HỢP PHƯƠNG PHÁP PHÂN ĐO N BẰNG... công cách kết hợp phương pháp phân đo n điểm cực trị quan trọng độ đo xoắn thời gian động cho toán dự báo liệu chuỗi thời gian • So sánh số lần gọi thời gian thực thi độ đo xoắn thời gian động DTW. .. TÀI: Kết hợp phương pháp phân đo n điểm cực trị quan trọng độ đo DTW cho toán dự báo liệu chuỗi thời gian II NHIỆM VỤ VÀ NỘI DUNG: Đề xuất phương pháp kết hợp điểm cự trị quan trọng, độ đo