Dự báo trên chuỗi thời gian dựa vào phương pháp gom cụm sử dụng thuật toán k mean

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN MINH QUÂN DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA VÀO PHƯƠNG PHÁP GOM CỤM SỬ DỤNG THUẬT TỐN K-MEAN Chun ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: TS Nguyễn Thành Sơn Người phản biện 1: Người phản biện 2: Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: - Chủ tịch Hội đồng - Phản biện - Phản biện - Ủy viên - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Minh Quân MSHV: 15118331 Ngày, tháng, năm sinh: 28/09/1990 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Dự báo chuỗi thời gian phương pháp gom cụm sử dụng thuật toán k-Mean NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu kiến thức tảng toán dự báo chuỗi thời gian, phương pháp dự báo chuỗi thời gian Nghiên cứu ứng dụng phương pháp gom cụm thuật toán k-Mean vào toán dự báo liệu chuỗi thời gian Từ xây dựng chương trình thực nghiệm để đánh giá tính hiệu quả ứng dụng vào thực tế phương pháp II NGÀY GIAO NHIỆM VỤ: Theo định số 1486/QĐ-ĐHCN 25/6/2018 III NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thành Sơn Tp Hồ Chí Minh, ngày … tháng … năm 2019 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN LỜI CẢM ƠN Sau thời gian học tập nghiên cứu trường đại học Công Nghiệp TP HCM, biết ơn kính trọng, tơi xin gửi lời cảm ơn chân thành đến Ban Giám Hiệu, phịng, khoa tḥc trường đại học Cơng Nghiệp TP HCM q thầy nhiệt tình hướng dẫn, giảng dạy tạo điều kiện thuận lợi giúp đỡ tơi suốt q trình học tập, nghiên cứu hoàn thành đề tài nghiên cứu khoa học Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Nguyễn Thành Sơn, người thầy trực tiếp hướng dẫn, giúp đỡ tơi q trình thực đề tài Tôi xin cảm ơn bạn lớp CHKHMT 5B đóng góp ý kiến giúp đỡ động viên vững tin hơn, có đợng lực suốt q trình học nghiên cứu Tuy nhiên, điều kiện lực bản thân hạn chế, chuyên đề nghiên cứu khoa học chắn khơng tránh khỏi thiếu sót Kính mong nhận đóng góp ý kiến quý thầy cô, bạn bè đồng nghiệp đề nghiên cứu tơi hồn thiện Tơi xin trân trọng cảm ơn i TÓM TẮT LUẬN VĂN THẠC SĨ Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng tốn chuỗi thời gian để xây dựng chương trình dị tìm tự đợng điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khoán ta ứng dụng tốn chuỗi thời gian để xây dựng chương trình dự báo xu biến đợng chứng khốn thời gian tới… Dự báo liệu chuỗi thời gian một công việc phức tạp thách thức nhà nghiên cứu Đã có nhiều phương pháp dự báo chuỗi thời gian giới thiệu đưa vào ứng dụng thực tế Gần một số phương pháp dự báo liệu chuỗi thời gian dựa vào hướng tiếp cận gom cụm ứng dụng dự báo cho một số lĩnh vực cụ thể (như thời tiết, chứng khoán, giá điện nhu cầu sử dụng điện) Trong luận văn này, tập trung nghiên cứu đánh giá hiệu quả việc sử dụng phương pháp gom cụm thuật tốn k-Mean So sánh với mợt số phương pháp khác Tính hiệu quả phương pháp đánh giá thực nghiệm tập liệu thực ii ABSTRACT Time series data is the most commonly data that used in the fields of science, technology, medicine and commerce For example, in medicine, the time series problems is used to build an automatic detection program on a patient's electroencephalogram to detect disease, or in the field of securities we can using the time series problems to build a program to forecast the volatility trend of securities in the near future Forecasting on time series data has been a complex and challenging task for researchers There have been many time series prediction methods that have been introduced and put into practice Recently, a number of prediction methods on time series data based on clustering approaches have been applied for a number of specific areas (such as weather, securities, electricity prices and electricity demand) In this thesis, we focus on studying the effectiveness of using a k-Mean clustering algorithm Compare with some other methods The effectiveness of this method is evaluated experimentally on real data sets iii LỜI CAM ĐOAN Trong luận văn này, xin cam đoan cơng trình nghiên cứu bản thân tơi hướng dẫn thầy TS Nguyễn Thành Sơn Các kết quả nghiên cứu kết luận luận văn trung thực, không chép từ bất kỳ mợt nguồn bất kỳ hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Học viên Nguyễn Minh Quân iv MỤC LỤC MỞ ĐẦU 1 Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài CHƯƠNG TỔNG QUAN 1.1 Dữ liệu chuỗi thời gian 1.1.1 Khái niệm chuỗi thời gian 1.1.2 Chuỗi 1.1.3 Đặc điểm chuỗi thời gian 1.1.4 Các phương pháp hiển thị chuỗi thời gian 1.2 Các toán khai phá liệu chuỗi thời gian 1.3 Bài toán dự báo 12 CHƯƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Các độ đo tương tự 14 2.1.1 Độ đo Euclid 14 2.1.2 Độ đo xoắn thời gian động 16 2.2 Chuẩn hóa liệu 17 2.2.1 Chuẩn hóa đường trung bình 18 2.2.2 Chuẩn hóa nhỏ nhất-lớn nhất 19 2.3 Gom cụm liệu chuỗi thời gian 20 2.3.1 Giải thuật K-Means 22 2.3.2 Giải thuật K-Means++ 23 2.3.3 Một số phương pháp chọn số cụm liệu (k) 25 2.3.4 Phương pháp đánh giá kết quả dự báo 27 v CHƯƠNG PHƯƠNG PHÁP DỰ BÁO DỰA VÀO CÁCH TIẾP CẬN GOM CỤM BẰNG THUẬT TOÁN K-MEAN 30 3.1 Các cơng trình liên quan 30 3.2 Xu hướng tính mùa liệu chuỗi thời gian 31 3.3 Ứng dụng thuật toán k-Means vào dự báo chuỗi thời gian 32 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ BẰNG THỰC NGHIỆM 35 4.1 Môi trường thực nghiệm 36 4.1.1 Tổng quan hệ thống 37 4.1.2 Sơ đồ 40 4.2 Thu thập liệu 41 4.3 Chạy chương trình thực nghiệm đánh giá 44 KẾT LUẬN VÀ KIẾN NGHỊ 50 Kết luận 50 1.1 Ưu điểm: 50 1.2 Nhược điểm 50 Kiến nghị 51 TÀI LIỆU THAM KHẢO 52 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 54 vi DANH MỤC HÌNH ẢNH Hình 1.1 Chuỗi thời gian biểu diễn nhiệt đợ trung bình hàng tháng Úc Hình 1.2 Chuỗi T1, T2, …, Ti tách từ chuỗi thời gian T Hình 1.3 Ba chuỗi trích xuất từ chuỗi thời gian T cửa sổ trượt Hình 1.4 Tìm chuỗi tương tự Q cửa sổ trượt S với hàm tương tự D(Q,S) [15] Hình 1.5 Mợt số định dạng liệu chuỗi thời gian Hình 1.6 Biểu diễn chuỗi thời gian theo dạng đồ thị x theo t Hình 1.7 Biểu diễn chuỗi thời gian theo dạng đồ thị (xt/xt-1)% theo t Hình 1.8 Biểu diễn chuỗi thời gian theo dạng đồ thị xt – xt-1 theo t Hình 1.9 Tiến trình dự báo chung 13 Hình 2.1 a) Hai chuỗi tương đồng đường bản khác b) Hai chuỗi tương đồng có biên độ dao động khác 16 Hình 2.2 Hai đợ đo khoảng cách Euclid DTW [15] 17 Hình 2.3 Hai chuỗi trước sau chuẩn hóa 18 Hình 2.4 Chuẩn hóa đường trung bình 19 Hình 2.5 Chuẩn hóa lớn nhất nhỏ nhất 20 Hình 3.1 Ý tưởng bản cách tiếp cận dựa phương pháp so trùng mẫu thuật toán gom cụm 33 Hình 3.2 Quá trình phân cụm liệu 33 Hình 3.3 Quá trình dự báo 34 Hình 3.4 Minh họa thuật tốn dự báo dựa phương pháp so trùng mẫu 34 Hình 4.1 Giao diện người dùng hệ thống 40 Hình 4.2 Sơ đồ hệ thống 41 Hình 4.3 Tập liệu “nhiệt độ” thành phố Los Angeles 42 Hình 4.4 Tập liệu “Mức đợ tiêu thụ điện PJM”: 42 Hình 4.5 Tập liệu “sản lượng kem” 43 Hình 4.6 Tập liệu “Nồng độ CO2” 43 vii Hình 4.2 Sơ đồ hệ thống 4.2 Thu thập liệu Thực nghiệm thực tập liệu thực tế có tính xu hướng biến đổi theo mùa Chúng sử dụng bốn tập liệu thu thập internet [28]: Đầu tiên tập “nhiệt độ”: Nằm bộ liệu “dữ liệu thời tiết theo giờ” (historicalhourly-weather-data) Tập liệu chứa thông tin thời tiết theo thời gian khoảng năm 30 thành phố Mỹ Canada, thành phố Israel Thông tin thời tiết bao gồm nhiệt độ, độ ẩm, áp suất, mức gió, … Để thực nghiệm, chúng tơi 41 trích x́t thơng tin nhiệt đợ thành phố Los Angeles Mỹ Montreal Canada với 45252 dịng liệu Chúng tơi sử dụng 80% (36201 dòng) liệu để huấn luyện 20% (9051 dịng) để kiểm tra Hình 4.3 Tập liệu “nhiệt độ” thành phố Los Angeles Tập thứ hai “Mức độ tiêu thụ điện PJM”: PJM một tổ chức truyền tải điện khu vực Mỹ Dữ liệu tiêu thụ điện từ website PJM tính theo đơn vị megawatt (MW) Tập liệu lấy khoảng năm từ năm 1998 đến năm 2001 bao gồm 32987 dịng Trong chúng tơi sử dụng 80% (26389 dịng) liệu để huấn luyện 20% (6598 dòng) để kiểm tra Hình 4.4 Tập liệu “Mức đợ tiêu thụ điện PJM”: 42 Tập thứ ba tập “Sản lượng kem”: Cung cấp một chuỗi liệu thời gian sản lượng kem hàng tháng Tập liệu thu thập từ tháng 1/1995 đến tháng 12/2003 bao gồm 228 dịng Chúng tơi sử dụng 80% (182 dịng) liệu để huấn luyện 25% (46 dòng) để kiểm tra Hình 4.5 Tập liệu “sản lượng kem” Tập cuối mà thu thập tập “Nồng độ CO2”: Đây tập liệu thu thập hàng tháng nồng đợ carbon dioxy (CO2) khí từ đài thiên văn Mauna Loa (Hawaii) vĩ độ 19.5, kinh độ -155.6 độ cao 3397 mét Tập liệu thu thập từ tháng 3/1958 đến tháng 1/2017 bao gồm 704 dịng Chúng tơi sử dụng 80% (563 dòng) liệu để huấn luyện 20% (141 dịng) để kiểm tra Hình 4.6 Tập liệu “Nồng đợ CO2” 43 4.3 Chạy chương trình thực nghiệm đánh giá Chúng so sánh thực thi phương pháp dự báo đoạn tập liệu kiểm tra tính tốn lỗi trung bình khoảng thời gian dự báo Chúng sử dụng ba số sau để đánh giá mức độ lỗi dự báo:  Sai số tuyệt đối trung bình MAE  Sai số bình phương trung bình quân phương RMSE  Hệ số biến thiên CV(RMSE) Ngoài việc đánh giá dự báo dựa thời gian thực thi thuật tốn Chúng tơi đánh giá ảnh hưởng k đến đợ xác dự báo Để đánh giá việc chọn số lượng cụm (k), sửdụng phương pháp đơn giản nhất chạy thuật toán nhiều lần với k thay đổi từ đến 100 (đối với hai tập liệu nhỏ “Sản lượng kem” “Nồng độ CO2”) thay đổi từ đến 1500 (đối với hai tập liệu “Mức độ tiêu thụ điện PJM” “Nhiệt đợ”) Sau so sánh mức độ lỗi (MAE) lần chạy chọn k có số MAE nhỏ nhất Bảng 4.3 đến bảng 4.6 mô tả lỗi dự báo tập liệu với k thay đổi Với k tốt nhất tập liệu, thực nghiệm đánh giá ba phương pháp dự báo thuật toán k-Means, k-Means++ k-NN Với phương pháp lựa chọn k tốt nhất cho phương pháp Thực nghiệm thực tất cả bốn tập liệu Kết quả tính trung bình lỗi, trung bình thời gian chạy tất cả chuỗi tập liệu kiểm tra Thực nghiệm 1: Chọn k tốt nhất cho phương pháp k-Means, k-Means++, k-NN Trong thực nghiệm này, xem xét ảnh hưởng k đợ xác dự báo Đối với hai tập liệu “Sản lượng kem” “Nồng độ CO2”, chọn chiều dài mẫu w = 12 chu kỳ hai tập liệu 12 tháng 44 Đối với hai tập liệu “Mức độ tiêu thụ điện” “Nhiệt độ”, chọn chiều dài mẫu làw = 24 chu kỳ hai tập liệu 24 (1 ngày) Bảng 4.3 Lỗi dự báo (MAE) thực nghiệm tập liệu “Sản lượng kem” với k thay đổi từ đến 100 k k-Means k-Means++ k-NN 0.63 0.66 0.18 0.39 0.40 0.17 0.31 0.31 0.17 0.28 0.26 0.17 10 0.29 0.27 0.18 20 0.32 0.19 0.21 40 0.37 0.19 0.24 60 0.39 0.19 0.29 80 0.81 0.22 0.36 100 0.79 0.21 0.43 Bảng 4.4 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nồng độ CO2” với k thay đổi từ đến 100 k k-Means k-Means++ k-NN 0.62 0.63 0.13 0.39 0.36 0.11 0.29 0.27 0.11 0.22 0.22 0.11 10 0.19 0.16 0.12 20 0.14 0.12 0.12 40 0.19 0.12 0.12 60 0.26 0.11 0.13 80 0.26 0.12 0.15 100 0.43 0.12 0.15 Bảng 4.5 Lỗi dự báo (MAE) thực nghiệm tập liệu “Mức độ tiêu thụ điện PJM” với k thay đổi từ đến 1500 k k-Means k-Means++ k-NN 0.69 0.69 0.17 0.46 0.46 0.16 0.39 0.38 0.16 0.35 0.35 0.16 10 0.34 0.33 0.16 100 0.25 0.24 0.20 200 0.23 0.23 0.21 500 0.22 0.21 0.22 1000 0.22 0.19 0.24 1500 0.24 0.18 0.25 Bảng 4.6 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nhiệt độ” với k thay đổi từ đến 1500 k k-Means k-Means++ k-NN 0.67 0.67 0.26 0.42 0.42 0.24 0.34 0.34 0.23 0.30 0.32 0.23 10 0.29 0.28 0.22 100 0.24 0.24 0.22 200 0.24 0.24 0.22 500 0.25 0.23 0.23 1000 0.30 0.23 0.23 1500 0.38 0.23 0.23 Nhận xét: Dựa vào kết quả thực nghiệm ta nhận thấy Với phương pháp k-NN mức đợ lỗi có xu hướng tăng k tăng Ngược lại k-meanvà k-means++ mức độ lỗi có xu hướng giảm k giảm Thuật tốn k-Means k-Means++, với k nhỏ mức đợ lỗi tương đương Tuy nhiên k lớn ta thấy mức đợ lỗi có chênh lệch đáng kể 45 Đối với tập liệu “Sản lượng kem” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 8, 60, Đối với tập liệu “Nồng độ CO2” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 20, 60, Đối với tập liệu “Mức độ tiêu thụ điện PJM” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 500, 1500, 10 Đối với tập liệu “Nhiệt độ” k tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN là: 200, 1500, 10 Thực nghiệm 2: Đánh giá ảnh hưởng việc chọn chiều dài chuỗi w chiều dài chuỗi dự báo L tới kết quả dự báo với k chọn tốt nhất với phương pháp thực nghiệm Bảng 4.7 Lỗi dự báo (MAE) thực nghiệm tập liệu “Sản lượng kem” với w thay đổi từ đến 20 chiều dài dự báo L tốt nhất W k-Means (k=8) k-Means++ (k=60) k-NN (k=4) 0.30 L=5 0.32 L=5 0.21 L=5 0.26 L=5 0.15 L=5 0.19 L=5 0.34 L=7 0.35 L=4 0.23 L=4 0.32 L=8 0.30 L=8 0.38 L=8 0.36 L=9 0.33 L=9 0.26 L=9 10 0.22 L=10 0.21 L=10 0.25 L=10 12 0.21 L=12 0.27 L=12 0.21 L=12 15 0.22 L=14 0.23 L=15 0.22 L=14 18 0.31 L=17 0.21 L=16 0.29 L=17 20 0.23 L=17 0.23 L=17 0.20 L=17 Bảng 4.8 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nồng độ CO2” với w thay đổi từ đến 20 chiều dài dự báo L tốt nhất W k-Means (k=20) k-Means++ (k=60) k-NN (k=4) 0.32 L=5 0.18 L=5 0.18 L=5 0.18 L=6 0.14 L=6 0.21 L=6 0.11 L=7 0.06 L=7 0.07 L=7 0.10 L=7 0.06 L=8 0.07 L=8 0.08 L=8 0.07 L=9 0.09 L=9 46 10 0.07 L=7 0.09 L=10 0.08 L=10 12 0.15 L=12 0.12 L=12 0.15 L=12 15 0.14 L=15 0.14 L=08 0.13 L=09 18 0.30 L=15 0.11 L=15 0.08 L=18 20 0.20 L=14 0.11 L=14 0.09 L=14 Bảng 4.9 Lỗi dự báo (MAE) thực nghiệm tập liệu “Mức độ tiêu thụ điện PJM” với w thay đổi từ đến 1024 chiều dài dự báo L tốt nhất W k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) 0.8 L=6 0.8 L=6 0.78 L=6 0.1 L=9 0.06 L=9 0.05 L=9 12 0.15 L=12 0.09 L=12 0.08 L=12 16 0.15 L=15 0.14 L=15 0.1 L=15 32 0.18 L=13 0.14 L=12 0.14 L=13 64 0.15 L=15 0.14 L=16 0.12 L=15 128 0.23 L=14 0.22 L=13 0.27 L=11 256 0.21 L=28 0.20 L=28 0.25 L=25 512 0.19 L=18 0.22 L=17 0.24 L=55 1024 0.33 L=12 0.28 L=13 0.25 L=13 Bảng 4.10 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nhiệt độ” với w thay đổi từ đến 1024 chiều dài dự báo L tốt nhất W k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) 0.30 L=6 0.23 L=6 0.23 L=6 0.20 L=9 0.21 L=9 0.20 L=9 12 0.16 L=12 0.17 L=12 0.14 L=12 16 0.14 L=9 0.1 L=16 0.07 L=16 32 0.27 L=32 0.25 L=32 0.19 L=23 64 0.29 L=26 0.24 L=26 0.22 L=32 128 0.27 L=27 0.25 L=23 0.21 L=27 256 0.26 L=26 0.21 L=23 0.18 L=22 512 0.36 L=25 0.22 L=8 0.23 L=27 1024 0.23 L=23 0.15 L=18 0.17 L=22 Ta nhận thấy: Kết quả dự báo với lỗi nhỏ nhất w L thường có giá trị nhỏ (khoảng từ đến 64) Đối với chiều dài w ngắn giá trị L dường tốt nhất L=w Tuy nhiên chiều dài w lớn giá trị L tốt nhất nằm khoảng từ 16 đến 30 Đối với tập liệu “Sản lượng kem” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 12, 6, 6; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 12, 5, Đối với tập liệu “Nồng độ CO2” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 10, 8, 8; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 7, 8, Đối với tập liệu “Mức độ tiêu thụ điện PJM” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 9, 9, 9; L tốt nhất tương ứng với thuật toán kMeans, k-Means++ k-NN 9, 9, 47 Đối với tập liệu “Nhiệt độ” w tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN là: 16, 16, 16; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 9, 16, 16 Thực nghiệm 3: So sánh ba phương pháp với k-Means, k-Means++ k-NN với k chọn tốt nhất cho phương pháp Với k tốt nhất chọn thực nghiệm w, L tốt nhất chọn thực nghiệm Chúng tơi tiến hành thực nghiệm tồn bợ tập kiểm tra Kết quả tính trung bình tồn bợ kết quả kiểm tra Bảng 4.11 Kết quả thực nghiệm tập “Sản lượng kem” k-Means (k=8) k-Means++ (k=60) k-NN (k=4) MAE RMSE CV(RMSE) 0.263 0.203 0.178 0.321 0.247 0.220 0.101 0.078 0.069 Thời gian huấn luyện (ms) 3 Thời gian dự báo (ms) 1 Bảng 4.12 Kết quả thực nghiệm tập “Nồng độ CO2” k-Means (k=20) k-Means++ (k=60) k-NN (k=4) MAE RMSE CV(RMSE) 0.152 0.117 0.113 0.183 0.142 0.140 0.061 0.048 0.047 Thời gian huấn luyện (ms) Thời gian dự báo (ms) 1 Bảng 4.13 Kết quả thực nghiệm tập “Mức độ tiêu thụ điện PJM” k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) MAE RMSE CV(RMSE) 0.215 0.186 0.221 0.264 0.229 0.272 0.090 0.078 0.092 Thời gian huấn luyện (ms) 3921 10481 Thời gian dự báo (ms) 1 Bảng 4.14 Kết quả thực nghiệm tập “Nhiệt độ” k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) MAE RMSE CV(RMSE) 0.215 0.231 0.224 0.264 0.287 0.278 0.090 0.095 0.092 48 Thời gian huấn luyện (ms) 3921 13940 Thời gian dự báo (ms) 1 10 Nhận xét: Dựa vào kết quả thực nghiệm ta nhận thấy Về đợ xác, thuật tốn k-NN có mức đợ lỗi nhỏ nhất, tiếp thuật tốn kMean++ cuối thuật toán k-Mean Về thời gian gom cụm, thuật toán k-NN dự báo trực tiếp tập h́n luyện nên khơng có thời gian huấn luyện Thuật toán k-Means++ thực gom cụm số cụm nhiều hơn, đồng thời tốn thêm thời gian để tính cụm khởi tạo, thời gian h́n luyện nhiều Về thời gian dự báo, thuật tốn k-NN khơng h́n luyện mà phải dự báo tồn bợ tập h́n luyện thời gian dự báo lâu đáng kể so với thuật toán k-Means k-Means++ (do hai thuật toán huấn luyện, nên việc dự báo cần tìm cụm gần nhất với mẫu dự báo cụm đó) 49 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Trong luận văn này, nghiên cứu đánh giá một phương pháp dự báo chuỗi thời gian dựa vào phương pháp gom cụm thuật toán k-Means Đối với thuật toán k-Means, chúng tơi tìm hiểu thêm phương pháp để cải tiến việc chọn cụm trung tâm ban đầu thuật toán k-Means++ Nhờ đó mà kết quả gom cụm ổn định dự báo có kết quả xác tốt Chúng so sánh phương pháp gom cụm với mợt thuật tốn phân lớp khác k-NN Để thực nghiệm kết quả nghiên cứu ứng dụng vào thực tế, xây dựng một ứng dụng web, với giao diện người dùng thân thiện, hoạt đợng nhiều thiết bị Ngồi ra, chúng tơi cịn cung cấp một dịch vụ web (web service) qua APIs để chia sẻ kết quả cho nhiều người khác 1.1 Ưu điểm Dự báo chuỗi thời gian dựa phương pháp gom cụm thuật toán k-Means có tốc đợ thực dự báo rất nhanh, khơng có thời gian trễ Với đợ xác mức chấp nhận Với thuật toán cải tiến k-Means++ tăng đợ xác phương pháp lên đáng kể, thời gian huấn luyện tăng lên quan trọng thời gian dự báo Ứng dụng có giao diện người dùng thân thiện, hoạt đợng nhiều thiết bị có khả chia sẻ kết quả nghiên cứu cho người khác 1.2 Nhược điểm Việc chọn k cho phương pháp gom cụm thuật tốn k-Means có ảnh hưởng đến chất lượng cụm thời gian gom cụm Từ ảnh hưởng đến kết quả dự báo Trong luận văn này, chọn k cách thử nhiều giá trị k sau chọn k mà kết quả dự báo có lỗi nhỏ nhất Tuy nhiên việc chọn k rất mất thời gian hiệu 50 quả không cao ngồi k cịn nhiều yếu tố khác ảnh hưởng đến thuật tốn, khơng thể thử hết tất cả giá trị k để tìm giá trị phù hợp Hiện tại, thuật toán chạy tốt tập liệu có tính xu hướng hay tính mùa Các tập liệu có tính ngẫu nhiên thuật tốn cho kết quả dự báo cịn sai số rất nhiều Kiến nghị Với khuyết điểm trên, kiến nghị một số vấn đề cần giải để cải thiện chất lượng gom cụm kết quả dự báo Về vấn đề chọn k, cần phải nghiên cứu phương pháp để chọn k một cách tự động Một số phương pháp đề xuất như: Đánh giá chéo chất lượng cụm dựa vào số Dunn, Davies-Bouldin, Silhouette Coefficient; chọn k dựa vào “text database” (cơ sở liệu chứa thông tin cụm tối ưu); phân tích ma trận kernel… Đối với tập liệu khơng có tính xu hướng mùa, cần phải kết hợp với phương pháp khác, đồng thời phải nghiên cứu việc chọn chiều dài mẫu (w) để so trùng một cách tự động tốt nhất 51 TÀI LIỆU THAM KHẢO [1] Ratnadip Adhikari and R K Agrawal "An Introductory Study on Time Series Modeling and Forecasting," LAP Lambert Academic Publishing, Germany, 2013 [2] Sarah Gelper et al "Robust forecasting with exponential and Hold-Winters smoothing," Journal of Forecasting Vol 29, no 3, pp 285-300, 2010 [3] Yi-Shian Lee and Lee-Ing Tong "Forecasting time series using a methodology based on autoregressive integrated moving average and genetic programming,” Knowledge-Based Systems Vol 24, pp 66-72, 2011 [4] Mohammad Valipour et al "Parameters Estimate of Autoregressive Moving Average and Autoregressive Integrated Moving Average Models and Compare Their Ability for Inflow Forecasting," Journal of Mathematics and Statistics Vol 3, pp 330-338, 2012 [5] Kwangbok Jeong et al "An estimation model for determining the annual energy cost budget in educational facilities using SARIMA (seasonal autoregressive integrated moving average) and ANN (artificial neural network)," Energy Vol 71, pp 71-79, 2014 [6] Mukesh K Tiwari and Chandranath Chatterjee "Development of an accurate and reliable hourly flood forecasting model using wavelet–bootstrap–ANN (WBANN) hybrid approach," Journal of Hydrology Vol 394, pp 458-470, 2010 [7] Erasmo Cadenas and Wilfrido Rivera "Short-term wind speed forecasting in La Venta, Oaxaca, México, using artificial neural network," Renewable Energy Vol 34, pp 274-278, 2009 [8] Christopher Bennett et al "ANN-based residential water end-use demand forecasting model," Expert Systems with Applications Vol 40, pp 1014-1023, 2013 [9] Jan Adamowski and Hiu Fung Chan "A wavelet neural network conjunction model for groundwater level forecasting," Journal of Hydrology Vol 407, pp 28-40, 2011 [10] Mehdi Khashei and Mehdi Bijari "An artificial neural network (p, d, q) model for timeseries forecasting," Expert Systems with Applications Vol 37, pp 479489, 2010 52 [11] Oscar Claveria and Salvador Torra "Forecasting tourism demand to Catalonia: Neural networks vs time series models," Economic Modelling Vol 36, pp 220-228, 2014 [12] Erdal Kayacan et al "Grey system theory-based models in time series prediction," Expert Systems with Applications Vol 37, pp 1784-1789, 2010 [13] Shuhaida Ismail et al "A hybrid model of self-organizing maps (SOM) and least square support vector machine (LSSVM) for time-series forecasting", Expert Systems with Applications Vol 38, pp 10574-10578, 2011 [14] Francisco Martínez-Álvarez et al "Energy Time Series Forecasting Based on Pattern Sequence Similarity", IEEE Transactions on Knowledge and Data Engineering Vol 23, pp 1230-1243, 2011 [15] Patrick Schäfer "Scalable Time Series Similarity Search for DataAnalytics," M.A thesis, Humboldt University, Berlin, 2015 [16] E Keogh "A Tutorial on Indexing and Mining Time Series Data," presented at The IEEE International Conference on Data Mining, San Jose, California, USA, 2001 [17] Jingjing Meng et al "Mining Motifs from Human Motion," in Proc of EUROGRAPHICS, 2008 [18] Jason R Chen "Useful clustering outcomes from meaningful time series clustering," AusDM' 07 Proceedings of the sixth Australasian conference on Data mining and Analytics Pp 101-109, 2007 [19] Donald J Bemdt and James Cliffor "Finding Patterns in time series: a dynamic programming approach," Journal of advances in Knowledge Discovery and Data Mining Pp 229-248, 1996 [20] Jessica Lin et al "Mining Shape and Time Series Databases with Symbolic Representations," VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases Pp 406-417, 2002 [21] T Warren Liao "Clustering of time series data - a survey," Pattern Recognition Vol 38, pp 1857-1874, 2005 [22] Jessica Lin el al "Iterative incremental clustering of time series," International Conference on Extending Database Technology Pp 106-122, 2004 [23] J McQueen."Some Methods for Classification and Analysis of Multivariate Observation," Proc Fifth Berkeley Symp on Math Statist and Prob Vol 1, pp 281-297, 1967 53 [24] David Arthur "k-means++: The Advantages of Careful Seeding," Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms Pp 1027-1035, 2007 [25] Sadia Nawrin et al "Exploreing K-Means with Internal Validity Indexes for Data Clustering in Traffic Management System," (IJACSA) International Journal of Advanced Computer Science and Applications Vol 8, no 3, 2017 [26] Nayak et al "Temporal Pattern Matching for the Prediction of Stock Prices," Conferences in Research and Practice in Information Technology (CRPIT) Vol 84, 2017 [27] Yu-Feng Jiang et al "Stock temporal prediction based on time series motifs," International Conference on Machine Learning and Cybernetics Vol 6, pp 3550-3555, 2009 [28] Kaggle Inc "Dataset." Internet: https://www.kaggle.com 54 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Minh Quân Giới tính: Nam Ngày, tháng, năm sinh: 28/09/1990 Nơi sinh: Đồng Nai Email: nguyenminhquan1990@gmail.com Điện thoại: 0977383347 II QUÁ TRÌNH ĐÀO TẠO: - Từ năm 2008 – 2011: Học cao đẳng trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh - Từ năm 2011 – 2013: Học đại học trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh - Từ năm 2015 – 2017: Học cao học trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Cơng việc đảm nhiệm 2012-2016 Công ty TNHH phần mềm Nhất Tâm Kỹ sư phần mềm 2016-2019 Công ty TNHH phần mềm TMA Kỹ sư phần mềm Tp HCM, ngày 19 tháng 09 năm 2019 Người khai (Ký tên) 55 ... mẫu dự báo hồi tiếp trở lại vào tập liệu để sử dụng cho lần dự báo sau, nhờ tầm dự báo k? ?o dài theo yêu cầu (k? ?? thuật gọi dự báo) Thuật toán dự báo chuỗi thời gian dựa vào k? ?? thuật gom cụm thuật. .. tảng toán dự báo chuỗi thời gian, phương pháp dự báo chuỗi thời gian Nghiên cứu ứng dụng phương pháp gom cụm thuật toán k- Mean vào toán dự báo liệu chuỗi thời gian Từ xây dựng chương trình thực... ứng dụng phương pháp gom cụm thuật toán k- Mean vào toán dự báo liệu chuỗi thời gian Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu liệu chuỗi thời gian, thuật toán k- Mean Phạm vi nghiên cứu toán

Định dạng
Số trang	67
Dung lượng	2,99 MB