1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự báo trên chuỗi thời gian dựa vào phương pháp gom cụm sử dụng thuật toán k mean

67 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,99 MB

Nội dung

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN MINH QUÂN DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA VÀO PHƯƠNG PHÁP GOM CỤM SỬ DỤNG THUẬT TỐN K-MEAN Chun ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: TS Nguyễn Thành Sơn Người phản biện 1: Người phản biện 2: Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: - Chủ tịch Hội đồng - Phản biện - Phản biện - Ủy viên - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Minh Quân MSHV: 15118331 Ngày, tháng, năm sinh: 28/09/1990 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Dự báo chuỗi thời gian phương pháp gom cụm sử dụng thuật toán k-Mean NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu kiến thức tảng toán dự báo chuỗi thời gian, phương pháp dự báo chuỗi thời gian Nghiên cứu ứng dụng phương pháp gom cụm thuật toán k-Mean vào toán dự báo liệu chuỗi thời gian Từ xây dựng chương trình thực nghiệm để đánh giá tính hiệu quả ứng dụng vào thực tế phương pháp II NGÀY GIAO NHIỆM VỤ: Theo định số 1486/QĐ-ĐHCN 25/6/2018 III NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thành Sơn Tp Hồ Chí Minh, ngày … tháng … năm 2019 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN LỜI CẢM ƠN Sau thời gian học tập nghiên cứu trường đại học Công Nghiệp TP HCM, biết ơn kính trọng, tơi xin gửi lời cảm ơn chân thành đến Ban Giám Hiệu, phịng, khoa tḥc trường đại học Cơng Nghiệp TP HCM q thầy nhiệt tình hướng dẫn, giảng dạy tạo điều kiện thuận lợi giúp đỡ tơi suốt q trình học tập, nghiên cứu hoàn thành đề tài nghiên cứu khoa học Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Nguyễn Thành Sơn, người thầy trực tiếp hướng dẫn, giúp đỡ tơi q trình thực đề tài Tôi xin cảm ơn bạn lớp CHKHMT 5B đóng góp ý kiến giúp đỡ động viên vững tin hơn, có đợng lực suốt q trình học nghiên cứu Tuy nhiên, điều kiện lực bản thân hạn chế, chuyên đề nghiên cứu khoa học chắn khơng tránh khỏi thiếu sót Kính mong nhận đóng góp ý kiến quý thầy cô, bạn bè đồng nghiệp đề nghiên cứu tơi hồn thiện Tơi xin trân trọng cảm ơn i TÓM TẮT LUẬN VĂN THẠC SĨ Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng tốn chuỗi thời gian để xây dựng chương trình dị tìm tự đợng điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khoán ta ứng dụng tốn chuỗi thời gian để xây dựng chương trình dự báo xu biến đợng chứng khốn thời gian tới… Dự báo liệu chuỗi thời gian một công việc phức tạp thách thức nhà nghiên cứu Đã có nhiều phương pháp dự báo chuỗi thời gian giới thiệu đưa vào ứng dụng thực tế Gần một số phương pháp dự báo liệu chuỗi thời gian dựa vào hướng tiếp cận gom cụm ứng dụng dự báo cho một số lĩnh vực cụ thể (như thời tiết, chứng khoán, giá điện nhu cầu sử dụng điện) Trong luận văn này, tập trung nghiên cứu đánh giá hiệu quả việc sử dụng phương pháp gom cụm thuật tốn k-Mean So sánh với mợt số phương pháp khác Tính hiệu quả phương pháp đánh giá thực nghiệm tập liệu thực ii ABSTRACT Time series data is the most commonly data that used in the fields of science, technology, medicine and commerce For example, in medicine, the time series problems is used to build an automatic detection program on a patient's electroencephalogram to detect disease, or in the field of securities we can using the time series problems to build a program to forecast the volatility trend of securities in the near future Forecasting on time series data has been a complex and challenging task for researchers There have been many time series prediction methods that have been introduced and put into practice Recently, a number of prediction methods on time series data based on clustering approaches have been applied for a number of specific areas (such as weather, securities, electricity prices and electricity demand) In this thesis, we focus on studying the effectiveness of using a k-Mean clustering algorithm Compare with some other methods The effectiveness of this method is evaluated experimentally on real data sets iii LỜI CAM ĐOAN Trong luận văn này, xin cam đoan cơng trình nghiên cứu bản thân tơi hướng dẫn thầy TS Nguyễn Thành Sơn Các kết quả nghiên cứu kết luận luận văn trung thực, không chép từ bất kỳ mợt nguồn bất kỳ hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Học viên Nguyễn Minh Quân iv MỤC LỤC MỞ ĐẦU 1 Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài CHƯƠNG TỔNG QUAN 1.1 Dữ liệu chuỗi thời gian 1.1.1 Khái niệm chuỗi thời gian 1.1.2 Chuỗi 1.1.3 Đặc điểm chuỗi thời gian 1.1.4 Các phương pháp hiển thị chuỗi thời gian 1.2 Các toán khai phá liệu chuỗi thời gian 1.3 Bài toán dự báo 12 CHƯƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Các độ đo tương tự 14 2.1.1 Độ đo Euclid 14 2.1.2 Độ đo xoắn thời gian động 16 2.2 Chuẩn hóa liệu 17 2.2.1 Chuẩn hóa đường trung bình 18 2.2.2 Chuẩn hóa nhỏ nhất-lớn nhất 19 2.3 Gom cụm liệu chuỗi thời gian 20 2.3.1 Giải thuật K-Means 22 2.3.2 Giải thuật K-Means++ 23 2.3.3 Một số phương pháp chọn số cụm liệu (k) 25 2.3.4 Phương pháp đánh giá kết quả dự báo 27 v CHƯƠNG PHƯƠNG PHÁP DỰ BÁO DỰA VÀO CÁCH TIẾP CẬN GOM CỤM BẰNG THUẬT TOÁN K-MEAN 30 3.1 Các cơng trình liên quan 30 3.2 Xu hướng tính mùa liệu chuỗi thời gian 31 3.3 Ứng dụng thuật toán k-Means vào dự báo chuỗi thời gian 32 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ BẰNG THỰC NGHIỆM 35 4.1 Môi trường thực nghiệm 36 4.1.1 Tổng quan hệ thống 37 4.1.2 Sơ đồ 40 4.2 Thu thập liệu 41 4.3 Chạy chương trình thực nghiệm đánh giá 44 KẾT LUẬN VÀ KIẾN NGHỊ 50 Kết luận 50 1.1 Ưu điểm: 50 1.2 Nhược điểm 50 Kiến nghị 51 TÀI LIỆU THAM KHẢO 52 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 54 vi DANH MỤC HÌNH ẢNH Hình 1.1 Chuỗi thời gian biểu diễn nhiệt đợ trung bình hàng tháng Úc Hình 1.2 Chuỗi T1, T2, …, Ti tách từ chuỗi thời gian T Hình 1.3 Ba chuỗi trích xuất từ chuỗi thời gian T cửa sổ trượt Hình 1.4 Tìm chuỗi tương tự Q cửa sổ trượt S với hàm tương tự D(Q,S) [15] Hình 1.5 Mợt số định dạng liệu chuỗi thời gian Hình 1.6 Biểu diễn chuỗi thời gian theo dạng đồ thị x theo t Hình 1.7 Biểu diễn chuỗi thời gian theo dạng đồ thị (xt/xt-1)% theo t Hình 1.8 Biểu diễn chuỗi thời gian theo dạng đồ thị xt – xt-1 theo t Hình 1.9 Tiến trình dự báo chung 13 Hình 2.1 a) Hai chuỗi tương đồng đường bản khác b) Hai chuỗi tương đồng có biên độ dao động khác 16 Hình 2.2 Hai đợ đo khoảng cách Euclid DTW [15] 17 Hình 2.3 Hai chuỗi trước sau chuẩn hóa 18 Hình 2.4 Chuẩn hóa đường trung bình 19 Hình 2.5 Chuẩn hóa lớn nhất nhỏ nhất 20 Hình 3.1 Ý tưởng bản cách tiếp cận dựa phương pháp so trùng mẫu thuật toán gom cụm 33 Hình 3.2 Quá trình phân cụm liệu 33 Hình 3.3 Quá trình dự báo 34 Hình 3.4 Minh họa thuật tốn dự báo dựa phương pháp so trùng mẫu 34 Hình 4.1 Giao diện người dùng hệ thống 40 Hình 4.2 Sơ đồ hệ thống 41 Hình 4.3 Tập liệu “nhiệt độ” thành phố Los Angeles 42 Hình 4.4 Tập liệu “Mức đợ tiêu thụ điện PJM”: 42 Hình 4.5 Tập liệu “sản lượng kem” 43 Hình 4.6 Tập liệu “Nồng độ CO2” 43 vii Hình 4.2 Sơ đồ hệ thống 4.2 Thu thập liệu Thực nghiệm thực tập liệu thực tế có tính xu hướng biến đổi theo mùa Chúng sử dụng bốn tập liệu thu thập internet [28]: Đầu tiên tập “nhiệt độ”: Nằm bộ liệu “dữ liệu thời tiết theo giờ” (historicalhourly-weather-data) Tập liệu chứa thông tin thời tiết theo thời gian khoảng năm 30 thành phố Mỹ Canada, thành phố Israel Thông tin thời tiết bao gồm nhiệt độ, độ ẩm, áp suất, mức gió, … Để thực nghiệm, chúng tơi 41 trích x́t thơng tin nhiệt đợ thành phố Los Angeles Mỹ Montreal Canada với 45252 dịng liệu Chúng tơi sử dụng 80% (36201 dòng) liệu để huấn luyện 20% (9051 dịng) để kiểm tra Hình 4.3 Tập liệu “nhiệt độ” thành phố Los Angeles Tập thứ hai “Mức độ tiêu thụ điện PJM”: PJM một tổ chức truyền tải điện khu vực Mỹ Dữ liệu tiêu thụ điện từ website PJM tính theo đơn vị megawatt (MW) Tập liệu lấy khoảng năm từ năm 1998 đến năm 2001 bao gồm 32987 dịng Trong chúng tơi sử dụng 80% (26389 dịng) liệu để huấn luyện 20% (6598 dòng) để kiểm tra Hình 4.4 Tập liệu “Mức đợ tiêu thụ điện PJM”: 42 Tập thứ ba tập “Sản lượng kem”: Cung cấp một chuỗi liệu thời gian sản lượng kem hàng tháng Tập liệu thu thập từ tháng 1/1995 đến tháng 12/2003 bao gồm 228 dịng Chúng tơi sử dụng 80% (182 dịng) liệu để huấn luyện 25% (46 dòng) để kiểm tra Hình 4.5 Tập liệu “sản lượng kem” Tập cuối mà thu thập tập “Nồng độ CO2”: Đây tập liệu thu thập hàng tháng nồng đợ carbon dioxy (CO2) khí từ đài thiên văn Mauna Loa (Hawaii) vĩ độ 19.5, kinh độ -155.6 độ cao 3397 mét Tập liệu thu thập từ tháng 3/1958 đến tháng 1/2017 bao gồm 704 dịng Chúng tơi sử dụng 80% (563 dòng) liệu để huấn luyện 20% (141 dịng) để kiểm tra Hình 4.6 Tập liệu “Nồng đợ CO2” 43 4.3 Chạy chương trình thực nghiệm đánh giá Chúng so sánh thực thi phương pháp dự báo đoạn tập liệu kiểm tra tính tốn lỗi trung bình khoảng thời gian dự báo Chúng sử dụng ba số sau để đánh giá mức độ lỗi dự báo:  Sai số tuyệt đối trung bình MAE  Sai số bình phương trung bình quân phương RMSE  Hệ số biến thiên CV(RMSE) Ngoài việc đánh giá dự báo dựa thời gian thực thi thuật tốn Chúng tơi đánh giá ảnh hưởng k đến đợ xác dự báo Để đánh giá việc chọn số lượng cụm (k), sửdụng phương pháp đơn giản nhất chạy thuật toán nhiều lần với k thay đổi từ đến 100 (đối với hai tập liệu nhỏ “Sản lượng kem” “Nồng độ CO2”) thay đổi từ đến 1500 (đối với hai tập liệu “Mức độ tiêu thụ điện PJM” “Nhiệt đợ”) Sau so sánh mức độ lỗi (MAE) lần chạy chọn k có số MAE nhỏ nhất Bảng 4.3 đến bảng 4.6 mô tả lỗi dự báo tập liệu với k thay đổi Với k tốt nhất tập liệu, thực nghiệm đánh giá ba phương pháp dự báo thuật toán k-Means, k-Means++ k-NN Với phương pháp lựa chọn k tốt nhất cho phương pháp Thực nghiệm thực tất cả bốn tập liệu Kết quả tính trung bình lỗi, trung bình thời gian chạy tất cả chuỗi tập liệu kiểm tra Thực nghiệm 1: Chọn k tốt nhất cho phương pháp k-Means, k-Means++, k-NN Trong thực nghiệm này, xem xét ảnh hưởng k đợ xác dự báo Đối với hai tập liệu “Sản lượng kem” “Nồng độ CO2”, chọn chiều dài mẫu w = 12 chu kỳ hai tập liệu 12 tháng 44 Đối với hai tập liệu “Mức độ tiêu thụ điện” “Nhiệt độ”, chọn chiều dài mẫu làw = 24 chu kỳ hai tập liệu 24 (1 ngày) Bảng 4.3 Lỗi dự báo (MAE) thực nghiệm tập liệu “Sản lượng kem” với k thay đổi từ đến 100 k k-Means k-Means++ k-NN 0.63 0.66 0.18 0.39 0.40 0.17 0.31 0.31 0.17 0.28 0.26 0.17 10 0.29 0.27 0.18 20 0.32 0.19 0.21 40 0.37 0.19 0.24 60 0.39 0.19 0.29 80 0.81 0.22 0.36 100 0.79 0.21 0.43 Bảng 4.4 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nồng độ CO2” với k thay đổi từ đến 100 k k-Means k-Means++ k-NN 0.62 0.63 0.13 0.39 0.36 0.11 0.29 0.27 0.11 0.22 0.22 0.11 10 0.19 0.16 0.12 20 0.14 0.12 0.12 40 0.19 0.12 0.12 60 0.26 0.11 0.13 80 0.26 0.12 0.15 100 0.43 0.12 0.15 Bảng 4.5 Lỗi dự báo (MAE) thực nghiệm tập liệu “Mức độ tiêu thụ điện PJM” với k thay đổi từ đến 1500 k k-Means k-Means++ k-NN 0.69 0.69 0.17 0.46 0.46 0.16 0.39 0.38 0.16 0.35 0.35 0.16 10 0.34 0.33 0.16 100 0.25 0.24 0.20 200 0.23 0.23 0.21 500 0.22 0.21 0.22 1000 0.22 0.19 0.24 1500 0.24 0.18 0.25 Bảng 4.6 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nhiệt độ” với k thay đổi từ đến 1500 k k-Means k-Means++ k-NN 0.67 0.67 0.26 0.42 0.42 0.24 0.34 0.34 0.23 0.30 0.32 0.23 10 0.29 0.28 0.22 100 0.24 0.24 0.22 200 0.24 0.24 0.22 500 0.25 0.23 0.23 1000 0.30 0.23 0.23 1500 0.38 0.23 0.23 Nhận xét: Dựa vào kết quả thực nghiệm ta nhận thấy Với phương pháp k-NN mức đợ lỗi có xu hướng tăng k tăng Ngược lại k-meanvà k-means++ mức độ lỗi có xu hướng giảm k giảm Thuật tốn k-Means k-Means++, với k nhỏ mức đợ lỗi tương đương Tuy nhiên k lớn ta thấy mức đợ lỗi có chênh lệch đáng kể 45 Đối với tập liệu “Sản lượng kem” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 8, 60, Đối với tập liệu “Nồng độ CO2” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 20, 60, Đối với tập liệu “Mức độ tiêu thụ điện PJM” k tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 500, 1500, 10 Đối với tập liệu “Nhiệt độ” k tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN là: 200, 1500, 10 Thực nghiệm 2: Đánh giá ảnh hưởng việc chọn chiều dài chuỗi w chiều dài chuỗi dự báo L tới kết quả dự báo với k chọn tốt nhất với phương pháp thực nghiệm Bảng 4.7 Lỗi dự báo (MAE) thực nghiệm tập liệu “Sản lượng kem” với w thay đổi từ đến 20 chiều dài dự báo L tốt nhất W k-Means (k=8) k-Means++ (k=60) k-NN (k=4) 0.30 L=5 0.32 L=5 0.21 L=5 0.26 L=5 0.15 L=5 0.19 L=5 0.34 L=7 0.35 L=4 0.23 L=4 0.32 L=8 0.30 L=8 0.38 L=8 0.36 L=9 0.33 L=9 0.26 L=9 10 0.22 L=10 0.21 L=10 0.25 L=10 12 0.21 L=12 0.27 L=12 0.21 L=12 15 0.22 L=14 0.23 L=15 0.22 L=14 18 0.31 L=17 0.21 L=16 0.29 L=17 20 0.23 L=17 0.23 L=17 0.20 L=17 Bảng 4.8 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nồng độ CO2” với w thay đổi từ đến 20 chiều dài dự báo L tốt nhất W k-Means (k=20) k-Means++ (k=60) k-NN (k=4) 0.32 L=5 0.18 L=5 0.18 L=5 0.18 L=6 0.14 L=6 0.21 L=6 0.11 L=7 0.06 L=7 0.07 L=7 0.10 L=7 0.06 L=8 0.07 L=8 0.08 L=8 0.07 L=9 0.09 L=9 46 10 0.07 L=7 0.09 L=10 0.08 L=10 12 0.15 L=12 0.12 L=12 0.15 L=12 15 0.14 L=15 0.14 L=08 0.13 L=09 18 0.30 L=15 0.11 L=15 0.08 L=18 20 0.20 L=14 0.11 L=14 0.09 L=14 Bảng 4.9 Lỗi dự báo (MAE) thực nghiệm tập liệu “Mức độ tiêu thụ điện PJM” với w thay đổi từ đến 1024 chiều dài dự báo L tốt nhất W k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) 0.8 L=6 0.8 L=6 0.78 L=6 0.1 L=9 0.06 L=9 0.05 L=9 12 0.15 L=12 0.09 L=12 0.08 L=12 16 0.15 L=15 0.14 L=15 0.1 L=15 32 0.18 L=13 0.14 L=12 0.14 L=13 64 0.15 L=15 0.14 L=16 0.12 L=15 128 0.23 L=14 0.22 L=13 0.27 L=11 256 0.21 L=28 0.20 L=28 0.25 L=25 512 0.19 L=18 0.22 L=17 0.24 L=55 1024 0.33 L=12 0.28 L=13 0.25 L=13 Bảng 4.10 Lỗi dự báo (MAE) thực nghiệm tập liệu “Nhiệt độ” với w thay đổi từ đến 1024 chiều dài dự báo L tốt nhất W k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) 0.30 L=6 0.23 L=6 0.23 L=6 0.20 L=9 0.21 L=9 0.20 L=9 12 0.16 L=12 0.17 L=12 0.14 L=12 16 0.14 L=9 0.1 L=16 0.07 L=16 32 0.27 L=32 0.25 L=32 0.19 L=23 64 0.29 L=26 0.24 L=26 0.22 L=32 128 0.27 L=27 0.25 L=23 0.21 L=27 256 0.26 L=26 0.21 L=23 0.18 L=22 512 0.36 L=25 0.22 L=8 0.23 L=27 1024 0.23 L=23 0.15 L=18 0.17 L=22 Ta nhận thấy: Kết quả dự báo với lỗi nhỏ nhất w L thường có giá trị nhỏ (khoảng từ đến 64) Đối với chiều dài w ngắn giá trị L dường tốt nhất L=w Tuy nhiên chiều dài w lớn giá trị L tốt nhất nằm khoảng từ 16 đến 30 Đối với tập liệu “Sản lượng kem” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 12, 6, 6; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 12, 5, Đối với tập liệu “Nồng độ CO2” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 10, 8, 8; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 7, 8, Đối với tập liệu “Mức độ tiêu thụ điện PJM” w tốt nhất tương ứng với thuật toán k-Means, k-Means++ k-NN là: 9, 9, 9; L tốt nhất tương ứng với thuật toán kMeans, k-Means++ k-NN 9, 9, 47 Đối với tập liệu “Nhiệt độ” w tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN là: 16, 16, 16; L tốt nhất tương ứng với thuật toán k-Means, kMeans++ k-NN 9, 16, 16 Thực nghiệm 3: So sánh ba phương pháp với k-Means, k-Means++ k-NN với k chọn tốt nhất cho phương pháp Với k tốt nhất chọn thực nghiệm w, L tốt nhất chọn thực nghiệm Chúng tơi tiến hành thực nghiệm tồn bợ tập kiểm tra Kết quả tính trung bình tồn bợ kết quả kiểm tra Bảng 4.11 Kết quả thực nghiệm tập “Sản lượng kem” k-Means (k=8) k-Means++ (k=60) k-NN (k=4) MAE RMSE CV(RMSE) 0.263 0.203 0.178 0.321 0.247 0.220 0.101 0.078 0.069 Thời gian huấn luyện (ms) 3 Thời gian dự báo (ms) 1 Bảng 4.12 Kết quả thực nghiệm tập “Nồng độ CO2” k-Means (k=20) k-Means++ (k=60) k-NN (k=4) MAE RMSE CV(RMSE) 0.152 0.117 0.113 0.183 0.142 0.140 0.061 0.048 0.047 Thời gian huấn luyện (ms) Thời gian dự báo (ms) 1 Bảng 4.13 Kết quả thực nghiệm tập “Mức độ tiêu thụ điện PJM” k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) MAE RMSE CV(RMSE) 0.215 0.186 0.221 0.264 0.229 0.272 0.090 0.078 0.092 Thời gian huấn luyện (ms) 3921 10481 Thời gian dự báo (ms) 1 Bảng 4.14 Kết quả thực nghiệm tập “Nhiệt độ” k-Means (k=500) k-Means++ (k=1500) k-NN (k=10) MAE RMSE CV(RMSE) 0.215 0.231 0.224 0.264 0.287 0.278 0.090 0.095 0.092 48 Thời gian huấn luyện (ms) 3921 13940 Thời gian dự báo (ms) 1 10 Nhận xét: Dựa vào kết quả thực nghiệm ta nhận thấy Về đợ xác, thuật tốn k-NN có mức đợ lỗi nhỏ nhất, tiếp thuật tốn kMean++ cuối thuật toán k-Mean Về thời gian gom cụm, thuật toán k-NN dự báo trực tiếp tập h́n luyện nên khơng có thời gian huấn luyện Thuật toán k-Means++ thực gom cụm số cụm nhiều hơn, đồng thời tốn thêm thời gian để tính cụm khởi tạo, thời gian h́n luyện nhiều Về thời gian dự báo, thuật tốn k-NN khơng h́n luyện mà phải dự báo tồn bợ tập h́n luyện thời gian dự báo lâu đáng kể so với thuật toán k-Means k-Means++ (do hai thuật toán huấn luyện, nên việc dự báo cần tìm cụm gần nhất với mẫu dự báo cụm đó) 49 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Trong luận văn này, nghiên cứu đánh giá một phương pháp dự báo chuỗi thời gian dựa vào phương pháp gom cụm thuật toán k-Means Đối với thuật toán k-Means, chúng tơi tìm hiểu thêm phương pháp để cải tiến việc chọn cụm trung tâm ban đầu thuật toán k-Means++ Nhờ đó mà kết quả gom cụm ổn định dự báo có kết quả xác tốt Chúng so sánh phương pháp gom cụm với mợt thuật tốn phân lớp khác k-NN Để thực nghiệm kết quả nghiên cứu ứng dụng vào thực tế, xây dựng một ứng dụng web, với giao diện người dùng thân thiện, hoạt đợng nhiều thiết bị Ngồi ra, chúng tơi cịn cung cấp một dịch vụ web (web service) qua APIs để chia sẻ kết quả cho nhiều người khác 1.1 Ưu điểm Dự báo chuỗi thời gian dựa phương pháp gom cụm thuật toán k-Means có tốc đợ thực dự báo rất nhanh, khơng có thời gian trễ Với đợ xác mức chấp nhận Với thuật toán cải tiến k-Means++ tăng đợ xác phương pháp lên đáng kể, thời gian huấn luyện tăng lên quan trọng thời gian dự báo Ứng dụng có giao diện người dùng thân thiện, hoạt đợng nhiều thiết bị có khả chia sẻ kết quả nghiên cứu cho người khác 1.2 Nhược điểm Việc chọn k cho phương pháp gom cụm thuật tốn k-Means có ảnh hưởng đến chất lượng cụm thời gian gom cụm Từ ảnh hưởng đến kết quả dự báo Trong luận văn này, chọn k cách thử nhiều giá trị k sau chọn k mà kết quả dự báo có lỗi nhỏ nhất Tuy nhiên việc chọn k rất mất thời gian hiệu 50 quả không cao ngồi k cịn nhiều yếu tố khác ảnh hưởng đến thuật tốn, khơng thể thử hết tất cả giá trị k để tìm giá trị phù hợp Hiện tại, thuật toán chạy tốt tập liệu có tính xu hướng hay tính mùa Các tập liệu có tính ngẫu nhiên thuật tốn cho kết quả dự báo cịn sai số rất nhiều Kiến nghị Với khuyết điểm trên, kiến nghị một số vấn đề cần giải để cải thiện chất lượng gom cụm kết quả dự báo Về vấn đề chọn k, cần phải nghiên cứu phương pháp để chọn k một cách tự động Một số phương pháp đề xuất như: Đánh giá chéo chất lượng cụm dựa vào số Dunn, Davies-Bouldin, Silhouette Coefficient; chọn k dựa vào “text database” (cơ sở liệu chứa thông tin cụm tối ưu); phân tích ma trận kernel… Đối với tập liệu khơng có tính xu hướng mùa, cần phải kết hợp với phương pháp khác, đồng thời phải nghiên cứu việc chọn chiều dài mẫu (w) để so trùng một cách tự động tốt nhất 51 TÀI LIỆU THAM KHẢO [1] Ratnadip Adhikari and R K Agrawal "An Introductory Study on Time Series Modeling and Forecasting," LAP Lambert Academic Publishing, Germany, 2013 [2] Sarah Gelper et al "Robust forecasting with exponential and Hold-Winters smoothing," Journal of Forecasting Vol 29, no 3, pp 285-300, 2010 [3] Yi-Shian Lee and Lee-Ing Tong "Forecasting time series using a methodology based on autoregressive integrated moving average and genetic programming,” Knowledge-Based Systems Vol 24, pp 66-72, 2011 [4] Mohammad Valipour et al "Parameters Estimate of Autoregressive Moving Average and Autoregressive Integrated Moving Average Models and Compare Their Ability for Inflow Forecasting," Journal of Mathematics and Statistics Vol 3, pp 330-338, 2012 [5] Kwangbok Jeong et al "An estimation model for determining the annual energy cost budget in educational facilities using SARIMA (seasonal autoregressive integrated moving average) and ANN (artificial neural network)," Energy Vol 71, pp 71-79, 2014 [6] Mukesh K Tiwari and Chandranath Chatterjee "Development of an accurate and reliable hourly flood forecasting model using wavelet–bootstrap–ANN (WBANN) hybrid approach," Journal of Hydrology Vol 394, pp 458-470, 2010 [7] Erasmo Cadenas and Wilfrido Rivera "Short-term wind speed forecasting in La Venta, Oaxaca, México, using artificial neural network," Renewable Energy Vol 34, pp 274-278, 2009 [8] Christopher Bennett et al "ANN-based residential water end-use demand forecasting model," Expert Systems with Applications Vol 40, pp 1014-1023, 2013 [9] Jan Adamowski and Hiu Fung Chan "A wavelet neural network conjunction model for groundwater level forecasting," Journal of Hydrology Vol 407, pp 28-40, 2011 [10] Mehdi Khashei and Mehdi Bijari "An artificial neural network (p, d, q) model for timeseries forecasting," Expert Systems with Applications Vol 37, pp 479489, 2010 52 [11] Oscar Claveria and Salvador Torra "Forecasting tourism demand to Catalonia: Neural networks vs time series models," Economic Modelling Vol 36, pp 220-228, 2014 [12] Erdal Kayacan et al "Grey system theory-based models in time series prediction," Expert Systems with Applications Vol 37, pp 1784-1789, 2010 [13] Shuhaida Ismail et al "A hybrid model of self-organizing maps (SOM) and least square support vector machine (LSSVM) for time-series forecasting", Expert Systems with Applications Vol 38, pp 10574-10578, 2011 [14] Francisco Martínez-Álvarez et al "Energy Time Series Forecasting Based on Pattern Sequence Similarity", IEEE Transactions on Knowledge and Data Engineering Vol 23, pp 1230-1243, 2011 [15] Patrick Schäfer "Scalable Time Series Similarity Search for DataAnalytics," M.A thesis, Humboldt University, Berlin, 2015 [16] E Keogh "A Tutorial on Indexing and Mining Time Series Data," presented at The IEEE International Conference on Data Mining, San Jose, California, USA, 2001 [17] Jingjing Meng et al "Mining Motifs from Human Motion," in Proc of EUROGRAPHICS, 2008 [18] Jason R Chen "Useful clustering outcomes from meaningful time series clustering," AusDM' 07 Proceedings of the sixth Australasian conference on Data mining and Analytics Pp 101-109, 2007 [19] Donald J Bemdt and James Cliffor "Finding Patterns in time series: a dynamic programming approach," Journal of advances in Knowledge Discovery and Data Mining Pp 229-248, 1996 [20] Jessica Lin et al "Mining Shape and Time Series Databases with Symbolic Representations," VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases Pp 406-417, 2002 [21] T Warren Liao "Clustering of time series data - a survey," Pattern Recognition Vol 38, pp 1857-1874, 2005 [22] Jessica Lin el al "Iterative incremental clustering of time series," International Conference on Extending Database Technology Pp 106-122, 2004 [23] J McQueen."Some Methods for Classification and Analysis of Multivariate Observation," Proc Fifth Berkeley Symp on Math Statist and Prob Vol 1, pp 281-297, 1967 53 [24] David Arthur "k-means++: The Advantages of Careful Seeding," Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms Pp 1027-1035, 2007 [25] Sadia Nawrin et al "Exploreing K-Means with Internal Validity Indexes for Data Clustering in Traffic Management System," (IJACSA) International Journal of Advanced Computer Science and Applications Vol 8, no 3, 2017 [26] Nayak et al "Temporal Pattern Matching for the Prediction of Stock Prices," Conferences in Research and Practice in Information Technology (CRPIT) Vol 84, 2017 [27] Yu-Feng Jiang et al "Stock temporal prediction based on time series motifs," International Conference on Machine Learning and Cybernetics Vol 6, pp 3550-3555, 2009 [28] Kaggle Inc "Dataset." Internet: https://www.kaggle.com 54 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Minh Quân Giới tính: Nam Ngày, tháng, năm sinh: 28/09/1990 Nơi sinh: Đồng Nai Email: nguyenminhquan1990@gmail.com Điện thoại: 0977383347 II QUÁ TRÌNH ĐÀO TẠO: - Từ năm 2008 – 2011: Học cao đẳng trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh - Từ năm 2011 – 2013: Học đại học trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh - Từ năm 2015 – 2017: Học cao học trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Cơng việc đảm nhiệm 2012-2016 Công ty TNHH phần mềm Nhất Tâm Kỹ sư phần mềm 2016-2019 Công ty TNHH phần mềm TMA Kỹ sư phần mềm Tp HCM, ngày 19 tháng 09 năm 2019 Người khai (Ký tên) 55 ... mẫu dự báo hồi tiếp trở lại vào tập liệu để sử dụng cho lần dự báo sau, nhờ tầm dự báo k? ?o dài theo yêu cầu (k? ?? thuật gọi dự báo) Thuật toán dự báo chuỗi thời gian dựa vào k? ?? thuật gom cụm thuật. .. tảng toán dự báo chuỗi thời gian, phương pháp dự báo chuỗi thời gian Nghiên cứu ứng dụng phương pháp gom cụm thuật toán k- Mean vào toán dự báo liệu chuỗi thời gian Từ xây dựng chương trình thực... ứng dụng phương pháp gom cụm thuật toán k- Mean vào toán dự báo liệu chuỗi thời gian Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu liệu chuỗi thời gian, thuật toán k- Mean Phạm vi nghiên cứu toán

Ngày đăng: 25/05/2021, 22:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w