Luận văn thạc sĩ Khoa học máy tính: Dự báo dữ liệu chuỗi thời gian bằng một tập hợp giải thuật k lân cận gần nhất

NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu kỹ thuật phân đoạn dữ liệu chuỗi thời gian dựa vào những điểm cực trị quan trọng Tìm hiểu giải thuật gom cụm K-means Tìm hiểu phương pháp dự báo dữ liệu

GIỚI THIỆU ĐỀ TÀI

Giới thiệu vấn đề

Ngày nay, khi xã hội ngày càng phát triển thì thông qua các hoạt động công nghệ hằng ngày thì lượng thông tin cũng như dữ liệu ngày càng bùng nổ và tăng lên một cách nhanh chóng Lượng dữ liệu khổng lồ này đến từ nhiều nguồn khác nhau như, y tế, tài chính, kinh tế, giáo dục, khoa học kỹ thuật… và cũng là một nguồn tài nguyên vô cùng quý giá nếu chúng ta có thể phát hiện và khai thác những thông tin trong lượng dữ liệu đó để qua đó có thể hỗ trợ việc đưa ra những quyết định một cách nhanh chóng và chính xác nhất có thể Và từ những nhu cầu thực tế này, rất nhiều các nhà khoa học đã và đang phát triển những phương pháp cũng như hệ thống khai phá dữ liệu.Và một trong những hướng nghiên cứu khai phá dữ liệu phổ biến hiện nay chính là kỹ thuật khai phá dữ liệu chuỗi thời gian

Ngày nay, chúng ta có thể dễ dàng nhìn thấy dữ liệu chuỗi thời gian ở khắp các phương tiện thông tin, từ internet, sách báo, truyền hình… và nguồn phát sinh dữ liệu chuỗi thời gian cũng rất đa dạng và phổ biến (từ tài chính, kinh tế, những số liệu chứng khoán, số liệu khí tượng thủy văn, môi trường…) Qua đó có thể thấy được rằng dữ liệu chuỗi thời gian phổ biến như thế nào trong thống kê tại thời điểm hiện tại Và các nhà đầu tư cần phải có công cụ hỗ trợ để dự báo được những nhu cầu cũng như biến động của thị trường để có phương hướng, chính sách, chiến lược phù hợp cho thời gian tới

Vậy chuỗi thời gian là gì? Đó là một tập hợp dữ liệu mà các giá trị của nó được quan sát và đo được một cách tuần tự theo những khoảng thời gian bằng nhau

Hiện tại có rất nhiều kỹ thuật khai phá dữ liệu chuỗi thời gian, và một trong những kỹ thuật phổ biến nhất chính là dự báo dữ liệu chuỗi thời gian.Các phương pháp dự

Hoàng Trung Hiếu 2 báo dữ liệu chuỗi thời gian rất có ý nghĩa trong nhiều lĩnh vực khác nhau Ví dụ như trong lĩnh vực kinh tế, việc dự báo các chỉ số chứng khoán có thể hỗ trợ cho việc ra quyết định cho các nhà đầu tư; hay trong lĩnh vực khí tượng thủy văn có thể dự báo lượng mưa tăng hay giảm so với những năm trước để qua đó hỗ trợ thông tin cho ngành nông nghiệp có những dự trù phù hợp cho việc canh tác…

Mục tiêu và nhiệm vụ nghiên cứu

Hiện nay có rất nhiều kỹ thuật, phương pháp cũng như giải thuật rất hữu hiệu cho việc dự báo dữ liệu chuỗi thời gian mà có thể kể đến như: Mô hình ARIMA (Auto

Regressive Integrate Moving Average); Làm trơn hàm mũ, Mạng nơ-ron, k lân cận gần nhất

+ Những phương pháp làm trơn hàm mũ [9] (Exponential Smoothing Methods) gồm những phương pháp

 Làm trơn hàm mũ bậc một (Single Exponential Smoothing) dùng cho những chuỗi thời gian không có tính xu hướng và không có tính mùa

 Làm trơn hàm mũ bậc 2 (Double Exponential Smoothing) dùng cho chuỗi thời gian có tính xu hướng và không có tính mùa

 Mô hình Winter’s dùng cho những chuỗi thời gian vừa có tính xu hướng và có tính mùa

+ Mô hình ARIMA (Auto Regressive Integrated Moving Average) [9] được dùng cho chuỗi thời gian không có tính dừng (non-stationary) nhưng được làm cho có tính dừng (stationary) bằng cách tính toán sự khác nhau giữa các điểm dữ liệu

+ Dự báo chuỗi thời gian với mạng Nơ-ron nhân tạo (ANN) [9] là mô hình sử dụng ANN để dự báo điểm dữ liệu X t+1 với những node input của ANN là s điểm dữ liệu trước đó (X t-s … X t ) của nó

+ k-NN là phương pháp sử dụng khoảng cách Euclid để xác định những lân cận của câu truy vấn qua đó tìm ra giá trị dự báo tương ứng

Trong số những phương pháp nói trên thì phương pháp dùng k-NN để dự báo chuỗi thời gian là một phương pháp khá đơn giản và dễ hiện thực nên rất phổ biến trong các hệ thống dự báo Tuy nhiên, phương pháp này lại có một hạn chế [1] đáng lưu ý, đó là nó khá nhạy cảm với sự thay đổi của những tham số nhập vào; chẳng hạn như: số lân cận gần nhất, hàm lựa chọn trọng số, tầm vực dự báo, chiều dài của câu truy vấn Nhận ra được sự ảnh hưởng đáng kể của tham số k lân cận gần nhất của phương pháp k lân cận gần nhất truyền thống, Yankov và các cộng sự năm 2006[2] đã đề xuất một phương pháp Dự báo dữ liệu chuỗi thời gian dựa vào một tập hợp giải thuật k-lân cận gần nhất nhằm mục đích cải thiện được độ chính xác của phương pháp dự báo so với phương pháp k-lân cận gần nhất đơn lẻ

Trong bài báo nêu trên, Yankov và các cộng sự đã để mở một số vấn đề của phương pháp này, đó là: i làm cách nào để phân lớp những mẫu truy vấn chuỗi thời gian thành 2 lớp sao cho ứng với mỗi lớp mẫu truy vấn đó được dự báo tốt hơn với một trong hai bộ dự báo con k i -NN trong tập hợp {k 1 -NN, k 2 -NN} ii làm cách nào để xác định hai tham số k 1 và k 2 của hai bộ dự báo con

Và trong phạm vi đề tài này, chúng tôi ứng dụng phương pháp dự báo dữ liệu chuỗi thời gian dựa vào một tập hợp giải thuật k lân cận gần nhất do Yankov và các cộng sự đề xuất, giải quyết 2 vấn đề còn tồn đọng trong phương pháp này, và so sánh sự hữu hiệu của phương pháp này với phương pháp dự báo dữ liệu chuỗi thời gian sử dụng giải thuật k-NN đơn lẻ

* Nội dung nghiên cứu của đề tài bao gồm các công việc sau:

+ Phân đoạn dữ liệu chuỗi thời gian thành những chuỗi con dựa vào phương pháp những điểm cực trị quan trọng (important extreme points), đề xuất bởi Pratt và Fink [3]

+ Tìm hiểu giải thuật gom cụm K-means để gom cụm các phân đoạn chuỗi thời gian thành 2 cụm khác nhau qua đó tìm ra 2 chuỗi con trung tâm trong 2 nhóm các phân đoạn của chuỗi thời gian

+ Tìm hiểu phương pháp dự báo dữ liệu chuỗi thời gian dùng giải thuật k-NN (k

+ Hiện thực một chương trình dự báo dữ liệu chuỗi thời gian bằng cách sử dụng một tập hợp gồm 2 giải thuật k-NN.

Sơ lược về kết quả thu được

Như đã nói ở trên, mục đính chính của luận văn chính là hiện thực một hệ thống dự báo dữ liệu chuỗi thời gian bằng một tập hợp giải thuật k-NN và so sánh với phương pháp dự báo chỉ sử dụng k-NN đơn lẻ

Và trong suốt quá trình nghiên cứu và thử nghiệm, chúng tôi thấy được một số ưu điểm của phương pháp dùng tập hợp giải thuật k-NN so với phương pháp chỉ dùng một giải thuật k-NN đơn chính là + Kết quả dự báo chính xác hơn

+ Có thể dự báo tốt đối với dữ liệu chuỗi thời gian có tính biến động cao

Cấu trúc của luận văn

Phần còn lại của luận văn bao gồm những phần sau:

Chương II chúng tôi trình bày lý thuyết tổng quan về dữ liệu chuỗi thời gian cùng với đó là giới thiệu một số phương pháp dự báo thường gặp; sử dụng giải thuật k-NN trong việc dự báo chuỗi thời gian; và một số khái niệm, lý thuyết có sử dụng trong bài luận văn

Chương III chúng tôi giới thiệu một số công trình có liên quan: những công trình về giải thuật

Chương IV sẽ đề xuất một phương pháp mới của chúng tôi và các bước hiện thực để giải quyết bài toán

Chương V chúng tôi trình bày những kết quả đạt được sau khi hiện thực và thử nghiệm trên một số bộ dữ liệu mẫu

Chương VI trình bày một số kết luận sau khi thực hiện đề tài

CƠ SỞ LÝ THUYẾT

Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian (Time Series Data) là dữ liệu bao gồm tập hợp các điểm dữ liệu được đo được bằng cách quan sát, đo đạc một cách tuần tự theo những khoảng thời gian rời rạc và cách đều nhau Ví dụ: dữ liệu về lượng mưa trung bình theo từng năm của một quốc gia, vùng lãnh thổ; hay dữ liệu doanh thu hằng tháng, quý, năm của một doanh nghiệp; chỉ số chứng khoán của công ty… và dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian Hình 2.1 minh họa một ví dụ về dữ liệu chuỗi thời gian

Hình 2.1: Ví dụ về dữ liệu chuỗi thời gian

Các thành phần của một chuỗi thời gian: Về lý thuyết, bất kỳ chuỗi thời gian nào cũng có 4 thành phần [9][10][11] ảnh hưởng trực tiếp lên giá trị của chuỗi thời gian, đó là các thành phần:

+ Xu hướng (trend) + Mùa (seasonal) + Chu kỳ (cycle) + Bất thường (irregular)

Việc xác định những thành phần này rất quan trọng trong những bài toán dự báo chuỗi thời gian, giúp cho ta lựa chọn mô hình dự báo phù hợp

- Thành phần xu hướng: Tính xu hướng của chuỗi thời gian tồn tại khi cho một sự tăng hoặc giảm trong một thời gian dài của dữ liệu Đường xu hướng không cần phải tuyến tính Hình 2.2 minh họa thành phần xu hướng của chuỗi thời gian (đường màu xanh lá)

Hình 2.2: Biểu đồ thể hiện thành phần xu hướng của chuỗi thời gian

- Thành phần mùa: tính mùa của một chuỗi thời gian xuất hiện khi một chuỗi thời gian bị ảnh hưởng bởi những yếu tố mùa vụ (như từng quý hoặc từng tháng trong một năm, ngày trong tuần).Tính mùa luôn là một khoảng thời gian cố định và biết trước

Hình 2.3 minh họa tính mùa của chuỗi thời gian

Hình 2.3: Biểu đồ thể hiện thành phần mùa của chuỗi thời gian

- Thành phần chu kỳ: Xuất hiện khi hình dạng của chuỗi tăng lên và giảm mà ko theo một khoảng thời gian cố định như thành phần mùa Thời hạn của những biến động thường là 1 năm hoặc 2 năm trở lên Hình 2.4 minh họa tính chu kỳ của chuỗi thời gian

- Thành phần bất thường: Xuất hiện trong chuỗi thời gian mà sự tăng hay giảm của dữ liệu là rất tùy tiện và rất khó nắm bắt được, không có một hình dạng rõ ràng (xem hình 2.5)

Hình 2.4: Biểu đồ thể hiện thành phần chu kỳ của chuỗi thời gian

Hình 2.5: Biểu đồ thể hiện thành phần bất thường của chuỗi thời gian

Một số phương pháp dự báo dữ liệu chuỗi thời gian

Hiện tại có rất nhiều kỹ thuật, phương pháp cũng như giải thuật khá hữu hiệu cho bài toán dự báo dữ liệu chuỗi thời gian Và ở trong phần này, chúng tôi giới thiệu sơ

Hoàng Trung Hiếu 9 lược 3 phương pháp dự báo dữ liệu chuỗi thời gian thông dụng nhất: những phương pháp làm trơn hàm mũ (Exponential Smoothing), mô hình ARIMA (Autogressive Integrated Moving Average), mô hình áp dụng mạng Neural nhân tạo để dự báo chuỗi thời gian

2.2.1 Phương pháp làm trơn hàm mũ (Exponential Smoothing Methods)

Làm trơn hàm mũ là phương pháp làm trơn tuyến tính bao gồm các phương pháp sau:

+ Làm trơn hàm mũ bậc một (Single Exponential Smoothing)

+ Làm trơn hàm mũ bậc hai (Double Exponential Smoothing) + Phương pháp Winter

* Làm trơn hàm mũ bậc một là phương pháp làm trơn hàm mũ dùng cho những chuỗi thời gian không có tính xu hướng và không có tính mùa

Công thức (3.1) cho thấy giá trị dự báo 𝐴 𝑡 phụ thuộc vào giá trị thực tế gần đây nhất

Y t-1 và giá trị dự báo gần đây nhất A t-1 Ở đây α luôn nằm giữa khoảng 0 và 1 (0.1 và

0.9) Giá trị tối ưu của α sẽ là giá trị sao cho sai số dự báo là nhỏ nhất

* Làm trơn hàm mũ bậc hai (Holt’s method): Phương pháp Holt là kỹ thuật có xét đến làm trơn xu hướng và độ dốc một cách trực tiếp nhờ sử dụng các hằng số làm trơn khác nhau, điều này cho phép chọn thêm tham số xu hướng và độ dốc Do đó, mô hình này sử dụng tốt cho chuỗi thời gian có tính xu hướng Phương pháp Holt gồm 3 phương trình cơ bản:

Dãy số làm trơn theo hàm số mũ:

Dự báo tại thời điểm p:

A t : giá trị làm trơn mới Y t: giá trị thực tại thời gian t T t : ước lượng xu hướng Y’ t+p : dự báo tại thời điểm p trong tương lai

: hằng số làm trơn cho ước lượng xu hướng (0 𝑎 𝑖𝑀𝑎𝑥 then 𝑖𝑀𝑎𝑥 = 𝑖 𝑖 = 𝑖 + 1

If 𝑖𝑀𝑖𝑛 < 𝑖𝑀𝑎𝑥 then output (𝑎 𝑖𝑀𝑖𝑛 , 𝑖𝑀𝑖𝑛); output (𝑎 𝑖𝑀𝑎𝑥 , 𝑖𝑀𝑎𝑥) else output (𝑎 𝑖𝑀𝑎𝑥 , 𝑖𝑀𝑎𝑥); output (𝑎 𝑖𝑀𝑖𝑛 , 𝑖𝑀𝑖𝑛) return 𝑖

FIND-MINIMUM(𝑖) – Tìm điểm cực tiểu quan trọng sau điểm thứ i 𝑖𝑀𝑖𝑛 = 𝑖 while 𝑖 < 𝑛 and 𝑎 𝑖 ⁄𝑎 𝑖𝑀𝑖𝑛 < 𝑅 do if 𝑎 𝑖 < 𝑎 𝑖𝑀𝑖𝑛 then 𝑖𝑀𝑖𝑛 = 𝑖

FIND-MAXIMUM(𝑖) – Tìm điểm cực đại quan trọng sau điểm thứ i 𝑖𝑀𝑎𝑥 = 𝑖 while 𝑖 < 𝑛 and 𝑎 𝑖𝑀𝑎𝑥 ⁄𝑎 𝑖 < 𝑅 do if 𝑎 𝑖 > 𝑎 𝑖𝑀𝑎𝑥 then 𝑖𝑀𝑎𝑥 = 𝑖

Giải thuật này có độ phức tạp thời gian là tuyến tính Giải thuật chỉ cần duyệt qua tập dữ liệu chuỗi thời gian một lần và nó có thể xử lý những điểm dữ liệu mới đến từng điểm một mà không cần lưu toàn bộ chuỗi dữ liệu trong bộ nhớ

* Rút trích các chuỗi con dựa vào các điểm cực trị quan trọng và gom cụm

Dựa vào các điểm cực trị quan trọng đã tìm được bằng giải thuật nêu trên, việc rút trích và phân lớp các chuỗi con [4] được thực hiện theo các bước sau:

- Bước 1: Lấy tất cả các điểm cực trị quan trọng của chuỗi thời gian T ta có chuỗi các điểm cực trị quan trọng là EP = (ep 1 , ep 2 , …, ep l )

- Bước 2: Rút trích tất cả những chuỗi con ứng viên, đó là chuỗi được giới hạn bởi 2 điểm cực trị quan trọng là ep i và ep i+2

- Bước 3: Sử dụng giải thuật gom cụm K-means để gom cụm các chuỗi con ứng viên thành 2 cụm Như vậy 2 cụm này chính là 2 lớp chuỗi con mà ta phân lớp được.

Lựa chọn mô hình cấu trúc cho giải thuật k-NN…………………………… 26 3.4 Dự báo dữ liệu chuỗi thời gian bằng tập hợp giải thuật k lân cận gần nhất… 27

Vào năm 2005, Sorjamaa và các cộng sự đã đề xuất một số phương pháp để xác định cấu trúc mô hình [1] dùng cho giải thuật k lân cận gần nhất (k-NN) trong việc dự báo dữ liệu chuỗi thời gian Và trong trường hợp này, những tham số trong cấu trúc mô hình đó chính là số k lân cận gần nhất áp dụng cho giải thuật k-NN

Ba giải thuật mà Sorjamaa và các cộng sự đã giới thiệu trong bài báo chính là: giải thuật Leave-One-Out, Bootstrap và Bootstrap-653

Công việc của cả 3 giải thuật này là lựa chọn số k lân cận gần nhất cũng như số input sao cho sai số tổng quát (Generalization Error) đạt được là tối ưu (nhỏ nhất có thể)

Sorjamaa và các cộng sự đã thử nghiệm các phương pháp đề xuất với bộ dữ liệu là

Lượng tải điện năng của Balan trong 2500 ngày ở những năm 90 Với nửa đầu của dữ liệu được dùng để huấn luyện và nửa sau dùng để kiểm tra và đánh giá

Kết quả thực nghiệm cho thấy rằng với cả 3 giải thuật Leave-One-Out, Bootstrap và

Bootstrap-653, thì giải thuật Bootstrap lựa chọn số k lân cận là hữu hiệu hơn so với 2 giải thuật còn lại khi cho sai số tổng quát là nhỏ nhất

3.4 Dự báo dữ liệu chuỗi thời gian bằng tập hợp giải thuật k lân cận gần nhất

Vào năm 2006 Yankov và các cộng sự song song với việc đề xuất phương pháp dự báo dữ liệu chuỗi thời gian bằng tập hợp giải thuật k-NN [2] cũng sử dụng phương pháp này để hiện thực dự báo dữ liệu dao động laser và dữ liệu từ web log và qua đó đánh giá cũng như so sánh độ chính xác của phương pháp đã đề xuất so với phương pháp dự báo dùng k-NN đơn lẻ truyền thống

Có 3 tầm vực dự báo h mà tác giả sử dụng cho nghiên cứu là: 30, 60, và 100; cùng với kích thước câu truy vấn được sử dụng là 30 điểm dữ liệu Để phân lớp các câu truy vấn sao cho chúng có thể lựa chọn một trong hai giá trị k- NN trong tập {k1-NN, k2-NN} để cho kết quả dữ liệu output tốt nhất, Yankov và cộng sự đã sử dụng phương pháp Máy Vector hỗ trợ (Support Vector Machine -SVM) với một hàm kernel Gauss

* Phương pháp phân lớp SVM:

Cho u i là vector những đặc tính tương ứng tới truy vấn và v i là nhãn tương ứng cho mỗi vector thì SVM phân lớp [2] một mẫu thử u theo luật sau:

Với 0 ≤ 𝛼 𝑖 ≤ 𝐶 và𝑖 = 1 𝑛 𝛼 𝑖 là lời giải cho bài toán tối ưu hóa SVM 𝑏 là ngưỡng tối ưu

𝐶 là thông số xác định độ cân bằng giữa độ phức tạp và sai số 𝐾(𝑢 𝑖 , 𝑢) là hàm tính toán khoảng cách giữa mẫu thử và mẫu huấn luyện

Yankov và các cộng sự đã thử nghiệm phương pháp đề xuất với các bộ dữ liệu là:

Dữ liệu dao động laser (Laser Oscillation Data) và Dữ liệu web (Web Site Impressions Data)

- Đối với tập dữ liệu dao động laser, giải thuật dự báo k-NN đơn lẻ với số lân cận tốt nhất là k=3 cho cả 3 tầm vực dự báo (h) và tập hợp giải thuật {k 1 -NN, k 2 -NN} dự báo tối ưu là {1-NN, 4-NN}

- Đối với tập dữ liệu web: Tập dữ liệu này được ghi nhận trong một tập hợn trang web trong 3 năm Dữ liệu được ghi nhận theo từng tuần, rất nhiễu và ko có tính dừng Ở dữ liệu web này, mỗi tầm vực dự báo h sẽ có một số k-NN đơn cũng như tập {k 1 - NN, k 2 -NN} tối ưu khác nhau:

+ Với h = 30: ta có 10-NN và {3-NN, 100-NN}

+ Với h = 60 ta có 8-NN và {1-NN, 30-NN}

+ Với h = 100 ta có 6-NN và {1-NN, 20-NN}

* Tham số đánh giá độ chính xác của phương pháp dự báo: sai số bình phương trung bình tiêu chuẩn (RMSE - Root Mean Square Error)

Dựa vào các số liệu thực nghiệm sau khi áp dụng phương pháp trên, có thể thấy rằng đối với cả 3 tầm vực dự báo thì phương pháp mà Yankov và các cộng sự đã đề xuất đều cho kết quả tốt hơn so với phương pháp k-NN đơn lẻ (tham số RMSE và độ lệch chuẩn luôn nhỏ hơn) Độ chính xác được cải thiện khá đáng kể (khoảng 10% cho mỗi tầm vực dự báo) Tuy nhiên phép phân lớp SVM lại cho kết quả không được tốt khi độ chính xác của phép phân lớp không trên 80%

3.5 Dùng tập hợp giải thuật k-NN để dự báo giá gạo ở Indonesia

Vào năm 2014, Dewi Sinta và các cộng sự đã sử dụng tập hợp giải thuật k-NN để dự báo giá gạo ở Indonesia [6]

Khoảng cách Euclid [6] giữa dữ liệu huấn luyện (xtrain) và dữ liệu test (xtest)

Giải thuật k lân cận gần nhất (k-NN) lựa chọn k dữ liệu huấn luyện gần với dữ liệu test nhất để dự báo những giá trị output Công thức tính giá trị dự báo theo giải thuật k-

NN với n dữ liệu huấn luyện là:

𝒚̂ I = ∑ 𝒌 𝒋=𝟏 𝒘 𝒋 𝒚 𝒋 Với 𝑤 𝑗 là trọng số của lân cận thứ j và 𝑤 𝑗 = 𝑗 𝑛⁄ k là số lân cận gần nhất của 𝑦 𝑗

* Dữ liệu mà Sinta và các cộng sự đã sử dụng được thu thập theo từng tháng tính từ tháng 1/1998 đến tháng 12/2012 (xem hình 3.1)

* Các tiêu chí mà Sinta và các cộng sự sử dụng để đánh giá độ chính xác của phương pháp dự báo là:

+ Sai số phần trăm tuyệt đối trung bình (MAPE – Mean Absolute Percentage Error)

+ Sai số tuyệt đối trung bình (MAE – Mean Absolute Error) + Sai số bình phương trung bình tiêu chuẩn (RMSE – Root Mean Squared Error)

Hình 3.6: Biểu đồ giá gạo Indonesia theo từng tháng từ 1998 đến 2012 [6]

Phương pháp thực hiện theo các giai đoạn:

- Thực hiện dự báo dữ liệu bằng giải thuật k-NN đơn sử dụng nhiều số lân cận khác nhau (3, 4, 6, 9, 10, 12, 15, 24)

- Kết hợp tất cả các dự báo bằng công thức

∑ 𝑠 ℎ=1 𝑤 ℎ Với s là số mô hình k-NN đơn đã sử dụng

𝑤 ℎ là trọng số tập hợp tương quan giữa giá gạo với dự báo của k-NN thứ h

Kết quả thu được từ thực nghiệm với tập dữ liệu thử nghiệm cho thấy rằng tập hợp giải thuật k-NN luôn cho những giá trị MAPE, MAE và RMSE nhỏ hơn so với những giải thuật k-NN đơn qua đó ta có thể thấy răng phương pháp sử dụng tập hợp giải thuật k-NN (với trọng số trung bình) cho kết quả dự báo với độ chính xác tốt hơn so với những phương pháp k-NN đơn lẻ.

Kết luận

Thông qua các công trình đã được nghiên cứu ở Chương III và cơ sở lý thuyết trong Chương II, chúng tôi lựa chọn sử dụng phương pháp dự báo dữ liệu chuỗi thời gian bằng tập hợp giải thuật k-lân cận gần nhất được đề xuất bởi Yankov và các cộng sự trong đề tài này thay vì phương pháp dự báo dữ liệu chuỗi thời gian bằng giải thuật k- lân cận gần nhất (k-NN) đơn lẻ truyền thống bởi vì giải thuật k-NN đơn lẻ như đã nêu ở Chương II, có tồn tại một số hạn chế rất đáng quan tâm ảnh hưởng đáng kể đến độ chính xác của phương pháp dự báo; và phương pháp mà Yankov và các cộng sự đã đề xuất không chỉ có thể cải thiện được độ chính xác của phương pháp dự báo mà để mở một số vấn đề đã đề cập ở Chương I mà qua đó xây dựng một giải pháp cụ thể cho phương pháp dự báo dữ liệu chuỗi thời gian bằng tập hợp giải thuật k-lân cận gần nhất

Giải pháp cụ thể mà chúng tôi đề xuất sẽ sử dụng phương pháp đểm cực trị quan trọng để rút trích các chuỗi con từ chuỗi thời gian được cho, sau đó gom cụm những chuỗi con này thành hai cụm mà sẽ tương ứng với 2 bộ dự báo k-lân cận gần nhất

MÔ HÌNH DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN BẰNG TẬP HỢP GIẢI THUẬT K-NN

Đặt vấn đề

Như đã đề cập ở những nội dung ở chương trước, phương pháp dự báo dữ liệu chuỗi thời gian dùng giải thuật k-NN là một phương pháp được xem là đơn giản, dễ hiện thực nhưng phương pháp này lại có một số nhược điểm khi mà nó khá nhạy cảm với các tham số đầu vào, đặc biệt là số lân cận gần nhất k

Hướng giải quyết vấn đề

Để giải quyết vấn đề đã nêu ở trên, việc xây dựng mô hình dự báo được chia làm 2 giai đoạn lớn:

+ Giai đoạn huấn luyện: Mục tiêu của giai đoạn này là xây dựng hai bộ dự báo con k-NN, tức tập hợp hai giải thuật k 1 -NN và k 2 -NN Như vậy phải xác định hai thông số k 1 và k 2

+ Giai đoạn dự báo: Dựa vào những tham số đã xác định được ở Phần huấn luyện để dự báo h điểm dữ liệu tiếp theo của vector truy vấn được nhập vào từ người dùng

Và sau đây là chúng tôi xin trình bày những bước cụ thể trong từng giai đoạn

Giai đoạn này bao gồm những bước sau:

Các bước của Giai đoạn huấn luyện này được tóm lược ở Hình 4.1

Hình 4.1: Mô hình huấn luyện

- Bước 1: Bước đầu tiên của giai đoạn này là xác định các điểm cực trị quan trọng với hệ số nén R Tùy thuộc vào đặc điểm của mỗi bộ dữ liệu mà cần chọn hệ số nén R thích hợp để có số lượng điểm cực trị quan trọng thích hợp, điều này giúp cho ra những phân đoạn có độ biến thiên chính xác hơn Sau khi có được các điểm cực trị, ta rút trích các phân đoạn chuỗi con từ chuỗi ban đầu

- Bước 2: Dùng phép biến hình vị tự để đưa các phân đoạn chuỗi con về cùng một chiều dài chung, chiều dài này được tính bằng trung bình chiều dài của các phân đoạn và hệ số vị tự sẽ là tỷ số giữa chiều dài chung và chiều dài thực của phân đoạn chuỗi con

- Bước 3: Dùng giải thuật gom cụm K-means để gom cụm các chuỗi con nhằm tìm ra chuỗi con trung tâm cho mỗi cụm Mỗi chuỗi con trung tâm này sẽ tương ứng với một loại hình vector truy vấn

- Bước 4: Xác định tham số k cho mỗi mẫu vector truy vấn bằng phương pháp tinh chỉnh dựa trên tập dữ liệu huấn luyện Đối với mỗi cụm chuỗi con trong tập huấn luyện, điều chỉnh tham số k sao cho sai số nhận được là nhỏ nhất Tham số k của mỗi cụm chuỗi con được điều chỉnh bằng cách dùng một tập các vector truy vấn đã được phân lớp, tiến hành dự báo với từng tham số k trên tập các vector truy vấn đó; ghi nhận sai số tổng quát và chọn k mà ở đó sai số tổng quát là nhỏ nhất

Các output tìm được sau giai đoạn này bao gồm 2 mẫu vector truy vấn cùng với tham số k i cho mỗi mẫu vector đó Các thông số này được dùng cho Giai đoạn dự báo của hệ thống dự báo

Giai đoạn này sử dụng những tham số cũng như kết quả thu được từ Giai đoạn huấn luyện để dự báo h điểm dữ liệu tiếp theo của vector truy vấn

Giai đoạn này bao gồm những bước nhỏ sau:

+ Bước 1: Xác định một tham số k i thuộc tập hợp {k 1 , k 2 } để gán cho vector truy vấn đang xét bằng cách so sánh vector truy vấn lần lượt với 2 chuỗi con trung tâm cụm

Hoàng Trung Hiếu 35 tìm được ở Giai đoạn huấn luyện, vector truy vấn khớp với trung tâm cụm nào nhất thì nó sẽ được dự báo dựa vào bộ dự báo k-NN tương ứng

+ Bước 2: Sử dụng k i tìm được ở bước trước để dự báo h điểm dữ liệu tiếp theo được dự báo của vector truy vấn đang xét Các bước của giai đoạn dự báo được tóm lược ở hình 4.2

Hình 4.2: Giai đoạn dự báo

HIỆN THỰC VÀ SỐ LIỆU THỰC NGHIỆM

Dữ liệu nhu cầu năng lượng ở Ý

Chúng tôi sử dụng dữ liệu về nhu cầu năng lượng ở Ý với 29932 điểm, được lấy từ trang web dữ liệu chuỗi thời gian trường đại học California, Riverside (www.cs.ucr.edu/~eamonn/time_series_data)

Dữ liệu được đưa vào có hình dạng như hình 5.1 Ở tập dữ liệu này, chúng tôi sử dụng:

+ Chiều dài của vector trễ: 50 + Tầm vực dự báo: 50

Hình 5.1: Dữ liệu nhu cầu năng lượng ở Ý Huấn luyện:

Chúng tôi sử dụng 20000 điểm của tập dữ liệu này để rút trích các chuỗi con và gom cụm

Sau khi rút trích các chuỗi con với hệ số nén R=1.13 và gom cụm ta được 2 chuỗi con trung tâm cụm có chiều dài 220 điểm như trong hình 5.2

Hình 5.2: Kết quả phân đoạn và gom cụm của dữ liệu về “Nhu cầu năng lượng ở Ý”

Sau khi huấn luyện, chúng tôi tìm được + Giải thuật k-NN đơn là: 4-NN + Tập hợp giải thuật {k 1 -NN, k 2 -NN} với k 1 và k 2 tương ứng là {4-NN, 15-NN}

Hình 5.3 minh họa kết quả của một vector truy vấn mà ở đó bộ dự báo 15-NN dự báo cho kết quả tốt hơn so với bộ dự báo 4-NN Hình 5.4 minh họa kết quả của một vector truy vấn mà ở đó bộ dự báo 4-NN dự báo cho kết quả tốt hơn so với bộ dự báo 15-NN

Hình 5.3: Bộ dự báo 15-NN làm việc tốt hơn so với bộ dự báo 4-NN

So sánh kết quả đánh giá giữa 2 phương pháp

Kết quả đánh giá độ chính xác dự báo của cả 2 phương pháp được hiển thị trong hình 5.5

Hình 5.5: Kết quả đánh giá 2 phương pháp đối với dữ liệu “Nhu cầu năng lượng ở Ý”

Kết quả so sánh giữa 2 phương pháp đối với tập dữ liệu “Nhu cầu năng lượng ở Ý” được đánh giá ở bảng 5.2

Giải thuật RMSE MAPE MAD

Bảng 5.2: Bảng so sánh sai số của 2 phương pháp

Dữ liệu doanh nghiệp

Chúng tôi sử dụng dữ liệu về doanh nghiệp với 6400 điểm, được lấy từ trang web dữ liệu chuỗi thời gian trường đại học California, Riverside (www.cs.ucr.edu/~eamonn/time_series_data) Ở tập dữ liệu này, chúng tôi sử dụng:

Dữ liệu doanh nghiệp với 6400 điểm dữ liệu có hình dạng như hình 5.6

Hình 5.6: Dữ liệu doanh nghiệp với 6400 điểm Huấn luyện:

Sau khi rút trích các chuỗi con với hệ số nén R = 1.16 và gom cụm ta được 2 chuỗi con trung tâm cụm có chiều dài 70 điểm như trong hình 5.7

Hình 5.7: Kết quả phân đoạn và gom cụm sau khi huấn luyện

Hình 5.8 minh họa kết quả của một vector truy vấn mà ở đó bộ dự báo 15-NN dự báo cho kết quả tốt hơn so với bộ dự báo 4-NN

Hình 5.9: Bộ dự báo 15-NN làm việc tốt hơn so với bộ dự báo 4-NN So sánh kết quả đánh giá giữa 2 phương pháp

Kết quả đánh giá độ chính xác dự báo của cả 2 phương pháp được hiển thị như trong hình 5.10

Hình 5.10: Bảng so sánh sai số của 2 phương pháp

Kết quả so sánh giữa 2 phương pháp được đánh giá ở bảng 5.3

Dữ liệu dao động Laser

Dữ liệu dao động Laser được chúng tôi lấy từ trang web (http://www- psych.stanford.edu/~andreas/Time-Series/SantaFe.html)

Dữ liệu được ghi lại từ một Far-Infrared-Laser trong trạng thái hỗn loạn Các cường độ của dữ liệu được ghi lại bởi máy hiện sóng LeCroy Ở tập dữ liệu này, chúng tôi sử dụng:

+ Chiều dài của vector trễ: 30 + Tầm vực dự báo: 100 Dữ liệu được đưa vào có hình dạng như hình 5.11

Hình 5.11: Dữ liệu dao động Laser

Chúng tôi sử dụng 6000 điểm của tập dữ liệu này rút trích các chuỗi con và gom cụm

Sau khi rút trích các chuỗi con với hệ số nén R = 1.01 và gom cụm ta được 2 chuỗi con trung tâm có chiều dài 40 điểm như hình 5.12

Hình 5.12: Hình dạng của 2 chuỗi con sau khi phân đoạn và gom cụm đối với dữ liệu

Hình 5.13 minh họa kết quả của một vector truy vấn mà ở đó bộ dự báo 15-NN cho kết quả tốt hơn so với bộ dự báo 1-NN

Hình 5.13: Bộ dự báo 15-NN dự báo tốt hơn so với bộ dự báo 1-NN

Hình 5.14: Bộ dự báo 1-NN dự tốt hơn so với bộ dự báo 15-NN

Hình 5.15: Kết quả đánh giá dự báo của 2 phương pháp

Kết quả so sánh giữa 2 phương pháp đối với tập dữ liệu “Dao động Laser” được đánh giá ở bảng 5.4

Dữ liệu lưu lượng Internet

Bộ dữ liệu này chúng tôi lấy từ trang web https://datamarket.com/data/list/?q=provider:tsdl Đây là dữ liệu bao gồm 1231 điểm thời gian thể hiện lưu lượng truy cập Internet

(theo bit) từ một ISP cá nhân với các trung tâm tại 11 thành phố ở Châu Âu Dữ liệu được thu thập từ 06h57 ngày 07/06 đến 11h17 ngày 31/07 năm 2005 Khoảng thời gian thu thập dữ liệu là theo giờ

Dữ liệu được thể hiện trong hình 5.16

Hình 5.16: Dữ liệu lưu lượng Internet Ở tập dữ liệu này, chúng tôi sử dụng:

Hình 5.19: Bộ dự báo 15-NN làm việc tốt hơn so với bộ dự báo 2-NN So sánh kết quả đánh giá giữa 2 phương pháp

Dữ liệu về khí hậu

Bộ dữ liệu này được lấy từ trang web: https://stat.duke.edu/~mw/ts_data_sets.html Đây là dữ liệu về khí hậu, ghi lại giá trị hằng tháng từ năm 1882 đến năm 1998 của áp suất nước biển ở Darwin, Australia; được sử dụng trong một vài nghiên cứu liên quan đến El Nino Bộ dữ liệu này bao gồm 1400 điểm và có hình dạng như hình 5.21

Hình 5.21: Dữ liệu về khí hậu Ở tập dữ liệu này, chúng tôi sử dụng:

Hình 5.23: Bộ dự báo 4-NN dự báo cho kết quả tốt hơn so với bộ dự báo 14-NN

Hình 5.24: Bộ dự báo 14-NN cho kết quả dự báo tốt hơn bộ dự báo 4-NN

5.5 Dữ liệu thiên văn học

Bộ dữ liệu này được lấy từ trang web: http://sidc.oma.be/silso/ Đây là dữ liệu về thiên văn học, ghi lại số điểm đen của Mặt Trời (Sunspot) theo từng tháng từ tháng 1-1749 đến tháng 11-2015 Bộ dữ liệu này bao gồm 3191 điểm và có hình dạng như hình 5.26

Hình 5.26: Dữ liệu về thiên văn học Ở tập dữ liệu này, chúng tôi sử dụng:

Hình 5.28: Bộ dự báo 2-NN dự báo cho kết quả tốt hơn so với bộ dự báo 12-NN

Hình 5.29: Bộ dự báo 12-NN cho kết quả dự báo tốt hơn bộ dự báo 2-NN

Sau khi hiện thực và so sánh giữa 2 phương pháp đối với 5 bộ dữ liệu trên, kết quả thực nghiệm cho thấy rằng một tập hợp gồm 2 bộ giải thuật k lân cận gần nhất cho kết quả dự báo tốt hơn so với chỉ sử dụng một giải thuật k lân cận gần nhất.

Tiêu đề	Dự báo dữ liệu chuỗi thời gian dùng tập hợp giải thuật k lân cận gần nhất
Tác giả	Hoàng Trung Hiếu
Người hướng dẫn	PGS. TS. Dương Tuấn Anh
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	77
Dung lượng	1,77 MB