1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cơ sở lý thuyết chuỗi thời gian

15 958 14

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 409,41 KB

Nội dung

Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm t, theo một trình tự thời gian nhất định. Công việc dự đoán dựa trên cơ sở dữ liệu chuỗi thời gian được gọi là dự đoán chuỗi thời gian. Việc tìm kiếm các mẫu thích hợp trong dữ liệu tuần tự theo thời gian

Trang 1

CHƯƠNG II

CƠ SỞ LÝ THUYẾT KHÁM PHÁ TRI THỨC TỪ CƠ SỞ

DỮ LIỆU CHUỖI THỜI GIAN

2.1 Cơ sở dữ liệu chuỗi thời gian

Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm

t, theo một trình tự thời gian nhất định Công việc dự đoán dựa trên cơ sở dữ liệu chuỗi thời gian được gọi là dự đoán chuỗi thời gian Việc tìm kiếm các mẫu thích hợp trong

dữ liệu tuần tự theo thời gian (Time Series Data – TSD) là rất quan trọng cho các ứng dụng trong hầu hết các lĩnh vực khoa học như tìm kiếm âm điệu, tìm các các mẫu chứng khoán trong quá khứ để có thể dự đoán khuynh hướng giá trong tương lai, số lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường hay dự báo thời tiết, [2]

Dữ liệu tuần tự theo thời gian thường có nhiều trong các lĩnh vực khác nhau nên

có nhiều dạng khác nhau Xét về mặt toán học thì chúng đều như nhau là mỗi chuỗi thời gian biểu diễn các giá trị của một biến thực theo các khoảng thời gian bằng nhau

Do đó khái niệm về chuỗi thời gian tương đối rộng nên có thể áp dụng các kỹ thuật khám phá tri thức trên chuỗi thời gian để xây dựng các ứng dụng trong các lĩnh vực khác nhau[2][12][19]

2.1.1 Các khái niệm:

Có thể chia các phương pháp phân tích chuỗi thời gian (Time series) ra làm hai loại Tập trung các tính chất, hành vi tổng quát của chuỗi thời gian và nghiên cứu các tính chất có tính cục bộ, địa phương trên chuỗi thời gian( thông qua các dãy con, các mẫu tuần hoàn, đoạn lặp phổ biến, các luật liên kết các mẫu đặc trưng trong chuỗi thời gian )[2][14]

Định nghĩa 1:

- Cho chuỗi thời gian X=(x1, x2, , xn) là một tập n giá trị xi được ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp theo thứ tự thời gian

- Cơ sở dữ liệu chuỗi thời gian là một tập rất lớn các chuỗi thời gian, trong đó mỗi mẫu tin là một chuỗi thời gian: T= n

i i

X 1

Trang 2

Chuỗi thời gian có thể biểu diễn các đối tượng khác nhau trong nhiều lĩnh vực, tuy nhiên chúng đều có nhiều tính chất giống nhau Có thể biểu diễn một chuỗi thời gian trên biểu đồ sau:[14][16]

Hình 2.1 Minh họa chuỗi thời gian

Khoảng thời gian giữa hai giá trị liên tiếp nhau có thể lựa chọn tùy theo lĩnh vực hay nội dung mà nó biểu diễn, chẳng hạn chuỗi thời gian biểu diễn giá cổ phiếu một công ty được ghi nhận một cách đều đặn theo từng ngày, nhưng theo dõi thời tiết( về nhiệt độ, biên độ thủy triều) thì có thể ghi nhận theo từng tháng, năm chuỗi thời gian X=(x1, x2, , xn) được ghi nhận trên đoạn thời gian [t1,t2], trong đó mỗi giá trị xi được ghi nhận tại một thời điểm xác nhận ti Có nhiều định nghĩa không nhấn mạnh đến yếu tố thời gian khi định nghĩa về chuỗi thời gian, chẳng hạn một chuỗi thời gian

Y là một tập sắp xếp thứ tự của n giá trị của một biến thực (y1, ., yn) [2][17] Các chuỗi thời gian có thể rất dài và có thể chứa hàng triệu, hàng tỉ giá trị Cần nói thêm là các chuỗi thời gian trong một cơ sở dữ liệu thời gian có bản chất như nhau

Ví dụ: Các chuỗi thời gian biểu diễn giá cổ phiếu trên thị trường chứng khoán Nhiều nghiên cứu hiện nay tập trung vào các dãy con trên chuỗi thời gian

Trang 3

Định nghĩa 2:

Cho một chuỗi thời gian X có chiều dài n, một dãy con S của X là một dãy có chiều dài m(1  mn ) các vị trí liền nhau trong X:

S=(xp, xp+m-1), (1 pnm1)

Từ định nghĩa ta nhận thấy có n – m + 1 dãy con có chiều dài m như vậy trong chuỗi thời X chiều dài n Mỗi dãy con cũng có thể xem là một chuỗi thời với chiều dài

m Ta lưu ý rằng khái niệm dãy con khác mẫu tuần tự, mẫu tuần tự chấp nhận các phần

tử của nó có thể không liên tục trong dãy ban đầu trong khi một dãy con chỉ chấp nhận các phần tử liên tiếp nhau trong một chuỗi thời gian

Ví dụ: Cho chuỗi thời gian X=(8, 3, 6, 7, 9, 4, 2, 11), ta thấy S1=(3, 6, 7) là một dãy con của X, nhưng S2=(7, 9, 2) không là dãy con của X do 9 và 2 là các giá trị không liên tiếp nhau trong X

Để trích xuất các dãy con từ trong chuỗi thời gian nhiều nhà nghiên cứu còn sử dụng khái niệm “cửa sổ” windows[16] Cho chuỗi thời X=(x1, , xn), một cửa sổ với

độ rộng  là một dãy các phần tử liên tiếp nhau (xi, , xi + - 1) Thực chất một cửa

sổ là một dãy con nhưng ở đây ta muốn nhấn mạnh về cách thức rút trích dữ liệu giống như khi ta quan sát chuỗi thời gian qua một “cửa sổ”, khi ta trượt cửa sổ theo chuỗi thời gian, mỗi lần một vị trí ta chọn lần lượt các dãy con có độ dài bằng nhau

Ký hiệu: W(X) = {Si / i=1, , n - +1} tập các dãy con Si có chiều dài  thu được từ trong chuỗi thời gian X

Các nghiên cứu trên chuỗi thời gian gần đây còn quan tâm đến việc xem xét các khuynh hướng ngắn hạn của chuỗi thời gian Các luật kết hợp trong nội dung này thể hiện qua việc liên kết các sự kiện, nó phản ánh mối liên hệ giữa các dạng biến thiên khác nhau trên chuỗi thời gian[2][14]

Định nghĩa 3:

Cho chuỗi thời gian X=(x1, , xn) trên đoạn thời gian [t1, tn], một hàm theo thời gian x(t) gọi là đại diện cho chuỗi thời gian X nếu x(ti) = xi, với ti = t1, t2, , tn [2][14][18]

Trang 4

Định nghĩa 4:

Hàm tuyến tính  (t) =t thỏa x(t i)(t i)  với ti  [t1, tm] và  >0 thì ta gọi  là một đặc trưng của chuỗi thời gian X trên [t1, tm]

Ở định nghĩa trên,  là một sai số chọn trước phù hợp với ứng dụng mà ta cần xây dựng Một đặc trưng của chuỗi thời gian tương ứng với dãy con S thực chất là hệ

số góc của hàm (t), tùy theo giá trị của  mà nó thể hiện khuynh hướng của chuỗi thời gian trên đoạn đó Hệ số góc có thể xem là một đặc trưng quan trọng nhất trên chuỗi thời gian[2][14][18]

Định nghĩa 5:

Một sự thay đổi đặc trưng giữa hai giai đoạn liền nhau được gọi là một sự kiện

Theo đĩnh nghĩa trên, nếu trên hai đoạn kề nhau [t1, t2], [t2, t3] chuỗi thời gian lần lượt có đặc trưng là 1và 2và 1 2thì ta nói tại thời điểm t2 có một sự kiện

Trên cùng một chuỗi thời gian có thể chứa nhiều thành phần, sự kiện xảy ra tương đồng như:[14][16]

- Khuynh hướng

Trang 5

- Các thành phần thay đổi theo từng thời kỳ thể hiện qua các mẫu ổn định thay đổi theo một chu trình( chẳng hạn nhiệt độ từng ngày, từng năm)

- Một thành phần tuần hoàn được phân chia theo chu kỳ( chẳng hạn chu kỳ thủy triều)

- Các biến cố xảy ra do những tác động bên ngoài( có thể tạm thời hay lâu dài)

- Các sai số ngẫu nhiên

Do vậy mà có nhiều nhà nghiên cứu tiến hành trên chuỗi thời gian theo các hướng khác nhau như:

- Khám phá các mẫu tuần hoàn

- Dò tìm các “motif”, các mẫu kỳ thú trên chuỗi thời gian

- Khám phá luật liên kết các sự kiện( một sự biến đổi khuynh hướng trên hai đoạn liền nhau)

- Khám phá luật trên mẫu đặc trưng trích ra từ trong cơ sở dữ liệu chuỗi thời gian

Trong luận văn trình bày các biến cố trên chuỗi thời gian được hiểu như là bất

kỳ các sự việc nào trên chuỗi thời gian, nó có thể là một dãy con phát hiện trên chuỗi thời gian hay là sự kiện được trích ra từ chuỗi thời gian Các biến cố sẽ được sắp xếp theo thứ tự thời gian mà nó xuất hiện [2]

Một khái niệm quan trọng trên chuỗi thời gian, làm cơ sở cho nhiều quá trình khám phá tri thức được nhiều nhà khoa học quan tâm nghiên cứu đó là xác định sự tương đồng giữa các chuỗi thời gian Xác định độ tương đồng giữa các chuỗi thời gian

là nội dung đóng vai trò hết sức quan trọng trong các nghiên cứu về chuỗi thời gian, đây là một bước xử lý cơ bản bắt đầu cho quá trình khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian Trong các nghiên cứu về khám phá các mẫu tuần hoàn, mẫu kỳ thú việc lựa chọn một độ đo thích hợp đóng vai trò rất quan trọng Bên cạnh các phương pháp truyền thống như độ đo Euclide, chuẩn hóa dãy, gần đây các nhà nghiên cứu

đã đưa ra nhiều độ đo phức tạp hơn như dựa trên các khái niệm làm lệch thời gian động( Dynamic Time Warping)[15], dãy con chung dài nhất( Longest Common Subsequence) có sử dụng thêm khái niệm tỉ lệ và độ dời[18] Có những ứng dụng đòi

Trang 6

hỏi phải chuyển chuỗi thời gian từ miền thời gian sang miền tần số để sánh độ tương đồng hiệu quả hơn Các độ đo tương đồng sau tương đối phổ biến, chúng có thể áp dụng trên chuỗi thời gian cũng như trên các dãy con được trích ra từ chuỗi thời gian

2.1.2 Xác định sự tương đồng giữa các chuỗi thời gian

Để xác định độ tương đồng giữa các chuỗi thời gian, ta cần xây dựng một độ đo

để đánh giá mức độ tương đồng của chúng Mỗi một độ đo thường chỉ thích hợp với một vài lĩnh vực nào đó mà thôi, vì vậy mà nhiều độ đo tương đồng khác nhau được xây dựng

Trước khi nêu định nghĩa về sự tương đồng giữa hai chuỗi thời gian ta xét một

số phương pháp xây dựng độ đo tương đồng giữa hai chuỗi thời gian được sử dụng nhiều[15][16][18]

2.1.2.1 Độ đo Khoảng cách Euclide

Phương pháp này tính toán trực tiếp trên chuỗi thời gian có độ dài bằng nhau, có thể trình bày ngắn gọn như sau:

- Xem mỗi chuỗi thời gian X=(x1, x2, , xn) là một điểm trong không gian Euclide n chiều

- Độ đo tương đồng giữa hai chuỗi thời gian đựơc định nghĩa như là khoảng cách Euclide giữa hai điểm trong không gian Rn có tọa độ được chỉ ra bởi hai chuỗi thời gian tương ứng:

1

1

2

 

n

i

i

i y x

Trong đó: X=(x1, x2, , xn) và Y=(y1, y2, , yn) là các chuỗi thời gian đang xét

Định nghĩa về độ đo khoảng cách Euclide có ưu điểm là dễ hiểu, dễ tính toán, dễ

mở rộng cho nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như: gom cụm, phân lớp, Nhưng độ đo khoảng cách này có nhược điểm là nhạy cảm với nhiễu, và không thích hợp khi dữ liệu có đường căn bản khác nhau hay có biên độ dao động khác nhau,

ví dụ: khi cổ phiếu công ty A dao động trong khoảng 60.000 đ đến 80.000đ, còn cổ phiếu công ty B dao động trong khoảng 20.000đ đến 40.000đ thì không xác định được

Trang 7

sự tương đồng về kiểu dao động của chuỗi thời gian Ngoài ra cách định nghĩa độ tương đồng trên vẫn chưa tính đến những biến động theo thời gian[2][17][18]

2.1.2.2 Chuẩn hóa chuỗi thời gian

Trên nhiều ứng dụng người ta xem kiểu của dãy con như là hệ số chính trong việc xác định khoảng cách Hai dãy con về bản chất có thể cùng kiểu mặc dù chúng có thể khác nhau về biên độ và ranh giới Phương pháp sau cùng độ đo Euclide trên các dạng chuẩn hoá của chuỗi thời gian làm độ đo tương đồng

- Cho chuỗi thời gian X=(x1, x2, , xn), chuẩn hóa của chuỗi thời gian X, ký hiệu là X  ( x1, , xn) và được định nghĩa như sau:

i

X = xi – Ex

Trong đó Ex = 

n

i i x

n 1

1

là giá trị trung bình của tất cả các giá trị của chuỗi thời gian X

Ví dụ: Cho X = (3, 5, 2, 4, 7) thì:

Ex = 5

X = ( - 2, 0, - 3, - 1, 2)

- Sau khi chuẩn hóa chuỗi thời gian, ta dùng khoảng cách Euclide giữa hai dạng chuẩn hóa để định nghĩa độ đo tương đồng giữa hai chuỗi thời gian tương ứng Cho hai chuỗi thời gian X và Y lần lượt có chuẩn hóa là XY , độ đo tương đồng hai chuỗi thời gian X, Y được định nghĩa là khoảng cách Euclide giữa hai dạng chuẩn hóa d( X , Y )

Trong khi đó nếu độ đo tương đồng được xây dựng theo độ đo Euclide có thể X

và Y không tương đồng với nhau Với khái niệm tương đồng thông qua chuẩn hóa chuỗi thời gian, ta quan tâm đến kiểu biến thiên của chuỗi thời gian hơn là các giá trị của chuỗi thời gian[12][14]

Trang 8

2.1.2.3 Độ đo tương đồng dựa trên dãy con chung dài nhất( Longest Common Subsequence – LCS)

Tư tưởng chính của phương pháp này là xác định độ tương đồng của hai chuỗi thời gian dựa trên sự tương đồng của dãy con được trích ra từ chúng[14] Điểm khác biệt trong phương pháp này cần lưu ý là chấp nhận các phần tử trong dãy con có thể liên tiếp trong chuỗi thời gian ban đầu Độ đo tương đồng dựa trên LCS được định nghĩa như sau:

- Cho hai chuỗi thời gian X=(x1, x2, , xn) và Y=(y1, y2, , yn)

Đặt X’=(xi1, xi2, , xin) và Y=(yj1, yj2, , yjn) lần lượt là hai dãy con của X, Y tương ứng Ta nói X’ và Y’ là dãy con chung dài nhất nếu:

a ik < ik+1 ; jk < jk+1 với 1 k 11

b xik = yjk với 1 k 1

- Độ tương đồng của X và Y được định nghĩa là số lượng các phần tử trong dãy con chung dài nhất:

d(X, Y) = LCS

Hoặc thông qua giá trị trung bình:

d(X, Y) =

n

LCS

Ví dụ: Cho hai chuỗi X, Y với X=3, 2, 5, 7, 4, 8, 10, 7 và Y=2, 5, 4, 7, 3, 10, 8,

6

Chuỗi con chung là: LCS = (2, 5, 7, 10), độ tương đồng của X,Y= LCS =4

Độ đo tương đồng LCS này có ưu điểm là thể hiện tính trực quan của dữ liệu và cho phép bỏ qua những điểm bất thường

Xuất phát từ khái niệm LCS, các nhà nghiên cứu đã đưa ra nhiều phương pháp khác nhau mềm dẻo hơn để xác định độ tương đồng giữa các chuỗi thời gian, xuất phát

từ việc mở rộng điều kiện (b) trong định nghĩa LCS ở trên như: Chấp nhận xik = yik

 [12][18]

Trang 9

2.2 Khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian

Hiện nay lĩnh vực khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian có nội dung rất phong phú Các phương pháp cổ điển như sử dụng các mô hình như tự hồi qui, trên các mô hình này nhà nghiên cứu quan tâm chủ yếu đến các tính chất tổng quát của chuỗi thời gian Trong giai đoạn gần đây các nhà khoa học bắt đầu tập trung khám phá các tính chất có tính cục bộ, địa phương trong các cơ sở dữ liệu chuỗi thời gian như: Các mẫu tuần hoàn, các mẫu tương đồng, luật liên kết các mẫu đặc trưng, các sự kiện thể hiện khuynh hướng hay hành vi của chuỗi thời gian, Luận văn tập trung trình bày hướng nghiên cứu khám phá luật kết hợp trên các mẫu đặc trưng [2][9]

Quá trình khám phá tri thức trong cơ sở dữ liệu chuỗi thời gian bao gồm làm sạch và lọc dữ liệu chuỗi thời gian, nhận dạng hầu hết các thuộc tính dự báo quan trọng, trích ra một tập các luật kết hợp mà ta có thể dùng để dự báo các hành vi của chuỗi thời gian trong tương lai Khám phá tri thức cung cấp các thông tin hữu dụng cho quá trình quyết định Ta có thể chia quá trình khám phá tri thức trên cơ sở dữ liệu chuỗi thời gian thành hai giai đoạn: Giai đoạn thứ nhất là giai đoạn tiền xử lý và giai đoạn thứ hai là khai phá dữ liệu

Giai đoạn tiền xử lý có thể chia thành các bước:

- Làm sạch dữ liệu thô

- Định danh các đặc điểm mô tả cơ sở dữ liệu

- Chia thang thời gian thành các đoạn liên tục, xác định các mẫu đặc trưng trên các dãy con( gom cụm và định danh chúng) hoặc trích xuất ra các sự kiện giữa các đoạn

- Tạo cơ sở dữ liệu các mẫu đặc trưng hoặc cơ sở dữ liệu các sự kiện, đây sẽ là nguyên liệu để cung cấp cho giai đoạn khai phá

Giai đoạn khai phá gồm các bước:

- Trích xuất các luật

- Thu gọn các luật để được các luật chặt chẽ, hữu dụng

Luận văn này trình bày phương pháp khai phá trên cơ sở dữ liệu chuỗi thời gian

đó là khám phá các luật dựa trên các mẫu cục bộ Phương pháp khám phá các mẫu( hay

Trang 10

sự kiện) có tính chất địa phương trong các chuỗi thời gian đối lập với việc phân tích các chuỗi thời gian theo truyền thống mà ở đó tập trung vào các mô hình có tính tổng quát Ta sẽ tìm các qui luật mà điều kiện tham chiếu của nó là các mẫu, sự kiện trong chuỗi thời gian Phương pháp này không định nghĩa sẵn các mẫu để dùng mà muốn các mẫu, sự kiện được định dạng từ dữ liệu trong ngữ cảnh của việc khám phá các luật Ta

mô tả ý tưởng của phương pháp tìm kiếm các luật thuộc các dạng trên từ cơ sở dữ liệu các chuỗi thời gian, được phân thành hai giai đoạn chính: Tiền xử lý dữ liệu và giai đoạn khám phá luật

Tiền xử lý dữ liệu:

Thực hiện gom cụm các dãy con trên cơ sở dữ liệu chuỗi thời gian, một khi các dãy con của chuỗi thời gian được gom cụm ta có thể áp dụng các phương pháp tìm luật thông thường để nhận các luật từ các dãy Nói cách khác là ta chuyển cơ sở dữ liệu chuỗi thời gian sang dạng khác là cơ sở dữ liệu các mẫu đặc trưng, trong đó mỗi bản ghi biểu diễn một chuỗi thời gian tương ứng Các bản ghi trong cơ sở dữ liệu mới này chứa một dãy các định danh nhóm tương ứng dãy con tại vị trí đó

Các bước thực hiện:

- Chọn độ rộng của dãy con thích hợp

- Ghi nhận các dãy con bằng cách duyệt ngang qua toàn chuỗi thời gian, tại mỗi

vị trí xác định một chuỗi con theo độ rộng đã chọn Thực hiện gom cụm các dãy con thu được này bằng một độ đo thích hợp của cả chuỗi thời gian

- Mỗi nhóm được gán một định danh duy nhất, khi duyệt qua chuỗi thời gian mỗi dãy con tương ứng với một nhóm được gán định danh của nhóm tương ứng chứa dãy con đó, các dãy con trong cùng nhóm gọi là có cùng mẫu Lưu ý rằng nếu dùng phương pháp K–mean để gom cụm thì tính chất của mỗi nhóm được xem xét thông qua phần tử đại diện (trọng tâm) của nó

- Ta chuyển chuỗi thời gian đã cho thành một dãy mới mà mỗi phần tử của nó là một chuỗi con

Ngày đăng: 01/11/2016, 11:00

TỪ KHÓA LIÊN QUAN

w