Cơ sở lý thuyết chuỗi thời gian

15 958 14
Cơ sở lý thuyết chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm t, theo một trình tự thời gian nhất định. Công việc dự đoán dựa trên cơ sở dữ liệu chuỗi thời gian được gọi là dự đoán chuỗi thời gian. Việc tìm kiếm các mẫu thích hợp trong dữ liệu tuần tự theo thời gian

- 22 - CHƯƠNG II SỞ THUYẾT KHÁM PHÁ TRI THỨC TỪ SỞ DỮ LIỆU CHUỖI THỜI GIAN 2.1 sở liệu chuỗi thời gian Chuỗi thời gian tập hợp quan sát Xt ghi nhận thời điểm t, theo trình tự thời gian định Công việc dự đoán dựa sở liệu chuỗi thời gian gọi dự đoán chuỗi thời gian Việc tìm kiếm mẫu thích hợp liệu theo thời gian (Time Series Data – TSD) quan trọng cho ứng dụng hầu hết lĩnh vực khoa học tìm kiếm âm điệu, tìm các mẫu chứng khoán khứ để dự đoán khuynh hướng giá tương lai, số lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường hay dự báo thời tiết, [2] Dữ liệu theo thời gian thường nhiều lĩnh vực khác nên nhiều dạng khác Xét mặt toán học chúng chuỗi thời gian biểu diễn giá trị biến thực theo khoảng thời gian Do khái niệm chuỗi thời gian tương đối rộng nên áp dụng kỹ thuật khám phá tri thức chuỗi thời gian để xây dựng ứng dụng lĩnh vực khác nhau[2][12][19] 2.1.1 Các khái niệm: thể chia phương pháp phân tích chuỗi thời gian (Time series) làm hai loại Tập trung tính chất, hành vi tổng quát chuỗi thời gian nghiên cứu tính chất tính cục bộ, địa phương chuỗi thời gian( thông qua dãy con, mẫu tuần hoàn, đoạn lặp phổ biến, luật liên kết mẫu đặc trưng chuỗi thời gian )[2][14] Định nghĩa 1: - Cho chuỗi thời gian X=(x1, x2, , xn) tập n giá trị xi ghi nhận khoảng thời gian biến thực theo thứ tự thời gian - sở liệu chuỗi thời gian tập lớn chuỗi thời gian, mẫu tin chuỗi thời gian: T= X i i 1 n - 23 - Chuỗi thời gian biểu diễn đối tượng khác nhiều lĩnh vực, nhiên chúng nhiều tính chất giống thể biểu diễn chuỗi thời gian biểu đồ sau:[14][16] Hình 2.1 Minh họa chuỗi thời gian Khoảng thời gian hai giá trị liên tiếp lựa chọn tùy theo lĩnh vực hay nội dung mà biểu diễn, chẳng hạn chuỗi thời gian biểu diễn giá cổ phiếu công ty ghi nhận cách đặn theo ngày, theo dõi thời tiết( nhiệt độ, biên độ thủy triều) ghi nhận theo tháng, năm chuỗi thời gian X=(x1, x2, , xn) ghi nhận đoạn thời gian [t1,t2], giá trị xi ghi nhận thời điểm xác nhận ti nhiều định nghĩa không nhấn mạnh đến yếu tố thời gian định nghĩa chuỗi thời gian, chẳng hạn chuỗi thời gian Y tập xếp thứ tự n giá trị biến thực (y1, ., yn) [2][17] Các chuỗi thời gian dài chứa hàng triệu, hàng tỉ giá trị Cần nói thêm chuỗi thời gian sở liệu thời gian chất Ví dụ: Các chuỗi thời gian biểu diễn giá cổ phiếu thị trường chứng khoán Nhiều nghiên cứu tập trung vào dãy chuỗi thời gian - 24 - Định nghĩa 2: Cho chuỗi thời gian X chiều dài n, dãy S X dãy chiều dài m(  m  n ) vị trí liền X: S=(xp, xp+m-1), (1  p  n  m  1) Từ định nghĩa ta nhận thấy n – m + dãy chiều dài m chuỗi thời X chiều dài n Mỗi dãy xem chuỗi thời với chiều dài m Ta lưu ý khái niệm dãy khác mẫu tuần tự, mẫu chấp nhận phần tử không liên tục dãy ban đầu dãy chấp nhận phần tử liên tiếp chuỗi thời gian Ví dụ: Cho chuỗi thời gian X=(8, 3, 6, 7, 9, 4, 2, 11), ta thấy S1=(3, 6, 7) dãy X, S2=(7, 9, 2) không dãy X giá trị không liên tiếp X Để trích xuất dãy từ chuỗi thời gian nhiều nhà nghiên cứu sử dụng khái niệm “cửa sổ” windows[16] Cho chuỗi thời X=(x1, , xn), cửa sổ với độ rộng  dãy phần tử liên tiếp (xi, , xi +  - 1) Thực chất cửa sổ dãy ta muốn nhấn mạnh cách thức rút trích liệu giống ta quan sát chuỗi thời gian qua “cửa sổ”, ta trượt cửa sổ theo chuỗi thời gian, lần vị trí ta chọn dãy độ dài Ký hiệu: W(X) = {Si / i=1, , n -  +1} tập dãy Si chiều dài  thu từ chuỗi thời gian X Các nghiên cứu chuỗi thời gian gần quan tâm đến việc xem xét khuynh hướng ngắn hạn chuỗi thời gian Các luật kết hợp nội dung thể qua việc liên kết kiện, phản ánh mối liên hệ dạng biến thiên khác chuỗi thời gian[2][14] Định nghĩa 3: Cho chuỗi thời gian X=(x1, , xn) đoạn thời gian [t1, tn], hàm theo thời gian x(t) gọi đại diện cho chuỗi thời gian X x(ti) = xi, với ti = t1, t2, , tn [2][14][18] - 25 - Định nghĩa 4: Hàm tuyến tính  (t) = t   thỏa x(ti )   (ti )   với ti  [t1, tm]  >0 ta gọi  đặc trưng chuỗi thời gian X [t1, tm] Ở định nghĩa trên,  sai số chọn trước phù hợp với ứng dụng mà ta cần xây dựng Một đặc trưng chuỗi thời gian tương ứng với dãy S thực chất hệ số góc hàm  (t), tùy theo giá trị  mà thể khuynh hướng chuỗi thời gian đoạn Hệ số góc xem đặc trưng quan trọng chuỗi thời gian[2][14][18] Định nghĩa 5: Một thay đổi đặc trưng hai giai đoạn liền gọi kiện Hình 2.2 Minh họa kiện t2 Theo đĩnh nghĩa trên, hai đoạn kề [t1, t2], [t2, t3] chuỗi thời gian đặc trưng      ta nói thời điểm t2 kiện Trên chuỗi thời gian chứa nhiều thành phần, kiện xảy tương đồng như:[14][16] - Khuynh hướng - 26 - - Các thành phần thay đổi theo thời kỳ thể qua mẫu ổn định thay đổi theo chu trình( chẳng hạn nhiệt độ ngày, năm) - Một thành phần tuần hoàn phân chia theo chu kỳ( chẳng hạn chu kỳ thủy triều) - Các biến cố xảy tác động bên ngoài( tạm thời hay lâu dài) - Các sai số ngẫu nhiên Do mà nhiều nhà nghiên cứu tiến hành chuỗi thời gian theo hướng khác như: - Khám phá mẫu tuần hoàn - Dò tìm “motif”, mẫu kỳ thú chuỗi thời gian - Khám phá luật liên kết kiện( biến đổi khuynh hướng hai đoạn liền nhau) - Khám phá luật mẫu đặc trưng trích từ sở liệu chuỗi thời gian Trong luận văn trình bày biến cố chuỗi thời gian hiểu việc chuỗi thời gian, dãy phát chuỗi thời gian kiện trích từ chuỗi thời gian Các biến cố xếp theo thứ tự thời gian mà xuất [2] Một khái niệm quan trọng chuỗi thời gian, làm sở cho nhiều trình khám phá tri thức nhiều nhà khoa học quan tâm nghiên cứu xác định tương đồng chuỗi thời gian Xác định độ tương đồng chuỗi thời gian nội dung đóng vai trò quan trọng nghiên cứu chuỗi thời gian, bước xử bắt đầu cho trình khám phá tri thức sở liệu chuỗi thời gian Trong nghiên cứu khám phá mẫu tuần hoàn, mẫu kỳ thú việc lựa chọn độ đo thích hợp đóng vai trò quan trọng Bên cạnh phương pháp truyền thống độ đo Euclide, chuẩn hóa dãy, gần nhà nghiên cứu đưa nhiều độ đo phức tạp dựa khái niệm làm lệch thời gian động( Dynamic Time Warping)[15], dãy chung dài nhất( Longest Common Subsequence) sử dụng thêm khái niệm tỉ lệ độ dời[18] ứng dụng đòi - 27 - hỏi phải chuyển chuỗi thời gian từ miền thời gian sang miền tần số để sánh độ tương đồng hiệu Các độ đo tương đồng sau tương đối phổ biến, chúng áp dụng chuỗi thời gian dãy trích từ chuỗi thời gian 2.1.2 Xác định tương đồng chuỗi thời gian Để xác định độ tương đồng chuỗi thời gian, ta cần xây dựng độ đo để đánh giá mức độ tương đồng chúng Mỗi độ đo thường thích hợp với vài lĩnh vực mà thôi, mà nhiều độ đo tương đồng khác xây dựng Trước nêu định nghĩa tương đồng hai chuỗi thời gian ta xét số phương pháp xây dựng độ đo tương đồng hai chuỗi thời gian sử dụng nhiều[15][16][18] 2.1.2.1 Độ đo Khoảng cách Euclide Phương pháp tính toán trực tiếp chuỗi thời gian độ dài nhau, trình bày ngắn gọn sau: - Xem chuỗi thời gian X=(x1, x2, , xn) điểm không gian Euclide n chiều - Độ đo tương đồng hai chuỗi thời gian đựơc định nghĩa khoảng cách Euclide hai điểm không gian Rn tọa độ hai chuỗi thời gian tương ứng:  n d(X,Y) =   xi  y i  i 1 2   Trong đó: X=(x1, x2, , xn) Y=(y1, y2, , yn) chuỗi thời gian xét Định nghĩa độ đo khoảng cách Euclide ưu điểm dễ hiểu, dễ tính toán, dễ mở rộng cho nhiều toán khai phá liệu chuỗi thời gian khác như: gom cụm, phân lớp, Nhưng độ đo khoảng cách nhược điểm nhạy cảm với nhiễu, không thích hợp liệu đường khác hay biên độ dao động khác nhau, ví dụ: cổ phiếu công ty A dao động khoảng 60.000 đ đến 80.000đ, cổ phiếu công ty B dao động khoảng 20.000đ đến 40.000đ không xác định - 28 - tương đồng kiểu dao động chuỗi thời gian Ngoài cách định nghĩa độ tương đồng chưa tính đến biến động theo thời gian[2][17][18] 2.1.2.2 Chuẩn hóa chuỗi thời gian Trên nhiều ứng dụng người ta xem kiểu dãy hệ số việc xác định khoảng cách Hai dãy chất kiểu chúng khác biên độ ranh giới Phương pháp sau độ đo Euclide dạng chuẩn hoá chuỗi thời gian làm độ đo tương đồng - Cho chuỗi thời gian X=(x1, x2, , xn), chuẩn hóa chuỗi thời gian X, ký hiệu X  ( x1 , , xn ) định nghĩa sau: X i = x i – Ex Trong Ex = n  xi giá trị trung bình tất giá trị chuỗi thời n i 1 gian X Ví dụ: Cho X = (3, 5, 2, 4, 7) thì: Ex =  X = ( - 2, 0, - 3, - 1, 2) - Sau chuẩn hóa chuỗi thời gian, ta dùng khoảng cách Euclide hai dạng chuẩn hóa để định nghĩa độ đo tương đồng hai chuỗi thời gian tương ứng Cho hai chuỗi thời gian X Y chuẩn hóa X Y , độ đo tương đồng hai chuỗi thời gian X, Y định nghĩa khoảng cách Euclide hai dạng chuẩn hóa d( X , Y ) Trong độ đo tương đồng xây dựng theo độ đo Euclide X Y không tương đồng với Với khái niệm tương đồng thông qua chuẩn hóa chuỗi thời gian, ta quan tâm đến kiểu biến thiên chuỗi thời gian giá trị chuỗi thời gian[12][14] - 29 - 2.1.2.3 Độ đo tương đồng dựa dãy chung dài nhất( Longest Common Subsequence – LCS) Tư tưởng phương pháp xác định độ tương đồng hai chuỗi thời gian dựa tương đồng dãy trích từ chúng[14] Điểm khác biệt phương pháp cần lưu ý chấp nhận phần tử dãy liên tiếp chuỗi thời gian ban đầu Độ đo tương đồng dựa LCS định nghĩa sau: - Cho hai chuỗi thời gian X=(x1, x2, , xn) Y=(y1, y2, , yn) Đặt X’=(xi1, xi2, , xin) Y=(yj1, yj2, , yjn) hai dãy X, Y tương ứng Ta nói X’ Y’ dãy chung dài nếu: a ik < ik+1 ; jk < jk+1 với  k   với  k  b xik = yjk - Độ tương đồng X Y định nghĩa số lượng phần tử dãy chung dài nhất: d(X, Y) = LCS Hoặc thông qua giá trị trung bình: d(X, Y) = LCS n Ví dụ: Cho hai chuỗi X, Y với X=3, 2, 5, 7, 4, 8, 10, Y=2, 5, 4, 7, 3, 10, 8, Chuỗi chung là: LCS = (2, 5, 7, 10), độ tương đồng X,Y= LCS =4 Độ đo tương đồng LCS ưu điểm thể tính trực quan liệu cho phép bỏ qua điểm bất thường Xuất phát từ khái niệm LCS, nhà nghiên cứu đưa nhiều phương pháp khác mềm dẻo để xác định độ tương đồng chuỗi thời gian, xuất phát từ việc mở rộng điều kiện (b) định nghĩa LCS như: Chấp nhận xik = yik   [12][18] - 30 - 2.2 Khám phá tri thức sở liệu chuỗi thời gian Hiện lĩnh vực khám phá tri thức sở liệu chuỗi thời gian nội dung phong phú Các phương pháp cổ điển sử dụng mô tự hồi qui, mô hình nhà nghiên cứu quan tâm chủ yếu đến tính chất tổng quát chuỗi thời gian Trong giai đoạn gần nhà khoa học bắt đầu tập trung khám phá tính chất tính cục bộ, địa phương sở liệu chuỗi thời gian như: Các mẫu tuần hoàn, mẫu tương đồng, luật liên kết mẫu đặc trưng, kiện thể khuynh hướng hay hành vi chuỗi thời gian, Luận văn tập trung trình bày hướng nghiên cứu khám phá luật kết hợp mẫu đặc trưng [2][9] Quá trình khám phá tri thức sở liệu chuỗi thời gian bao gồm làm lọc liệu chuỗi thời gian, nhận dạng hầu hết thuộc tính dự báo quan trọng, trích tập luật kết hợp mà ta dùng để dự báo hành vi chuỗi thời gian tương lai Khám phá tri thức cung cấp thông tin hữu dụng cho trình định Ta chia trình khám phá tri thức sở liệu chuỗi thời gian thành hai giai đoạn: Giai đoạn thứ giai đoạn tiền xử giai đoạn thứ hai khai phá liệu Giai đoạn tiền xử chia thành bước: - Làm liệu thô - Định danh đặc điểm mô tả sở liệu - Chia thang thời gian thành đoạn liên tục, xác định mẫu đặc trưng dãy con( gom cụm định danh chúng) trích xuất kiện đoạn - Tạo sở liệu mẫu đặc trưng sở liệu kiện, nguyên liệu để cung cấp cho giai đoạn khai phá Giai đoạn khai phá gồm bước: - Trích xuất luật - Thu gọn luật để luật chặt chẽ, hữu dụng Luận văn trình bày phương pháp khai phá sở liệu chuỗi thời gian khám phá luật dựa mẫu cục Phương pháp khám phá mẫu( hay - 31 - kiện) tính chất địa phương chuỗi thời gian đối lập với việc phân tích chuỗi thời gian theo truyền thống mà tập trung vào mô hình tính tổng quát Ta tìm qui luật mà điều kiện tham chiếu mẫu, kiện chuỗi thời gian Phương pháp không định nghĩa sẵn mẫu để dùng mà muốn mẫu, kiện định dạng từ liệu ngữ cảnh việc khám phá luật Ta mô tả ý tưởng phương pháp tìm kiếm luật thuộc dạng từ sở liệu chuỗi thời gian, phân thành hai giai đoạn chính: Tiền xử liệu giai đoạn khám phá luật Tiền xử liệu: Thực gom cụm dãy sở liệu chuỗi thời gian, dãy chuỗi thời gian gom cụm ta áp dụng phương pháp tìm luật thông thường để nhận luật từ dãy Nói cách khác ta chuyển sở liệu chuỗi thời gian sang dạng khác sở liệu mẫu đặc trưng, ghi biểu diễn chuỗi thời gian tương ứng Các ghi sở liệu chứa dãy định danh nhóm tương ứng dãy vị trí Các bước thực hiện: - Chọn độ rộng dãy thích hợp - Ghi nhận dãy cách duyệt ngang qua toàn chuỗi thời gian, vị trí xác định chuỗi theo độ rộng chọn Thực gom cụm dãy thu độ đo thích hợp chuỗi thời gian - Mỗi nhóm gán định danh nhất, duyệt qua chuỗi thời gian dãy tương ứng với nhóm gán định danh nhóm tương ứng chứa dãy đó, dãy nhóm gọi mẫu Lưu ý dùng phương pháp K–mean để gom cụm tính chất nhóm xem xét thông qua phần tử đại diện (trọng tâm) - Ta chuyển chuỗi thời gian cho thành dãy mà phần tử chuỗi - 32 - Ví dụ: Cho chuỗi thời gian X sở liệu sau … … … … … … … … … … … … … X 2 3 4 … … … … … … … … … … … … … Ta chọn độ rộng dãy chọn độ tương đồng phương pháp chuẩn hóa chuỗi thời gian Duyệt qua chuỗi thời gian, vị trí ta đặt định danh nhóm chứa dãy tương ứng Như ta chuyển chuỗi thời gian X trở thành dạng sau: X = (a1, a2, a1, a2, a3, a1, a2, a3, a1, a2), đó: a1 = (1, 2, 1), a2 = (2, 1, 2) a3 = (1, 2, 3) Hình 2.3 Chuỗi thời gian dạng mẫu đặc trưng - 33 - sở liệu tạo dạng: … … … … … … … … … … … X a1 a2 a1 a2 a3 a1 a2 a3 a1 a2 … … … … … … … … … … … Quá trình rời rạc hóa chuỗi thời gian phụ thuộc nhiều vào độ rộng mẫu, độ đo tương đồng phương pháp gom cụm sử dụng Độ rộng mẫu độ đo tương đồng lựa chọn tùy theo lĩnh vực ứng dụng kinh nghiệm người dùng để đạt thông tin tốt - Một khuynh hướng khác giai đoạn trích xuất kiện để xây dựng sở liệu kiện thể chia công việc theo bước sau: + Định khoảng thời gian + Trên khoảng thực dò tìm khuynh hướng tương ứng, cần ghi nhận sai số cần + Nếu thay đổi khuynh hướng hai khoảng liên tiếp thời điểm kiện + Xây dựng sở liệu kiện trích từ sở liệu chuỗi thời gian ban đầu để cung cấp cho trình khám phá luật Khám phá luật: Giai đoạn khai phá luật sở liệu chuỗi thời biến đổi giai đoạn tiền xử thuật toán biết, luật thu luật liên kết mẫu hay kiện theo thời gian Bằng cách xét tất tập thuộc tính cách khoảng thời gian định trước T, chẳng hạn: (A1; A1+T), (A2;; A2+T), (An-T; An) Như ta tìm luật mà hai vế thể hai biến cố xảy với khoảng cách thời gian T - 34 - Trong luận văn tập trung phát luật dạng đây: - Luật đơn giản dạng: “Nếu A xuất B xuất sau khoảng thời gian T” Trong A, B mẫu xây dựng chuỗi thời gian Viết luật lại sau: T A B Trong T luật quan tâm đến thời gian xuất A B Đương nhiên luật thu nhận phải thỏa độ hỗ trợ độ tin cậy chọn trước Ví dụ: Xét luật trích từ trong[16], chuỗi thời gian giá cổ phiếu tham gia thị trường chứng khoán Quá trình khám phá luật thực sở liệu mẫu đặc trưng qua trình gom cụm Trong ví dụ này, chọn độ rộng mẫu w = 13, bán kính gom cụm d = 3.5 Xét luật thu 20 “ s18  s ” với mẫu tham gia luật minh họa qua hình 2.4, độ tin cậy luật tính 59.6% Các thông tin rút là: Một mẫu s18 xuất sau thời gian 20( đơn vị chọn) xuất mẫu s4, thông qua hình dạng (sharper) dao động chuỗi thời gian mẫu tham gia luật ta thấy sau trình suy giảm giá cổ phiếu s18 xuất đợt giảm giá mạnh giai đoạn ngắn - 35 - Hình 2.4 Minh hoạ mẫu đại diện nhóm s18 s4 Tuy nhiên nhiều trường hợp ta không quan tâm đến khoảng thời gian hai lần xuất mẫu A B mà quan tâm đến thời điểm xuất mẫu A sau thời điểm xuất B, ta cần luật thể thông tin “ Nếu A xuất vào thời gian T1 B xuất vào thời gian T2” Thông tin dạng xác đặc biệt hữu ích ngành giáo dục việc xây dựng phương hướng nâng cao chất lượng dạy học luật độ tin cậy cao T Nhiều nhà nghiên cứu mở rộng luật A  B chuỗi thời gian khác sở liệu, tức mẫu A, B nằm hai chuỗi thời gian khác Ví dụ sở liệu gồm nhiều chuỗi thời ghi nhận nhiệt độ nhiều vùng khác T nhau, dạng luật A  B sử dụng để biểu diễn luật “ Nếu nhiệt độ vùng A tăng liên tục ngày nhiệt độ vùng B tăng sau 10 ngày” - 36 - Hướng mở rộng thứ hai dạng luật nhiều điều kiện đầu vào, dạng: “Nếu A1, A2, , Ah xảy V đơn vị thời gian B xảy khoảng thời gian T” Luật ký hiệu sau: V ,T A1  A2   Ah  B - Nếu xây dựng sở liệu kiện trình khám phá tri thức, luật thu cung cấp thông tin theo dạng khác so với ví dụ Ví dụ: Trong [19], chuỗi thời gian chia thành đoạn xét cặp đoạn liên tiếp Với cặp liên tiếp [ti, ti+1] [ti+1, ti+2], ký hiệu: Length1, Slope1, Fluct1 chiều dài, hệ số góc độ biến động (SNR) đoạn thứ Length2, Slope2, Fluct2 chiều dài, hệ số góc độ biến động (SNR) đoạn thứ hai Một luật thu là: Luật 375: “Nếu Fluct2 nằm 0.02964 0.04012 Slope2 nằm -27.58389 -0.28037 Slope1 lớn 0.08746 Length2 nằm 43 ngày” - Một hướng khám phá luật khác xây dựng nhằm trả lời cho câu hỏi sau: Nếu A sau khoảng thời gian T điều xảy ra? T A ? Cần xác định trước điều kiện A khoảng thời gian T, ta cần quan tâm đến điều kiện xảy sau A khoảng thời gian T Các toán khám phá luật cách tổng quát nghiên cứu từ lâu, giới thiệu[20][21] [...]...- 32 - Ví dụ: Cho chuỗi thời gian X trong sở dữ liệu như sau … … … … … … … … … … … … … X 1 2 1 2 1 2 3 2 3 4 3 4 … … … … … … … … … … … … … Ta chọn độ rộng của dãy con là 3 và chọn độ tương đồng là phương pháp chuẩn hóa chuỗi thời gian Duyệt qua chuỗi thời gian, tại mỗi vị trí ta đặt định danh của nhóm chứa dãy con tương ứng Như vậy ta chuyển chuỗi thời gian X trở thành dạng sau: X =... dựng một sở dữ liệu các sự kiện thể chia công việc này theo các bước sau: + Định ra các khoảng thời gian + Trên mỗi khoảng thực hiện dò tìm các khuynh hướng tương ứng, đôi khi cần ghi nhận cả sai số nếu cần + Nếu sự thay đổi khuynh hướng trên hai khoảng liên tiếp nhau tại thời điểm đó sự kiện + Xây dựng một sở dữ liệu các sự kiện được trích ra từ trong cơ sở dữ liệu chuỗi thời gian ban... xuất hiện vào thời gian T1 thì B sẽ xuất hiện vào thời gian T2” Thông tin dạng này chính xác hơn và đặc biệt hữu ích đối với ngành giáo dục trong việc xây dựng các phương hướng nâng cao chất lượng dạy và học nhất là các luật độ tin cậy cao T Nhiều nhà nghiên cứu mở rộng luật A  B trên các chuỗi thời gian khác nhau trong sở dữ liệu, tức là các mẫu A, B thể nằm trên hai chuỗi thời gian khác nhau... trên cơ sở dữ liệu chuỗi thời đã được biến đổi trong giai đoạn tiền xử bằng các thuật toán đã biết, các luật thu được là các luật liên kết các mẫu hay sự kiện theo thời gian Bằng cách chỉ xét tất cả các tập thuộc tính cách nhau một khoảng thời gian định trước T, chẳng hạn: (A1; A1+T), (A2;; A2+T), (An-T; An) Như thế ta sẽ tìm những luật mà hai vế thể hiện hai biến cố xảy ra với khoảng cách thời gian. .. sẽ xuất hiện sau một khoảng thời gian T” Trong đó A, B là các mẫu được xây dựng trên chuỗi thời gian Viết các luật trên lại như sau: T A B Trong đó T chỉ rằng trong luật quan tâm đến thời gian xuất hiện giữa A và B Đương nhiên là các luật được thu nhận phải thỏa độ hỗ trợ và một độ tin cậy chọn trước Ví dụ: Xét một luật như vậy trích ra từ trong[16], các chuỗi thời gian là giá các cổ phiếu tham... (a1, a2, a1, a2, a3, a1, a2, a3, a1, a2), trong đó: a1 = (1, 2, 1), a2 = (2, 1, 2) và a3 = (1, 2, 3) Hình 2.3 Chuỗi thời gian và các dạng mẫu đặc trưng - 33 - sở dữ liệu mới tạo dạng: … … … … … … … … … … … X a1 a2 a1 a2 a3 a1 a2 a3 a1 a2 … … … … … … … … … … … Quá trình rời rạc hóa chuỗi thời gian phụ thuộc nhiều vào độ rộng của mẫu, độ đo tương đồng và phương pháp gom cụm sử dụng Độ rộng mẫu và độ... một sở dữ liệu gồm nhiều chuỗi thời ghi nhận nhiệt độ tại nhiều vùng khác T nhau, dạng luật A  B được sử dụng để biểu diễn các luật như “ Nếu nhiệt độ tại vùng A tăng liên tục trong 5 ngày thì nhiệt độ vùng B sẽ tăng sau đó 10 ngày” - 36 - Hướng mở rộng thứ hai là dạng luật nhiều điều kiện đầu vào, nó dạng: “Nếu A1, A2, , Ah xảy ra trong V đơn vị thời gian thì B xảy ra trong khoảng thời gian. .. động của chuỗi thời gian trong các mẫu tham gia luật ta thấy sau một quá trình suy giảm giá cổ phiếu s18 thể xuất hiện một đợt giảm giá mạnh trong giai đoạn ngắn - 35 - Hình 2.4 Minh hoạ mẫu đại diện của nhóm s18 và s4 Tuy nhiên trong nhiều trường hợp ta không chỉ quan tâm đến khoảng thời gian giữa hai lần xuất hiện của mẫu A và B mà còn quan tâm đến thời điểm xuất hiện mẫu A và sau đó là thời điểm... 1 và 43 ngày” - Một hướng khám phá luật khác được xây dựng nhằm trả lời cho câu hỏi như sau: Nếu A và sau một khoảng thời gian T thì điều gì xảy ra? T A ? Cần xác định trước điều kiện A và khoảng thời gian T, ta chỉ cần quan tâm đến các điều kiện xảy ra sau A một khoảng thời gian T Các bài toán khám phá các luật một cách tổng quát đã được nghiên cứu từ rất lâu, được giới thiệu[20][21] ... thì B xảy ra trong khoảng thời gian T” Luật được ký hiệu như sau: V ,T A1  A2   Ah  B - Nếu xây dựng một sở dữ liệu các sự kiện trong quá trình khám phá tri thức, các luật thu được sẽ cung cấp các thông tin theo một dạng khác so với ví dụ trên Ví dụ: Trong [19], một chuỗi thời gian được chia thành các đoạn và xét các cặp đoạn liên tiếp nhau Với mỗi cặp liên tiếp nhau [ti, ti+1] và [ti+1,

Ngày đăng: 01/11/2016, 11:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan