Đầu tiên chúng tôi sẽ sử dụng giải thuật K-Means để gom cụm trên các môtíp đại diện của chuỗi thời gian để suy ra các trung tâm cụm ban đầu cho tập dữ liệu chuỗi thời gian và sau đó chú
PHÁT BIỂU VẤN ĐỀ
Dữ liệu chuỗi thời gian
Chuỗi dữ liệu thời gian hay chuỗi thời gian là sự quan sát các dữ liệu theo thời gian tuần tự Đối với loại dữ liệu này, cấu trúc dữ liệu có thể là hai hay nhiều chiều trong đó có chiều thời gian, tức là dữ liệu được theo dõi và ghi lại tại một thời điểm nhất định Tuy nhiên trong hầu hết các ứng dụng thực tế, dữ liệu được đo cách nhau trong một khoảng thời gian cố định nên để đơn giản hóa quá trình lưu trữ cũng như độ phức tạp của dữ liệu, người ta chỉ lưu lại thứ tự các giá trị dữ liệu theo một trình tự thời gian nhất định có dạng X= trong đó x i là dữ liệu được đo ở thời điểm thứ i
Ví dụ ta có chuỗi thời gian theo dõi quá trình đo nhiệt độ như sau:
Hình 1.1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ
Trong các úng dụng thực tế, có rất nhiều loại dữ liệu chuỗi thời gian như sự theo dõi biến đổi giá của chứng khoán, dữ liệu đo điện tim đồ, dữ liệu theo dõi mực nước sông hay là sự ghi lại việc truy cập các trang web của người dùng Thông thường, các loại dữ liệu chuỗi thời gian này là rất lớn, được đo và lưu trữ lại trong một khoảng thời gian dài cho nên việc lưu trữ và khai phá dữ liệu này thường tốn kém chi phí thời gian Do đó việc sử dụng các công cụ khai phá dữ liệu này được áp dụng trên nền máy tính đã thu hút sự quan tâm, nghiên cứu và ứng dụng trong rất nhiều các lĩnh vực trong những năm gần đây
Hình 1.2: Đường biễu diễn dữ liệu chuỗi thời gian
Một số vấn đề khi nghiên cứu chuỗi thời gian:
Một trong những thách thức chính trong xử lý dữ liệu chuỗi thời gian là dung lượng dữ liệu khổng lồ Một giờ dữ liệu điện tâm đồ có thể lên đến 1 Gigabyte Do đó, việc phân tích, tính toán và xử lý dữ liệu một cách hiệu quả và chính xác trong thời gian hợp lý là một vấn đề nan giải.
Phụ thuộc yếu tố chủ quan
Trong thực tế, các kết quả dữ liệu chuỗi thời gian thu được chịu ảnh hưởng yếu tố chủ quan của người đo dữ liệu, điều kiện và các công cụ đo…
Dữ liệu không đồng nhất
Quá trình thu thập dữ liệu chuỗi thời gian được đo trên những định dạng khác nhau, số lượng và tần số lấy mẫu không đồng nhất cũng ảnh hưởng đến tính toàn vẹn của dữ liệu Thêm vào đó quá trình đo đạc không chính xác do nhiễu, thiếu một vài giá trị hay dữ liệu không sạch.
Bài toán gom cụm dữ liệu chuỗi thời gian
Bài toán gom cụm dữ liệu (clustering) là một trong những công tác khai phá dữ liệu chuỗi thời gian rất phổ biến hiện nay Ý tưởng của phương pháp này là sắp xếp các giá trị của dữ liệu có liên quan với nhau thuộc về một nhóm cụ thể mang đặc trưng chung của nhóm Một trong những kỹ thuật gom cụm dữ liệu phổ biến hiện này là dùng giải thuật K-Means Ý tưởng của thuật toán K-Means là cho trước một số nguyên k với k là số cụm cần gom Đầu tiên, ta chọn ngẫu nhiên k giá trị trong không gian dữ liệu làm trung tâm cụm ban đầu, sau đó ta duyệt qua tất cả các đối tượng của tập dữ liệu, dựa vào hàm tính khoảng cách để đưa giá trị dữ liệu tương ứng về cụm gần nó nhất Sau khi duyệt qua tập dữ liệu này, ta tính lại trung tâm cụm, quá trình này cứ tiếp diễn cho đến khi trung tâm cụm không thay đổi theo một tiêu chuẩn đánh giá cụ thể Khi đó giải thuật K-Means sẽ dừng
Trong một số ứng dụng thực tế có nhu cầu gom cụm (clustering) để đưa ra đánh giá dữ liệu Ví dụ gom các loại dữ liệu chứng khoán Việt nam mà có độ tương tự nhau, tìm những con sông trong một vùng có mực nước lên xuống giống nhau…
Áp dụng các phương pháp phổ biến sẽ cho ra các cụm dữ liệu được nhóm tương ứng Tuy nhiên, khi áp dụng chúng vào dữ liệu chuỗi thời gian, sẽ nảy sinh hai nhược điểm: Thứ nhất, dữ liệu chuỗi thời gian thường rất lớn, dẫn đến việc nhóm cụm theo các phương pháp này tốn nhiều thời gian và tài nguyên Thứ hai, việc chọn ngẫu nhiên trung tâm cụm ban đầu có thể khiến quá trình nhóm cụm kém hiệu quả về mặt thời gian do phải tính toán lại trung tâm cụm liên tục.
Hướng giải quyết Để khắc phục hai nhược điểm khi gom cụm chuỗi thời gian như trên, chúng ta có thể vận dụng nhận dạng môtíp trên dữ liệu chuỗi thời gian vào việc hỗ trợ gọm cụm dữ liệu chuỗi thời gian, bao gồm các bước sau:
Nhận dạng motif (môtíp): Từ các các chuỗi thời gian riêng biệt ta nhận dạng các môtíp đặc trựng cho từng dữ liệu chuỗi thời gian này
Gom cụm trên motif (môtíp): Thực hiện gom cụm trên các môtíp đại diện tương ứng với các chuỗi thời gian này bằng giải thuật K-Means
Dùng kết quả gom cụm trên môtíp để xác định các trung tâm cụm khởi đầu cho tập chuỗi thời gian ban đầu và sau đó áp dụng giải thuật K-Means trên các trung tâm cụm này.
Mục tiêu và giới hạn của đề tài
Mục tiêu nghiên cứu đề tài trên cơ sở dữ liệu chuỗi thời gian tập trung vào hai vấn đề chính:
Nghiên cứu các giải thuật nhận dạng môtíp trên dữ liệu chuỗi thời gian
Trong cơ sở dữ liệu chuỗi thời gian, dữ liệu thường rất lớn Vì vậy, việc nhận dạng các môtíp đặc trưng cho dữ liệu chuỗi thời gian và gom cụm trên các môtíp đại diện này sẽ giúp cho quá trình gom cụm xảy ra nhanh hơn Trong phần này chúng ta sẽ tập trung vào giải thuật thuật K-Means để gom cụm trên các môtíp
Ứng dụng việc nhận dạng môtíp vào hỗ trợ việc gom cụm dữ liệu chuỗi thời gian để làm cho giải thuật gom cụm trên dữ liệu chuỗi thời gian ban đầu trở nên hữu hiệu hơn
Sau khi nhận dạng trung tậm cụm cho các môtíp đại diện chuỗi thời gian, ta xác định trung tâm cụm khởi đầu cho chuỗi thời gian ban đầu tương ứng với các môtíp trung tâm Sau đó chúng ta áp dụng giải thuật K-Means để gom cụm trên tập dữ liệu chuỗi thời gian này
Quá trình gom cụm dựa vào nhận diện môtíp đã giúp cho quá trình gom cụm dữ liệu được thực hiện cho ra kết quả nhanh hơn và chính xác hơn quá trình gom cụm trên tập dữ liệu ban đầu sử dụng giải thuật K-Means Tuy nhiên quá trình nghiên cứu của luận văn này cũng gặp phải một số giới hạn như sau:
Việc nhận diện môtíp là tốn kém thời gian và cần phải xác định đặc trưng của dữ liệu cụ thể để xác định thông số nhận diện môtíp bao gồm chiều dài môtíp và bán kính nhận diện cũng như khai thác được đặc trưng phân hoạch của dữ liệu ban đầu
Do giới hạn về thời gian nghiên cứu cho nên quá trình thực nghiệm chỉ đo đạc trên dữ liệu Heterogeneous và chứng khoán tham khảo được lấy từ nguồn The VCR Time Series Data Mining Archive [24].
Tóm lược những kết quả đạt được
Với việc tập trung vào mục đích chính của luận văn trong suốt quá trình thực hiện và thử nghiệm chúng tôi thu được các kết quả như sau:
Việc phân cụm trên dữ liệu chuỗi thời gian dựa trên kết quả phân cụm trên các mô típ biểu diễn cho thời gian thực hiện nhanh hơn so với phân cụm trực tiếp trên dữ liệu ban đầu sử dụng thuật toán K-Means Thời gian chạy này càng nhanh khi thông tin nhận dạng mô típ biểu diễn phù hợp với đặc điểm của dữ liệu chuỗi thời gian và số lượng cụm cần phân cụm phù hợp với sự phân chia dữ liệu.
Quá trình gom cụm trên tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm trên các môtíp đại diện có độ ổn định tốt hơn gom cụm trực tiếp trên tập dữ liệu ban đầu sử dụng giải thuật K-Means
Độ chính xác quá trình gom cụm trên tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm trên các môtíp đại diện tốt hơn gom cụm trực tiếp trên cả tập dữ liệu chuỗi thời gian ban đầu và trên tập dữ liệu chuỗi thời gian sau khi thu giảm số chiều sử dụng giải thuật K-Means
Độ chính xác quá trình gom cụm trên tập dữ liệu chuỗi thời gian ban đầu và trên tập dữ liệu chuỗi thời gian sau khi thu giảm số chiều dựa vào kết quả gom cụm trên các môtíp là tương đương như nhau
Số vòng lặp gom cụm quá trình gom cụm trên tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm trên các môtíp là ổn định hơn số vòng lặp gom cụm trực tiếp trên tập dữ liệu ban đầu sử dụng giải thuật K-Means.
Cấu trúc của luận văn
Dựa theo hướng nghiên cứu chính của luận văn, chúng tôi tổ chức luận văn bao gồm những phần chính sau:
Chương II chúng tôi sẽ giới thiệu qua các công trình liên quan đến luận văn bao gồm giới thiệu về các phương pháp về độ đo tương tự giữa hai chuỗi thời gian, các phương pháp về thu giảm số chiều trên chuỗi thời gian ban đầu, cách tiếp cận về các phương pháp rời rạc hóa dữ liệu Đặc biệt chúng tôi tập trung vào các phương pháp gom cụm dữ liệu nói chung và cụ thể là gom cụm trên tập dữ liệu chuỗi thời gian Ngoài ra chúng tôi cũng tập trung các công trình nhận diện các mẫu lặp (môtíp) chuỗi dữ liệu thời gian
Chương III chúng tôi sẽ tập trung vào cơ sở lý thuyết và phương pháp giải quyết vấn đề của luận văn bao gồm mô hình kiến trúc hệ thống gom cụm dữ liệu chuỗi thời gian thông qua các môtíp đại diện Trong chương này chúng tôi cũng phân tích, đi sâu và tối ưu giải thuật nhận diện môtíp Bruce-Force được J.Lin và các cộng sự đề xuất vào năm 2002 [1]
Chương IV chúng tôi thực hiện hiện thực hệ thống gom cụm tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm trên các môtíp đại diện và so sánh thời gian chạy, số vòng lặp gom cụm cũng như độ ổn định hệ thống so với quá trình gom cụm trên tập dữ liệu chuỗi thời gian ban đầu không dựa vào nhận diện môtíp Trong chương này cũng thực nghiệm và đo đạc độ chính xác kết quả gom cụm của việc gom cụm trên tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm trên các môtíp đại diện
Chương V là một số kết luận sau khi thực hiện đề tài.
TỔNG QUAN CÁC CÔNG TRÌNH LIÊN QUAN
Độ đo tương tự
Trong các hầu hết các bài toán về chuỗi thời gian, bài toán tìm độ tương tự là một trong những bài toán quan trọng nhất Cho hai đối tượng O 1 và O 2 , khoảng cách giữa hai đối tượng này sẽ bằng 0 thì chúng được xem là giống nhau Nếu khoảng cách giữa chúng nhỏ hơn một giá trị r cho trước thì khoảng cách giữa chúng là tương tự nhau Gọi D(X, Y) là khoảng cách giữa hai đối tượng X và Y, ta có các tính chất sau: a) D(X, Y) = 0 nếu và chỉ nếu X=Y b) D(X, Y) = D(Y, X) c) D(X, Y) >=0 với mọi X, Y d) D(X, Y) < D(X, Z) + D (Z, Y)
Trong dữ liệu chuỗi thời gian, việc tính khoảng cách giữa hai chuỗi dữ liệu thời gian X và Y sau khi thu giảm số chiều thành X f và Y f phải đảm bảo tính chất
Cho hai chuỗi thời gian X và Y có dạng X= và Y= Độ tương tự giữa X và Y ký hiệu là Sim(X, Y) Sau đây là một số phương pháp dùng để xác định độ tương tự giữa hai chuỗi thời gian
2.1.1 Độ đo Minkowski Độ đo tương tự giữa hai chuỗi thời gian X và Y được xác định bằng công thức Minkowski như sau:
Với, a) p = 1: Độ đo Manhatan b) p = 2: Độ đo Euclid c) p = 3: Độ đo Max Ưu điểm
Có khả năng mở rộng cho nhiều bài toán khác như gom cụm (clustering) và phân loại (classification) dữ liệu… và phù hợp với các phép biến đổi thu giảm số chiều như: DFT [7], DWT [4], PAA [10] [23]…
Không thích hợp khi dữ liệu có đường cơ bản khác nhau
Không thích hợp với dữ liệu có biên độ giao động khác nhau
Chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng so trùng mẫu trên dữ liệu bằng dựa trên giá trị trung bình và độ lệch chuẩn X ’ =X-mean(X) hay X ’ =(X=mean(X))/Var(X) [6]
Áp dụng phương pháp trung bình di chuyển [20] để làm trơn các đường biểu diễn chuổi thời gian nghĩa là giá trị của chuỗi thời gian tại thời điểm i được tính như sau:
Áp dụng tính độ tương tự có sửa đổi dựa trên khoảng cách Euclid [4] như sau:
Hình 2.1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng đường cơ bản khác nhau
Hình 2.2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên độ giao động khác nhau
2.1.2 Độ đo xoắn thời gian động
Trong trường hợp so trùng giữa hai chuỗi thời gian X và Y Đường biểu diễn của chúng rất giống nhau nhưng chúng lệch nhau về thời gian Nếu trong trường hợp này ta so sánh phần tử thứ i của hai chuỗi thời gian sẽ cho ra kết quả không mong muốn Để giải quyết vấn đề này ta có thể dùng phương pháp ánh xạ một điểm đến nhiều điểm Phương pháp này được gọi là phương pháp xoắn thời gian động (Dynamic Warping - DTW) [3]
Hình 2.3: (a) Tính khoảng cách dựa vào phương pháp Euclid, (b) Tính khoảng cách dựa vào phương pháp DWT
Cách tính khoảng cách dựa vào phương pháp DWT
Cho hai chuỗi thời gian X và Y và một thông số khung w gọi là khung cửa sổ xoắn (warping window) với điều kiện là hai điểm i và j có thể ánh xạ với nhau nếu
|i-j|=R vì D(C a, C b ) > = D(Q, C a ) – D(Q, C b )
Chọn môtíp tham chiếu Q: Để bất đẳng thức tam giác kiểm tra chặt hơn, tức là ta phải chọn chuỗi con tham chiếu Q sao cho D(Q, C a ) – D(Q, C b ) đạt giá trị lớn nhất
Hình 3.4: Khoảng cách chuỗi con tham chiếu Q nằm giữa C a và C b
Sử dụng bất đẳng thức tam giác, khi chọn chuỗi con tham chiếu Q nằm ngoài hai chuỗi con Ca và Cb (Hình 3.5), ta có D(Ca, Cb) ≥ D(Q, Ca) - D(Q, Cb) Với D(Q, Ca) = 1 và D(Q, Cb) = 1, ta suy ra D(Ca, Cb) ≥ 0 Tuy nhiên, trên thực tế, D(Ca, Cb) ≥ 2 Do đó, nếu chọn chuỗi con tham chiếu Q nằm trong Ca và Cb (Hình 3.4), chúng ta không thể xác định được chính xác D(Ca, Cb) có lớn hơn R hay không.
D(Q, C b ) =1 và D(Q, C a ) =3 Ta thấy D(C a, C b ) > = D(Q, C a ) – D(Q, C b ) =2 Với R ta kết luận D(C a, C b ) >R thay vì tính khoảng cách trực tiếp D(C a, C b ) có lớn hơn R hay không
Hình 3.5: Khoảng cách chuỗi con tham chiếu Q nằm ngoài C a và C b
Trong tập dữ liệu chuỗi thời gian cần gom cụm, chúng tôi giả sử tất cả các giá trị của chuỗi thời gian đều lớn hơn hay bằng 0 Chúng tôi chọn chuỗi con tham chiếu Q là chuỗi con 0 Tức là chuỗi con Q có chiều dài n và Q i =0 với mọi i 1,n
Nếu trong tập dữ liệu chuỗi thời gian tồn tại giá trị nhỏ hơn 0, ta sẽ dịch chuyển trục hoành của tọa độ để bảo đảm tất cả các giá trị trong tập dữ liệu chuỗi thời gian đều lớn hơn hay bằng 0 như Hình 3.6 bên dưới
3.5.3 Áp dụng kỹ thuật kiểm tra kết thúc sớm khi tính hàm khoảng cách để tìm kiếm môtíp dữ liệu chuỗi thời gian
Trong trường hợp bất đẳng thức tam giác không kết luận được D(C a, C b )
>=R hay không vì D(Q, C a ) – D(Q, C b ) = R hay không (xem
Hình 3.6: Dịch chuyển trục tọa độ dữ liệu chuỗi thời gian
3.5.4 Cải thiện thuật toán kiểm tra khớp không tầm thường bằng qui hoạch động Độ phức tạp của thuật toán Bruce-Force ở trên là O(m 2 ), tuy nhiên trong quá trình kiểm tra tính khớp không tầm thường hai chuỗi con C [i: i+n-1] và C [j: j+n-1] ở dòng 7 của thuật toán Bruce-Force chúng ta phải tính được D(C [i: i+n-1] , C [j: j+n-1] ) và D(C [i: i+n-1], C k: k+n-1] ) với k i1,j1 Bằng cách tính này chúng ta sẽ mất nhiều chi phí tính toán, độ phức tạp cho quá trình tính toán này là n với n là số chiều chuỗi thời gian cho nên độ phức tạp của giải thuật Bruce-Force là O(n 3 ) Do vậy chúng ta áp dụng giải thuật cải tiến để kiểm tra tính khớp không tầm thường giữa hai chuỗi con C [i: i+n-1] và C [j: j+n-1] như sau: Để kiểm tra tính khớp không tầm thường giữa hai chuỗi con C [i: i+n-1] và C [j: j+n-1] ta dựa vào tính khớp không tầm thường giữa C [i: i+n-1] và C [k: k+n-1] trước đó với k i1,j1 và cách làm này thể hiện tính chất qui hoạch động Tại bước k trước đó ta đã tính D(C [i: i+n-1], C [k: k+n-1] ) > R hay không Ta sử dụng một cờ nhớ ban đầu Flag = false Nếu tồn tại giá trị k làm cho D(C [i: i+n-1], C [k: k+n-1] ) >R ta cập nhật cờ nhớ Flag = true Như vậy để kiểm tra tính khớp không tầm thường giữa hai chuỗi con C [i: i+n-1] và C [j: j+n-1] trước tiên ta tính so sánh khoảng cách giữa chúng có lớn hơn R hay không bằng kỹ thuật kết thúc sớm Nếu D(C [i: i+n-1], C [j: j+n-1] ) >
Đánh giá chất lượng giải thuật gom cụm
Giải thuật gom cụm dữ liệu dựa trên thuật toán K-Means là một quá trình học không giám sát do không được điều chỉnh sự phân hoạch dữ liệu như quá trình học có giám sát khác Do vậy, chúng ta sẽ đánh giá chất lượng gom cụm tập dữ liệu chuỗi thời gian thông qua việc so sánh kết quả gom cụm thông qua kết quả gom cụm học có giám sát khác
Giả sử ta có các tập dữ liệu G 1 , G2… G n là kết quả gom cụm được phân hoạch của quá trình gom cụm có giám sát và A 1 , A 2 …A n là tập kết quả được gom cụm được phân hoạch trên hệ thống hiện tại Với D là tập dữ liệu đặc trưng ban đầu, dựa vào kết quả gom cụm phân hoạch trong quá trình học có giám sát và hệ thống hiện tại [25], ta thực hiện đếm các giá trị được phân hoạch như sau:
a là các cặp số liệu thuộc trong một cụm trong G tương ứng thuộc trong một cụm trong A
b là các cặp số liệu thuộc trong cùng một cụm trong G nhưng không thuộc một cụm trong A
c là các cặp số liệu thuộc trong cùng một cụm trong A nhưng không thuộc cùng một cụm trong A
d là các cặp không thuộc trong cùng một cụm trong G và cũng không thuộc trong cùng một cụm trong A
Từ các số liệu thống kê cho được ta sử dụng các phép đo độ chính xác kết quả gom cụm hệ thống hiện tại qua các độ đo sau:
Hệ số Folkes và Mallow (FM): a * a
Hệ số đo tương tự giữa các cụm:
Hệ số Normal Mutual information (NMI):
Với: - N là số lượng chuỗi thời gian trong tập dữ liệu
- | G i | là số lượng chuỗi thời gian trong cụm G i
- | A j | là số lượng chuỗi thời gian trong cụm A j - N i j , |G i A j |
Kết quả các độ đo đánh giá trên đều có giá trị từ 0 đến 1 Khi độ đo có giá trị càng tiến về 1 thì hệ thống gom cụm càng chính xác Dựa vào các độ đo này, chúng tôi sẽ thực hiện đo đạc độ chính xác giải thuật gom cụm chuỗi thời gian dựa vào gom cụm trên các môtíp đại diện sử dụng giải thuật gom cụm K-Means
Các hệ số đánh giá Jaccard, Rand, FM, CSM, NMI chỉ được dùng để đánh giá chất lượng gom cụm khi kết quả gom cụm đã biết trước
Một cách đánh giá chất lượng gom cụm khác là tối thiểu hàm mục tiêu Hàm mục tiêu này được áp dụng cho việc kiểm tra độ chặt của giải thuật gom cụm để thấy được phân tán của dữ liệu trong cùng một cụm và độ tách rời giữa cụm này với cụm khác Hàm mục tiêu được tính qua công thức (3.16) bên dưới
Với x là số mẫu cần phân hoạch và c là số trung tâm các cụm
Phương pháp đánh giá chất lượng gom cụm dựa vào tối thiểu hàm mục tiêu được áp dụng trong cả hai trường hợp kết quả gom cụm đã biết trước và không biết trước.
HIỆN THỰC VÀ THỬ NGHIỆM
Kiến trúc mô hình thực nghiệm
Phần này đưa ra kiến trúc mô hình thực nghiệm của hệ thông gom cụm dữ liệu Có hai mô hình hiện thực chính cụ thể như sau:
4.1.1 Mô hình hiện thực so sánh giữa K-Means\RAW và K-Means\RAW+Motif
Theo Hình 4.1 với tập dữ liệu chuỗi thời gian ban đầu ta thực hiện song trong hai nhánh, nhánh bên phải ta thực hiện gom cụm tập dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Ở nhánh bên trái, đầu tiên ta thực hiện nhận diện môtíp trên tập dữ liệu chuỗi thời gian ban đầu thu được tập các môtíp đại diện, sau đó thực hiện gom cụm tập các môtíp này bằng giải thuật K-Means và suy ra trung tâm cụm khởi đầu cho tập dữ liệu chuỗi thời gian ban đầu Sau khi có các trung tâm cụm khởi đầu ta thực hiện gom cụm trên tập dữ liệu chuỗi thời gian ban đầu bằng giải thuật K-Means Kết quả gom cụm của nhánh này so sánh với kết quả gom cụm của nhánh bên phải tức là kết quả gom cụm trực tiếp trên tập dữ liệu chuỗi thời gian ban đầu không dựa vào nhận diện môtíp
4.1.2 Mô hình hiện thực so sánh giữa K-Means\PAA và K-Means\PAA+Motif
Sau khi giảm chiều dữ liệu ban đầu, quá trình phân cụm được thực hiện theo hai hướng song song Thứ nhất, dữ liệu sau khi giảm chiều được phân cụm bằng thuật toán K-Means Thứ hai, các motif được xác định trong dữ liệu sau khi giảm chiều được phân cụm để suy ra các tâm cụm trên dữ liệu sau khi giảm chiều Cuối cùng, kết quả phân cụm trên dữ liệu sau khi giảm chiều thông qua nhận dạng motif được so sánh với kết quả phân cụm trên dữ liệu sau khi giảm chiều mà không thông qua nhận dạng motif.
Hình 4.1: Mô hình hiện thực so sánh giữa K-Means\RAW và K-Means\RAW+Motif
Hình 4.2: Mô hình so sánh giữa K-Means\PAA và K-Means\PAA+Motif.
Kết quả thực nghiệm
Trong phần này tập trung vào hiện thực và đo đạc kết quả dựa vào 2 mô hình hiện thực 4.1.1 và 4.1.2 ở trên
4.2.1 Mô tả các tập dữ liệu thử nghiệm
Phần thực nghiệm được tiến hành trên hai tập dữ liệu mẫu được ứng dụng rộng rãi là tập dữ liệu Heterogeneuos và tập dữ liệu chứng khoán có độ lớn từ 1000 đến 10000 chuỗi thời gian Đối với tập dữ liệu Heterogeneous, chúng ta chọn chuỗi dữ liệu thời gian có 1024 chiều và với dữ liệu chứng khoán ta chọn chuỗi dữ liệu thời gian có 512 chiều
Tập dữ liệu Heterogeneuos là tập dữ liệu được sinh ra từ nguồn dữ liệu thực từ UCR Time Series Data Mining Archive [24] Quá trình thực nghiệm sử dụng 10 tập dữ liệu này được mô tả như Hình 4.3 để sinh ra tập dữ liệu thực nghiệm bằng cách truy vấn các chuỗi này theo thời giàn từ 2-3% chiều dài chuỗi và thêm nhiễu vào chuỗi dữ liệu thời gian vừa thu được
4.2.2 Thực nghiệm về chất lượng gom cụm
Với cách trích xuất dữ liệu chuỗi thời gian từ nguồn dữ liệu Heterogeneous, tập dữ liệu đã nằm trong 10 cụm Dựa vào nguồn dữ liệu này, chúng tôi đánh giá chất lượng gom cụm chuỗi dữ liệu thời gian dựa vào nhận diện môtíp và phương pháp gom cụm áp dụng trên tập chuỗi thời gian ban đầu thông qua giải thuật K- Means để so sánh kết quả
Dựa trên mô hình ở Hình 4.4, chúng ta đánh giá phương pháp gom cụm chuỗi thời gian theo nhận diện mô típ trên tập dữ liệu đa dạng với số cụm cần gom là 10 sao cho phù hợp với tập dữ liệu chuỗi thời gian Sau đó, chúng ta sử dụng kết quả gom cụm trên tập mô típ đại diện các chuỗi thời gian để suy ra các trung tâm cụm khởi đầu cho thuật toán K-Means.
Means áp dụng cho chuỗi thời gian ban đầu
Hình 4.3: Tập dữ liệu Heterogeneous
Hình 4.4: Hệ thống hiện thực thực nghiệm quá trình gom cụm
Chúng tôi thực hiện đánh giá trên tập dữ liệu Heterogeneous 1000 chuỗi thời gian, mỗi chuỗi thời gian có 1024 chiều, thông tin chiều dài môtíp N=16, bán kính
R=0.008 Ở đây ta cũng thực hiện đánh giá gom cụm trên tập dữ liệu thời gian ban đầu đã sử dụng thuật toán thu giảm số chiều sử dụng thuật toán PAA với K=8 Kết quả thực nghiệm được trình bày trong Bảng 4.1
Loại gom cụm Jaccard Rand FM CSM NMI
Bảng 4.1: Kết quả đánh giá chất lượng phương pháp gom cụm chuỗi dữ liệu thời gian dựa vào nhận diện môtíp trên tập dữ liệu Heterogeneous
Dựa vào kết quả trên Bảng 4.1 cho thấy các hệ số gom cụm tập dữ liệu chuỗi thời gian dựa vào thông tin nhận diện môtíp có giá trị lớn hơn quá trình gom cụm trên tập dữ liệu chuỗi thời gian không sử dụng thông tin môtíp, do vậy độ chính xác quá trình gom cụm chuỗi thời gian sử dụng thông tin môtíp cao hơn so với quá trình gom cụm chuỗi dữ liệu chuỗi thời gian không sử dụng thông tin nhận diện môtíp
Ngoài ra chúng tôi còn thực nghiệm để đánh giá chất lượng gom cụm dựa vào hàm mục tiêu (công thức 3.16) cho tập dữ liệu Heterogeneous gồm 100 time series, số cụm cần gom là 10, chiều dài môtíp là 16, bán kính nhận diện môtíp R=0.004 và hệ số thu giãm số chiều thay đổi từ 8 đến 128 Kết quả thực nghiệm được trình bày trong các Hình 4.5 và Hình 4.6
K-Means\PAA K-Means\PAA+Motif
Hình 4.5: Kết quả đánh giá chất lượng gom cụm giữa hai phương pháp K-Means\PAA và K-
Means\PAA+Motif dựa vào hàm mục tiêu trên tập dữ liệu Heterogeneous
Dựa vào Hình 4.5 ta thấy giá trị hàm mục tiêu phương pháp gom cụm
Giá trị PAA+Motif nhỏ hơn giá trị PAA của thuật toán K-Means, cho thấy phương pháp nhóm dựa trên thông tin nhận dạng motif có chất lượng tốt hơn so với phương pháp nhóm trực tiếp trên tập dữ liệu chuỗi thời gian mà không thông qua nhận dạng motif bằng thuật toán K-Means.
Kết quả thực nghiệm trên Hình 4.6 cho thấy rằng khoãng cách trung bình giữa các cụm của giải thuật K-Means dựa vào kết quả gom cụm các môtíp lớn hơn khoảng cách trung bình giữa các cụm không thông qua kết quả gom cụm trên các môtíp đại diện khi chọn hệ số thu giãm số chiều phù hợp với dữ liệu Khi đó việc gom cụm tập dữ liệu chuỗi thời gian dựa vào kết quả gom cụm các môtíp đại diện có độ tách rời lớn hơn kết quả gom cụm trên tập dữ liệu chuỗi thời gian không thông qua các môtíp đại diện
Average distance between two cluster centers
K-Means\PAA K-Means\PAA+Motif
Hình 4.6: Kết quả đánh giá chất lượng gom cụm giữa hai phương pháp K-Means\RAW và K-
Means\RAW+Motif dựa vào khoảng cách trung bình giữa các cụm trên tập dữ liệu Heterogeneous
4.2.3 So sánh tính hữu hiệu giữa hai phương pháp K-Means\RAW+Motif và K-
Trong mục này cũng như trong Mục 4.2.4, khi so sánh tính hữu hiệu giữa hai phương pháp gom cụm K-Means thông thường và K-Means cải tiến, chúng tôi không tính thời gian nhận diện môtíp vào trong thời gian gom cụm vì nhận định rằng việc nhận diện môtíp trên chuỗi thời gian là một công tác khai phá dữ liệu chuỗi thời gian rất căn bản cần được thực hiện trước khi thực hiện những công tác khai phá dữ liệu cao cấp hơn như gom cụm, phân lớp, phát hiện bất thường, v.v,…
Phần này tập trung hiện thực và đánh giá tính hữu hiệu gom cụm dựa vào mô hình kiến trúc 4.1.1 ở trên
Trong quá trình đánh giá thời gian chạy và số vòng lặp phương pháp K- Means\RAW+Motif và K-Means\RAW chúng tôi thực nghiệm trên tập dữ liệu chứng khoán có 512 chiều và tập dữ liệu Heterogeneous có 1024 chiều được lấy từ nguồn
[24] Thông tin môtíp nhận diện có chiều dài môtíp N=16, bán kính R=0.004 và số cụm cần gom K=10 Chúng tôi thực hiện gom cụm từ 1000 đến 10000 chuỗi thời gian
K-Means on raw data base on motif discovery
Hình 4.7: So sánh thời gian chạy giữa hai phương pháp K-Means\RAW và K-Means\RAW+Motif trên tập dữ liệu chứng khoán có 512 chiều
K-Means on raw data based on motif discovery
Hình 4.8: So sánh số vòng lặp giữa hai phương pháp K-Means\RAW và K-Means\RAW+Motif trên tập dữ liệu chứng khoán có 512 chiều
K-Means on r aw dat a base on mot if discover y
Hình 4.9: So sánh thời gian chạy giữa hai phương pháp K-Means\RAW và K-Means\RAW+Motif trên tập dữ liệu Heterogeneous có 1024 chiều
K-Means on raw data based on motif discovery
Hình 4.10: So sánh số vòng lặp giữa hai phương pháp K-Means\RAW và K-Means\RAW+Motif trên tập dữ liệu Heterogeneous có 1024 chiều
Dựa vào kết quả như Hình 4.7 và Hình 4.9, ta nhận thấy rằng thời gian chạy phương pháp K-Means\RAW+Motif nhanh hơn phương pháp K-Means\RAW đặc biệt khi tập dữ liệu càng lớn
Dựa vào Hình 4.8 và Hình 4.10 ta thấy số vòng lặp phương pháp K- Means\RAW+Motif ít hơn số vòng lặp phương pháp K-Means\RAW
Với cách chọn các tham số như trên ta thấy rằng thời gian chạy của phương pháp K-Means\RAW+Motif nhanh hơn phương pháp K-Means\RAW Tuy nhiên, chúng tôi nhận thấy kết quả gom cụm còn phụ thuộc vào các thông số nhận diện môtíp bao gồm chiều dài môtíp và bán kính R, số cụm cần gom và số chiều chuỗi thời gian Ta sẽ khảo sát kết quả thực nghiệm khi thay đổi các thông trên
Trong phần thực nghiệm này chúng tôi thực nghiệm trên tập dữ liệu Heterogeneous có 1024 chiều từ 1000 đến 10000 chuỗi thời gian, số cụm cần gom là K=10, chiều dài môtíp nhận diện N=16, bán kính R thay đổi từ 0.001 đến 0.012
Dựa vào kết quả như Hình 4.11 ta nhận thấy rằng, khi thay đổi bán kính R thì thời gian chạy của phương pháp K-Means\RAW+Motif nhanh hơn phương pháp
K-Means\RAW và đặc biệt khi dữ liệu càng lớn thì thời gian chạy phương pháp K-Means\RAW+Motif càng nhanh hơn phương pháp K-Means\RAW
K-Means on raw data based on motif discovery
K-Means on raw data base on motif discovery
Pr o cessi ng t ime ( secs)
N umb er o f t i me ser i es
K-M eans on raw data based on mot if discovery
Pr o cessi ng t i me ( secs)
N umb er o f t i me ser i es
K-M eans on raw data based on mot if discovery
Hình 4.11: So sánh thời gian chạy giữa phương pháp K-Means\RAW+Motif và K-Means\RAW trên tập dữ liệu Heterogeneous có 1024 chiều khi thay đổi bán kính R
N umb er o f it er at i o ns
N umb er o f t i me ser i es
K-M eans on raw data based on mot if discovery
K-Means on raw data base on motif discovery
K-Means on raw data based on motif discovery
K-Means on raw data based on motif discovery
Hình 4.12: So sánh số vòng lặp giữa phương pháp K-Means\RAW+Motif và K-Means\RAW trên tập dữ liệu Heterogeneous có 1024 chiều khi thay đổi bán kính R
K-Means on raw data based on motif discovery
K-Means on raw data base on motif discovery
K-Means on raw data base on motif discovery
Pr o cessi ng t i me ( secs)
N umb er o f t ime seri es
K-M eans on raw dat a base on mot if discovery
Hình 4.13: So sánh thời gian chạy giữa phương pháp K-Means\RAW+Motif và K-
Means\RAW+Motif trên tập dữ liệu Heterogeneous có 1024 chiều khi thay đổi chiều dài môtíp
K-Means on raw data based on motif discovery
K-Means on raw data based on motif discovery
K-Means on raw data based on motif discovery
K-Means on raw data based on motif discovery
Hình 4.14: So sánh số vòng lặp giữa phương pháp K-Means\RAW+Motif và K-Means\RAW trên tập dữ liệu Heterogeneous có 1024 chiều khi thay đổi chiều dài môtíp
Quan sát thực nghiệm trong Hình 4.12, số vòng lặp của phương pháp K-Means/RAW+Motif ít hơn so với phương pháp K-Means/RAW khi thay đổi giá trị R.
Thay đổi chiều dài môtíp
Nhận xét
Như vậy, thông qua quá trình thực nghiệm quá trình gom cụm chuỗi thời gian dựa vào kết quả gom cụm các môtíp đại diện sử dụng giải thuật K-Means ta rút ra được các kết luận sau:
Thời gian chạy phương pháp gom cụm tập dữ liệu chuỗi thời gian dựa vào thông tin gom cụm trên các môtíp đại diện chạy nhanh hơn thời gian gom cụm trên tập dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means, đặc biệt khi tập dữ liệu chuỗi thời gian càng lớn thì phương pháp gom cụm tập dữ liệu chuỗi thời gian dựa vào thông tin gom cụm trên môtíp đại diện càng nhanh hơn thời gian gom cụm trên tập dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means
Số vòng lặp gom cụm phương pháp gom cụm tập dữ liệu chuỗi thời gian dựa vào thông tin gom cụm trên các môtíp đại diện ít hơn số vòng lặp gom cụm trên tập dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means
Sử dụng phương pháp gom cụm tập dữ liệu chuỗi thời gian dựa trên thông tin gom cụm trên các mô típ đại diện mang lại độ chính xác cao hơn so với việc áp dụng trực tiếp thuật toán K-Means trên dữ liệu chuỗi thời gian ban đầu.
Khi thay đổi các thông tin nhận diện môtíp và số cụm cần gom thì thời gian chạy phương pháp gom cụm tập dữ liệu chuỗi thời gian dựa vào thông tin gom cụm trên các môtíp đại diện nhanh hơn thời gian gom cụm trên tập dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Ngoài ra, khi các thông tin nhận diện môtíp phù hợp với đặc trưng của dữ liệu chuỗi thời gian cũng như số cụm cần gom phù hợp với sự phân hoạch tập dữ liệu thì thời gian chạy và độ chính xác chất lượng gom cụm phương pháp gom cụm dữ liệu chuỗi thời gian dựa vào thông tin gom cụm trên các môtíp đại diện càng được cải thiện
Phương pháp gom cụm chuỗi dữ liệu thời gian dựa vào nhận diện các môtíp có tính ổn định cao hơn phương pháp gom cụm áp dụng trên dữ liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means
Thời gian chạy, độ chính xác chất lượng gom cụm, số vòng lặp cũng như tính ổn định phương pháp gom cụm chuỗi dữ liệu thời gian dựa vào nhận diện các môtíp trên tập dữ liệu chuỗi thời gian sau khi thu giảm số chiều tốt hơn thời gian chạy, độ chính xác chất lượng gom cụm, số vòng lặp và tính ổn định phương pháp gom cụm chuỗi dữ liệu chuỗi thời gian ban đầu sau khi thu giảm số chiều sử dụng giải thuật K-Means.