GIỚI THIỆU ĐỀ TÀI
Giới thiệu vấn đề
Ngày nay, cùng với sự bùng nổ của dữ liệu lớn (Big Data), một dạng dữ liệu thời gian đã xuất hiện và đang dần trở nên phổ biến hơn trong hầu hết các lĩnh vực như chứng khoán, thời tiết, y tế, môi trường … đó là dữ liệu chuỗi thời gian (time series data) Trong khi đó nhu cầu khám phá tri thức của con người từ những nguồn dữ liệu này ngày càng tăng đặt ra vấn đề phân tích dữ liệu dưới hình thức này mà tiêu biểu là bài toán gom cụm dữ liệu chuỗi thời gian, một quá trình học không giám sát (unsupervised learning) với mục đích rút trích ra những đặc trưng và tính chất quan trọng của dữ liệu để gom nhóm chúng thành những cụm (clusters) riêng biệt nhau nhằm phục vụ cho mục đích phân tích, rút trích ra các thông hữu ích Như chúng ta đã biết, một bài toán gom cụm dữ liệu (clustering) luôn bao gồm 2 thành phần quan trọng mang tính cốt lõi đó là thuật toán gom cụm (clustering algorithm) và độ đo khoảng cách (measure distance calculation), một phương pháp tính toán khoảng cách giữa các cặp đối tượng dữ liệu
Trước hết, về vấn đề độ đo khoảng cách, có độ đo khoảng cách thường được sử dụng nhất đó là độ đo khoảng cách Euclid (Euclidean distance) do tính đơn giản và dễ dùng của nó Tuy nhiên, độ chính xác của các độ đo khoảng cách này còn tùy thuộc vào loại dữ liệu cần phân cụm Vì vậy, trên thực tế, nhiều độ đo khoảng cách khác nhau ra đời để áp dụng tùy vào đặc điểm, tính chất của loại dữ liệu mà một trong số đó chính là độ đo xoắn thời gian động – DTW (Dynamic Time Warping) [1] Độ đo khoảng cách Euclid liệu chuỗi thời gian Mặt khác, trong nhiều bối cảnh ứng dụng, chúng ta lại quan tâm đến yếu tố chất lượng gom cụm nhiều hơn là yếu tố thời gian thực thi việc gom cụm Do đó, nhu cầu áp dụng khoảng cách DTW, cũng như các phương pháp tăng tốc cho chúng, vào bài toán gom cụm là rất thiết thực vì độ phức tạp tính toán cao của khoảng cách này cùng với số lượng cũng như độ dài (length of data) của loại dữ liệu chuỗi thời gian có xu hướng càng tăng cao như hiện nay sẽ làm vấn đề chi phí cho việc gom cụm trên loại dữ liệu đặc thù này vốn đã tốn kém lại càng tốn kém hơn Hình 1.1 minh họa ảnh hưởng của độ đo khoảng cách với kết quả gom cụm
Hình 1.1: Ảnh hưởng của độ đo đối với kết quả gom cụm (Nguồn [23]).
Vấn đề còn lại là thuật toán gom cụm Như chúng ta đã biết, gom cụm là quá trình gom nhóm các đối tượng dữ liệu (data object), lại với nhau trên tiêu chí các đối tượng có đặc điểm, tính chất tương tự nhau thì sẽ được đặt vào cùng một nhóm và ngược lại các đối tượng khác nhau về đặc điểm và tính chất sẽ thuộc khác nhóm nhau Dựa vào điều này, không ít các giải thuật gom cụm hiệu quả đã xuất hiện và một trong số đó là thuật toán k-means Thuật toán k-means dựa trên việc lặp lại việc cập nhật các điểm trung tâm được dẫn xuất (centroids) mới và tiến hành gom nhóm các đối tượng dựa trên khoảng cách từ những đối tượng đó đến các điểm trung tâm này Không may là, thuật toán k-means lại rất nhạy cảm với các điểm dị biệt (outlier) Mặc khác, dù k-means tỏ ra rất hiệu quả về mặt thời gian tính toán, nhưng khi áp dụng với một số loại dữ liệu, như: đồ thị (graph), hình ảnh (image), quỹ đạo 3 chiều (3-D trajectories), dữ liệu biểu diễn gen (gene expression), thì việc xác định các điểm trung tâm (centroid) của chúng là vô cùng khó khăn Vì lý do này, thuật toán gom cụm dựa vào k-medoids (gọi vắn tắt là thuật toán k-medoids) đôi khi được sử dụng như một biện pháp thay thế Về nguyên tắc hoạt động, thuật toán phân cụm k-medoids cũng tương tự thuật toán k- means, nhưng k-medoids sử dụng các điểm dữ liệu thực làm trung tâm cụm Trong khi thuật toán k-means cố gắng giảm thiểu tổng sai số bình phương, thì k-medoids giảm thiểu tổng số điểm khác biệt giữa các điểm được phân cùng một cluster với một điểm được chỉ định làm trung tâm (điểm đại diện) của cụm đó Vì vậy nên thuật toán k- medoids ít bị ảnh hưởng bởi các điểm dị biệt (có thể là nhiễu dữ liệu – noise) hơn k- means Một trong số những thuật toán phân cụm sử dụng k-medoids mạnh là thuật toán phân hoạch dựa vào medoids (gọi tắt là PAM – Partitioning Around Medoids) Tuy nhiên, thuật toán PAM có một bất lợi đó là nó hoạt động không hiệu quả trên các bộ dữ liệu lớn (large dataset), đồng nghĩa với thời gian chạy của thuật toán sẽ lâu Vì vậy, cần thiết nên có thuật toán khác hiệu quả hơn hoặc một số cải tiến cho giải thuật này.
Động cơ nghiên cứu
Mặc dù sự ra đời DTW làm cho việc gom cụm dữ liệu chuỗi thời gian chính xác hơn, thậm chí DTW trở thành độ đo ưu việt hơn so với các độ đo khác cho loại dữ liệu chuỗi thời gian, nhưng với số lượng dữ liệu ngày càng lớn và việc tính khoảng cách DTW bằng phương pháp quy hoạch động là khá phức tạp làm cho việc gom cụm với khoảng cách DTW trở thành gánh nặng về mặt chi phí thời gian Vì vậy, việc phát triển các kỹ thuật tính toán thay thế kỹ thuật tính DTW trực tiếp bằng các cách tính toán chặn đối với một số bài toán trong thực tế thì việc gom cụm với DTW vẫn mất thời gian khá lâu
Như vậy, nhu cầu cần có một độ đo khoảng cách và thuật toán phân cụm tốt hơn luôn là mối quan tâm hàng đầu của các nhà nghiên cứu Trong phạm vi đề tài này, chúng tôi sẽ giới thiệu một thuật toán gom cụm khác cũng dựa trên k-medoids với cách vận hành tương tự thuật toán k-means nhưng có sự cải tiến thêm để đạt được mục tiêu trước hết là sự đơn giản, hiệu quả, gọi là thuật toán k-medoids cải tiến (Park và Jun, 2009 [14]) và sử dụng độ đo khoảng cách xoắn thời gian động cải tiến (PrunedDTW)(Silva and Batista, 2016 [2]) dùng thay cho khoảng cách DTW trực tiếp (TrueDTW)[1], vốn có chi phí tính toán cao, đồng thời khảo sát sự kết hợp giữa chúng với nhau trong việc giải quyết bài toán gom cụm trên dữ liệu chuỗi thời gian Đặc điểm nổi bật của sự kết hợp chính là kỹ thuật gom cụm này đòi hỏi sự tính toán khoảng cách giữa các điểm dữ liệu chỉ một lần duy nhất lúc khởi tạo, cũng như cách áp dụng kỹ thuật khởi tạo trung tâm cụm ban đầu cho giải thuật gom cụm k-medoids Kết quả thực nghiệm đã cho thấy chất lượng gom cụm khá chính xác, thậm chí tốt hơn đối với một số bộ dữ liệu cụ thể, so với giải thuật gom cụm k-means cải tiến [27] với độ đo Euclid Thêm nữa, việc áp dụng độ đo PrunedDTW vào thuật toán phân cụm trên càng đảm bảo sự chính xác hơn cho kết quả đầu ra của bài toán phân cụm so với độ đo Euclid.
Mục tiêu nghiên cứu
Đề tài tập trung nghiên cứu và giải quyết bài toán phân cụm trên dữ liệu chuỗi thời gian Các giải thuật được đề xuất trong nghiên cứu dùng để giải quyết các vấn đề của bài toán giảm chi phí cho quá trình tính toán ma trận xoắn DTW, ma trận khoảng cách toàn cặp (all-pairwise distance matrix) ban đầu và đồng thời tăng chất lượng của kết quả gom cụm, tạo tiền đề cho các bài toán sau đó như bài toán phân lớp (classification), một hình thức học có giám sát (supervised learning) và bài toán dự báo (prediction) làm việc hiệu quả hơn
• Tìm hiểu cách tính ma trận DTW bằng phương pháp PrunedDTW: tuy ưu điểm của DTW đó là cho độ chính xác cao so với các độ đo Euclid, nhưng cách tính của nó khá phức tạp, do đó phát sinh chi phí lớn làm chậm quá trình tính toán Do đó, đề tài sẽ tìm hiểu phương pháp PrunedDTW này
• Tìm hiểu giải thuật gom cụm k-medoids cải tiến: đây là thuật toán gom cụm dựa trên medoid, có nhiều ưu điểm, như: ít bị ảnh hưởng bởi nhiễu (noise) và các điểm dị biệt (outlier) để cho kết quả phân cụm tốt hơn, nhưng được cải tiến để có khả năng chạy nhanh xấp xỉ thuật toán k-means
• Hiện thực giải thuật gom cụm dữ liệu chuỗi thời gian k-medoids cải tiến
• Hiện thực phương pháp tính độ đo khoảng cách PrunedDTW
• Phân tích, đánh giá độ hiệu quả của sự kết hợp của hai giải thuật k-medoids cải tiến và PrunedDTW bằng cách so sánh chất lượng phân cụm với phương pháp phân cụm k-means cải tiến [27] với độ đo Euclid trên các tập dữ liệu mẫu.
Tóm lược kết quả đạt được
Sau thời gian nghiên cứu cơ sở lý thuyết cũng như phương pháp hiện thực, chúng tôi đã hiện thực được các thuật toán, kết hợp chúng thành một framework và tiến hành thực nghiệm gom cụm dữ liệu chuỗi thời gian trên framework này, chúng tôi đã đạt được các kết quả tích cực đó là:
• Xây dựng được hệ thống framework gom cụm sử dụng giải thuật gom cụm k- medoids cải tiến dùng độ đo khoảng cách DTW cải tiến (PrunedDTW) nhằm mục đích đạt được chất lượng gom cụm tốt hơn so với k-means cải tiến với độ đo Euclid nhưng với thời gian thực thi ít hơn so với phương pháp gom cụm k- medoid cải tiến với độ đo DTW trực tiếp
• Đưa ra được các kết luận đánh giá chất lượng gom cụm cũng như so sánh độ hiệu quả của các phương pháp này qua sự thực nghiệm trên 5 bộ dữ liệu mẫu
Như vậy, hệ thống này cơ bản đã đáp ứng được các yêu cầu của bài toán đặt ra mà, về chi tiết của các thuật toán, chúng tôi sẽ trình bày ở các phần sau trong tài liệu này.
Cấu trúc của luận văn
Tổ chức các phần còn lại của luận văn này bao gồm như sau:
Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong việc nghiên cứu, bao gồm các lý thuyết về độ đo khoảng cách của chuỗi thời gian, các kỹ thuật về ràng buộc toàn cục (global constraints) và tính chặn dưới cũng như các kỹ thuật về gom cụm dữ liệu thường và dữ liệu chuỗi thời gian Đồng thời giới thiệu về các công trình nghiên cứu liên quan Những công trình này trình bày về các phương pháp tính giá trị trung bình dựa trên khoảng cách DTW để áp dụng kỹ thuật gom cụm k-means như phương pháp của Gupta và các đồng sự, giải thuật PSA và giải thuật DBA Ngoài ra, chúng tôi còn giới thiệu về giải thuật k-medoids cải tiến và độ đo xoắn thời gian động cải tiến PrunedDTW
Chương 3 trình bày phương pháp giải quyết vấn đề đã nêu trên: kết hợp thuật toán k-medoids cải tiến và độ đo PrunedDTW áp dụng vào phân cụm cho dữ liệu chuỗi thời gian Nội dung chương sẽ bao gồm: vấn đề hiện thực các giải thuật đã chọn, cấu trúc hệ thống chương trình thực hiện, giới thiệu các bộ dữ liệu dành cho việc thực nghiệm và các tiêu chí đánh giá kết quả thử nghiệm này
Chương 4 trình bày các kết quả thực nghiệm đạt được, thông qua đó đánh giá chất lượng gom cụm của phương pháp đề xuất cũng như đánh giá thời gian thực thi của các phương pháp đề xuất
Chương 5 là một số kết luận, đóng góp của đề tài cũng như hướng phát triển trong tương lai của đề tài.
CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN
Cơ sở lý thuyết
Đề tài của chúng tôi tập trung vào việc tìm hiểu các vấn đề lý thuyết và các bài báo liên quan để làm cơ sở cho việc nghiên cứu đề tài như:
2.1.1 Độ đo khoảng cách cho dữ liệu chuỗi thời gian:
Các bài toán tìm kiếm mẫu, phân loại hay gom cụm dữ liệu chuỗi thời gian đều sử dụng kiểu dữ liệu mà ở đó được biểu diễn thành một chuỗi các số thực Vì vậy, để giải quyết các bài toán này ta phải sử dụng các độ đo khoảng cách giữa các cặp chuỗi thời gian với nhau để đạt được kết quả chính xác hơn Giả sử, ta có hai chuỗi thời gian Q và
C với các độ dài n và m tương ứng là 𝑄 = 𝑞 1 , 𝑞 2 , … , 𝑞 𝑖 , … , 𝑞 𝑛 và 𝐶 = 𝑐 1 , 𝑐 2 , … , 𝑐 𝑗 , … , 𝑐 𝑚
Ta cần phải xác định độ đo khoảng cách Dist(Q, C) của hai chuỗi thời gian này
Hiện nay, có rất nhiều độ đo khoảng cách đã được sử dụng cho việc gom cụm dữ liệu chuỗi thời gian tùy thuộc vào từng miền ứng dụng và trong đó độ đo Euclid là đủ khả năng để giải quyết bài toán này Tuy nhiên, để có thể làm việc được với một số thể loại dữ liệu chuỗi thời gian, thí dụ như dữ liệu đa phương tiện (multimedia), nhất thiết phải dùng độ đo khoảng cách DTW, dù biết rằng độ đo này gây ra chi phí tính toán cao Mặt khác, độ đo Euclid lại không đủ linh hoạt để áp dụng trong các kỹ thuật biến đổi như tịnh tiến (shifting), kéo dãn (stretching) hay co lại (contracting) trên trục thời gian nên các độ đo này ngày càng trở nên thiếu chính xác [1] và không được tin dùng như độ đo DTW
2.1.1.2 Khoảng cách xoắn thời gian động (DTW):
Việc sử dụng độ đo Euclid đối với dữ liệu chuỗi thời gian có hình dạng giống nhau nhưng khác nhau về thời gian sẽ sinh ra kết quả tính toán không chính xác vì cách ánh xạ điểm 𝑖 𝑡ℎ của chuỗi này với điểm 𝑖 𝑡ℎ của chuỗi khác Vì vậy để khắc phục điểm yếu này thì độ đo xoắn thời gian động đã ra đời
Hình 2.1 minh họa độ đo khoảng cách Euclid và độ đo DTW
Hình 2.1 Độ đo Euclid (trái) và độ đo DTW (phải), (Nguồn [10])
Kỹ thuật tính toán khoảng cách xoắn thời gian động là cách sắp xếp hai chuỗi thời gian sao cho giá trị khoảng cách là nhỏ nhất (Berndt và Clifford, 1994[1]) Để sắp xếp đươc hai chuỗi này, chúng ta phải xây dựng ma trận n×m nơi phần tử (𝑖 𝑡ℎ , 𝑗 𝑡ℎ ) của ma trận là khoảng cách 𝐷𝑖𝑠𝑡(𝑞 𝑖 , 𝑐 𝑗 ) của hai điểm 𝑞 𝑖 , 𝑐 𝑗 và mỗi điểm (𝑖, 𝑗) này là sự sắp xếp giữa hai điểm 𝑞 𝑖 , 𝑐 𝑗 Đường xoắn (warping path) W được định nghĩa là sự sắp xếp của những phần tử trong hai chuỗi Q và C, tức là ánh xạ giữa Q và C Từ đó, chúng ta có 𝑊 = 𝑤 1 , 𝑤 2 , … , 𝑤 𝑘 , … , 𝑤 𝐾 với max(m,n) ≤ K < m + n – 1 và 𝑤 𝑘 = (𝑖, 𝑗) 𝑘
Do đó, chúng ta sẽ tìm được nhiều đường xoắn khác nhau nhưng chúng ta chỉ quan tâm tới đường xoắn mà làm tối thiểu hóa chi phí xoắn nhất (hình 2.2):
Hình 2.2 Ma trận xoắn DTW và đường xoắn tối ưu True Warping Path (Nguồn
Có thể tính toán được ma trận xoắn DTW bằng giải thuật quy hoạch động
(dynamic programming) gồm biến giai đoạn, biến trạng thái và biến quyết định để mô tả quá trình chuyển đổi trạng thái hợp lệ Trong đó, biến giai đoạn đơn giản chỉ là một sự tăng đơn điệu các sự kiện, biến trạng thái là các điểm (𝑖, 𝑗) trong ma trận và biến quyết định để giới hạn những đường xoắn hợp lệ làm giảm không gian tìm kiếm Việc giới hạn không gian tìm kiếm sẽ giúp tiết kiệm được chi phí tính toán và cải thiện được vấn đề hiệu suất, cho nên đường xoắn thời gian phải tuân theo một vài ràng buộc sau:
• Tính đơn điệu (monotonicity): những điểm phải được sắp thứ tự đơn điệu tương ứng với thời gian, tức là cho 𝑤 𝑘 = (𝑎, 𝑏) thì 𝑤 𝑘−1 = (𝑎′, 𝑏′) với a – a' ≥ 0 và b – b' ≥ 0
• Tính liên tục (continuity): từng bước trong đường xoắn phải liền kề nhau, tức là cho 𝑤 𝑘 = (𝑎, 𝑏) thì 𝑤 𝑘−1 = (𝑎′, 𝑏′) với a – a' ≤ 1 và b – b' ≤ 1
• Cửa sổ xoắn (warping window): những điểm hợp lệ phải rơi vào khoảng cửa sổ xoắn cho trước 𝜔 > 0 với |𝑖 𝑘 − 𝑗 𝑘 | ≤ 𝜔
• Ràng buộc độ dốc (slope constraint): những đường xoắn hợp lệ phải bị ràng buộc về độ dốc, điều này giúp tránh trường hợp những bước di chuyển quá lớn theo một hướng
• Điều kiện biên (boundary conditions): 𝑤 1 = (1,1) và 𝑤 𝑘 = (𝑛, 𝑚) điều này giúp đường xoắn bắt đầu và kết thúc tại các điểm nằm ở góc trên đường chéo của ma trận
Ma trận khoảng cách DTW sẽ được tính bằng quy hoạch động dựa trên công thức sau:
Trong đó, 𝛾(𝑖, 𝑗) là khoảng cách tích lũy của mỗi điểm thuộc ma trận DTW Chính là tổng khoảng cách giữa 2 điểm hiện tại thuộc 2 chuỗi thời gian với khoảng cách tích lũy nhỏ nhất của các điểm xung quanh nó Độ đo Euclid có thể xem như trường hợp đặc biệt của DTW với ràng buộc 𝑤 𝑘 = (𝑖, 𝑗) 𝑘 , 𝑖 = 𝑗 = 𝑘 và hai chuỗi có độ dài bằng nhau Chi tiết giải thuật tính ma trận khoảng cách DTW như sau:
Ví dụ sau đây sẽ minh họa cho giải thuật tính khoảng cách DTW Giả sử chúng ta có 2 chuỗi thời gian:
Hai chuỗi này được biểu diễn đồ thị bằng hình 2.3:
Hình 2.3 Đồ thị biểu diễn hai chuỗi thời gian, (Nguồn [23]) Để tính khoảng cách DTW chúng ta xây dựng ma trận tính khoảng cách tích lũy của hai chuỗi trên như hình dưới đây Mỗi ô trong ma trận sẽ chứa khoảng cách tích lũy tương ứng của cặp điểm đó, xem hình 2.4
Hình 2.4 Ma trận xoắn DTW, (Nguồn [23])
Trong ma trận xoắn DTW trên, các ô được tính toán như sau:
Sau khi đã tính tất cả giá trị tích lũy cho các ô, chúng ta được một đường xoắn tối ưu bao gồm các ô tham gia tích lũy cho ô (10,10) Trong hình 2.4 ở trên thì đường xoắn tối ưu là các ô được tô màu đậm
Vậy khoảng cách DTW của hai chuỗi trên là √28 ≈ 5,2915, trong khi khoảng cách Euclid của hai chuỗi trên là √122 ≈ 11,0454 Ưu điểm: DTW phù hợp với các dữ liệu chuỗi thời gian có hình dạng tương tự nhau nhưng có thể có chiều dài thời gian khác nhau DTW cũng cho ra kết quả về khoảng cách chính xác hơn các độ đo trong không gian Euclid
Khuyết điểm: thời gian tính toán lâu Độ phức tạp của DTW trong trường hợp này là O(nm), với m, n lần lượt là chiều dài của 2 chuỗi thời gian tương ứng
Từ các ưu, khuyết điểm này, đã thúc đẩy rất nhiều công trình nghiên cứu nhằm mục đích giảm thời gian tính toán của việc tính ma trận xoắn DTW Nhiều phương pháp, kỹ thuật khác nhau ra đời:
• Kỹ thuật ràng buộc toàn cục : Dải Sakoe-Chiba ( Sakoe-Chiba Band ), hình bình hành Itakura (Itakura Paralelogram) được minh họa ở hình 2.5
Hình 2.5 Sakoe-Chiba Band (trái) và Itakura Paralelogram (phải), (Nguồn [10])
• Kỹ thuật tính chặn dưới : Với ý đồ giảm bớt không gian tìm kiếm bằng cách loại bỏ những chuỗi không phù hợp càng sớm càng tốt (similarity searching) Mục tiêu của kỹ thuật này là để tăng tốc độ tính toán và tạo một ràng buộc chặn dưới tương đối chặt chẽ Đây là các phương pháp xấp xỉ khoảng cách DTW trực tiếp với những ưu và nhược điểm khác nhau: o Phương pháp tính chặn dưới của Kim (Kim et al (2001) [11]), hình 2.6:
Hình 2.6 Kỹ thuật chặn dưới của Kim, (Nguồn [10]) o Phương pháp tính chặn dưới của Yi (Yi et al (1998) [12]), hình 2.7:
Hình 2.7 Kỹ thuật chặn dưới của Yi, (Nguồn [10]) o Phương pháp tính chặn dưới của Keogh (Keogh và Ratanamahatana (2002) [10]), hình 2.8:
Hình 2.8 Kỹ thuật chặn dưới của Keogh, (Nguồn [10])
Nhận xét: các phương pháp dựa trên việc tính cận dưới như vậy chỉ phù hợp cho bài
2.1.2 Các kỹ thuật gom cụm dữ liệu thường dùng:
Khảo sát các công trình liên quan
2.2.1 Phương pháp tính giá trị trung bình hình dạng dùng khoảng cách DTW
Hiện nay, đã có một số phương pháp gom cụm dữ liệu chuỗi thời gian dùng khoảng cách DTW bằng giải thuật gom cụm k-means đã được phát triển Tuy nhiên, như đã đề cập ở phần trước, nhược điểm của k-means đó là phải xác định số cụm k đồng thời phải tính được giá trị trung tâm cụm thường là giá trị trung bình hình dạng của cụm Do đó, đối với khoảng cách DTW thì khó khăn hơn khi áp dụng cách tính giá trị trung tâm cụm như trong các độ đo không gian Euclid vì độ dài của các chuỗi thời gian khác nhau và khoảng cách DTW thì không tuân theo nguyên tắc bất đẳng thức tam giác Phần tiếp theo, chúng tôi sẽ giới thiệu ba công trình liên quan tới việc tính giá trị trung bình hình dạng dùng cho khoảng cách DTW
2.2.1.1 Phương pháp tính trung bình của Gupta và các đồng sự
Phương pháp này được Gupta và các đồng sự [24] đưa ra vào năm 1996 nhằm giải quyết vấn đề tính trung bình các tín hiệu của não mà được tạo ra bởi các tác động bên ngoài Ý tưởng của phương pháp đó là cho hai chuỗi thời gian Q và C được định nghĩa như trên với độ dài n và m tương ứng sau khi được áp dụng khoảng cách DTW sẽ cho kết quả là một đường xoắn tối ưu gồm các cặp điểm của Q và C:
Từ đó, ta có được hai chuỗi sắp xếp mới 𝑄[𝑖(𝑘)] và 𝐶[𝑗(𝑘)] với 𝑘 = 1,2, … , 𝐾 và 𝑖(𝑘) chỉ được ánh xạ với 𝑗(𝑘) tương ứng trong 𝑤(𝑘) Kế tiếp, ta sử dụng hai chuỗi này để tính giá trị chuỗi trung bình của hai chuỗi thời gian Q và C ban đầu Phương pháp của Gupta được chia làm hai chiến lược phổ biến đó là cây phân cấp cân bằng (NLAAF1) và cây phân cấp tuần tự (NLAAF2)
Kỹ thuật NLAAF1: giả sử ta có L chuỗi thời gian với L là lũy thừa của 2 thì giá trị chuỗi trung bình của L chuỗi 𝑟 𝐿 (𝑘) được tính như sau:
Tức là chia L chuỗi thời gian thành hai nửa tập con bằng nhau Cứ tiếp tục phân rã cho đến khi còn lại hai chuỗi thời gian thì áp dụng giải thuật tính khoảng cách DTW để tìm hai chuỗi sắp xếp mới và tính giá trị chuỗi trung bình dựa trên hai chuỗi đó rồi lại kết hợp với giá trị chuỗi trung bình của hai chuỗi kế tiếp
Hình 2.11 (a) sẽ minh họa cho quá trình xử lý của kỹ thuật NLAAF1
Kỹ thuật NLAAF2: kỹ thuật này có tính tổng quát cao hơn kỹ thuật NLAAF1 vì số
L chuỗi thời gian không bắt buộc là lũy thừa của 2 mà có thể bất kỳ số nào, lúc này giá trị chuỗi trung bình của L chuỗi là:
Tức là giá trị chuỗi trung bình được tính tuần tự bằng cách tính giá trị chuỗi trung bình 𝑟 2 (𝑘) từ cặp 𝑟 1 (𝑘) và 𝑟 2 (𝑘) sau đó kết hợp với 𝑟 3 (𝑘) để tính được giá trị chuỗi trung bình 𝑟 3 (𝑘), tiếp tục như vậy cho tới khi tính được 𝑟 𝐿 (𝑘) từ cặp 𝑟 𝐿−1 (𝑘) và 𝑟 𝐿 (𝑘)
Hình 2.11 (b) mô tả quá trình tính toán của kỹ thuật NLAAF2
Hình 2.11: Mô tả hai kỹ thuật tính trung bình của Gupta (Nguồn [24]) Ưu điểm: dễ hiện thực và thời gian tính toán nhanh
Khuyết điểm: độ chính xác của chuỗi trung bình không cao
2.2.1.2 Giải thuật tính trung bình cụm dữ liệu PSA
Nhược điểm của phương pháp tính trung bình của Gupta đó là độ chính xác không cao đã được chứng minh trong bài báo [25], trong đó đề cập đến việc ghép cặp ngẫu nhiên khi tính trung bình làm ảnh hưởng đến độ chính xác của kết quả Vì vậy,
Niennattrakul V và Ratanamahatana C.A đã đưa ra một phương pháp tính trung bình cải tiến gọi là Prioritized Shape Averaging (PSA) [25] vào năm 2009, giải thuật này dựa vào gom cụm phân cấp để sắp thứ tự tính trung bình của các chuỗi Ngoài ra, kỹ thuật này cũng giới thiệu một giải thuật tính trung bình DTW mới gọi là Scaled Dynamic Time Warping (SDTW) mà tăng cường sức mạnh trong việc tính trung bình ở miền
Trước hết, chúng tôi sẽ giới thiệu về giải thuật tính trung bình SDTW Giải thuật này cơ bản là dựa vào cách tính trung bình của Gupta nhưng đã có những cải tiến trong việc co dãn chuỗi thời gian sao cho chuỗi trung bình mong muốn sẽ có hình dạng tương tự với chuỗi có trọng số cao hơn Hàm tính trung bình được định nghĩa:
𝛼 𝑄 + 𝛼 𝐶 Trong đó, 𝑧 𝑘 là giá trị trung bình trong chuỗi trung bình Z, 𝑞 𝑖 và 𝑐 𝑗 là hai điểm thuộc hai chuỗi Q và C, 𝛼 𝑄 và 𝛼 𝐶 là trọng số của hai chuỗi Q và C Giải thuật này hoạt động dựa vào cơ chế tính trọng số cho mỗi phần tử 𝑤 𝑘 trên đường xoắn tối ưu W Để tính trọng số phù hợp thì các tác giả đã phân loại ra ba trường hợp đó là: khi 𝑤 𝑘−1 là (𝑖 − 1, 𝑗) 𝑘−1 thì giải thuật sẽ sinh ra một trọng số 𝛼 𝐶 cho (𝑖, 𝑗) 𝑘 , khi 𝑤 𝑘−1 là (𝑖, 𝑗 − 1) 𝑘−1 thì giải thuật trung bình sẽ sinh ra một trọng số 𝛼 𝑄 cho (𝑖, 𝑗) 𝑘 , ngược lại khi 𝑤 𝑘−1 là
2 sẽ được sinh ra cho phần tử (𝑖, 𝑗) 𝑘 Sau đó, ta sẽ áp dụng hàm tính trung bình trên để tính chuỗi trung bình mới mà sẽ dài hơn chuỗi gốc cho nên ta phải áp dụng thêm việc thu giảm dữ liệu
Cuối cùng, chúng tôi giới thiệu về mô hình PSA Mô hình này hoạt động trên cơ sở lấy việc gom cụm phân cấp làm một công cụ giúp sắp xếp thứ tự các chuỗi dữ liệu dùng để tính trung bình Tức là đầu tiên tập dữ liệu sẽ được gom cụm phân cấp theo kiểu từ dưới lên và sau đó ta sẽ dùng giải thuật SDTW để tính trung bình từng cặp phần tử từ dưới lên theo cây phân cấp Trọng số của chuỗi trung bình sẽ là số chuỗi mà hình thành nên chuỗi trung bình đó
Hình 2.12 minh họa cho việc áp dụng mô hình PSA Trong đó, giả sử ta có năm chuỗi thời gian với trọng số ban đầu là 1 Ta tính trung bình chuỗi A và B được chuỗi F với trọng số là 2 Cứ tiếp tục như vậy theo cây phân cấp ta sẽ được chuỗi kết quả I với trọng số là 5
Hình 2.12: Ví dụ minh họa mô hình PSA (Nguồn [25]) Ưu điểm: có độ chính xác cao hơn so với giải thuật của Gupta
Khuyết điểm: độ phức tạp của phương pháp này cao hơn do phải tiến hành gom cụm phân cấp và tính trọng số cho mỗi phần tử của mỗi chuỗi
2.2.1.3 Giải thuật tính trung bình cụm dữ liệu DBA
Phương pháp trung bình cụm dữ liệu DTW Barycenter Averaging (DBA) được Francois Petitjean và các đồng sự [26] giới thiệu vào năm 2011 trong bối cảnh các giải pháp tính trung bình cụm trước đó gặp hai vấn đề quan trọng Thứ nhất là việc tính trung bình theo từng cặp chuỗi, bởi vì thứ tự lấy các cặp chuỗi sẽ ảnh hưởng tới kết quả chuỗi trung bình do không có hàm liên kết Đặc biệt khi áp dụng quá trình gom cụm lặp trên toàn bộ dữ liệu sẽ làm cho chất lượng của kết quả bị thay đổi rất nhiều Thứ hai là vấn đề tính giá trị trung bình của chuỗi kết quả, vì việc sử dụng những cách tính giá trị trung bình thô sơ sẽ dẫn đến chuỗi kết quả quá dài và quá chi tiết so với mong muốn Khi quá trình được lặp đi lặp lại nhiều lần sẽ làm cho chuỗi kết quả càng dài và việc tính khoảng cách DTW càng phức tạp, dẫn đến những vòng lặp sau sẽ lâu hơn làm cho hiệu suất tính toán bị giảm
Từ những vấn đề đó, Francois Petitjean và các đồng sự đã giới thiệu một phương pháp tính trung bình mới dựa trên cơ sở cung cấp một cách tính trung bình toàn cục, tức là các chuỗi sẽ được tính trung bình cùng với nhau và không cần quan tâm đến thứ tự các chuỗi, bằng cách tính trọng tâm (barycenter) của tập các điểm trong không gian Euclid Sau đó, họ sẽ tối ưu hóa chuỗi trung bình bằng cách làm giảm độ dài của chuỗi bằng các phương pháp thu giảm dễ thích nghi hơn
Hiện thực bài toán
Như đã trình bày, độ đo dữ liệu định lượng sự sai biệt của dữ liệu với nhau và chính vì vậy, yếu tố độ đo này là một phần quan trọng, ảnh hưởng lớn đến kết quả của việc gom cụm Với độ đo Euclid trong một số trường hợp gom cụm dữ liệu chuỗi thời gian (chẳng hạn đối với dữ liệu đa phương tiện như âm thanh, hình ảnh) thường cho ra kết quả không chính xác, nên thay vào đó, ta sẽ sử dụng khoảng cách DTW Tuy nhiên, khoảng cách DTW với độ phức tạp tính toán rất cao nên sẽ không khả thi khi áp dụng trên tập dữ liệu lớn (Big data) Chính vì vậy, các kỹ thuật tính chặn dưới để cải thiện tốc độ tính toán của giải thuật tính DTW là cần thiết Nhưng các kỹ thuật này trong thực tế khó có thể áp dụng trực tiếp vào bài toán gom cụm Cho nên, trong trường hợp này, độ đo PrunedDTW sẽ thực sự hữu ích Do đó, chúng tôi sẽ hiện thực một hệ thống sử dụng cách tính độ đo PrunedDTW để thu được được ma trận khoảng cách toàn cặp và sau đó, giải thuật k-medoids, với một số cải tiến, sẽ tiến hành phân cụm dữ liệu dựa trên ma trận khoảng cách toàn cặp này
Bên cạnh đó, việc khởi tạo các điểm trung tâm cụm cũng ảnh hưởng tới thời gian tính toán và độ chính xác kết quả của giải thuật k-medoids, do đó cần một phương pháp
3.1.2.1 Kỹ thuật khởi tạo trung tâm cụm:
Kỹ thuật gom cụm k-medoids có khả năng giảm thiểu sự ảnh hưởng của nhiễu và tránh được vấn đề cực trị cục bộ, nhưng đổi lại, kỹ thuật này bị ảnh hưởng bởi kích thước tập dữ liệu do có độ phức tạp tính toán cao và phụ thuộc nhiều vào việc chọn phần tử làm trung tâm cụm Hiện nay, nhiều phương pháp để chọn phần tử đại diện ban đầu đã được đề xuất như:
• Lựa chọn ngẫu nhiên: chọn ngẫu nhiên k phần tử từ tập dữ liệu
• Lựa chọn có hệ thống: bằng cách sắp xếp tập dữ liệu theo một tiêu chí nào đó và chia tập dữ liệu đó theo k khoảng bằng nhau và chọn ngẫu nhiên một phần tử từ mỗi khoảng đó là phần tử đại diện
• Lấy mẫu: tiến hành lấy mẫu 10% tập dữ liệu và gom cụm trên tập con đó Phần tử đại diện của kết quả đạt được sẽ được dùng làm phần tử đại diện cho cả tập
• Đối tượng xa nhất: chọn k phần tử mà xa tâm nhất
• Phương pháp Gauss: những phần tử được dẫn xuất từ k thành phần Gauss, ước lượng mỗi vector trung bình của k mô hình Gauss bằng giải thuật Expectation- Maximization (EM) (Vlassis và Likas đề xuất năm 2002) và tìm phần tử gần với vector trung bình được ước lượng nhất
Tuy nhiên, kỹ thuật của Park và Jun (2009) [14] đã cho thấy sự cải tiến rõ rệt trong thời gian tính toán so với các phương pháp trên và đó cũng là tiền đề để chúng tôi áp dụng phương pháp khởi tạo trung tâm cụm mới này Nội dung phương pháp khởi tạo trung tâm cụm mới của Park và các đồng sự khi áp dụng vào đề tài này sử dụng khoảng cách DTW như sau:
Input: 𝑆 = {𝑆 1 , 𝑆 2 , … , 𝑆 𝑛 } là tập dữ liệu với p biến, k là số cụm, d là ma trận khoảng cách
Output: medoid(k) là danh sách các đối tượng được chọn là phần tử đại diện
1 Dùng khoảng cách DTW để tính khoảng cách của tất cả các cặp đối tượng trong tập dữ liệu S
2 Tính tỷ số 𝑝 𝑖𝑗 để làm phỏng đoán đầu tiên ở tâm của các cụm theo công thức dưới đây và tỷ số này càng nhỏ chứng tỏ điểm 𝑖 𝑡ℎ càng gần điểm 𝑗 𝑡ℎ
3 Tính ∑ 𝑛 𝑖=1 𝑝 𝑖𝑗 (𝑗 = 1, … , 𝑛) của mỗi phần tử và sắp xếp chúng theo thứ tự tăng dần Chọn k phần tử có giá trị nhỏ nhất từ danh sách trên làm phần tử đại diện
4 Gán mỗi đối tượng còn lại vào phần tử đại diện gần nhất
5 Tính toán chi phí tối ưu hiện tại, tức là tổng khoảng cách của các đối tượng đến phần tử đại diện của chúng Ưu điểm của kỹ thuật trên đó là đơn giản và tính toán nhanh dựa trên ma trận khoảng cách đã được tính toán trước
3.1.3 Chi tiết hệ thống chương trình
Hệ thống của chúng tôi bao gồm 5 module chính đó là: module nhập và chuẩn hóa dữ liệu (Data Normolization), module tính độ đo DTW (DTW), module gom cụm dữ liệu (Data Clustering), module đánh giá kết quả gom cụm (Validation) và module trực quan hóa kết quả (Result Visualization) Hình 3.1 minh họa cho kiến trúc hệ thống của chúng tôi
Hình 3.1 Kiến trúc hệ thống chương trình hiện thực
- Module nhập và chuẩn hóa dữ liệu
- Module tính độ đo DTW: TrueDTW và PrunedDTW
- Module gom cụm dữ liệu: k-means clustering và k-medoids clustering
- Module đánh giá kết quả gom cụm: internal validation và external validation
- Module trực quan hóa kết quả: sử dụng thư viện ScottPlot cho việc trực quan dữ liệu: vẽ chart và ma trận dữ liệu, v.v…
Dữ liệu thực nghiệm và phương pháp đánh giá kết quả nghiên cứu
3.2.1 Dữ liệu thực nghiệm: Đề tài này sẽ tiến hành đánh giá thực nghiệm kết quả gom cụm đạt được dựa trên việc tính toán các chỉ số đánh giá đã đề cập ở trên Đây là các bộ dữ liệu đồ họa Sau đây là các bộ dữ liệu dự định sẽ được chúng tôi tiến hành khảo sát:
• Tập dữ liệu Synthetic Control Time Series (CC)
• Tập dữ liệu Cylinder-Bell-Funnel (CBF)
3.2.2 Phương pháp đánh giá kết quả nghiên cứu:
Việc đánh giá chất lượng gom cụm dữ liệu là một vần đề cần thiết và quan trọng nhằm mục đích xác định chất lượng của kết quả gom cụm mang lại để từ đó tiến hành điều chỉnh thuật toán và các tham số đầu vào Có 2 phương pháp để đánh giá chất lượng phân cụm phổ biến là đánh giá nội (internal validation) và đánh giá ngoại (external validation) Ngoài ra, ta còn có cách đánh giá tương đối là đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụm khác ứng với các bộ giá trị tham số khác nhau Các phương pháp này đều dựa trên hai tiêu chí đó là cực tiểu hoá độ nén (compactness) các đối tượng trong cụm, tức các đối tượng thuộc chung cụm nên nằm gần nhau và cực đại hoá độ phân tách (separation) giữa các cụm, nghĩa các cụm khác nhau thì nên xa nhau Đánh giá nội (internal validation): đánh giá kết quả gom cụm trên chính tập dữ liệu sử dụng, phương pháp này được dùng cho các dữ liệu hoàn toàn ngẫu nhiên và ta không biết một đối tượng thuộc cụm nào Ta thường dùng một hàm mục tiêu (objective function) để đánh giá chất lượng và hàm mục tiêu thường sử dụng đó là xác định tổng sai biệt các phần tử trong cụm đến trung tâm cụm đó đối với tất cả các cụm [15] Cực tiểu của hàm này sẽ cho phương pháp gom cụm tốt nhất có thể
𝑖=1 Đánh giá ngoại (external validation): đánh giá kết quả gom cụm dựa vào cấu trúc đánh giá kết quả thông qua việc tính toán các chỉ số như: Rand, Adjusted Rand Index (ARI), Jaccard và Fowlkes & Mallow (FM)
Giả sử dữ liệu có M cụm Gọi 𝐺 = 𝐺 1 ; 𝐺 2 ; … ; 𝐺 𝑀 là các cụm thực sự mà ta đã biết trước và 𝐴 = 𝐴 1 ; 𝐴 2 ; … ; 𝐴 𝑀 là các cụm kết quả do giải thuật sinh ra Gọi D là tập dữ liệu ban đầu và với mọi cặp dữ liệu trong D ta tính các thông số sau:
• a: là số cặp dữ liệu đồng thời thuộc một cụm trong G và cũng thuộc một cụm trong A
• b: là số cặp dữ liệu đồng thời thuộc một cụm trong G nhưng khác cụm trong A
• c: là số cặp dữ liệu đồng thời thuộc một cụm trong A nhưng khác cụm trong G
• d: là số cặp dữ liệu đồng thời không thuộc cụm trong A và G
Dưới đây là các công thức đánh giá của các phương pháp trên Các công thức này đều cho kết quả có giá trị trong đoạn [0,1], càng đến gần 1 thì A và G càng giống nhau, nghĩa là giải thuật cho kết quả gom cụm tốt, và ngược lại
• Rand [18]: do Rand đề xuất vào năm 1971 dựa trên hai chỉ số a và d thể hiện sự giống nhau và hai chỉ số b và c thể hiện sự khác nhau
• ARI [19]: của Hubert và Arabie (1985) đưa ra nhằm cải tiến chỉ số Rand, đây như là một phương pháp đánh giá được đưa ra nhằm mục đích khắc phục những hạn chế đối với chỉ số Rand Kết quả của phương pháp này có thể là giá trị âm nên làm tăng độ nhạy của chỉ số hơn phương pháp Rand
• Jaccard [20]: được Jaccard (1912) giới thiệu nhằm đo độ tương tự giữa hai tập hợp hữu hạn, được định nghĩa là tỷ số giữa kích thước của phần giao với kích thước phần hợp của hai tập hợp
• Fowlkes & Mallow [21]: được Fowlkes và Mallow (1983) đề xuất nhằm so sánh độ tương tự giữa hai tập hợp mà không liên quan với nhau, khắc phục nhược điểm chỉ dùng cho các tập hợp có liên quan của chỉ số Rand Ngoài ra, chỉ số FM còn cho ra kết quả tốt khi có sự ảnh hưởng của nhiễu
THỰC NGHIỆM
Giới thiệu tập dữ liệu mẫu
Công cụ chương trình sẽ tiến hành đánh giá thực nghiệm kết quả gom cụm đạt được từ module gom cụm bằng cách tự động tính toán các chỉ số đánh giá đã đề cập ở chương
2 và hiển thị kết quả thông qua giao diện người dùng
• Tập dữ liệu Heterogeneous: là tập dữ liệu sinh ra từ 10 tập dữ liệu thực từ UCR Time Series Data Mining Archive [15] (hình 4.1) Đề tài sẽ sử dụng 10 tập dữ liệu này để sinh ra tập dữ liệu thực nghiệm bằng cách dịch các chuỗi này theo thời gian từ 2-3% chiều dài chuỗi và thêm nhiễu vào chuỗi dữ liệu, mỗi tập gồm 30 chuỗi và có chiều dài là 100
Hình 4.1 Minh họa tập dữ liệu Heterogeneous, (Nguồn [23])
• Tập dữ liệu nhân tạo Synthetic Control Time Series (CC): là tập dữ liệu gồm
• Tập dữ liệu FaceFour: là tập dữ liệu gồm 4 cụm, mỗi cụm có 22 chuỗi dữ liệu và có chiều dài là 350 [16]
• Tập dữ liệu Trace: đây là tập dữ liệu 4 cụm gồm 100 chuỗi, mỗi cụm có 25 chuỗi, chiều dài của chuỗi dữ liệu là 275 [16]
• Tập dữ liệu Cylinder-Bell-Funnel (CBF): chứa ba loại dữ liệu chuỗi thời gian là: cylinder (c), bell (b) và funnel (f) Đây là tập dữ liệu nhân tạo được Saito
(1994) [22] giới thiệu và các chuỗi dữ liệu được sinh ra theo công thức: và 𝛾, 𝜀(𝑡) là các hàm tạo các giá trị phân bố chuẩn 𝑁(0; 1), a là số nguyên nằm trong khoảng [16,32] và b – a là số nguyên trong khoảng [32,96] Chúng tôi đã tạo ra 50 chuỗi dữ liệu mỗi cụm có chiều dài là 128.
So sánh tính hữu hiệu của thuật toán k-medoids cải tiến dùng độ đo
Sau đây là kết quả thực nghiệm thu được trong việc hiện thực kết hợp kỹ thuật gom cụm k-medoids cải tiến với độ đo PrunedDTW Kết quả đánh giá được đưa ra dựa vào sự so sánh với kết quả thực nghiệm của sự kết hợp kỹ thuật k-medoids cải tiến với độ đo
TrueDTW trên cùng các tập dữ liệu Nhằm tăng thêm độ chính xác cho kết quả đánh giá về mặt thời gian thực thi, mỗi tập dữ liệu sẽ được tiến hành thực nghiệm gom cụm
100 lần, sau đó tính giá trị trung bình thời gian (đơn vị: giây) Đối với các độ đo PrunedDTW và TrueDTW, không áp dụng kỹ thuật ràng buộc toàn cục (w = 0) để đảm bảo độ chính xác về kết quả khoảng cách DTW thu được trong việc so sánh Về dữ liệu mẫu trong phần này, chúng tôi sử dụng 5 tập dữ liệu là: Trace, Cylinder-Bell-Funnel (CBF), FaceFour, Synthetic Control Time Series (CC), Heterogeneous
Hình 4.2 minh họa kết quả so sánh độ hữu hiệu giữa 2 phương pháp thực nghiệm:
Hình 4.2 Tính hữu hiệu của thuật toán Improved k-medoids khi kết hợp với độ đo
Trace CBF FaceFour Synthetic Control Hetorogeneous
DatasetImproved k-medoids & TrueDTW Improved k-medoids & PrunedDTW
Hình 4.3 cho minh họa tính hữu hiệu của thuật toán k-medoids cải tiến sử dụng độ đo PrunedDTW so với độ đo TrueDTW theo tỷ lệ phần trăm (%)
Hình 4.3 Tính hữu hiệu của thuật toán Improved k-medoids khi kết hợp với độ đo
PrunedDTW và TrueDTW theo tỷ lệ phần trăm nhanh hơn (%)
Như chúng ta thấy, kỹ thuật PrunedDTW, cho kết quả thời gian thực thi nhanh hơn so với kỹ thuật TrueDTW khi áp dụng vào bài toán gom cụm 5 bộ dữ liệu nêu trên trong khi độ chính xác là như nhau Tuy vậy, điều này cũng tùy thuộc vào đặc điểm của từng bộ dữ liệu mà hiệu quả của kỹ thuật PrunedDTW có thể phát huy được ưu thế về tính hữu hiệu so với kỹ thuật DTW truyền thống Vấn đề này liên quan đến phương cách tính giá trị cận trên (Upper Bound), là điều kiện tiên quyết và cốt lõi quyết định tính hữu hiệu của thuật toán PrunedDTW
Hình 4.4 trực quan hóa ma trận DTW giữa 3 cặp đối tượng dữ liệu trong tập Synthetic Control Hình 4.5 trực quan hóa ma trận DTW giữa 2 cặp đối tượng dữ liệu trong tập Face Four
Trace CBF FaceFour Synthetic Control Hetorogeneous
Pe rc en t of the s pe ed up (%)
Hình 4.4 Ma trận DTW của 3 cặp đối tượng dữ liệu trong tập Synthetic Control: (a), (b) – Ma trận DTW gần như không loại bỏ được gì; (c) – PrunedDTW loại bỏ được khoảng 50% giá trị cần tính toán
Hình 4.5 Ma trận DTW của 2 cặp đối tượng dữ liệu trong tập Face Four: (a) – Ma trận DTW gần như không loại bỏ được gì; (b) – PrunedDTW loại bỏ được khoảng 30% giá trị cần tính toán.
So sánh tính hiệu quả của thuật toán k-medoids cải tiến với độ đo
và thuật toán k-means cải tiến với độ đo Euclid:
Phần thực nghiệm này nhằm đánh giá hiệu quả của phương pháp gom cụm dữ liệu chuỗi thời gian k-medoids cải tiến sử dụng độ đo khoảng cách PrunedDTW mà chúng tôi giới thiệu ở trên Chúng tôi sẽ tiến hành đánh giá sự gom cụm (clustering) trên 5 tập dữ liệu mẫu, không áp dụng cửa sổ xoắn (w = 0) sau đó tiến hành so sánh kết quả thu được với kết quả thực nghiệm của thuật toán phân cụm k-means cải tiến sử dụng độ đo
Euclid, thông qua các chỉ số đánh giá ngoại (external validation index): Rand, Adjusted Rand Index (ARI), Jaccard và Fowlkes & Mallow (FM)
Hình 4.6 minh họa sự so sánh chỉ số Rand trên các tập dữ liệu mẫu
Hình 4.6 Tính hiệu quả của thuật toán k-medoids cải tiến và độ đo PrunedDTW so với k-means cải tiến và độ đo Euclid trên chỉ số Rand
Hình 4.7 minh họa sự so sánh chỉ số ARI trên các tập dữ liệu mẫu
Improved k-medoids & PrunedDTW Improved k-means & Euclid
Hình 4.7 Tính hiệu quả của thuật toán k-medoids cải tiến và độ đo PrunedDTW so với k-means cải tiến và độ đo Euclid trên chỉ số ARI
Hình 4.8 minh họa sự so sánh chỉ số Jaccard trên các tập dữ liệu mẫu
Improved k-medoids & PrunedDTW Improved k-means & Euclid
Improved k-medoids & PrunedDTW Improved k-means & Euclid
Hình 4.9 minh họa sự so sánh chỉ số FM trên các tập dữ liệu mẫu
Hình 4.9 Tính hiệu quả của thuật toán k-medoids cải tiến và độ đo PrunedDTW so với k-means cải tiến và độ đo Euclid trên chỉ số FM
Như vậy, qua các kết quả thực nghiệm, chúng ta cũng thấy được kết quả chất lượng gom cụm của giải thuật k-medoids cải tiến với độ đo PrunedDTW và TrueDTW là tốt hơn so với thuật toán k-means với độ đo Euclid Mặc dù thời gian thực thi của phương pháp này có lâu hơn k-means, lý do là vì, giải thuật k-medoids cải tiến phải tiến hành khởi tạo ma trận khoảng cách (distances matrix) ban đầu Nhưng, như đã biết, trong một số ngữ cảnh thực tế, đôi khi chúng ta lại quan tâm đến yếu tố chất lượng hơn là yếu tố thời gian thực thi.
Kết chương
Từ các kết quả ở trên, chúng ta có thể thấy được kỹ thuật gom cụm k-medoids cải tiến kết hợp với độ đo xoắn thời gian động cải tiến, PrunedDTW, đã đáp ứng được yêu cầu gia tăng độ chính xác của quá trình gom cụm so với phương pháp k-means
Improved k-medoids & PrunedDTW Improved k-means & Euclid nhưng về mặt thời gian thực thi thì lại dài hơn đáng kể vì phải xử lý một lượng tác vụ lớn của thuật toán
Ngoài ra, nếu so sánh giữa độ đo TrueDTW và PrunedDTW, ta cũng có thể dễ dàng thấy được phương pháp PrunedDTW không phải lúc nào cũng phát huy được sự vượt trội của nó đó là “cắt tỉa” những phần tử dư thừa Vấn đề này còn tùy vào đặc điểm của từng tâp dữ liệu nguồn
Thêm nữa, như đã đề cập, trong nhiều ngữ cảnh ứng dụng, yếu tố chất lượng gom cụm lại được quan tâm nhiều hơn là thời gian thực thi gom cụm Vì vậy, độ đo DTW và các phương cách nhằm tăng tốc việc tính toán nó vẫn sẽ luôn là mục đích nghiên cứu và phát triển của giới khoa học
Cuối cùng, việc kết hợp thêm các điều kiện lọc khác như áp dụng dải Sakoe-Chiba
(Sakoe-Chiba Band) và hình bình hành Itakura (Itakura Paralelogram) cũng góp phần làm tăng thêm sự hiệu quả cho phương pháp PrunedDTW nói riêng và cho TrueDTW nói chung, các kết quả thực nghiệm trên đã phần nào cho thấy điều đó.