1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL

88 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Tác giả Diệp Hưng
Người hướng dẫn PGS. TS. Dương Tuấn Anh
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2017
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 88
Dung lượng 1,13 MB

Cấu trúc

  • CHƯƠNG 1: GIỚ I THI ỆU ĐỀ TÀI (16)
    • 1.1. Đối tượ ng nghiên c ứ u (16)
      • 1.1.1. D ữ li ệ u chu ỗ i th ờ i gian (16)
      • 1.1.2 Gom c ụ m d ữ li ệ u (16)
      • 1.1.3. Sơ lượ c v ề nguyên lý MDL (18)
    • 1.2. Bài toán gom c ụ m d ữ li ệ u chu ỗ i th ờ i gian (18)
    • 1.4. M ụ c tiêu (19)
    • 1.5. Tóm lượ c k ế t qu ả đạt đượ c (19)
    • 1.6. C ấ u trúc lu ận văn (20)
  • CHƯƠNG 2: CƠ SỞ LÝ THUY Ế T (21)
    • 2.1. Độ đo tương cậ n (21)
      • 2.1.1. Độ đo khoả ng cách (21)
      • 2.1.2. Độ đo khoả ng cách có tr ọ ng s ố (22)
      • 2.1.3. Hàm tương tự phi metric (23)
      • 2.1.4. Độ đo biên tậ p (23)
    • 2.2. Phương pháp thu giả m s ố chi ề u (24)
    • 2.3. M ộ t s ố v ấn đề khác liên quan đế n gom c ụ m d ữ li ệ u (25)
      • 2.3.1. M ụ c tiêu c ủ a gom c ụ m d ữ li ệ u (25)
      • 2.3.2. Các ứ ng d ụ ng c ủ a gom c ụ m d ữ li ệu (26)
      • 2.3.3. M ộ t s ố y ế u t ố ảnh hưởng đế n kh ả năng gom cụ m d ữ li ệ u c ầ n quan tâm (27)
    • 2.4. M ộ t s ố phương pháp gom c ụ m d ữ li ệ u (27)
      • 2.4.1. K ỹ thu ậ t gom c ụ m phân ho ạ ch (28)
      • 2.4.2. K ỹ thu ậ t gom c ụ m phân c ấ p (29)
      • 2.4.3. K ỹ thu ậ t gom c ụ m d ự a vào mô hình (33)
    • 2.5. Tiêu chí đánh giá kế t qu ả gom c ụ m (34)
    • 2.6. M ộ t s ố khái ni ệ m quan tr ọ ng trong Lý thuy ế t Thông tin (37)
  • CHƯƠNG 3: TỔ NG QUAN CÁC CÔNG TRÌNH LIÊN QUAN (39)
    • 3.1. Gom c ụ m d ữ li ệ u chu ỗ i th ờ i gian (39)
    • 3.2. Công trình gom c ụ m chu ỗ i th ờ i gian áp d ụ ng nguyên lý MDL (41)
    • 3.3. Công trình tìm ki ế m motif trên d ữ li ệ u chu ỗ i th ờ i gian (48)
    • 3.4. Công trình nghiên c ứ u c ả i ti ế n gi ả i thu ậ t gom c ụ m tinh ch ỉ nh l ặ p (50)
    • 3.5. Công trình nghiên c ứ u v ề độ đo tương tự CRD (52)
  • CHƯƠNG 4: HỆ TH Ố NG GOM C Ụ M CHU Ỗ I TH Ờ I GIAN D Ự A TRÊN NGUYÊN LÝ MDL (57)
    • 4.1. Đặ t v ấn đề (57)
    • 4.2. Hướ ng gi ả i quy ế t (57)
      • 4.2.1. Giai đoạ n gom c ụm sơ bộ (58)
      • 4.2.2. Giai đoạ n gom c ụ m chính th ứ c (59)
    • 4.3. Ki ế n trúc h ệ th ố ng (60)
    • 4.4. K ế t lu ận (63)
  • CHƯƠNG 5: THỰ C NGHI Ệ M (65)
    • 5.1. T ậ p d ữ li ệ u m ẫ u (65)
    • 5.2. K ế t qu ả th ự c nghi ệ m (67)
      • 5.2.1 Ch ất lượ ng gom c ụ m (67)
      • 5.2.2 Th ờ i gian th ự c thi (73)
    • 5.3. K ế t lu ậ n (79)
  • CHƯƠNG 6: KẾ T LU Ậ N (80)
    • 6.2. Nh ững đóng góp của đề tài (81)
    • 6.3. Hướ ng phát tri ể n (81)

Nội dung

- Đề xuất mô hình gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL và thử nghiệm độ hiệu quả của giải thuật trên một số tập dữ liệu mẫu... Bài toán gom cụm dữ liệu chuỗi thời gian

GIỚ I THI ỆU ĐỀ TÀI

Đối tượ ng nghiên c ứ u

Dữ liệu chuỗi thời gian (Time Series) là một dãy các điểm dữ liệu được liệt kê theo thứ tự thời gian Thông thường, mỗi điểm dữ liệu được thu thập tại những thời điểm cách đều nhau

Dữ liệu chuỗi thời gian có thể được biểu diễn như sau [7]: Một chuỗi thời gian T là chuỗi trị số thực, mỗi trị số biểu diễn một giá trị đo tại những thời điểm cách đều nhau: T = t 1 , t 2 , , t n Hơn nữa, một chuỗi thời gian có thể được xem như là một đối tượng nhiều chiều trong không gian metric

Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kỹ thuật, tài chính, kinh tế, y khoa, sinh học, địa lý, khí tượng thủy văn, Ví dụ: giá đóng cửa hàng ngày của một cổ phiếu trên thị trường chứng khoán, dữ liệu về lượng mưa hàng tháng tại một khu vực, Hình 1.1 dưới đây trình bày đường biểu diễn một chuỗi thời gian

Gom cụm (clustering) là một kỹ thuật trong lĩnh vực khai phá dữ liệu, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn và quan trọng trong tập dữ liệu lớn để từđó cung cấp thông tin, tri thức cho việc ra quyết định

Có rất nhiều định nghĩa khác nhau về kỹ thuật gom cụm, nhưng về bản chất, đó là một quá trình tìm cách gom, nhóm các đối tượng, các loại dữ liệu không có nhãn

(unlabelled data) đã cho vào các cụm (cluster), sao cho các đối tượng trong cùng một cụm thì tương tự nhau (similar) và các đối tượng khác cụm thì không tương tự

(dissimilar) hay sai biệt nhau [2] Điều này được minh họa với tập dữ liệu hai chiều như hình 1.2.

Hình 1.1 Đường biểu diễn một chuỗi thời gian

Hình 1.2 Quá trình gom cụm

1.1.3 Sơ lược về nguyên lý MDL

Nguyên lý MDL (Minimum Description Length Principle) là một khái niệm quan trong trong Lý thuyết thông tin Đây là một phương pháp suy luận quy nạp xuất hiện khá gần đây, nguyên lý này đưa ra giải pháp tổng quát hóa để giải quyết bài toán lựa chọn mô hình (model selection) [3] MDL dựa vào ý tưởng: các quy tắc bất kỳ trong dữ liệu có thểđược dùng để nén dữ liệu, tức là mô tả dữ liệu dùng ít ký hiệu hơn sốlượng các ký hiệu được dùng để mô tả dữ liệu theo đúng với nguyên gốc của nó Nói cách khác, nếu chúng ta có thể nén dữ liệu càng nhiều, tức tìm thấy càng nhiều quy tắc ẩn trong nó, thì có thể “học” được càng nhiều từ chúng.

Bài toán gom c ụ m d ữ li ệ u chu ỗ i th ờ i gian

Việc gom cụm dữ liệu chuỗi thời gian cũng có cách thức và mục tiêu tương tự như bài toán gom cụm dữ liệu tổng quát bên trên, tức là: phân nhóm dữ liệu chuỗi thời gian dựa vào một độ đo tương tự hay độ đo khoảng cách nào đó Đầu tiên, lựa chọn một độ đo tương tự thích hợp, rồi dùng các kỹ thuật như k-Means, gom cụm phân cấp, v.v để tìm các cấu trúc cụm

Mặc dù đã và đang có rất nhiều nghiên cứu về gom cụm nói chung, tuy nhiên hầu hết các giải thuật khai phá dữ liệu và máy học cổ điển đều không làm việc tốt trên chuỗi thời gian do bởi cấu trúc độc đáo của chúng Đặc biệt: số chiều nhiều, độ tương quan giữa các đặc tính rất cao, và sốlượng nhiễu lớn, góp phần làm cho việc biểu diễn chuỗi thời gian là một thách thức khó khăn.

Bài toán gom cụm dữ liệu chuỗi thời gian đã và đang được sự quan tâm rất lớn trong cộng đồng nghiên cứu, rất nhiều bài báo nghiên cứu, các phương pháp thực hiện đã được đề xuất Các phương pháp này rất hữu ích trong việc tóm lược và trực quan hóa các tập dữ liệu lớn Ngoài ra, gom cụm thường được dùng như là một quá trình phụ

3 trong các các giải thuật khai phá dữ liệu khác như là tìm kiếm tương tự, phân lớp và khai phá luật kết hợp

Các giải thuật gom cụm truyền thống, được sử dụng phổ biến như k-Means, thường yêu cầu các tham sốđầu vào, kết quả lời giải không ổn định, phụ thuộc vào các khởi tạo ban đầu

Các nghiên cứu áp dụng nguyên lý MDL trong việc gom cụm các chuỗi con trong dữ liệu chuỗi thời gian mở ra khả năng phát triển một cách thức gom cụm các chuỗi thời gian riêng rẽ, đơn biến, phi tham số.

M ụ c tiêu

Mục tiêu nghiên cứu của đề tài trên cơ sở dữ liệu chuỗi thời gian là nghiên cứu giải pháp gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL với các nội dung sau:

• Tìm hiểu nguyên lý MDL áp dụng trong việc gom cụm dữ liệu chuỗi thời gian

• Đề xuất mô hình gom cụm dựa hoàn toàn trên nguyên lý MDL

• Trực quan hóa kết quả gom cụm dữ liệu chuỗi thời gian.

Tóm lượ c k ế t qu ả đạt đượ c

Chúng tôi đã đề xuất một mô hình gom cụm dựa trên nguyên lý MDL gồm hai giai đoạn: gom cụm sơ bộ và gom cụm chính thức Trong đó, ở giai đoạn gom cụm sơ bộ, chúng tôi bắt đầu bằng việc tạo cụm từ cặp motif bậc nhất của tập dữ liệu, gom nhóm các mẫu dữ liệu còn lại vào cụm khởi tạo và lặp lại cho đến hết dữ liệu Kết quả của quá trình là các cụm dữ liệu chuỗi thời gian có tính chất nghiêm ngặt theo nguyên lý MDL Ở giai đoạn gom cụm chính thức, chúng tôi sử dụng phương pháp gom cụm phân cấp gộp để trộn các cụm đã được tạo ra trước đó cho đến khi đạt đủ sốlượng cụm đã được thiết lập theo hai cách tiếp cận khác nhau Đặc biệt, tại giai đoạn này, chúng tôi đã đề xuất được phương pháp đo độtương tự của các cụm dựa trên nguyên lý MDL,

4 không dựa vào các độ đo khoảng cách truyền thống Kết quả của toàn bộ quá trình này, các cụm dữ liệu được tạo ra một cách ổn định và phi tham số, các tiêu chí đánh giá chất lượng gom cụm cho thấy các chỉ số đánh giá khá tốt so với với các phương pháp gom cụm truyền thống.

C ấ u trúc lu ận văn

Tổ chức của phần còn lại của luận văn gồm những phần sau:

Chương 2 là các cơ sở lý thuyết mà chúng tôi đã sử dụng trong nghiên cứu này

Phần này sẽ trình bày lý thuyết về độ đo khoảng cách, các tiêu chí đánh giá kết quả gom cụm, các vấn đềkhác có liên quan đến nguyên lý MDL

Chương 3 là tổng quan về các công trình có liên quan Phần này trình bày về các nghiên cứu về gom cụm chuỗi thời gian, các công trình nghiên cứu áp dụng nguyên lý MDL trong gom cụm dữ liệu chuỗi thời gian

Chương 4 trình bày về hệ thống gom cụm dữ liệu chuỗi thời gian của chúng tôi

Chương 5 trình bày các kết quả thực nghiệm trên các tập dữ liệu chuỗi thời gian, qua đó đánh giá kết quảđạt được so với giải thuật k-Means truyền thống

Chương 6 gồm một số kết luận, đóng góp của đềtài và hướng phát triển

CƠ SỞ LÝ THUY Ế T

Độ đo tương cậ n

Khi thực hiện các kỹ thuật phân lớp, gom cụm các mẫu dữ liệu trong lĩnh vực nhận diện mẫu, khai phá dữ liệu, các mẫu cần được so sánh với nhau, theo một tiêu chuẩn nào đó Nói cách khác, sự tương cận (proximity) của các mẫu với nhau cần được khám phá, sử dụng các độ đo tương cận (proximity measures) Một số độ đo tương tự (similarity) và sai biệt (dissimilarity) có thểđược sử dụng, được mô tảdưới đây [2].

Một độđo khoảng cách được dùng để tìm sai biệt giữa các đại diện mẫu Các mẫu càng tương tự nhau thì càng gần nhau hơn Hàm khoảng cách có thể có tính metric hoặc phi metric (non-metric) Một độđo có tính metric có các tính chất sau:

1 Tính phản xạ tích cực (positive reflexivity): d(x, x) = 0 2 Tính đối xứng (symmetry): d(x, y) = d(y, x)

3 Thỏa bất đẳng thức tam giác (triangular inequality): d(x, y) ≤ d(x, z) + d(z, y) Độ đo khoảng cách metric được sử dụng phổ biến có tên gọi là Minkowski metric, có dạng:

X, Y: các mẫu dữ liệu, có số chiều d m: thành tố Minkowski

Khi m = 1, độđo trên được gọi là khoảng cách Manhattan hay khoảng cách L 1 Độ đo được sử dụng phổ biến nhất là độ đo khoảng cách Euclid (Euclidean distance) hay khoảng cách L 2 , khi đó m có giá trị là 2 Công thức tính khoảng cách có dạng:

Ngoài ra, còn có độ đo khoảng cách Mahalanobis, cũng là độ đo khoảng cách được sử dụng rộng rãi trong kỹ thuật phân lớp có giám sát và trong gom cụm dữ liệu Độđo này thích hợp trong trường hợp, nếu chúng ta quan tâm không chỉ là giá trị trung tâm (mean) của tập dữ liệu, mà còn độ phân tán của các mẫu dữ liệu trong tập dữ liệu

X: vector cột mẫu dữ liệu à: vector trung tõm tập dữ liệu

∑ -1 : ma trận đảo của ma trận hiệp phương sai của tập dữ liệu Độ đo Mahalanobis cũng có thể được sử dụng trong bài toán phát hiện điểm ngoại vi (outliers) Khi đó, các mẫu ngoại vi là các mẫu có khoảng cách Mahalanobis tới trung tâm lớn hơn rất nhiều so với các mẫu còn lại

2.1.2 Độđo khoảng cách có trọng số

Khi dữ liệu có các thuộc tính nào đó được đánh giá quan trọng hơn các thuộc tính khác, có thể thêm trọng số vào các giá trị của chúng Khoảng cách được tính theo dạng:

Với w k là trọng sốứng với đặc tính hay thuộc tính thứ k của dữ liệu

2.1.3 Hàm tương tự phi metric

Hàm tương tự phi metric (non-metric similarity function) là hàm tính toán độ tương tự không tuân thủ theo tính chất bất đẳng thức tam giác hoặc tính đối xứng (đã giới thiệu bên trên) Các hàm này hữu ích đối với dữ liệu hình ảnh hoặc chuỗi ký tự

Ví dụ: độ đo khoảng cách k-median giữa hai vector

Phép toán k-median trả về giá trị thứ k của vector hiệu đã được sắp xếp thứ tự

2.1.4 Độđo biên tập Độ đo biên tập (Edit distance), còn được gọi là độ đo khoảng cách Levenshtein, đo khoảng cách giữa hai chuỗi ký tự Khoảng cách biên tập giữa hai chuỗi s 1 và s 2 được định nghĩa là số biến đổi điểm tối thiểu cần thiết để chuyển s 1 thành s 2 Một biến đổi điểm có thể là các hành động sau: o Thay đổi một mẫu tự o Chèn vào một mẫu tự o Xóa một mẫu tự Các quan hệđịnh nghĩa khoảng cách biên tập giữa hai chuỗi ký tự: d(“ “, “ “) = 0 d(s, “ “) = d(“ “, s) = ||s||

8 d(s 1 + ch 1 , s 2 + ch 2 ) = min(d(s 1 , s 2 ) + {nếu ch 1 = ch 2 thì 0 khác thì 1}, d(s 1 + ch 1 , s 2 ) + 1, d(s 1 , s 2 + ch 2 ) + 1)

Phương pháp thu giả m s ố chi ề u

Dữ liệu chuỗi thời gian thường cực kỳ lớn Khai phá (cụ thể hơn trong bài toán của chúng ta là gom cụm) trực tiếp trên những dữ liệu này sẽ rất phức tạp và không hữu hiệu Để khắc phục vấn đề này, ta áp dụng một số phương pháp biến đổi để thu giảm độ lớn của dữ liệu Những phương pháp biến đổi này thường được gọi là những kỹ thuật thu giảm số chiều (dimensionality reduction) Phương pháp tổng quát để thu giảm số chiều có thể tóm tắt như sau:

1 Thiết lập một độđo tương tự d

2 Thiết kế một kỹ thuật thu giảm số chiều để rút trích một đặc trưng có chiều dài k (tức là một đặc trưng gồm k giá trị), với k có thể được xử lý một cách hữu hiệu nhờ một cấu trúc chỉ mục không gian (đa chiều)

3 Cung cấp một độ đo tương tự d k trên một không gian đặc trưng k chiều và chứng tỏ rằng nó tuân thủđiều kiện sau đây: d k (X’, Y’) ≤ d(X, Y) (1) Điều kiện (1) có nghĩa là hàm khoảng cách tính trên không gian đặc trưng (hay không gian thu giảm) của hai chuỗi thời gian đã được biến đổi X’, Y’ từ hai chuỗi thời gian ban đầu X, Y phải chặn dưới khoảng cách thật giữa chúng trên không gian nguyên thủy

Thực nghiệm trong đề tài này, sử dụng phương pháp thu giảm PAA được giới thiệu dưới đây để so sánh chất lượng kết quả gom cụm của phương pháp được đề xuất và khảnăng cải thiện thời gian thực thi của các giải thuật

Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation – PAA) do E Keogh và các cộng sựđề nghị [16] Phương pháp này tuần tự xấp xỉ k giá trị liền

9 kề nhau thành cùng một giá trị bằng trung bình cộng của k điểm đó Quá trình cứ tiếp tục như vậy từ trái sang phải Kết quả cuối cùng là đường thẳng có dạng bậc thang

Giả sử một chuỗi thời gian X có chiều dài n: X = x 1 , , x n được thu giảm thành không gian N chiều đại diện bởi 𝑋𝑋� = 𝑥𝑥� 1 , ,𝑥𝑥̅ 𝑁𝑁 Phần tử thứ i của 𝑋𝑋� được tính theo công thức:

𝑗𝑗=𝑛𝑛 𝑁𝑁 (𝑖𝑖−1)+1 Độ phức tạp của phép biến đổi là O(n), tuy nhiên khó xây dựng lại chuỗi ban đầu và phương pháp này không quan tâm đến các điểm đặc biệt.

M ộ t s ố v ấn đề khác liên quan đế n gom c ụ m d ữ li ệ u

Mục tiêu của gom cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn Tuy nhiên, không thểxác định tiêu chí nào được xem là tốt nhất để đánh giá hiệu quả của việc gom cụm Có thể thấy, người thực hiện cần xác định tiêu chí theo mục đích của việc gom cụm để cho kết quả cuối cùng phù hợp với nhu cầu của họ Ví dụ: cần tìm các đại diện cho các nhóm đồng dạng trong bài toán thu giảm dữ liệu, hay tìm các đối tượng dữ liệu khác thường trong bài toán phát hiện đối tượng ngoại biên

Trong quá trình gom cụm, ta quan tâm đến việc nên tạo ra bao nhiêu cụm, mỗi cụm nên có bao nhiêu phần tử Sốlượng cụm và sốlượng phần tử trong cụm phụ thuộc vào quan điểm gom cụm và tiêu chí so sánh độtương tự của các đối tượng trong nhóm Ví dụ minh họa như hình 2.1, bên dưới

Hình 2.1 Ví dụ gom cụm nhìn từ nhiều tiêu chí khác nhau

2.3.2 Các ứng dụng của gom cụm dữ liệu

Gom cụm dữ liệu có thểứng dụng trong nhiều lĩnh vực như: o Thương mại: tìm kiếm nhóm các khách hàng quan trọng dựa vào các đặc trưng tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ sở dữ liệu; o Sinh học: phân loại động, thực vật qua các chức năng gen tương đồng của chúng; o Thư viện: phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả, cũng như đặt hàng với nhà cung cấp; o Bảo hiểm: nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi thường trung bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt; o Quy hoạch đô thị: nhận dạng các nhóm nhà theo kiểu, vị trí địa lí, giá trị, nhằm cung cấp thông tin cho quy hoạch đô thị; o Nghiên cứu địa chấn: gom cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho việc nhận dạng các vùng nguy hiểm; o WWW: tài liệu phân loại, gom cụm dữ liệu weblog để khám phá các cụm về các hình thức tiếp cận tương tự, trợ giúp cho việc khai phá thông tin từ dữ liệu

2.3.3 Một số yếu tốảnh hưởng đến khảnăng gom cụm dữ liệu cần quan tâm

Một số yêu cầu tiêu biểu đối với kỹ thuật gom cụm dữ liệu [4]: o Khảnăng thích nghi với quy mô dữ liệu (scalability) o Khảnăng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes) o Khảnăng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape) o Tối thiểu hóa yêu cầu về tri thức miền ứng dụng trong việc xác định các thông số nhập (domain knowledge for input parameters) o Khảnăng xử lý dữ liệu có nhiễu (noisy data) o Khảnăng gom cụm gia tăng và độc lập với thứ tự của dữ liệu nhập

(incremental clustering and insensitivity to the order of input records) o Khảnăng xử lý dữ liệu có số chiều cao (high dimensionality) o Khảnăng gom cụm dựa trên ràng buộc (constraint-based clustering) o Khả diễn giải và khả dụng (interpretability and usability)

M ộ t s ố phương pháp gom c ụ m d ữ li ệ u

Các kỹ thuật gom cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật gom cụm có thể phân loại theo các phương pháp tiếp cận chính như sau : gom cụm phân họach (Partitioning Methods); gom cụm phân cấp (Hierarchical Methods); gom cụm dựa trên mô hình

(Model-Based Clustering Methods), gom cụm dựa trên mật độ (Density-Based Methods); gom cụm dựa trên lưới (Grid-Based Methods); và gom cụm có dữ liệu ràng buộc (Binding data Clustering Methods)

Trong lĩnh vực nghiên cứu gom cụm dữ liệu chuỗi thời gian, chúng tôi quan tâm nhất đến ba kỹ thuật đầu tiên

2.4.1 Kỹ thuật gom cụm phân hoạch

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là đặc trưng được lựa chọn trước Phương pháp này tốt cho việc tìm các cụm hình cầu trong không gian

Euclid Ngoài ra, phương pháp nàycũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độcác điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tếthường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán gom cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược tham lam (Greedy) để tìm kiếm nghiệm Hình 2.2 minh họa cho ý tưởng về phân hoạch dữ liệu

Hình 2.2 Minh họa phân hoạch dữ liệu

13 Điển hình trong phương pháp tiếp cận theo gom cụm phân hoạch là các thuật toán như: k-means, k-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search)

Xem xét một mô tảđơn giản của thuật toán k-means:

Bước 1: Chọn k mẫu trong n mẫu dữ liệu làm các trung tâm cụm khởi đầu Gán các mẫu dữ liệu trong (n – k) mẫu dữ liệu còn lại vào một trong k cụm này; mẫu được gán vào cụm có trung tâm cụm gần nó nhất

Bước 2: Tính toán các trung tâm cụm dựa vào các mẫu hiện hành trong các cụm

Bước 3: Gán mỗi mẫu trong n mẫu vào các cụm có trung tâm cụm gần nó nhất

Bước 4: Nếu không có sựthay đổi nào khi gán các mẫu vào các cụm trong hai lần lặp liên tiếp thì dừng; không thì quay lại bước 2

Một tính chất quan trọng của giải thuật k-means là nó tối thiểu hóa tổng sai lệch bình phương về khoảng cách của các mẫu trong một cụm so với trung tâm cụm Độ phức tạp thuật toán là O(ndkl), trong đó l là số các lần lặp, d là số chiều của dữ liệu

Không gian bộ nhớ yêu cầu là O(kd) Các tính chất này làm cho k-means được cho là giải thuật dễ thực hiện, độ phức tạp thấp và được lựa chọn sử dụng trong rất nhiều ứng dụng

2.4.2 Kỹ thuật gom cụm phân cấp

Các giải thuật phân cấp gom nhóm các đối tượng dữ liệu lại với nhau theo các mức khác nhau thành một cấu trúc phân cấp hay cấu trúc cây của các cụm [4]

Thuật toán được sử dụng thuộc loại tách (divisive) hoặc gộp (agglomerative), với hai giải thuật đại diện nổi tiếng tương ứng là: DIANA (DIvisive ANAlysis) và AGNES (AGglomerative NESting) Hai chiến lược này được minh họa như hình 2.3 và được mô tả chi tiết dưới đây

Hình 2.3 Giải thuật phân cấp gộp và phân cấp tách trên các đối tượng dữ liệu

Các giải thuật tách bắt đầu với một cụm đơn, bao gồm tất cả các mẫu Tại mỗi bước kế tiếp, một cụm được tách ra Quá trình này cứ tiếp tục cho đến khi chúng ta kết thúc với các cụm chỉ có một mẫu hay cụm đơn lẻ (singleton) Các giải thuật tách thực hiện theo chiến lược từ trên xuống (top-down) để tạo nên các phân hoạch của dữ liệu

Các giải thuật gộp dùng chiến lược từ dưới lên (bottum-up) Chúng bắt đầu với n cụm singleton với tập dữ liệu nhập gồm n mẫu, tức là mỗi mẫu đều nằm ở các cụm khác nhau Tại các bước kế tiếp, cặp tương tự nhất của các cụm được trộn vào nhau, làm giảm sốlượng phân hoạch đi một đơn vị

Một tính chất quan trọng của giải thuật phân cấp gộp là: một khi hai mẫu được đưa vào cùng một cụm tại một bước nào đó, chúng sẽ luôn cùng nằm trong một cụm tại tất cảcác bước sau đó.

Tương tự, trong các giải thuật phân cấp tách: một khi hai mẫu được tách ra vào hai cụm khác nhau tại một bước nào đó, thì chúng sẽ luôn khác cụm tại tất cảcác bước sau đó

Vấn đề khó khănđối với các giải thuật phân cấp là việc lựa chọn điểm trộn/ tách

Quyết định lựa chọn này rất quan trọng, vì một khi một nhóm các đối tượng được trộn/ tách thì ở bước tiếp theo quá trình xử lý sẽ làm việc trên các cụm mới được tạo ra và không thể quay lui Vì vậy, việc lựa chọn điểm trộn/ tách không tốt có thể dẫn đến kết quả gom cụm có chất lượng thấp

Tiêu chí đánh giá kế t qu ả gom c ụ m

Đánh giá kết quả gom cụm là một nhiệm vụ quan trọng bởi vì gom cụm là một quá trình học không giám sát trong điều kiện thiếu vắng thông tin về các phân hoạch thực sự của dữ liệu [11] Phương pháp đánh giá có thể phân loại: đánh giá ngoại, đánh giá nội

Phương pháp đánh giá ngoại: là phương pháp được sử dụng phổ biến nhất, trong đó, chúng ta có thể sử dụng các tập dữ liệu đã được phân lớp và so sánh mức độ tương thích của các kết quả gom cụm với các nhãn lớp đã có của dữ liệu Một số tiêu chí đánh giá chất lượng có thể sử dụng: Jaccard, Rand, FM, CSM, NMI, sẽđược định nghĩa dưới đây

Xét G = G 1 , G 2 , , G M là các cụm từ một tập dữ liệu đã được phân lớp, và A =

A 1 , A 2 , , A M là các kết quả gom cụm từ một giải thuật gom cụm nào đó mà ta cần đánh giá Gọi D là tập dữ liệu của các mẫu dữ liệu cần xử lý Đối với tất cả các cặp mẫu (D i ,D j ) trong D, chúng ta thực hiện đếm các giá trị mô tảnhư sau: o a là sốlượng các cặp, trong đó mỗi mẫu đều thuộc về một cụm trong G, và cũng đều thuộc về một cụm trong A

19 o b là số lượng các cặp, trong đó mỗi mẫu đều thuộc về một cụm trong G, nhưng không thuộc về cùng một cụm trong A o c là số lượng các cặp, trong đó mỗi mẫu đều thuộc về một cụm trong A, nhưng không thuộc về cùng một cụm trong G o d là sốlượng các cặp, trong đó các mẫu không thuộc về cùng một cụm trong

A, cũng không thuộc về một cụm trong G

Tiêu chí đánh giá kết quả gom cụm, dùng các thông số trên, được định nghĩa theo sau:

1 Jaccard score (Jaccard): do Jaccard (1912) [17] giới thiệu nhằm đo độ tương tự giữa hai tập hợp hữu hạn, được định nghĩa là tỷ số giữa kích thước của giao với kích thước của hợp của hai tập hợp

2 Rand statistic (Rand): được Rand đề xuất vào năm 1971 [18] dựa trên hai chỉ số a và d thể hiện sự giống nhau và hai chỉ số b và c thể hiện sự khác nhau

𝑚𝑚+𝑏𝑏+𝐽𝐽+𝑑𝑑 3 Folkes and Mallow index (FM): do Fowlkes và Mallow (1983) [19] đề xuất nhằm so sánh độ tương tự giữa hai tập hợp mà không liên quan với nhau, khắc phục nhược điểm chỉ dùng cho các tập hợp có liên quan của chỉ số

Rand Ngoài ra, chỉ số FM còn cho ra kết quả tốt khi có sự ảnh hưởng của nhiễu

N là sốlượng mẫu trong tập dữ liệu,

|A i | là sốlượng các mẫu trong cụm A i ,

|G i | là sốlượng các mẫu trong cụm G i , Và 𝑁𝑁𝑖𝑖,𝑗𝑗 = |𝐺𝐺𝑖𝑖∩ 𝐴𝐴𝑗𝑗|

Tất cảcác tiêu chí đánh giá có giá trị trong khoảng từ 0 đến 1, trong đó, giá trị 1 tương ứng với trường hợp khi tập G và A giống nhau Nói chung, giá trị của tiêu chí đánh giá càng lớn thì chất lượng gom cụm càng tốt

Phương pháp đánh giá nội: áp dụng trong trường hợp tập dữ liệu gom cụm dùng để đánh giá không được phân lớp, khi đó cần xác định giá trị hàm mục tiêu theo công thức sau:

Trong đó: k: sốlượng cụm c m : trung tâm cụm thứ m x i : mẫu dữ liệu thứ i trong tập dữ liệu Chất lượng gom cụm tốt khi hàm F có giá trị nhỏ.

M ộ t s ố khái ni ệ m quan tr ọ ng trong Lý thuy ế t Thông tin

Trong mô hình lý thuyết thông tin theo quan điểm Shanon, khái niệm Entropy được hiểu là một đại lượng toán học dùng để đo lượng tin không chắc chắn (hay lượng ngẫu nhiên) của một sự kiện, một phân phối ngẫu nhiên cho trước hay còn được đề cập đến như là độ đo không chắc chắn (uncertainty measure) [12]

Entropy của một sự kiện: giả sử có một sự kiện A có xác suất xuất hiện là p Khi đó, ta nói A có một lượng không chắc chắn được đo bởi hàm số h(p) với p [0,1] Hàm h(p) được gọi là Entropy nếu nó thoả 2 tiên đề toán học sau:

Tiên đề 1: h(p) là hàm liên tục không âm và đơn điệu giảm

Tiên đề 2: nếu A và B là hai sự kiện độc lập nhau, có xác suất xuất hiện lần lượt là p A và p B Khi đó, p(A,B) = p A p B nhưng h(A,B) = h(p A ) + h(p B )

Entropy của một phân phối: xét biến ngẫu nhiên X có phân phối:

Nếu gọi A i là sự kiện X = x i , (i=1,2,3, ) thì Entropy của A i là: h(A i ) = h(p i )

Gọi Y = h(X) là hàm ngẫu nhiên của X và nhận các giá trị là dãy các Entropy của các sự kiện X = x i , tức là Y = h(X) = {h(p 1 ), h(p 2 ), … , h(p n )} V ậy, Entropy của X chính là kỳ vọng toán học của Y=h(X) có dạng:

ℎ(𝑝𝑝 𝑖𝑖 ) Định lý dạng giải tích của Entropy:

Trong đó: C = const > 0; cơ số logarithm bất kỳ với bổđề: h(p) = - C log(p) Trường hợp C = 1 và cơ số logarithm = 2 thì đơn vị tính là bit

TỔ NG QUAN CÁC CÔNG TRÌNH LIÊN QUAN

Gom c ụ m d ữ li ệ u chu ỗ i th ờ i gian

Các công trình nghiên cứu giải thuật gom cụm dữ liệu chuỗi thời gian được tổng kết và trình bày bởi T W Liao, năm 2005 [1] Theo đó, mục đích của gom cụm là để xác định cấu trúc của một tập dữ liệu không được gán nhãn, thực hiện bằng cách tổ chức dữ liệu thành các nhóm đồng nhất một cách khách quan, trong đó, độ tượng tự của các đối tượng trong cùng nhóm được tối thiểu hóa và độ sai biệt của các đối tượng khác nhóm được tối đa hóa.

Các phương pháp gom cụm truyền thống, hầu hết làm việc với loại dữ liệu tĩnh

(static data), là loại dữ liệu có các giá trị thuộc tính không thay đổi theo thời gian hoặc thay đổi không đáng kể Đối với các kỹ thuật gom cụm dữ liệu, có thểchia thành năm loại chính: gom cụm phân hoạch (partitioning methods), gom cụm phân cấp

(hierarchical methods), gom cụm dựa vào mật độ (density-based method), gom cụm dựa vào lưới (grid-based methods) và các phương pháp gom cụm dựa vào mô hình

Không giống như các loại dữ liệu tĩnh, dữ liệu chuỗi thời gian có các đặc trưng mang các giá trị thay đổi theo thời gian Các giải thuật gom cụm thực hiện trên dữ liệu chuỗi thời gian, vềcơ bản cũng đòi hỏi các thành phần chính: giải thuật thực hiện gom cụm dữ liệu; độ đo tương tự trên dữ liệu cần gom cụm; tiêu chí đánh giá hiệu quả quá trình gom cụm

Rất nhiều giải thuật gom cụm chuỗi thời gian đã được phát triển để gom cụm các loại dữ liệu chuỗi thời gian khác nhau Tinh thần của các giải thuật này có thểtóm lược như sau:

- Điều chỉnh, cải tiến các giải thuật hiện có để chúng thích ứng với loại dữ liệu chuỗi thời gian, hoặc biến đổi, chuẩn hóa dữ liệu chuỗi thời gian để có thể thực hiện các giải thuật gom cụm một cách phù hợp

- Cải tiến, tìm ra các độ đo tương tự thích hợp với dữ liệu chuỗi thời gian

Với nhận xét trên, cùng với cơ sở về sự lựa chọn giải thuật gom cụm phụ thuộc vào hai vấn đề: loại dữ liệu cần khai phá; mục đích và ứng dụng cụ thể, tác giả Liao diễn tả ba cách tiếp cận gom cụm dữ liệu chuỗi thời gian theo hình 3.1

Hình 3.1 Ba cách tiếp cận gom cụm chuỗi thời gian

(a) là các nghiên cứu làm việc trực tiếp với các dữ liệu chuỗi thời gian thô, sự sửa đổi, cải tiến chính nằm ở việc thay thếđộ đo tương tự dùng cho dữ liệu tĩnh bằng một độđo thích hợp cho dữ liệu chuỗi thời gian Đối với hai cách tiếp cận (b), (c), đầu tiên, chuyển dữ liệu thô thành một vector đặc trưng của số chiều thấp hơn hay một số các tham số mô hình, rồi áp dụng một giải thuật gom cụm truyền thống nào đó lên các vector đặc trưng đã được rút trích hay các tham số mô hình

Trong năm loại kỹ thuật gom cụm thường dùng cho dữ liệu tĩnh đã được nhắc đến bên trên, ba phương pháp: gom cụm phân hoạch, gom cụm phân cấp và các phương pháp gom cụm dựa vào mô hình, được dùng trực tiếp hay cải tiến để thực hiện gom cụm chuỗi thời gian

Tóm lại: Mặc dù đã có rất nhiều nghiên cứu gom cụm chuỗi thời gian đã được công bố, tựu chung lại, chìa khóa vẫn là cần hiểu được các đặc tính độc nhất nào đó của dữ liệu đang nghiên cứu, thiết kế, áp dụng độ đo tương tự thích hợp trên các đối tượng dữ liệu đó Ngoài ra, cũng còn có rất nhiều phương hướng để có thể tìm hiểu, nghiên cứu thêm, chẳng hạn như:

- Áp dụng các giải thuật xấp xỉ, các giải thuật tìm kiếm cục bộ: mô phỏng luyện kim, tìm kiếm tabu, giải thuật di truyền, trong gom cụm chuỗi thời gian

- Giải pháp kết hợp nhiều giải thuật gom cụm đểđạt được một kết quả tốt hơn.

Công trình gom c ụ m chu ỗ i th ờ i gian áp d ụ ng nguyên lý MDL

Gần đây, xuất hiện các nghiên cứu áp dụng nguyên lý MDL để hỗ trợ việc phân lớp, gom cụm dữ liệu chuỗi thời gian và các độđo có liên quan Ví dụ: công trình của nhóm tác giả N Begum, năm 2013 [10], trong đó, điều kiện dừng cho phân lớp bán giám sát dữ liệu chuỗi thời gian được xác định dựa trên nguyên lý MDL Nghiên cứu gần với đề tài luận văn này nhất, có thể kểđến công trình nghiên cứu của nhóm tác gi ả Rakthanmanon, năm 2012 [5] Công trình giải quyết bài toán gom cụm các chuỗi con trong một chuỗi thời gian với hai đóng góp nền tảng, rất đáng để quan tâm: thứ nhất,

26 cung cấp các định nghĩa có liên quan đến việc gom cụm dữ liệu chuỗi thời gian; thứ hai, chứng tỏ khảnăng ứng dụng nguyên lý MDL, có thể tạo ra một phương pháp tiếp cận hiệu quả, hữu hiệu và quan trọng là phi tham số để thực hiện gom cụm chuỗi thời gian

Cách thức tiến hành giải thuật của công trình có thể tóm tắt:

- Mục tiêu: gom cụm các chuỗi con trong một chuỗi thời gian lớn

- Giải thuật trải qua các bước: đầu tiên, tìm kiếm cặp chuỗi con tốt nhất hay một motif bậc nhất của các chuỗi con để có thể khởi tạo một cụm đầu tiên Sau đó, xem xét các hành động: tạo cụm từ motif tiếp theo, hoặc tìm kiếm chuỗi con gần nhất để đưa vào các cụm đang có, hoặc trộn các cụm đang có, theo tiêu chí: hành động mang lại kết quả nén tốt nhất là hành động sẽđược thực hiện Giải thuật kết thúc theo hai cách, hành động tốt nhất trong ba hành động trên không giúp giảm được số bit để biểu diễn đối tượng có liên quan, hoặc khi đã quét hết dữ liệu của chuỗi thời gian đang được khai phá

Chi tiết hơn, trong nghiên cứu này, nhóm tác giả đưa ra các định nghĩa và từ đó đề xuất giải thuật của họ Một số khái niệm và kiến thức cần quan tâm theo sau: Định nghĩa 1: Một chuỗi thời gian T là một danh sách có thứ tự các giá trị số T = t 1 , t 2 , , t m Mỗi giá trị t i có thể là một sốxác định (ví dụ, nếu là giá trị hai byte, chúng có thể là các số nguyên có giá trị từ -32.768 đến 32.767) và m là chiều dài của chuỗi T

Do kỹ thuật MDL đòi hỏi dữ liệu dạng rời rạc, nhưng hầu hết các tập dữ liệu chuỗi thời gian chứa đựng các giá trị thực (mỗi giá trị được biểu diễn bốn hay tám byte), cần phải chuyển các số thực này thành một dạng lượng số được rút gọn mà không làm giảm thông tin có ý nghĩa của bản thân chuỗi thời gian Để thực hiện việc này, nhóm tác giả thực hiện thử nghiệm, dùng giải thuật phân lớp 1- Nearest Neighbor trên mười tám tập dữ liệu chuỗi thời gian phổ biến, và giảm lượng số các giá trị từ bốn byte xuống còn chỉ một bit Kết quả được thể hiện trong hình 3.2 cho thấy, với lượng

27 số là 6-bit tương ứng với dãy 64 giá trị, kết quả phân lớp vẫn cho độ chính xác tương đương với việc sử dụng các giá trị gốc của các chuỗi dữ liệu

Hình 3.2 Độ chính xác phân lớp 18 tập dữ liệu chuỗi thời gian

(giảm lượng số các giá trị từ dữ liệu gốc 4.294.967.296 xuống chỉ còn 64, độ chính xác không giảm) Định nghĩa 2: Một chuỗi con T i,k của một chuỗi thời gian T là một chuỗi thời gian ngắn có chiều dài k, bắt đầu từ vị trí thứ i Biểu diễn: T i,k = t i , t i+1 , , t i+k-1 , với 1 ≤ i ≤ m – k + 1

Với khả năng thu giảm lượng số các giá trị của chuỗi thời gian bên trên, các tác giảđưa ra định nghĩa về một hàm chuẩn hóa rời rạc theo sau: Định nghĩa 3: Một hàm chuẩn hóa rời rạc DNorm là một hàm chuẩn hóa các giá trị thực của chuỗi thời gian T thành giá trị rời rạc có chiều dài b-bit và dãy giá trị trong khoảng [1, 2 b ], theo công thức:

𝑚𝑚𝑚𝑚𝑥𝑥 − 𝑚𝑚𝑑𝑑𝑛𝑛� × (2 𝑏𝑏 −1)�+ 1 Trong đó min và max là các giá trị nhỏ nhất và lớn nhất trong chuỗi T

28 Định nghĩa 4: Khoảng cách Euclid giữa hai chuỗi con có chiều dài bằng nhau T i,k và T j,k là:

Nhận xét: khoảng cách Euclid, trong trường hợp tổng quát, không đủ để hỗ trợ việc tính toán độ tương tự của các chuỗi thời gian trong bài toán gom cụm này Tuy nhiên, đây vẫn là độđo khoảng cách được đánh giá là thực hiện nhanh và thiết thực

Tiếp theo, đối với chuỗi thời gian T, chúng ta quan tâm đến việc cần bao nhiêu bit để có thểlưu trữ hay biểu diễn chúng Độđo sự bất định entropy được lựa chọn đểước lượng giá trị này Sự lựa chọn này được lý giải là do so với các loại mã hóa khác như mã hóa Huffman, mã hóa Shanon-Fano, , đây là cận dưới (lower bound) chiều dài mã hóa trung bình từ các phương pháp mã hóa khác Entropy có thể được dùng như là chiều dài mô tả (description length - DL) của T Định nghĩa 5: Entropy của chuỗi thời gian T được xác định theo công thức:

𝑡𝑡𝑡𝑡ị 𝑠𝑠ố 𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑛𝑛𝑎𝑎 𝑇𝑇 Định nghĩa 6: Chiều dài mô tả của một chuỗi thời gian T là tổng số bit cần thiết để biểu diễn nó:

𝐷𝐷𝐷𝐷(𝑇𝑇) =𝑚𝑚 ×𝐸𝐸(𝑇𝑇) Trong đó, m là chiều dài của chuỗi T Định nghĩa 7: Một giả thuyết H, chính là một chuỗi thời gian được dùng để mã hóa chuỗi thời gian khác có cùng chiều dài

Khi chuỗi thời gian A được mã hóa bằng giả thuyết H, ta ký hiệu DL(A, H) là chiều dài mô tả của chuỗi A được mã hóa bằng H:

𝐷𝐷𝐷𝐷(𝐴𝐴,𝐻𝐻) = 𝐷𝐷𝐷𝐷(𝐻𝐻) +𝐷𝐷𝐷𝐷(𝐴𝐴|𝐻𝐻) Trong đó: DL(A|H) được định nghĩa bên dưới Điều kiện cần (không phải điều kiện đủ) để đưa hai chuỗi thời gian H và A vào cùng một cụm là:

𝐷𝐷𝐷𝐷(𝐴𝐴) > 𝐷𝐷𝐷𝐷(𝐴𝐴|𝐻𝐻) Định nghĩa 8: Chiều dài mô tả có điều kiện (conditional description length) của một chuỗi thời gian A khi một giả thuyết H được sử dụng là:

DL của một chuỗi thời gian phụ thuộc vào cấu trúc dữ liệu của nó Ví dụ, một đường hằng có DL rất thấp, trong khi một vector bất kỳ sẽ có DL rất cao Nếu A và H rất tương tựnhau, độ sai biệt (A – H) sẽ gần như là một đường hằng và do đó sẽ có giá trị DL rất nhỏ Như vậy, về bản chất, hàm tính DL cho chúng ta một phương pháp kiểm tra phi tham số để biết hai chuỗi thời gian có nên được gom vào cùng một cụm hay không Định nghĩa 9: Chiều dài mô tả của một cụm C (description length of a cluster –

DLC) là số bit cần thiết để biểu diễn tất cả các chuỗi thời gian trong C Trong trường hợp đặc biệt này, H là trung tâm của cụm Do đó chiều dài mô tả của cụm C được định nghĩa là:

Giải thuật gom cụm trong nghiên cứu thực chất là một giải thuật tìm kiếm

Rakthanmanon và các đồng sựđã đề ra ba phép toán để kiểm tra xem có bao nhiêu bit sẽ có thểđược giảm bớt đối với một lựa chọn cụ thểnào đó Do đó, họ định nghĩa khái niệm bitsave:

30 Định nghĩa 10: bitsave là tổng số bit có thể giảm được khi áp dụng một phép toán để tạo một cụm mới, thêm một chuỗi vào một cụm đã có, hay gom nhóm hai cụm đã có thành một Nó chính là độ sai biệt của sốlượng bit trước và sau khi áp dụng một hành động nào đó.

𝑏𝑏𝑑𝑑𝑑𝑑𝑑𝑑𝑚𝑚𝑏𝑏𝑏𝑏 =𝐷𝐷𝐷𝐷(𝐵𝐵𝑏𝑏𝐵𝐵𝑙𝑙𝐽𝐽𝑏𝑏)− 𝐷𝐷𝐷𝐷(𝐴𝐴𝐵𝐵𝑑𝑑𝑏𝑏𝐽𝐽) Như vậy, bitsave cho mỗi phép toán sẽ là:

1) Phép toán tạo (create) một cụm C’ từ hai chuỗi A và B

𝑏𝑏𝑑𝑑𝑑𝑑𝑑𝑑𝑚𝑚𝑏𝑏𝑏𝑏 =𝐷𝐷𝐷𝐷(𝐴𝐴) +𝐷𝐷𝐷𝐷(𝐵𝐵)− 𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶′) 2) Phép toán gán (add) một chuỗi A vào cụm C và tạo thành cụm mới C’

𝑏𝑏𝑑𝑑𝑑𝑑𝑑𝑑𝑚𝑚𝑏𝑏𝑏𝑏 =𝐷𝐷𝐷𝐷(𝐴𝐴) +𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶)− 𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶′) 3) Phép toán hợp (merge) hai cụm C 1 và C 2 thành một cụm mới C’

𝑏𝑏𝑑𝑑𝑑𝑑𝑑𝑑𝑚𝑚𝑏𝑏𝑏𝑏 =𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶 1 ) +𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶 2 )− 𝐷𝐷𝐷𝐷𝐶𝐶(𝐶𝐶′) Định nghĩa 11: Một lân cận gần nhất của một chuỗi A là một chuỗi B sao cho:

Công trình tìm ki ế m motif trên d ữ li ệ u chu ỗ i th ờ i gian

Trong công trình bên trên, sự đóng góp của công trình nghiên cứu của nhóm tác giả A Mueen, năm 2009 [8], trong việc khởi tạo các cụm ban đầu rất đáng quan tâm

Trong đây, nhóm tác giả đưa ra giải thuật có tên Mueen-Keogh (MK) với ý tưởng chính là: tìm kiếm motif dựa trên một sự sắp xếp tuyến tính của dữ liệu cần khai phá Đầu tiên, trong tập dữ liệu các đối tượng, chọn một đối tượng bất kỳ làm điểm tham chiếu Tiếp theo, sắp xếp tất cả các đối tượng khác theo khoảng cách của chúng đến điểm tham chiếu Khởi tạo một biến gọi là best-so-far, có giá trị là khoảng cách nhỏ nhất của hai đối tượng trong tập dữ liệu Lưu ý, nếu hai đối tượng gần nhau trong không gian gốc của chúng thì chúng sẽ phải gần nhau trong cách sắp xếp tuyến tính này (điều ngược lại không chắc đúng) Bước kế tiếp, các tác giả quét toàn bộ sắp xếp tuyến tính với best-so-far mang giá trị của cặp đầu tiên, tính toán giá trị khoảng cách của từng cặp đối tượng và cập nhật khoảng cách có giá trị nhỏhơn best-so-far Kết quả là cặp đối tượng tạo nên giá trị best-so-far tốt nhất sau cùng chính là motif cần tìm Có thể nắm bắt ý tưởng này qua ví dụ khá trực quan đã được đưa ra trong công trình nghiên cứu theo hình 3.3 dưới đây.

Trong hình 3.3, giả sử tập dữ liệu gồm 8 đối tượng, đối tượng O 1 được chọn làm điểm tham chiếu Một sự sắp xếp tuyến tính các đối tượng còn lại theo khoảng cách của chúng đến O 1 Lân cận gần nhất của O 1 là O 8 , như vậy ban đầu best-so-far có giá trị là 23.0 Hiệu các giá trị các khoảng cách của các đối tượng khác đến O 1 , tạo thành cận dưới khoảng cách của hai đối tượng, không phải là khoảng cách thực sự của chúng Ở bước tiếp theo, giải thuật quét qua dãy sắp xếp tuyến tính, tính toán khoảng cách thực sự giữa các cặp kề nhau Trong quá trình tính toán, nếu gặp một cặp có khoảng cách nhỏ hơn giá trị best-so-far hiện hành thì sẽ cập nhật giá trị này, như được biểu diễn trong hình 3.4 Với việc tìm kiếm theo ý tưởng bên trên, kết quả đạt được là một motif với hai đối tượng dữ liệu là O 4 và O 5

Hình 3.3 Ví dụ về sắp xếp tuyến tính theo khoảng cách

(Khoảng cách của các đối tượng với một đối tượng tham chiếu và cận dưới khoảng cách giữa hai đối tượng)

Hình 3.4 Kết quả tìm kiếm motif trên dãy thứ tự tuyến tính

Chi tiết nội dung trong nghiên cứu, Mueen và các đồng sự dựa theo mô tả chính thức về motif chuỗi thời gian được đề xướng năm 2002: motif chuỗi thời gian là các cặp chuỗi thời gian riêng rẽ, hay các chuỗi con trong một chuỗi thời gian dài hơn, và chúng rất tương tự nhau

Khái niệm motif được định nghĩanhư sau: Motif chuỗi thời gian của một tập hay một cơ sở dữ liệu chuỗi thời gian D là một cặp chuỗi thời gian không theo thứ tự {T i ,T j } trong D và là cặp tương tự nhất trong số các cặp có thể có Tức là:

Với ∀a, b, i, j thì cặp {T i , T j } là motif nếu và chỉ nếu Dist(T i , T j ) ≤ Dist(T a , T b ), i ≠ j và a ≠ b

Việc tìm kiếm motif một cách chính xác chỉ có thể là giải thuật vét cạn, với độ phức tạp bậc hai số lượng các đối tượng trong tập khảo sát Do đó, đã có hàng tá các nghiên cứu về các giải thuật xấp xỉ để khám phá các motif Và với ý tưởng đã trình bày bên trên, Mueen và các đồng sự đã cải tiến giải thuật vét cạn và tạo ra được giải thuật MK, theo thực nghiệm, là giải thuật chính xác, dễ thực hiệnđể tìm ra các motif chuỗi thời gian Kết quả, theo đánh giá của nhóm tác giả, giải thuật này đã nhanh hơn 10 3 lần tìm kiếm vét cạn trên các tập dữ liệu lớn

Tóm lại: Giải thuật tập trung vào đối tượng motif, cặp chuỗi thời gian riêng rẽ, rất phù hợp với mục đích nghiên cứu của đề tài Tuy nhiên, độđo tương tự được sử dụng là đo độ Euclid, vốn đã được chỉ ra là không hoàn toàn hỗ trợ việc tính toán độ tương tự của các chuỗi thời gian trong trường hợp tổng quát Do đó, mở ra khảnăng áp dụng một độđo tương tự phù hợp hơn khi tham khảo ý tưởng của công trình nghiên cứu này.

Công trình nghiên c ứ u c ả i ti ế n gi ả i thu ậ t gom c ụ m tinh ch ỉ nh l ặ p

Công trình tham khảo tiếp theo là của nhóm tác giả J.Lin, năm 2004 [9], đặt nền tảng dựa trên giải thuật nổi tiếng k-Means, các tác giả cải tiến thành giải thuật được đặt tên là I-kMeans, tức có thể tương tác Về mặt tổng quát, Lin và các đồng sự sử dụng phương pháp đa phân giải, thực hiện phân giải chuỗi thời gian dựa vào các phép

35 chuyển đổi Haar wavelet hoặc biến đổi Fourier rời rạc, sau đó kết hợp với một giải thuật gom cụm tinh chỉnh lặp như k-Means hoặc EM So sánh kết quả của phương pháp này với các giải thuật truyền thống, kết quảđược đánh giá tốt hơn, đồng thời biến giải thuật thành dạng giải thuật có thời gian tùy định (anytime algorithm), cho phép tương tác với người dùng ởcác giai đoạn của quá trình xử lý

Xem xét giải thuật I-kMeans dùng phân giải Haar Wavelet kết hợp giải thuật k- Means Sự lựa chọn Haar Wavelet là do sự đơn giản và được sử dụng rộng rãi trong cộng đồng nghiên cứu chuỗi thời gian, cũng tương tự, việc lựa chọn k-Means vì thời gian chạy giải thuật nhanh, mặc dù một số hạn chế của giải thuật này Trước tiên là công việc thực hiện tính toán, phân giải Haar Wavelet tất cả các chuỗi thời gian, độ phức tạp là tuyến tính với số chiều của mỗi đối tượng Tiếp theo, Lin và các đồng sự thực hiện giải thuật gom cụm k-Means, bắt đầu ở mức thứ hai (mỗi đối tượng tại mức thứ i sẽ có 2 (i-1) chiều) và dần dần đến các mức tinh, mịn hơn Bởi vì phân giải Haar là quá trình hoàn toàn thuận nghịch, nên có thể tái cấu trúc dữ liệu xấp xỉ từ các hệ số tại các mức và thực hiện gom cụm trên các dữ liệu này Hình 3.5 theo sau, minh họa cho ý tưởng của nhóm tác giả

Hình 3.5 K-Means được thực hiện trên mỗi mức phân giải của phép biến đổi Haar wavelet

Mã giả của giải thuật được trình bày như sau:

1 Xác định giá trị k 2 Khởi tạo k trung tâm cụm ban đầu (chọn ngẫu nhiên, nếu cần) 3 Chạy giải thuật k-Means trên dữ liệu đại diện cho mức thứ i 4 Dùng các trung tâm cụm tìm được tại mức thứ i làm các trung tâm cụm khởi đầu cho mức i+1 Điều này có được nhờ chiếu k trung tâm cụm xuất kết quả từ giải thuật k-Means từ không gian 2 i sang không gian 2 i+1

5 Nếu không có đối tượng nào thay đổi vai trò thành viên trong lần lặp cuối thì dừng Nếu không, quay lại bước 3

Giải thuật cho phép người dùng giám sát chất lượng kết quả gom cụm khi chương trình đang thực thi Người dùng có thể dừng chương trình tại bất kỳ mức nào, hay đợi cho đến khi chương trình dừng lúc mà các kết quả gom cụm ổn định

Tóm lại: Ý tưởng của phương pháp tiếp cận bên trên khá hữu ích trong quá trình tìm hiểu để có thể áp dụng cho bài toán nghiên cứu trong đề tài này Việc cho phép người dùng có thểđánh giá quá trình thực hiện gom cụm ở một sốbước trung gian nào đó là khá hữu ích, cho phép người dùng có thể tùy chọn kết quảđáp ứng nhu cầu của mình.

Công trình nghiên c ứ u v ề độ đo tương tự CRD

Song song với việc tìm hiểu, nghiên cứu các phương pháp tiếp cận có liên quan, các công trình nghiên cứu về việc cải tiến, phát triển các độđo tương tự dùng cho lĩnh vực khai phá dữ liệu chuỗi thời gian cũng được đặc biệt quan tâm Trong số này, công trình nghiên cứu của các tác giả V T Vinh, D T Anh, năm 2015 [6], đề tựa “Độđo khoảng cách tỷ lệ nén cho chuỗi thời gian” (Compression Rate Distance Measure for Time Series), viết tắt là độ đo CRD, đã đề xuất một độ đo khoảng cách rất phù hợp để có thể áp dụng vào các bài toán gom cụm, phân lớp trên dữ liệu chuỗi thời gian Đặc biệt, CRD dựa trên nguyên lý MDL mà đề tài nghiên cứu này đang rất quan tâm

37 Ý tưởng chính của nghiên cứu này là: độ đo khoảng cách truyền thống như Euclid, DTW, nếu được dùng tính toán khoảng cách các chuỗi thời gian tương tự sẽ gặp một số trường hợp không chính xác, không đánh giá đúng độtương tự của chúng

Và đồng thời, khi áp dụng thêm nguyên lý MDL trong quá trình tính toán khoảng cách của các chuỗi thời gian này, các độ đo khoảng cách truyền thống sẽ được cải thiện đáng kể về tính chính xác Dựa vào nguyên lý MDL, cụ thể là tính toán các Entropy của các chuỗi thời gian tham gia vào việc tính toán khoảng cách, tác giảVinh và đồng sự đưa vào phép tính khoảng cách một hệ số nén là một hệ số tỷ lệ của các Entropy này, và có lẽ vì thếđộđo có tên là Compression Rate Distance Để minh họa cho ý tưởng bên trên, xét ba chuỗi thời gian có giá trị và được biểu diễn như hình 3.6

Hình 3.6 Trong ba chuỗi thời gian Q, C, R, chuỗi Q và C trông rất tương tự nhau, C và R trông rất khác biệt nhau

Khi dùng độ đo Euclid để tính toán khoảng cách: ED(Q, C) = 1.0344, trong khi

ED(C, R) = 0.8775 Tức là: C và R tương tự nhau hơn Q và C, đây là kết quả không mong đợi

Khi áp dụng nguyên lý MDL, chuẩn hóa bằng hàm DisNorm với b = 3 bit, và tính toán chiều dài mô tả (description length), theo như đã định nghĩa trong phần 3.2 bên trên, ta có:

DL(Q, C) = DL(C) + DL(Q – C) = 58.8269 DL(R, C) = DL(C) + DL(R – C) = 70.5161

Kết quả này cho thấy Q gần với C hơn R

Nếu dùng một hệ số nén đơn giản (simple compression rate) theo công thức:

𝐷𝐷𝐷𝐷(𝑅𝑅) +𝐷𝐷𝐷𝐷(𝐶𝐶) 70.5161 15.8943 + 37.6355= 1.3117 Khi nhân hệ số này với khoảng cách Euclid bên trên:

𝐸𝐸𝐷𝐷(𝑄𝑄,𝐶𝐶) ×𝐶𝐶𝐶𝐶𝑅𝑅(𝑄𝑄,𝐶𝐶) = 1.0344 × 0.8018 = 0.8294 𝐸𝐸𝐷𝐷(𝑅𝑅,𝐶𝐶) ×𝐶𝐶𝐶𝐶𝑅𝑅(𝑅𝑅,𝐶𝐶) = 0.8775 × 1.3117 = 1.1559 Đây chính là kết quảmong đợi, Q và C bây giờ trởnên tương tựhơn R và C

Một số định nghĩa có liên quan đến việc áp dụng nguyên lý MDL cũng tương tự như các định nghĩa đã được tìm hiểu và trình bày (trong phần 3.2) bên trên Dựa vào đó, công thức tổng quát của độđo CRD theo sau:

Cho hai chuỗi thời gian Q = q 1 , q 2 , , q n và C = c 1 , c 2 , , c n Độđo CRD được định nghĩa là:

𝐶𝐶𝑅𝑅𝐷𝐷(𝑄𝑄,𝐶𝐶) = 𝐶𝐶𝑅𝑅(𝑄𝑄,𝐶𝐶) ∝ ×𝐸𝐸𝐷𝐷(𝑄𝑄,𝐶𝐶) Trong đó: CR là hệ số nén, α là hệ số bù và là một số thực lớn hơn hoặc bằng 0, α càng lớn càng ảnh hưởng đến hệ số nén trên khoảng cách ED là khoảng cách Euclid

Hệ số CR được xác định:

𝐶𝐶𝑅𝑅(𝑄𝑄,𝐶𝐶) = 𝐷𝐷𝐷𝐷(𝑄𝑄,𝐶𝐶) min{𝐷𝐷𝐷𝐷(𝑄𝑄),𝐷𝐷𝐷𝐷(𝐶𝐶)} +𝜀𝜀 Trong đó: ε là một số rất nhỏ để tránh lỗi chia cho 0, DL là chiều dài mô tả của chuỗi thời gian

Do chiều dài của hai chuỗi thời gian bằng nhau, CR được tính xấp xỉ trên Entropy:

𝐶𝐶𝑅𝑅(𝑄𝑄,𝐶𝐶) = 𝐸𝐸(𝑄𝑄,𝐶𝐶) min{𝐸𝐸(𝑄𝑄),𝐸𝐸(𝐶𝐶)} +𝜀𝜀 Để hỗ trợ độ đo CRD có thể có các tính chất quan trọng như là: cận dưới (lower bounding) hay bất đăng thức tam giác (triangular inequality), các tác giả phát triển một phiên bản mở rộng của CRD, gọi là ECRD (Extended Compression Rate Distance):

𝐸𝐸𝐶𝐶𝑅𝑅𝐷𝐷(𝑄𝑄,𝐶𝐶) = (𝐶𝐶𝑅𝑅(𝑄𝑄,𝐶𝐶) ∝ + 1) ×𝐸𝐸𝐷𝐷(𝑄𝑄,𝐶𝐶) Tác giảcũng đã xem xét ECRD trong việc thỏa mãn các tính chất:

- Từ bỏ sớm (early abandoning), để giúp cắt tỉa bớt công tác tính toán khoảng cách

- Cận dưới (lower bounding) với khái niệm Second Lower Bounding, giúp bỏ qua việc tính toán ECRD khi cần, đặc biệt trong bài toán tìm lân cận gần nhất

- Bất đẳng thức tam giác phiên bản Relaxed-Triangular Inequality, giúp độ đo ECRD có thểđược hỗ trợ bởi một số cấu trúc chỉ mục như R-Tree

Tóm lại: Ý tưởng về một độ đo tương tự phù hợp nhất cho dữ liệu chuỗi thời gian, mở ra nhiều hướng ứng dụng và là một sự hỗ trợ lớn trong nghiên cứu gom cụm dữ liệu chuỗi thời gian

Sau khi tham khảo các công trình nghiên cứu có liên quan về gom cụm dữ liệu chuỗi thời gian, các kỹ thuật áp dụng nguyên lý MDL trong các bài toán gom cụm, phân lớp dữ liệu chuỗi thời gian và cơ sở lý thuyết có liên quan, chúng tôi quyết định chọn phương pháp được đề xuất trong công trình của Rakthanmanon và các đồng sự [5] làm hướng nghiên cứu chính vì các lý do sau:

- Thứ nhất: công trình giới thiệu một cách tiếp cận hiệu quả, phi tham số, dựa trên nguyên lý MDL để gom cụm dữ liệu chuỗi thời gian

- Thứ hai: cách tiếp cận ban đầu của phương pháp gom cụm chuỗi con trong chuỗi thời gian lớn, dựa trên việc tìm motif bậc nhất có thể giúp chúng tôi trong việc khởi tạo cụm một cách cố định, giúp kết quả bài toán cần giải quyết có cấu trúc cụm chuỗi thời gian ổn định

- Thứ ba: các khái niệm, định nghĩa mà công trình đưa ra giúp việc áp dụng nguyên lý MDL trong việc khai phá dữ liệu chuỗi thời gian dễ tiếp cận hơn Đây cũng là nền tảng lý thuyết quan trọng trong các công trình khác sau đó.

Ngoài ra, công trình của Rakthanmanon và các đồng sự chỉ đề xuất giải pháp cho việc gom cụm chuỗi con trong chuỗi thời gian lớn Trong đề tài này, chúng tôi cần giải quyết bài toán gom cụm các chuỗi thời gian riêng rẽ trong tập dữ liệu lớn các chuỗi thời gian

Trong phần sau của đề tài, chúng tôi sẽ trình bày đề xuất của chúng tôi về hệ thống gom cụm chuỗi thời gian dựa trên nguyên lý MDL và kết quả thực nghiệm trên các tập dữ liệu mẫu

HỆ TH Ố NG GOM C Ụ M CHU Ỗ I TH Ờ I GIAN D Ự A TRÊN NGUYÊN LÝ MDL

Đặ t v ấn đề

Như đã trình bày bên trên, việc gom cụm dữ liệu chuỗi thời gian dựa trên các giải thuật truyền thống theo hướng tiếp gom cụm phân hoạch tiêu biểu như k-Means, gặp phải vấn đề về việc khởi tạo trung tâm cụm, dẫn đến kết quả lời giải không ổn định, người dùng cần xác định số cụm k cuối cùng cho bài toán Nếu tiếp cận gom cụm dữ liệu theo hướng gom cụm phân cấp, mặc dù kết quả trực quan, không cần tham số k cụm, nhưng độ phức tạp tính toán bậc hai theo kích thước của tập dữ liệu làm cho cách tiếp cận này không hiệu quả trên các tập dữ liệu lớn Áp dụng nguyên lý MDL đã được chứng minh là một cách tiếp cận hữu hiệu trong nhiều ứng dụng hỗ trợ các công tác gom cụm, phân lớp dữ liệu chuỗi thời gian trong các công trình nghiên cứu đã khảo sát Do đó, trong đề tài này, chúng tôi sẽ tiến hành xây dựng mô hình gom cụm các chuỗi thời gian riêng rẽ, đơn biến dựa trên nguyên lý này

Ngoài ra, độ đo khoảng cách các mẫu dữ liệu, các cụm bằng độ đo Euclid để xác định khả năng gom cụm của chúng có thể được được thay thế bằng các khái niệm bitsave (đã được trình bày ở phần 3.2), theo đó, giá trị này càng lớn tức độtương tự của hai đối tượng càng cao.

Hướ ng gi ả i quy ế t

Quá trình gom cụm tổng quát gồm hai giai đoạn được mô tảnhư sau:

4.2.1 Giai đoạn gom cụm sơ bộ:

Tập dữ liệu sau khi được nạp vào, sẽ được rời rạc hóa Điều này là do kỹ thuật MDL yêu cầu làm việc trên tập dữ liệu rời rạc

Tập dữ liệu rời rạc bắt đầu được thực hiện gom cụm theo cách thức như sau:

Tìm cặp motif bậc nhất theo phương pháp MK của công trình [8] (đã được mô tả trong phần 3.3) Xác định khả năng tạo cụm của cặp motif này theo điều kiện: bitsave_for_creating > 0 Giá trị này chính là số bit có thể giảm được khi ta thực hiện phép toán tạo một cụm từ hai chuỗi thời gian bất kỳnào đó (đã được mô tả trong phần 3.2) Nếu cặp motif tìm được không thỏa mãn điều kiện tạo cụm, thì chúng tôi sẽ dừng việc tìm motif tại đây và các chuỗi thời gian còn lại chưa được gom cụm trong tập dữ liệu sẽ tạo thành các cụm đơn lẻ (singleton)

Trên cơ sở cụm tạo được từ một cặp motif ở bước trên, chúng tôi thực hiện phát triển cụm bằng cách xét các chuỗi thời gian còn lại trong tập dữ liệu có thể đưa vào cụm hay không:

- Xác định centroid H của cụm được tạo ra từ cặp motif

- Tìm kiếm lân cận gần nhất của H từ các chuỗi thời gian A còn lại trong tập dữ liệu

- Xác định xem chuỗi A này có thể được gán vào cụm hiện có hay không bằng cách dùng điều kiện cần để đưa hai chuỗi H và A vào cùng một cụm, tức: entropy của A lớn hơn entropy của A khi được mã hóa bằng H (phần 3.2) Nếu thỏa điều kiện này thì gán A vào cụm hiện có, và nếu không thỏa điều kiện này thì kết thúc quá trình phát triển cụm đang xét.

Kết quả của giai đoạn này là một tập hợp sơ bộ các cụm chuỗi thời gian, trong đó các chuỗi thời gian trong cùng một cụm có quan hệ với trung tâm cụm được khởi tạo bằng cặp motif theo nguyên lý MDL

4.2.2 Giai đoạn gom cụm chính thức: Ởgiai đoạn này, chúng tôi chọn hướng tiếp cận trộn các cụm đã được tạo ra trước đó theo chiến lược gom cụm từ dưới lên của giải thuật phân cấp gộp (hierarchical agglomerative clustering), tức dần dần trộn các cụm được đánh giá gần nhau nhất

Chúng tôi chọn hướng tiếp cận gom cụm phân cấp vì ở giai đoạn đầu, số lượng cụm được tạo ra tương đối nhiều, có thể xem như là đã rút ngắn được quá trình gom cụm phân cấp Mặt khác, giai đoạn tiếp theo cần thực hiện trộn các cụm đã có đến số lượng cụm mong muốn cuối cùng, tương tự như các bước trộn các cụm gần nhau trong giải thuật gom cụm phân cấp

Trong quá trình thực hiện giải thuật phân cấp gộp, chúng ta có thể sử dụng một số phương pháp xác định độ tương tự của các cụm đã được trình bày trong phần 2.4.2, đó là: liên kết đơn (single-link), liên kết đầy đủ (complete-link), liên kết trung bình (average-link)

Sự lựa chọn phương pháp liên kết có ảnh hưởng đến kết quả gom cụm các tập dữ liệu khác nhau [13] Nói cách khác, một tập dữ liệu sẽ cho kết quả gom cụm được đánh giá tốt với một phương pháp liên kết này nhưng lại cho kết quả hoàn toàn khác khi dùng một phương pháp liên kết khác và ngược lại Do đó, chúng tôi đề xuất hai cách tiếp cận sau:

• Phương pháp 1 (tạm gọi: phương pháp bitsave): Thay vì tính toán ma trận khoảng cách theo cách thức truyền thống, chúng tôi sử dụng khái niệm bitsave_for_merging, tức sốlượng bit có thể giảm được khi trộn hai cụm đã có thành một cụm mới (như đã được mô tả trong phần 3.2) Giá trị này càng lớn, tức hai cụm được cho là có mức độ thích hợp cao để trộn nhau, tạo thành một cụm mới Ma trận khoảng cách khi đó được gọi là ma trận bitsave, hai cụm bất kỳ trong tập hợp các cụm có giá trị bitsave_for_merging lớn nhất sẽ được lựa chọn trộn với nhau, hình thành nên một cụm mới

• Phương pháp 2 (tạm gọi: phương pháp centroid): Sử dụng các phương pháp liên kết đã được đề cập bên trên để tính toán độ tương tự của các cụm, cùng với độ đo khoảng cách ECRD Đầu tiên, tìm các trung tâm cụm của tập hợp cụm đã được tạo ra ở giai đoạn gom cụm sơ bộ Chúng tôi tiến hành gom cụm theo giải thuật phân cấp gộp với tập dữ liệu là các trung tâm cụm này Như vậy, theo phương pháp 2 này, chúng ta đã rút ngắn được giải thuật phân cấp gộp áp dụng trong gom cụm chuỗi thời gian, đó là: thay vì làm việc trên tập dữ liệu lớn ban đầu, chúng ta làm việc trên một tập dữ liệu nhỏ hơn, chính là các trung tâm cụm đã được tạo ra từgiai đoạn gom cụm sơ bộtrước đó.

Ki ế n trúc h ệ th ố ng

Theo hướng giải quyết vấn đề như trên, hệ thống của chúng tôi các module: module nhập và rời rạc hóa dữ liệu, module gom cụm dữ liệu giai đoạn sơ bộ, module gom cụm dữ liệu giai đoạn chính thức, module đánh giá kết quả gom cụm và module trực quan hóa kết quả Hình 4.1 minh họa cho hệ thống do chúng tôi đề ra

Tập dữ liệu chuỗi thời gian

Giao diện người dùng Rời rạc hóa dữ liệu

Giai đoạn gom cụm sơ bộ

Giai đoạn gom cụm chính thức Đánh giá chất lượng gom cụm Trực quan hóa kết quả

Hình 4.1 Mô hình gom cụm dựa trên nguyên lý MDL

- Module nhập và rời rạc hóa dữ liệu: Có nhiều cách thức để chuyển đổi dữ liệu rời rạc sang liên tục, tuy nhiên chúng tôi áp dụng hàm chuẩn hóa rời rạc (đã trình bày trong phần 3.2) theo công thức:

Với b = 6 bit, các giá trị liên tục được chuyển hóa thành các giá trị rời rạc trong khoảng [0, 64]

- Module gom cụm dữ liệu giai đoạn sơ bộ: giải thuật cho module này tóm lược như sau:

Input: discreteD : Tập dữ liệu chuỗi thời gian đã được rời rạc hóa Output: clusterCollection : Tập hợp các cụm chuỗi thời gian clusterCollection = { } while (discreteD != rỗng) o Thực hiện tìm motif(trong tập discreteD) o Xét nếu các chuỗi thời gian trong cặp motif thỏa điều kiện bitsave_for_adding > 0 (phần 3.2) thì thực hiện tạo cụm mới, đưa vào clusterCollection, xóa cặp chuỗi thời gian khỏi discreteD Nếu không thỏa điều kiện trên thì thực hiện: tạo các cụm đơn lẻ từ các chuỗi thời gian còn lại trong discreteD và làm rỗng discreteD o Xác định trung tâm cụm H của cụm vừa tạo, lập danh sách lân cận gần nhất từ các chuỗi thời gian còn lại trong discreteD của H o Xét danh sách lân cận gần nhất, chuỗi thời gian A nào trong danh sách kết hợp với H thỏa điều kiện: Entropy(A) – Entropy(A, H) > 0, thì được thêm vào cụm và xóa khỏi discreteD, nếu không thỏa thì dừng phát triển cụm này o end while

- Module gom cụm dữ liệu giai đoạn chính thức: giải thuật thực hiện theo chiến lược gom cụm phân cấp gộp

Input: clusterCollection : Tập hợp các cụm chuỗi thời gian đã được tạo ra ở giai đoạn trước

Output: finalClusterCollection : Kết quả cuối cùng tập hợp các cụm chuỗi thời gian

Bước 1: Tính toán ma trận bitsave giữa tất cả các cặp cụm trong clusterCollection

Bước 2: Tìm cặp có giá trị bitsave lớn nhất và trộn chúng lại với nhau Cập nhật ma trận bitsave

Bước 3: Giải thuật dừng khi đạt được sốlượng cụm mong muốn

Input: centroidCollection : Tập hợp các trung tâm cụm của các cụm chuỗi thời gian đã được tạo ra ở giai đoạn trước

Output: finalClusterCollection : Kết quả cuối cùng tập hợp các cụm chuỗi thời gian

Bước 1: Tạo các cụm đơn lẻ clusterCollection từ tập hợp các trung tâm cụm này

Bước 2: Tính toán ma trận khoảng cách giữa tất cả các cặp cụm trong clusterCollection Độ đo khoảng cách có thể dùng Euclid, ECRD, Ở đây, chúng tôi chọn áp dụng độđo ECRD vì kết quả gom cụm tốt hơn.

Bước 3: Tìm cặp cụm có khoảng cách nhỏ nhất và trộn chúng lại với nhau

Cập nhật ma trận khoảng cách Bước 4: Dừng gộp các cụm khi đạt được sốlượng cụm mong muốn Kết quả là tập hợp các cụm có các thành phần là các trung tâm cụm của các cụm trong giao đoạn gom cụm sơ bộ

Bước 5: Ánh xạ các chuỗi thời gian trong các cụm ở giai đoạn gom cụm sơ bộ vào, tạo thành các cụm cuối cùng dựa trên kết quả tạo cụm từ các trung tâm cụm ởcác bước trên

- Module đánh giá chất lượng gom cụm: Đểđánh giá kết quả gom cụm, chúng tôi sử dụng các tiêu chí Jaccard, Rand, Folkes and Mallow (FM), hệ số đo độ tương tự các cụm (CSM), Normalized Mutual Information (NMI), và giá trị hàm mục tiêu được trình bày ở phần 2.4

- Module trực quan hóa kết quả: Để trực quan hóa kết quả, chúng tôi sử dụng công cụ vẽ đồ thị Chart của bộ Microsoft Visual Studio để vẽđồ thị các cụm kết quả ở các giai đoạn rời rạc hóa dữ liệu, giai đoạn gom cụm sơ bộ và giai đoạn gom cụm chính thức Hình 4.2 minh họa phần trực quan hóa kết quả.

K ế t lu ận

Trong quá trình nghiên cứu, xây dựng mô hình gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL, chúng tôi đã đạt được các kết quả:

Thứ1: Chúng tôi đã đề xuất cách thức gom cụm dữ liệu chuỗi thời gian gồm hai giai đoạn, trong đó áp dụng nguyên lý MDL làm tiêu chí để đánh giá độ tương tự của các mẫu dữ liệu, các cụm dữ liệu Dựa vào đó để quyết định việc tạo các cụm dữ liệu, hoặc trộn các cụm dữ liệu với nhau

Thứ 2: Kết quả gom cụm ổn định, phi tham số

Thứ 3: Áp dụng nguyên lý MDL làm tiêu chí đo lường độ tương tự, có thể thay thếcác độđo khoảng cách truyền thống

Thứ 5: Trực quan hóa kết quả bài toán ở nhiều giai đoạn khác nhau

Hình 4.2 Kết quả gom cụm

THỰ C NGHI Ệ M

T ậ p d ữ li ệ u m ẫ u

Các tập dữ liệu được sử dụng gồm: tập dữ liệu Heterogeneous, tập dữ liệu Synthetic Control Time Series (CC), tập dữ liệu FaceFour, tập dữ liệu Trace, tập dữ liệu Cylinder-Bell-Funnel (CBF) Các tập dữ liệu này sẽ lần lượt được giới thiệu cùng với các kết quả thực nghiệm gom cụm trên chúng

Tập dữ liệu Heterogeneous(Phức hợp): Đây là tập dữ liệu phức hợp được sinh ra từ 10 chuỗi dữ liệu thực từ UCR Time Series Data Mining Archive [14] Hình 5.1 minh họa 10 chuỗi dữ liệu này Đề tài sẽ sử dụng 10 tập dữ liệu này để sinh ra tập dữ liệu thực nghiệm bằng cách dịch các chuỗi này theo thời gian từ 2-3% chiều dài chuỗi và thêm nhiễu vào chuỗi dữ liệu Các tập dữ liệu phức hợp có chiều dài là 1024 và có độ lớn là 500, 1000, 2000, 4000 và 8000

Tập dữ liệu Synthetic Control Time Series (CC): là tập dữ liệu gồm 6 cụm với mỗi cụm là 100 chuỗi và độ dài là 60 [15]

Tập dữ liệu FaceFour: là tập dữ liệu gồm 4 cụm, mỗi cụm có 22 chuỗi dữ liệu và có chiều dài là 350 [15]

Hình 5.1 Hình minh họa tập dữ liệu Heterogeneous

Tập dữ liệu Trace: đây là tập dữ liệu 4 cụm gồm 100 chuỗi, mỗi cụm có 25 chuỗi, chiều dài của chuỗi dữ liệu là 275 [15]

Tập dữ liệu Cylinder-Bell-Funnel (CBF): chứa ba loại dữ liệu chuỗi thời gian là: cylinder (c), bell (b) và funnel (f) Đây là tập dữ liệu nhân tạo được Saito (1994) [20] giới thiệu và các chuỗi dữ liệu được sinh ra theo công thức:

1,𝑑𝑑𝐵𝐵 𝑚𝑚 ≤ 𝑑𝑑 ≤ 𝑏𝑏 và 𝛾𝛾, 𝜀𝜀(𝑑𝑑) là các hàm tạo các giá trị phân bố chuẩn 𝑁𝑁(0; 1), a là số nguyên nằm trong khoảng [16,32] và b – a là số nguyên trong khoảng [32,96] Chúng tôi đã tạo ra 50 chuỗi dữ liệu có chiều dài là 128 cho mỗi cụm.

K ế t qu ả th ự c nghi ệ m

Để đánh giá kết quả gom cụm theo các phương pháp đã được đề xuất ở chương trước, chúng tôi so sánh các kết quả gom cụm, thời gian thực thi với kết quả gom cụm từ giải thuật k-Means truyền thống Ngoài ra, chúng tôi cũng đánh giá kết quả của giai đoạn gom cụm phân cấp gộp có sử dụng khái niệm ma trận bitsave, như là đơn vị đo độ tương tự của các cụm (đã đề cập ởchương trước), với các phương pháp xác định độ tương tự của các cụm như: single-link, complete-link, average-link

Kết quả gom cụm được đánh giá dựa vào các tiêu chí được liệt kê bên trên, tức thông qua các hệ số: Jaccard, Rand, FM, CSM, NMI và giá trị hàm mục tiêu

Trước hết, xem xét kết quả thực hiện gom cụm ở giai đoạn gom cụm sơ bộ, các cụm được tạo ra, thu giảm được rất lớn đầu vào cho giai đoạn gom cụm chính thức Cụ

52 thể, bảng 5.1 cho thấy kết quả số lượng các cụm đạt được ở giai đoạn này, tỷ lệ thu giảm còn khoảng 6% đối với tập dữ liệu Heterogeneous và hơn 10% đối với các tập dữ liệu còn lại

Chất lượng gom cụm trên tập dữ liệu Heterogeneous: Các bảng dưới đây trình bày kết quả của các tiêu chí đánh giá chất lượng lời giải gom cụm đối với tập dữ liệu phức hợp Heterogeneous với các độ lớn khác nhau

Bảng 5.1 Số lượng cụm thu được ở giai đoạn gom cụm sơ bộ

STT Tập dữ liệu Độ lớn tập dữ liệu Số lượng cụm Khả năng thu giảm

Bảng 5.2 minh họa kết quả của các tiêu chí đánh giá kết quả gom cụm của các phương pháp đã giới thiệu đối với tập 500 mẫu dữ liệu Tương tự, bảng 5.3 làm việc với tập 1000 mẫu dữ liệu, bảng 5.4 làm việc với tập 2000 mẫu dữ liệu, bảng 5.5 làm việc với tập 4000 mẫu dữ liệu, bảng 5.6 làm việc với tập 8000 mẫu dữ liệu Riêng giải thuật k-Means, do chất lượng lời giải không ổn định vì phụ thuộc vào việc chọn các trung tâm cụm ban đầu, chúng tôi tiến hành đo đạc trên 10 lần chạy giải thuật và lấy trung bình

Bảng 5.2 Các tiêu chí đánh giá gom cụm với 500 mẫu dữ liệu (tập dữ liệu

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.847721 0.983399 0.917873 0.942665 0.956576 6764.08 Phương pháp 2 single

Bảng 5.3 Các tiêu chí đánh giá gom cụm với 1000 mẫu dữ liệu (tập dữ liệu

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.587497 0.940623 0.746754 0.780764 0.874566 16346.52 Phương pháp 2 single

Bảng 5.4 Các tiêu chí đánh giá gom cụm với 2000 mẫu dữ liệu (tập dữ liệu

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.587016 0.940187 0.746485 0.780465 0.874193 33167.76 Phương pháp 2 single

Bảng 5.5 Các tiêu chí đánh giá gom cụm với 4000 mẫu dữ liệu (tập dữ liệu

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.591699 0.940880 0.750265 0.782521 0.877882 66156.77 Phương pháp 2 single

Bảng 5.6 Các tiêu chí đánh giá gom cụm với 8000 mẫu dữ liệu (tập dữ liệu

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.588533 0.940214 0.747769 0.780795 0.875788 132757.2056 Phương pháp 2 single

Các kết quả này có độ ổn định cao, tức kết quả gom cụm không có nhiều biến động qua các lần chạy khác nhau Sự khác nhau của tập hợp cụm thu được, chủ yếu là do kết quả tập hợp cụm thu được từ giai đoạn gom cụm sơ bộ Lý do là giải thuật tìm motif có tính chất ngẫu nhiên trong quá trình tìm kiếm cặp motif, và nếu tập dữ liệu có thể phát sinh nhiều cặp motif bậc nhất rất gần nhau, khảnăng chọn cặp motif bậc nhất ban đầu có thể khác nhau, dẫn đến kết quả cuối cùng có thểkhác đi Nếu tập dữ liệu có khả năng luôn tìm thấy một cặp motif bậc nhất nhất định, kết quả gom cụm sẽ rất ổn định Mặc dù kết quả tập hợp cụm thu được có thể khác nhau, nhưng chất lượng gom

55 cụm không khác nhau nhiều, vì các cụm thu được từ giai đoạn gom cụm sơ bộ có tính chất nghiêm ngặt do áp dụng nguyên lý MDL

Tại giai đoạn gom cụm chính thức, sử dụng phương pháp gom cụm 1 và 2 đều cho kết quả gom cụm cuối cùng khá tốt trước giải thuật k-Means Trong đó, nếu sử dụng phương pháp 1, kết quả gom cụm có chất lượng tốt và ổn định, trong khi kết quả từ phương pháp 2 có sự dao động đối với từng phương pháp liên kết khác nhau Việc lựa chọn phương pháp liên kết có thể xem như là một thông số đầu vào với giải thuật gom cụm phân cấp gộp, do đó việc sử dụng phương pháp 1 trong trường hợp này có thểxem như là một cách tiếp cận phi tham số

Chất lượng gom cụm trên các tập dữ liệu còn lại: Chúng tôi tiếp tục thực nghiệm trên các tập dữ liệu còn lại đã trình bày bên trên Kết quảđược mô tả trong các bảng sau: bảng 5.7 minh họa kết quả của các tiêu chí đánh giá kết quả gom cụm của các phương pháp đã giới thiệu đối với tập dữ liệu Synthetic Control, bảng 5.8 làm việc với tập dữ liệu FaceFour, bảng 5.9 làm việc với tập dữ liệu Trace, bảng 5.10 làm việc với tập dữ liệu Cylinder-Bell-Funnel

Bảng 5.7 Các tiêu chí đánh giá gom cụm với tập dữ liệu Synthetic Control

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.524952 0.868097 0.705667 0.708989 0.794048 23358.43604 Phương pháp 2 single

Bảng 5.8 Các tiêu chí đánh giá gom cụm với tập dữ liệu FaceFour

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.312288 0.735371 0.475952 0.621867 0.423094 1067.517982 Phương pháp 2 single

Bảng 5.9 Các tiêu chí đánh giá gom cụm với tập dữ liệu Trace

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.741573 0.925657 0.851635 0.917232 0.820031 741.7336853 Phương pháp 2 single

Bảng 5.10 Các tiêu chí đánh giá gom cụm với tập dữ liệu Cylinder-Bell-Funnel

Phương pháp Độ đo Jaccard Rand FM CSM NMI Hàm mục tiêu

Phương pháp 1 bitsave 0.412382 0.70443 0.585566 0.682657 0.414998 3070.508533 Phương pháp 2 single

Kết quả trên đã cho thấy cách tiếp cận gom cụm dữ liệu chuỗi thời gian theo nguyên lý MDL có kết quả khá tốt trước giải thuật gom cụm truyền thống như k- Means Cách tiếp cận này cho chất lượng ổn định, phi tham số Có thể minh họa kết quả gom cụm theo hàm mục tiêu của các phương pháp đã dùng để hiện thực qua hình 5.2 bên dưới

Hình 5.2 Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous)

Thời gian thực thi của toàn bộ quá trình gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL không thể cạnh tranh với giải thuật k-Means Hình 5.3 minh họa thời gian thực thi của các phương pháp đã đề xuất Tập dữ liệu có độ lớn càng cao, càng nhiều mẫu, thì thời gian thực thi càng lớn hơn gấp nhiều lần so với tập dữ liệu có ít mẫu

Gi á t rị h àm m ục ti êu

Hình 5.3 Kết quả đánh giá thời gian thực thi (tính bằng s) tập dữ liệu Heterogeneous

Thu giảm số chiều dữ liệu chuỗi thời gian: Để có thể cải thiện thời gian thực thi, chúng tôi thực hiện thu giảm số chiều dữ liệu chuỗi thời gian đang khảo sát bằng phương pháp xấp xỉ gộp từng đoạn (PAA – đã mô tả ở phần 2.2) Tỷ lệ thu giảm là 10 lần độ lớn chuỗi thời gian gốc trong tập dữ liệu

Khi đó, thực hiện khảo sát trên tập dữ liệu Heterogeneous, kết quả gom cụm giai đoạn sơ bộ có sốlượng cụm được tạo ra thu giảm đáng kể, tỷ lệ thu giảm có thểđạt đến 0.425% đối với tập 8000 mẫu dữ liệu, chi tiết theo bảng 5.11 dưới đây:

Th ời g ia n th ực th i ( s)

Bảng 5.11 Số lượng cụm thu được ở giai đoạn gom cụm sơ bộ và thời gian thực thi

STT Tập dữ liệu Độ lớn tập dữ liệu Số lượng cụm Thời gian thực thi

Thời gian thực thi của toàn bộ quá trình gom cụm được thu giảm đáng kể theo phương pháp 2 của giai đoạn gom cụm chính thức, đối với tập dữ liệu Heterogenous có số lượng mẫu nhỏ 500, 1000, 2000 thì thời gian thực thi tốt hơn thời gian thực thi của giải thuật k-Means, theo minh họa ở hình 5.4 Bảng 5.12 trình bày thời gian thực thi của từng phương pháp trong quá trình thực nghiệm, đồng thời đánh giá khả năng rút ngắn thời gian ở bảng 5.13

Bảng 5.12 Thời gian thực thi gom cụm trên tập dữ liệu Heterogeneous có thu giảm PAA

Bảng 5.13 Tỷ lệ phần trăm thời gian thực thi có thu giảm PAA so với thời gian thực thi trên độ lớn chuỗi thời gian ban đầu

Hình 5.4 Thời gian thực thi gom cụm trên tập dữ liệu Heterogeneous đã được thu giảm PAA so với k-Means

Th ời g ia n th ực th i ( s)

Tập dữ liệu và độ lớn

Phương pháp 2 - single Phương pháp 2 - complete Phương pháp 2 - average k-Means

Ngoài ra, khi thu giảm số chiều dữ liệu chuỗi thời gian, chất lượng gom cụm dựa trên các tiêu chí đánh giá chất lượng gom cụm thay đổi theo phương pháp gom cụm theo bảng đánh giá 5.14dưới đây

K ế t lu ậ n

Dựa vào các kết quả thực nghiệm đã được trình bày, chúng ta thấy các điểm sau:

 Về mặt chất lượng, giải thuật gom cụm chuỗi thời gian dựa trên nguyên lý

MDL cho kết quả tốt hơn so với giải thuật k-Means truyền thống

 Về thời gian thực thi, do trong bản thân nguyên lý MDL, đòi hỏi tính toán các thông số của chuỗi thời gian: chiều dài mô tả hay Entropy của bản thân các chuỗi thời gian, của các cụm chuỗi thời gian nên khi áp dụng gom cụm trên các tập dữ liệu lớn, số chiều cao, thời gian thực thi sẽ rất lớn Để giải quyết vấn đề này, chúng ta có thể tiến hành thu giảm dữ liệu, thu giảm số chiều và hệ thống cũng có thể cho ra kết quả gom cụm khá tốt Cụ thể: có sự đánh đổi giữa chất lượng gom cụm và thời gian thực thi đối với phương pháp 1, nhưng chất lượng gom cụm lại được cải thiện thậm chí tăng rất cao nếu thực hiện thu giảm số chiều chuỗi thời gian và áp dụng phương pháp 2, đặc biệt dùng liên kết trung bình (average-link)

 Ởgiai đoạn gom cụm sơ bộ, kết quả gom cụm khá ổn định Các cụm được tạo ra có các thành phần có quan hệ khá nghiêm ngặt nhờ áp dụng nguyên lý MDL Đồng thời, số cụm thu được đã thu giảm được khá nhiều đầu vào cho giai đoạn gom cụm tiếp sau

 Ở giai đoạn gom cụm chính thức, việc áp dụng phương pháp 1 hoặc 2 như đã trình bày ở phần 4.2.2 đều có thể dẫn đến kết quả gom cụm cuối cùng tốt và ổn định, các phương pháp đều cho thấy cách tiếp cận dựa vào nguyên lý MDL trong toàn bộ quá trình gom cụm Phương pháp 1 là một cách tiếp cận phi tham số, trong khi phương pháp 2 cho phép linh động trên các tập dữ liệu khác nhau và cũng cho thấy kết quả gom cụm rất tốt trên dữ liệu được thu giảm số chiều

Chương sau, chúng tôi sẽtrình bày các đóng góp của đềtài và hướng phát triển

KẾ T LU Ậ N

Nh ững đóng góp của đề tài

- Đề xuất và xây dựng thành công phương pháp gom cụm dữ liệu chuỗi thời gian hoàn toàn dựa trên nguyên lý MDL

- Cải tiến cách tiếp cận gom cụm phân cấp gộp trên tập dữ liệu chuỗi thời gian, trong đó: o Sử dụng các khái niệm bitsave, sinh ra từ các ứng dụng nguyên lý MDL trong khai phá dữ liệu chuỗi thời gian, độ đo ECRD thay cho các độ đo độ tương tự truyền thống như Euclid o Thu giảm tập dữ liệu đầu vào, rút ngắn quá trình thực thi giải thuật phân cấp gộp

- Đưa ra các kết quảđánh giá chất lượng gom cụm của các phương pháp được áp dụng trong đề tài trên các tập dữ liệu có độ lớn khác nhau, đồng thời so sánh hiệu quả của các phương pháp với nhau.

Hướ ng phát tri ể n

- Cần thử nghiệm trên nhiều tập dữ liệu có các đặc tính khác nhau, độ lớn, số chiều cao, để có thể chắc chắn về các kết luận và nếu cần, có thể điều chỉnh các giá trị của khái niệm bitsave để phù hợp với các loại dữ liệu chuỗi thời gian khác nhau

- Cải thiện thời gian thực thi đối với các tính toán trên chuỗi thời gian theo nguyên lý MDL

- Phát triển giải thuật, để kết quả gom cụm cuối cùng có thể thu được một cách tự động hoàn toàn, chất lượng gom cụm là tốt nhất

- Ứng dụng phương pháp đã đề ra trong đề tài lên các bài toán thu giảm dữ liệu dùng trong bài toán phân lớp chuỗi thời gian

[1] T W Liao: Clustering of time series data – a survey, Pattern Recognition, 38, (2005), pp.1857 – 1874

[2] M.Narasimha Murty, V.Susheela Devi: Pattern Recognition - An Algorithmic Approach Springer, 2011

[3] P Grünwald: A Tutorial Introduction to the Minimum Description Length Priciple In P D Grünwald, J I Myung, & M A Pitt (Eds.), Minimum description length: Theory and applications (pp 23–81) Cambridge, MA: MIT

[4] J Han, M Kamber, J Pei: Data Mining: Concepts and Techniques, 3rd Edition, Morgan Kaufmann Publishers, 2012

[5] T Rakthanmanon, E J Keogh, S Lonardi, S Evans: MDL-based time series clustering Knowl Inf Syst 33(2), 371–399 (2012)

[6] V T Vinh, D T Anh: Compression rate distance measure for time series In:

Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics, Paris, 19–21 Oct 2015

[7] V T Vinh, D T Anh: A novel clustering-based 1-NN Classification of Time Series Based on MDL principle In: Recent Developments in Intelligent Information and Database Systems, volume 642 of the series Studies in Computational Intelligence pp 29-40 Springer, 2016

[8] A Mueen, E Keogh, Q Zhu, S Cash, B Westover: Exact Discovery of Time Series Motifs In: SDM 2009

[9] J Lin, M Vlachos, E Keogh, and D Gunopulos: Iterative incremental clustering of time series In: Proceedings of the 9th International Conference on Database Tech- nology, 2004, pp 521-522

[10] N Begum, B.Hu, T.Rakthanmanon, E Keogh: Towards a Minimum Description Length Based Stopping Criterion for Semi-Supervised Time Series Classification

In: Proceedings of IEEE 14th International Conference On Information Reuse and Integration, 14 – 16 August, San Fancisco, CA., pp 333 – 340, 2013

[11] H Zhang, T B Ho, Y Zhang, M S Lin: Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform Journal Informatica 30(3), 305 – 319 (2006)

[12] D J C Mackey: Information Theory, Inference, and Learning Algorithms, CamBridge University Press 2003

[13] E J Keogh, J Lin: Clustering of time-series subsequences is meaningless: implications for previous and future research Knowl Inf Syst 8(2):154–177 (2005)

[14] V B Thinh, D T Anh: Time Series Clustering Based on I-k-Means and Multi- resolution PLA Transform In Proceedings of IEEE RIVF 2012, February 27 – March 1, Ho Chi Minh City, Vietnam, 109 – 112

[15] E Keogh, Q Zhu, B Hu, Y Hao, X Xi, L Wei and C.A Ratanamahatana, “The UCR Time Series classification/Clustering Homepage”, [www.cs.ucr.edu/~eamonn/time_series_data/], 1 – 2017

[16] E Keogh, K Chakrabarti, M Pazzani, and S Mehrotra, 2001: Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286

[17] P Jaccard, “The distribution of the flora in the alpine zone”, New Phytologist,

[18] W M Rand, “Objective criteria for the evaluation of clustering methods”,

Journal of the American Statistical Association, 1971, vol.66, pp 846 – 850

[19] E B Fowlkes and C L Mallows, “A Method for Comparing Two Hierarchical Clusterings”, Journal of the American Statistical Association, 1983, vol.78, pp

[20] H Saito, “Local Feature Extraction and Its Application Using a Library of Bases” in PhD thesis, Department of Mathematics, Yale University, 1994

PH Ụ L Ụ C A: B ẢNG ĐỐ I CHI Ế U THU Ậ T NG Ữ ANH – VI Ệ T

Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt

Average-linkage Liên kết trung bình

Bitsave Số bit được giảm bớt

Bottom-up Từ dưới lên

Complete-linkage Liên kết đầy đủ

Compression Rate Distance Độ đo khoảng cách tỷ lệ nén CRD

Dimensionality Reduction Thu giảm số chiều

Early Abandoning Từ bỏ sớm

Edit Distance Độ đo biên tập

Euclidean Distance Khoảng cách Euclid ED

Extended Compression Rate Distance Độ đo khoảng cách tỷ lệ nén mở rộng

Gom cụm phân cấp gộp HAC

Hierarchical Methods Phương pháp phân cấp

Mean Giá trị trung bình

Minimum Description Length Chiều dài mô tả tối thiểu MDL

Model Selection Lựa chọn mô hình

Non-metric similarity function Hàm tương tự phi metric

Outliers Các điểm ngoại vi

Partitioning Methods Phương pháp phân hoạch

Xấp xỉ gộp từng đoạn PAA

Positive Reflexivity Tính phản xạ tích cực

Proximity Measure Độ đo tương cận

Single-linkage Liên kết đơn

Time Series Data Dữ liệu chuỗithời gian

Top-down Từ trên xuống

Triangular Inequality Bất đẳng thức tam giác

Uncertainty Measure Độ đo không chắc chắn

Unlabelled Data Dữ liệu không có nhãn

Ngày đăng: 09/09/2024, 05:08

HÌNH ẢNH LIÊN QUAN

Hình 1.1.  Đường biểu diễn một chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 1.1. Đường biểu diễn một chuỗi thời gian (Trang 17)
Hình 1.2.  Quá trình gom c ụm - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 1.2. Quá trình gom c ụm (Trang 17)
Hình 2.1 Ví d ụ gom cụm nhìn từ nhiều tiêu chí khác nhau - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 2.1 Ví d ụ gom cụm nhìn từ nhiều tiêu chí khác nhau (Trang 26)
Hình 2.2 Minh h ọa phân hoạch dữ liệu - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 2.2 Minh h ọa phân hoạch dữ liệu (Trang 28)
Hình 2.3 Gi ải thuật phân cấp gộp và phân cấp tách trên các đối tượng dữ liệu - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 2.3 Gi ải thuật phân cấp gộp và phân cấp tách trên các đối tượng dữ liệu (Trang 30)
Hình 2.4 C ấu trúc cây của giải thuật gom cụm phân cấp - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 2.4 C ấu trúc cây của giải thuật gom cụm phân cấp (Trang 32)
Hình 3.1. Ba cách ti ếp cận gom cụm chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.1. Ba cách ti ếp cận gom cụm chuỗi thời gian (Trang 40)
Hình 3.2.  Độ chính xác phân lớp 18 tập dữ liệu chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.2. Độ chính xác phân lớp 18 tập dữ liệu chuỗi thời gian (Trang 43)
Hình 3.3. Ví d ụ về sắp xếp tuyến tính theo khoảng cách - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.3. Ví d ụ về sắp xếp tuyến tính theo khoảng cách (Trang 49)
Hình 3.4. K ết quả tìm kiếm motif trên dãy thứ tự tuyến tính - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.4. K ết quả tìm kiếm motif trên dãy thứ tự tuyến tính (Trang 49)
Hình 3.5. K- Means được thực hiện trên mỗi mức phân giải của phép biến đổi Haar - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.5. K- Means được thực hiện trên mỗi mức phân giải của phép biến đổi Haar (Trang 51)
Hình 3.6. Trong ba chu ỗi thời gian Q, C, R, chuỗi Q và C trông rất tương tự nhau, C - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 3.6. Trong ba chu ỗi thời gian Q, C, R, chuỗi Q và C trông rất tương tự nhau, C (Trang 53)
Hình 4.1. Mô hình gom c ụm dựa trên nguyên lý MDL - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 4.1. Mô hình gom c ụm dựa trên nguyên lý MDL (Trang 60)
Hình 4.2. K ết quả gom cụm - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 4.2. K ết quả gom cụm (Trang 64)
Hình 5.1. Hình minh h ọa tập dữ liệu Heterogeneous - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 5.1. Hình minh h ọa tập dữ liệu Heterogeneous (Trang 66)
Hình 5.2. K ết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 5.2. K ết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) (Trang 73)
Hình 5.3. K ết quả đánh giá thời gian thực thi (tính bằng s) tập dữ liệu Heterogeneous - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 5.3. K ết quả đánh giá thời gian thực thi (tính bằng s) tập dữ liệu Heterogeneous (Trang 74)
Hình 5.4. Th ời gian thực thi gom cụm trên tập dữ liệu Heterogeneous đã được thu - Luận văn thạc sĩ Khoa học máy tính: Gom cụm dữ liệu chuỗi thời gian dựa trên nguyên lý MDL
Hình 5.4. Th ời gian thực thi gom cụm trên tập dữ liệu Heterogeneous đã được thu (Trang 76)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN