1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nhận diện Motif trên dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng

77 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI (0)
    • 1.1 Dữ liệu chuỗi thời gian (10)
    • 1.2 Nhận diện Motif trong dữ liệu chuỗi thời gian (11)
    • 1.3 Mục tiêu và giới hạn của đề tài (12)
    • 1.4 Tóm lược những kết quả thu được (12)
    • 1.5 Cấu trúc luận văn (12)
  • CHƯƠNG 2: TỔNG THUẬT CÁC CÔNG TRÌNH LIÊN QUAN (14)
    • 2.1 Độ đo tương tự (14)
      • 2.1.1 Độ đo Minkowski (14)
      • 2.1.2 Độ đo xoắn thời gian động (17)
    • 2.2 Các phương pháp thu giảm số chiều (19)
      • 2.2.1 Phương pháp không thích nghi dữ liệu (19)
      • 2.2.2 Phương pháp thích nghi dữ liệu (22)
    • 2.3 Rời rạc hóa dữ liệu bằng phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic (25)
    • 2.4 Nhận diện mẫu lặp thường xuyên (motif) cho các dữ liệu chuỗi thời gian (26)
    • 2.5 Nhận diện motif dựa vào phương pháp chiếu ngẫu nhiên (Random Projection Algorithm) (28)
    • 2.6 Giải thuật nhận diện motif MK (30)
    • 2.7 Kết luận (34)
  • CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ (35)
    • 3.1 Điểm cực trị quan trọng (Important Extreme Points) (35)
    • 3.2 Phương pháp nhận diện motif dựa vào Điểm Quan Trọng (38)
      • 3.2.1 Độ đo tương tự (38)
      • 3.2.2 Tìm ứng viên Motif (39)
      • 3.2.3 Giải thuật gom cụm phân cấp theo hướng từ dưới lên (Hierarchical Bottom- (40)
    • 3.3 Giải thuật gom cụm K-Means (41)
  • CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM (42)
    • 4.1 Cải tiến giải thuật bằng phương pháp biến hình vị tự trên các motif ứng viên và công thức tính độ tương tự loại trừ độ lệch biên độ (43)
      • 4.1.1 Khái niệm về phép biến hình vị tự (44)
      • 4.1.2 Lấy mẫu các ứng viên motif bằng phép vị tự (45)
    • 4.2 Mô hình hiện thực các phương pháp (47)
      • 4.2.1 Mô hình nhận diện Motif dùng phép chiếu ngẫu nhiên (48)
      • 4.2.2 Mô hình giải thuật phân cấp từ dưới lên kết hợp với phương pháp tính độ tương tự dùng nội suy spline (49)
      • 4.2.3 Mô hình giải thuật HAC hoặc K-Means kết hợp với phương pháp tính độ tương tự được cải tiến (50)
    • 4.3 Kết quả thực nghiệm của các giải thuật (51)
      • 4.3.1 Dữ liệu ECG (Điện tâm đồ) với kích thước 7900 điểm (51)
      • 4.3.2 Dữ liệu Memory với kích thước 7000 điểm (56)
      • 4.3.3 Dữ liệu Power với kích thước 35000 điểm (61)
      • 4.3.4 Dữ liệu ECG với kích thước 140 000 điểm (64)
  • CHƯƠNG 5: KẾT LUẬN (70)
    • 5.1 Tổng kết (70)
    • 5.2 Những đóng góp của đề tài (70)
    • 5.3 Hướng phát triển của đề tài (71)

Nội dung

Tuy nhiên phương pháp này chạy rất lâu với chuỗi dữ liệu thời gian có kích thước lớn, đồng thời các thông số của giải thuật phải được xác định bằng cách ‘thử và sửa sai’.. Tuy nhiên, tro

GIỚI THIỆU ĐỀ TÀI

Dữ liệu chuỗi thời gian

Chuỗi dữ liệu thời gian là tập quan sát dữ liệu theo trình tự thời gian Dữ liệu được lưu trữ thành dạng X = < x 1 , x 2 , …x n >, trong đó xi là dữ liệu đo được tại thời điểm thứ i Dữ liệu được đo theo cách khác nhau trong khoảng thời gian cố định, vì vậy để lưu trữ dễ dàng và giảm độ phức tạp, dữ liệu chỉ lưu lại thứ tự các giá trị theo trình tự thời gian.

Ví dụ chúng ta có chuỗi thời gian theo dõi quá trình đo nhiệt độ như sau:

Hình 1-1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ

Trong các ứng dụng thực tế, có rất nhiều loại dữ liệu chuỗi thời gian như sự theo dõi biến đổi giá của chứng khoán, dữ liệu đo điện tim đồ, dữ liệu theo dõi mực nước sông hay là sự ghi lại việc truy cập các trang web của người dùng Thông thường, các loại dữ liệu chuỗi thời gian này là rất lớn, được đo và lưu trữ lại trong một khoảng thời gian dài cho nên việc lưu trữ và khai phá dữ liệu này thường tốn kém chi phí thời gian Do đó việc sử dụng các công cụ khai phá dữ liệu này được áp dụng trên nền máy tính đã thu hút sự quan tâm, nghiên cứu và ứng dụng trong rất nhiều các lĩnh vực trong những năm gần đây

Hình 1-2: Đồ thị biễu diễn chuỗi dữ liệu thời gian điện tâm đồ (ECG)

Hình 1.1 và 1.2 mô tả quá trình đo nhiệt độ trong ngày và điện tâm đồ

Một số vấn đề khi nghiên cứu chuỗi dữ liệu thời gian:

Một trong những đặc điểm nổi bật của chuỗi thời gian chính là khối lượng dữ liệu lớn mà chúng sở hữu Chỉ tính riêng dữ liệu điện tâm đồ khi đo trong vòng 1 giờ đã lên tới khoảng 1 Gigabyte Đây thực sự là một thách thức lớn trong quá trình phân tích, tính toán và xử lý dữ liệu chuỗi thời gian, đặc biệt là khi cần thu được kết quả chính xác trong thời gian hợp lý.

Phụ thuộc yếu tố chủ quan:

Trong thực tế, các kết quả dữ liệu chuỗi thời gian thu được chịu ảnh hưởng yếu tố chủ quan của người đo dữ liệu, điều kiện và các công cụ đo…

Dữ liệu không đồng nhất:

Quá trình thu thập dữ liệu chuỗi thời gian được đo trên những định dạng khác nhau, số lượng và tần số lấy mẫu không đồng nhất cũng ảnh hưởng đến tính toàn vẹn của dữ liệu Thêm vào đó quá trình đo đạc không chính xác do nhiễu, thiếu một vài giá trị hay dữ liệu không sạch.

Nhận diện Motif trong dữ liệu chuỗi thời gian

Một trong những vấn đề được quan tâm trong việc khai phái dữ liệu chuỗi thời gian là nhận diện những chuỗi con tương tự xuất hiện thường xuyên (gọi là motif) Các phương pháp được ứng dụng trong bài toán này thường được dùng là Brute- Force được J.Lin và các cộng sự đề xuất năm 2002[3], phương pháp chiếu ngẫu nhiên (Random Projection) được B.Chiu và các cộng sự giới thiệu năm 2003[2], giải thuật MK của Mueen và các cộng sự đưa ra năm 2009[4] Tuy nhiên khi áp dụng các phương pháp trên thì ta gặp phải các nhược điểm sau: o Không thích hợp khi chuỗi dữ liệu lớn o Cả ba phương pháp này không thể nhận ra được các motif có chiều dài hay biên độ khác nhau

Dựa vào phương pháp nhận diện motif do Gruber và các cộng sự đưa ra năm 2006[1]: o Trích lược các điểm cực trị quan trọng của chuỗi dữ liệu thời gian, từ đó chọn ra những ứng viên motif o Gom cụm các ứng viên motif bằng phương pháp phân cấp từ dưới lên (Hierarchical Bottom-Up) hoặc K-Means o Cải tiến công thức tính độ tương tự hai ứng viên motif bằng phép biến hình vị tự (homothetic transformation) để đồng nhất chiều dài các ứng viên motif Sau đó chúng tôi sẽ tiến hành gom cụm các ứng viên motif sau phép biến hình này o Sử dụng công thức tính độ tương tự cải tiến để loại trừ biên độ (range) của các ứng viên motif.

Mục tiêu và giới hạn của đề tài

Mục tiêu chính của đề tài là nghiên cứu phương pháp tìm kiếm motif trên dữ liệu chuỗi thời gian Đề tài này dựa trên nghiên cứu của Gruber và các cộng sự Phương pháp này dựa vào ý tưởng nén những chuỗi thời gian nhờ vào những điểm cực trị quan trọng (Cực đại và Cực tiểu)

Kết quả thu được sẽ so sánh với phương pháp nhận diện motif dựa vào phép chiếu ngẫu nhiên và gom cụm phân cấp từ dưới lên dùng nội suy spline về hai phương diện: Thời gian chạy, sự chính xác của giải thuật…

Chúng tôi chọn phương pháp chiếu ngẫu nhiên bởi vì phương pháp này được sử dụng rộng rãi và thường được sử dụng để so sánh với các giải thuật nhận diện motif khác.

Tóm lược những kết quả thu được

Phương pháp nhận diện motif dựa vào các điểm cực trị kết hợp với giải thuật gom cụm phân cấp từ dưới lên (hay K-Means) vượt trội so với phương pháp chiếu ngẫu nhiên nhờ tính tập trung vào mục đích chính của luận văn trong suốt quá trình thực hiện và thử nghiệm.

Thời gian đáp ứng rất nhanh

Thích nghi được chuỗi dữ liệu lớn (lên đến hàng trăm ngàn)

Có thể nhận thấy được các thể hiện motif không cùng chiều dài và có biên độ dao động khác nhau.

Cấu trúc luận văn

Chương II chúng tôi sẽ giới thiệu qua các công trình liên quan đến luận văn bao gồm giới thiệu về các phương pháp về độ đo tương tự giữa hai chuỗi thời gian, các phương pháp về thu giảm số chiều trên chuỗi thời gian ban đầu, cách tiếp cận về các phương pháp rời rạc hóa dữ liệu Đồng thời, chúng tôi cũng giới thiệu lý thuyết về nhận diện motif trên dữ liệu chuỗi thời gian, phương pháp chiếu ngẫu nhiên và giải thuật MK [4]

Chương III chúng tôi sẽ tập trung vào cơ sở lý thuyết và phương pháp giải quyết vấn đề của luận văn bao gồm định nghĩa các điểm cực trị quan trọng, giải thuật gom cụm phân cấp từ dưới lên (HAC) do Gruber và các cộng sự giới thiệu năm 2006[1]

Chương IV chúng tôi giới thiệu một phương thức mới trong việc tính độ tương tự của hai chuỗi dữ liệu con dùng phép biến hình vị tự và loại trừ biên độ dao động Cuối cùng, chúng tôi tiến hành thực nghiệm hệ thống nhận diện motif dựa vào phương pháp chiếu ngẫu nhiên và các điểm cực trị quan trọng kết hợp với HAC hay K-Means So sánh kết quả thu được bao gồm thời gian chạy, độ chính xác và khả năng đáp ứng với chuỗi dữ liệu lớn giữa các phương pháp trên

Chương V là một số kết luận sau khi thực hiện đề tài.

TỔNG THUẬT CÁC CÔNG TRÌNH LIÊN QUAN

Độ đo tương tự

Trong bài toán tìm độ tương tự của chuỗi thời gian, khoảng cách giữa hai đối tượng O1 và O2 được đo lường Nếu khoảng cách này bằng 0, hai đối tượng được coi là giống nhau Nếu khoảng cách nhỏ hơn một giá trị r định sẵn, chúng được xem là tương tự nhau Khoảng cách D(X, Y) giữa hai đối tượng X và Y phải thỏa mãn các tính chất sau: a) D(X, Y) = 0 khi và chỉ khi X = Y; b) D(X, Y) = D(Y, X); c) D(X, Y) ≥ 0 với mọi X, Y; d) D(X, Y) < D(X, Z) + D(Y, Z).

Cho hai chuỗi thời gian X và Y có dạng X= và Y= Độ tương tự giữa X và Y ký hiệu là Sim(X, Y) Sau đây là một số phương pháp dùng để xác định độ tương tự giữa hai chuỗi thời gian

2.1.1 Độ đo Minkowski Độ đo tương tự giữa hai chuỗi thời gian X và Y được xác định bằng công thức Minkowski như sau:

Với, a) p=1: Độ đo Manhatan b) p=2: Độ đo Euclid c) p=3: Độ đo Max Ưu điểm

Có khả năng mở rộng cho nhiều bài toán khác như gom cụm (clustering) và phân loại (classification) dữ liệu… và phù hợp với các phép biến đổi thu giảm số chiều như: DFT [18], DWT [6], PAA [7][8]…

Không thích hợp khi dữ liệu có đường cơ bản khác nhau (Hình 2.1) Không thích hợp với dữ liệu có biên độ dao động khác nhau (Hình 2.1) Phương pháp khắc phục:

Chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng so trùng mẫu trên dữ liệu dựa trên giá trị trung bình và độ lệch chuẩn X’=X-mean(X) hay X’=(X-mean(X))/Var(X) [9] Áp dụng phương pháp trung bình di chuyển [20] để làm trơn các đường biểu diễn chuỗi thời gian nghĩa là giá trị của chuỗi thời gian tại thời điểm i được tính như sau:

= 2 + 1 (2.2) Áp dụng độ đo tương tự có sửa đổi dựa trên khoảng cách Euclid như sau:

Hình 2-1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng đường cơ bản khác nhau

Hình 2-2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên độ dao động khác nhau

2.1.2 Độ đo xoắn thời gian động

Khi chuỗi thời gian X và Y trùng nhau, biểu diễn của chúng tương đồng nhưng lệch nhau về thời gian So sánh các phần tử thứ i của hai chuỗi sẽ không phản ánh chính xác sự tương quan của chúng Phương pháp Ánh xạ một điểm đến nhiều điểm, hay còn gọi là Xoắn thời gian động (DTW), giúp giải quyết vấn đề này.

Hình 2-3: a)Tính khoảng cách dựa vào phương pháp Euclid,(b)Tính khoảng cách dựa vào phương pháp DWT

Hình 2.3a và 2.3b minh họa cho chúng ta cách tính khoảng cách dựa vào phương pháp Eulid và DWT của hai chuỗi dữ liệu thời gian Rõ ràng cách tính ở hình 2.3b giúp chúng ta loại bỏ được độ lệch pha của hai chuỗi dữ liệu thời gian

Cách tính khoảng cách dựa vào phương pháp DWT

Cho hai chuỗi thời gian X và Y và một thông số khung w gọi là khung cửa sổ xoắn (warping window) với điều kiện là hai điểm i và j có thể ánh xạ với nhau nếu

|i-j|≤w Dữ liệu ra là tổng khoảng cách của các điểm được ánh xạ với nhau

Cách tính đơn giản DWT là xây dựng một ma trận D mxn với m=|X| và n=|Y|.Khi đó D ij =d (x i , y i ) Từ ma trận D ta duyệt qua ma trận từ ô (0, 0) đến ô (m, n) thỏa mãn ràng buộc sau: o Không được đi qua trái hay đi xuống o Đường đi phải liên tục o Ô tại vị trí (i,j) thuộc đường đi phải thỏa |i-j|≤w o Giả sử có K ô đi từ ô (0,0) đến ô (m,n) thỏa mãn những điều kiện trên, khi đó

8 (2.4) Hình 2.4 minh họa phương pháp tính khoảng cách theo DWT

Ngoài ra, có thể dùng qui hoạch động để giải quyết bài toán này Ta có thể áp dụng công thức truy hồi tuyến tính để tính D(i,j)

Hình 2-4: Minh họa cách tính khoảng cách theo DWT Ưu điểm:

Phương pháp DWT phù hợp cho việc xác định độ tương tự giữa hai chuỗi thời gian có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời gian khác nhau

Cho kết quả chính xác hơn phương pháp tính khoảng cách bằng phương pháp tính khoảng cách Euclid, đặc biệt trong các bài toán có dữ liệu nhỏ, bài toán phân loại (classification) hay các bài toán gom cụm (clustering)…

Nhược điểm của phương pháp tính khoảng cách DWT là thời gian chạy lâu, gấp hàng trăm lần so với phương pháp độ đo Euclid Giải thuật DWT ban đầu sử dụng w = n (chiều dài dữ liệu), dẫn đến độ phức tạp thuật toán là O(n²) Để giảm phức tạp, người ta thay đổi tham số w thành w N Khi đó chuỗi có chiều dài lớn hơn Q sẽ được lấy mẫu lại để có cùng chiều dài với T bằng phương pháp nội suy spline (spline interpolation technique) Độ đo tương tự của T và Q được cho bởi công thức sau :

+fij gh(-, ) = +)efb gh (-, Rk X[k ) (3.4)

Trong luận văn này, chúng tôi đã dùng phương pháp nội suy spline bậc một để lấy mẫu lại chuỗi Q Giải thuật lấy mẫu lại như sau:

Trong khi chiều dài Q vẫn còn lớn hơn T thì làm các bước sau:

Giải thuật lấy mẫu lại ứng viên Motif T với nội suy spline bậc I Ý tưởng chính của giải thuật này là lặp lại việc lấy giá trị trung điểm của Q cho đến khi chiều dài bằng với chuỗi T Sau mỗi lần lặp, chiều dài của Q sẽ giảm đi 1

3.2.2 Tìm ứng viên Motif Đầu tiên, phương pháp này sẽ trích lược các điểm cực trị quan trọng của chuỗi thời gian T, tạm gọi là EP(T) Motif ứng viên MCi(T) với i=1,….l-2 là những chuỗi con của T nằm giữa hai điểm cực trị ep i và ep i+2 Tham số MAX_MOTIF_LENGTH do người dùng định nghĩa Khi chiều dài của ứng viên motif lớn hơn tham số này, motif sẽ được lấy mẫu lại nhờ phương pháp nội suy Kết quả của thuật toán là một chuỗi các ứng viên motif

MCS(T)=(MC 1 (T),MC 2 (T)….MC l-2 (T)) của một chuỗi thời gian đơn biến T=(t 1 , t N ) với MC i (T)=(t epi ,… t epi+2 ), i=1,… l-2

5 for i = 1 to (length (EP)−2) do

7 | if length (motifCandidate)> maxLength then

3.2.3 Giải thuật gom cụm phân cấp theo hướng từ dưới lên

Sau khi trích xuất các motif ứng cử, tập hợp các motif ứng cử được hình thành Tiếp theo, thuật toán sẽ phân loại các motif ứng cử thành các nhóm giống nhau Một motif duy nhất sẽ đại diện cho các motif ứng cử tương tự nhau Thuật toán gom cụm phân cấp từ dưới lên sẽ thực hiện công việc này.

Trái ngược với phương pháp gom cụm phân cấp từ dưới lên là gom cụm phân cấp từ trên xuống Phương pháp này đi theo chiến lược từ trên xuống bằng cách khởi đầu, ta cho tất cả các đối tượng dữ liệu thuộc về một cụm Sau đó, ta tách cụm dữ liệu này ra thành các cụm dữ liệu nhỏ hơn, quá trình này cứ tiếp tục cho đến khi các đối tượng dữ liệu là một cụm hoặc thỏa điều kiện dừng (ví dụ: số cụm cần gom…)

Hình 3.3 mô tả cả hai giải thuật gom cụm phân cấp: từ dưới lên (đi từ trái qua phải) và từ trên xuống (đi từ phải qua trái)

Hình 3-3: Giải thuật gom cụm phân cấp từ dưới lên và trên xuống HAC

Sau khi giải thuật gom cụm thực hiện xong, số phần tử trong cụm đông nhất chính là các thể hiện (instance) của motif.

Giải thuật gom cụm K-Means

Chúng ta cũng có thể gom cụm ứng viên Motif bằng giải thuật Kmean như sau:

Thuật toán K-Means gom cụm các chuỗi thời gian

1 Chọn một giá trị k, với k là số cụm cần gom cụm các chuỗi thời gian

2 Tạo ngẫu nhiên k trung tâm cụm bằng cách chọn k giá trị trong dữ liệu đại diện trong tập các chuỗi thời gian

3 Áp dụng hàm tính toán trên N đối tượng chuỗi thời gian trong tập dữ liệu để đưa chúng vào cụm gần nhất

4 Nếu N đối tượng chuỗi thời gian trong vòng lặp sau cùng không làm thay đổi trung tâm cụm, dừng thuật toán, ngược lại, quay lại bước 3

Thuật toán K-Means gom cụm chuỗi thời gian

HIỆN THỰC VÀ THỬ NGHIỆM

Cải tiến giải thuật bằng phương pháp biến hình vị tự trên các motif ứng viên và công thức tính độ tương tự loại trừ độ lệch biên độ

tự loại trừ độ lệch biên độ

Như đã trình bày ở trên, để tính độ tương tự giữa hai ứng viên Motif, tác giả đã dùng phương pháp nội suy spline (spline interpolation technique) trên ứng viên có chiều dài lớn hơn để đồng nhất chiều dài hai motif Hơn nữa, việc tính độ tương tự với công thức 3.4 sẽ ảnh hưởng đến tốc độ chương trình vì quá phức tạp Ý tưởng chính của phương pháp nội suy spline để giảm số chiều với bậc I là lặp lại việc lấy trung điểm của hai điểm liên tiếp của chuỗi ban đầu cho đến khi được chiều dài mong muốn Phương pháp này có ưu điểm là dễ dàng thực hiện Tuy vậy, nhược điểm chính của phương pháp này là nếu chiều dài sau khi lấy mẫu quá lớn so với chiều dài ban đầu thì hình dạng sau lấy mẫu sẽ thay đổi đáng kể Hình 4.1, 4.2 và 4.3 minh họa cho chúng ta điều này

Hình 4-1: Chuỗi dữ liệu ban đầu có chiều dài 470 điểm

Chúng ta có thể thấy rằng với chuỗi dữ liệu có chiều dài 470 điểm, sau khi lấy mẫu lại bằng nội suy spline bậc I, hình dạng sẽ thay đổi đáng kể so với chuỗi dữ liệu ban đầu Đây là nhược điểm của phương pháp này

Hình 4.2 và 4.3 cho chúng ta thấy sự thay đổi hình dạng đáng kể của phương pháp nội suy spline so với hình dạng ban đầu

Phần tiếp theo chúng tôi sẽ giới thiệu một phép lấy mẫu mới dùng phép biến hình vị tự Phép biến hình này sẽ bảo đảm được hình dạng của chuỗi dữ liệu ban đầu sau khi lấy mẫu

Hình 4-2: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 400 dùng phương pháp nội suy spline bậc I

Hình 4-3: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 300 dùng phương pháp nội suy spline bậc I

4.1.1 Khái niệm về phép biến hình vị tự :

Phép vị tự (Homothetic Transformation) là một phép biến hình trong không gian affine

Cho một điểm O và một số k ≠ 0 Một phép biến đổi điểm M thành M’ sao cho lm′oooooooop = lmoooooop được gọi là phép vị tự tâm O tỷ số k Hình 4.4 mô tả một phép vị tự tâm O với tỷ số vị tự k=1/2 Qua phép vị tự này, tam giác MNP trở thành tam giác

Phép vị tự tâm O với hệ số k là phép biến hình biến điểm M thành điểm M’ sao cho:- Ảnh của 3 điểm thẳng hàng là 3 điểm thẳng hàng.- Ảnh của hình tròn là hình tròn có bán kính R’ = k.R, với R là bán kính hình tròn ban đầu.- Ảnh của đoạn thẳng AB là đoạn thẳng A’B’ = k.AB.

Nói một cách khác, phép vị tự không bảo toàn về ‘kích thước’ nhưng lại bảo toàn về ‘hình dạng’ của đường cong ban đầu

Dựa vào đặc điểm trên, chúng tôi đã ứng dụng phép vị tự để lấy mẫu lại các ứng viên motif

4.1.2 Lấy mẫu các ứng viên motif bằng phép vị tự

Trong luận văn này chúng tôi đã thực hiện một phép biến hình vị tự trên tất cả các ứng viên motif Sau khi thực hiện phép biến hình này, mỗi ứng viên motif sẽ được đại diện bởi một chuỗi dữ liệu tương ứng Các chuỗi dữ liệu đại diện có cùng một chiều dài được cho bởi người dùng

Việc gom cụm các motif sẽ được thực hiện trên các chuỗi dữ liệu đại diện này

Một vấn đề cần quan tâm là việc chọn tâm vị tự của ứng viên motif Để ý rằng các ứng viên Motif của chúng ta sẽ bắt đầu từ điểm cực đại (hay cực tiểu) và kết thúc bằng điểm cực đại (hay cực tiểu) tiếp theo Như thế chúng ta sẽ dễ dàng tìm được hình chữ nhật bao quanh ứng viên motif này Tâm của phép vị tự sẽ là tâm của hình chữ nhật bao này Hệ số vị tự sẽ là tỷ số giữa chiều dài mong muốn với chiều dài thực của ứng viên motif

Giải thuật tìm các motif đại diện bằng phép biến hình của ứng viên motif có chiều dài N: T={Y 1 … Y n } thành T’ có chiều dài N’

2 Tìm kiếm tâm I của phép biến hình vị tự: X_Center= N/2, Y_Center=(Y_Max+Y_min)/2

3 Thực hiện phép biến hình vị tự với tâm I, hệ số vị tự k=N’/N

Hình 4-5: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 150 điểm dùng phương pháp vị tự

Hình 4-6: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 2000 điểm dùng phương pháp vị tự

Từ các hình 4.1, 4.5 và 4.6 chúng ta thấy rằng phép biến đổi vị tự cho kết quả rất khả quan Hình dạng của chuỗi dữ liệu không bị biến dạng

Việc ứng dụng phép biến hình sẽ triệt tiêu được độ ‘tỷ lệ’ hai ứng viên Motif Tuy nhiên, phép vị tự không thể tìm ra được hai motif giống nhau nếu chúng có biên độ khác nhau

Cho hai chuỗi dữ liệu thời gian T’: {T’ 1 ,T’ 2 … T’ N’ } và Q’: {Q’ 1 ,Q’ 2 ,… Q’ N’ } có cùng chiều dài N’ Thông thường độ tương tự T’ và Q’ sẽ được tính bằng công thức Euclid như sau:

Giả sử hai chuỗi T và Q có cùng hình dạng nhưng biên độ lệch nhau một khoảng nhất định thì công thức (3.5) không thể cho kết quả mong muốn Do đó, để loại bỏ độ lệch này, cần đưa ra một thông số b nhằm triệt tiêu độ lệch, đảm bảo kết quả chính xác.

Ta dễ dàng xác định được giá trị của b như sau: c = 1

Phần tiếp theo chúng tôi sẽ giới thiệu mô hình hiện thực các phương pháp nhận diện motif được thực hiện trong luận văn này.

Mô hình hiện thực các phương pháp

Trong phần này chúng tôi đưa ra các mô hình nhận diện motif như sau:

Dùng phương pháp chiếu ngẫu nhiên

Dùng phương pháp gom cụm phân cấp từ dưới lên với nội suy spline để lấy mẫu các ứng viên motif

Dùng phương pháp phân cụm từ dưới lên hoặc K-Means kết hợp với phép biến hình vị tự và công thức tính độ tương tự cải tiến (3.5’)

4.2.1 Mô hình nhận diện Motif dùng phép chiếu ngẫu nhiên

Trong mô hình này, dữ liệu ban đầu sẽ được thu giảm số chiều bằng phương pháp PAA Chuỗi dữ liệu sau khi được thu giảm sẽ được rời rạc hóa bằng phương pháp SAX Sau cùng, giải thuật chiếu ngẫu nhiên sẽ được sử dụng để nhận diện các motif

Các thông số của giải thuật bao gồm:

Hệ số thu giảm số chiều w_PAA

Số lượng các kí tự rời rạc hóa trong a trong giải thuật SAX

Số vòng lặp của phép chiếu i, kích thước cửa sổ trượt w và số lỗi d trong phép chiếu ngẫu nhiên

4.2.2 Mô hình giải thuật phân cấp từ dưới lên kết hợp với phương pháp tính độ tương tự dùng nội suy spline

Hình 4-8: Mô hình EP_C\HAC\SI

Hình 4.8 mô tả mô hình nhận diện motif dựa vào điểm cực trị quan trọng và nội suy spline Đầu tiên, phương pháp này sẽ tìm ra các điểm cực trị quan trọng Tiếp theo, chúng tôi sẽ đưa ra những ứng viên motif dựa vào các điểm cực trị quan trọng tìm được Cuối cùng, mô hình này sẽ gom cụm các ứng viên motif dựa vào giải thuật HAC Trong trường hợp hai ứng viên motif không cùng chiều dài, phương

Các thông số của phương pháp này bao gồm:

Hệ số nén R sử dụng để tìm các điểm cực trị quan trọng

Chiều dài cực tiểu l_min của các ứng viên Motif

Hệ số r là tổng số các cụm trên tổng số các điểm cực trị (0

Ngày đăng: 25/09/2024, 01:09