1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nhận dạng Mô-Tip trong dữ liệu chuỗi thời gian hình ảnh

112 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Chương 1: GIỚI THIỆU (16)
    • 1.1. Động cơ nghiên cứu (16)
      • 1.1.1. Dữ liệu chuỗi thời gian (16)
      • 1.1.2. B ài toán nhận dạng mô-típ (18)
    • 1.2. Mục tiêu và giới hạn luận văn (20)
    • 1.3. Tóm tắt kết quả (22)
    • 1.4. Cấu trúc luận văn (23)
  • Chương 2: CÁC CÔNG TRÌNH LIÊN QUAN (24)
    • 2.1. Các kỹ thuật thu giảm số chiều dựa vào đặc trưng (25)
      • 2.1.1 Các phương pháp biến đổi trên miền tần số (25)
      • 2.1.2 Các kỹ thuật xấp xỉ tuyến tính từng đoạn (27)
    • 2.2. Các phương pháp rời rạc hoá (30)
      • 2.2.1. Kỹ thuật xấp xỉ gộp ký hiệu hoá – SAX (30)
      • 2.2.2. Kỹ thuật xấp xỉ gộp ký hiệu hoá mở rộng – Extended SAX (38)
      • 2.2.3. Phương pháp iSAX (0)
    • 2.3. Các công trình tìm kiếm mô-típ (42)
      • 2.3.1. Giải thuật Brute-Force (42)
      • 2.3.2. Giải thuật EMMA (43)
      • 2.3.3. Giải thuật nhận dạng mô-típ dùng kỹ thuật chiếu ngẫu nhiên (0)
    • 2.4. Kết luận (46)
  • Chương 3: CƠ SỞ LÝ THUYẾT (47)
    • 3.1. Cách chuyển hình ảnh sang chuỗi thời gian (47)
    • 3.2. Khái niệm trùng khớp (49)
    • 3.3. Mô- típ hình ảnh (50)
    • 3.4. Các độ đo khoảng cách (51)
      • 3.4.1. Độ đo Eulid (0)
      • 3.4.2. Độ đo xoắn thời gian động (54)
    • 3.5. Chuẩn hoá dữ liệu (55)
    • 3.6. Một số giải thuật nhận dạng mô-típ (0)
      • 3.6.1. Giải thuật Brute-Force (56)
      • 3.6.2. Giải thuật EMMA (59)
      • 3.6.3. Giải thuật chiếu ngẫu nhiên-Random Projection (0)
    • 3.7. Hướng tiếp cận bài toán (68)
  • Chương 4: NỘI DUNG NGHIÊN CỨU (0)
    • 4.1. Giới thiệu hệ thống (71)
    • 4.2. Các thành p hần hệ thống (0)
      • 4.2.1. Chuẩn hoá (72)
      • 4.2.2. Kỹ thuật thu giảm số chiều PAA, EPAA (0)
      • 4.2.3. Kỹ thuật rời rạc hoá SAX, ESAX (76)
    • 4.3. Đánh giá giải thuật (80)
    • 4.4. Khảo sát các thông số (81)
    • 4.5. Kết luận (84)
  • Chương 5: THỰC NGHIỆM (85)
    • 5.1. Khảo sát các thông số (86)
    • 5.2. Hệ thống nhận dạng mô-típ (91)
      • 5.2.1. Giải thuật Brute-force (91)
      • 5.2.2. Giải thuật Chiếu ngẫu nhiên (Random Projection) (92)
    • 5.3. So sánh kết quả SAX / ESAX (0)
    • 5.4. Kết luận (104)
  • Chương 6: KẾT LUẬN (105)
    • 6.1. Tổng kết (105)
    • 6.2. Những đóng góp của luận văn (105)
    • 6.3. Hướng phát triển đề tài (106)

Nội dung

năm 2011 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Trần Công Thanh Giới tính : Nam × Ngày, tháng, năm sinh : 12/02/1985 Nơi sinh : Tiền Giang Chuyên ngành : Khoa học máy tính Khoá

GIỚI THIỆU

Động cơ nghiên cứu

1.1.1 Dữ liệu chuỗi thời gian:

Chuỗi thời gian - timeseries T, là một tập hợp gồm n phần tử từ t 1 ,t 2 ,…,t i …,t n là tập có thứ tự gồm các trị thực, trong đó t i là dữ liệu đo ở thời điểm i Nói cách khác chuỗi thời gian là sự quan sát các dữ liệu theo thứ tự thời gian tuần tự Tùy vào ứng dụng thì chuỗi thời gian có thể có hai hay nhiều chiều trong đó có chiều thời gian, dữ liệu được theo dõi và ghi nhận theo những thời điểm nhất định Trong hiện thực thì dữ liệu được ghi nhận trong những khoảng thời gian bằng nhau nên để đơn giản thì chuỗi thời gian chỉ lưu các giá trị dữ liệu theo trình tự thời gian nhất định

Chuỗi thời gian có rất nhiều trong thực tế, trong nhiều lãnh vực như trong y khoa: điện tâm đồ ECG (xem hình 1.1), … trong xử lý tín hiệu: các đường biểu diễn hiệu điện thế, đường biểu diễn tín hiệu… chuỗi thời gian chuyển từ chữ viết …

Hình 1.1 Minh họa chuỗi thời gian

Hình ảnh cũng xuất hiện ở khắp nơi trong thực tế, những gì mắt thấy được đều là hình ảnh như chữ viết, con bướm, bông hoa… trong lĩnh vực khảo cổ: các hình mũi tên đá, các hình vẽ trong hang đá , trong lĩnh vực sinh học: hình ảnh các loài vật trong một khu vực địa lý, tập hợp các lá cây …

Trong cộng đồng xử lý hình ảnh để tận dụng các giải thuật trong xử lý chuỗi thời gian thì cũng đã biến đổi hình ảnh sang dạng chuỗi thời gian và thực hiện các bước xử lý như đối với một chuỗi thời gian bình thường Hình ảnh ở đây tạm thời chỉ quan tâm đến hình dạng (shape), tức biên dạng bên ngoài, chứ chưa xét đến yếu tố màu sắc, hoa văn… Biến đổi hình ảnh thành chuỗi thời gian cũng có nhiều cách như dựa vào góc lệch của các tiếp tuyến của các điểm trên đường biên, dựa vào diện tích tạo bởi hai điểm liền kề trên đường biên và điểm trung tâm của hình, dựa vào khoảng cách từ các điểm biên đến điểm trung tâm của hình ảnh (xem hình 1.2) [20]…

Một số vấn đề khi nghiên cứu chuỗi thời gian:

• Khối lượng dữ liệu lớn: đặc trưng của chuỗi thời gian là dữ liệu lớn Ví dụ như khi đo điện tâm đồ trong 1 giờ dữ liệu khoảng 1 Gigabyte Đây là một khó khăn trong việc phân tích dữ liệu, tính toán và xử lý chuỗi thời gian, cũng như lưu trữ dữ liệu … đây cũng là điều kiện để phát triển các kỹ thuật thu giảm số chiều và các phương pháp rời rạc hoá…

• Phụ thuộc yếu tố chủ quan: Việc thu thập các dữ liệu chịu ảnh hưởng yếu tố chủ quan của người đo, điều kiện và các công cụ đo … Đòi hỏi khi xử lý dữ liệu chuỗi thời gian cần các kỹ thuật chuẩn hoá, cũng như xử lý nhiễu…

• Dữ liệu không đồng nhất: quá trình thu thập chuỗi thời gian được đo trên những định dạng khác nhau, số lượng và tần số lấy mẫu không đồng nhất cũng ảnh hưởng đến tính toàn vẹn dữ liệu

Hình 1.2 Chuyển hình ảnh 2D thành chuỗi thời gian (nguồn từ [20])

1.1.2 Bài toán nhận dạng mô-típ hình ảnh :

Việc tìm kiếm một mẫu thức tương tự một mẫu thức cho trước trong cơ sở dữ liệu chuỗi thời gian lớn (query-by-content) thu hút nhiều sự quan tâm của các nhà nghiên cứu và rất nhiều giải pháp đã được đề xuất, bài toán này còn hỗ trợ cho bài toán truy xuất thông tin (information retrieval), và để giải quyết vấn đề đó thì có một cách tiếp cận là tìm được cấu trúc và quy luật của cơ sở dữ liệu chuỗi thời gian, hay nói cách khác là tìm các mẫu thức lặp lại (mô-típ) của cơ sở dữ liệu Việc tìm mô-típ cũng hỗ trợ trong bài toán khai phá dữ liệu chuỗi thời gian như: khám phá các luật kết hợp, tìm điểm khởi đầu và giá trị k trong giải thuật gom cụm k-mean, tạo các mẫu dữ liệu điển hình khi phân loại dữ liệu, trực quan hoá dữ liệu chuỗi thời gian

Vấn đề tìm kiếm mô-típ nói chung và tìm kiếm mô-típ hình ảnh nói riêng có rất nhiều ứng dụng trong thực tế như trong lãnh vực khảo cổ học: việc tìm các mô-típ chung giữa các tập dữ liệu thu thập sẽ cho biết được mối quan hệ giữa các khu vực, các thời kỳ với nhau; hay trong di truyền học tìm kiếm các mô-típ (trình tự sắp xếp của các nucleotic hay axit amin) cho một chức năng sinh học, trong động vật học cho một tập hình ảnh các sinh vật từ hai nhóm phân loại khác nhau việc tìm mô-típ sẽ giúp xác định được tổ tiên và các bước tiến hoá như hình 1.3 từ hai tập hình ảnh loài bướm ở nhóm Limenitis và nhóm Danaus, tìm ra sự tương đồng về hình dáng nhưng khác nhau về màu sắc và hoa văn, cho thấy hai nhóm có mối liên hệ nhau…

Các giải thuật tìm kiếm mô-típ trong dữ liệu chuỗi thời gian như giải thuật

Brute-Force nhận dạng mô-típ, giải thuật EMMA được Lin và các cộng sự đề nghị 2002[14], giải thuật chiếu ngẫu nhiên – Random-Projections [4][6][20]…Luận văn đã hiện thực giải thuật nhận dạng mô-típ dựa trên giải thuật chiếu ngẫu nhiên– Random-Projections

Giải thuật tìm kiếm mô-típ hình ảnh đòi hỏi phải bất biến với góc quay( rotation- invariant).Ví dụ như trong hình 1.4 để nhận thấy sự tương tự giữa hình 1 và hình 4 có sự tương đồng (hình 1.5) thì đòi hỏi ảnh 1 phải xoay một góc 90 0 Việc giải quyết vấn đề góc xoay thì có nhiều phương pháp được đưa ra như tìm trục chính (nhưng cách này có miền ứng dụng giới hạn và rất nhạy cảm với nhiễu [20])… trong luận văn sử dụng ma trận xoay (rotation matrix)[12]

Hình 1.3 Minh họa tìm mô-típ (nguồn từ [20]).

Mục tiêu và giới hạn luận văn

Mục tiêu chính của luận văn là so sánh hai phương pháp rời rạc hoá là

ESAX (Extended Symbolic Aggregate approXimation – SAX mở rộng), phương pháp rời rạc hoá SAX (Symbolic Aggregate approXimation) khi áp dụng vào giải thuật chiếu ngẫu nhiên nhận dạng mô-típ hình ảnh

Tìm hiểu giải thuật chiếu ngẫu nhiên [20] nhận dạng mô-típ hình ảnh dùng phương pháp rời rạc hoá SAX để tìm kiếm tập mô-típ hình ảnh

Hình 1.4 Minh họa về góc xoay 1 (nguồn từ [20])

Hiện thực phần mềm và thử nghiệm trên các bộ dữ liệu chuỗi thời gian hình ảnh, để so sánh độ hiệu quả của giải thuật chiếu ngẫu nhiên khi áp dụng phương pháp rời rạc hoá SAX với giải thuật áp dụng phương pháp rời rạc hoá ESAX

Phương pháp xấp xỉ gộp ký hiệu hoá – SAX do Lin và các cộng sự đề xuất năm 2003[15] là kỹ thuật ký hiệu hoá dựa trên kỹ thuật thu giảm số chiều PAA do Keogh và các cộng sự đề nghị năm 2000[8] mà trong đó sự thu giảm số chiều là sử dụng các giá trị trung bình của các phân đoạn với độ dài bằng nhau, nên có khả năng bị mất đi một số mẫu thức quan trọng trong dữ liệu, những dữ liệu rất quan trọng đối với chuỗi thời gian tài chính (hình 1.6) Để khắc phục nhược điểm này, Lkhagva và các cộng sự, năm 2006, [16] đã đề nghị một kỹ thuật rời rạc hoá mới là kỹ thuật xấp xỉ gộp ký hiệu hoá mở rộng – Extended SAX – ESAX Kỹ thuật này dựa trên phương pháp PAA mở rộng –Extended-PAA là vẫn dựa vào PAA nhưng mỗi đoạn gồm 3 giá trị là trị trung bình của mỗi phân đoạn, thêm vào giá trị nhỏ nhất và lớn nhất của mỗi phân đoạn

Hình 1.5 Minh họa về góc xoay 2 (nguồn từ [20])

Hình 1.6 Nhược điểm PAA (nguồn từ [16])

Kỹ thuật rời rạc hoá ESAX cũng đã được chứng minh là có nhiều ưu điểm hơn kỹ thuật rời rạc hoá SAX [16] Luận văn thực hiện xây dựng giải thuật tìm mô- típ chuỗi thời gian hình ảnh sử dụng phương pháp rời rạc hoá là ESAX

Hiện thực giải thuật chiếu ngẫu nhiên-Random-Projection trong luận văn gồm các phần:

• Thu giảm số chiều luận văn áp dụng phương pháp thu giảm số chiều PAA, và kỹ thuật PAA mở rộng – EPAA

• Tương ứng là phương pháp rời rạc hoá và biểu diễn chuỗi thời gian thành dạng ký tự là SAX, ESAX

• Sử dụng giải thuật chiếu ngẫu nhiên-Random-Projection để tìm kiếm mô-típ trên tập dữ liệu chuỗi thời gian hình ảnh

• Hiện thực phần mềm và thử nghiệm trên các tập dữ liệu hình ảnh để so sánh hiệu quả của giải thuật khi thay đổi phương pháp rời rạc hoá SAX bằng phương pháp rời rạc hoá ESAX, đồng thời cũng hiện thực giải thuật Brute-Force để đối chiếu kết quả.

Tóm tắt kết quả

Từ những yêu cầu của luận văn, sau thời gian tìm hiểu và hiện thực, luận văn đã hiện thực được phần mềm nhận dạng mô-típ bằng giải thuật chiếu ngẫu nhiên-Random-Projection dùng phương pháp rời rạc hoá SAX, và ESAX; phần mềm tìm mô-típ dùng giải thuật Brute-Force

Phần mềm được xây dựng có thể chia làm 2 phần:

• Phần 1: Tập dữ liệu chuỗi thời gian hình ảnh được chuẩn hoá, tiếp tục qua phần thu giảm số chiều PAA, EPAA, sau đó qua thành phần ký tự hoá SAX, ESAX, và cuối cùng qua bộ phận tạo tập ma trận xoay cho tập chuỗi ký tự SAX, ESAX (riêng kỹ thuật rời rạc hoá ESAX có hai cách xoay RT1, RT2)

• Phần 2: Ma trận xoay ký tự đưa vào bộ phận chiếu ngẫu nhiên, tạo ra ma trận đụng độ, và tiếp tục nhận dạng mô-típ trong tập dữ liệu

Phần việc đầu tiên chúng tôi xây dựng phần mềm khảo sát các tập dữ liệu dựa vào khái niệm độ chặt cận dưới (Tightness of Lower Bound) để tìm ra các thông số phù hợp với tập dữ liệu, như: số chiều thu giảm w, kích thước tập ký tự dùng cho ký hiệu hoá a, huấn luyện giải thuật để tìm ra trị trung bình (average) của ma trận đụng độ (collision matrix) trong giải thuật chiếu ngẫu nhiên-Random-Projection

Tiếp theo, luận văn đã thực nghiệm giải thuật nhận dạng mô-típ trên các tập dữ liệu chuỗi thời gian hình ảnh Kết quả thực nghiệm cho thấy giải thuật nhận dạng mô-típ khi dùng phương pháp rời rạc hoá hoá ESAX (cả hai cách xoay

RT1,RT2) thường thời gian thực thi nhanh hơn, và độ chính xác cao hơn khi giải thuật dùng phương pháp rời rạc hoá SAX

Hiện thực của hệ thống sẽ được trình bày cụ thể trong các chương tiếp theo trong luận văn.

Cấu trúc luận văn

Các chương tiếp theo trong luận văn được tổ chức như sau:

 Chương 2: Các công trình liên quan Trong chương này đề cập đến các công trình liên quan đến bài toán nhận dạng mô-típ, như: các kỹ thuật thu giảm số chiều, kỹ thuật rời rạc hoá, giải thuật nhận dạng mô-típ …

 Chương 3: Cơ sở lý thuyết, nêu lên các lý thuyết được sử dụng trong luận văn: kỹ thuật thu giảm số chiều PAA, kỹ thuật SAX , ESAX , giải thuật chiếu ngẫu nhiên-Random-Projection …

 Chương 4: Nội dung nghiên cứu, là các vấn đề khi nhận dạng mô-típ hình ảnh trong luận văn cần giải quyết, cũng như khi hiện thực chương trình

 Chương 5: Thực nghiệm, chương này trình bày các kết quả thực nghiệm trên một số tập dữ liệu chuỗi thời gian hình ảnh đã được thực hiện trong luận văn

 Chương 6: Kết luận, chương này nêu những nhận xét, kết luận, các đóng góp và hướng phát triển luận văn.

CÁC CÔNG TRÌNH LIÊN QUAN

Các kỹ thuật thu giảm số chiều dựa vào đặc trưng

Kỹ thuật thu giảm số chiều là kỹ thuật biến đổi dữ liệu chuỗi thời gian thành những đường cơ bản đã được định nghĩa trước, chuyển chuỗi thời gian

T=t 1 , t n thành chuỗi C = c 1 ,… c w từ đó người dùng có thể lưu trữ và xử lý trên chuỗi có w giá trị Từ C khi phục hồi về T sẽ bị sai số, giá trị sai số tỉ lệ nghịch vào thông số w, nếu w càng lớn thì giá trị sai số càng nhỏ và ngược lại

2.1.1 Các phương pháp biến đổi trên miền tần số:

2.1.1.1 Phương pháp biến đổi Fourier rời rạc:

Phương pháp biến đổi rời rạc Fourier (Discrete Fourier Tranform) –

DFT do R Agrawal và cộng sự đề nghị[1][2] Trong phương pháp biến đổi Fourier thì đường dữ liệu ban đầu được biểu diễn bởi các đường căn bản Nhưng đường căn bản trong trường hợp này là đường sin và cosin

Ngoài khả năng nén dữ liệu, với cách tính khoảng cách dựa trên khoảng cách Euclidean thì phương pháp Fourier cho phép so sánh gián tiếp 2 chuỗi X, Y thông qua khoảng cách của 2 chuỗi X f , Y f đã được biến đổi Sở dĩ phép biến đổi

D(X, Y) ≥ α D(X f , Y f ) (trong đó α là hằng số)

Vì vậy, phương pháp biến đổi Fourier đã được sử dụng trong nhiều ứng dụng và một số phương pháp lập chỉ mục như F-index, ST-index … Ưu điểm của phương pháp DFT là thích hợp với các loại đường biểu diễn dữ liệu khác nhau và giải thuật để biến đổi dữ liệu Tuy nhiên, nhược điểm lớn nhất của phương pháp là rất khó giải quyết nếu các chuỗi thời gian có chiều dài khác nhau, và phương pháp có độ phức tạp O(nlgn)

C Chuỗi xấp xỉ gộp từng đoạn – PAA của chuỗi thời gian C = c 1 , c 2 …c w

Chuỗi biểu diễn ký tự SAX của chuỗi thời gian

S Chuỗi ESAX của chuỗi thời gian S = s s s s s s 1 1 , , , 1 2 1 3 1 2 , 2 2 , 3 2 , , s s s 1 j 2 j , 3 j , s s s 1 w , 2 w , 3 w w Số chiều thu giảm - Số đoạn trong chuỗi PAA của chuỗi thời gian a Kích thước tập ký tự dùng để biểu diễn SAX hay ESAX ( dùng {a,b,c}, thì a 3)

Bảng 2.1 Các ký hiệu dùng trong luận văn

2.1.1.2 Phương pháp biến đổi wavelet rời rạc :

Phương pháp thu giảm số chiều bằng biến đổi Wavelet rời rạc( Discrete

Wavelet Transform) – DWT do K Chan và W Fu đề nghị năm 1999 [5] Phương pháp DWT cũng giống phương pháp DFT, tuy nhiên đường cơ bản của nó không phải là đường lượng giác sin hay cosin mà là đường Haar Đường Haar được định nghĩa theo các công thức ψ i j như sau:

Ngoài sử dụng đường Haar, phương pháp Wavelet có thể sử dụng các đường cơ bản khác như đường Daubechies, Coiflet, Symmlet…Tuy nhiên, Haar Wavalet đã được sử dụng nhiều trong khai phá dữ liệu chuỗi thời gian và lập chỉ mục

Phương pháp biến đổi Wavelet rời rạc rất hiệu quả bởi vì nó mã hoá đơn giản và nhanh Độ phức tạp của việc mã hoá này là tuyến tính Một ưu điểm của phương pháp Wavelet là nó hỗ trợ nhiều mức phân giải Tuy nhiên nhược điểm là chiều dài chuỗi dữ liệu ban đầu của nó phải là một số lũy thừa hai và chiều dài của chuỗi con truy vấn cũng nên là số lũy thừa của hai thì giải thuật mới thực hiện hiệu quả

2.1.2 Các kỹ thuật xấp xỉ tuyến tính từng đoạn :

Phương pháp xấp xỉ tuyến tính từng đoạn - PLA:

Phương pháp xấp xỉ gộp từng đoạn – PLA (Piecewise Linear

Approximation) do E Keogh và cộng sự đề nghị năm 2001[10][11] Phương pháp này rất đơn giản, các tác giả tuần tự xấp xỉ k giá trị liền kề nhau thành một đoạn thẳng tuyến tính Quá trình cứ tiếp tục như vậy từ trái sang phải Kết quả cuối cùng là đoạn thẳng có thể liên tục hoặc rời nhau Ưu điểm của cách biểu diễn này là thời gian tính toán tuyến tính, trực quan và cách biểu diễn của nó hỗ trợ nhiều độ đo khoảng cách Nhược điểm lớn nhất là chưa có cách lập chỉ mục hiệu quả cho cách biểu diễn này

0 các trường hợp khác i ( ) j t ψ Kỹ thuật xấp xỉ gộp từng đoạn - PAA:

Keogh và các cộng sự, 2000 [8] đã đề nghị kỹ thuật thu giảm chiều là kỹ thuật xấp xỉ gộp từng đoạn - PAA ( Piecewise Aggregate Approximation)

Cho chuỗi thời gian C = c 1 , c 2 , … c n có chiều dài n được chuyển vào không gian w chiều ( 1≤ w ≤ n) thành vector C = c 1 , c 2 …c w thành phần thứ i sẽ được tính theo công thức sau: w

Thành phần thứ i của vector C là trung bình cộng của k phần tử liên tiếp từ phần tử thứ (k ( i - 1) + 1)  ki của chuỗi thời gian C với tỉ số nén k = n w

Nếu w bằng n thì chuỗi PAA bằng đúng chuỗi chuỗi thời gian gốc, nếu w bằng 1 thì chuỗi biểu diễn PAA chỉ còn là một giá trị trung bình cộng của chuỗi thời gian gốc

Cho một chuỗi thời gian có tám phần tử muốn thu giảm về hai phần tử như hình 2.1

X =(-1,1) Biểu diễn PAA của chuỗi thời gian có thể trực quan hoá là sự kết tuyến tính của các hàm vuông như hình 2.2

Hình 2.1 Ví dụ kỹ thuật xấp xỉ gộp từng đoạn (từ nguồn [8])

Hình 2.2 Chuỗi PAA là sự kết hợp các hàm vuông (từ nguồn [15]) Đo khoảng cách Euclidean giữa hai chuỗi PAA theo công thức bên dưới: w 2

Và DR X Y ( , ) ≤ D X Y ( , ) điều này đã được chứng minh trong [8] cho thấy ( , )

DR X Y là biên dưới của khoảng cách Euclidean

Phương pháp xấp xỉ gộp từng đoạn – PAA rất đơn giản, thời gian tính toán nhanh và cách biểu diễn hỗ trợ nhiều hàm tính khoảng cách PAA là bước quan trọng và cần thiết để biểu diễn chuỗi thời gian về dạng ký tự SAX, và ESAX, cho phép luận văn hiện thực giải thuật nhận dạng mô-típ hình ảnh

Phương pháp xấp xỉ hằng số từng đoạn thích nghi :

Phương pháp xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise

Constant Approximation –APCA) do E Keogh và cộng sự đề nghị năm 2001[9] Phương pháp APCA giống như phương pháp PAA là xấp xỉ dữ liệu ban đầu thành những đoạn thẳng nằm ngang Tuy nhiên, nó khác với PAA là các đoạn này ở PAA có kích thước bằng nhau, còn ở APCA thì kích thước của các đoạn là khác nhau tùy theo dữ liệu Những vùng nào trên chuỗi thời gian có biến động nhấp nhô nhiều thì được phân thành những đoạn ngắn, còn những vùng nào ít biến động thì được phân thành những đoạn dài hơn Ưu điểm của phương pháp này là tỉ lệ nén dữ liệu và tỉ lệ lỗi thường tốt hơn phương pháp PAA, phương pháp hỗ trợ tìm kiếm xấp xỉ và tìm kiếm chính xác Nhược điểm là phương pháp có độ phức tạp là O(nlog(n)).

Các phương pháp rời rạc hoá

Quá trình chia dữ liệu thành những đoạn nhỏ được gọi là quá trình rời rạc hoá, tương ứng với mỗi đoạn nhỏ này ta sẽ mã hoá bởi những đặc trưng của đoạn, tập hợp các đặc trưng lại theo thứ tự đoạn sẽ thành biểu diễn cho dữ liệu ban đầu Các phương pháp rời rạc hoá mà cụ thể là phương pháp biểu diễn ký tự hoá sẽ cho phép thực hiện các kỹ thuật băm, tạo cây hậu tố, và có thể tận dụng các kỹ thuật trong xử lý văn bản, hay các kỹ thuật trong sinh học…

2.2.1 Kỹ thuật xấp xỉ gộp ký hiệu hoá – SAX:

Có nhiều kỹ thuật để biểu diễn chuỗi thời gian đã được đề nghị như trong hình 2.3 Trong các bài toán thì phương pháp biểu diễn chuỗi thời gian hiệu quả thì cũng ảnh hưởng rất nhiều đến chất lượng của bài toán khai phá dữ liệu, cho nên có rất nhiều phương pháp biểu diễn chuỗi thời gian đã được đề xuất như phép biến đổi Fourier rời rạc hoá– Discrete Fourier Transform (DFT), phép biến đổi

Wavelet rời rạc hoá - Discrete Wavelet Transform (DWT) … thì SAX cũng là một trong những kỹ thuật đó

Hình 2.3 Cây phân cấp các dạng biểu diễn chuỗi thời gian (từ nguồn [15])

Lin J và các cộng sự 2003[15] đã đề nghị kỹ thuật biểu diễn chuỗi thời gian bằng ký hiệu gọi là kỹ thuật xấp xỉ gộp ký hiệu hoá – SAX (Symbolic

SAX biến chuỗi thời gian có chiều dài n thành chuỗi ký tự có chiều dài w(

1≤w ≤ n, thường w 2) ký tự Để có một biểu diễn xấp xỉ gộp ký hiệu hoá thì các công việc cần làm :

• Công việc đầu tiên là chuyển chuỗi thời gian thành xấp xỉ gộp từng đoạn – PAA

• Sau đó tiếp tục ký hiệu hoá từng đoạn của chuỗi PAA thành một trị rời rạc, bằng cách so sánh từng giá trị PAA với các điểm ngắt

Chuỗi thời gian ở đây đã được chuẩn hoá được giả định rằng có giá trị trung bình bằng không và có độ lệch chuẩn bằng một

Dữ liệu chuỗi thời gian sau khi chuẩn hoá được giả định rằng có phân bố xác suất Gauss, ví dụ như hình 2.4 mô tả tám tập dữ liệu có chiều dài 128

Hình 2.4 Phân bố giá trị của các chuỗi thời gian (từ nguồn [15])

Do chuỗi thời gian đã chuẩn hoá giả định sẽ thỏa phân bố theo xác suất

Gauss, nên các điểm ngắt (breakpoint) là các điểm chia phân bố Gauss thành các phần diện tích bằng nhau

Tập điểm ngắt ( breakpoints) là một danh sách có thứ tự B = β1,…β a-1 chia phân bố xác suất Gauss (0,1) thành các phần diện tích bằng nhau, diện tích đường phân bố từ điểm β i đến điểm β i+1 bằng 1/a (β0 β a tương ứng với -∞ +∞)

Biến chuỗi PAA : C thành chuỗi như sau, giả sử a = 3 thì:

Bảng 2.2 Bảng tra điểm ngắt (breakpoints) với a = 3 10 (từ nguồn [15])

Hình 2.5 Chuỗi thời gian n = 128, w = 8, a = 3 biểu diễn bằng SAX (từ nguồn [15])

Từ (word) một chuỗi thời gian C có chiều dài n có thể biểu diễn bằng một từ

Cho anpha i biểu diễn thành phần thứ i trong bảng ký tự như anpha 1 = a, anpha 2 = b… sau đó tiếp tục chiếu chuỗi PAA C thành chuỗi theo công thức sau:

= anpha j nếu β j − 1≤ 0, nếu D(T 1 ,T 2 ) < ξ, thì T 1 khớp với T 2 Ví dụ như ảnh A, ảnh C trong hình 3.3 có sự tương tự nhau, thể hiện động tác của diễn viên sau một khoảng thời gian, đây là sự trùng khớp nên quan tâm

Với D() là độ đo khoảng cách giữa các chuỗi thời gian như khoảng cách Euclidean, độ đo xoắn thời gian động (DTW), chuỗi con chung dài nhất (LCS)…

Trùng khớp hình ảnh tầm thường (image trivial match): cho hai khung hình liền kề nhau T i , T i+1 và một ngưỡng ε > 0 (ε < ξ ), nếu D( T i , T i+1 ) < ε, thì

Ti khớp tầm thường với T i+1 Như trong ảnh B, ảnh A trong hình 3.3 thì chỉ đơn giản là kết quả của hai khung hình liền kề nhau

Hình 3.3 Minh họa về trùng khớp (nguồn từ [20]).

Mô- típ hình ảnh

Các mô-típ hình ảnh là các hình ảnh được xấp xỉ lập lại nhiều lần trong tập dữ liệu hình ảnh

Cho tập dữ liệu hình ảnh Ω ={T i } i = 1 N, và một ngưỡng là (ξ,ε) mô-típ phổ biến nhất trong tập Ω được gọi là là 1 st -motif là hình ảnh có số ảnh trùng khớp không tầm thường nhiều nhất Tương tự k th -motif là mô-típ phổ biến thứ k trong tập Ω

Mối quan hệ giữa các tập mô-típ trong cơ sở dữ liệu, được minh họa trong hình 3.4, có 2 cách như sau:

Cách 1: như trong phần A của hình 3.4 là khoảng cách tâm của các tập mô-típ khác nhau D( T i , T k ) > ξ, điều này đồng nghĩa với việc các tập mô-típ có thể chồng lấn lên nhau, hay nói cách khác là một phần tử có thể là thành phần một hay nhiều tập mô-típ, hoặc không thuộc tập mô-típ nào Như trong phần A của hình 3.4 hai tập mô-típ 1-motif và 2-motif có một phần chồng lấn lên nhau

Cách 2 :D( T i , T k ) > 2*ξ ; trong đó T i , T k lần lượt là tâm của các mô-típ thứ i,k Tức là khoảng cách của phần tử tâm của 2 mô-típ phải cách nhau ít nhất là 2 lần ngưỡng mô-típ, do đó không cho phép các tập mô-típ khác nhau chồng lấn lên nhau, như trong hình B của hình 3.4 hai tập mô-típ 1-motif và 2-motif các xa nhau, và không chồng lấn lên nhau

Hình 3.4 Khoảng cách 2 tập mô-típ (nguồn từ [14])

Tùy vào từng yêu cầu bài toán mà người ta có xét các tập mô-típ theo cách cụ thể Trong luận văn hiện thực theo cách 1 bởi vì như trong thực tế nghiên cứu trong lĩnh vực sinh vật thì việc chồng lắp giữa các tập mô-típ thể hiện mối quan hệ họ hàng, hay sự tiến hoá của sinh vật…

Ví dụ trong hình 1.4 là các hình vẽ trên đá của người cổ đại được thu thập từ miền Tây Nam nước Mỹ thì ảnh 1 và ảnh 4 có sự tương đồng nhau, đều từ ba vòng tròn tiếp xúc nhau, và khi điều chỉnh góc xoay và biến đổi về chuỗi thời gian thì rõ ràng hai chuỗi thời gian này có sự tương đồng nhau như hình 1.5 cho thấy là hai hình nay có cùng mô-típ.

Các độ đo khoảng cách

Giả sử cho một trị thực ξ, gọi là tầm (range) Hai chuỗi Q,C khớp nhau

(match) khi và chỉ khi D(Q,C) ≤ ξ D là độ đo sự tương tự Tùy vào dữ liệu và người dùng định nghĩa mà sẽ có giá trị ξ phù hợp với bài toán Đã có nhiều độ đo tương tự đã được sử dụng Việc chọn một độ đo tương tự là tùy thuộc rất nhiều vào miền ứng dụng và trong nhiều trường hợp thì một độ đo thuộc chuẩn Lp đơn giản như độ đo Euclidean là đủ tốt để dùng Tuy nhiên trong nhiều trường hợp thì độ đo Euclidean tỏ ra quá cứng nhắc vì không thích nghi được với những phép biến đổi như tịnh tiến (shifting), co giãn biên độ tương tự mới hơn dựa vào những độ đo tương tự mềm dẻo và vững chắc hơn như độ đo xoắn thời gian động, chuỗi con chung dài nhất

Tuy nhiên, độ đo khoảng cách giữa cách đối tượng nên thỏa các tính chất sau:

Trong bốn tính chất trên, tính chất một có nghĩa là khoảng cách hai chuỗi bằng không khi và chỉ khi hai chuỗi bằng nhau Tính chất hai là tính đối xứng của độ đo khoảng cách Tính chất ba là khoảng cách giữa hai chuỗi bất kỳ luôn lớn hơn bằng không Tính chất bốn là tính chất tam giác Với kỹ thuật này, từ những kết quả tính toán đã biết, ta có thể bỏ qua những không gian tìm kiếm mà chắc chắn không có lời giải thỏa mãn yêu cầu Do đó, thời gian tính toán sẽ giảm Đối với bài toán tìm kiếm tương tự trên dữ liệu chuỗi thời gian thì dữ liệu được biểu diễn thành các dãy số thực :

Ta cần phải tính độ tương tự của hai mẫu này Sim(Q,C) và đã có nhiều cách đánh giá khác nhau được đề xuất, tiếp theo là một số phương pháp đánh giá độ tương tự đã được đề nghị

Cho hai chuỗi thời gian Q = q 1 ,q 2 …q n và C = c 1 , c 2 … c n thì khoảng cách Euclidean của hai chuỗi Q,C theo công thức:

Hình 3.5 Minh họa độ đo Euclidean (nguồn [14]) Độ đo khoảng cách Euclidean có ưu điểm là dễ hiểu, dễ tính toán, dễ mở rộng cho nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như gom cụm, phân lớp, nhận dạng mô típ, …

Nhưng độ đo khoảng cách này có nhược điểm là nhạy cảm với nhiễu, và không thích hợp khi dữ liệu có đường căn bản khác nhau hay có biên độ dao động khác nhau

Khi tìm mô-típ hình ảnh thì có một khó khăn là về góc xoay, thì độ đo

Euclidean bình thường không đáp ứng được yêu cầu về góc xoay nên cần có một độ đo bất biến với góc xoay Ví dụ như hình 1.5 rõ ràng hai hình có sự tương đồng nhưng trong hình gốc 1.4 thì hai hình lệch nhau 90 0 Để giải quyết vấn đề góc xoay thì cần khái niệm ma trận xoay (rotation matrix) [12][20]: cho một chuỗi thời gian T có chiều dài n, tất cả khả năng xoay được tập hợp trong ma trận xoay RT có kích thước n×n như sau:

Mỗi hàng là một chuỗi thời gian dịch chuyển so với lân cận của nó, hàng i th như T i , cách viết khác RT ={T 1 , T 2 ,….T n } Độ đo Euclidean bất biến với góc xoay: cho hai chuỗi thời gian T 1 , T 2 cùng có chiều dài n, được tính theo công thức sau:

Trong đó: RED(T 1 ,T 2 ) là độ đo bất biến góc xoay của hai chuỗi thời gian

ED T T ( , 1 2 j ) là độ đo Euclidean của T 1 với thành phần j của RT(T 2 )

Luận văn sử dụng độ đo Euclidean bất biến với góc xoay để tính khoảng cách các chuỗi trong giải thuật Brute-Force, và tính độ tương tự giữa các hình ảnh ứng viên trong bước kiểm tra lại các chuỗi thời gian có sự tương tự khi biểu diễn rời rạc hoá (SAX, ESAX) sau khi qua giải thuật chiếu ngẫu nhiên-Random Projection

3.4.2 Độ đo xoắn thời gian động :

Việc so trùng hai đường biểu diễn dữ liệu bằng cách tính khoảng cách từng cặp điểm 1-1 (điểm thứ i của đường thứ I so với điểm thứ i của đường thứ

II) là không phù hợp trong trường hợp hai đường này không hoàn toàn giống nhau nhưng hình dạng biến đổi rất giống nhau Như trong hình 1, hai đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian Trong trường hợp này, nếu tính khoảng cách bằng cách ánh xạ 1-1 giữa hai đường thì kết quả rất khác nhau và có thể dẫn đến kết quả cuối cùng không giống như mong muốn

Vì vậy để khắc phục nhược điểm này, thì một điểm có thể ánh xạ với nhiều điểm và ánh xạ này không thẳng hàng (xem hình 3.6) Phương pháp này gọi là xoắn thời gian động (Dynamic Time Warping - DTW) được đề xuất bởi Bernt và Clifford, 1994 [1]

Ưu điểm: o Phương pháp DWT thì hiểu quả hơn rất nhiều so với phương pháp tính khoảng cách theo Euclidean Đặt biệt trong các bài toán phân loại

(classfication), gom cụm (clustering) hay trong các các ứng dụng nhận dạng giọng nói… o Phương pháp DWT cho phép nhận dạng những mẫu có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời gian có thể khác nhau

Nhược điểm: Nhược điểm lớn nhất của DTW là thời gian chạy rất lâu, gấp hàng trăm đến hàng nghìn lần Ban đầu đưa ra giải thuật DTW thì w n (n là chiều dài của dữ liệu) Khi đó, độ phức tạp là O(n 2 ) Do đó, ta đưa ra thông số cửa sổ xoắn w (w < n) để giảm độ phức tạp là O(w×n)

 Các cải tiến cho phương pháp DTW: oDùng phép ánh xạ để chuyển cách biểu diễn ban đầu sang cách biểu diễn khác bằng cách nén dữ liệu và giảm tần số lấy mẫu Khi đó việc tính toán theo DTW nhanh hơn o Cận dưới (lower bound) Miền tìm kiếm này có thể giới hạn bởi hai đường thẳng song song hoặc có thể có hình dạng khác (tùy theo từng hợp cụ thể)

Hình 3.6 Độ đo xoắn thời gian động (nguồn từ [7]).

Chuẩn hoá dữ liệu

Để thực hiện các bước xử lý chuỗi thời gian như thu giảm chiều, rời rạc hoá thì đòi hỏi phải có bước tiền xử lý để chuỗi thời gian có trị trung bình là không và có độ lệch chuẩn bằng một

Cho chuỗi thời gian ban đầu là T = t 1 ,t 2 ,….t n và chuỗi thời gian đã được chuẩn hoá là T’ = t 1 ’,t 2 ’,….t n ’ theo công thức:

Một số giải thuật nhận dạng mô-típ

= ∑ = giá trị trung bình của chuỗi thời gian T

Trong đó T – mean(T) nhằm mục đích chuyển dữ liệu ban đầu T có đường căn bản (base line) bất kỳ thành T’ Tuy nhiên, giá trị của các phần tử dữ liệu của Q’ sẽ thay đổi quanh đường căn bản bằng không mà vẫn đảm bảo chính xác hình dạng, cũng như đặc trưng của dữ liệu ban đầu

Ngoài ra, từ dữ liệu thô ban đầu T biến đổi thành dữ liệu T’ để hạn chế dữ liệu nhiễu Trong đó, biên độ của nhưng dữ liệu nhiễu sẽ bị giảm Do đó không ảnh hưởng quá nhiều đến kết quả sau cùng Vì vậy, các phần tử dữ liệu biến đổi được chia cho lượng lệch chuẩn của T là var(T)

Khi chuỗi thời gian đã được chuẩn hoá được giả định sẽ có giá trị trung bình bằng không, và độ lệch chuẩn bằng một, khi đó chuỗi thời gian giả định thỏa mãn phân bố Gauss Đây là yêu cầu cho các phương pháp biểu diễn như SAX, hay ESAX

3.6 Các giải thuật nhận dạng mô-típ:

Giải thuật Brute-Force là giải thuật nhận dạng mô-típ cơ bản nhất, giải thuật sẽ vét cạn tất cả các trường hợp do đó giải thuật rất chậm và tốn nhiều tài nguyên

Brute-Force dùng để tìm 1-motif trong một tập chuỗi thời gian T, gồm m chuỗi, chiều dài mỗi chuỗi là n, và tầm (ξ,ε) Mã giả của giải thuật được trình bày ở bảng 3.1 Mã giả giải thuật Brute-Force để tìm kiếm 1-motif còn muốn tìm các mô-típ bậc tiếp theo thì cách hiện thực cũng tương tự

Giải thuật Brute-Force tìm mô-típ hình ảnh 1-motif:

 Khởi tạo giá trị ban đầu (hàng lệnh 1,2) best_motif_count_so_far =

0 chứa số phần tử trong 1-motif ; best_motif_location_so_far = null ;chứa vị trí của các phần tử trong 1-motif

 Giải thuật gồm hai vòng lặp lòng vào nhau: vòng lặp ngoài chạy từ i

= 1 : m (hàng lệnh 3) vòng lặp trong là j = 1 : m (hàng lệnh 6) để tạo ra m×m cặp chuỗi (T i ,T j ), mỗi cặp chuỗi này sẽ được cho vào hàm non_trival_match(T i ,T j , ξ , ε) (hàng lệnh 7), hàm này có một ma trận khoảng cách m×m, nếu vị trí (i,j) chưa có, thì tính RED(T i , T j ), lưu vào 2 vị trí ij và ji; sau đó so sánh khoảng cách với giá trị ngưỡng trùng khớp không tầm thường để kiểm tra cặp (T i ,T j ) có trùng khớp không tầm thường Nếu cặp nào là trùng khớp không tầm thường thi sẽ tăng trị count lên và lưu vị trí j lại (hàng lệnh 8,9) Khi kết thức vòng lặp trong, thì sẽ so sánh giá trị count với giá trị best_motif_count_so_far nếu count lớn hơn thì sẽ lưu best_motif_count_so_far ;best_motif_location_so_far ;motif_matchs (hàng lệnh 13,14,15)

 Kết thúc hai vòng lặp kết quả sẽ tìm được 1-motif với các thông số lưu trong các giá trị: o best_motif_count_so_far o best_motif_location_so_far o motif_matchs

Giải thuật trên gọi hàm tính khoảng cách O(m 2 ) lần Do độ đo khoảng cách

Euclidean có tính đối xứng [8] nên khi tính D(A,B) thì kết quả sẽ được lưu lại không cần tính D(B,A), điều này giúp làm giảm số lần gọi hàm tính khoảng cách nhưng việc này đòi bộ nhớ để lưu m(m-1)/2 giá trị, điều này phụ thuộc vào kích thước của tập dữ liệu

Khi áp dụng giải thuật Brute-Force để tìm mô-típ hình ảnh thì đơn giản là so sánh mỗi hình ảnh với những hình khác trong tập Ω bằng độ đo Euclidean bất biến với góc xoay theo công thức 3.3, và sau đó thu thập các hình ảnh có khoảng cách nhỏ hơn ξ và lớn hơn ε của mỗi hình ảnh Độ phức tạp của giải thuật là

O(|m| 2 n 2 ) rõ ràng không khả thi với các tập dữ liệu lớn

Giải thuật Find-1-Motif-Brute-Force (T,ξ,ε)

17 best_motif_count_so_far = 0 ; best_motif_location_so_far = null ; for i = 1 to m count = 0 ; pointers = null ; for j = 1 to m if non_trival_match(T i ,T j ,ξ,ε) count = count + 1 ; pointers = append(pointers,j); end ; end ; if count > best_motif_count_so_far best_motif_count_so_far = count ; best_motif_location_so_far = i ; motif_matchs = pointers; end ; end ;

Bảng 3.1 Giải thuật Brute-Force tìm 1-motif

Giải thuật EMMA (Enumeration of Motif through Matrix Approximation) – lập danh sách mô-típ thông qua ma trận xấp xỉ giúp tăng tốc tìm mô-típ so với giải thuật Brute-Force bằng cách:

• Tìm kiếm trong một bộ các ma trận nhỏ hơn, tổng kích thước của bộ này cũng nhỏ hơn ma trận O(m 2 )

• Trong từng ma trận nhỏ đó, dùng giải thuật ADM để tiếp tục cắt không gian tìm kiếm

Giải thuật EMMA thực thi lần lượt theo các bước sau:

• Bước 1: Sau khi thiết lập các thông số ban đầu, thì giải thuật bắt đầu bằng việc dịch chuyển cửa sổ (window) có kích thước bằng n dọc theo chuỗi thời gian T (hàng lệnh 4)

Hàng lệnh 5 có dùng hàm băm h(), thì chuỗi thời gian sau khi được chuẩn hoá, biểu diễn thành từ SAX, sẽ được tính toán vị trí trong bảng băm theo công thức:

= +∑ − × (2.16) Ở đây thì ord c ( )  i là trị thứ tự của c  i , như ord(a) = 1, ord(b) = 2…hàm băm h() sẽ trả về trị trong khoảng 1 đến w a (kích thước của mảng băm), có một con trỏ chỉ đến chuỗi con là nơi trong bucket tương ứng

• Bước 2: Bước này dùng sắp xếp lại dữ liệu vào bảng băm có w a địa chỉ và tổng kích thước là O(m) Tiếp theo sẽ dùng những thông tin này để tìm mô- típ, những địa chỉ nào trỏ đến nhiều chuỗi con là những vị trí đáng quan tâm gọi là các ứng viên hy vọng nhất (MPC – dòng lệnh 8)

Hướng tiếp cận bài toán

Đầu tiên tiếp tục hiện thực giải thuật tìm kiếm mô-típ hình ảnh dùng kỹ thuật chiếu ngẫu nhiên [20], với kỹ thuật rời rạc hoá là phương pháp xấp xỉ gộp ký hiệu hoá SAX

Tiếp theo tiếp tục tìm cách thay thế phương pháp SAX bằng phương pháp xấp xỉ gộp ký hiệu hoá mở rộng – Extended-SAX (ESAX) Đánh giá ảnh hưởng của việc thay đổi phương pháp rời rạc hoá, bằng việc so sánh số lần gọi hàm tính khoảng cách Euclidean :

_ _ _ _ ( ) _ _ _ number of times motif alo grithm ESAX call Eulidean dist efficency number of times motif alo grithm SAX call Eulidean dist Để dể dàng trong luận văn đặt: number of _ _ times motif _ _ alo grithm ESAX ( ) _ call _ Eulidean dist _ = Σ ESAX

_ _ _ _ ( ) _ _ _ number of times motif alo grithm SAX call Eulidean dist =Σ SAX Đánh giá độ chính xác của giải thuật chiếu ngẫu nhiên-random projection dùng phương pháp SAX/ ESAX luận văn lấy tỉ số của tổng số motif (so với các motif tìm được bằng giải thuật Brute-Force) mà giải thuật tìm được; và tỉ số của tổng số phần tử (so với các phần tử tìm được bằng giải thuật Brute-Force) mà giải thuật tìm được Đánh giá thời gian thực hiện bằng tỉ số thời gian thực hiện của giải thuật Để áp dụng được phương pháp xấp xỉ gộp ký hiệu hoá mở rộng ESAX để tìm mô-típ thì tiếp tục cần một vài điều chỉnh:

Lỗi khôi phục ESAX ( ESAX Reconstruction Error )

Cũng giống như xấp xỉ gộp ký hiệu hoá –SAX thì khi tìm mô-típ hình ảnh, do có nhiều góc xoay nên tiếp tục phải chọn vị trí bắt đầu nào để khi tiếp tục biểu diễn chuỗi thời gian về dạng xấp xỉ gộp ký hiệu hoá mở rộng - ESAX tốt hơn

Cho chuỗi thời gian C = c 1 , c 2 , … c n và từ ESAX của nó là S 1 1 1 2 2 2

1 , , , 2 3 1 , 2 , 3 , , 1 j 2 j , 3 j , 1 n 2 n , 3 n s s s s s s s s s s s s Tương tự công thức 2.11 tiếp tục định nghĩa công thức tính lỗi cho ESAX như sau, do mỗi đoạn n/w được biểu diễn bởi ba thành phần nên tiếp tục có công thức tính lỗi như sau:

Trong đó:c i là điểm dữ liệu thứ i của chuỗi thời gian

2 w i β n − + lần lượt là trị chia hai các ký tự thứ một, hai, ba của biểu diễn đoạn chuỗi thời gian chứa c i

Luận văn sử dụng khái niệm lỗi phục hồi trong bước tiền xử lý để tạo ra dữ liệu chuỗi thời gian khi biến đổi sang chuỗi SAX , chuỗi ESAX là tốt nhất

Ma trận xoay cho chuỗi SAX:

Tìm phương pháp dịch để tạo thành ma trận xoay cho chuỗi ESAX để nhập đầu vào cho kỹ thuật chiếu ngẫu nhiên

Giả sử có chuỗi ESAX như hình 2.11 chuỗi ESAX như sau: S1 = ACF FDF FCA ABF FFF DCA

Cách 1- RT1: Xét chuỗi ESAX như một chuỗi ký tự bình thường như chuỗi SAX và thực hiện dịch từng ký tự trong chuỗi, cụ thể như sau:

Khi đó kích thước tập ma trận xoay chuỗi ký tự sẽ là m×(3×w) với m số chuỗi trong tập,w số chiều thu giảm của phương pháp EPAA

Cách 2 – RT2: Để tạo ma trận trận xoay ta thực hiện dịch chuỗi ESAX theo từng bộ ba, tức là thực hiên xoay theo từng segment, cụ thể như sau:

S 1 = ACF FDF FCA ABF FFF DCA

S 2 = FDF FCA ABF FFF DCA ACF

S 3 = FCA ABF FFF DCA ACF FDF

S 4 = ABF FFF DCA ACF FDF FCA

S 5 = FFF DCA ACF FDF FCA ABF

S 6 = DCA ACF FDF FCA ABF FFF

Khi đó kích thước tập ma trận xoay chuỗi ký tự sẽ là m×w với m số chuỗi trong tập,w số chiều thu giảm của phương pháp EPAA

Luận văn cũng so sánh hai trường hợp tạo ma trận xoay qua độ chính xác, số lần gọi hàm tính khoảng cách để tìm ra cách tốt hơn để áp dụng vào giải thuật chiếu ngẫu nhiên-Random Projection nhận diện mô-típ hình ảnh dùng phương pháp rời rạc hoá ESAX

NỘI DUNG NGHIÊN CỨU

Giới thiệu hệ thống

Hệ thống nhận dạng mô-típ hình ảnh được thiết kế để có thể khi đưa một tập dữ liệu hình ảnh vào (hình ảnh đã được biến đổi thành chuỗi thời gian), hệ thống xử lý và trả về tập các mô-típ trong tập từ 1-motif, đến k-motif bao gồm vị trí các thành phần mô-típ trong tập dữ liệu hình ảnh ban đầu

Hệ thống sử dụng giải thuật chiếu ngẫu nhiên-Random Projection trên ma trận xoay tập chuỗi rời rạc SAX , ESAX được thu giảm và rời rạc hoá từ tập dữ liệu chuỗi thời gian hình ảnh ban đầu, hệ thống sẽ dùng độ đo tương tự Euclidean để kiểm tra lại các ứng viên mô-típ từ bộ phận chiếu ngẫu nhiên, để có mô-típ đúng cần tìm

4.2 Các thành phần trong hệ thống:

Hình 4.1 biểu diễn các thành phần trong hệ thống, gồm các bộ phận:

 Thu giảm số chiều PAA, EPAA

 Rời rạc hoá dữ liệu bằng phương pháp SAX, ESAX

Các thành p hần hệ thống

Yêu cầu đầu tiên là kích thước các thành phần trong tập dữ liệu hình ảnh phải bằng nhau Để tránh trường hợp miền giá trị của các thành phần trong tập dữ liệu hình ảnh khác nhau do tập dữ liệu thô ban đầu có thể từ nhiều nguồn khác nhau, thêm vào đó để giảm bớt sụ ảnh hưởng của dữ liệu nhiễu làm sai lệch kết quả

Dữ liệu hình ảnh trước khi cho vào hệ thống sẽ được tiền xử lý chuẩn hoá Giai đoạn tiền xử lý có hai nhiệm vụ:

+ Hạn chế và loại bỏ dữ liệu nhiễu

+ Chuẩn hoá dữ liệu ban đầu từ miền trị chưa xác định về miền trị xác định trước Để thực hiện các bước xử lý chuỗi thời gian cho việc thu giảm chiều, rời rạc hoá thì đòi hỏi phải có bước tiền xử lý là chuẩn hoá để chuỗi thời gian có trị trung bình là không và có độ lệch chuẩn bằng một

Cho chuỗi thời gian ban đầu là T = t 1 ,t 2 ,….t n và chuỗi thời gian đã được chuẩn hoá là T’ = t 1 ’,t 2 ’,….t n ’ theo công thức:

= ∑ = giá trị trung bình của chuỗi thời gian T

Hình 4.1 Sơ đồ hệ thống nhận dạng mô-típ

Tập chuỗi thời gian hình ảnh

Trong đó T – mean(T) nhằm mục đích chuyển dữ liệu ban đầu T có đường căn bản (base line) bất kỳ thành T’ Tuy nhiên, giá trị của các phần tử dữ liệu của Q’ sẽ thay đổi quanh đường căn bản bằng không mà vẫn đảm bảo chính xác hình dạng, cũng như đặc trưng của dữ liệu ban đầu

Ngoài ra, từ dữ liệu thô ban đầu T biến đổi thành dữ liệu T’ để hạn chế dữ liệu nhiễu Trong đó, biên độ của nhưng dữ liệu nhiễu sẽ bị giảm Do đó không ảnh hưởng quá nhiều đến kết quả sau cùng Vì vậy, các phần tử dữ liệu biến đổi được chia cho lượng lệch chuẩn của T là var(T)

Khi chuỗi thời gian đã được chuẩn hoá được giả định có giá trị trung bình bằng không, và độ lệch chuẩn bằng một, khi đó chuỗi thời gian giả sử thỏa mãn phân bố Gauss Đây là yêu cầu cho các phương pháp biểu diễn như SAX, hay ESAX

4.2.2 Kỹ thuật thu giảm số chiều PAA, kỹ thuật thu giảm số chiều mở rộng EPAA:

 Giải thuật thu giảm so chiều PAA: Đầu vào: tapts : tập dữ liệu hình ảnh đã được chuẩn hoá w : số chiều thu giảm n: kích thước một thành phần trong tập dữ liệu Đầu ra: tappaa: tập PAA đã được thu giảm chiều

Hệ thống chấp nhận n không chia hết cho w , nhưng giá trị window phải nguyên dương, tức là hệ thống chấp nhận bỏ qua một số giá trị bằng (n– w*window) giá trị tapts (i, [j*window])) là đoạn dữ liệu gồm window điểm từ vị trí j*window–window+1  j*window

Bảng 4.1 Giải thuật thu giảm số chiều PAA

 Giải thuật thu giảm so chiều EPAA: Đầu vào: tapts : tập dữ liệu hình ảnh đã được chuẩn hoá w : số chiều thu giảm n: kích thước một thành phần trong tập dữ liệu Đầu ra: tapepaa: tập EPAA đã được thu giảm chiều

Thông số số chiều thu giảm trong kỹ thuật PAA, EPAA luận văn sẽ dùng khái niệm độ chặt cận dưới - Tightness of Lower Bound để tìm khoảng trị w đảm bảo kết quả bài toán Việc hiện thực sẽ được trình bày cụ thể trong chương tiếp theo của luận văn

7 t max = find (tap(I,[j*windows])= max)

11 t min = find (tap(I,[j*windows])= min)

12 sort (t min , t max , t mid ) => tapepaa(i, (j*window -2):(j*window))

Bảng 4.2 Giải thuật thu giảm số chiều EPAA

4.2.3 Kỹ thuật rời rạc hoá SAX, ESAX : Đầu vào: paa/ epaa : chuỗi đã được thu giảm chiều a: số ký tự dung để ký hiệu hoá Đầu ra: sax: chuỗi SAX hoặc chuỗi ESAX

Bảng 4.3 Giải thuật rời rạc ký tự hoá SAX / ESAX

Hệ thống phần mềm có thể đáp ứng được a từ 2  20 Thông số số ký tự dùng để ký hiệu hoá trong kỹ thuật SAX, ESAX luận văn sẽ dùng khái niệm Độ chặt cận dưới - Tightness of Lower Bound để tìm khoảng trị a đảm bảo kết quả bài toán Việc hiện thực sẽ được trình bày cụ thể trong chương tiếp theo của luận văn

4.2.4 Giải thuật nhận dạng mô-típ hình ảnh dùng phương pháp rời rạc hoá SAX: Đầu tiên tìm hiểu và hiện thực giải thuật nhận dạng mô-típ hình ảnh dùng kỹ thuật chiếu ngẫu nhiên [20] như đã trình bày trong phần 3.6.3, với kỹ thuật rời rạc hoá là phương pháp xấp xỉ gộp ký hiệu hoá SAX, cụ thể mã giả của giải thuật để tìm K mô-típ trong cơ sở dữ liệu Ω , với ngưỡng khoảng cách ξ ,và số lần lặp num_iteration Giải thuật như trong bảng 3.3.

4.2.5 Giải thuật nhận dạng mô-típ hình ảnh dùng phương pháp rời rạc hoá ESAX:

Tiếp theo tìm cách thay thế phương pháp SAX bằng phương pháp xấp xỉ gộp ký hiệu hoá mở rộng – Extended-SAX (ESAX) như đã luận văn đã trình bày trong phần 3.7 của chương 3

Giải thuật nhận dạng mô-típ dùng phương pháp ESAX:

Phía dưới là mã giả của giải thuật để tìm K mô-típ trong cơ sở dữ liệu hình ảnh Ω, với ngưỡng khoảng cách ξ ,và số lần lặp num_iteration , dùng phương pháp rời rạc hoá là ESAX

Giải thuật ở đây cũng giống giải thuật FunctionSAX {K-motifs} thì giải thuật FunctionESAX {K-motifs} chỉ khác ở dòng 2 dòng 3, thay kỹ thuật SAX bằng kỹ thuật ESAX

Dòng 2 là chuyển cơ sở dữ liệu chuỗi thời gian hình ảnh Ω về dạng chuỗi ESAX như được trình bày trong phần 2.1.3 của chương 2 về kỹ thuật xấp xỉ gộp ký hiệu hoá mở rộng -ESAX

Dòng 3 là việc tạo ma trận xoay của chuỗi các ESAX theo hai cách như đã trình bày ở phần 3.7

Phần còn lại thì tương tự như giải thuật nhận dạng mô-típ dùng phương pháp rời rạc SAX [20]

1 FunctionESAX{k-motif} = Motif-discover(Ω,K, ξ, num_iteration)

2 {S} = ESAX(Ω);chuyển chuỗi thời gian hình ảnh sang dạng SAX

3 Generate RT{S}; tạo ma trận xoay cho chuỗi ESAX

6 M = zeros; ma trận đụng độ khởi động là ma trận 0

7 While itertion ≤ num_iteration and user_not_interrupt

9 Update(M); cập nhật ma trận đụng độ M

14 for each(p,q) in M that has the largest value

Đánh giá giải thuật

Đánh giá ảnh hưởng của việc thay đổi phương pháp rời rạc hoá, bằng việc so sánh số lần gọi hàm tính khoảng cách Euclidean :

= Σ Đánh giá độ chính xác của giải thuật chiếu ngẫu nhiên-random projection dùng phương pháp SAX/ ESAX luận văn lấy tỉ số của tổng số motif (so với các motif tìm được bằng giải thuật Brute-Force) mà giải thuật tìm được; và tỉ số của tổng số phần tử (so với các phần tử tìm được bằng giải thuật Brute-Force) mà giải thuật tìm được

Thời gian thực thi giải thuật tuyến tính và tỉ lệ thuận với số hình ảnh trong tập dữ liệu, độ phức tập thời gian O(number_iteration*|RT|) Trong đó

• number_iteration được cố định và bằng nhau khi áp dụng hai phương pháp rời rạc hoá,

• khi thực nghiệm w SAX = 3×w ESAX (cùng chiều dài chuỗi ký tự): o |RT ESAXRT1 | = |RT SAX | vì |RT SAX | = m×w SAX ; |RT ESAXRT1 | = m×3×w ESAX o |RT ESAXRT2 | =( |RT SAX |)/3 vì |RT ESAXRT2 | = m×w ESAX

Từ đó đánh giá sơ bộ dựa vào lý thuyết thì thì thời gian thực thi khi giải thuật dùng phương pháp rời rạc hoá ESAX RT1 sẽ tương đương khi giải thuật dùng phương pháp rời rạc hoá SAX, và thời gian thực thi khi giải thuật dung phương pháp ESAX RT2 có thể nhanh gấp ba lần thời gian giải thuật dùng phương pháp rời rạc hoá SAX

• Khi thực nghiệm w SAX = w ESAX (cùng số chiều thu giảm): o |RT ESAXRT1 | =3× |RT SAX | vì

|RT SAX | = m×w SAX ; |RT ESAXRT1 | = m×3×w ESAX

• |RT ESAXRT2 | =( |RT SAX |) vì |RT ESAXRT2 | = m×w ESAX

Do giải thuật nhận dạng mô-típ hình ảnh dùng phương pháp rời rạc hoá SAX đã được chứng minh có nhiều ưu điểm hơn giải thuật Brute-Force[20] nên luận văn thực nghiệm, và so sánh trực tiếp giải thuật nhận dạng mô-típ hình ảnh khi áp dụng kỹ thuật rời rạc hoá ESAX và khi giải thuật áp dụng kỹ thuật rời rạc hoá SAX.

Khảo sát các thông số

Trước khi vận hành hệ thống chúng ta cần khảo sát các tham số cần nhập vào hệ thống nhằm chọn được các trị phù hợp không làm ảnh hưởng đến hiệu quả và chất lượng tính toán của hệ thống

Thông số số chiều thu giảm giúp làm giảm tài nguyên dành cho tính toán, lưu trữ dữ liệu chuỗi thời gian do đó nếu w quá nhỏ sẽ gây sai số lớn giữa chuỗi SAX và chuỗi thời gian gốc, nhưng nếu w quá lớn thì sẽ làm tăng tài nguyên tính toán, nhưng không làm tăng hiệu quả của giải thuật Do đó, chúng tôi xây dựng phần mềm khảo sát thông số w như sau:

Do bài toán xét dữ liệu hình ảnh do đó độ đo khoảng cách ở đây là sẽ dùng độ đo bất biến với góc xoay, cụ thể như sau:

• Khoảng cách Euclidean giữa hai chuỗi thời gian theo công thức 3.3 trong chương 3 đã đề cập:

• Khoảng cách giữa hai chuỗi SAX bất biến với góc xoay:

• Khoảng cách giữa hai chuỗi ESAX bất biến góc xoay:

Với D Q RC e ( e , e i ) được tính theo công thức 2.15 chương 2 Tuy nhiên ở trường hợp ESAX luận văn xét hai cách xoay chuỗi ESAX là cách một RT1 là xoay từng vị trí như chuỗi SAX, và cách thứ hai RT2 là xoay từng cụm ba vị trí

1 For k = 1 to 10 % chạy khảo sát 10 lần

2 For w = 1 to 100 % tầm w được khảo sát

3 Lấy ngẫu nhiên 2 chuỗi thời gian trong tập dữ liệu

4 Tính khoảng cách 2 chuỗi thời gian

5 Ký tự hoá 2 chuỗi thời gianchuỗi SAX, ESAX

6 Tính khoảng cách 2 chuỗi SAX/ ESAX

7 Tính độ chặt cận dưới

Bảng 4.5 Giải thuật khảo sát thông số w

4.4.2 Thông số kích thước tập ký tự - a (alphabet size):

Tương tự như khảo sát thông số w, khi khảo sát thông số a luận văn khảo sát 10 lần, cố định w SAX = 60, w ESAX = 20 và lấy trị trung bình của độ chặt cận dưới, chương trình khảo sát như sau:

1 For k = 1 : 10 % chạy khảo sát 10 lần

2 For w = 2 : 20 % tầm w được khảo sát

3 Lấy ngẫu nhiên 2 chuỗi thời gian trong tập dữ liệu

4 Tính khoảng cách 2 chuỗi thời gian

5 Ký tự hoá 2 chuỗi thời gian  chuỗi SAX, ESAX

6 Tính khoảng cách 2 chuỗi SAX/ ESAX

7 Tính độ chặt cận dưới

Bảng 4.6 giải thuật khảo sát thông số a

4.4.3 Khảo sát trị trung bình (average) - m của ma trận đụng độ

Trị trung bình của ma trận đụng độ là giá trị nhỏ nhất của ma trận để xét các ứng viên mô-típ Trị trung bình m của ma trận đụng độ ảnh hưởng đến sự chính xác, hiệu quả của giải thuật vì:

• nếu m lớn thì giải thuật sẽ xác định không đầy đủ các phần tử trong mô-típ, vì đã bỏ qua các ứng viên có trị trong ma trận đụng độ có trị nhỏ hơn m

• nếu m nhỏ thì sẽ gây ra dư thừa trong tính toán khoảng cách Euclidean trong bước kiểm tra lại

Trong khảo sát này chúng tôi chúng tôi lần lượt xét các ξ = 1.3,1.0, 0.75 và ε=0.05 Khi xét kỹ thuật ESAX luận văn cũng xét hai cách tạo ma trận xoay RT1, RT2 đối với chuỗi ký tự ESAX

Việc khảo sát thông số m, theo sơ đồ như sau:

1 For j = 1 : 10 % chạy 10 lần để lấy trị trung bình

2 Lấy ngẫu nhiên 100 phần tử làm tập huấn luyện

3 Tính ma trận khoảng cách D của 100 phần tử

5 Tạo ma trận xoay RT của tập SAX / ESAX

6 Chiếu tập RT  ma trận đụng độ M

Bảng 4.7 Giải thuật khảo sát thông số m

Kết luận

Từ cơ sở lý thuyết ở chương 3, luận văn đã xây dựng được hệ thống nhận dạng mô-típ hình ảnh áp dụng phương pháp rời rạc hoá ESAX , với hai cách tạo ma trận xoay RT1,RT2 Trong chương tiếp theo luận văn sẽ trình bày kết quả thực nghiệm trên một số tập dữ liệu chuỗi thời gian hình ảnh để có thể đánh giá chất lượng giải thuật khi thay thế phương pháp rời rạc hoá SAX dùng phương pháp rời rạc hoá ESAX , cũng như so sánh hai cách tạo ma trận xoay

THỰC NGHIỆM

Khảo sát các thông số

Luận văn xây dựng các phần mềm khảo sát các thông số cần cho đầu vào cho bài toán tìm kiếm mô-típ nhằm tìm ra các khoảng giá trị của thông số nhằm đảm bảo kết quả bài toán cũng như không ảnh hưởng hiệu quả,và thời gian tính toán của giải thuật

Hình 5.1 Dữ liệu thực nghiệm data_1

Kết quả khảo sát thông số w trên tập dữ liệu data_1, kết quả trung bình sau mười lần thực hiện của độ chặt cận dưới được biểu diễn qua các sơ đồ sau:

 Kết quả khi dùng kỹ thuật SAX

 Khảo sát khi dùng kỹ thuật ESAX

Hình 5.4 Khảo sát w dùng ESAX khi a = 10, xoay từng vị trí RT1

Hình 5.5 Khảo sát w dùng ESAX khi a = 20, xoay từng vị trí RT1

Hình 5.6 Khảo sát w dùng ESAX khi a = 10, xoay từng cụm 3 vị trí RT2

Hình 5.7 Khảo sát w dùng ESAX khi a = 20, xoay từng cụm 3 vị trí RT2

Từ các kết quả thu được khi khảo sát thông số w trên tập dữ liệu data_1 thì ta có thể thấy rằng:

• w < 20 thì độ chặt cận dưới khi dùng phương pháp rời rạc hoá SAX thì có giá trị rất nhỏ, nhưng khi dùng phương pháp rời rạc hoá ESAX thì có giá trị lớn và không ổn định

• w ≥ 20 thì độ chặt cận dưới khi dùng phương pháp SAX cũng như khi dùng phương pháp ESAX bắt đầu ổn định hơn, luận văn chọn thông số w từ điểm này

5.1.2 Thông số kích thước tập ký tự - a (alphabet size):

Tương tự như khảo sát thông số w, khi khảo sát thông số a luận văn khảo sát mười lần, cố định w = 30 và lấy trị trung bình của độ chặt cận dưới, kết quả khảo sát qua các hình bên dưới:

 Kết quả khi sử dụng kỹ thuật SAX:

Hình 5.8 Khảo sát a dùng SAX khi w = 30

 Khi dùng kỹ thuật ESAX:

Hình 5.9 Khảo sát a dùng ESAX khi w = 30, cách xoay RT1

Hình 5.10 Khảo sát a dùng ESAX khi w = 30, cách xoay RT2

Qua kết quả khảo sát thông số a trên tập data_1 luận văn nhận thấy độ chặt cận dưới tăng dần từ 0 lên gần 1 theo giá trị a.(giá tri a càng lớn càng tốt)

5.1.3 Khảo sát trị trung bình (average) - m của ma trận đụng độ

Khi xét kỹ thuật ESAX luận văn cũng xét hai cách tạo ma trận xoay RT1,RT2

Kết quả khảo sát trị trung bình tương ứng với các dữ liệu và giá trị ξ như bảng 5.1

• Giá trị m tỉ lệ nghịch với giá trị ξ, điều này là hợp lý bởi vì khi ξ tăng thì độ tương tự tối thiểu của các thành viên trong cùng mô-típ với phần tử trung tâm của mô- típ đó càng giảm

• Chuỗi ký tự ESAX dùng cách xoay ma trận thứ hai RT2 có giá trị nhỏ hơn khi áp dụng cách xoay RT1 điều này xảy ra do số hàng trong tập ma trận xoay theo dùng cách RT2 chỉ bằng một phần ba so với số hàng tập ma trận xoay dùng cách xoay RT1

Tập dữ liệu yoga_female yoga_male data_1 ξ 0.75 1 1.3 0.75 1 1.3 1 1.3 1.5 SAX 100 90 90 110 100 80 110 110 110 ESAX(RT1) 90 70 60 70 70 60 110 90 40

Bảng 5.1 Kết quả khảo sát thông số m.

Hệ thống nhận dạng mô-típ

Kết quả thực hiện giải thuật Brute-Force: ε = 0.05

Thời gian thực thi của giải thuật Brute-Force nhận dạng mô-típ phần lớn dùng để tính toán khoảng cách Euclidean bất biến góc xoay giữa các phần tử trong tập dữ liệu hình ảnh , còn thời gian thực thi các công việc khác như chuẩn hoá, tìm mô-típ từ tập ma trận khoảng cách… hầu như chiếm tỉ lệ không đáng kể

Số phép tính khoảng cách Euclidean bất biến góc xoay trong giải thuật Brute- Force cố định và phụ thuộc vào số lượng phần tử trong tập hình ảnh, theo công thức:

12.720 data 2 θ = − = lần tính khoảng cách

124.750 yoga female 2 θ = − = lần tính khoảng cách

Bảng 5.2 là kết quả thực nghiệm khi thực thi giải thuật Brute-Force lên các tập dữ liệu, thể hiện tổng số lượng các phần tử trên 6 mô-típ quan trọng nhất

Tập dữ liệu ξ Số lượng/ 6 mô-típ data_1 0.75 13

Bảng 5.2 Kết quả thực hiện giải thuật Brute-Force

5.2.2 Giải thuật Chiếu ngẫu nhiên-Random Projection : Để dể dàng so sánh giải thuật chiếu ngẫu nhiên-Random Projection dùng hai kỹ thuật rời rạc hoá SAX và ESAX thì trong quá trình thực nghiệm trên các tham số dùng truyền vào cả hai giải thuật đều giống nhau Ngoại trừ tham số w khi truyền vào giải thuật chiếu ngẫu nhiên-Random Projection có hai trường hợp:

 Trường hợp 1: wSAX = 3×w ESAX ( để cho chiều dài chuỗi ký tự trong hai cách rời rạc hoá bằng nhau, do đối với phương pháp ESAX mỗi đoạn dữ liệu sẽ được biến đổi thành 3 ký tự tương ứng với các giá trị min, max và mean)

 Trường hợp 2: wSAX = w ESAX để hai cách thu giảm có cùng số chiều thu giảm

Luận văn thực nghiệm với các thông số cố định, vì việc tăng các thông số này không làm tăng độ chính xác của giải thuật [20] mà còn có thể ảnh hưởng xấu vì làm tăng tài nguyên tính toán

Ta thực nghiệm với các thông số

 số lần lặp phép chiếu là 30 (nguồn [20])

Thời gian thực thi giải thuật có thể chia làm ba phần: phần đầu là chuẩn hoá,biến đổi dữ liệu sang dạng chuỗi ký tự, và tạo ma trận xoay; phần hai là thực hiện chiếu trên tập ma trận xoay để tạo ra ma trận đụng độ; phần ba là phần tìm mô-típ từ ma trận đụng độ và kiểm tra lại Thời gian chiếm tỉ lệ lớn nhất là phần hai, hai phần còn lại với các giá trị ngưỡng ξ khác nhau hầu như cố định và chiếm tỉ lệ không đáng kể

• Σmf : tổng số mô-típ giải thuật tìm được đúng với tập mô-típ tìm được bằng giải thuật Brute-Force

• Σpt : tổng số phần tử mô-típ giải thuật tìm được đúng với tập mô-típ tìm được bằng giải thuật Brute-Force

• ΣE: tổng số lần gọi lệnh tính khoảng cách của giải thuật

Luận văn thực hiện giải thuật trên mỗi tập dữ liệu mười lần, sau đó lấy giá trị trung bình thu được kết quả thực nghiệm như sau:

SAX ESAX RT1 ESAX RT2 data_1 6 p 51g 4 p 35.5g 2p 43.6g data_yoga_female 46 p 40g 45 p 04g 8 p 09g data_yoga_male 44 p 57g 46 p 40g 8 p 20g

Bảng 5.3 Thời gian thực thi trung bình trên các tập dữ liệu

Thời gian thực thi của giải thuật khi thực hiện giải thuật dùng phương pháp rời rạc hoá ESAX trong các trường hợp luận văn khảo sát đều nhanh hơn khi giải thuật dùng phương pháp rời rạc hoá SAX , nhất là khi phương pháp rời rạc hoá

ESAX dùng cách xoay RT2 thì nhanh hơn khi giải thuật dùng phương pháp rời rạc hoá SAX rất nhiều, và nhanh hơn cả khi giải thuật dùng phương pháp rời rạc hoá ESAX với cách xoay RT1

Hình 5.11 Thời gian thực thi trên các tập dữ liệu data_1 ξ = 0.75 ξ = 1 ξ = 1.3 Σmf Σpt ΣE Σmf Σpt ΣE Σmf Σpt ΣE w SAX = 30 1 8.8 278.5 4 16.3 278.3 4 22.3 287.1 w ESAXrt1 = 10 1.1 9 261.4 4 16 262.6 3.2 22.9 293 w ESAXrt1 = 30 1.8 9 311.8 4 17.6 335.5 4 22.9 362.9 w ESAXrt2 = 10 1.1 9 265.6 3.3 14.8 284.1 3.3 21.5 294.9 w ESAXrt2 = 30 1.8 9 284.3 4 16.2 301.6 4 22.2 331.4

Bảng 5.4 Kết quả thực nghiệm trên tập dữ liệu data_1

Từ kết quả thực nghiệm khi thực hiện trên tập dữ liệu data_1

• Khi xét cùng chiều dài chuỗi ký tự thì độ chính xác khi giải thuật dùng kỹ thuật rời rạc hóa ESAX (RT1,RT2) chỉ tốt hơn khi ξ = 0.75 và không tố bằng trong hai ξ còn lại so với khi giải thuật dùng phương pháp rời rạc hóa SAX

• Khi xét cùng số chiều thu giảm: thì giải thuật thường tốt hơn khi dùng kỹ thuật rời rạc hóa ESAX( với cả hai cách RT1,và RT2) so với khi giải thuật dùng phương pháp rời rạc hóa SAX.

• Khi giải thuật dùng kỹ thuật rời rạc hóa ESAX với cách xoay RT2 thường tốt hơn khi dùng cách xoay RT1. yoga_male ξ = 0.75 ξ = 1 ξ = 1.3 Σmf Σpt ΣE Σmf Σpt ΣE Σmf Σpt ΣE w SAX = 10 7.7 29 1278.8 21.3 130.4 1935.8 28 218.2 3202 w SAX = 30 6.8 27.3 1504.8 19.2 134.1 2056.9 25.5 218.1 2930.2 w ESAXrt1 = 10 7.7 29.2 1519.4 22.7 135.6 2385.8 27.9 221.5 3561.9 w ESAXrt2 = 10 8.2 30 1495.3 22.1 134.9 2152.4 28.5 221.3 3557.7

Bảng 5.5 Kết quả thực nghiệm trên tập dữ liệu data_yoga_male

Từ kết quả thực nghiệm khi thực hiện trên tập dữ liệu data_yoga_male

• Giải thuật khi dùng kỹ thuật rời rạc hóa ESAX trong cả hai cách xoay RT1,RT2 thường tốt hơn khi giải thuật dùng phương pháp rời rạc hóa SAX

• Giải thuật khi dùng phương pháp rời rạc hóa ESAX với cách xoay cũng thường tốt hơn khi dung cách xoay RT2 yoga_female ξ = 0.75 ξ = 1 ξ = 1.3 Σmf Σpt ΣE Σmf Σpt ΣE Σmf Σpt ΣE w SAX = 10 2 7 803.7 10 42.8 1290.3 13 127.5 2196.7 w SAX = 30 1 5 911.4 9.1 46.3 1440.1 13.2 134.3 2011 w ESAXrt1 = 10 1.2 7 889.8 9.3 41.6 1508.5 11.7 128.8 2590.5 w ESAXrt2 = 10 2 7 894.2 9.2 42.1 1469.2 11.3 128.8 2446.4

Bảng 5.6 Kết quả thực nghiệm trên tập dữ liệu data_yoga_female

Từ kết quả thực nghiệm khi thực hiện trên tập dữ liệu data_yoga_female

• Khi xét cùng chiều dài chuỗi ký tự thì độ chính xác khi giải thuật dùng kỹ thuật rời rạc hóa ESAX (RT1,RT2) chỉ tốt hơn khi ξ = 0.75 và không tố bằng trong hai ξ còn lại so với khi giải thuật dùng phương pháp rời rạc hóa SAX

Kết luận

Từ các kết quả thu được khi thực nghiệm trên các tập dữ liệu, chúng tôi nhận thấy rằng:

 Về thời gian thực thi, khi dùng phương pháp rời rạc hoá ESAX trường hợp 1 thường nhanh hơn khi giải thuật dùng phương pháp rời rạc hoá SAX, nhất là khi giải thuật dùng phương pháp rời rạc hoá ESAX với cách xoay

RT2 thì nhanh hơn khoảng năm lần so với khi giải thuật dùng kỹ thuật rời rạc hoá SAX Trong trường hợp 2 thì thời gian thực hiện giải thuật khi dùng phương pháp rời rạc hóa SAX tốt hơn khi dùng phương pháp rời rạc hóa ESAX với cách xoay RT1, và tương đương với cách xoay RT2

 Xét về độ chính xác thì giải thuật khi dùng phương pháp rời rạc hoá ESAX(RT1,RT2) thường tốt hơn khi giải thuật dùng phương pháp rời rạc hoá SAX tùy vào tập dữ liệu

 Số lần gọi hàm khoảng cách của giải thuật dùng phương pháp rời rạc hoá hoá ESAX tương đương với khi giải thuật dùng phương pháp rời rạc hóa SAX

 So sánh hai cách xoay RT1,RT2: thời gian thực thi của giải thuật dùng phương pháp rời rạc hoá ESAX khi dùng phương pháp rời rạc hoá ESAX

RT2 luôn nhanh hơn, do kích thước tập ma trận xoay theo cách RT1 bằng ba lần ma trận xoay theo cách RT2 Độ chính xác, số lần gọi hàm tính khoảng cách thì gần như tương đương nhau Luận văn nhận thấy tạo ma trận xoay theo cách RT2 thường tốt hơn cách tạo ma trận xoay RT1.

Ngày đăng: 25/09/2024, 01:06