Tóm tắt kết quả đạt đƣợc

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 25 - 27)

Với nhiệm vụ đầu tiên của luận án, chúng tôi đã đề xuất đƣợc một kỹ thuật thu giảm số chiều dữ liệu chuỗi thời gian dựa trên phƣơng pháp điểm giữa kết hợp với kỹ

thuật xén, gọi là MP_C (Middle Points and Clipping). Kỹ thuật này đƣợc thực hiện bằng cách chia chuỗi thời gian thành nhiều đoạn, một số điểm trong mỗi đoạn sẽ đƣợc chọn (số điểm này do ngƣời dùng xác định), sau đó dùng kỹ thuật xén để chuyển các điểm đƣợc chọn thành chuỗi bit. Chuỗi bit và các giá trị trung bình của các đoạn đƣợc lƣu trữ nhƣ các đặc trƣng của chuỗi. Ƣu điểm của phƣơng pháp này là không những có thể lƣu đƣợc đặc trƣng về giá trị mà còn lƣu trữ đƣợc cả đặc trƣng về hình dạng xấp xỉ của chuỗi mà vẫn không tốn nhiều không gian lƣu trữ và thời gian thực hiện tăng

8

không đáng kể. Mặt khác, chuỗi bit đƣợc lƣu trữ còn giúp nâng cao độ chính xác của xấp xỉ. Ngoài ra, phƣơng pháp này có thể đƣợc kết hợp với chỉ mục đường chân trời (Skyline index) nhằm hỗ trợ việc tìm kiếm tƣơng tự một cách hữu hiệu.

Đồng thời chúng tôi cũng đã xây dựng một độ đo tƣơng tự mới cho hai chuỗi trong không gian đặc trƣng MP_C và đã chứng minh độ đo này thỏa điều kiện chặn dƣới. Thực nghiệm cho thấy phƣơng pháp MP_C hiệu quả hơn so với phƣơng pháp

PAA (Piecewise Aggregate Approximation) thƣờng đƣợc sử dụng và kỹ thuật xén

(Clipping) về các chỉ số độ chặt của chặn dưới (the tightness of lower bound) và tỉ lệ

thu giảm truy xuất (the pruning power). Trong bài toán tìm kiếm tƣơng tự, phƣơng

pháp MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời thực thi nhanh hơn so với phƣơng pháp PAA dựa trên R*-tree hoặc chỉ mục đƣờng chân trời.

Thực hiện nhiệm vụ tiếp theo, dựa vào tính chất đa mức phân giải của phƣơng pháp MP_C, chúng tôi đã tiến hành gom cụm dữ liệu chuỗi thời gian đƣợc thu giảm bằng kỹ thuật MP_C theo phƣơng pháp gom cụm có thời gian thực thi tùy chọn bằng giải thuật I-k-Means. Để khắc phục nhƣợc điểm của thuật toán I-k-Means do cách chọn các trung tâm cụm ở mức khởi động (mức 2) một cách ngẫu nhiên gây ra, chúng tôi sử dụng kd-tree để chọn k trung tâm cụm ở mức khởi động. Ngoài ra, chúng tôi

cũng thực nghiệm việc tạo các trung tâm cụm khởi động bằng CF-tree nhằm so sánh hai kỹ thuật khởi tạo trung tâm cụm này.

Với nhiệm vụ thứ ba, chúng tôi đã đề xuất đƣợc hai phƣơng pháp phát hiện motif xấp xỉ trong chuỗi thời gian: (1) sử dụng R*-tree kết hợp với ý tƣởng từ bỏ sớm việc tính khoảng cách Euclid (chƣơng 4, mục 4.1) và (2) dựa trên phƣơng pháp thu giảm số chiều MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời (chƣơng 4, mục 4.2).

Phƣơng pháp (1) có thể phân tích trực tiếp trên dữ liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa nhƣ một số phƣơng pháp phát hiện motif đã đƣợc giới thiệu và phƣơng pháp này đạt hiệu quả về mặt thời gian lẫn không gian lƣu trữ vì chỉ cần lƣu các vùng bao hình chữ nhật nhỏ nhất (Minimum Bounding Rec- tangle – MBR) của dữ liệu trong bộ nhớ và chỉ cần một lần quét qua toàn bộ dữ liệu cùng với một số ít lần truy cập đĩa để thẩm định lại kết quả. Tuy nhiên phƣơng pháp này có một nhƣợc điểm đó là R*-tree dựa vào vùng bao hình chữ nhật nhỏ nhất có thể thực hiện không tốt trong trƣờng hợp dữ liệu chuỗi thời gian có số chiều cao.

9

Phƣơng pháp (2) khắc phục đƣợc nhƣợc điểm của phƣơng pháp (1) và kết quả thực nghiệm cho thấy phƣơng pháp (2) có thời gian thực thi nhanh hơn và có độ hữu hiệu tốt hơn so với phƣơng pháp (1).

Ngoài những yêu cầu ban đầu, chúng tôi còn cho thấy kỹ thuật MP_C có thể sử dụng hiệu quả cho bài toán tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng dựa trên cách tính toán gia tăng của phƣơng pháp MP_C và ý tƣởng cập nhật trì hoãn nhƣ của phƣơng pháp chỉ mục IDC ( [4], [5]).

Chúng tôi cũng ứng dụng phƣơng pháp MP_C kết hợp với chỉ mục đƣờng chân trời vào bài toán dự báo dữ liệu chuỗi thời gian có tính chất xu hƣớng hoặc theo mùa. Phƣơng pháp dự báo này dựa trên phƣơng pháp so trùng mẫu sử dụng thuật toán tìm k lân cận gần nhất (k-nearest neighbors) hoặc các lân cận trong phạm vi một ngƣỡng cho trƣớc.

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 25 - 27)