Các đóng góp chính của luận án

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 149 - 150)

 Luận án đã đề xuất một phƣơng pháp thu giảm số chiều mới, đƣợc gọi là MP_C (Middle Points and Clipping) và kết hợp phƣơng pháp này với chỉ mục đƣờng chân trời hỗ trợ việc tìm kiếm tƣơng tự một cách hữu hiệu. Luận án cũng đề xuất một độ đo tƣơng tự giữa hai chuỗi MP_C trong không gian thu giảm và đã chứng minh độ đo này thỏa điều kiện chặn dƣới. Ngoài ra, nghiên cứu trong luận án còn đƣa ra một độ đo giữa một chuỗi truy vấn và một vùng bao MP_C sử dụng trong chỉ mục đƣờng chân trời và cũng đã chứng minh độ đo này thỏa điều kiện chặn dƣới của nhóm. Kết quả thực nghiệm cho thấy: Phƣơng pháp đƣợc đề xuất có độ chặt chặn dƣới và tỉ lệ thu giảm truy xuất đều tốt hơn hay xấp xỉ bằng so với phƣơng pháp PAA và kỹ thuật xén dữ liệu. Trong khi đó thời gian thu giảm số chiều của ba phƣơng pháp thì xấp xỉ nhau (độ phức tạp tính toán của ba phƣơng pháp đều là O(n), với n là chiều dài chuỗi thời gian). Phƣơng pháp MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời thực hiện tìm kiếm tƣơng tự hữu hiệu hơn so với phƣơng pháp PAA sử dụng R*-tree hoặc chỉ mục đƣờng chân trời.

 Với bài toán phát hiện motif, luận án đề xuất hai phƣơng pháp mới: (1) sử dụng cấu trúc chỉ mục đa chiều (R*-tree) kết hợp với ý tƣởng từ bỏ sớm và (2) sử dụng phƣơng pháp thu giảm số chiều MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời. Kết quả thực nghiệm đã cho thấy cả hai phƣơng pháp đƣợc đề xuất đều thực hiện bài toán phát hiện motif hữu hiệu hơn so với phƣơng pháp chiếu ngẫu nhiên dựa trên hai tiêu chí thời gian thực hiện và độ hữu hiệu. So sánh hai phƣơng pháp đƣợc đề xuất, phƣơng pháp (2) tỏ ra hữu hiệu hơn phƣơng pháp (1).

132

 Phƣơng pháp MP_C đƣợc ứng dụng vào bài toán gom cụm dữ liệu chuỗi thời gian theo phƣơng pháp gom cụm có thời gian thực thi tùy chọn (sử dụng giải thuật I-k- Means) và kd-tree đã đƣợc đề xuất sử dụng để tạo các trung tâm cụm khởi động cho thuật toán I-k-Means. Đánh giá bằng thực nghiệm cho thấy cách tiếp cận này hiệu quả hơn so với thuật toán k-Means và I-k-Means gốc. So sánh với cách tạo các trung tâm cụm bằng CF-tree, phƣơng pháp sử dụng kd-tree thực hiện nhanh hơn và dễ cài đặt hơn trong khi chất lƣợng gom cụm thì tƣơng đƣơng nhau.

 Phƣơng pháp MP_C kết hợp với chỉ mục đƣờng chân trời cũng đƣợc ứng dụng vào bài toán tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian dạng luồng dựa trên ý tƣởng tính toán gia tăng và cập nhật chỉ mục trì hoãn bằng cách xây dựng công thức tính toán gia tăng cho phƣơng pháp MP_C và áp dụng ý tƣởng cập nhật chỉ mục trì hoãn do Kontaki và các cộng sự đề xuất năm 2004. Kết quả thực nghiệm cho thấy: phƣơng pháp MP_C kết hợp với chỉ mục đƣờng chân trời thực hiện hữu hiệu hơn so với phƣơng pháp chỉ mục IDC dựa trên các tiêu chí: tỉ lệ thu giảm truy xuất, chi phí CPU chuẩn hóa, thời gian xây dựng chỉ mục, thời gian thực hiện tính toán gia tăng và cập nhật chỉ mục.

 Phƣơng pháp MP_C kết hợp với chỉ mục đƣờng chân trời còn đƣợc ứng dụng vào bài toán dự báo dữ liệu chuỗi thời gian có tính xu hƣớng hay theo mùa. Cách tiếp cận cho bài toán này là dựa trên phƣơng pháp so trùng mẫu sử dụng thuật toán tìm

k-lân cận gần nhất hay các lân cận trong phạm vi ngƣỡng cho trƣớc. Kết quả thực

nghiệm trên bốn tập dữ liệu thực có tính xu hƣớng hoặc theo mùa cho thấy, với một giá trị k hoặc ngƣỡng phù hợp, phƣơng pháp này có thể cho kết quả dự báo tốt hơn so với phƣơng pháp thông dụng là ANN.

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 149 - 150)