Microsoft Word - ban thao K2-2011 28-04-2011.doc

9 2 0
Microsoft Word - ban thao K2-2011 28-04-2011.doc

Đang tải... (xem toàn văn)

Thông tin tài liệu

Microsoft Word ban thao K2 2011 28 04 2011 doc TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 14, SOÁ K2 2011 Trang 71 TỔNG QUAN VỀ TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN Dương Tuấn Anh Trường Đại học Bách[.]

TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 14, SỐ K2 - 2011 TỔNG QUAN VỀ TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN Dương Tuấn Anh Trường Đại học Bách Khoa, ĐHQG-HCM (Bài nhận ngày 07 tháng 12 năm 2010, hoàn chỉnh sửa chữa ngày 20 tháng 04 năm 2011) TÓM TẮT: Dữ liệu chuỗi thời gian tồn nhiều ứng dụng thực tế, từ lãnh vực khoa học kỹ thuật kinh tế, tài Trong ứng dụng này, việc tìm kiếm chuỗi truy vấn có xuất sở liệu chuỗi thời gian công việc cần thiết Sự truy tìm dựa vào độ tương tự mô đun nhiều công tác khai phá liệu chuỗi thời gian cao cấp gom cụm, phân lớp, tìm mơ típ, phát mẫu bất thường, khám phá luật kết hợp trực quan hóa liệu Mặc dù có nhiều cách tiếp cận khác đề xuất, hầu hết cách tiếp cận dựa tiền đề chung phương pháp thu giảm số chiều cấu trúc mục không gian Bài tổng quan điểm qua nghiên cứu cho thấy phương pháp hội tụ khung thức chung rút trích đặc trưng Từ khóa: Chuỗi thời gian, tìm kiếm tương tự, thu giảm số chiều, rời rạc hóa, rút trích đặc trưng GIỚI THIỆU Một chuỗi thời gian (time series) chuỗi trị số thực, trị biểu diễn giá trị đo thời điểm cách Những tập liệu chuỗi thời gian lớn xuất nhiều lãnh vực khác y khoa, kỹ thuật, kinh tế, tài chính, v.v…Tìm kiếm tương tự (similarity search) công tác để khai thác sở liệu chuỗi thời gian Vài áp dụng tìm kiếm tương tự như: - nhận dạng cơng ty có kiểu mẫu tăng trưởng giống - Xác định sản phẩm cơng ty có kiểu mẫu doanh số bán hàng giống - Xác định chứng khốn có giá biến động theo kiểu cách giống - Tìm xem giai điệu nhạc có tương tự với đoạn nhạc tập hợp nhạc có quyền - Tìm tháng khứ mà lượng mưa giống tháng vừa Bài tốn tìm kiếm tương tự nêu thành phần nhiều công tác khai phá liệu chuỗi thời gian cao cấp gom cụm, phân lớp, tìm mơ típ, phát mẫu bất thường, khám phá luật kết hợp trực quan hóa liệu Bài viết tổng quan nhằm mô tả số tiến gần lãnh vực tìm kiếm tương tự liệu chuỗi thời gian; phương pháp cho phép truy vấn hữu hiệu chuỗi sử dụng độ đo tương tự mềm dẻo để không bị ảnh hưởng phép biến đổi liệu sai sót liệu Bài tổng quan cho thấy phương pháp Trang 71 Science & Technology Development, Vol 14, No.K2- 2011 hội tụ dạng thức chung rút trích gom cụm, phân lớp, nhận dạng mơ típ, v.v đặc trưng (feature extraction) Nhưng độ đo khoảng cách có nhược điểm BÀI TỐN TÌM KIẾM TƯƠNG TỰ nhạy cảm với nhiễu thiếu mềm dẻo TRÊN DỮ LIỆU CHUỖI THỜI GIAN so trùng Đối với tốn tìm kiếm tương tự Độ đo xoắn thời gian động liệu chuỗi thời gian liệu biểu diễn Việc so trùng đường biểu diễn liệu thành dãy số thực, thí dụ T = t1,…tn cách tính khoảng cách cặp điểm 1-1 Cho hai chuỗi thời gian X = x1, x2,…,xn Y = (điểm thứ i đường thứ I so với điểm thứ i y1,y2,…,yn Ta cần phải tính độ tương tự đường thứ II) không phù hợp SIM(X, Y) hai chuỗi thời giann trường hợp hai đường không hồn tồn giống hình dạng biến đổi giống 2.1 Các độ đo tương tự Đã có nhiều độ đo tương tự sử dụng Việc chọn độ đo tương tự tùy thuộc nhiều vào miền ứng dụng nhiều trường hợp độ đo thuộc chuẩn Lp đơn giản độ đo Euclid đủ tốt để dùng Tuy nhiên nhiều trường hợp độ đo Như hình 1, hai đường biểu diễn giống hình dạng lệch thời gian Trong trường hợp này, tính khoảng cách cách ánh xạ 1-1giữa đường kết khác dẫn đến kết cuối không giống mong muốn Euclid tỏ q cứng nhắc khơng thích nghi với phép biến đổi tịnh tiến (shifting), co giãn biên độ (scaling) hay xoắn trục thời gian (time warping) Nhiều phương pháp tìm kiếm tương tự dựa vào độ đo tương tự mềm dẻo vững độ đo xoắn thời gian động, chuỗi chung dài (b) (a) Hình 1.(a) Tính khoảng cách theo Euclid (b) tính khoảng cách theo DWT (Từ nguồn [12] ) Vì để khắc phục nhược điểm này, điểm ánh xạ với nhiều điểm ánh Độ đo Euclid xạ khơng thẳng hàng (xem hình 1b) Cho hai chuỗi thời gian Q = q1…qn C Phương pháp gọi xoắn thời gian động = c1…cn độ đo khoảng cách Euclid hai (Dynamic Time Warping - DTW) đề xuất chuỗi thời gian cho công thức Bernt Clifford, 1994 Chi tiết cách D(Q, C ) ≡ ∑ (qi − ci ) n i =1 tính DTW, độc giả tham khảo thêm báo ([4]) Phương pháp DTW có ưu điểm cho kết Độ đo khoảng cách Euclid có ưu điểm dễ xác so với độ đo Euclid cho hiểu, dễ tính tốn, dễ mở rộng cho nhiều phép nhận dạng mẫu có hình dạng giống tốn khai phá liệu chuỗi thời gian khác chiều dài hình dạng thời gian Trang 72 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 14, SỐ K2 - 2011 khác Phương pháp có nhược điểm (dimensionality reduction) Phương pháp tổng thời gian chạy lâu, nhiên gần có quát để thu giảm số chiều tóm tắt cơng trình tăng tốc độ tìm kiếm tương tự sau: Thiết lập độ đo tương tự d dùng độ đo DTW 2.2 So trùng toàn so trùng chuỗi Thiết kế kỹ thuật thu giảm số chiều để rút trích đặc trưng có chiều dài k (tức Mặc dù có nhiều loại khác nhau, đặc trưng gồm k giá trị), với k yêu cầu truy vấn liệu chuỗi thời gian có xử lý cách hữu hiệu nhờ cấu trúc thể chia làm loại: mục khơng gian (đa chiều) So trùng tồn bộ: (whole matching) Đối Cung cấp độ đo tương tự dk với truy vấn so trùng toàn chiều khơng gian đặc trưng k chiều chứng tỏ dài chuỗi liệu truy vấn chiều dài tuân thủ điều kiện sau đây: dk(X’, Y’) ≤ chuỗi liệu ban đầu Bài toán d(X, Y) (1) ta thường dùng việc gom cụm, Điều kiện (1) có nghĩa hàm khoảng cách hay phân loại liệu chuỗi thời gian Ví dụ, tính khơng gian đặc trưng (hay khơng gian “tìm giá chứng khốn cơng ty thu giảm) hai chuỗi thời gian biến thay đổi giống nhau” đổi X’, Y’ từ hai chuỗi thời gian ban đầu X, Y con:(subsequence phải chặn khoảng cách thật chúng matching) Trong trường hợp so trùng chuỗi không gian nguyên thủy Điều kiện (1) chiều dài liệu truy vấn ngắn thường gọi điểu kiện chặn So trùng chuỗi nhiều so với chiều dài liệu ban đầu Có hai nhóm phương pháp để thu Vì vậy, nhiệm vụ tìm đoạn giảm số chiểu phương pháp biến đổi sang liệu ban đầu tương tự với liệu truy miền tần số phương pháp xấp xỉ tuyến tính vấn Một số ứng dụng tồn tìm đoạn mẫu thức liệu quan trọng hay thay đổi bất thường liệu ban đầu CÁC PHƯƠNG PHÁP THU GIẢM SỐ CHIỀU DỰA VÀO ĐẶC TRƯNG 3.1 Các phương pháp biến đổi sang miền tần số Phương pháp biến đổi fourier rời rạc (discrete Fourier tranform – DFT): Dữ liệu chuỗi thời gian thường lớn Phương pháp biến đổi rời rạc Fourier Tìm kiếm trực tiếp liệu R Agrawal cộng đề nghị ([1],[2],[7]) phức tạp không hữu hiệu Để khắc phục Trong phương pháp biến đổi Fourier đường vấn đề này, ta nên áp dụng số phương liệu ban đầu biểu diễn đường pháp biến đổi để thu giảm độ lớn liệu Nhưng đường trường Những phương pháp biến đổi thường hợp đường sin cosin gọi nhũng kỹ thuật thu giảm số chiều Trang 73 Science & Technology Development, Vol 14, No.K2- 2011 n với 0< t

Ngày đăng: 05/01/2023, 10:08

Tài liệu cùng người dùng

Tài liệu liên quan