tìm kiếm tương tự trong cơ sở dữ liệu chuỗi thời gian

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TÌM KIẾM TƯƠNG TỰ TRONG CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN S K C 0 9 MÃ SỐ: T2011- 06TĐ S KC 0 3 Tp Hồ Chí Minh, 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HCM KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƢỜNG TÌM KIẾM TƢƠNG TỰ TRONG CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN MÃ SỐ: T2011-06TĐ Chủ nhiệm đề tài: GVC Ths Nguyễn Thành Sơn Thành viên đề tài: TS Nguyễn Phƣơng TP HỒ CHÍ MINH – 07/2011 MỤC LỤC trang DANH MỤC CÁC HÌNH ẢNH PHẦN MỞ ĐẦU Tình hình nghiên cứu nước Tính cấp thiết đề tài Ý nghĩa lý luận thực tiễn Các đối tượng nghiên cứu Phạm vi phương pháp nghiên cứu PHẦN NỘI DUNG Chương Các kiến thức sở 1.1 Tổng quan liệu chuỗi thời gian toán tìm kiếm tương tự 1.2 Các công trình liên quan 1.2.1 Các độ đo tương tự 1.2.2 Thu giảm số chiều chuỗi TSD 10 1.2.3 Các cấu trúc mục 15 Chương Phương pháp đề xuất 22 2.1 Thu giảm số chiều dựa vào kỹ thuật IPIP 22 2.2 Độ phức tạp giải thuật thu giảm số chiều IPIP 26 2.3 Cấu trúc mục Skyline cho phương pháp IPIP 27 2.3.1 Vùng bao IPIP 27 2.3.2 Hàm tính khoảng cách cho IBR 28 2.3.3 Cấu trúc mục Skyline cho phương pháp biểu diễn IPIP 29 2.4 Xử lý câu truy vấn có chiều dài khác 31 2.4.1 Xử lý câu truy vấn có chiều dài nhỏ n 31 2.4.2 Xử lý câu truy vấn có chiều dài lớn n 32 2.5 Chi tiết kỹ thuật chức 33 2.5.1 Qui trình thực tìm kiếm tương tự 33 2.5.2 Chuẩn hóa liệu 34 2.5.3 Xác định điểm PIP 34 2.5.4 Xây dựng SB-tree 34 Chương Kết thực nghiệm 36 3.1 Phương pháp luận thực nghiệm 36 3.2 Thực nghiệm độ chặt chặn (Tightness of lower bound) 37 3.3 Thực nghiệm tỉ lệ thu giảm truy xuất (pruning power) 40 3.4 Thực nghiệm hệ thống thực (implemented system) 41 Kết luận hướng phát triển 45 Tài liệu tham khảo 46 DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Minh họa TSD giống (a) đường khác (b) biên độ giao động khác Hình 1.2 Khoảng cách hai đường biểu diễn (a) tính theo độ đo Euclid (b) tính theo độ đo DTW Hình 1.3 Minh họa cách tính khoảng cách theo DTW Hình 1.4 Minh họa phương pháp DFT Hình 1.5 Minh họa phương pháp DWT Hình1.6 Minh họa phương pháp PAA Hình 1.7 Một xấp xỉ từ 12 điểm mốc chuỗi TSD Hình 1.8 Cực tiểu quan trọng (trái) cực đại quan trọng (phải) Hình 1.9 (a) Minh họa khoảng cách thẳng đứng, (b) Quá trình xác định điểm PIP TSD Hình 1.10 Minh họa R-tree Hình1.1 Một ví dụ trường hợp xấu tìm kiếm Hình 1.12 Lưu đồ minh họa giải thuật thêm phần tử vào Hình 1.13 Minh họa thêm thành phần X vào (a) Cấu trúc R*-tree (b) Minh họa hình chữ nhật bao nhỏ Hình1.14 Minh họa trường hợp MBR có phủ lấp không phủ lấp Hình 1.15 Minh họa SBR SBR xấp xỉ ba chuỗi TSD Hình 2.1 Minh họa kỹ thuật IPIP Hình 2.2 Ví dụ minh họa IBR (a) Hai chuỗi TSD C1, C2 biểu diễn IPIP chúng (b) IBR hai chuỗi IPIP C’1 C’2 Hình 2.3 Giải thuật xác định k PIP đoạn Hình 2.4 Giải thuật tạo SB-tree Hình 3.1 Kết thực nghiệm độ chặt chặn kỹ thuật IPIP so với PIP (a) So trùng chuỗi (b) So trùng toàn chuỗi Hình từ 3.2 đến 3.6 Kết thực nghiệm độ chặt chặn trường hợp so trùng toàn chuỗi Hình từ 3.7 đến 3.11 Kết thực nghiệm độ chặt chặn trường hợp so trùng toàn chuỗi Hình 3.12 Kết thực nghiệm tỉ lệ thu giảm truy xuất theo tỉ lệ thu giảm khác Hình 3.13 Kết thực nghiệm chi phí CPU chuẩn hóa (a) so trùng toàn chuỗi (b) so trùng chuỗi Hình 3.14 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu (so trùng toàn chuỗi) Hình 3.15 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu phương pháp IPIP Hình 3.16 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu (so trùng chuỗi con) Hình 3.17 Thời gian xây dựng mục với tỉ lệ thu giảm khác số chuỗi thực nghiệm 10000 PHẦN MỞ ĐẦU Tình hình nghiên cứu nước Bài toán tìm kiếm tương tự sở liệu chuỗi thời gian (Time Series Data - TSD) nhiều nhà nghiên cứu quan tâm năm qua Nhiều kỹ thuật thu giảm số chiều TSD giới thiệu Trong số có kỹ thuật biến đổi Fourier rời rạc (Discrete Fourier Transforms - DFT) [1], biến đổi Wavelet rời rạc (Discrete Wavelet Transforms - DWT) [5], xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) [14], xấp xỉ số đoạn thích nghi (Adaptive Piecewise Constant Approximations - APCA) [15] Cũng có số nghiên cứu kỹ thuật thu giảm số chiều dựa vào điểm quan trọng kỹ thuật thu giảm số chiều dựa vào điểm mốc (landmark points) Perng cộng sự, 2000 [17], kỹ thuật thu giảm số chiều dựa vào điểm quan trọng (Important points) Pratt cộng sự, 2003 [7], kỹ thuật thu giảm số chiều dựa vào PIP (Perceptually Important Points) Fu Chung, 2001 [6] Các kỹ thuật có ưu điểm (1) cung cấp biểu diễn xấp xỉ đa mức phân giải, (2) thực so sánh tương tự chuỗi liệu chuỗi thời gian có chiều dài khác Ngoài ra, qua thực nghiệm tác giả phương pháp pháp thu giảm số chiều dựa vào điểm quan trọng cho thấy chúng thực thi hiệu Qua nghiên cứu ban đầu ba phương pháp dựa vào điểm quan trọng này, PIP phương pháp hiệu dễ cài đặt Tuy nhiên, Cả ba phương pháp chưa chứng minh mặt lý thuyết chúng tuân theo điều kiện chặn nhằm đảm bảo không xảy lỗi tìm sót (false dismissal) Việc không tuân theo điều kiện chặn gây khó khăn cho so sánh phương pháp điểm quan trọng với phương pháp thu giảm số chiều khác PAA, APCA Ngoài chúng cấu trúc mục hỗ trợ lập mục cho việc tìm kiếm tương tự Điều làm giảm hiệu việc tìm kiếm tương tự sở liệu chuỗi thời gian lớn Tính cấp thiết đề tài Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng toán time series để xây dựng chương trình dò tìm tự động điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khoán ta ứng dụng toán time series để xây dựng chương trình dự báo xu biến động chứng khoán thời gian tới, v.v… Thời gian qua, có nhiều quan tâm nhà nghiên cứu toán tìm kiếm tương tự (similarity search) sở liệu chuỗi thời gian Bài toán thành phần quan trọng nhiều ứng dụng khai phá liệu (data mining) gom cụm (clustering), phân lớp (classification), phát motif (discovering motif), … Ý nghĩa lý luận thực tiễn 3.1 Ý nghĩa lý luận Nghiên cứu đề xuất phương pháp thu giảm số chiều nhằm khắc phục nhược điểm phương pháp thu giảm số chiều dựa vào điểm quan trọng có Đồng thời đề xuất cấu trúc mục hỗ trợ thực toán tìm kiếm tương tự sở liệu chuỗi thời gian cách hiệu 3.2 Ý nghĩa thực tiễn Nghiên cứu tảng cho nghiên cứu toán khác khai phá liệu chuỗi thời gian gom cụm, phân lớp, phát bất thường, tìm kiếm motif, v.v… Từ áp dụng cho ứng dụng cụ thể chẩn đoán, phân tích, dự báo nhiều lĩnh vực khác chẩn đoán bệnh y khoa, dự báo thị trường chứng khoán, phân tich lưu lượng giao thông, … Ngoài ra, áp dụng giảng dạy chuyên đề cho sinh viên sau đại học Các đối tượng nghiên cứu Cơ sở liệu chuỗi thời gian kết nghiên cứu công bố tìm kiếm tương tự sở liệu chuỗi thời gian 10 Phạm vi phương pháp nghiên cứu 10.1 Phạm vi nghiên cứu  Phương pháp thu giảm số chiều liệu chuỗi thời gian  Cấu trúc mục đa chiều sử dụng cho toán tìm kiếm tương tự 10.2 Các phương pháp nghiên cứu  Tổng kết kết nghiên cứu liên quan trước Đánh giá hiệu phương pháp Thực nghiệm để kiểm tra kết  Nghiên cứu tài liệu, ứng dụng mô hình lý thuyết chứng minh thực nghiệm PHẦN NỘI DUNG Chương Các kiến thức sở 1.1 Tổng quan liệu chuỗi thời gian toán tìm kiếm tương tự Một liệu chuỗi thời gian (Time Series Data - TSD) dãy số thực, số biểu diễn giá trị thời điểm Loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ thương mại Thời gian qua, có nhiều quan tâm nhà nghiên cứu toán tìm kiếm tương tự (similarity search) sở liệu chuỗi thời gian Bài toán thành phần quan trọng nhiều ứng dụng khai phá liệu (data mining) gom cụm (clustering) [12][13], phân lớp (classification) [10] Bài toán tìm kiếm tương tự phân làm loại: so trùng toàn chuỗi (whole sequence matching) so trùng chuỗi (subsequence matching) Khi so trùng toàn chuỗi, chuỗi TSD giả định có chiều dài nhau, so trùng chuỗi ta tìm chuỗi liên tục TSD dài tương tự với chuỗi truy vấn Độ tương tự chuỗi TSD tính toán dựa vào độ đo tương tự Có nhiều độ đo tương tự chuỗi TSD đề nghị, có độ đo quan tâm sử dụng độ đo Euclid độ đo xoắn thời gian động (DTW-Dynamic Time Warping) Những khó khăn thách thức nghiên cứu TSD:  Dữ liệu thường lớn Chẳng hạn, giờ, liệu điện tâm đồ (ECG) lên đến 1GB  Phụ thuộc nhiều vào yếu tố chủ quan người dùng tập liệu đánh giá mức độ tương tự TSD  Dữ liệu không đồng nhất: định dạng liệu khác nhau, tần số lấy mẫu khác Ngoài ra, liệu bị nhiễu, thiếu vài giá trị không Do giới hạn nhớ máy tính thời gian thực hiện, việc phân tích tập liệu chuỗi thời gian lớn điều Vì vậy, vấn đề trọng tâm công việc khai phá liệu chuỗi thời gian giảm số chiều chuỗi liệu giữ tính chất đặc trưng chúng Trong năm qua, nhiều kỹ thuật thu giảm số chiều TSD giới thiệu Phần trình bày tổng quan công trình 1.2 Các công trình liên quan Bài toán tìm kiếm tương tự sở liệu chuỗi thời gian nghiên cứu cộng đồng nhà nghiên cứu TSD Các nghiên cứu tập trung vào kỹ thuật thu giảm số chiều chuỗi liệu thời gian lập mục chuỗi liệu không gian thu giảm số chiều Trong phần này, trình bày tổng quan số kỹ thuật thu giảm số chiều, với độ đo tương tự thường sử dụng toán tìm kiếm kỹ thuật lập mục liên quan 1.2.1 Các độ đo tương tự Trong toán TSD, để so sánh hai chuỗi người ta sử dụng độ đo tương tự Hai đối tượng xem giống độ đo tương tự chúng 0, xem tương tự độ đo tương tự chúng nhỏ giá trị  qui ước trước Để tính toán so sánh, độ đo biểu diễn thành số thực phải thỏa tính chất sau: - D(x,y) = x = y - D(x, y) = D(y, x) - D(x, y)  với x, y - D(x, y) < D(x, z) + D(y, z) Dưới độ đo thường sử dụng:  Độ đo Minkowski Ký hiệu Sim(X,Y) (độ tương tự X Y) định nghĩa sau: Tuy p có nhiều lựa chọn khác nhau, nghiên cứu liệu chuỗi thời gian thường sử dụng p = (khoảng cách Euclid) Độ đo có ưu điểm tính toán dễ dàng Tuy nhiên có số nhược điểm phương pháp tính toán dựa giá trị nên trường hợp tính chất hai mẫu giống giá trị khác (có đường khác hay có biên độ dao động khác nhau) khoảng cách hai mẫu khác Hình 1.1 minh họa trường hợp Hình 1.1 Minh họa TSD giống (a) đường khác (b) biên độ giao động khác Để khắc phục trường hợp trước áp dụng giải thuật ta cần thực chuẩn hóa liệu Các phương pháp chuẩn hóa thường dùng là: - Chuẩn hóa trung bình zero (Zero-Mean normalization)[16] Chuỗi Q biến đổi thành chuỗi Q’ theo công thức Q’[i] = (Q[i]- mean(Q)) / var(Q) Với mean(Q) giá trị trung bình Q var(Q) độ chệch chuẩn Q - Chuẩn hóa nhỏ nhất-lớn (Min-Max normalization) [2] Chuỗi Q biến đổi thành chuỗi Q’ theo công thức Q'[i ]  Qmax  Qmin Qmax  Qmin Q[i ]   Phương pháp xoắn thời gian động (Dynamic Time Warping DTW) Trong trường hợp hai mẫu cần so sánh có hai đường biểu diễn không hoàn toàn giống hình dạng biến đổi giống so sánh độ tương tự hai mẫu cách so sánh cặp điểm 1-1 (so điểm thứ i đường thứ điểm thứ i đường thứ hai) không phù hợp Hình minh họa hai đường biểu diễn giống hình dạng lệch thời gian Trong trường hợp này, tính khoảng cách cách ánh xạ 1-1 hai đường kết khác dẫn đến kết cuối không giống mong muốn Vì để khắc phục nhược điểm này, điểm ánh xạ với nhiều điểm ánh xạ không thẳng hàng Phương pháp gọi xoắn thời gian động (Dynamic Time Warping - DTW) [4] b7 Đưa chuỗi thu giảm số chiều vào cấu trúc mục Skyline b8 Nhập chuỗi truy vấn Q biến đổi Q vào không gian đặc trưng chuỗi TSD không biến đổi k điểm quan trọng thành dạng bit b9 Dựa vào cấu trúc mục Skyline, thực tìm chuỗi tương tự với chuỗi Q (với ngưỡng ε cho trước) b10 Báo kết 2.5.2 Chuẩn hóa liệu Chuẩn hóa liệu biến đổi chuỗi TSD ban đầu C = {c1, c2, …, cn} thành chuỗi C’ = {c’1, c’2, …, c’n} theo công thức sau C'  Với C  mean(C ) var(C ) n n mean(C )   ci var(C )  i 1 n  (c  mean(C )) i 1 i n 2.5.3 Xác định điểm PIP Như trình bày phần 1.2.2, PIP chọn điểm chuỗi có khoảng cách thẳng đứng xa so với đường nối hai điểm PIP liền kề xác định trước (hai điểm PIP chọn hai điểm đầu cuối chuỗi) Với toán so trùng toàn chuỗi, thuật toán xác định k PIP đoạn (k vị trí đoạn giá trị input) Còn toán so trùng chuỗi con, thuật toán xác định độ quan trọng tất điểm chuỗi TSD ban đầu đưa điểm vào SB-tree nhằm phục vụ cho việc trích điểm PIP xấp xỉ chuỗi mà không cần tính toán lại điểm PIP chuỗi Hình 2.4 mô tả giải thuật xác định k điểm PIP đoạn Giải thuật xác định độ quan trọng tất điểm chuỗi TSD thực tương tự 2.5.4 Xây dựng SB-tree Để nâng cao hiệu thời gian rút trích PIP chuỗi toán so trùng chuỗi mà không cần xác định lại PIP chuỗi con, sử dụng cấu trúc mục SB-tree Fu cộng đề xuất để lưu trữ điểm quan trọng chuỗi TSD Với cấu trúc SB-tree này, cần trích điểm quan trọng chuỗi ta cần thực thao tác duyệt mà không cần xác định lại điểm quan 33 trọng chuỗi SB-tree xây dựng cách đệ quy theo giải thuật mô tả hình 2.5 Dữ liệu vào: Dữ liệu ra: - Chuỗi TSD C = (c1, c2, …, cn) - Số PIP cần lấy k - Vị trí đầu (đầu) vị trí cuối (cuối) đoạn cần xác định PIP - SP[1 k] điểm quan trọng theo thứ tự thời gian Giải thuật: { SP[1] = cđầu , SP[k] = ccuối Lặp lại SP[1 k] đầy { - Chọn điểm cj có khoảng cách thẳng đứng tới đường nối hai điểm PIP liền kề xác định trước (khởi đầu hai điểm SP[1] SP[k]) - Đưa cj vàp SP } Trả SP } Hình 2.3 Giải thuật xác định k PIP đoạn Dữ liệu vào: Danh sách PIP theo thứ tự độ quan trọng giảm dần Dữ liệu ra: SB-tree Giải thuật - Gán điểm cuối chuỗi TSD trở thành nút gốc điểm đầu trở thành nút bên trái nút gốc - Gán điểm có độ quan trọng thứ ba làm nút bên phải (pnode) nút thứ hai - (Gọi nút tương ứng với PIP có độ quan trọng đưa vào cnode) SBTree xây dựng cách đệ quy sau: If (cnode.x < pnode.x) Then Di chuyển sang nút bên trái pnode o If (pnode.left rỗng) Then Thêm cnode vào vị trí o Else pnode = pnode.left trở đầu vòng lặp Else Duyệt sang nút bên phải pnode o If (pnode.right rỗng) Then Thêm cnode vào vị trí o Else pnode = pnode.right trở đầu vòng lặp Hình 2.4 Giải thuật tạo SB-tree 34 Chương Kết thực nghiệm 3.1 Phương pháp luận thực nghiệm Các giải thuật dùng thực nghiệm viết ngôn ngữ C# chạy máy Core Duo 1.60 GHz, 1.00 GB RAM Chúng tiến hành thực nghiệm dựa tỉ lệ thu giảm, số PIP chọn kích thước file liệu khác nhằm đánh giá ảnh hưởng chúng thực thi toán tìm kiếm tương tự Dữ liệu thực nghiệm lấy từ nhiều nguồn khác nhau: Web Page for Time Series Data Library: ” http://robjhyndman.com/TSDL/”, Web Page for Time Series ECG Data: “http://www.physionet.org/physiobank/database”, Web Page for Time Series Inline Skating data: “http://www.mathematik.unimarburg.de/~databionics/en/?q=tskm”, Web Page for Time Series Temperature Data: “http://www.ncdc.noaa.gov”, Web Page for the UCR Time Series Data Mining Archive: “http://www.cs.ucr.edu/~eamonn/TSDMA/index.html”, Web Page for Time Series Stock Data: “http://www-cs.ucr.edu/~wli/FilteringData/stock.zip” Chúng tổ chức thành năm tập liệu tách biệt dùng cho toán so trùng toàn chuỗi: (1) Stock data (37MB), (2) ECG data (1,113KB), (3) Inline Skating data (5,945KB), (4) Temperature data (6,541KB), (5) Exchange rate data (3,575KB) Và năm tập liệu tách biệt dùng cho toán so trùng chuỗi con: (1) Stock-data (37MB), (2) Consumer-data (27MB), (3) FederalFun (24MB), (4) Hydrology (30MB), (5) DiscordAnomaly (20MB) Thực nghiệm đánh giá độ xác kỹ thuật lập mục đề xuất so với kỹ thuật PIP với kỹ thuật thu giảm số chiều sử dụng nhiều PAA Độ xác đánh giá qua độ chặt chặn (tightness of lower bound) phương pháp thu giảm số chiều Thực nghiệm đánh giá tính hiệu kỹ thuật lập mục dựa vào tỷ lệ thu giảm truy xuất (pruning power) Hai số đánh giá độc lập với hệ thống Mặt khác, thực nghiệm để đánh giá mặt thực hệ thống thông qua số chi phí CPU chuẩn hóa (Normalized CPU cost) Ngoài thực nghiệm đánh giá mặt trên, thực nghiệm thống kê thời gian thu giảm số chiều thời gian lập mục kỹ thuật đề xuất so với phương pháp PAA 35 3.2 Thực nghiệm độ chặt chặn (Tightness of lower bound) Độ chặt chặn (T) dùng để đánh giá độ xác phương pháp lập mục T tính theo công thức sau: T Dindex (Q' , C ' ) D(Q, C ) Trong đó: - Q, C chuỗi TSD - Q’, C’ chuỗi thu giảm số chiều từ chuỗi tương ứng Q, C - D(Q, C) độ đo khoảng cách chuỗi Q C Độ đo khoảng cách thường dùng độ đo Euclid - Dindex(Q’, C’) độ đo khoảng cách chuỗi Q’ C’ phương pháp lập mục tương ứng Do Dindex(Q’, C’) ≤ D(Q, C) nên độ chặt chặn ≤ T ≤ Khi T tiến gần đến khoảng cách chặn phương pháp lập mục gần với khoảng cách thực tế Như vậy, phương pháp lập mục hiệu giảm nhiều trường hợp tính khoảng cách thực tế Ngược lại T nhỏ phương pháp lập mục không hiệu Để so sánh độ chặt chặn kỹ thuật IPIP so với kỹ thuật PIP, thực nghiệm cặp chuỗi TSD (hoặc chuỗi con) có chiều dài 1024 điểm liệu Stock Mỗi chuỗi (hoặc chuỗi con) thu giảm thành N chiều theo phương pháp IPIP PIP Hình 3.1 biểu diễn kết thực nghiệm độ chặt chặn tương ứng với tỉ lệ thu giảm khác Hình 3.1(a) trường hợp so trùng chuỗi hình 3.1(b) trường hợp so trùng toàn chuỗi Trong hình 3.1, trục tung biểu diễn độ chặt chặn dưới, trục hoành biểu diễn tỉ lệ thu giảm (b) Hình 3.1 Kết thực nghiệm độ chặt chặn kỹ thuật IPIP so với PIP (a) So trùng chuỗi (b) so trùng toàn chuỗi Dựa vào kết thực nghiệm ta thấy độ chặt chặn kỹ thuật IPIP lớn độ chặt chặn kỹ thuật PIP (nghĩa độ xác cao hơn) 36 Để so sánh độ chặt chặn kỹ thuật IPIP với PAA, thực nghiệm cặp chuỗi TSD (hoặc chuỗi con) có chiều dài 1024 điểm loại liệu tập liệu thử nghiệm nói Mỗi chuỗi (hoặc chuỗi con) thu giảm thành N chiều theo phương pháp IPIP PAA Tương ứng với tỉ lệ thu giảm khác với số điểm PIP chọn khác nhau, thực nghiệm thống kê giá trị độ chặt chặn theo loại liệu thử nghiệm Các tỉ lệ thu giảm (tltg) sử dụng thực nghiệm: 128 (hình a), 64 (hình b), 32 (hình c), 16 (hình d), (hình e) Với tỉ lệ thu giảm sử dụng, số điểm quan trọng chọn là: 4, (cho trường hợp tltg = 8); 8, 16 (cho trường hợp tltg = 16); 8, 16, 32 (cho trường hợp tltg = 32); 8, 16, 32, 64 (cho trường hợp tltg = 64); 8, 16, 32, 64, 128 (cho trường hợp tltg = 128) Trong biểu đồ biểu diễn kết thực nghiệm độ chặt chặn dưới, trục hoành biểu diễn số PIP chọn trục tung biểu diễn độ chặt chặn Các biểu đồ từ (3.2-3.6) biểu diễn kết thống kê trường hợp thực nghiệm độ chặt chặn trường hợp so trùng toàn chuỗi Hình 3.2 Kết thực nghiệm liệu Stock Hình 3.3 Kết thực nghiệm liệu ECG Hình 3.4 Kết thực nghiệm liệu Inline Skating Hình 3.5 Kết thực nghiệm liệu Temperature 37 Hình 3.6 Kết thực nghiệm liệu Exchange rate Các biểu đồ từ (3.7-3.11) biểu diễn kết thống kê trường hợp thực nghiệm độ chặt chặn trường hợp so trùng chuỗi Hình 3.7 Kết thực nghiệm liệu Stock Hình 3.8 Kết thực nghiệm liệu Consumer Hình 3.9 Kết thực nghiệm liệu FederalFun Hình 3.10 Kết thực nghiệm liệu DiscordAnomaly Hình 3.11 Kết thực nghiệm liệu Hydrology 38 Nhận xét: - Thực nghiệm độ chặt chặn hoàn toàn độc lập với thực hệ thống Nó phụ thuộc vào chất liệu phương pháp lập mục - Nhìn chung độ chặt chặn phương pháp IPIP đề xuất báo cáo cao so với phương pháp PAA 3.3 Thực nghiệm tỉ lệ thu giảm truy xuất (pruning power) Để đánh giá hiệu phương pháp lập mục, thực nghiệm độ chặt chặn dưới, ta cần phải kiểm tra thêm tỉ lệ thu giảm truy xuất Tỉ lệ thu giảm truy xuất P định nghĩa tỉ số số chuỗi TSD sở liệu phải kiểm tra tổng số chuỗi sở liệu để tìm chuỗi gần giống với chuỗi truy vấn P= Số chuỗi phải kiểm tra Số chuỗi sở liệu Để tính P, thực sau: Lấy ngẫu nhiên câu truy vấn Q tập chuỗi truy vấn Sau đó, ta tìm xem có chuỗi (hoặc chuỗi con) Ci có khoảng cách Euclid so với Q nhỏ Để tìm Ci vậy, ta duyệt qua chuỗi (hoặc chuỗi con) Ci Nếu chuỗi Ci duyệt có khoảng cách Euclid d(Q, Ci) nhỏ khoảng cách chuỗi tốt thời điểm tại, best_sofar, ta cập nhật chuỗi (hoặc chuỗi con) tốt Ngược lại, ta duyệt qua chuỗi (hoặc chuỗi con) Khi tổng số lần cần phải kiểm tra số chuỗi Ci sở liệu (trường hợp so trùng toàn bộ) |C| - |Q|+1, |C|, |Q| chiều dài chuỗi TSD C ban đầu Q (trường hợp so trùng chuỗi con) Với phương pháp lập mục chuỗi (hoặc chuỗi con) Ci tại, ta tính khoảng cách dindex chúng so Q khoảng cách chuỗi không gian thu giảm số chiều Nếu khoảng cách dindex lớn khoảng tốt thời điểm tại, best_sofar (dindex > best_sofar ), khoảng cách thực tế d(Q, Ci) > best_sofar Vì vậy, ta không cần kiểm tra trực tiếp liệu gốc Ngược lại, ta phải tính khoảng cách dựa liệu ban đầu để so sánh chúng với best_sofar Việc tính khoảng cách dựa chuỗi xấp xỉ không gian thu giảm số chiều thường thực nhanh nhiều so với tính trực tiếp Do đó, số lần kiểm tra trực tiếp giảm kỹ thuật lập mục hiệu 39 Thực nghiệm thực với liệu Stock Các chuỗi truy vấn có chiều dài 1024 (với tỉ lệ thu giảm 16, 32, 64, 128) 512 (với tỉ lệ thu giảm 8, 16, 32, 64) Hình 3.12 biểu diễn kết thực nghiệm hệ số thu giảm truy xuất so trùng chuỗi (hình a b) so trùng toàn chuỗi (hình c d) Hình 3.12 Kết thực nghiệm so sánh ba phương pháp PAA, IPIP PIP tỉ lệ thu giảm truy xuất P (trục tung) theo tỉ lệ thu giảm khác (trục hoành), với chiều dài chuỗi 1024 (hình a), 512 (hình b) so trùng chuỗi với chiều dài chuỗi 1024 (hình c), 512 (hình d) so trùng toàn chuỗi Nhận xét: - Thực nghiệm hoàn toàn độc lập với thực hệ thống Nó phụ thuộc vào chất liệu phương pháp lập mục - Hệ số thu giảm truy xuất phương pháp PIP độ chặt chặn phương pháp nhỏ - Hệ số thu giảm truy xuất phương pháp IPIP đề xuất báo cáo nhỏ so với phương pháp PAA (i.e, truy xuất hiệu hơn) 3.4 Thực nghiệm hệ thống thực (implemented system) Những thực nghiệm trình bày phần trước thực nghiệm độc lập với hệ thống Qua đó, cho ta thấy tính hiệu cấu trúc mục kỹ thuật nén sử dụng Ngoài ra, để đảm bảo tính đầy đủ ta cần phải kiểm tra mặt hệ thống thực phương pháp Thực nghiệm hệ thống thực đánh giá thông qua chi phí CPU chuẩn hóa (normalized CPU cost) Chi phí CPU chuẩn hóa tỉ số thời gian trung bình CPU để thực thi chuỗi truy vấn có sử dụng lập mục so với thời gian trung bình CPU thực truy vấn mà không sử dụng phương pháp mục (quét tuần tự) Chi phí CPU chuẩn hóa kỹ thuật quét 1.0 Các thực nghiệm thực chuỗi truy vấn có độ dài 1024; với tỉ lệ thu giảm 8, 16, 32, 64, 128 40 Hình 3.13 biểu diễn kết thực nghiệm chi phí CPU chuẩn hóa phương pháp PAA, sử dụng cấu trúc R*-tree với vùng bao MBR phương pháp IPIP sử dụng cấu trúc mục Skyline với vùng bao IBR Hình 3.13(a) biểu diễn kết so trùng toàn chuỗi Hình 3.13b biểu diễn kết so trùng chuỗi Hình 3.13a Kết thực nghiệm chi phí CPU chuẩn hóa so trùng toàn chuỗi Hình 3.13b Kết thực nghiệm chi phí CPU chuẩn hóa so trùng chuỗi Dựa vào kết thực nghiệm biểu diễn đồ thị (hình 40), ta thấy phương pháp lập mục IPIP với vùng bao IBR có chi phí CPU chuẩn hóa nhỏ so với chi phí CPU chuẩn hóa phương pháp lập mục PAA với vùng bao MBR (i.e., phương pháp lập mục IPIP với vùng bao IBR thực thi hiệu hơn) Để đánh giá ảnh hưởng kích thước liệu tới chi phí CPU chuẩn hóa, thực nghiệm tập liệu có kích thước khác (20.000, 40.000, 60.000, 80.000 100.000 điểm), tỉ lệ thu giảm chọn 64 (tỉ lệ thu giảm mà hai phương pháp hoạt động tốt) Hình 3.14 biểu diễn kết thực nghiệm chi phí CPU chuẩn hóa trường hợp (trường hợp so trùng toàn chuỗi) Vì chi phí CPU chuẩn hóa kết thực nghiệm phương pháp IPIP gần nên phóng lớn kết (Hình 3.15) Hình 3.16 biểu diễn kết thực nghiệm chi phí CPU chuẩn hóa (trường hợp so trùng chuỗi con) 41 Dựa vào kết thực nghiệm biểu diễn đồ thị, ta có nhận xét sau: - Phương pháp lập mục IPIP có chi phí CPU chuẩn hóa thấp phương pháp lập mục PAA dựa khái niệm MBR - Với kích thước liệu lớn phương pháp lập mục hiệu giảm thời gian truy xuất CPU Hình 3.14 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu (so trùng toàn chuỗi) Hình 3.15 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu phương pháp IPIP Hình 3.16 Kết thực nghiệm chi phí CPU chuẩn hóa theo kích thước liệu (so trùng chuỗi con) 42 Ngoài thực nghiệm để đánh giá chi phí CPU chuẩn hóa hai phương pháp, tiến hành thực nghiệm để đánh giá thêm thời gian tạo mục (tính theo phần ngàn giây) hai phương pháp Chú ý kết thực nghiệm phụ thuộc vào hệ thống cài đặt cấu trúc liệu kỹ thuật lập trình sử dụng Thực nghiệm thực với 10000 chuỗi liệu, chuỗi có chiều dài 1024, tỉ lệ thu giảm 128, 64 Với tỉ lệ thu giảm số PIP chọn 8, 16, 32 Hình 3.17 biểu diễn kết thực nghiệm thời gian lập mục xây dựng dựa R*-tree phương pháp PAA với vùng bao MBR thời gian lập mục phương pháp IPIP với vùng bao IBR Hình 3.17 Thời gian xây dựng mục với tỉ lệ thu giảm khác số chuỗi thực nghiệm 10000 Dựa vào kết thực nghiệm hình 3.17, ta thấy - Khi tỉ lệ thu giảm nhỏ, thời gian lập mục hai phương pháp tăng với tỉ lệ thu giảm nhỏ số lượng vùng bao cần phải xác định để đưa vào nhiều nên thời gian tạo cấu trúc mục lâu - Thời gian lập mục phương pháp IPIP nhanh so với phương pháp PAA dựa MBR thời gian cần để xác định vùng bao MBR đưa vào lớn so với thời gian tương ứng phương pháp IPIP dựa vùng bao IBR 43 Kết luận hướng phát triển Trong báo cáo này, đề xuất kỹ thuật thu giảm số chiều dựa vào điểm quan trọng, gọi IPIP Kỹ thuật cải tiến từ kỹ thuật thu giảm số chiều dựa vào PIP khắc phục nhược điểm phương pháp thu giảm số chiều dựa vào điểm quan trọng nghiên cứu trước đây, không đảm bảo tính chất chặn không cung cấp chế lập mục TSD để hỗ trợ việc tìm kiếm tương tự cách hiệu Qua chứng minh mặt lý thuyết thực nghiệm, cho thấy kỹ thuật IPIP đảm bảo tính chất chặn có độ xác cao so với kỹ thuật PIP Ngoài ra, tiến hành so sánh phương pháp IPIP với phương pháp nhiều người quan tâm sử dụng PAA Qua chứng minh lý thuyết qua thực nghiệm cho thấy kỹ thuật IPIP có độ chặt chặn chặt so với kỹ thuật PAA Tuy nhiên, thời gian thu giảm số chiều kỹ thuật IPIP lâu so với kỹ thuật PAA Mặt khác, cho thấy chuỗi IPIP lập mục cấu trúc mục Skyline Chúng thực nghiệm để so sánh kỹ thuật lập mục với kỹ thuật lập mục dựa vùng bao MBR Kết thực nghiệm cho thấy kỹ thuật lập chuỗi IPIP dựa vùng bao IBR có thời gian tạo mục thời gian thực truy vấn nhanh so với kỹ thuật lập mục dựa vùng bao MBR Chúng hoạch định cho công việc nghiên cứu ứng dụng kỹ thuật vào toán khác lĩnh vực khai phá liệu chuỗi thời gian gom cụm, phân lớp, tìm motif Chúng tin phương pháp IPIP đề xuất hỗ trợ thực toán cách hiệu 44 Tài liệu tham khảo [1] Agrawal, R., Faloutsos, C & Swami, A (1993) Efficient similarity search in sequence databases In proceedings of the 4th Int’l Conference on Foundations of Data Organization and Algorithms Chicago, IL, Oct 13-15, pp 69-84 [2] Agrawal, R., Lin, K I., Sawhney, H S & Shim, K (1995) Fast similarity search in the present of noise, scaling, and translation in time-series databases In proceeding of the 21st VLDB Switzerland [3] Beckmann, N., Kriegel, H.P., Schneider, R., Seeger, B (1990) The R*-tree: an efficient and robust access method for points and rectangles Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, May 23-25, 1990, pp 322-331 [4] Berndt, D and Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 [5] Chan, K & Fu, A W (1999) Efficient Time Series Matching by Wavelets In proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26, pp 126-133 [6] Chung, F.L., Fu, T.C., Luk, R and Ng, V (2001) Flexible Time Series Pattern Matching Based on Perceptually Important Points International Joint Conference on Artificial Intelligence Workshop on Learning from Temporal and Spatial Data, pp 1-7 [7] Fink, E and Pratt, K.B (2003) Indexing of compressing time series In Mark Last, Abraham Kandel and Horst Bunke, editors Data mining in time series Databases World Scientific, Singapore [8] Fu, T.C., Chung, F.L., Luk, R and Ng, C.M (2004) A Specialized Binary Tree for Financial Time Series Representation, The10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Workshop on Temporal Data Mining [9] Faloutsos, C., Ranganathan, M., & Manolopoulos, Y (1994) Fast Subsequence Matching in Time-Series Databases In proceedings of the ACM SIGMOD Int’l Conference on Management of Data May 24-27, Minneapolis, MN, pp 419-429 [10] Geurts, P (2001) Pattern Extraction for Time Series Classification In proceedings of the 5th European Conference on Principles of Data Mining and Knowledge Discovery Sep 3-7, Freiburg, Germany, pp 115-127 [11] Guttman, A (1984) R-trees: a Dynamic Index Structure for Spatial Searching Proceedings of the ACM SIGMOD International Conference on Management of Data, June 18-21, pp 47-57 45 [12] Keogh, E., & Pazzani, M (1998) An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback Proceedings of the 4th International Conference of Knowledge Discovery and Data Mining, pp 239-241, AAAI Press [13] Kalpakis, K., Gada, D & Puttagunta, V (2001) Distance Measures for Effective Clustering of ARIMA Time-Series In proceedings of the 2001 IEEE International Conference on Data Mining, San Jose, CA, Nov 29-Dec 2, pp 273280 [14] Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S (2000) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases Knowledge and Information Systems, 3(3):263–286 [15] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2001) Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases In proceedings of ACM SIGMOD Conference on Management of Data Santa Barbara, CA, May 21-24, pp 151-162 [16] Keogh, E & Kasetty, S (2002) On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23-26, 2002 Edmonton, Alberta, Canada, pp 102-111 [17] Perng, C.-S., Wang, H., Zhang, S R and Parker, D S (2000) Landmarks: A New Model for Similarity-Based Pattern Querying in Time Series Databases In Proceedings of the IEEE Sixteenth International Conference on Data Engineering, pp 33–42 [18] Quanzhong Li, Ines Fernando Vega Lopez, and Bongki Moon (2004) Skyline Index for Time Series Data IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL 16, NO 6, JUNE 2004 [19] Rafiei, D & Mendelzon, A (1997) Similarity-based queries for time series data In Proc of the ACM SIGMOD Conf., Tucson, AZ, May 1997 [20] Ratanamahatana, C A., Keogh, E., Bagnall, A J., Lonardi, S., “A Novel Bit Level Time Series Representation with Implications for Similarity Search and Clustering”, Proc of PAKDD, Hanoi, Vietnam, 2004 [21] Stefan Berchtold, Daniel A Keim, Hans-Peter Kriegei (1996) The X-tree: An Index Structure for High-Dimensional Data In Proceedings of the 22nd VLDB Conference Mumbai(Bombay), India 46 [...]... ít nhất sẽ có một cặp chuỗi con (Qi, Ci) tương ứng trong hai chuỗi thỏa D(Qi, Ci) ≤  / p Như vậy khi thực hiện tìm kiếm tương tự cho từng chuỗi con của Q, nếu ngưỡng tìm kiếm ban đầu là ε thì ngưỡng tìm kiếm cho mỗi chuỗi truy vấn con sẽ là  / p Nhờ đó kết quả tìm sai sẽ giảm 31 2.5 Chi tiết kỹ thuật của các chức năng Bài toán tìm kiếm tương tự trong cơ sở dữ liệu chuỗi thời gian thường được thực... và lập chỉ mục dữ liệu trong không gian thu giảm Trong bài toán tìm kiếm tương tự, chuỗi truy vấn có thể do người dùng đặc tả hoặc là một chuỗi (hay chuỗi con) được trích từ dữ liệu ban đầu Việc xử lý chuỗi truy vấn do người dùng đặc tả nằm ngoài phạm vi nghiên cứu của đề tài 2.5.1 Qui trình thực hiện tìm kiếm tương tự 2.5.1.1 So trùng toàn chuỗi (whole sequence matching) So trùng toàn chuỗi bao gồm... nhược điểm là (1) không đảm bảo độ chặt của chặn dưới nên có thể xảy ra lỗi tìm sót, (2) không hỗ trợ lập chỉ mục cho việc tìm kiếm tương tự, điều này làm giảm hiệu quả của việc tìm kiếm tương tự trên cơ sở dữ liệu chuỗi thời gian lớn 1.2.3 Các cấu trúc chỉ mục Việc sử dụng cấu trúc lập chỉ mục cho phép chúng ta tìm kiếm các chuỗi con một cách nhanh chóng và hiệu quả Faloutsos (1994) [9] đưa ra những... là mức độ tương tự) , thuật toán sẽ tìm và trả về tất cả các chuỗi có khoảng cách nhỏ hơn hoặc bằng  so với chuỗi truy vấn Đối với bài toán tìm kiếm K lân cận gần nhất (K-nearest neighbor search), ta phải đưa vào giá trị K, thuật toán sẽ tìm và trả về K chuỗi TSD tương tự nhất với chuỗi truy vấn Tìm theo ngưỡng (-range search) Với một chuỗi truy vấn Q và một ngưỡng ε cho trước Thuật toán sẽ tìm trên... thực hiện tìm chuỗi tương tự với chuỗi Q (với ngưỡng ε cho trước) b7 Báo kết quả 2.5.1.2 So trùng chuỗi con (subsequence matching) So trùng chuỗi con bao gồm các bước sau: b1 Nhập dữ liệu từ đĩa b2 Chuẩn hóa chuỗi TSD b3 Xác định độ quan trọng của các điểm trong chuỗi TSD b4 Đưa các điểm trong chuỗi TSD vào SB-tree tùy theo độ quan trọng của chúng b5 Trượt cửa sổ có kích thước cho trước dọc theo chuỗi. .. trích các điểm PIP xấp xỉ trong các chuỗi con mà không cần tính toán lại các điểm PIP trong từng chuỗi con Hình 2.4 mô tả giải thuật xác định k điểm PIP trong một đoạn Giải thuật xác định độ quan trọng của tất cả các điểm trong chuỗi TSD được thực hiện tương tự 2.5.4 Xây dựng SB-tree Để nâng cao hiệu quả về thời gian rút trích các PIP trong các chuỗi con trong bài toán so trùng chuỗi con mà không cần... hơn n Giả sử chuỗi truy vấn có chiều dài là nL > n Vì chỉ mục chỉ chứa thông tin về các chuỗi con có chiều dài là n (được biến đổi vào không gian N chiều), chúng ta có thể xem chỉ mục chứa thông tin về đoạn đầu của các chuỗi con trong cơ sở dữ liệu cần so sánh với chuỗi truy vấn dài hơn Dễ thấy là khoảng cách trong không gian chỉ mục giữa đoạn đầu của chuỗi truy vấn và đoạn đầu của bất kỳ chuỗi con cần... dài chuỗi truy vấn Q bằng p lần chiều dài n của chuỗi con (p là một số nguyên) Nếu không đúng trường hợp này, ta trích chuỗi con đầu tiên của Q có chiều dài bằng đúng p*n Sau đó chia chuỗi truy vấn thành p chuỗi con liên tục không giao nhau, mỗi chuỗi truy vấn con có chiều dài n Thực hiện tìm kiếm tương tự cho từng chuỗi truy vấn con, sau đó tiến hành hậu kiểm kết quả tìm được để loại bỏ những chuỗi tìm. .. tốn nhiều không gian lưu trữ Mặt khác, khi so sánh độ tương tự giữa hai chuỗi, ta có thể so sánh độ tương tự về mặt giá trị kết hợp với tương tự về mặt hình dạng bằng cách tịnh tiến cho hai đường trung bình trùng nhau rồi so sánh các PIP dựa trên các bit biểu diễn và cộng thêm khoảng cách giữa các trung bình đoạn 2.1 Thu giảm số chiều dựa vào kỹ thuật IPIP Cho một cơ sở dữ liệu C gồm k chuỗi TSD C =... và một con trỏ chỉ tới chuỗi gốc tương ứng trong cơ sở dữ liệu IBR kết hợp với một nút không phải lá là vùng bao nhỏ nhất chứa các IBR kết hợp với các nút con trực tiếp của nó  Chèn thêm phần tử mới vào cây Thuật toán chèn được dùng để lập chỉ mục các chuỗi IPIP gồm các bước như sau Thuật toán này tương tự như thuật toán chèn trong [11] Nó bao gồm 4 bước chính b1 Tìm vị trí cho chuỗi mới: Bắt đầu từ

Định dạng
Số trang	49
Dung lượng	3,56 MB