1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khảo sát hiệu quả của cấu trúc chỉ mục skyline như là cấu trúc chỉ mục cho dữ liệu chuỗi thời gian

159 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 159
Dung lượng 3,88 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN AN HỒ HƯNG KHẢO SÁT HIỆU QUẢ CỦA CẤU TRÚC CHỈ MỤC SKYLINE NHƯ LÀ CẤU TRÚC CHỈ MỤC CHO DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2012 Cơng trình hồn thành tại: Trường Đại học Bách Khoa – ĐHQGTPHCM Cán hướng dẫn khoa học: PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: TS Phạm Văn Chung Cán chấm nhận xét 2: TS Nguyễn Quang Tấn Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP.HCM ngày 24 tháng 12 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Nguyễn Văn Minh Mẫn, chủ tịch hội đồng TS Phạm Văn Chung, phản biện TS Nguyễn Quang Tấn, phản biện PGS.TS Dương Tuấn Anh, ủy viên TS Võ Thị Ngọc Châ, thư ký Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự – Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn An Hồ Hưng MSHV: 09070439 Ngày sinh: 18/04/1986 Nơi sinh: Bình Định Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: Khảo sát hiệu cấu trúc mục Skyline cấu trúc mục cho liệu chuỗi thời gian NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu phương pháp thu giảm số chiều PAA phương pháp biến đổi Haar Wavelet, cấu trúc mục Skyline cấu trúc mục R*-Tree, M-Tree, M+-Tree - Hiện thực thực nghiệm để so sánh hiệu cấu trúc mục Skyline với cấu trúc mục lại thực tìm kiếm tương tự liệu chuỗi thời gian II NGÀY GIAO NHIỆM VỤ: 15/02/2012 III NGÀY HOÀN THÀNH NHIỆM VỤ: 01/12/2012 IV CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh TP HCM, ngày 31 tháng 12 năm 2012 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO PGS.TS.Dương Tuấn Anh TRƯỞNG KHOA ………………………… Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến Thầy tôi, PGS TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học Cao học thời gian làm Luận văn Cảm ơn Thầy tạo điều kiện tốt để em hồn thành tốt Luận văn Tôi xin cảm ơn người thân gia đình, bạn bè động viên tạo điều kiện để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành Luận văn cho cha mẹ Nhờ công lao dưỡng dục Người mà có thành ngày hơm Con xin hứa tiếp tục phấn đấu để tiến xa đường học vấn Tôi xin gởi lời cám ơn đến toàn thể anh chị em đồng nghiệp người nhóm nghiên cứu giúp đỡ mặt kiến thức động viên mặt tinh thần để vượt qua khó khăn Nguyễn An Hồ Hưng - 09070439 Trang i Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian toán quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học, ngày có nhiều ứng dụng đòi hỏi phải xử lý liệu chuỗi thời gian Để tìm kiếm tương tự hiệu quả, có nhiều mơ hình đưa ra, mơ hình chung mà nhiều nhà khoa học nghiên cứu thu giảm liệu, sau lưu trữ liệu lên cấu trúc mục, thao tác liệu thu giảm Có nhiều cấu trúc mục đưa nhiệm vụ đề tài khảo sát độ hiệu cấu trúc mục Skyline so với cấu trúc mục khác, sau đưa kết luận xác cấu trúc mục Luận văn đưa mơ hình chung để giải tốn tìm kiếm tương tự liệu chuỗi thời gian, luận văn này, chúng tơi sử dụng độ đo Euclid để tính tốn khoảng cách, thu giảm liệu dùng phương pháp thu giảm số chiều PAA phép biến đổi Haar Wavelet Sau tiến hành thực nghiệm cấu trúc mục R*-Tree, M-Tree, M+-Tree Skyline Qua nhiều thực nghiệm chứng tỏ hiệu cấu trúc mục Skyline so với cấu trúc mục cịn lại, chúng tơi mạnh dạn đề xuất sử dụng cấu trúc mục để lập mục cho liệu chuỗi thời gian Nguyễn An Hồ Hưng - 09070439 Trang ii Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian ABSTRACT Similarity search in time series data is one of the basic and important tasks in time series data mining With the rapid development of time series in various applications from finance to scientific, there are more and more applications that require time series processing There are many methods for similarity search in time series that are developed by several researchers General idea is as follows: First; time series is reduced using some technique After that, the reduced data is stored on some index structure And finally, we can query on it Many index structures are proposed and main objective of this thesis is “to investigate the effectiveness of Skyline index structure as index structures for time series” In this thesis, we used Euclidean distance for distance measure, we reduced data by using PAA technique or Haar Wavelet transform After that, we conducted a lot of experiments to compare four index structures: Skyline, R*-Tree, M-Tree, M+-Tree with many criteria Based on the results from these experiments, we can conclude that “the Skyline index structure is better than the three index structures” and we recommend to use Skyline index structure for similarity search problems in time series Nguyễn An Hồ Hưng - 09070439 Trang iii Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác ghi rõ Luận văn, cơng việc trình bày Luận văn tơi thực chưa có phần nội dung Luận văn nộp để lấy cấp trường trường khác Ngày 01 tháng 12 năm 2012 NGUYỄN AN HỒ HƯNG Nguyễn An Hồ Hưng - 09070439 Trang iv Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian MỤC LỤC MỤC LỤC v DANH MỤC CÁC HÌNH x CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan liệu chuỗi thời gian 1.1.1 Giới thiệu liệu chuỗi thời gian 1.1.2 Các toán liệu chuỗi thời gian .3 1.1.3 So trùng toàn so trùng chuỗi liệu chuỗi thời gian 1.1.4 Các dạng truy vấn tương tự liệu chuỗi thời gian 1.1.5 Vấn đề truy vấn tương tự liệu chuỗi thời gian .5 1.2 Giới thiệu đề tài 1.3 Mục đích, đối tượng, phạm vi nghiên cứu 1.3.1 Mục đích nghiên cứu 1.3.2 Đối tượng nghiên cứu .8 1.3.3 Phạm vi nghiên cứu 1.4 Ý nghĩa khoa học ý nghĩa thực tiễn đề tài 1.4.1 Ý nghĩa khoa học 1.4.2 Ý nghĩa thực tiễn 1.5 Cấu trúc luận văn CHƯƠNG 2: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 11 2.1 Các cơng trình độ đo tương tự 11 2.1.1 Độ đo Minkowski 12 2.1.2 Độ đo xoắn thời gian động 16 2.2 Các cơng trình biểu diễn chuỗi thời gian 17 2.2.1 Các phương pháp thu giảm số chiều .18 2.2.1.1 Các phương pháp biến đổi sang miền tần số 19 Phương pháp biến đổi Fourier rời rạc: 19 Phương pháp biến đổi Wavelet rời rạc: 19 Nguyễn An Hồ Hưng - 09070439 Trang v Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian 2.2.1.2 Các phương pháp xấp xỉ đoạn 21 Phương pháp xấp xỉ tuyến tính đoạn: 21 Phương pháp xấp xỉ gộp đoạn: 22 Phương pháp xấp xỉ đoạn thích nghi: 23 2.2.2 Các phương pháp rời rạc hóa liệu 24 2.3 2.2.2.1 Phương pháp xấp xỉ gộp ký hiệu hóa 24 2.2.2.2 Phương pháp iSAX .25 Các cơng trình cấu trúc mục đa chiều 26 2.3.1 K-D-Tree/Quad Tree 26 2.3.2 Cấu trúc mục R-Tree/R*-Tree 27 2.3.3 Cấu trúc mục SR-Tree 27 2.3.4 Cấu trúc mục M-Tree/M+-Tree .28 2.3.5 Cấu trúc mục Skyline 28 2.4 Kết luận 29 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT .30 3.1 Phương pháp thu giảm số chiều .30 3.1.1 Phương pháp xấp xỉ gộp đoạn 30 3.1.2 Phương pháp biến đổi Haar Wavelet 31 3.2 3.1.2.1 Khái niệm wavelet phép biến đổi wavelet .32 3.1.2.2 Tính chất đa phân giải biến đổi wavelet 32 3.1.2.3 Tính tốn mức phân rã hợp lý biến đổi Wavelet .34 3.1.2.4 Tính khoảng cách phép biến đổi Haar Wavelet 37 3.1.2.5 Kết luận .38 Cấu trúc mục 39 3.2.1 Cấu trúc mục R-Tree/ R*-Tree 39 3.2.1.1 Tổng quan cấu trúc mục R-Tree/R*-Tree 39 3.2.1.2 Xây dựng R-Tree/ R*-Tree 41 Thao tác thêm R-Tree .41 Thao tác xóa .54 Thao tác sửa .55 Nguyễn An Hồ Hưng - 09070439 Trang vi Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian 3.2.1.3 Tìm kiếm R-Tree/R*-Tree 55 3.2.2 Cấu trúc mục M-Tree 56 3.2.2.1 Tổng quan cấu trúc mục M-Tree .56 3.2.2.2 Xây dựng M-Tree .58 Thao tác thêm M-Tree 58 Quản lý việc tách nút .59 Một số qui tắc xác định nút mức 60 Một số qui tắc phân hoạch thành phần 61 3.2.2.3 Tìm kiếm M-Tree 61 Tìm kiếm vùng M-Tree 62 Tìm kiếm k láng giềng gần M-Tree 63 3.2.3 Cấu trúc mục M+-TREE 64 3.2.3.1 Một số khái niệm liên quan 64 Chiều chủ đạo 64 Phương pháp chọn chiều chủ đạo 65 Nguyên lý lọc 66 3.2.3.2 Tổng quan cấu trúc mục M+-Tree 67 Khái niệm .67 Phân hoạch không gian liệu M+-Tree dựa chiều chủ đạo .68 Cấu trúc M+-Tree 69 3.2.3.3 Xây dựng M+-Tree .70 3.2.3.4 Tìm kiếm M+-Tree 72 Tìm kiếm vùng 72 Tìm kiếm lân cận gần 74 3.2.4 Cấu trúc mục Skyline 76 3.2.4.1 Giới thiệu 76 3.2.4.2 Vùng bao đường chân trời 77 3.2.4.3 Hàm tính khoảng cách Skyline 80 3.2.4.4 Xây dựng cấu trúc mục Skyline 80 Thao tác thêm cấu trúc mục Skyline: 81 Nguyễn An Hồ Hưng - 09070439 Trang vii Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian 4.4 Kết luận - Việc sử dụng cấu trúc mục hệ thống tìm kiếm tương tự liệu chuỗi thời gian giúp nâng cao hiệu tìm kiếm Tuy nhiên kết thực nghiệm nhiều liệu cho thấy, hiệu việc sử dụng mục phụ thuộc vào việc sử dụng mục mà phụ thuộc vào liệu yếu tố khác Thông thường hệ thống liên quan đến chuỗi thời gian người ta thường dùng cấu trúc mục R*-Tree biến thể để làm cấu trúc mục - Qua thực nghiệm kết luận cấu trúc mục Skyline tỏ ưu ba cấu trúc mục lại thời gian lập mục, thời gian truy vấn tiêu chí khác - Kết thực nghiệm cho thấy, cấu trúc mục M+-Tree M-Tree nhiều thời gian cho trình xây dựng mục, thời gian xây dựng mục hai cấu trúc nhiều nhiều lần so với Skyline R*-Tree Tuy nhiên thời gian đáp ứng truy vấn tính tốn khoảng cách truy đạt I/O hai cấu trúc mục tỏ tốt R*-Tree Nguyễn An Hồ Hưng - 09070439 Trang 128 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn chúng tơi trình bày cách xây dựng hệ thống tìm kiếm tương tự liệu chuỗi thời gian cách sử dụng phương pháp thu giảm số chiều PAA với cấu trúc mục khơng gian Ngồi ra, thực nghiệm nhiều liệu khác nhau, việc sử dụng cấu trúc mục Skyline cho hiệu cao so với dùng cấu trúc mục R*-Tree, M+-Tree, M-Tree tiêu chí so sánh thực nghiệm Qua nhiều đánh giá thực nghiệm, cấu trúc mục phụ thuộc lớn vào tập liệu xét mạnh dạn đề xuất sử dụng cấu trúc mục Skyline làm cấu trúc mục cho liệu chuỗi thời gian sau thu giảm số chiều để nâng cao hiệu tìm kiếm, với số chiều thu giảm từ 15-30 hợp lý 5.1 Những đóng góp đề tài Xây dựng mơ hình chung cho tốn tìm kiếm tương tự liệu chuỗi thời gian Đề nghị mơ hình kết hợp phương pháp PAA Haar Wavelet với cấu trúc mục cho tốn tìm kiếm tương tự chuỗi thời gian Đề nghị sử dụng cấu trúc mục Skyline làm cấu trúc mục lưu trữ chuỗi thời gian kết hợp với phương pháp PAA phương pháp thu giảm số chiều khác Cấu trúc mục chứng minh hiệu R*-Tree, M-Tree M+Tree kết thực nghiệm 5.2 Những hạn chế đề tài Chỉ sử dụng phương pháp PAA Haar Wavelet để thu giảm số chiều mà chưa xem xét đến phương pháp khác DFT, PLA, APCA… Cần mở rộng thêm cấu trúc mục khác để hoàn thiện Nguyễn An Hồ Hưng - 09070439 Trang 129 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian 5.3 Hướng phát triển Mở rộng toán dùng phương pháp thu giảm APCA, PLA, DFT… đặc biệt phương pháp PLA Mở rộng toán cách khảo sát thêm cấu trúc mục khác Thực nghiệm thêm nhiều liệu mẫu nhằm đưa phương pháp tốt cho loại liệu cụ thể Đặc biệt, với ưu cấu trúc mục Skyline, đào sâu nghiên cứu kỹ phương pháp nhằm tối ưu cấu trúc nữa, hướng nghiên cứu thu giảm diện tích SBR cách chia nhỏ vùng bao đến mức cho phép tối ưu hóa diện tích vùng bao nhằm phục vụ cho việc lập mục truy vấn tốt Nguyễn An Hồ Hưng - 09070439 Trang 130 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian TÀI LIỆU THAM KHẢO [1]Agrawal, R., Faloutsos, C., Swami, A., "Efficient similarity search in sequence databases", in Proceedings of 4th International Conference on Foundations of Data Organization and Algorithms, Chicago, Illinois, USA, Oct., 13-15, 1993, pp 69-84 [2]Agrawal, R., Lin, K-I., Sawhney, H.S., Shim, K., "Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases", in Proceedings of VLDB '95 of the 21th International Conference on Very Large Data Bases, Zurich, Switzerland, Sept., 11-15, 1995, pp 490-501 [3]An, J., Chen, Y-P.P., Chen, H., "DDR: an index method for large time-series datasets", in Information Systems, Vol.30, No.5, Jul., 2005, pp 333-348 [4]Andre-Jönsson, H., "Indexing Strategies for Time Series Data", Ph.D thesis, University of Linkoping, Sweden, 2002 [5]Anh, D.T., "An Overview of Similarity Search in Time Series Data", in Proceedings of the 11th Conference on Science and Technology - Section of Computer Science and Engineering, Ho Chi Minh City University of Technology, Viet Nam, Oct 21-23, 2009, pp 86-95 [6]Bebis, G., CS474/674, Fall 2011, Image Processing and Interpretation, Topic: "Wavelets (Chapter 7) " Department of Computer Science and Engineering, University of Nevada, Reno, NV, USA, Nov., 2011 [7]Beckmann, N., Kriegel, H-P., Schneider, R., Seeger, B., "The R*-Tree: an efficient and robust access method for points and rectangles", in Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, Vol.19, No.2, Atlantic City, NJ, USA, Jun., 1990, pp 322-331 [8]Berndt, D.J., Clifford, J., "Using Dynamic Time Warping to Find Patterns in Time Series", in Proceedings of AAAI Workshop on Knowledge Discovery in Databases (KDD-94), Seattle, Washington, USA, Jul., 31-Aug., 1, 1994, pp 359371 Nguyễn An Hồ Hưng - 09070439 Trang 131 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian [9]Chan, K-P., Fu, A.W-C., "Efficient time series matching by wavelets", in Proceedings of 15th International Conference on Data Engineering, Sydney, NSW, Australia, Mar., 23-26, 1999, pp 126-133 [10] Chen, Q., Chen, L., Lian, X., Liu, Y., Yu, J.X., "Indexable PLA for efficient similarity search", in Proceeding VLDB ’07 of the 33rd international conference on Very Large Data Bases, University of Vienna, Australia, Sep 23-28, 2007, pp.435-446 [11] Chiu, B., Keogh, E.J., Lonardi, S., "Probabilistic discovery of time series motifs", in Proceedings of KDD '03 of the 9th ACM SIGKDD international conference on Knowledge discovery and data mining, Washington DC, USA, Aug., 24-27, 2003, pp 493-498 [12] Ciaccia, P., Patella, M., Rabitti, F., Zezula, P., "Indexing metric spaces with M-Tree", in Atti del Quinto Convegno Nazionale SEBD, Verona, Italy, 1997, pp 67-86 [13] Ciaccia, P., Patella, M., Zezula, P., "M-tree: An efficient access method for similarity search in metric spaces", in Proceedings of the 23rd International Conference on Very Large Databases, Morgan Kaufmann, Athens, Greece, Aug., 25-29, 1997, pp 426-435 [14] Das, G., Gunopulos, D., Mannila, H., "Finding similar time series", in Proceedings of 1st European Symposium on Principles of Data Mining and Knowledge Discovery, Trondheim, Norway, Jun., 24-27, 1997, pp 88-100 [15] Ding, H., Trajcevski, G., Scheuermann, P., Wang, X., Keogh, E.J., "Querying and mining of time series data: experimental comparison of representations and distance measures", in Proceedings of the 34th International Conference on Very Large Data Bases, Vol.1, No.2, Auckland, New Zealand, Aug., 23-28, 2008, pp 1542-1552 [16] Faloutsos, C., Jagadish, H.V., Mendelzon, A.O., Milo, T., "A signature technique for similarity-based queries", in Proceedings of the International on Compression and Complexity of Sequences 1997, Palermo, Italy, Jun., 11-13, 1997, pp 2-20 Nguyễn An Hồ Hưng - 09070439 Trang 132 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian [17] Faloutsos, C., Ranganathan, M., Manolopoulos, Y., "Fast subsequence matching in time-series databases", in Proceedings of the 1994 ACM SIGMOD international conference on Management of data, Vol.23, No.2, Minneapolis, Minnesota, USA, Jun., 1994, pp 419-429 [18] Fink, E., Pratt, K.B., "Indexing of compressed time series", in: Last, M., Kandel, A., Bunke, H., editors, Data Mining in Time Series Databases, Vol.57 of Machine Perception and Artificial Intelligence, World Scientific, Singapore, 2004, pp 43-65 [19] Guttman, A., "R-Trees: a dynamic index structure for spatial searching", in Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data, Vol.14, No.2, Boston, Massachusetts, USA, Jun 18-21, 1984, pp 47-57 [20] Katayama, N., Satoh, S., "The SR-tree: an index structure for high- dimensional nearest neighbor queries", in Proceedings of the 1997 ACM SIGMOD international conference on Management of data, Vol.26, No.2, Jun., 1997, pp 369-380 [21] Keogh, E.J., "A Decade of Progress in Indexing and Mining Large Time Series Databases", in Proceedings of the 32nd international conference on Very large data bases, Seoul, Korea, Sep., 12-15, 2006 [22] Keogh, E.J., "Tutorial on Mining and Indexing Time Series Data", in Proceedings of 2001 IEEE International Conference on Data Mining, San Jose, California, Nov., 29, 2001 [23] Keogh, E.J., Chakrabarti, K., Pazzani, M., Mehrotra, S., "Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases", in Proceedings of Journal of Knowledge and Information Systems, Vol.3, No.3, Aug., 2001, pp 263-286 [24] Keogh, E.J., Chakrabarti, K., Pazzani, M., Mehrotra, S., "Locally adaptive dimensionality reduction for indexing large time series databases", in Proceedings of the 2001 ACM SIGMOD international conference on Nguyễn An Hồ Hưng - 09070439 Trang 133 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Management of data, Vol.30, No.2, Santa Barbara, California, USA, Jun., 2001, pp 151-162 [25] Keogh, E.J., Chu, S., Hart, D., Pazzani, M., "An online algorithm for segmenting time series", in Proceedings of IEEE International Conference on Data Mining, San Jose, CA, USA, Nov., 29-Dec., 2, 2001, pp 289-296 [26] Keogh, E.J., Pazzani, M.J., "An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback", in Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, Aug 27-31, 1998, pp 239-243 [27] Keogh, E.J., Pazzani, M.J., "Relevance feedback retrieval of time series data", in Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, University of California at Berkeley, Aug., 15-19, 1999, pp 183-190 [28] Keogh, E.J., Ratanamahatana, C.A., "Exact indexing of dynamic time warping", in Proceedings of Knowledge and information systems, Vol 7, No 3, Mar., 1, 2005, pp 358-386 [29] Kontaki, M., Papadopoulos, A.N., Manolopoulos, Y., "Similarity Search in Time Series Databases", Encyclopedia of Database Technologies and Applications, 2005, pp 646-651 [30] Kurbalija, V., Radovanovic, M., Geler, Z., Ivanovic, M., "A Framework for Time-Series Analysis", in Proceedings of 14th International Conference Artificial Intelligence: Methodology, Systems, and Applications, Varna, Bulgaria, Sep., 8-10, 2010, pp 42-51 [31] Lee, S., Kwon, D., Lee, S., "Dimensionality reduction for indexing time series based on the minimum distance", in the Journal of Information Science and Engineering 19, 2003, pp 697-711 [32] Li, Q., Moon, B., Lopez, I.F.V., "Skyline Index for Time Series Data", in Proceedings of IEEE Transactions on Knowledge and Data Engineering, Vol 16, No.6, Jun 2004, pp 669-684 Nguyễn An Hồ Hưng - 09070439 Trang 134 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian [33] Lin, J., Keogh, E.J., Lonardi, S., Chiu, B., "A symbolic representation of time series, with implications for streaming algorithms", in Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, San Diego, California, USA, Jun., 9-12, 2003, pp 2-11 [34] Lin, J., Keogh, E.J., Wei, L., Lonardi, S., "Experiencing SAX: a novel symbolic representation of time series", in Proceedings of Data Mining and Knowledge Discovery, Vol.15, No.2, pp 107-144, Oct., 2007 [35] Lokoc, J., Skopal, T., "On Reinsertions in M-tree", in Proceedings of the First International Workshop on Similarity Search and Applications, Cancun, Quintana Roo, Mexico, Apr., 11-12, 2008, pp 121-128 [36] Mallat, S., "A wavelet tour of signal processing" (2nd edition) New York: Academic Press, 1999 [37] Morchen, F., "Time series feature extraction for data mining using DWT and DFT", in Technical Report No 33, Department of Machmatics and Computer Science, University of Marburg, Germany, 2003 [38] Perng, C-S., Wang, H., Zhang, S.R., Parker, D.S., "Landmarks: a new model for similarity-based pattern querying in time series databases", in Proceedings of the 16th International Conference on Data Engineering, San Diego, California, USA, Feb., 28-Mar., 3, 2000, pp 33-42 [39] Popivanov, I., Miller, R.J., "Similarity search over time-series data using wavelets", in Proceedings of 18th International Conference on Data Engineering, San Jose, CA, USA, Feb., 26 - Mar., 1, 2002, pp 212-221 [40] Proakis, J.G., Manolakis, D.G., "Digital Signal Processing: Principles, Algorithms, and Applications" (3rd edition) Prentice Hall International, 1996 [41] Rafiei, D., Mendelzon, A., "Efficient Retrieval of Similar Time Sequences Using DFT", in Proceedings of the International Conference on Foundations of Data Organization and Algorithms, Kobe, 1998, pp 249-257 [42] Rafiei, D., Mendelzon, A., "Similarity-based queries for time series data", in Proceedings of the 1997 ACM SIGMOD international conference on Nguyễn An Hồ Hưng - 09070439 Trang 135 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Management of data, Vol.26, No.2, Tucson, Arizona, USA, Jun., 1997, pp 1325 [43] Sellis, T.K., Roussopoulos, N., Faloutsos, C., "The R+-Tree: A Dynamic Index for Multi-Dimensional Objects", in Proceedings of 13th International Conference on Very Large Data Bases, Brighton, England, Sep 1-4, 1987, pp 566 [44] Struzik, Z.R., Siebes, A., "The Haar Wavelet Transform in the Time Series Similarity Paradigm", in Proceedings of 3rd European Conference on Principles of Knowledge Discovery and Data Mining, Prague, Czech Republic, Sep., 15-18, 1999, pp 12-22 [45] Thakkar, S., CSCI 599, Fall 2001, Spatial and Temporal Databases, Topic: "The R*-tree: An efficient and robust access method for points and rectangles " Information Laboratory at the University of Southern California, Los Angeles, USA, Sep., 12, 2001 [46] Viet, H.H, "Nâng cao hiệu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều", M.A thesis, Ho Chi Minh City University of Technology, Viet Nam, 2009 [47] Vinh, V.D, Vinh, V.T, "Khảo sát hiệu M+-Tree cấu trúc mục liệu chuỗi thời gian", B.A thesis, Ho Chi Minh City University of Technology, Viet Nam, 2011 [48] Vlachos, M., Gunopulos, D., Das, G., "Indexing time-series under conditions of noise", in: Last, M., Kandel, A., Bunke, H., editors, Data Mining in Time Series Databases, Vol.57 of Machine Perception and Artificial Intelligence, World Scientific, Singapore, 2004, pp 67-100 [49] Wang, G., Zhou, X., Wang, B., Qiao, B., Han, D., "MK-tree: An Effective Access Method for Indexing High Dimensional Data", in Journal of Digital Information Management, Vol.3, No.4, Dec., 2005 [50] Wu, Y-L., Agrawal, D., Abbadi, A.E., "A comparison of DFT and DWT based similarity search in time-series databases", in Proceedings of the 9th Nguyễn An Hồ Hưng - 09070439 Trang 136 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian international conference on Information and knowledge management, McLean, VA, USA, Nov., 6-11, 2000, pp 488-495 [51] Xia, B.B., "Similarity Search in Time Series Data Sets", M.A Thesis, Department of Computer Science, Simon Praser University, BC, Canada, Dec., 1997 [52] Yi, B-K., Faloutsos, C., "Fast Time Sequence Indexing for Arbitrary Lp Norms", in Proceedings of 26th International Conference on Very Large Data Bases, Cairo, Egypt, Sep., 10-14, 2000, pp 385-394 [53] Zezula, P., Amato, G., Dohnal, V., Batko, M., (2006, Jan.) Similarity Search: The Metric Space Approach [Online] Series: Advances in Database Systems, Vol.32, Springer-Verlag New York, Inc., Secaucus, NJ, USA Available: http://www.nmis.isti.cnr.it/amato/similarity-search-book/ [54] Zhang, H., Ho, T.B., Zhang, Y., Lin, M.S., "Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform", Journal Informatica, Vol.30, No.3, 2006, pp 305-319 [55] Zhou, X., Wang, G., Yu, J.X., Yu, G., "M+-tree: a new dynamical multidimensional index for metric spaces", in Proceedings of the 14th Australasian database conference, Vol.17, Adelaide, Australia, 2003, pp 161168 Nguyễn An Hồ Hưng - 09070439 Trang 137 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian PHỤ LỤC A- BẢNG ĐỐI CHIẾU THUẬT NGỮ ANHVIỆT THUẬT NGỮ TIẾNG ANH THUẬT NGỮ TIẾNG VIỆT Active subtree Cây hoạt động Adaptive Piecewíe Constant Approximation Co dãn biên độ dao động Anomaly Detection Phát mẫu bất thường Association Rules Khám phá luật kết hợp Balance Cân Base line Đường sở Best-fit-line Đoạn thẳng xấp xỉ khớp Best leaf node Nút tốt Classification Phân loại liệu Clustering Gom cụm Constancy of Self-Similarity Tính tự tương tự Covering radius Bán kính bao phủ Data entry Phần tử liệu Data object Đối tượng liệu Data Mining in Time Series Khai phá liệu chuỗi thời gian Dead space Vùng không gian chết Hình chữ nhật bao đóng nút nội nơi chứa nút thêm vào Dimensionality reduction Phương pháp thu giảm số chiều Discrete Fourier Transform Biến đổi Fourier rời rạc Discretization Phương pháp rời rạc hóa Discrete Wavelet Transform Biến đổi Wavelet rời rạc Nguyễn An Hồ Hưng - 09070439 TẮT Phương pháp xấp xỉ đoạn thích nghi APCA Amplitude Scaling Directory rectangle VIẾT DFT DWT Trang a Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Distortions Biến dạng Dynamic Time Wraping Độ đo xoắn thời gian động DTW Electrocardiography Điện tâm đồ ECG Electroencephalography Điện não đồ EEG Enclosing rectangle (data Hình chữ nhật bao bao đóng phần tử rectangle) nút Entry Phần tử Exact search Tìm kiếm xác Fanout Phân nhánh Features Đặc trưng Filtering Principle Nguyên lý lọc Finding motif Tìm mơ típ Fuzzy query Truy vấn mờ Generalized Hyperplane Siêu mặt phẳng tổng quát hóa Goodness value Giá trị độ tốt High-dimensional data Dữ liệu có số chiều lớn Identifier Định danh indexable symbolic aggregate Xấp xỉ gộp ký hiệu hóa khả mục approximation Intermediate Skyline Đường chân trời trung gian Internal overlap Phủ lấp nội Key Dimension Chiều chủ đạo Landmark Điểm mốc Leaf node Nút Linear Interpolation Nội suy tuyến tính Linear Regression Hồi quy tuyến tính Linear Trend Dữ liệu có xu hướng tuyến tính Longest Common Subsequence Độ đo chuỗi chung dài Lower-value Giá trị cận Nguyễn An Hồ Hưng - 09070439 iSAX LCS Trang b Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Minimum Bounding Rectangle Hình chữ nhật bao tối thiểu Moving average Phương pháp trung bình di chuyển MultiResolution Analysis Đa phân giải Noise Nhiễu Novelty detection Phát điểm bất thường Offset Translation Dịch chuyển đường Orthogonal complement Phần bù trực giao Overlap Vùng phủ lấp Partition Phân hoạch Path Lối Piecewise Aggregate Approximation Phương pháp xấp xỉ gộp đoạn MBR MRA PAA Piecewise Linear Approximation Phương pháp xấp xỉ tuyến tính đoạn PLA Piecewise Fourier Transform Biến đổi Fourier đoạn Positivity Tính dương Prediction Dự báo Priority node Nút ưu tiên Priority queue Hàng đợi ưu tiên Promotion Xác định nút mức Root node Nút gốc Routing node Nút định tuyến Rule discovery Khám phá quy luật liệu Scaling function Hàm co dãn Shifting Tịnh tiến Short Time Fourier Transform Biểu diễn Fourier thời gian ngắn Similarity join query Truy vấn tương tự kết nối Similarity k-nearest neighbors Truy vấn tương tự k-láng-giềng-gần-nhất Similarity range query Truy vấn tương tự vùng Similarity search Tìm kiếm tương tự Nguyễn An Hồ Hưng - 09070439 PFT STFT Trang c Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Skyline Bounding Region Vùng bao đường chân trời SBR Spatial Access Methods Phương pháp truy đạt không gian SAM Spatial databases Cơ sở liệu không gian Split Tách nút Subsequence matching So trùng chuỗi Symbolic Aggregate approXimation Phương pháp xấp xỉ gộp ký hiệu hóa Symmetry Tính đối xứng Text mining Khai phá liệu văn Time series Chuỗi thời gian Translations Hệ số dịch chuyển Triangular Inequality Bất đẳng thức tam giác Tuple Bộ liệu Twin-Nodes Nút đôi Twin Space Không gian đôi Upper-value Giá trị cận Vantage point Điểm lợi Visualization Trực quan hóa liệu Whole matching So trùng tồn Nguyễn An Hồ Hưng - 09070439 SAX Trang d Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: NGUYỄN AN HỒ HƯNG Ngày, tháng, năm sinh: 18/04/1986 Nơi sinh: Bình Định Địa liên lạc: Số 2, đường 3B, phường An Lạc A, quận Bình Tân, T.P Hồ Chí Minh Q TRÌNH ĐÀO TẠO Năm 2004-2009: Sinh viên trường Đại học Bách Khoa – Đại học quốc gia TP.HCM Năm 2009-2012: Học viên Cao học trường ĐH Bách Khoa TPHCM, Khoa Khoa học & Kỹ thuật Máy tính Q TRÌNH CƠNG TÁC 2009-2011: Kỹ sư cơng nghệ thơng tin, làm việc phịng nghiên cứu phát triển công ty cổ phần viễn thông FPT 2011-2012: Quản lý dự án công nghệ thông tin công ty tư nhân Nguyễn An Hồ Hưng - 09070439 Trang e ... thuyết cấu trúc mục: bao gồm cấu trúc mục R-Tree/R*Tree, cấu trúc mục M-Tree/M+-Tree cấu trúc mục Skyline Trên yêu cầu đề tài khảo sát hiệu cấu trúc mục Skyline, đặc biệt sâu vào lý thuyết cấu trúc. .. 09070439 Trang 27 Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian Hình 2.14- Cấu trúc mục SR-Tree (nguồn [20]) 2.3.4 Cấu trúc mục M-Tree/M+-Tree M-Tree [13]: cấu trúc mục đề nghị tác giả... 130 TÀI LIỆU THAM KHẢO .131 Nguyễn An Hồ Hưng - 09070439 Trang ix Khảo sát hiệu cấu trúc mục Skyline liệu chuỗi thời gian DANH MỤC CÁC HÌNH Hình 1.1- Dữ liệu chuỗi thời gian (a) liệu chứng

Ngày đăng: 03/09/2021, 14:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN