1. Trang chủ
  2. » Luận Văn - Báo Cáo

Time series classification using SAX transform and vector space model

65 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 1,65 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA LƯƠNG PHỤNG TIÊN PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO PHÉP BIẾN ĐỔI SAX VÀ MÔ HÌNH KHƠNG GIAN VÉC TƠ (TIME SERIES CLASSIFICATION USING SAX TRANSFORM AND VECTOR SPACE MODEL) Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng năm 2020 TP HỒ CHÍ MINH, tháng 08 năm 2016 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA LƯƠNG PHỤNG TIÊN PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO PHÉP BIẾN ĐỔI SAX VÀ MƠ HÌNH KHƠNG GIAN VÉC TƠ (TIME SERIES CLASSIFICATION USING SAX TRANSFORM AND VECTOR SPACE MODEL) Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng năm 2020 TP HỒ CHÍ MINH, tháng 08 năm 2016 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: TS Phạm Văn Chung Cán chấm nhận xét 2: PGS.TS Nguyễn Thanh Hiên Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP HCM ngày 24 tháng năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS.TS Quản Thành Thơ Phản biện 1: TS Phạm Văn Chung Phản biện 2: PGS.TS Nguyễn Thanh Hiên Ủy viên: PGS.TS Dương Tuấn Anh Thư ký: TS Nguyễn Tiến Thịnh Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH ii LỜI CẢM ƠN Để hồn thành đề tài luận văn thạc sĩ cách hoàn chỉnh, bên cạnh nỗ lực cố gắng thân có hướng dẫn nhiệt tình q Thầy Cơ, động viên ủng hộ gia đình bạn bè suốt thời gian học tập nghiên cứu thực luận văn thạc sĩ Xin chân thành bày tỏ lòng biết ơn đến PGS TS Dương Tuấn Anh, người Thầy tận tình dìu dắt tơi suốt trình học tập trường Đại học Bách Khoa – TP Hồ Chí Minh Thầy người hướng dẫn tạo điều kiện tốt để tơi hồn thành luận văn thạc sĩ Tơi xin cảm ơn q Thầy Cơ, người tận tình hướng dẫn truyền đạt cho tơi hệ sinh viên kiến thức quí báu suốt q trình học tập Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập, nghiên cứu Qua đây, xin chân thành cảm ơn anh chị bạn giúp đỡ, góp ý cho tơi q trình thực luận văn iii TÓM TẮT LUẬN VĂN Dữ liệu chuỗi thời thời gian (time series data) chuỗi liệu dạng điểm, đo theo khoảng thời gian liền theo tần suất định, ứng dụng nhiều ngành nghề, lĩnh vực khác Việc phân tích liệu chuỗi thời gian thơng qua phân lớp (classification) đóng vai trị quan trọng q trình trích xuất thuộc tính thống kê có ý nghĩa, qua ta dự đốn điểm liệu trước xảy ra, thống kê xu hướng liệu đưa định tốt phục vụ đời sống người Trong nhiều thập niên qua, nhà nghiên cứu cố gắng cải tiến việc phân lớp chủ yếu dựa vào cải tiến trình tìm kiếm tương tự chuỗi liệu thời gian Trong đề tài này, khảo sát hướng tiếp cận cho toán việc phân lớp liệu chuỗi thời gian sử dụng phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation-SAX) kết hợp với mơ hình khơng gian vector (Vector Space Model-VSM) Cơ sở phương pháp dựa việc chuyển chuỗi thời gian thành từ (word) sau giảm số chiều chuỗi liệu ban đầu sử dụng mơ hình khơng gian vector để phân lớp Làm vậy, ta chuyển liệu chuỗi thời gian ban đầu thành tập liệu gọn hơn, qua giảm đáng kể thời gian phân lớp đảm bảo thông tin cần thiết Đề tài bước áp dụng việc phân lớp chuỗi liệu thời gian dựa vào phép biến đổi SAX mơ hình khơng gian vector Đồng thời áp dụng việc phân lớp với số phương pháp khác láng giềng gần sử dụng độ đo xoắn thời gian động (1 Nearest Neighbor Dynamic Time Warping -1NN-DTW), túi đựng mẫu (Bag of patterns) Cuối rút kết luận tính hiệu việc phân lớp chuỗi liệu thời gian dựa vào phép biến đổi SAX mơ hình khơng gian vector với giải thuật 1NN-DTW giải thuật Bag of patterns iv ABSTRACT A time series is a series of data points listed (or graphed) in time order Most commonly, a time series is a sequence taken at successive equally spaced points in time It has been applied in many different domains such as industries, health, weather and finance Time series analysis plays an important role because it comprises methods for analyzing time series data in order to extract meaningful statistics and other characteristics of the data, thus helping human predictevents before it happen, or some statical reporting and have better decision making In recent years, time series classification has attracted the attention of many researchers, many algorithms have been proposed to improve the performance of similar searching process of time series data In this project, we investigated an approach for the problem of classifying time series data using the Symbolic Aggregate approXimation (SAX) and the Vector space model (VSM) SAX-VSM is based on two well-known techniques The first technique is Symbolic Aggregate approXimation to transforms real-valued time series into combined collections of SAX words after reduction of the time series dimensionality The second technique is the Vector Space Model based on tf∗idf weighting scheme to classify By doing this, we can convert the original time series data into a more compact new dataset, thereby significantly reducing the time to classify but still ensuring the necessary information In this paper, we will gradually apply the classification of time series based on Symbolic approximation and vector spatial models At the same time, the classification with some other methods such as one-nearest neighbor using dynamic time warping (1NN-DTW), Bag of patterns (BOP) Finally, draw conclusions about the effectiveness of time series classification based on Symbolic Aggregate approXimation and Vector space models in comparison with the 1NN-DTW algorithm and the Bag of patterns algorithm v LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 03 tháng 08 năm 2020 Lương Phụng Tiên vi MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT LUẬN VĂN iv ABSTRACT v LỜI CAM ĐOAN vi MỤC LỤC vii DANH MỤC HÌNH ix DANH MỤC BẢNG BIỂU xi CHƯƠNG TỔNG QUAN VỀ ĐỀ TÀI 1.1 KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN 1.1.1 Tầm quan trọng khai phá liệu chuỗi thời gian .1 1.1.2 Dữ liệu chuỗi thời gian 1.2 MỘT SỐ KHÁI NIỆM LIÊN QUAN DỮ LIỆU CHUỖI THỜI GIAN .3 1.3 Ý NGHĨA CỦA ĐỀ TÀI 1.4 MỤC TIÊU VÀ NHIỆM VỤ CỦA ĐỀ TÀI .5 1.5 CÁC KẾT QUẢ ĐẠT ĐƯỢC .5 1.6 BỐ CỤC LUẬN VĂN CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 CÁC ĐỘ ĐO KHOẢNG CÁCH LIÊN QUAN 2.1.1 Độ đo khoảng cách Euclid (ED) .7 2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping – DTW) 2.1.3 Kỹ thuật ràng buộc toàn cục 11 2.2 TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN 13 2.3 CHUẨN HÓA DỮ LIỆU (Z-SCORE NORMALIZATION) 14 2.4 RỜI RẠC HÓA CHUỖI THỜI GIAN 15 2.4.1 Thu giảm số chiều phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) 15 2.4.2 Phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation SAX) 17 2.5 PHÂN LỚP DỮ LIỆU THƯỜNG .18 2.6 PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN 21 2.6.1 Phân lớp chuỗi thời gian giải thuật láng giềng gần (1 Nearest Neighbor -1NN) với độ đo xoắn thời gian động (Dynamic Time Warping-DTW) 22 vii 2.6.2 Phân lớp chuỗi thời gian phương pháp Bag of patternss (BOP): 23 CHƯƠNG PHƯƠNG PHÁP GIẢI QUYẾT 27 3.1 PHƯƠNG PHÁP ĐỀ NGHỊ 27 3.1.1 Phân lớp chuỗi thời gian phương pháp SAX-VSM: 27 3.1.2 Hệ thống đề nghị .30 3.2 MỘT SỐ QUY ƯỚC 31 CHƯƠNG HIỆN THỰC VÀ THỰC NGHIỆM 32 4.1 MÔI TRƯỜNG THỰC NGHIỆM .32 4.2 PHƯƠNG PHÁP THỰC NGHIỆM 32 4.3 DỮ LIỆU THỰC NGHIỆM .32 4.3.1 Bộ liệu Gun Point .34 4.3.2 Bộ liệu CBF .35 4.3.3 Bộ liệu Trace 36 4.3.4 Bộ liệu Fish 37 4.3.5 Bộ liệu OSU Leaf .38 4.4 XÁC ĐỊNH THÔNG SỐ CHỌN CHO TẬP DỮ LIỆU 39 4.5 THỰC NGHIỆM SO SÁNH TÍNH CHÍNH XÁC GIỮA CÁC PHƯƠNG PHÁP PHÂN LỚP 41 4.6 THỜI GIAN THỰC THI GIỮA CÁC PHƯƠNG PHÁP PHÂN LỚP .43 CHƯƠNG TỔNG KẾT 45 5.1 NHỮNG KẾT LUẬN CỦA LUẬN VĂN 45 5.2 NHỮNG KẾT QUẢ ĐẠT ĐƯỢC .45 5.3 HƯỚNG PHÁT TRIỂN .46 TÀI LIỆU THAM KHẢO 47 BẢNG TỪ VIẾT TẮT A1 BẢNG THUẬT NGỮ ANH - VIỆT A2 viii DANH MỤC HÌNH Hình 1.1 Kết bán rượu đỏ Australia từ tháng 1-1980 đến tháng 10-1991 Hình 2.1 Cách tính khoảng cách độ đo xoắn thời gian động Hình 2.2 Hai chuỗi thời gian Q C 10 Hình 2.3 Ma trận biểu diễn cách tính DTW cho hai chuỗi thời gian 10 Hình 2.4 Ràng buộc dải Sakoe-Chiba 12 Hình 2.5 Ràng buộc hình bình hành Itakura 13 Hình 2.6 Chuỗi thời gian T, có độ dài 16 xấp xỉ PAA T, với đoạn 16 Hình 2.7 Bảng tra cứu có chứa điểm dừng có giá trị từ đến 10 17 Hình 2.8 Một chuỗi liệu thời gian biến đổi PAA mã hóa thành ký hiệu SAX Chuỗi thời gian mã hóa thành baabccbc 18 Hình 2.9 Ví dụ phân lớp liệu hình ảnh áp dụng lĩnh vực sinh học 19 Hình 2.10 Quá trình phân lớp liệu – Ước lượng độ xác 20 Hình 2.11 Quá trình phân lớp liệu – Phân lớp liệu 21 Hình 2.12 Một lân cận gần mẫu thử X 23 Hình 2.13 Một chuỗi thời gian có giá trị thực phân tích thành từ SAX: GTTGACCA 24 Hình 2.14 Một ví dụ trực quan đại diện túi mẫu cho chuỗi thời gian Mỗi hàng biểu thị từ SAX cột biểu thị tập liệu chuỗi thời gian 25 Hình 3.1: Tổng quan thuật toán SAX-VSM: lúc đầu, chuỗi thời gian gắn nhãn chuyển đổi thành túi từ SAX; Thứ hai, thống kê tf ∗ idf tính toán dẫn đến vectơ trọng lượng cho lớp đào tạo Dành cho phân loại, chuỗi thời gian không nhãn chuyển đổi thành tần số hạn vectơ gán nhãn vectơ trọng lượng mang lại cosin tối đa giá trị tương tự 29 Hình 3.2 Hệ thống đề nghị 30 ix Hình 4.6 Phía hình chụp loại lá: hình dạng thùy đầu cấp tính Acer Circinatum, thơ rìa cưa Acer Glabrum cấu trúc thùy nhọn Quercus Garryana Bộ liệu OSULeaf biểu diễn hình dạng đường biên Mỗi chuỗi thời gian có chiều dài gồm 247 điểm liệu Chúng ta cần phân lớp liệu thành lớp ứng với loại có tên nêu 4.4 XÁC ĐỊNH THÔNG SỐ CHỌN CHO TẬP DỮ LIỆU Trong đề tài này, ba thông số cần quan tâm nhiều chiều dài cửa sổ trượt, chiều dài từ chiều dài tập ký tự (alphabet) Dưới hai bảng trình bày giá trị chiều dài cửa sổ trượt chiều dài từ (với chiều dài tập ký tự chọn 5) hai phương pháp phân lớp SAX-VSM Bag of patterns Bảng 4.2 Trình bày giá trị chiều dài cửa sổ trượt chiều dài từ cho phương pháp SAX-VSM Chiều Tập liệu Số lớp Rập Tập dài Chiều huấn kiểm chuỗi dài cửa luyện tra thời sổ trượt gian Chiều dài từ Adiac 37 390 391 176 55 15 ArrowHead 36 175 251 125 14 39 Beef 30 30 470 128 10 BeetleFly 20 20 512 128 14 BirdChicken 20 20 512 126 10 Car 60 60 577 145 15 CBF 30 900 128 64 10 Coffee 28 28 286 119 10 DiatomSizeReduction 16 306 345 151 10 ECG200 100 100 96 47 12 Fish 175 175 463 100 10 Gun_Point 50 150 150 64 12 Lightning2 60 61 637 170 15 Lightning7 70 73 319 125 10 Meat 60 60 448 98 13 OSU Leaf 200 242 247 75 10 OliveOil 30 30 570 15 10 Plane 105 105 144 64 10 Trace 100 100 275 120 14 Bảng 4.2 Bảng thông số cho tập liệu sử dụng phương pháp SAX-VSM Bảng 4.3 Trình bày giá trị chiều dài cửa sổ trượt chiều dài từ cho phương pháp Bag of patterns Chiều Tập liệu Số lớp Rập Tập dài Chiều huấn kiểm chuỗi dài cửa luyện tra thời sổ trượt gian Chiều dài từ Adiac 37 390 391 176 73 15 ArrowHead 36 175 251 100 Beef 30 30 470 63 11 BeetleFly 20 20 512 63 11 BirdChicken 20 20 512 100 10 40 Car 60 60 577 94 10 CBF 30 900 128 64 10 Coffee 28 28 286 64 10 DiatomSizeReduction 16 306 345 120 10 ECG200 100 100 96 46 10 Fish 175 175 463 122 10 Gun_Point 50 150 150 64 12 Lightning2 60 61 637 165 10 Lightning7 70 73 319 86 10 Meat 60 60 448 99 13 OSU Leaf 200 242 247 40 13 OliveOil 30 30 570 15 10 Plane 105 105 144 10 Trace 100 100 275 60 10 Bảng 4.3 Bảng thông số cho tập liệu sử dụng phương pháp Bag of patterns 4.5 THỰC NGHIỆM SO SÁNH TÍNH CHÍNH XÁC GIỮA CÁC PHƯƠNG PHÁP PHÂN LỚP Bảng 4.4 trình bày độ xác phân lớp phương pháp phân lớp 19 liệu Tập liệu 1NN-DTW Bag of SAX- patterns VSM Adiac 60.3 56.2 57 ArrowHead 70.2 65.1 71.4 Beef 63.3 76.6 73.3 BeetleFly 70 90 85 BirdChicken 75 85 100 Car 73.3 88.3 80 CBF 99.6 96.7 99.5 Coffee 100 100 100 ECG200 77 86 85 41 DiatomSizeReduction 96.7 92.1 98 Fish 82.2 93.1 93.1 Gun_Point 90.6 98.6 99.3 Lightning2 86.8 83.6 77 Lightning7 72.6 52 63 Meat 93.3 96.6 93.3 OSU Leaf 59 73.1 85.5 OliveOil 83.3 93.3 96.6 Plane 100 100 100 Trace 100 100 100 Bảng 4.4 Độ xác phân lớp phương pháp phân lớp 19 liệu 120 Accuracy 100 80 60 40 20 1NN Bag of Pattern Adiac ArrowHead Beef BeetleFly BirdChicken Car CBF Coffee ECG200 DiatomSizeReduction Fish Gun_Point Lightning2 Lightning7 Meat OSU Leaf OliveOil Plane Trace SAX-VSM Dataset Hình 4.7 Biểu đồ thể độ xác ba phương pháp phân lớp 1NN-DTW, Bag of patterns SAX-VSM 19 liệu Nhận xét: Kết thực nghiệm cho thấy số trường hợp phương pháp 1NN-DTW có độ xác vượt trội so với phương pháp SAX-VSM Bag of patterns Tuy nhiên, sau thống kê độ xác phương pháp SAX-VSM đạt mức cao số phương pháp phân lớp liệu chuỗi thời gian đem so 42 sánh, phương pháp Bag of patterns cuối phương pháp 1NNDTW 4.6 THỜI GIAN THỰC THI GIỮA CÁC PHƯƠNG PHÁP PHÂN LỚP Bảng 4.5 trình bày thời gian thực thi (tính giây) phương pháp phân lớp 19 liệu Bag of SAX- patterns VSM 122.2 3.5 4.6 ArrowHead 8.2 3.5 3.1 Beef 7.3 2.6 2.9 BeetleFly 7.8 2.7 3.1 BirdChicken 6.3 2.7 3.3 Car 40.4 4.8 4.3 CBF 17.1 4.0 3.4 Coffee 2.2 3.5 3.1 DiatomSizeReduction 13.4 4.9 4.7 ECG200 9.2 3.8 3.6 229.5 5.6 5.4 Gun_Point 5.8 2.6 2.4 Lightning2 76.6 4.5 4.1 Lightning7 10.7 3.8 3.5 Meat 27.3 3.7 3.5 OSU Leaf 273.7 6.3 6.1 OliveOil 9.3 3.0 2.8 Plane 8.5 3.3 3.1 Trace 14 3.2 3.1 Tập liệu Adiac Fish 1NN-DTW Bảng 4.5 Thời gian thực thi phương pháp phân lớp 19 liệu 43 a) b) c) Hình 4.8 Biểu đồ thể thời gian thực thi ba phương pháp 1NNDTW, Bag of patterns SAX-VSM a) phương pháp 1NN-DTW Bag of patterns b) phương pháp Bag of patterns SAX-VSM c) 1NN-DTW SAX-VSM Nhận xét: Thơng qua thực nghiệm dễ dàng thấy phương pháp 1NNDTW tốn nhiều thời gian Thời gian thực thi phương pháp 1NN-DTW lớn nhiều so với hai phương pháp lại đặc biệt liệu lớn Phương pháp SAX-VSM tỏ tiềm thời gian thực thi thấp so với hai phương pháp 1NN-DTW Bag of patterns 44 CHƯƠNG TỔNG KẾT 5.1 NHỮNG KẾT LUẬN CỦA LUẬN VĂN Qua q trình tìm hiểu nhiều cơng trình nghiên cứu liên quan toán phân lớp, độ đo xoắn thời gian động thực giải thuật phân lớp , thực nghiệm với 19 tập liệu khác nhau, đến số kết luận sau : - Kết thực nghiệm cho thấy với việc lựa kích thước cửa sổ trượt (window_size) thích hợp, thu giảm đáng kể thời gian thực phân lớp trì độ xác phân lớp cao Kích thước cửa sổ trượt thay đổi tùy thuộc vào nhu cầu người dùng miền ứng dụng khác nhau, theo liệu khác - Độ đo xoắn thời gian động kết hợp với thuật toán k-láng giềng gần đạt độ xác phân lớp cao độ đo tốn nhiều thời gian chạy tài nguyên Do độ đo nên thực ngầm bên hệ thống (background service) không nên sử dụng với ứng dụng địi hỏi có đáp ứng nhanh chóng cho người dùng với tập liệu lớn - Nhìn chung độ xác phân lớp, SAX-VSM mang lại kết vượt trội, Bag of patterns mang lại kết xác cao nhiên thời gian chạy lâu SAX-VSM Về ý kiến kết luận, kiến nghị nên sử dụng giải thuật SAX-VSM phân lớp liệu chuỗi thời gian nhằm đảm bảo độ xác mức cao với thời gian thực thi chấp nhận so sánh chuỗi thời gian có độ dài 5.2 NHỮNG KẾT QUẢ ĐẠT ĐƯỢC Trong luận văn này, đạt kết sau : - Thứ nhất, luận văn khảo sát hiệu phương pháp SAX-VSM để phân lớp toán phân lớp liệu chuỗi thời gian 45 - Thứ hai, luận văn so sánh hiệu giải thuật phân lớp : 1NN-DTW, Bag of patterns, SAX-VSM toán phân lớp liệu chuỗi thời gian dựa hai tiêu chí độ xác thời gian thực thi Kết thực nghiệm so sánh giúp cho người dùng tham khảo để lựa chọn giải thuật phân lớp liệu chuỗi thời gian phù hợp miền ứng dụng chuyên biệt 5.3 HƯỚNG PHÁT TRIỂN Bộ liệu sử dụng thực nghiệm luận văn chuỗi thời gian có độ dài khơng có liệu nhiễu hay liệu bất thường, đề tài chưa áp dụng giải thuật để xác định kích thước cửa sổ trượt kích thước từ mang lại hiệu tốt cho chuỗi liệu Do hướng phát triển đề tài tập trung vào vấn đề sau đây: • Áp dụng phương pháp xác định kích thước cửa sổ trượt q trình giảm số chiều kích thước từ chuyển chuỗi liệu thành ký tự mang lại hiệu cao • Thực nghiệm liệu chuỗi thời gian với độ dài không hay chuỗi thời gian có nhiễu với giải thuật để đo đạc thời gian tính tốn độ xác 46 TÀI LIỆU THAM KHẢO [1] A Bagnall, A Bostrom, J Large, J Lines (2017),” The Great Time Series Classifification Bake Off: An Experimental Evaluation of Recently Proposed Algorithms Extended Version”, Data Mining and Knowledge Discovery, vol.31, pp.606-660 [2] A Abanda, U Mori, J A Lozano (2019), “A review on distance based time series classification”, Data Mining and Knowledge Discovery, vol 33, pp 378412 [3] C Faloutsos, M Ranganathan, Y Manolopoulos (1994), "Fast Subsequence Matching in Time Series Databases" in Proceedings of the ACM SIGMOD International Conference on Management of Data, Minneapolis, NM, pp 419-429 [4] D Berndt and J Clifford (1994), “Using dynamic time warping to find patterns in time series”, in Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94, Seattle, Washington, USA, pp 359-370 [5] D Toshniwal and R Joshi (2005), “Similarity Search in Time Series Data Using Time Weighted Slopes”, Informatica 29, 2005, pp.79-88 [5] [6] E Keogh and C A Ratanamahatana, (2005), “Exact indexing of dynamic time warping”, Knowledge and information systems, 7(3), pp.358-386 [7] E Keogh, Q Zhu, B Hu, Y Hao, X Xi, L Wei, C Ratanamahatana: The UCR Time Series Classifification/Clustering Homepage: http://www cs.ucr.edu/∼eamonn/time series data/ [8] F Itakura (1975), “Minimum prediction residual principle applied to speech recognition” In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol ASSP-23, No.1, pp 67-72 [9] J Lin, R Khade, Y Li (2012), “Rotation-invariant similarity in time series using bag-of-patterns representation”, J Intell Inf Syst 39, 2, 287–315 47 [10] J Lin, E Keogh, S Lonardi & B.Chiu (2003) “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms”, In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery [11] H Sakoe and S Chiba (1978), “Dynamic programming algorithm optimization for spoken word recognition” In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol 26, pp 43-49 [12] K Chan and W Fu (1999), “Efficient time series matching by wavelets” In Proceedings of the 15th IEEE International Conference on Data Engineering, March 23-26, Sydney, Australia, pp 126-133 [13] P J Brockwell and R A Davis (2016) ,“Introduction to Time Series and Forecasting”, Springer International Publishing Switzerland [14] P K Polyák (2018), “Time Series Classification: Evaluating Random Shapelet Forests with SAX representation”, Thesis for: Master of Science in Information Systems Management, Advisor: Panagiotis Papapetrou [15] P Senin and S Malinchik (2013), “SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model“, IEEE 13th International Conference on Data Mining 48 BẢNG TỪ VIẾT TẮT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Nearest Neighbor Dynamic Time Warping Láng giềng gần sử dụng độ 1NNđo xoắn thời gian động DTW Accuracy Độ xác Acc Bag of patterns Túi đựng mẫu BOP Dynamic Time Warping Xoắn thời gian động DTW Euclidan Distance Khoảng cách Euclid ED Inverse Document Frequency Tần số nghịch đảo idf Piecewise Aggregate Approximation Xấp xỉ gộp đoạn PAA Symbolic Aggregate Approximation Gộp ký hiệu hóa SAX Term Frequency Tần số từ tf Vector Space Model Mơ hình không gian vector VSM A1 BẢNG THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Accuracy Độ xác Association rules mining Khai phá luật kết hợp Big Data Dữ liệu lớn Breakpoint Điểm ngắt Case Trường hợp Categorical Label Nhãn xác định Classification Phân lớp Class label attribute Thuộc tính gán nhãn Clustering Gom cụm Cumulative distance Khoảng cách tích lũy Data Mining Khai phá liệu Data tuple Phần tử liệu Data Sample Mẫu liệu Demensionality redution Giảm số chiều Discrete Value Trị rời rạc Discretization Rời rạc hóa Distance measure Độ đo khoảng cách Dynamic Programming Quy hoạch động False demissal Lỗi tìm sót False alarm Lỗi tìm sai Forcasting Dự báo Indexing Lập mục A2 Information Retrieval Truy hồi thơng tin Itakura Paralelogram Hình bình hành Itakura Lower bouding lemma Bổ đề chặn Motif Detection Phát mô típ Multi-Variate Time Series Chuỗi thời gian đa biến Novelty Detection Phát bất thường Object Đối tượng Query by content Truy vấn dựa nội dung Sample Mẫu Similarity Search Tìm kiếm tương tự Record Bản ghi Time Series Data Dữ liệu chuỗi thời gian Training Set Tập huấn luyện Uniform Đồng Uni-Variate Time Series Chuỗi thời gian đơn biến Unlabeled Chưa gán nhãn Unusual Chuỗi bất thường Word Từ Word_size Kích thước từ Warping Matrix Ma trận xoắn Warping Path Đường xoắn Warping Window Của sổ xoắn Window_size Kích thước cửa sổ trượt Z-Score normalization Chuẩn hóa liệu A3 PHẦN LÝ LỊCH TRÍCH NGANG ▪ Họ tên: LƯƠNG PHỤNG TIÊN ▪ Ngày, tháng, năm sinh: 29/08/1985 Nơi sinh: Đồng Tháp ▪ Địa liên lạc: 7A/25 Thành Thái, Phường 14, Quận 10, TP.Hồ Chí Minh QUÁ TRÌNH ĐÀO TẠO Thời gian Cơ quan đào tạo 2004 – 2009 Đại học Cần Thơ 2017 – 2020 Đại học Bách Khoa – ĐHQG-TP HCM Chuyên ngành Bậc Khoa CNTT Kỹ sư Khoa Học Máy Tính Thạc sĩ Q TRÌNH CƠNG TÁC Thời gian Cơ quan cơng tác 2009 – Trường Cao Đẳng Cộng Đồng Đồng Tháp ... DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO PHÉP BIẾN ĐỔI SAX VÀ MÔ HÌNH KHƠNG GIAN VÉC TƠ (TIME SERIES CLASSIFICATION USING SAX TRANSFORM AND VECTOR SPACE MODEL) Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số:... investigated an approach for the problem of classifying time series data using the Symbolic Aggregate approXimation (SAX) and the Vector space model (VSM) SAX- VSM is based on two well-known techniques... approXimation to transforms real-valued time series into combined collections of SAX words after reduction of the time series dimensionality The second technique is the Vector Space Model based on

Ngày đăng: 02/03/2021, 20:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN