Tăng tốc kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào công nghệ GPU

95 38 0
Tăng tốc kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào công nghệ GPU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÂM TRƯỜNG AN TĂNG TỐC KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÔNG NGHỆ GPU ACCELERATING SUBSEQUENCE JOIN OVER TIME SERIES WITH GPUS LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – 2018 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÂM TRƯỜNG AN TĂNG TỐC KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÔNG NGHỆ GPU NGÀNH: KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – Tháng 12 Năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: TS Lê Văn Quốc Anh Cán chấm nhận xét 2: TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TP HCM ngày 26 tháng 12 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: PGS TS Bùi Hoài Thắng Phản biện 1: TS Lê Văn Quốc Anh Phản biện 2: TS Võ Thị Ngọc Châu Ủy viên: PGS.TS Trần Văn Hoài Thư ký: TS Nguyễn Hồ Mẫn Rạng Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lâm Trường An MSHV: 1570733 Ngày, tháng, năm sinh: 01/06/1990 Nơi sinh: An Giang Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: TĂNG TỐC KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÔNG NGHỆ GPU II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu liệu chuỗi thời gian toán liên quan kết chuỗi con, so trùng chuỗi con, độ đo xoắn thời gian động - Tìm hiểu phương pháp xác định điểm cực trị quan trọng để tạo chuỗi cho trình kết chuỗi - Tìm hiểu kỹ thuật để tăng tốc giải pháp phần mềm - Tìm hiểu GPU, lập trình song song kỹ thuật tối ưu lập trình GPU để tăng tốc tính tốn cho tốn kết chuỗi - Hiện thực đánh giá giải pháp đề xuất III NGÀY GIAO NHIỆM VỤ: 13/08/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2018 V CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Tp HCM, ngày … tháng … năm 2019 CÁN BỘ HƯỚNG DẪN PGS TS Dương Tuấn Anh TRƯỞNG KHOA KH & KT MÁY TÍNH LỜI CẢM ƠN Tơi trân trọng gửi lịng tri ân chân thành đến PGS TS Dương Tuấn Anh Thầy hướng dẫn, động viên tơi q trình học làm việc với thái độ ân cần, tận tụy nhà giáo chân Khơng mặt kiến thức chun mơn, mà Thầy cịn gián tiếp truyền đạt cho tơi nhiều học bổ ích sống Tơi chân thành cảm ơn Thầy Cơ tận tình truyền đạt cho tơi nhiều tri thức hay quí Những tri thức hữu ích với tơi suốt q trình học tập trường tương lai Tôi chân thành tri ân gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập, nghiên cứu Tôi trân trọng dâng tặng thành luận văn đến Cha Mẹ Nhờ công nuôi nấng, dạy dỗ Người mà thừa hưởng lợi ích ngày hơm Qua đây, gửi lời cảm ơn chân thành đến anh, chị người bạn, đồng nghiệp tư vấn, góp ý đến tơi q trình thực luận văn i TĨM TẮT LUẬN VĂN Dữ liệu chuỗi thời gian tồn nhiều ứng dụng thực tế, từ lĩnh vực khoa học kỹ thuật kinh tế, tài giữ vai trò quan trọng khai phá liệu Trong đó, so trùng chuỗi thao tác quan tâm, nghiên cứu nhiều Kết chuỗi toán tổng quát tốn so trùng chuỗi Nhìn chung, tốn kết chuỗi có hai vấn đề cần giải Thứ việc phân đoạn chuỗi thời gian để định có chuỗi cần thực tác vụ kết Thứ hai tìm kiếm tương tự cách so trùng chuỗi liệu chuỗi thời gian để thực thao tác kết Về phân đoạn chuỗi thời gian, luận văn sử dụng kỹ thuật xác định điểm cực trị quan trọng đề cập cơng trình Fink Gandhi Độ phức tạp thao tác 𝑂(𝑛), với 𝑛 chiều dài chuỗi thời gian Các phân đoạn chuỗi thời gian đóng vai trị mẫu truy vấn 𝑄 trình tìm kiếm chuỗi trùng khớp chuỗi thời gian cịn lại Về tốn so trùng chuỗi con, luận văn sử dụng giải thuật cửa sổ trượt dịch chuyển điểm Ưu điểm hướng tiếp cận khơng mắc lỗi tìm sót ứng viên Trong trình so trùng chuỗi con, luận văn sử dụng độ đo xoắn thời gian động (DTW) Độ đo có ưu điểm thao tác chuỗi thời gian “lệch pha” có chiều dài khác Việc tính tốn độ đo thực GPU Đồng thời luận văn sử dụng ràng buộc Sakoe-Chiba nhằm tăng tốc q trình tính tốn loại bớt việc phải tính đường xoắn khơng có ý nghĩa Ngồi ra, luận văn cịn xây dựng mơ hình tăng tốc kỹ thuật phần mềm kết hợp với sức mạnh phần cứng GPU để giảm thiểu việc tính độ đo DTW cần phải song song hóa Kết thực nghiệm cho thấy hướng tiếp cận thực thi liệu lên đến hàng trăm nghìn điểm với độ xác cao với thời gian chấp nhận ii ABSTRACT Time series exist in many practical applications, from scientific and technological to economic and financial fields Time series data play an increasingly important role in the field of data mining In particular, the subsequence matching is a very basic problem that is much concerned and studied The subsequence join is the more general one of the subsequences matching problems In general, the subsequence join problem has two major issues to address The first is segmenting the time series to determine how many subsequences need to be performed the joining operation The second is a similarity search by matching the subsequences on the time series data to perform the joining operation Regarding the segmentation of time series, this thesis uses the technique to identify the important extreme points as proposed in the work of Fink and Gandhi The complexity of this operation is only 𝑂(𝑛), where 𝑛 is the length of the time series Segments of this time series act as query pattern Q for searching the matched subsequences on the remaining time series For subsequence matching, the thesis shifts the sliding window each point at the time The advantage of this approach is that it can avoid false dismissals In the process of subsequence matching, this thesis uses the Dynamic Time Warping (DTW) distance This method has the advantage that it can calculate the distance on time series that are out of phase and different in length The thesis also uses Sakoe-Chiba constraint to speed up the DTW calculation process and eliminate the determination of undesired warping paths In addition, the thesis develops a software acceleration method in combination with hardware parallelization by GPU to reduce the number of the DTW calculations that need to in parallel Experimental results show that this approach works on datasets up to hundreds of thousands points with high accuracy at acceptable runtime iii LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 05 tháng 01 năm 2019 Lâm Trường An iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH vii DANH MỤC BẢNG x Giới thiệu Đề tài 1.1 Nêu vấn đề 1.2 Bài toán Kết chuỗi liệu chuỗi thời gian 1.3 Ý nghĩa Đề Tài 1.4 Mục tiêu, giới hạn đối tượng nghiên cứu 1.5 Kết đạt 1.6 Bố cục luận văn Các Cơng trình nghiên cứu liên quan 2.1 Các cơng trình liên quan đến độ đo khoảng cách 2.2 Các công trình liên quan đến tốn kết chuỗi 2.3 Các cơng trình liên quan đến song song hóa dựa GPU 2.4 Kết luận 11 Cơ sở lý thuyết 12 3.1 Khai phá liệu chuỗi thời gian 12 3.2 Độ đo xoắn thời gian động DTW 16 3.3 Ràng buộc đường xoắn độ đo thời gian động 18 v 3.4 Ràng buộc chặn 19 3.5 Kỹ thuật từ bỏ sớm 23 3.6 Các điểm Cực trị quan trọng 24 3.7 Công nghệ GPU 28 3.8 Tối ưu hóa hiệu suất lập trình GPU 39 Phương pháp đề xuất 46 4.1 Khái quát toán Kết chuỗi 46 4.2 Chuẩn hóa liệu 49 4.3 Phân đoạn chuỗi thời gian 50 4.4 Quá trình kết chuỗi 51 4.5 Cắt tỉa phép tính DTW khơng cần thiết 53 4.6 So trùng chuỗi dựa vào GPU 54 4.7 Hạt nhân song song hóa việc tính độ đo DTW 58 Thực nghiệm 60 5.1 Phương pháp thực nghiệm 60 5.2 Thực nghiệm kiểm tra kết kết chuỗi 63 5.3 Thực nghiệm tốc độ thực thi 69 Tổng kết 75 6.1 Tổng kết nội dung Luận văn 75 6.2 Những đóng góp đề tài 76 6.3 Hướng phát triển 77 TÀI LIỆU THAM KHẢO 78 vi Chương 5: Thực nghiệm Hình 5.7: Kết kết chuỗi Time series liệu Power Hình 5.8: Kết kết chuỗi Time series liệu Power 67 Chương 5: Thực nghiệm Hình 5.9: Kết kết chuỗi Time series liệu Stock Hình 5.10: Kết kết chuỗi Time series liệu Stock 68 Chương 5: Thực nghiệm 5.3 THỰC NGHIỆM TỐC ĐỘ THỰC THI Với loại thực nghiệm này, luận văn tiến hành loại liệu với chiều dài khác từ 10,000 điểm đến 50,000 điểm để đánh giá tốc độ xử lý song song hóa Để thuận tiện đánh giá, hai chuỗi đem kết có chiều dài tiến hành thực cho hai hệ thống với GPU có sức mạnh 5.3.1 GPU Geforce GTX 850M Bảng 5-3 cho thấy thời gian thực thi phương pháp Máy tính Intel® Core™ i7-4700HQ với card đồ họa GTX 850M 4GB hãng NVIDIA Theo kết có từ Bảng 5-3, ta thấy thời gian thực thi phương pháp song song hóa cho thời gian thực thi tốt so với giải pháp UCR_DTW Đối với tập liệu Power EEG, phương pháp song song hóa DTW cổ điểm pDTW cho thời gian xử lý tốt trung bình 1.5 lần so với UCR_DTW Các phương pháp lại pDTW_SC, pDTW_LB pDTW_LB_SC trung bình nhanh gấp xấp xỉ khoảng 2, lần so với UCR_DTW Biểu đồ Hình 5.11 Hình 5.12 cho thấy kết rõ ràng tốc độ xử lý song song Bảng 5-3: Thời gian thực thi phương pháp Eeg Stock Chromo -shome Ecg Power Dữ liệu Độ dài Phương pháp UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 10,000 25,000 35,450 10,000 25,000 50,000 10,000 25,000 50,000 10,000 25,000 50,000 10,000 6.975 42.605 83.551 4.373 28.378 94.195 1.588 4.855 9.828 1.74 14.923 24.719 1.476 4.085 22.807 42.147 5.782 32.848 144.041 2.038 11.044 42.790 3.761 25.607 112.088 1.033 3.753 20.977 38.88 5.32 30.176 118.636 1.886 10.230 39.618 3.434 23.323 101.995 0.958 3.582 18.987 34.903 2.919 14.577 52.815 0.900 2.618 5.614 0.556 7.633 11.585 0.672 3.314 17.496 32.163 2.695 13.517 48.468 0.836 2.296 5.268 0.531 7.134 10.765 0.631 25,000 9.198 5.410 5.010 3.117 2.993 50,000 29.874 20.619 19.064 10.507 9.839 69 Chương 5: Thực nghiệm POWER UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 90 UCR_DTW 80 70 PHÚT 60 50 pDTW pDTW_SC pDTW_LB pDTW_LB_SC 40 30 20 10 10,000 15,000 20,000 25,000 30,000 35,000 ĐỘ DÀI Hình 5.11: Biểu đồ thời gian thực thi liệu Power EEG UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 35 30 UCR_DTW PHÚT 25 pDTW 20 pDTW_SC 15 pDTW_LB 10 pDTW_LB_SC 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000 50,000 ĐỘ DÀI Hình 5.12: Biểu đồ thời gian thực thi liệu EEG Ở tập liệu ECG, Chromosome Stock, thời gian thực thi UCR_DTW tỏ hiệu nhờ vào khả cắt tỉa Tỷ lệ cắt tỉa trung bình tập liệu lên đến khoảng 95% số lượng khoảng cách DTW cần phải tính Do đó, với sức mạnh phần cứng GPU sử dụng thực nghiệm chưa thể xử lý tốt với liệu Các Hình 5.13, Hình 5.14 Hình 5.15 minh họa rõ thời gian thực thi giải thuật loại liệu 70 Chương 5: Thực nghiệm ECG UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 160 pDTW 140 pDTW_SC 120 PHÚT 100 UCR_DTW 80 60 pDTW_LB 40 pDTW_LB_SC 20 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000 50,000 ĐỘ DÀI Hình 5.13: Biểu đồ thời gian thực thi liệu ECG CHROMOSOME UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 45 pDTW 40 pDTW_SC 35 PHÚT 30 25 20 15 UCR_DTW 10 pDTW_LB 10,000 pDTW_LB_SC 15,000 20,000 25,000 30,000 35,000 40,000 45,000 50,000 ĐỘ DÀI Hình 5.14: Biểu đồ thời gian thực thi liệu Chromosome 71 Chương 5: Thực nghiệm STOCK UCR_DTW pDTW pDTW_SC pDTW_LB pDTW_LB_SC 120 pDTW 100 pDTW_SC PHÚT 80 60 40 UCR_DTW 20 pDTW_LB 10,000 pDTW_LB_SC 15,000 20,000 25,000 30,000 35,000 40,000 45,000 50,000 ĐỘ DÀI Hình 5.15: Biểu đồ thời gian thực thi liệu Stock Khi tập liệu lớn, thời gian thực thi pDTW hay pDTW_SC tăng lớn, gần theo hàm mủ Trong đó, UCR_DTW lại cho thời gian thực thi nhanh gấp nhiều lần Nhờ kỹ thuật cắt tỉa mà loại liệu này, thời gian thực thi tăng thấp, gần theo hàm tuyến tính Tuy nhiên, phương pháp pDTW_LB hay pDTW_LB_SC cho thời gian thực thi tốt UCR_DTW, nhờ khả song song việc tính tốn khoảng cách DTW cịn lại cắt tỉa Nói tóm lại, từ kết đạt được, ta thấy tùy vào loại liệu mà thời gian thực thi toán kết chuỗi chuỗi thời gian khác kỹ thuật tăng tốc phần cứng hay phần mềm Nếu hai chuỗi thời gian đem kết mà có khác biệt lớn hình dạng kỷ thuật tăng tốc phần mềm đáp ứng thời gian tốt nhờ khả cắt tỉa tốt so với giải pháp song song hóa phần cứng chân phương, cụ thể GPU Ngược lại, hai chuỗi đem kết gần tương đồng nhau, kỹ thuật song song hóa dựa GPU lại đáp ứng thời gian tốt Do đó, biết kết hợp ưu điểm hai kỷ thuật lại với thời gian thực thi tốn kết chuỗi cịn tăng gấp nhiều lần Chẳng hạn đề xuất luận văn, kết hợp ưu điểm kỷ thuật cắt tỉa giải pháp phần mềm sức mạnh xử lý song song của phần cứng GPU Thời gian thực thi phương pháp tốt 72 Chương 5: Thực nghiệm phương pháp khác nhiều tất tập liệu thực nghiệm (trên tập liệu Chromosome chiều dài 100,000 điểm, thời gian thực thi khoảng 13,2 phút) 5.3.2 GPU Tesla P100 Để đánh giá hiệu việc thực thi song song nhờ vào sức mạnh phần cứng GPU, luận văn thực thử nghiệm phương pháp đề xuất phần cứng có sức mạnh lớn Bảng 5-4 thể số thông số card đồ họa Bảng 5-4: Một số thông số kiến trúc Pascal Pascal (TESLA P100) SMs 56 CUDA Cores 3584 Memory size 16 GB Peak Performance (single - precision) 9300 GFLOPS Peak Performance (double - precision) 4700 GFLOPS Memory Bandwidth 720 GB/s Thời gian thực thi cho toán kết chuỗi chuỗi thời gian trình bày Bảng 5-5 Đơn vị thời gian phút Có thể nhận thấy, kết đạt thời gian trung bình nhanh gấp khoảng - lần tất phương pháp so với thực GTX 850M phần thực nghiệm 5.3.1 73 Chương 5: Thực nghiệm Bảng 5-5: Thời gian thực thi GPU Tesla P100 EEG Stock Chromoshome ECG Power Dữ liệu Phương pháp Độ dài pDTW pDTW_SC pDTW_LB pDTW_LB_SC 10,000 0.332 0.317 0.326 0.312 25,000 5.142 4.770 3.645 3.412 35,450 11.906 11.066 8.405 7.849 10,000 0.380 0.363 0.232 0.223 25,000 5.644 5.242 2.065 1.943 50,000 29.142 27.157 10.033 9.709 10,000 0.186 0.180 0.132 0.130 25,000 2.477 2.312 0.436 0.423 50,000 12.737 11.908 1.088 1.074 10,000 0.224 0.216 0.143 0.140 25,000 3.480 3.241 0.952 0.918 50,000 18.480 17.246 1.788 1.737 10,000 0.133 0.131 0.163 0.157 25,000 1.237 1.172 0.869 0.842 50,000 6.144 5.809 3.531 3.432 74 Chương 6: Tổng kết TỔNG KẾT Chương điểm lại tồn cơng việc luận văn bao gồm: tổng kết toán kết chuỗi liệu chuỗi thời gian, đóng góp đề tài hướng phát triển tương lai 6.1 TỔNG KẾT NỘI DUNG CỦA LUẬN VĂN Điểm qua cơng trình liên quan, tốn kết chuỗi chia thành hai cơng đoạn chính: phân đoạn chuỗi thời gian so trùng chuỗi dựa vào phân đoạn để tạo nên hai tập liệu kết Về vấn đề phân đoạn chuỗi thời gian, luận văn sử dụng kỹ thuật xác định điểm cực trị quan trọng Kết trình chuỗi thời gian cắt thành nhiều đoạn Mỗi đoạn có hai đầu mút hai điểm cực trị liền kề Các phân đoạn chuỗi thời gian đóng vai trị mẫu truy vấn 𝑄 trình tìm kiếm so trùng chuỗi chuỗi thời gian cịn lại Về tốn tìm kiếm tương tự, luận văn sử dụng giải thuật cửa sổ trượt dịch chuyển điểm Ưu điểm hướng tiếp cận khơng mắc lỗi tìm sót ứng viên Thực nghiệm cho thấy ứng viên tìm tốt Độ tương tự sử dụng độ đo xoắn thời gian động DTW có bổ sung thêm ràng buộc Sakoe-Chiba nhằm tăng tốc q trình tính toán loại bớt việc xác định đường xoắn khơng có ý nghĩa Q trình so trùng chuỗi thực song song hóa GPU Trong đó, luồng GPU đảm nhận việc xác định phân đoạn chuỗi thời gian có tương tự với chuỗi truy vấn hay khơng, hay nói cách khác, luồng GPU tính tốn ma trận xoắn DTW cửa số trượt ứng với độ dài chuỗi truy vấn Ngoài ra, luận văn sử dụng kỹ thuật ràng buộc chặn để cắt tỉa bớt chuỗi không cần thiết phải xác định khoảng cách DTW Độ phức tạp tính tốn cận thấp nhiều so với khoảng cách DTW, kỹ thuật sử dụng để loại bỏ bớt việc tính khoảng cách DTW chuỗi khơng cần thiết, trước tính toán khoảng cách DTW thực tế cần thiết chuỗi lại Phương pháp sử dụng luận văn xếp chồng chặn LB_Kim đơn giản, LB_Keogh LB_Keogh đảo ngược thành tầng Trong trình tìm kiếm tương tự, 75 Chương 6: Tổng kết giá trị chặn tầng khơng vượt q ngưỡng cho, chặn tầng tính xác định chuỗi thật cần phải tính khoảng cách DTW, việc tính tốn xử lý song song GPU để tăng tốc trình kết 6.2 NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI Luận văn đưa hướng tiếp cận để giải toán kết chuỗi liệu chuỗi thời gian việc tăng tốc thời gian thực thi toán Luận văn xây dựng giải pháp xử lý song song dựa GPU cho tốn kết chuỗi con, cách song song hóa q trình tìm kiếm tương tự Nói cách khác, luận văn tổng qt hóa tốn so trùng chuỗi với chuỗi có chiều dài cố định thành toán kết chuỗi với số lượng lớn chuỗi chiều chúng khác Tức, trình thực thi cấp phát nhớ cho GPU cấp phát động thay cấp phá tĩnh toán so trùng chuỗi Quá trình tìm kiếm tương tự cơng việc tốn nhiều thời gian toán kết chuỗi chuỗi thời gian Tận dụng sức mạnh phần cứng GPU khả xử lý số thực nhanh, xử lý song song tốt cho tác vụ đơn giản, mà cơng việc tính tốn độ đo xoắn thời gian động thực thi song song thay CPU nhanh so với thực thi tính tốn số thực CPU Do vậy, trình kết chuỗi thực thi nhanh so với giải pháp túy Luận văn đưa đánh giá so sánh cụ thể giải pháp tăng tốc kỹ thuật phần mềm kỹ thuật tăng tốc dựa vào phần cứng GPU việc giải toán kết chuỗi liệu chuỗi thời gian Tùy thuộc vào hai chuỗi liệu đem kết có độ tương đồng hình dạng nhiều hay mà thời gian thực thi hai phương pháp khác Nếu hai chuỗi thời gian chênh lệch nhiều hình dạng kỹ thuật tăng tốc phần mềm tỏ hiệu Nhưng, hai chuỗi thời gian kết mà có độ tương đồng hình dạng tăng tốc dựa vào phần cứng phương pháp hiệu Cuối cùng, luận văn thực phương pháp kết hợp ưu điểm hai kỹ thuật dựa vào phần cứng phần mềm Với kỹ thuật phần mềm, số lượng khoảng cách độ đo xoắn thời gian động cần phải tính thu giảm bớt Như vậy, khoảng 76 Chương 6: Tổng kết cách độ đo xoắn thời gian động cần tính cịn lại xử lý song song thiết bị GPU Nói chung, luận văn xây dựng ứng dụng giải toán kết chuỗi hiệu mặt thời gian nhiều 6.3 HƯỚNG PHÁT TRIỂN Kết thực nghiệm nhiều liệu xác Tuy nhiên, liệu áp dụng cho toán liệu tĩnh (static data) Do đó, hướng phát triển đề tài mở rộng phương pháp kết chuỗi dựa vào GPU cho phù hợp với liệu chuỗi thời gian dạng luồng (streaming time series) Thuật tốn tính tốn độ đo xoắn thời gian động GPU sử dụng luận văn áp dụng dựa theo định nghĩa Do đó, đề tài nghiên cứu thêm cách tính tốn độ GPU mà dùng kỹ thuật Tính tổng tiền tố (Prefix Sum Computation) đề cập cơng trình [24] Ngoài ra, luận văn sử dụng GPU để giải tốn nên lần xử lý song song chuỗi truy vấn Do đó, đề tài mở rộng cách kết hợp nhiều thiết bị GPU Khi đó, GPU chịu trách nhiệm xử lý cho chuỗi truy vấn 77 TÀI LIỆU THAM KHẢO [1] A Mueen, H Hamooni T Estrada, (2014) “Time Series Join on Subsequence Correlation”, IEEE International Conference on Data Mining, pp 450-459 [2] Y Lin, M D McCool and A A Ghorbani, (2010) “Time Series Motif Discovery and Anomaly Detection Based on Subseries Join”, International Journal of Computer Science, vol 37, no 3, pp 20-33 [3] D J Berndt and J Clifford, (1994) “Using Dynamic Time Warping to Find Patterns in Time Series”, Knowledge Discovery in Databases, pp 359-370 [4] H Ding, G Trajcevski, P Scheuermann, X Wang and E Keogh, (2008) “Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures”, Proceedings of the VLDB Endowment, vol 1, no 2, pp 1542-1552 [5] Y Zhang, K Adl and J Glass, (2012) “Fast spoken query detection using lower-bound Dynamic Time Warping on Graphical Processing Units”, International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp 5173-5176 [6] D Sart, A Mueen, W Najjar, E Keogh and V Niennattrakul, (2010) “Accelerating Dynamic Time Warping Subsequence Search with GPUs and FPGAs”, International Conference on Data Mining, pp 1001-1006 [7] Z Wang, S Huang, L Wang, H Li, Y Wang and H Yang, (2013) “Accelerating subsequence similarity search based on dynamic time warping distance with FPGA”, Proceedings of the ACM/SIGDA international symposium on Field programmable gate arrays, pp 53-62 [8] T Sun, J Sha and L Feng, (2011) “A GPU-based parallel algorithm for time series pattern mining”, Journal of Convergence Information Technology(JCIT), vol 6, no 12, pp 163-170 78 [9] N Takahashi, T Yoshihisa, Y Sakurai and M Kanazawa, (2009) “A Parallelized Data Stream Processing System Using Dynamic Time Warping Distance”, International Conference on Complex, Intelligent and Software Intensive Systems, pp 1100-1105 [10] K W Chang, B Deka, W M W Hwu and D Roth, (2012) “Efficient PatternBased Time Series Classification on GPU”, International Conference on Data Mining (ICDM), pp 131-140 [11] S Huang, G Dai, Y Sun, Z Wang, Y Wang and H Yang, (2013) “DTWBased Subsequence Similarity Search on AMD Heterogeneous Computing Platform”, IEEE International Conference on High Performance Computing and Communications, pp 1054-1063 [12] H Sakoe and S Chiba, (1978) “Dynamic programming algorithm optimization for spoken word recognition”, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 26, no 1, pp 43-49 [13] V D Vinh and D T Anh, (2016) “Efficient Subsequence Join Over Time Series Under Dynamic Time Warping”, in Recent Developments in Intelligent Information and Database Systems, Springer International Publishing, 2016, pp 41-52 [14] V D Vinh, (2014), “Kết chuỗi liệu Chuỗi thời gian dùng độ đo Xoắn thời gian động”, Luận văn Thạc sĩ, Khoa Khoa học Kỹ thuật máy tính, Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh [15] F Itakura, (1975) “Minimum prediction residual principle applied to speech recognition”, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 23, no 1, pp 67-72 [16] T Rakthanmanon, B Campana, A Mueen, G Batista, B Westover, Q Zhu, J Zakaria and E Keogh, (2012) “Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping”, Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 262-270 79 [17] E Fink and H S Gandhi, (2011) “Compression of Time Series by Extracting Major Extrema”, Journal of Experimental & Theoretical Artificial Intelligence, vol 23, no 2, pp 255-270 [18] T Brinkhoff, H P Kriegel and B Seeger, (1993) “Efficient Processing of spatial joins using R-trees”, Proceedings of the 1993 ACM SIGMOD international conference on Management of data, vol 22, no 2, pp 237-246 [19] A Guttman, (1984) “R-trees: a dynamic index structure for spatial searching”, Proceedings of the 1984 ACM SIGMOD international conference on Management of data, vol 14, no 2, pp 47-57, [20] S W Kim, (2001) “An Index-Based Approach for Similarity Search Supporting Time Warping in Large Sequence Databases”, Proceedings 17th International Conference on Data Engineering, pp 607-614 [21] E Keogh, (2002) “Exact Indexing of Dynamic Time Warping”, Proceedings of the 28th international conference on Very Large Data Bases Conference, Hong Kong, China, pp 406-417 [22] “CUDA Toolkit Documentation”, NVIDIA, [Online] Available: https://docs.nvidia.com/cuda/index.html [23] Y Chen, E Keogh, B Hu, N Begum, A Bagnall, A Mueen and G Batista, “UCR Time Series Classification Archive”, 2018 [Online] Available: http://www.cs.ucr.edu/~eamonn/time_series_data/ [24] L Xiao, Y Zheng, W Tang, G Yao and L Ruan, (2013) “Parallelizing Dynamic Time Warping Algorithm Using Prefix Computations on GPU”, IEEE International Conference on High Performance Computing and Communications & International Conference on Embedded and Ubiquitous Computing, pp 294-299 80 PHẦN LÝ LỊCH TRÍCH NGANG ▪ Họ tên: LÂM TRƯỜNG AN ▪ Ngày, tháng, năm sinh: 01/06/1990 Nơi sinh: An Giang ▪ Địa liên lạc: 186, Tổ 7, Thạnh Lộc 1, Trung Thạnh, Cờ Đỏ, Cần Thơ QUÁ TRÌNH ĐÀO TẠO Chuyên ngành Bậc 2008 – 2012 Đại học Cần Thơ Kỹ Thuật Máy Tính Kỹ sư 2015 – 2018 Đại học Bách Khoa – ĐHQG-TP HCM Khoa Học Máy Tính Thạc sĩ Thời gian Cơ quan đào tạo Q TRÌNH CƠNG TÁC Thời gian Cơ quan công tác 2012 – Công ty TNHH Robert Bosch Engineering and Business Solutions Việt Nam ... An Giang Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: TĂNG TỐC KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÔNG NGHỆ GPU II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu liệu chuỗi. .. mềm sử dụng GPU để giải toán kết chuỗi liệu chuỗi thời gian 1.2 BÀI TOÁN KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN Dữ liệu chuỗi thời gian T định nghĩa chuỗi có thứ tự n giá trị

Ngày đăng: 18/04/2021, 20:01

Mục lục

  • TÓM TẮT LUẬN VĂN

  • 1.2. Bài toán Kết chuỗi con trên dữ liệu chuỗi thời gian

  • 1.3. Ý nghĩa của Đề Tài

    • 1.3.1. Ý nghĩa khoa học

    • 1.3.2. Ý nghĩa thực tiễn

    • 1.4. Mục tiêu, giới hạn và đối tượng nghiên cứu

    • 1.5. Kết quả đạt được

    • 1.6. Bố cục luận văn

    • CHƯƠNG 2: Các Công trình nghiên cứu liên quan

      • 2.1. Các công trình liên quan đến độ đo khoảng cách

      • 2.2. Các công trình liên quan đến bài toán kết chuỗi con

      • 2.3. Các công trình liên quan đến song song hóa dựa trên GPU

      • CHƯƠNG 3: Cơ sở lý thuyết

        • 3.1. Khai phá dữ liệu chuỗi thời gian

          • 3.1.1. Dữ liệu chuỗi thời gian

          • 3.1.2. Các bài toán trên dữ liệu chuỗi thời gian

            • 3.1.2.1. Khai phá dữ liệu chuỗi thời gian

            • 3.1.2.2. So trùng chuỗi con trên dữ liệu chuỗi thời gian

            • 3.2. Độ đo xoắn thời gian động DTW

            • 3.3. Ràng buộc đường xoắn độ đo thời gian động

              • 3.3.1. Ràng buộc dải Sakoe-Chiba

              • 3.3.2. Ràng buộc hình bình hành Itakura

              • 3.4. Ràng buộc chặn dưới

                • 3.4.1. Chặn dưới Kim đơn giản

                • 3.4.2. Chặn dưới Keogh và chặn dưới Keogh đảo ngược

                • 3.5. Kỹ thuật từ bỏ sớm

                • 3.6. Các điểm Cực trị quan trọng

                  • 3.6.1. Các điểm Cực trị thông thường

Tài liệu cùng người dùng

Tài liệu liên quan