Phân lớp dữ liệu chuỗi thời gian dựa vào một tổ hợp phân lớp 1 nn với các độ đo khoảng cách khác nhau và công nghệ gpu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA VÕ ĐẠI DƯƠNG PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MỘT TỔ HỢP BỘ PHÂN LỚP 1-NN VỚI CÁC ĐỘ ĐO KHOẢNG CÁCH KHÁC NHAU VÀ CƠNG NGHỆ GPU Chun ngành: Khoa học máy tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2022 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hướng dẫn khoa học: PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: PGS.TS Võ Thị Ngọc Châu Cán chấm nhận xét 2: TS Dương Ngọc Hiếu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 21 tháng 07 năm 2022 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS.TS Huỳnh Tường Nguyên - Chủ tịch TS Nguyễn Tiến Thịnh - Thư ký PGS.TS Võ Thị Ngọc Châu - Phản biện TS Dương Ngọc Hiếu - Phản biện TS Lê Văn Quốc Anh - Ủy viên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) TRƯỞNG KHOA CHỦ TỊCH HỘI ĐỒNG KHOA HỌC & KỸ THUẬT MÁY TÍNH i ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VÕ ĐẠI DƯƠNG MSHV: 1970585 Ngày, tháng, năm sinh: 01/08/1990 Nơi sinh: Ninh Thuận Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 I TÊN ĐỀ TÀI: PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MỘT TỔ HỢP BỘ PHÂN LỚP 1-NN VỚI CÁC ĐỘ ĐO KHOẢNG CÁCH KHÁC NHAU VÀ CÔNG NGHỆ GPU (TIME SERIES DATA CLASSIFICATION BASED ON A COMBINATION OF 1-NN CLASSIFIERS WITH DIFFERENT DISTANCE METRICS AND GPU TECHNOLOGY) II NHIỆM VỤ VÀ NỘI DUNG: Đề xuất, nghiên cứu, thực hiện, đánh giá “Phân lớp liệu chuỗi thời gian dựa vào tổ hợp phân lớp 1-NN với độ đo khoảng cách khác công nghệ GPU” III NGÀY GIAO NHIỆM VỤ: 08/09/2021 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/06/2022 V CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Tp HCM, ngày tháng năm 2022 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO PGS TS Dương Tuấn Anh TRƯỞNG KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH ii LỜI CẢM ƠN Lời đầu tiên, muốn gửi lời cảm ơn chân thành đến PGS.TS Dương Tuấn Anh, người định hướng, hỗ trợ, hướng dẫn tơi suốt q trình hồn thiện luận văn người truyền lửa tơi có nhiều cảm hứng đường học tập nghiên cứu Tôi xin gửi lời cảm ơn đến tất giảng viên mơn Khoa học máy tính ln sẵn lịng giúp đỡ hỗ trợ tôi, đảm bảo môi trường học tập nghiên cứu suốt thời gian học thạc sĩ Cuối cùng, tơi bày tỏ lịng biết ơn sâu sắc đến gia đình bạn bè hỗ trợ, cổ vũ tơi suốt q trình học tập thực luận văn Xin chân thành cảm ơn Tp Hồ Chí Minh, tháng năm 2022 Võ Đại Dương iii TÓM TẮT Việc nghiên cứu ứng dụng kỹ thuật phân lớp liệu chuỗi thời gian thu hút nhiều ý nhà nghiên cứu liệu Với phát triển nhanh công nghệ, liệu chuỗi thời gian thu thập nhiều thiết bị Việc khai phá liệu chuỗi thời gian mang lại lợi ích hữu hiệu trải dài nhiều lĩnh vực khai phá liệu, thống kê, học máy, xử lý tín hiệu, v.v… Có nhiều phương pháp phân lớp liệu chuỗi thời gian, chọn cách tiếp cận phương pháp phân lớp liệu chuỗi thời gian dựa vào độ đo khoảng cách Nhiều đánh giá thực cho thấy phân lớp 1-lân cận gần (1-NN) phân lớp tốt sử dụng cho liệu chuỗi thời gian Các cơng trình trước sử dụng phương pháp phân lớp chuỗi thời gian dựa vào tổ hợp phân lớp 1-NN với độ đo khoảng cách khác cho độ xác tốt, nhiên chưa tối ưu tốc độ thực thi phân lớp Với mục tiêu tăng độ xác phân lớp thời gian thực thi, dựa cơng trình trước Phạm Minh Trí (2020) [1], [2], chúng tơi đề xuất cách tiếp cận xây dựng tổ hợp phân lớp 1-NN với độ đo khoảng cách khác bổ sung thêm độ đo thành phần, kết hợp với việc ứng dụng công nghệ GPU Chúng tiến hành thực nghiệm 14 tập liệu mẫu từ website UCR cho đề xuất kết cho thấy độ xác phân lớp tốt thời gian thực thi nhanh so với tổ hợp phân lớp cơng trình Phạm Minh Trí Kết thu độ xác phân lớp tổ hợp phân lớp đạt trung bình 92% thời gian phân lớp tổ hợp phân lớp sử dụng công nghệ GPU nhanh trung bình 48 lần so với tổ hợp phân lớp thực thi CPU iv ABSTRACT The research and application of time series data classification techniques have been attracting the attention of data researchers With the rapid development of technology, time series data has been collected by many devices Time series data mining will bring benefits to many areas, such as data mining, statistics, machine learning, signal processing, etc… There are many methods of time series data classification We choose the approach to time series data classification method based on distance measures Many evaluations have been made showing that the one nearest neighbor (1-NN) is one of the best classifiers used for time series data Previous works used the method of Time series data classification based on a combination of 1-NN classifiers with different distance metrics showed a good accuracy, but hasn’t improved the classification time With the objectives to improve the classification accuracy and time, based on the previous work of Pham Minh Tri (2020) [1], [2], we suggest an approach that implements a Time series data classification based on a combination of 1-NN classifiers with different distance metrics with an additional distance metric and the application of GPU technology We experimented on 14 sample data sets from the UCR website for this proposal and the results showed that the classification accuracy and time were better than the ensemble of classifiers in the work of Pham Minh Tri The results are that the classification accuracy of the ensemble of classifiers is average 92% and the classification time of the ensemble of classifiers running on GPU is on average 48 times faster than the ensemble of classifiers running on CPU v LỜI CAM ĐOAN Trong luận văn này, công thức, ý tưởng, nghiên cứu hay phân tích mượn bên thứ ba thích nguồn dẫn mục tài liệu tham khảo theo quyền tác giả Tơi cam đoan rằng, ngồi tài liệu tham khảo trích dẫn, tồn nội dung khác (bao gồm lý luận, cơng thức, hình ảnh, …) thành nghiên cứu hướng dẫn PGS.TS Dương Tuấn Anh Tôi khẳng định rằng, tồn nội dung tìm hiểu chứng thực từ nguồn tin cậy Các số liệu dẫn chứng đánh giá hoàn toàn trung thực, tuyệt đối khơng gian lận phóng đại Nếu có gian lận nào, tơi xin hồn tồn chịu trách nghiệm luận văn Tp Hồ Chí Minh, tháng năm 2022 Võ Đại Dương vi MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu vấn đề 1.2 Mục tiêu 1.3 Phạm vi nghiên cứu 1.4 Những kết đạt 1.5 Cấu trúc luận văn 1 3 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Chuỗi thời gian 2.2 Phân lớp liệu 2.2.1 Khái niệm phân lớp liệu 2.2.2 Giải thuật phân lớp k-NN 2.2.3 Tổ hợp phân lớp 2.3 Các độ đo tương tự 2.3.1 Độ đo Euclid 2.3.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 2.3.3 Độ đo Complexity-invariant Distance (CID) 2.4 Chuẩn hóa liệu 2.5 Đánh giá độ xác phân lớp - kiểm tra chéo k-phần 2.6 Bộ xử lý đồ họa (GPU) 2.6.1 Mơ hình lập trình CUDA 2.6.2 Kiến trúc tính tốn GPU 5 5 8 13 14 15 16 16 17 CHƯƠNG 3: CÁC CƠNG TRÌNH LIÊN QUAN 3.1 Phân lớp liệu chuỗi thời gian dựa vào tổ hợp phân lớp 3.2 Độ đo xoắn thời gian động cải tiến (DDTW) 3.3 Kỹ thuật tính chặn Keogh 3.4 Cơng trình Phạm Minh Trí 3.5 Độ đo khoảng cách Hệ Số Nén (CRD) 3.6 Kết chương 19 19 20 20 23 26 27 CHƯƠNG 4: PHƯƠNG PHÁP PHÂN LỚP ĐỀ XUẤT 29 4.1 Tổng quan hệ thống 29 4.2 Phân lớp liệu với tổ hợp phân lớp 1-NN với độ đo khoảng cách khác sử dụng công nghệ GPU 30 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 Cấu hình hệ thống sử dụng thực nghiệm vii 33 33 5.2 Các phương pháp liệu thực nghiệm 33 5.2.1 Bộ liệu Fish 36 5.2.2 Bộ liệu CBF 37 5.2.3 Bộ liệu Trace 38 5.3 Kết thực nghiệm 38 5.3.1 Kết thực nghiệm phân lớp với liệu hình ảnh ArrowHead 38 5.3.2 Kết thực nghiệm phân lớp với liệu quang phổ thực phẩm Beef 40 5.3.3 Kết thực nghiệm với liệu tổng hợp CBF 41 5.3.4 Kết thực nghiệm với liệu cảm biến Trace 42 5.3.5 Kết phân lớp với liệu nhịp tim ECGFiveDays 43 5.3.6 Kết tổng hợp tỉ lệ lỗi phân lớp liệu thực nghiệm 45 5.3.7 Kết tổng hợp thời gian phân lớp liệu thực nghiệm 46 CHƯƠNG 6: KẾT LUẬN 6.1 Những kết đạt luận văn 6.2 Những khó khăn trình thực luận văn 6.3 Hướng phát triển tương lai 47 47 47 48 TÀI LIỆU THAM KHẢO 49 viii DANH MỤC HÌNH Hình 2.1: Một lân cận gần mẫu thử X Hình 2.2: Tổ hợp phân lớp [8] Hình 2.3: Biên độ hai chuỗi thời gian với độ đo Euclid Hình 2.4: So sánh độ đo DTW với Euclid [12] 10 Hình 2.5: Ma trận xoắn chuỗi thời gian A B [13] 11 Hình 2.6: Độ đo xoắn thời gian động với ràng buộc dải Sakoe-Chiba [14] 12 Hình 2.7: Ràng buộc tồn cục độ đo xoắn thời gian động 13 Hình 2.8: Kiểm tra chéo k-phần với k = [15] 15 Hình 2.9: Sự phân cấp luồng, khối luồng lưới khối CUDA, với không gian nhớ tương ứng [16] 16 Hình 2.10: Kiến trúc tính tốn Fermi GPU [16] 18 Hình 3.1: Mơ tả đường bao U L chuỗi Q [20] 21 Hình 3.2: Mơ tả kỹ thuật chặn Keogh [20] 22 Hình 3.3: Quy trình tổng quan hệ thống Phạm Minh Trí đề xuất [1], [2] 23 Hình 3.4: Sơ đồ kiểm tra chéo k-phần tổ hợp độ đo khoảng cách khác [1], [2] 24 Hình 3.5: Ba chuỗi thời gian Q, C R Q C trơng giống nhau; C R trông khác [7] 27 Hình 4.1: Tổng quan hệ thống 29 Hình 4.2: Kiểm tra chéo k-phần tổ hợp phân lớp 1-NN với độ đo khoảng cách khác sử dụng công nghệ GPU 31 Hình 4.3: Phương pháp Song song mặt đầu sóng [23] 32 Hình 5.1: Hình chụp cá biểu diễn thành chuỗi thời gian [25] 36 ix Hình 5.2 biểu diễn ba đường cong biểu diễn ba lớp hàm Cylinder, Bell Funnel 5.2.3 Bộ liệu Trace Bộ liệu tập nhỏ liệu Transient Classification Benchmark (dự án Trace) Đây liệu tổng hợp thiết kế để mô hỏng hóc thiết bị đo nhà máy lượng hạt nhân Bộ liệu tạo Davide Roverso Bộ liệu đầy đủ gồm 16 lớp, lớp 50 mẫu Mỗi mẫu gồm đặc trưng Để đơn giản, liệu Trace gồm đặc trưng thứ hai lớp 2, đặc trưng thứ ba lớp 3,7 Bộ liệu Trace gồm 200 mẫu, lớp 50 mẫu Tất mẫu nội suy để đưa chiều dài gồm 275 điểm liệu Hình 5.3: Ví dụ bốn nhóm lớp liệu Trace Hình 5.3 ví dụ bốn nhóm đường cong biểu thị cho bốn lớp liệu Trace 5.3 Kết thực nghiệm Chất lượng phân lớp phương phần thực nghiệm đánh giá dựa thông số tỉ lệ lỗi (error rate) phân lớp liệu thực nghiệm Cơng thức tỉ lệ lỗi tính sau: 𝐸𝑟𝑟𝑜𝑟𝑅𝑎𝑡𝑒 = 𝑛 𝑁 Trong đó: n số lượng mẫu thử bị phân lớp sai N kích thước tập kiểm thử 5.3.1 Kết thực nghiệm phân lớp với liệu hình ảnh ArrowHead Bộ liệu ArrowHead có kích thước tập huấn luyện 36, kích thước tập kiểm thử 175, với chiều dài 251 có lớp 38 Hình 5.4: Tỉ lệ lỗi phân lớp liệu ArrowHead Hình 5.4 biểu diễn tỉ lệ lỗi phân lớp phân lớp 1-NN liệu ArrowHead (loại liệu hình ảnh) Đối với loại liệu tổ hợp phân lớp 1-NN với độ đo khoảng cách khác bao gồm độ đo CRD (gọi tắt 1NN-EN-CRD) có kết khả quan Tỉ lệ lỗi phân lớp 0.095 thấp tỉ lệ lỗi phân lớp so với tổ hợp phân lớp 1-NN với độ đo khoảng cách khác không bao gồm độ đo CRD (gọi tắt 1NN-EN) 0.106 Tương ứng độ xác kỹ thuật 1NN-EN-CRD cao kỹ thuật 1NN-EN Hình 5.5: Thời gian phân lớp liệu ArrowHead 39 Hình 5.5 biểu diễn thời gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU so với thực thi CPU Nhận xét thấy thời gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU cải thiện 46 lần so với kỹ thuật 1NN-EN-CRD thực thi CPU Như vậy, theo kết thực nghiệm thấy kỹ thuật tổ hợp phân lớp 1-NN với khoảng cách khác GPU có tỉ lệ lỗi phân lớp thấp thời gian phân lớp nhanh, phù hợp với loại liệu 5.3.2 Kết thực nghiệm phân lớp với liệu quang phổ thực phẩm Beef Bộ liệu Beef gồm chuỗi thời gian có chiều dài 470, kích thước tập liệu 30, kích thước tập kiểm thử 30 có lớp Hình 5.6 biểu diễn tỉ lệ lỗi phân lớp phân lớp 1-NN liệu quang phổ Beef, liệu có kích thước nhỏ Kết thực nghiệm cho thấy rằng, tỉ lệ lỗi phân lớp kỹ thuật 1NN-EN-CRD 0.135 tốt so với kỹ thuật 1NN-EN 0.156 Hình 5.6: Tỉ lệ lỗi phân lớp liệu Beef Hình 5.7 biểu diễn thời gian phân lớp kỹ thuật 1NN-EN_CRD thực thi GPU so với thực thi CPU Nhận xét thấy thời 40 gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU cải thiện 40 lần so với kỹ thuật 1NN-EN-CRD thực thi CPU Hình 5.7: Thời gian phân lớp liệu Beef 5.3.3 Kết thực nghiệm với liệu tổng hợp CBF Bộ liệu CBF gồm chuỗi thời gian có chiều dài 128, có lớp, kích thước tập huấn luyện 30 mẫu, kích thước tập kiểm thử 900 mẫu Hình 5.8: Tỉ lệ lỗi phân lớp liệu CBF 41 Hình 5.8 biểu diễn tỉ lệ lỗi phân lớp phân lớp 1-NN liệu CBF Kết thực nghiệm cho nhận xét tỉ lệ lỗi phân lớp kỹ thuật 1NN-EN-CRD 0.016 tốt so với kỹ thuật 1NN-EN 0.07 Bộ phân lớp 1-NN với độ đo CRD có tỉ lệ lỗi phân lớp thấp so với phân lớp 1-NN với độ đo cịn lại Hình 5.9: Thời gian phân lớp tập liệu CBF Hình 5.9 biểu diễn thời gian phân lớp kỹ thuật phân lớp 1-NN Nhận xét điều thấy thời gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU chạy nhanh kỹ thuật 1NN-EN-CRD thực thi CPU 53 lần 5.3.4 Kết thực nghiệm với liệu cảm biến Trace Bộ liệu Trace gồm chuỗi thời gian có chiều dài 275, có lớp, kích thước tập huấn luyện có 100 mẫu, kích thước tập kiểm thử 100 mẫu Hình 5.10 biểu diễn tỉ lệ lỗi phân lớp kỹ thuật phân lớp 1-NN liệu Trace Kết quan sát nhận xét rằng, tỉ lệ lỗi phân lớp kỹ thuật 1NN-EN-CRD tốt kỹ thuật 1NN-EN với tỉ lệ lỗi phân lớp tương ứng 0.007 0.027 42 Hình 5.10: Tỉ lệ lỗi phân lớp liệu Trace Hình 5.11 biểu diễn thời gian phân lớp kỹ thuật 1NN-EN-CRD Nhận xét điều thấy thời gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU chạy nhanh kỹ thuật 1NN-EN-CRD thực thi CPU 60 lần Hình 5.11: Thời gian phân lớp liệu Trace 5.3.5 Kết phân lớp với liệu nhịp tim ECGFiveDays Bộ liệu ECGFiveDays gồm chuỗi thời gian có kích thước 136 có lớp, kích thước tập huấn luyện 23 mẫu, kích thước tập kiểm thử 861 mẫu 43 Hình 5.12: Tỉ lệ lỗi phân lớp liệu ECGFiveDays Hình 5.12 biểu diễn tỉ lệ lỗi phân lớp kỹ thuật phân lớp 1-NN liệu ECGFiveDays Kết thực nghiệm cho thấy tỷ lệ lỗi phân lớp kỹ thuật 1NN-EN-CRD 0.102 tốt kỹ thuật 1NN-EN 0.11 Tỉ lệ lỗi phân lớp kỹ thuật 1NN-EN-CRD tốt phận lớp với độ đo lại Độ đo DTW với kỹ thuật tính chặn LB_Keogh có tỉ lệ phân lớp tốt so với độ đo khoảng cách cịn lại Hình 5.13: Thời gian phân lớp tập liệu ECGFiveDays Hình 5.13 biểu diễn thời gian phân lớp kỹ thuật 1NN-EN-CRD Nhận xét điều thấy thời gian phân lớp kỹ thuật 1NN-EN-CRD thực thi GPU chạy nhanh kỹ thuật 1NN-EN-CRD thực thi CPU 41 lần 44 5.3.6 Kết tổng hợp tỉ lệ lỗi phân lớp liệu thực nghiệm Bảng 5.5 bảng 5.6 biểu diễn số liệu tổng hợp tỉ lệ lỗi phân lớp liệu thực nghiệm phân lớp 1-NN sử dụng độ đo khoảng cách Euclid, phân lớp 1-NN sử dụng độ đo khoảng cách xoắn thời gian động (DTW) truyền thống, phân lớp 1-NN sử dụng độ đo khoảng cách DTW với kỹ thuật tính chặn LB_Keogh, phân lớp 1-NN sử dụng độ đo khoảng cách DDTW, phân lớp 1-NN sử dụng độ đo khoảng cách CID, phân lớp 1-NN sử dụng độ đo khoảng cách CRD tổ hợp phân lớp 1-NN với độ đo khoảng cách khác Ở hầu hết loại liệu, sau tiến hành thực nghiệm thu thập kết quả, quan sát kỹ thuật tổ hợp phân lớp 1-NN với độ đo khoảng cách khác có hiệu tốt so với phân lớp 1-NN với độ đo riêng lẻ Khảo sát liệu loại liệu, quan sát nhận thấy tuỳ vào đặc tính loại liệu mà chọn loại độ đo khoảng cách để có tỉ lệ lỗi phân lớp thấp Trong 14 liệu, liệu đa dạng chiều dài liệu, kích thước tập huấn luyện, tập kiểm thử khác đa dạng số lớp tổ hợp phân lớp 1-NN với độ đo khoảng cách khác làm việc tốt với toàn liệu, tỉ lệ lỗi lỗi phân lớp thấp (tương ứng độ xác phân lớp lớn nhất) Mã liệu ED DTW CDTW DDTW CID CRD 1NN- 1NN-EN EN -CRD 1_ArrHead 0.200 0.366 0.474 0.446 0.177 0.206 0.106 0.095 2_Beef 0.333 0.533 0.500 0.367 0.400 0.333 0.156 0.135 3_BeeFl 0.250 0.350 0.350 0.150 0.300 0.250 0.096 0.091 4_CBF 0.148 0.077 0.179 0.661 0.437 0.037 0.070 0.016 5_Dis.Ph.O.Co 0.283 0.333 0.464 0.254 0.283 0.261 0.156 0.135 6_Fish 0.217 0.874 0.697 0.857 0.857 0.206 0.061 0.055 7_GunPoint 0.087 0.293 0.153 0.033 0.087 0.047 0.076 0.029 8_Ham 0.400 0.457 0.457 0.590 0.448 0.486 0.170 0.141 9_FaceFour 0.216 0.159 0.455 0.409 0.148 0.193 0.106 0.094 10_Trace 0.240 0.040 0.250 0.060 0.150 0.010 0.027 0.007 11_ECG.5.Days 0.203 0.322 0.178 0.321 0.233 0.211 0.102 0.110 Bảng 5.5: Tổng hợp tỉ lệ lỗi phân lớp liệu thực nghiệm 45 Mã liệu ED DTW CDTW DDTW CID CRD 1NN- 1NN-EN EN -CRD 12_Chinatown 0.047 0.044 0.023 0.160 0.047 0.029 0.026 0.014 13_Fungi 0.172 0.253 0.339 0.371 0.172 0.134 0.131 0.093 14_In.EPGR.Tr 0.000 0.000 0.000 0.281 0.000 0.000 0.000 0.000 Bảng 5.6: Tổng hợp tỉ lệ lỗi phân lớp liệu thực nghiệm (tiếp theo) 5.3.7 Kết tổng hợp thời gian phân lớp liệu thực nghiệm Mã liệu 1NN-EN-CRD CPU GPU Speed up 1_ArrHead 304.56 6.63 46 2_Beef 85.92 2.14 40 3_BeeFl 43.46 1.38 32 4_CBF 662.39 12.59 53 5_Dis.Ph.O.Co 2640.23 45.88 58 6_Fish 3091.88 38.30 81 7_GunPoint 208.03 5.41 38 8_Ham 1007.54 14.28 71 9_FaceFour 137.75 3.63 38 10_Trace 505.07 8.36 60 11_ECG.5.Days 487.16 11.87 41 12_Chinatown 50.70 3.34 15 13_Fungi 125.08 2.90 43 14_In.EPGR.Tr 2039.23 38.40 53 Trung bình 48 Bảng 5.7: Tổng hợp thời gian phân lớp kỹ thuật 1NN-EN-CRD liệu thực nghiệm Bảng 5.7 tổng hợp thời gian phân lớp liệu thực nghiệm Thời gian phân lớp quan sát giây(s) Kết thực nghiệm cho thấy thời gian phân lớp tổ hợp phân lớp GPU nhanh thời gian phân lớp tổ hợp phân lớp CPU trung bình 48 lần 46 CHƯƠNG KẾT LUẬN Chương chúng tơi trình bày kết đạt khó khăn sau tiến hành nghiên cứu thực nghiệm, hướng phát triển tương lai 6.1 Những kết đạt luận văn Sau thời gian nghiên cứu thực nghiệm, hiểu rõ độ đo ED, DTW, DTW với kỹ thuật tính chặn LB_Keogh, DDTW, CID, CRD thực thành cơng độ đo kể Qua việc tìm hiểu giải thuật phân lớp 1-NN với độ đo khoảng cách tổ hợp phân lớp 1-NN với độ đo khoảng cách khác 14 tập liệu khác (số lớp, độ lớn tập huấn luyện, tập kiểm thử, chiều dài mẫu thử), đến số kết luận sau: Về độ xác: ‐ Việc bổ sung độ đo khoảng cách CRD vào tổ hợp phân lớp 1-NN với độ đo khoảng cách khác làm tăng độ xác phân lớp tổ hợp phân lớp Điều chứng tỏ việc bổ sung thêm phân lớp thành phần với độ đo khoảng cách CRD cải tiến tính đa dạng tổ hợp phân lớp Về thời gian phân lớp: ‐ Việc áp dụng công nghệ GPU cải thiện tốc độ phân lớp trung bình 48 lần so với áp dụng CPU 6.2 Những khó khăn q trình thực luận văn Trong q trình thực luận văn chúng tơi gặp phải khó khăn sau đây: ‐ Mơ hình lập trình CUDA địi hỏi người lập trình phải quản lý nhớ cách thủ công lưu trữ ma trận nhiều chiều nhớ liên tục (linear storage) phương pháp xếp theo hàng cột (row- or column-major order) ‐ Quá trình song song hóa gặp khó khăn giải thuật đệ quy mơ hình lập trình CUDA khơng hỗ trợ phụ thuộc liệu phần tử nhớ ‐ Quá trình thực thi song song GPU gây nhiều khó khăn việc gỡ lỗi so với chương trình thực thi CPU 47 ‐ Chúng phải phân tích chương trình gốc viết CPU xác định phần chương trình thực thi song song hóa GPU 6.3 Hướng phát triển tương lai Hướng phát triển luận văn tập trung vào vấn đề sau: ‐ Bổ sung thêm độ đo khoảng cách thành phần dùng cho phân lớp nhằm tăng thêm độ xác tổ hợp phân lớp 1-NN ‐ Sử dụng kỹ thuật lập trình nâng cao GPU nhằm tối ưu hiệu suất tổ hợp phân lớp 1-NN, giảm thiểu thời gian xử lý tổ hợp ‐ Nghiên cứu thực tổ hợp phân lớp ANN với độ đo khoảng cách khác song song hóa việc huấn luyện phân lớp ANN thành phần giải thuật lan truyền ngược (backpropagation) 48 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] P M Trí, “Phân lớp Dữ liệu chuỗi thời gian dựa vào tổ hợp phân lớp 1-NN với độ đo khoảng cách khác nhau,” Luận văn Thạc sĩ, Khoa khoa học Kỹ thuật Máy tính, Trường Đại Học Bách Khoa TP Hồ Chí Minh, 2020 P M Tri, D T Anh, “Classification of Time Series through Ensembles of Different Distance Measures,” in Proc of International Conference on Robotics, Machine Learning and Artificial Intelligence (ICRMLAI), Ho Chi Minh City, Vietnam, May 2021, pp 32–37 G E A P A Batista, X Wang, and E J Keogh, “A Complexity-Invariant Distance Measure for Time Series,” in Proceedings of the 2011 SIAM International Conference on Data Mining, Philadelphia, PA, Apr 2011, pp 699–710, doi: 10.1137/1.9781611972818.60 H Ding, G Trajcevski, P Scheuermann, X Wang, and E Keogh, “Querying and mining of time series data,” Proc VLDB Endow., vol 1, no 2, pp 1542–1552, Aug 2008, doi: 10.14778/1454159.1454226 J Lines and A Bagnall, “Time series classification with ensembles of elastic distance measures,” Data Min Knowl Discov., vol 29, no 3, pp 565–592, May 2015, doi: 10.1007/s10618-014-0361-2 J Nickolls and W J Dally, “The GPU computing era,” IEEE Micro, vol 30, no 2, pp 56–69, Mar 2010, doi: 10.1109/MM.2010.41 V T Vinh, D T Anh, “Compression rate distance measure for time series,” in 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA), Paris, France, October 19-21, 2015, doi: 10.1109/DSAA.2015.7344787 J Han, M Kamber, and J Pei, Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems), 3rd ed Burlington, MA: Morgan Kaufmann, 2011, p 744 F Itakura, “Minimum prediction residual principle applied to speech recognition,” IEEE Trans Acoust., vol 23, no 1, pp 67–72, Feb 1975, doi: 10.1109/TASSP.1975.1162641 H Sakoe and S Chiba, “Dynamic programming algorithm optimization for spoken word recognition,” IEEE Trans Acoust., vol 26, no 1, pp 43–49, Feb 1978, doi: 10.1109/TASSP.1978.1163055 D J Berndt and J Clifford, “Using Dynamic Time Warping to Find Patterns in Time Series,” in Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, 1994, pp 359–370 P Volny, D Novak, and P Zezula, “Employing Subsequence Matching in Audio Data Processing,” in Technical report, FI, Masaryk University, Brno, 2012 “DTW algorithm,” GenTxWarper, Feb 2017 https://www.psb.ugent.be/cbd/papers/gentxwarper/DTWalgorithm.htm (accessed 49 [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] May 26, 2021) T Górecki and M Łuczak, “The influence of the Sakoe–Chiba band size on time series classification,” IFS, vol 36, no 1, pp 527–539, Feb 2019, doi: 10.3233/JIFS-18839 G Dougherty, Pattern Recognition and Classification: An Introduction, 2013th ed Springer, 2012, p 209 Peter N Glaskowsky, “NVIDIA’s Next Generation CUDATM Compute Architecture: FermiTM.” Internet: https://www.nvidia.com/content/PDF/fermi_white_papers/P.Glaskowsky_NVIDI A's_Fermi-The_First_Complete_GPU_Architecture.pdf, 2009 A P Pawlovsky, “An ensemble based on distances for a kNN method for heart disease diagnosis,” in 2018 International Conference on Electronics, Information, and Communication (ICEIC), Jan 2018, pp 1–4, doi: 10.23919/ELINFOCOM.2018.8330570 D Dua and C Graff, “{UCI} Machine Learning Repository.” http://archive.ics.uci.edu/ml (accessed May 15, 2021) E J Keogh and M J Pazzani, “Derivative dynamic time warping,” in Proceedings of the 2001 SIAM International Conference on Data Mining, Philadelphia, PA, Apr 2001, pp 1–11, doi: 10.1137/1.9781611972719.1 E Keogh and C A Ratanamahatana, “Exact indexing of dynamic time warping,” Knowl Inf Syst., vol 7, no 3, pp 358–386, Mar 2005, doi: 10.1007/s10115-004-0154-9 Y Chen et al., “The UCR Time Series Classification Archive,” 2015 http://www.cs.ucr.edu/~eamonn/time_series_data/ (accessed May 14, 2021) M Wolfe, “Loops skewing: The wavefront method revisited,” Int J Parallel Program., vol 15, no 4, pp 279–293, Aug 1986, doi: 10.1007/BF01407876 M E Belviranli, P Deng, L N Bhuyan, R Gupta, and Q Zhu, “PeerWave: Exploiting Wavefront Parallelism on GPUs with Peer-SM Synchronization,” in Proceedings of the 29th ACM on International Conference on Supercomputing ICS ’15, New York, New York, USA, Jun 2015, pp 25–35, doi: 10.1145/2751205.2751243 “ASUS STRIX GTX 960 DirectCU II OC GB.” https://www.techpowerup.com/gpu-specs/asus-strix-gtx-960-directcu-ii-oc-4-gb b3240 (accessed May 18, 2022) “Time Series Classification.” http://www.timeseriesclassification.com/description.php?Dataset=Fish (accessed Apr 12, 2022) 50 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Times Series Chuỗi thời gian Times Series Data Dữ liệu chuỗi thời gian Classification Phân lớp Classifier Bộ phân lớp k-Nearest Neighbor k-lân cận gần k-NN 1-Nearest Neighbor 1-lân cận gần 1-NN Training Set Tập huấn luyện Test Set Tập kiểm thử Support Vector Machine Máy véc-tơ hỗ trợ SVM Complexity Invariant Distance Khoảng cách bất biến độ phức tạp CID Similarity Measure Độ đo tương tự Euclidean Distance Khoảng cách Euclid ED Dynamic Time Warping Xoắn thời gian động DTW Derivative Dynamic Time Warping Độ đo xoắn thời gian động đạo hàm Second Giây Accuracy Độ xác Error rate Tỉ lệ lỗi phân lớp Viết tắt s PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: Võ Đại Dương Ngày, tháng, năm sinh: 01/08/1990 Nơi sinh: Ninh Thuận Địa liên lạc: 82/36 HT02, P Hiệp Thành, Q 12, TP HCM QUÁ TRÌNH ĐÀO TẠO Bậc đào tạo Nơi đào tạo Chuyên môn Đại học Đại học Giao thông Hệ thống thông tin Vận tải TP HCM Năm tốt nghiệp 2013 Q TRÌNH CƠNG TÁC Thời gian Vị trí cơng tác Tổ chức cơng tác Địa Tổ chức Từ năm 2012 đến năm 2014 Lập trình viên Cơng ty Gento Tech Q1, TP HCM Từ năm 2014 đến Chuyên viên kỹ thuật Công ty Merkle Việt Nam 19A Cộng Hòa, P 13, Q Tân Bình, TP HCM

Định dạng
Số trang	64
Dung lượng	1,14 MB