Cải tiến giải thuật 1 nn phân lớp dữ liệu chuỗi thời gian dựa vào một kỹ thuật nhánh và cận

98 11 0
Cải tiến giải thuật 1 nn phân lớp dữ liệu chuỗi thời gian dựa vào một kỹ thuật nhánh và cận

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐOÀ N DŨ CẢI TIẾN GIẢI THUẬT 1-NN PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀ O MỘT KỸ THUẬT NHÁNH VÀ CẬN Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2016 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS Dương Tuấn Anh (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : TS Võ Thị Ngọc Châu (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : PGS.TS Đỗ Phúc (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 30 tháng 12 năm 2016 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS.TS Quản Thành Thơ TS Nguyễn Đức Dũng TS Võ Thị Ngọc Châu PGS.TS Đỗ Phúc PGS TS Lê Trung Quân Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự – Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đoàn Dũ MSHV: 7140223 Ngày, tháng, năm sinh: 27/02/1990 Nơi sinh: Tp.HCM Chuyên ngành: Khoa Học Máy Tính Mãsố: 60.48.01.01 I TÊN ĐỀ TÀI: CẢI TIẾN GIẢI THUẬT 1-NN PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MỘT KỸ THUẬT NHÁNH VÀ CẬN II NHIỆM VỤ VÀ NỘI DUNG - Nghiên cứu dữ liê ̣u chuỗi thời gian và vấ n đề phân lớp dữ liê ̣u chuỗi thời gian - Nghiên cứu giải thuâ ̣t k-lân cận gầ n nhấ t cho toán phân lớp liệu chuỗi thời gian - Nghiên cứu lý thuyế t kỹ thuâ ̣t nhánh-và-cận để cải tiến tốc độ cho giải thuật - Nghiên cứu các độ đo tương tự, từ đó cho ̣n đô ̣ đo phù hơ ̣p để cải tiế n độ xác bài toán phân lớp áp du ̣ng giải thuâ ̣t 1-lân cận gầ n nhấ t - Hiện thực hệ thống phân lớp dữ liê ̣u chuỗi thời gian với giải thuâ ̣t 1-lân cận gầ n nhấ t bằ ng mô ̣t kỹ thuật nhánh-và-cận - Thử nghiê ̣m ̣thố ng mô ̣t số bô ̣ dữ liê ̣u mẫu lấy từ trang web “The UCR Time Series Classification Archive”, so sánh các kế t quả thu đươ ̣c và rút kế t luâ ̣n III NGÀY GIAO NHIỆM VỤ: 17/08/2015 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 05/12/2016 V CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Tp HCM, ngày 05 tháng 12 năm 2016 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH&KTMT (Họ tên chữ ký) (Họ tên chữ ký) LỜI CẢM ƠN Trong thời gian thực luận văn, hướng dẫn tâ ̣n tin ̀ h các giảng viên trường Đại học Bách Khoa Tp.HCM, tơi hồn thành luận văn tha ̣c si ̃ với thời gian dự kiến Có kết tơi xin chân thành gởi lời cám ơn đến - PGS TS Dương Tuấn Anh – Giảng viên khoa Khoa Ho ̣c Máy Tính, trường Đại Học Bách Khoa Tp.HCM tận tình hướng dẫn, giúp đỡ tơi suốt q trình làm luận văn Sự giúp đỡ hướng dẫn nhiệt tình thầy giúp tơi củng cố kiến thức hồn thành tốt luận văn tốt nghiệp Tôi xin chân thành cám ơn thầy - Quý thầy cô khoa Khoa Ho ̣c Máy Tin ́ h, trường Đại học Bách Khoa Tp.HCM nói riêng thầy Trường Đại Học Bách Khoa Tp.HCM nói chung tận tình giảng dạy bảo, giúp trang bị kiến thức quý báu suốt thời gian học tập nghiên cứu Dù cố gắng liên tục nâng cao kiến thức, luận văn tránh thiếu sót hạn chế Do tơi mong nhận dẫn quý thầy cô bạn để tơi hồn thiện sai sót mà ̀ h mắc phải i TĨM TẮT LUẬN VĂN Mô ̣t chuỗi thời thời gian (Time Series) chuỗi liệu dạng điểm, đo theo mố c thời gian liền theo tần suất định Dữ liê ̣u chuỗi thời gian ứng dụng nhiều ngành nghề, lĩnh vực khác công nghiê ̣p, sức khỏe, thời tiế t và tài chiń h Việc phân tích liệu chuỗi thời gian đóng vai trị quan trọng bao gồ m các phương pháp phân tích dữ liê ̣u ch̃i thời gian để trích xuất sớ liê ̣u thống kê có ý nghĩa và các đă ̣c điể m khác của dữ liê ̣u Qua ta dự đoán sự kiê ̣n trước, thống kê xu hướng liệu đưa định tốt phục vụ đời sống người Trong những năm gầ n đây, viê ̣c phân lớp dữ liê ̣u chuỗi thời gian đã hấ p dẫn sự chú ý của nhiề u nhà nghiên cứu, nhiề u giải thuâ ̣t đã đươ ̣c đề xuấ t để cải tiến hiê ̣u suấ t cho bài toán phân lớp liệu thời gian Trong luâ ̣n văn này, chúng khảo sát hướng tiếp cận để cải tiến viê ̣c phân lớp liệu chuỗi thời gian sử du ̣ng giải thuâ ̣t 1-lân câ ̣n gầ n nhấ t phân lớp liệu chuỗi thời gian dựa mô ̣t kỹ thuâ ̣t nhánh-và-cận Chi phí tiń h toán của giải thuâ ̣t phân lớp 1-lân câ ̣n gầ n nhấ t thường đòi hỏi mô ̣t đô ̣ phức ta ̣p tính toán chi phí cao Phương pháp nhánh-và-cận đươ ̣c thực hiê ̣n để ta ̣o điề u kiê ̣n tin ́ h toán 1-lân câ ̣n gầ n nhấ t nhanh, bằ ng cách loa ̣i bỏ bớt các phép tin ́ h toán không cầ n thiế t Các kế t quả thực nghiê ̣m đã chứng minh sự hiê ̣u quả của giải thuâ ̣t Viê ̣c phân lớp 1-lân câ ̣n gầ n nhấ t áp du ̣ng kỹ thuâ ̣t nhánh-và-cận cho thấ y thời gian thực hiê ̣n nhanh viê ̣c phân lớp bằ ng phương pháp 1-lân câ ̣n gầ n nhấ t truyề n thố ng Bên ca ̣nh đó thì hai đô ̣ đo khoảng cách CID, CRD cũng cho kế t quả phân lớp với đô ̣ chính xác cao đô ̣ đo Euclid ii ABSTRACT A time series is a series of data points listed in time order Most commonly, a time series is a sequence taken at successive equally spaced points in time Time series data have been applied in many different domains such as industries, health, weather and finance Time series data analysis plays an important role because it comprises methods for analyzing time series data in order to extract meaningful statistics and other characteristics of the data, thus helps human predict events, or some statical reporting and have better decision making In recent years, time series data classification has attracted the attention of many researchers, many algorithms have been proposed to improve the performance of time series data classification problem In this thesis, we investigated an approach to improve time series data classification using 1-nearest neighbor through a branch-and-bound technique Computation of the 1-neareset neighbor classification generally requires a large number of expensive distance computations The method of branch-and-bound is implemented in the present algorithm to facilitate rapid calculation of the 1-nearest neighbor, by eliminating the necessity of calculating many distances Experimental results demonstrate the efficiency of the algorithm The 1-nearest neighbor classification using a branch and bound algorithm was faster than traditional 1-nearest neighbor classification Besides that, two distance mesuare CID and CRD also gave the classification results with better accuracy than Euclid iii LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 05 tháng 12 năm 2016 Đoàn Dũ iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU x CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Đô ̣ng nghiên cứu 1.3 Ý nghiã của đề tài 1.4 Mục tiêu nhiê ̣m vu ̣ của đề tài 1.5 Những kế t quả đa ̣t đươ ̣c 1.6 Bố cu ̣c luâ ̣n văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Dữ liệu chuỗi thời gian 2.2 Vấn đề phân lớp liệu chuỗi thời gian 2.3 Giải thuật k-lân cận gần 10 2.3.1 Giới thiê ̣u giải thuâ ̣t k-lân cận gầ n nhấ t 10 2.3.2 Áp du ̣ng giải thuâ ̣t k-lân cận gầ n nhấ t vào bài toán phân lớp 11 2.4 Kỹ thuật nhánh-và-cận 13 2.5 Giải thuâ ̣t k-means 14 2.5.1 Giới thiê ̣u về kỹ thuâ ̣t gom cu ̣m 14 2.5.2 Giải thuâ ̣t k-means 15 v 2.6 Các độ đo tương tự 16 2.6.1 Độ đo khoảng cách Euclid 16 2.6.2 Độ đo xoắn thời gian động 17 CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN 20 3.1 Kỹ thuâ ̣t nhánh-và-câ ̣n để tăng tốc giải thuật k-lân cận gầ n nhấ t 20 3.1.1 Phân rã tập thiết kế 21 3.1.2 Tìm kiếm kỹ thuật nhánh-và-cận 22 3.2 Đô ̣ đo CID cho liệu chuỗi thời gian 26 3.2.1 Một vài bất biến 26 3.2.2 CID cho chuỗi thời gian 28 3.3 Độ đo CRD cho liệu chuỗi thời gian 29 3.3.1 Nguyên lý độ dài mô tả tối thiểu (Minimum Description Length - MDL) 29 3.3.2 Độ đo khoảng cách tỉ lệ nén (Compression Rate Distance - CRD) 32 CHƯƠNG 4: PHƯƠNG PHÁP TIẾP CẬN 36 4.1 Sơ đồ tổ ng quát của ̣ thố ng 36 4.2 Giải thić h sơ đồ triǹ h tự của ̣ thố ng 37 4.2.1 Phân rã tâ ̣p dữ liê ̣u và quy trin ̀ h tổ ng quát của ̣ thố ng 37 4.2.2 Phân lớp dữ liê ̣u 1-lân câ ̣n gầ n nhấ t áp du ̣ng giải thuâ ̣t nhánh và câ ̣n 40 CHƯƠNG 5: HIỆN THỰC VÀ THỰC NGHIỆM 42 5.1 Môi trường thực nghiê ̣m 42 5.2 Các giải thuâ ̣t và các bô ̣ dữ liê ̣u thực nghiê ̣m 42 5.2.1 Bộ liệu Gun Point 43 5.2.2 Bộ liệu CBF 46 5.2.3 Bộ liệu Trace 47 5.2.4 Bộ liệu Fish 49 5.3 Kế t quả thực nghiê ̣m 50 vi 5.3.1 Thực nghiê ̣m với bô ̣ dữ liê ̣u 50Words 50 5.3.2 Thực nghiê ̣m với bô ̣ dữ liê ̣u CinC_ECG_torso 51 5.3.3 Thực nghiê ̣m với bô ̣ dữ liê ̣u Face (all) 52 5.3.4 Thực nghiê ̣m với bô ̣ dữ liê ̣u Swedish Leaf 53 5.3.5 Thực nghiê ̣m với bô ̣ dữ liê ̣u MedicalImages 54 5.3.6 Thực nghiê ̣m với bô ̣ dữ liê ̣u ECG5000 55 5.3.7 Thực nghiê ̣m với bô ̣ dữ liê ̣u Yoga 57 5.3.8 Thực nghiê ̣m với bô ̣ dữ liê ̣u Adiac 58 5.3.9 Thực nghiê ̣m với bô ̣ dữ liê ̣u FacesUCR 59 5.3.10 Thực nghiê ̣m với bô ̣ dữ liê ̣u ProximalPhalanxOutlineCorrect 60 5.3.11 Thực nghiê ̣m với bô ̣ dữ liê ̣u DistalPhalanxOutlineCorrect 61 5.3.12 Thực nghiê ̣m với bô ̣ dữ liê ̣u Strawberry 62 5.3.13 Thực nghiê ̣m với bô ̣ dữ liê ̣u Gun Point 63 5.3.14 Thực nghiê ̣m với bô ̣ dữ liê ̣u CBF 65 5.3.15 Thực nghiê ̣m với bô ̣ dữ liê ̣u Trace 66 5.3.16 Thực nghiê ̣m với bô ̣ dữ liê ̣u Fish 67 5.4 Bảng tóm tắt thơng số sử dụng tóm tắt kết thực nghiệm 68 5.4.1 Bảng tóm tắt thơng số 68 5.4.2 Bảng tóm tắt kết thực nghiệm 69 CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76 6.1 Những kế t luâ ̣n của luâ ̣n văn 76 6.2 Hướng phát triể n 77 TÀI LIỆU THAM KHẢO 78 PHỤ LỤC A A1 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT A1 vii ... ̀ h 1. 1 Dữ liệu chuỗi thời gian cơng ty chứng khốn Đường Biên Hòa Cải tiến giải thuật 1- NN phân lớp liệu chuỗi thời gian dựa vào kỹ thuật nhánh cận | Đồn Dũ Hình 1. 1 ví dụ liệu chuỗi thời gian. .. sánh thời gian phân lớp trước sau áp dụng kỹ thuật nhánh- v? ?cận (CRD) 74 xi Cải tiến giải thuật 1- NN phân lớp liệu chuỗi thời gian dựa vào kỹ thuật nhánh cận | Đoàn Dũ CHƯƠNG 1: GIỚI... cứu liệu chuỗi thời gian vấn đề phân lớp liệu chuỗi thời gian - Nghiên cứu giải thuật 1- lân cận gần nhất, áp dụng để phân lớp liệu chuỗi thời gian - Nghiên cứu phân lớp chuỗi thời gian dựa vào kỹ

Ngày đăng: 26/01/2021, 15:35

Mục lục

  • noi_dung_bao_cao

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan