Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
7,79 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM ( TRƯỜNG ĐẠI HỌC BÁCH KHOA LÂM TUẤN ANH RÚT TRÍCH LUẬT DỰ BÁO TỪ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MÔ TÍP VÀ NGUYÊN LÝ MDL Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG –HCM Cán hướng dẫn khoa học : PSG TS Dương Tuấn Anh Cán chấm nhận xét : TS Phạm Văn Chung Cán chấm nhận xét : TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 26 tháng 12 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Bùi Hoài Thắng TS Nguyễn Hồ Mẫn Rạng TS Phạm Văn Chung TS Võ Thị Ngọc Châu PGS TS Trần Văn Hoài Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa CHỦ TỊCH HỘI ĐỒNG Lâm Tuấn Anh - 1570202 TRƯỞNG KHOA KH & KT MÁY TÍNH i ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lâm Tuấn Anh MSHV: 1570202 Ngày, tháng, năm sinh: 20/09/1991 Nơi sinh: Tp HCM Ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: RÚT TRÍCH LUẬT DỰ BÁO TỪ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MOTIF VÀ NGUYÊN LÝ MDL II NHIỆM VỤ VÀ NỘI DUNG • Tìm hiểu khung kiến thức rút trích luật dự báo từ liệu chuỗi thời gian dựa vào motif nguyên lý MDL Begum cộng • Hiện thực khung thức nêu với thay đổi giải thuật phát motif MK giả thuật phát motif EP-C | HAC • Thử nghiệm số liệu mẫu để đánh giá hiệu phương pháp đề xuất III NGÀY GIAO NHIỆM VỤ: 15/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 V CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Tp HCM, ngày tháng năm 2019 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) Lâm Tuấn Anh - 1570202 TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) ii LỜI CẢM ƠN Tôi xin trân trọng gửi lời cám ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy theo dõi, nhắc nhở hướng dẫn tơi suốt q trình thực luận văn Bên cạnh đó, Thầy tổ chức buổi chuyên đề chia sẻ kiến thức lĩnh vực khai phá liệu chuỗi thời gian, giúp cho tiếp thu nhiều kiến thức mẻ quý giá, giúp ích cho trình thực luận văn Tơi xin cám ơn q thầy gián tiếp trực tiếp dạy bảo hướng dẫn qua tiết học, giúp tơi có kiến thức cần thiết để thực luận văn Tôi xin cám ơn anh chị bạn học viên khoá động viên, giúp đỡ góp ý cho tơi suốt q trình làm luận văn Một lần tơi xin gửi lời cám ơn chân thành đến tất thầy cô bạn bè đồng hành suốt thời gian học Lâm Tuấn Anh - 1570202 iii TĨM TẮT LUẬN VĂN Rút trích luật dự báo chuỗi thời gian kỹ thuật quan tâm lĩnh vực khai phá liệu, mà luật rút trích dùng để dự báo tương lai Một khung sườn rút trích luật dự báo mang tính đột phá cơng trình nghiên cứu miêu tả báo “Discovery of Meaningful Rules in Time Series” tác giả Mohammad Shokoohi-Yekta cộng Khung sườn dùng mơ típ nhiều bậc tìm thấy từ thuật toán MK để tạo chuỗi tiền đề chuỗi kết quả, dựa vào chúng mà nén chuỗi thời gian ban đầu nguyên lý Minimum Description Length Trong mơ típ tìm được, mơ típ nén chuỗi ban đầu tốt ứng viên cho luật dự báo cần tìm Tuy nhiên, thuật tốn tìm kiếm mơ típ MK thuật tốn tìm kiếm xác nên có thời gian thực thi lâu Đồng thời thuật tốn MK tìm hai chuỗi giống (có khoảng cách ngắn nhất) mà khơng phải chuỗi có tần suất lặp lại nhiều chuỗi thời gian ban đầu Điều khiến cho luật dự báo tìm thấy dễ rơi vào trường hợp luật dự báo thể hai chuỗi mơ típ ban đầu tìm mà khơng mang tính chất tổng qt cao cho toàn chuỗi thời gian Từ vấn đề trên, đề xuất việc sử dụng thuật tốn khác để tìm mơ típ cho khung sườn rút trích luật dự báo nhắc đến Mơ hình mà chúng tơi sử dụng đề tài để tìm mơ típ EP_C|HAC tức kết hợp Điểm Cực trị Quan trọng Gom cụm Phân cấp Sau dùng kết mơ típ tìm để rút trích luật dự báo Lâm Tuấn Anh - 1570202 iv ABSTRACT Predicting the future is the expectation of every scientists, especially data mining specialists For that reason, many frameworks are designed to discover meaningful predictive rules in time series, which is then used to predict incoming events In the article “Discovery of Meaningful Rules in Time Series” by Mohammad Shokoohi-Yekta and his colleagues, the authors described the Rule extraction framework wh allows them to discover high quality rules that accurately predict the occurrence of future events According to their Rule extraction framework, they split the motifs found by MK algorithm from the original timeseries into antecedents and consequents Inspired by Minimum Description Length principle, the authors try to calculate the saved bits if they compress the original timeseries using the above antecedents and consequents The motif with antecedent and consequent that gives the best compression ratio will become the candidate for a meaningful rule However, MK algorithm is an exact motif finding algorithm which is costly in execution time Moreover, MK algorithm only find out two most similar subseries but not the most frequently occurring ones This leads to an unexpected situation where the rule that they found only appears exactly at the two subseries from the motif, and not a universal rule for the whole timeseries From the above problems, we propose to use another motif discovery algorithm as a replacement for MK algorithm in the mentioned Rule extraction framework The algorithm that we proposed is a combination of Extreme Points and Hiearchary Agglomerative Clustering which is denoted as EP_C|HAC And we will use its result as an input for the Rule extraction framework to discover meaningful rules in timeseries Lâm Tuấn Anh - 1570202 v LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 3/12/2018 Lâm Tuấn Anh Lâm Tuấn Anh - 1570202 vi MỤC LỤC Chương GIỚI THIỆU VẤN ĐỀ 1.1 Giới thiệu Luật Dự Báo 1.2 Nguyên nhân dự báo 1.3 Phương pháp dự báo 1.3.1 Nguyên lý MDL .2 1.3.2 Mơ típ 1.4 Mục tiêu giới hạn đề tài 1.5 Các kết đạt 1.6 Cấu trúc luận văn Chương CƠ SỞ LÝ THUYẾT 2.1 Nguyên lý MDL 2.1.1 Giới thiệu nguyên lý MDL .5 2.1.2 Ý tưởng nguyên lý MDL 2.1.3 Ví dụ đơn giản MDL 2.2 Chuỗi thời gian khái niệm liên quan 2.2.1 Chuỗi thời gian (Time Series) 2.2.2 Khung cửa sổ trượt (Sliding Window) 2.2.3 Cơ sở liệu chuỗi thời gian (Time Series Database) 2.2.4 Trùng khớp (Match) .9 2.2.5 Trùng khớp tầm thường (Trivial Match) .9 2.2.6 Mơ típ bậc K (kí hiệu K-Motif(n, R)) 10 2.2.7 Mơ típ bậc K với độ sai lệch d (kí hiệu K-Motif(n, R, d)) 11 2.2.8 Mơ típ tồn chuỗi (Time Series Motif) 11 2.2.9 Mơ Típ Tồn Chuỗi Bậc K chuỗi thời gian (Kth Time Series Motif) 12 2.2.10 Tầm mơ típ (Motif Range) 12 2.2.11 Biến đổi chuỗi thời gian thành sở liệu chuỗi thời gian 12 2.2.12 Mơ típ chuỗi 12 2.2.13 So sánh hai khái niệm mơ típ bậc K B Chiu A Mueen 13 2.3 Bài tốn phát Mơ típ 13 Lâm Tuấn Anh - 1570202 vii 2.3.1 Giới thiệu tốn Mơ típ 13 2.3.2 Các nghiên cứu trước tốn tìm kiếm Mơ típ 14 2.4 Bài tốn phát Luật Dự Báo 14 2.5 Khung làm việc Luật dự báo (Rule Framework) 16 2.5.1 Chuỗi Tiền đề (Antecedent) 17 2.5.2 Chuỗi Kết (Consequent) 17 2.5.3 Luật Dự Báo chuỗi thời gian 17 2.5.4 Điểm phân tách (Split Point) 18 Chương CÁC CƠNG TRÌNH LIÊN QUAN 19 3.1 Phát mơ típ giải thuật Chiếu Ngẫu Nhiên 19 3.2 Tìm kiếm xác Mơ típ chuỗi thời gian 23 3.3 Rút trích luật có ý nghĩa chuỗi thời gian 27 3.4 Các công trình tham khảo khác 32 3.4.1 Về luật dự báo 32 3.4.2 Về nguyên lý MDL 33 3.5 Tổng kết 34 Chương PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 35 4.1 Điểm cực trị quan trọng (Important Extreme Points) 35 4.1.1 Điểm cực tiểu quan trọng 36 4.1.2 Điểm cực đại quan trọng 36 4.1.3 Giải thuật tìm điểm cực trị quan trọng 37 4.2 Nhận diện mơ típ dựa vào Điểm cực trị quan trọng Gom cụm phân cấp theo hướng từ lên 38 4.2.1 Độ đo khoảng cách có ràng buộc 39 4.2.2 Tìm ứng viên mơ típ 40 4.2.3 Giải thuật gom cụm phân cấp theo hướng từ lên (Hierarchical Bottom-Up Algorithm) 41 4.2.4 Giải thuật gom cụm K-Means 42 Chương HIỆN THỰC VÀ THỬ NGHIỆM 43 5.1 Hợp điểm cực trị quan trọng 43 5.2 Lấy mẫu ứng viên phương pháp Nội suy tuyến tính 45 5.3 Lấy mẫu ứng viên Phép biến hình vị tự 46 Lâm Tuấn Anh - 1570202 viii 5.3.1 Khái niệm Phép biến hình vị tự 46 5.3.2 Giải thuật phép biến hình vị tự 48 5.4 Mơ hình thực phương pháp rút trích luật dự báo sử dụng thuật tốn phát mơ típ EP_C|HAC 49 5.5 Kết thực hai giải thuật 50 5.5.1 Dữ liệu xe điện 40 ngày (40daytrain) với kích thước 3000 điểm 50 5.5.2 Tập liệu memory với kích thước 6875 điểm 54 Chương KẾT LUẬN 70 6.1 Tổng kết 70 6.2 Những đóng góp đề tài 70 6.3 Hướng phát triển đề tài 70 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 72 Lâm Tuấn Anh - 1570202 ix 16 http://www.cs.ucr.edu/~eamonn/exact_motif/ 17 K B Pratt, E Fink, “Search for pattern in compressed time series”, International Journal of Image and Graphics, 2002 18 C Gruber, M Coduro, B Sick, “Signature Verification With Dynamic RBF Network and Time Seried Motif”, The 10th International Workshop on Frontiers in Hand Writing Recognition, 2006 19 J Lin, E Keogh, S Lonardi, P Patel, “Finding Motifs in Time Series”, SIGKDD ’02, 2002 Lâm Tuấn Anh - 1570202 73 PHỤ LỤC A MINH HOẠ GIẢI THUẬT Ở phần phụ lục này, xin đưa ví dụ minh hoạ cụ thể cho giải thuật Cho chuỗi thời gian T có chiều dài 100 chứa giá trị sau: T = (3, 2, 1, 3, 1, 1, 1, 2, 3, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1, 2, 2, 5, 4, 2, 3, 2, 3, 4, 1, 4, 4, 3, 4, 3, 1, 1, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1, 2, 3, 3, 3, 2, 3, 1, 1, 1, 3, 3, 1, 3, 2, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1, 4, 3, 3, 4, 2, 3, 4, 3, 4, 4, 3, 1, 3, 1, 3, 4, 3, 4, 5, 4, 3, 3, 3, 1, 2, 4, 3, 3, 1, 3) Trong tồn chuỗi mơ típ 4 với chiều dài 10 xuất vị trí thứ 10, 37 61 có chuỗi khác Như đây, tốn cho chuỗi thời gian cụ thể T thuật toán rút trích luật dự báo T cách tìm thấy dựa vào chuỗi mơ típ nêu Hình D-1 minh hoạ chuỗi T với mơ típ nhấn mạnh cách tơ màu đỏ Hình D-1 : Mơ típ chuỗi T tơ màu đỏ Đầu tiên thuật giải đề xuất tìm mơ típ chuỗi T Lâm Tuấn Anh - 1570202 A Tìm mơ típ 1.1 Tìm điểm cực trị quan trọng hợp chúng Khi tìm điểm cực trị quan trọng với R = 1.05 cho chuỗi thời gian T, ta có kết điểm vị trí sau điểm cực trị quan trọng: 1, 2, 3, 4, 5, 9, 10, 11, 12, 15, 19, 22, 24, 25, 26, 28, 29, 30, 32, 33, 35, 38, 39, 42, 46, 48, 51, 52, 53, 56, 58, 59, 61, 62, 63, 66, 70, 71, 72, 74, 75, 77, 78, 79, 82, 83, 84, 86, 87, 89, 94, 96, 99, 100 Ta gọi tập điểm EP Hình D-2 minh hoạ điểm cực trị quan trọng chuỗi thời gian T, điểm đánh dấu hoa thị Hình D-2: Đồ thị biểu diễn chuỗi thời gian T với điểm cực trị quan trọng R = 1.05 Tiếp đến, thuật toán tìm cách hợp điểm cực trị tìm gần để giảm số lượng điểm cực trị Nói cách tốn học, thuật tốn tìm tập kí hiệu EP_reduced tập tập EP theo nguyên tắc sau Đầu tiên ta xét ngưỡng tối thiếu nửa chiều dài mơ típ cần tìm : 10 * 0.5 = Nguyên thuật toán lấy điểm liên tiếp để tạo thành chuỗi ứng viên mơ típ nên khoảng cách điểm gần với chiều dài mơ típ cần tìm chia chiều dài chuỗi qua điểm liên tiếp gần với chiều dài mơ típ cần tìm Xét từ vị trí đầu tiên, mặc định đươc đưa vào danh sách tập điểm cực trị thu giảm Thuật toán xét điểm Nếu điểm xét trừ cho Lâm Tuấn Anh - 1570202 B điểm cuối danh sách bé chiều dài ngưỡng ví dụ điểm – = < nên thuật toán bỏ qua xét tiếp điểm vị trí 3, 4, Đến điểm vị trí 9, – = > 5, thuật tốn lưu vị trí vào danh sách Tiếp thuật tốn so sánh vị trí 10, 11, 12 bỏ qua Đến vị trí 15 15 – = > nên thuật toán lưu lại vào danh sách Lúc danh sách bao gồm 1, 9, 15 Cứ thuật toán xét đến hết danh sách điểm cực trị ban đầu Kết trình này, ta thu giảm từ 54 điểm ban đầu cịn 21 điểm vị trí sau: 1, 5, 9, 15, 19, 24, 28, 32, 38, 42, 46, 51, 56, 61, 66, 70, 74, 78, 82, 86, 94 Hình D-3 minh hoạ điểm cực trị quan trọng sau thu giảm chuỗi thời gian T, điểm đánh dấu hoa thị Hình D-3: Đồ thị biểu diễn chuỗi thời gian T với điểm cực trị quan trọng R = 1.05 sau thu giảm 1.2 Tạo chuỗi mơ típ ứng viên từ điểm dùng phép biến hình vị tự để biến chiều dài chúng 10 Với điểm liên tiếp ví dụ 1, 5, ta có chuỗi ứng viên mơ típ có giá trị từ vị trí đến vị trí thứ chuỗi thời gian T ban đầu kí hiệu MC1: MC1 = (3, 2, 1, 3, 1, 1, 1, 2, 3) Tương tự, ta có chuỗi khác trình bày bảng sau Chuỗi mơ típ ứng viên Chiều dài Vị trí MC1 = (3, 2, 1, 3, 1, 1, 1, 2, 3) MC2 = (1, 1, 1, 2, 3, 1, 4, 1, 4, 5, 6) 11 Lâm Tuấn Anh - 1570202 C MC3 = (3, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1) 11 MC4 = (6, 4, 3, 2, 1, 2, 2, 5, 4, 2) 10 15 MC5 = (1, 2, 2, 5, 4, 2, 3, 2, 3, 4) 10 19 MC6 = (2, 3, 2, 3, 4, 1, 4, 4, 3) 23 MC7 = (4, 1, 4, 4, 3, 4, 3, 1, 1, 1, 4) 10 27 MC8 = (3, 4, 3, 1, 1, 1, 1, 4, 1, 4, 5, 6) 12 31 MC9 = (4, 1, 4, 5, 6, 4, 3, 2, 1) 37 MC10 = (6, 4, 3, 2, 1, 2, 3, 3, 3, 2) 10 41 MC11 = (1, 2, 3, 3, 3, 2, 3, 1, 1, 1, 3) 11 45 MC12 = (2, 3, 1, 1, 1, 3, 3, 1, 3, 2, 1) 11 50 MC13 = (3, 3, 1, 3, 2, 1, 4, 1, 4, 5, 6) 11 55 MC14 = (1, 4, 1, 4, 5, 6, 4, 3, 2, 1) 10 60 MC15 = (6, 4, 3, 2, 1, 4, 3, 3, 4) 65 MC16 = (1, 4, 3, 3, 1, 4, 2, 3, 4, 3) 10 69 MC17 = (4, 2, 3, 4, 3, 4, 4, 3, 1) 73 MC18 = (3, 4, 4, 3, 1, 3, 1, 3, 4) 77 MC19 = (1, 3, 1, 3, 4, 3, 4, 5, 4, 3, 3, 3, 1) 13 81 MC20 = (4, 3, 4, 5, 4, 3, 3, 3, 1, 2, 4, 3, 3, 1) 14 85 Sau thuật tốn phân cụm chuỗi ứng viên mơ típ Do đầu vào khung sườn tìm kiếm luật dự báo yêu cầu xác định chiều dài mơ típ cố định nên trước tiên thuật toán biến chiều dài chuỗi giá trị 10 cách sau: • Đối với chuỗi có chiều dài bé 10, thuật toán đơn giản lấy thêm điểm chuỗi thời gian ban đầu đủ 10 • Đối với chuỗi có có chiều dài lớn 10, thuật tốn dùng phép biến hình vị tự để biến đổi thành chuỗi có chiều dài 10 Bảng sau ghi lại chuỗi biến đổi từ chuỗi gốc: Chuỗi mơ típ ứng viên Chuỗi mơ típ ứng viên biến đổi chiều dài 10 MC1 = (3, 2, 1, 3, 1, 1, 1, 2, 3) Lâm Tuấn Anh - 1570202 mc1 = (3, 2, 1, 3, 1, 1, 1, 2, 3, 1) D MC2 = (1, 1, 1, 2, 3, 1, 4, 1, 4, 5, 6) mc2 = (1.23, 1.23, 1.41, 2.41, 2.32, 5.32, 0.14, 3.68, 4.68, 5.95) MC3 = (3, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1) mc3 = (3.05, 1.5, 3.41, 2.41, 2.32, 5.32, 0.14, 3.68, 4.68, 5.95) MC4 = (6, 4, 3, 2, 1, 2, 2, 5, 4, 2) mc4 = (6, 4, 3, 2, 1, 2, 2, 5, 4, 2) MC5 = (1, 2, 2, 5, 4, 2, 3, 2, 3, 4) mc5 = (1, 2, 2, 5, 4, 2, 3, 2, 3, 4) MC6 = (2, 3, 2, 3, 4, 1, 4, 4, 3) mc6 = (2, 3, 2, 3, 4, 1, 4, 4, 3, 4) MC7 = (4, 1, 4, 4, 3, 4, 3, 1, 1, 1, 4) mc7 = (3.95, 1.5, 3.95, 3.68, 3.41, 3.95, 1.23, 1.23, 0.68, 4.23) MC8 = (3, 4, 3, 1, 1, 1, 1, 4, 1, 4, 5, 6) mc8 = (3.14, 3.95, 2.77, 1.32, 1.32, 5.41, 0.23, 3.77, 4.77, 6.05) MC9 = (4, 1, 4, 5, 6, 4, 3, 2, 1) mc9 = (4, 1, 4, 5, 6, 4, 3, 2, 1, 2) MC10 = (6, 4, 3, 2, 1, 2, 3, 3, 3, 2) mc10 = (6, 4, 3, 2, 1, 2, 3, 3, 3, 2) MC11 = (1, 2, 3, 3, 3, 2, 3, 1, 1, 1, 3) mc11 = (1.09, 2.09, 2.91, 2.91, 2.55, 3.82, 1.09, 1.09, 0.73, 2.91) MC12 = (2, 3, 1, 1, 1, 3, 3, 1, 3, 2, 1) mc12 = (2, 2.73, 1.09, 1.09, 1.82, 3.82, 0.36, 3.18, 2.18, 0.82) MC13 = (3, 3, 1, 3, 2, 1, 4, 1, 4, 5, 6) mc13 = (3.05, 2.86, 1.59, 2.77, 1.77, 5.32, 0.14, 3.68, 4.68, 5.95) MC14 = (1, 4, 1, 4, 5, 6, 3, 2, 1) mc14 = (1, 4, 1, 4, 5, 6, 3, 2, 1) MC15 = (6, 4, 3, 2, 1, 4, 3, 3, 4) mc15 = (6, 4, 3, 2, 1, 4, 3, 3, 4) MC16 = (1, 4, 3, 3, 1, 4, 2, 3, 4, 3) mc16 = (1, 4, 3, 3, 1, 4, 2, 3, 4, 3) MC17 = (4, 2, 3, 4, 3, 4, 4, 3, 1) mc17 = (4, 2, 3, 4, 3, 4, 4, 3, 1, 3) MC18 = (3, 4, 4, 3, 1, 3, 1, 3, 4) mc18 = (3, 4, 4, 3, 1, 3, 1, 3, 4, 3) MC19 = (1, 3, 1, 3, 4, 3, 4, 5, 4, 3, 3, 3, 1) mc19 = (1.35, 2.42, 2.58, 3.73, 3.04, 4.81, 3.81, 2.88, 2.88, 1.12) MC20 = (4, 3, 4, 5, 4, 3, 3, 3, 1, 2, 4, 3, 3, mc20 = (3.57, 3.14, 4.43, 3.43, 2.86, 2.86, 1) 1.71, 3.71, 2.86, 0.86) 1.3 Gom cụm ứng viên mơ típ Lâm Tuấn Anh - 1570202 E Để minh họa, chúng tơi tìm đến mơ típ bậc 2, chúng tơi phân thành cụm theo giải thuật phân cụm từ lên Đầu tiên chuỗi mci với < i < 21 phân vào cụm riêng mình, ban đầu có 20 cụm Chúng tơi tinh khoảng cách cụm với để tìm cụm gần hợp thành cụm Mỗi lần số cụm giảm thuật tốn dừng lại số cụm cịn Hình D-4 minh hoạ việc cụm gom nhóm sau tính khoảng cách giữ cụm 10 11 12 13 14 15 16 17 18 19 20 10 11 12 13 10, 15 6, 16 6, 16 8, 13 6, 16 7, 11 8, 13 10, 15 1, 6, 16 7, 11 8, 13 10, 15 1, 6, 16 7, 11 8, 13 9, 17 10, 15 12 14, 19 18 20 1, 6, 16 7, 11 8, 13 9, 17 10, 15 12 14, 19 18, 20 14, 19 11 12 13 10, 15 15 16 17 18 20 14, 19 11 12 13 10, 15 16 17 18 20 14, 19 17 18 20 14, 19 17 18 20 12 14, 19 17 18 20 12 14, 19 17 18 20 11 12 1, 3, 12 6, 16 7, 11 8, 13 9, 17 10, 15 14, 19 18, 20 1, 7, 11 8, 13 9, 17 10, 15 14, 19 18, 20 6, 16 7, 11 8, 13 9, 17 14, 19 18, 20 7, 11 8, 13 9, 17 14, 19 18, 20 8, 13 14, 19 18, 20 2, 3, 12 6, 16 1, 4, 10, 15 2, 3, 12 1, 4, 10, 15 2, 5, 6, 16 3, 12 1, 4, 10, 15 2, 5, 6, 16 3, 12 7, 11, 9, 17 1, 4, 10, 15 2, 5, 6, 16 3, 12 7, 11, 9, 17 1, 4, 10, 15 2, 5, 6, 16 8, 13, 18, 20 14, 19 3, 12, 14, 19 7, 11, 9, 17 8, 13, 18, 20 1, 4, 10, 15, 8, 13, 18, 20 2, 5, 6, 16 3, 12, 14, 19 7, 11, 9, 17 1, 4, 10, 15, 8, 13, 18, 20 2, 5, 6, 16 1, 4, 10, 15, 8, 13, 18, 20, 2, 5, 6, 16 3, 12, 14, 19, 7, 11, 9, 17 3, 12, 14, 19, 7, 11, 9, 17 Hình D-4: Minh hoạ trực quan trình phân cụm Sau dòng bảng số lượng cụm giảm Các cụm tô đen in đậm dịng gộp thành cụm tơ xám dịng Sau thuật tốn tìm đại diện cụm Đó mơ típ Lâm Tuấn Anh - 1570202 F Như cuối cùng, ta có cụm: Cụm gồm chuỗi 1, 4, 10, 15, 8, 13, 18, 20, 2, 5, 6, 16 Cụm gồm chuỗi 3, 12, 14, 19, 7, 11, 9, 17 1.4 Tìm mơ típ từ cụm Trong cụm vừa tìm được, cụm có nhiều phần tử nên đại diện cho cụm mơ típ bậc Phần tử đại diện cho cụm mơ típ bậc Thuật toán xét chiều dài gốc chuỗi cụm 1, chiều dài gần với chiều dài mơ típ cần tìm, 10 chọn chuỗi Nếu chuỗi có độ dài chọn chuỗi gom vào cụm Do tính chất thuật tốn gộp mà thứ tự thứ tự đưa vào cụm Vì cần tìm phần tử có trị tuyệt đối hiệu chiều dài cần tìm chiều dài chuỗi nhỏ Hình D-5 ghi giá trị xét chuỗi cụm Trị tuyệt đối hiệu Chuỗi mci , i = Chiều dài chuỗi mci 10 10 10 15 11 13 11 18 20 14 11 10 16 Lâm Tuấn Anh - 1570202 10 chiều dài G Hình D-5 : Giá trị tính tốn chuỗi cụm Như vậy, chuỗi MC4 = (6, 4, 3, 2, 1, 2, 2, 5, 4, 2) đại diện cụm 1, mơ típ bậc Xét tương tự với cụm 2, ta có bảng ghi giá trị xét chuỗi cụm Trị tuyệt đối hiệu Chuỗi mci , i = Chiều dài chuỗi mci 12 11 14 10 19 13 11 11 11 9 17 10 chiều dài Hình D-6 : Giá trị tính tốn chuỗi cụm Như vậy, chuỗi MC14 = (1, 4, 1, 4, 5, 6, 4, 3, 2, 1) đại diện cụm 1, mơ típ bậc hai Rút trích luật dự báo khung sườn dựa nguyên lí MDL Lẽ xét mơ típ bậc với chuỗi MC4 = (6, 4, 3, 2, 1, 2, 2, 5, 4, 2) trước chuỗi không cho luật tổng số bit tiết kiệm giảm Điều giải thích rõ ví dụ với mơ típ bậc hai: Xét chuỗi MC14 = (1, 4, 1, 4, 5, 6, 4, 3, 2, 1) làm mơ hình để xét tìm luật Chọn điểm tách (split point = 0.6) Ta chia chuỗi MC14 thành phần tiền đề kết Tiền đề mơ hình ac = (1, 4, 1, 4, 5, ) Kết luận mơ hình cons = (4, 3, 2, 1) Lâm Tuấn Anh - 1570202 H Với tiền đề ac, ta trượt tồn chuỗi T để tính khoảng cách với chuỗi Kí hiệu dai khoảng cách Euclid chuỗi vị trí i chuỗi thời gian T có chiều dài chiều dài tiền đề, T = [3, 2, 1, 3, 1, 1], 1, 2, 3, 1, 4, 1, 4, 5, 6, 4, 3, 2, 1, 2, 2, 5, 4, 2, 3, 2, 3, 4, 1, … | | | | | | (1, 4, 1, 4, 5, 6) da1 = 7.07 | | | | | | (1, 4, 1, 4, 5, 6) da2 = … (1, 4, 1, 4, 5, 6) da10 = Như ta mảng dai với < i < 100 – = 94 gồm 94 phần tử Tiếp đến, ta xếp mảng khoảng cách dai theo thứ tự tăng dần Từ ta viết lại mảng locs chứa vị trí bắt đầu chuỗi mà khoảng cách dai tăng dần locs = 10, 37, 61, 82, 85, 27, 73, 18, 35, 92, 8, 45, 75, 68, 6, 3, 53, … Với tập điểm ta cần tìm giá trị chặn t để chia locs thành phần, phần chứa phần tử bên trái t vị trí mà luật xuất chuỗi thời gian T Phần bên phải phần loại bỏ Lúc này, với max_lag = 0, ứng với giá trị locs ví dụ vị trí 10, ta có (1, 4, 1, 4, 5, 6,) max_lag=0 (4, 3, 2, 1) Tiền đề giả thiết kết luận giả thiết Ta lấy kết luận giả thiết kết luận mơ hình để tính khoảng cách MDL chúng Đầu tiên để biểu diễn chuỗi kết luận giả thiết consGT = (4, 3, 2, 1) sử dụng mã Huffman Thuật toán rời rạc hoá thành 16 giá trị từ đến -7 Trong giá trị 1, 2, 3, 4, giá trị lớn nên mang giá trị rời rạc hoá Còn giá trị bé nên mang giá trị rời rạc hoá -7 Giá trị tương ứng với – 16/3 ~ 2.7 làm tròn lên Giá trị tương ứng với – * 16/3 ~ -2.7 làm tròn lên -2 Như consGT sau rời rạc hoá (8, 3, -2, -7) Lâm Tuấn Anh - 1570202 I Sau rời rạc hố ta tìm mã Huffman chuỗi (8, 3, -2, -7) Nhận thấy chuỗi có kí hiệu riêng biệt với đồng xác suất xuất 0.25 Ta phải dùng 2bits để biểu diễn cho giá trị chuỗi (10, 11, 00, 01), trường hợp I này, chuỗi consGT tốn bits để mã hoá Áp dụng MDL, biểu diễn chuỗi kết luận giả thiết consGT = (4, 3, 2, 1) theo chuỗi kết luận mơ hình cons = (4, 3, 2, 1), ta phải tốn bit Thuật toán trả lời câu hỏi cách lấy hiệu chuỗi kết luận giả thiết với chuỗi kết luận mô hình chuỗi (0, 0, 0, 0) Ta cần sử dụng bit để biểu diễn cho giá trị Do biểu diễn chuỗi kết luận giả thiết consGT = (4, 3, 2, 1) theo chuỗi kết luận mơ hình cons = (4, 3, 2, 1) gọi trường hợp II ta tốn bits Lấy hiệu trường hợp I II ta số bit tiết kiệm Tương tự với chuỗi bắt đầu vị trí 37 61 ta số bit tiết kiệm Lúc mảng total_bit_save chứa giá trị bit tiết kiệm vị trí (4, 4, 4) Do giá trị mảng không giảm (monotonically increase) nên thuật tốn xét tiếp vị trí 82 Chuỗi kết luận giả thiết vị trí 82 (4 3) Rời rạc hoá thành 16 giá trị ta (1 -7) với lớn nên có giá trị 8, bé nên mang giá trị -7 Giá trị nằm nên suy luận nhanh mang giá trị Ta thấy có giá trị độc lập -7, 1, với xác suất 0.25, 0.5 0.25 biểu diễn (01, 0, 11) tốn + 2*1 + = bit để biểu diễn Áp dụng MDL, biểu diễn chuỗi kết luận giả thiết consGT = (4, 5, 4, 3) theo chuỗi kết luận mơ hình cons = (4, 3, 2, 1), ta phải tốn bit Thuật toán trả lời câu hỏi cách lấy hiệu chuỗi kết luận giả thiết với chuỗi kết luận mơ hình chuỗi (0, 2, 2, 2) Ta thấy có giá trị độc lập nên tốn + = bit để biểu diễn (0 1 1) Lâm Tuấn Anh - 1570202 J Trong trường hợp số bit tiết kiệm – = bit, giảm so với bit vị trí trước Do thuật tốn dừng lại vị trí thứ t = Do vị trí đầu thể luật tìm từ mơ típ bậc hai minh hoạ hình D-7 Mơ típ bậc khơng cho luật số bit tiết kiệm giảm lần Hình D-7: Các thể luật từ mơ típ MC14 = (1, 4, 1, 4, 5, 6, 4, 3, 2, 1) vị trí 10, 37 61 (hình vẽ thêm điểm nằm trước) Bỏ qua mơ hình vị trí 61, luật tiết kiệm bit Như xét chuỗi thời gian tại, thấy xuất giá trị (1, 4, 1, 4, 5, 6) độ dài luật cần dự báo 10, ta kết luận giá trị xuất (4, 3, 2, 1) Lâm Tuấn Anh - 1570202 K LÝ LỊCH TRÍCH NGANG Họ tên: Lâm Tuấn Anh Ngày, tháng, năm sinh: 20/09/1991 Nơi sinh: TP Hồ Chí Minh Địa liên lạc: Công ty TNHH Athena Studio, 273 Nguyễn Trọng Tuyển, Phường 10, Quận Phú Nhuận, TP Hồ Chí Minh Email: tuananhlam91@gmail.com Lâm Tuấn Anh - 1570202 L QUÁ TRÌNH ĐÀO TẠO Thời gian Nơi đào tạo 2009-2013 Đại học Khoa học Vật Lý – Vật Lý Kĩ Cử Nhân Tự nhiên Thuật 2015-2018 Đại học Bách Khoa TPHCM Lâm Tuấn Anh - 1570202 Chuyên ngành Khoa Tính Học Trình độ đào tạo Máy Thạc Sĩ M QUÁ TRÌNH CƠNG TÁC Thời gian Đơn vị cơng tác Vị trí cơng tác 2013 HDE, Inc Shinjuku, Tokyo, Japan Thực tập sinh lập trình viên backend (Python webservice) 2016 Cơng ty TNHH Go Game Vietnam Lập trình viên (Unity) 2017 - 2018 Cơng ty TNHH Athena Studio, 273 Lập trình viên (Unity) Nguyễn Trọng Tuyển, Phú Nhuận Lâm Tuấn Anh - 1570202 N ... TÀI: RÚT TRÍCH LUẬT DỰ BÁO TỪ DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO MOTIF VÀ NGUYÊN LÝ MDL II NHIỆM VỤ VÀ NỘI DUNG • Tìm hiểu khung kiến thức rút trích luật dự báo từ liệu chuỗi thời gian dựa vào motif... khoa học dự báo thực Hầu hết cơng trình dự báo luồng liệu, coi chuỗi thời gian, cố gắng để dự báo tương lai dựa vào giá trị thời chuỗi thời gian Tuy nhiên, số vấn đề thực tế, giá trị thời đơn... việc dự báo xác Thay vào đó, hình dạng phần chuỗi thời gian định giá trị chuỗi Vì vậy, việc rút trích luật dựa hình dạng chuỗi thời gian để suy hình dạng xuất chuỗi hướng quan tâm nhiều thời gian