Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 96 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
96
Dung lượng
2,41 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN CÔNG THƢƠNG PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN SỬ DỤNG GIẢI THUẬT CÓ THỜI GIAN THỰC THI TÙY CHỌN Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, Tháng 11 năm 2009 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hƣớng dẫn khoa học: PGS TS Dƣơng Tuấn Anh Cán chấm nhận xét 1: PGS TS Đỗ Phúc Cán chấm nhận xét 2: TS Võ Thị Ngọc Châu Luận văn thạc sĩ đƣợc bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƢỜNG ĐẠI HỌC BÁCH KHOA, ngày 03 tháng 03 năm 2010 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày … tháng … năm 2009 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Công Thƣơng Giới tính: Nam / Nữ Ngày, tháng, năm sinh: 17/02/1983 Nơi sinh: Hà Tĩnh Chuyên ngành: Khoa học Máy tính Khố: 2007 1- TÊN ĐỀ TÀI: PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN SỬ DỤNG GIẢI THUẬT CÓ THỜI GIAN THỰC THI TÙY CHỌN 2- NHIỆM VỤ LUẬN VĂN: 3- NGÀY GIAO NHIỆM VỤ: 05/09/2008 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2009 5- HỌ VÀ TÊN CÁN BỘ HƢỚNG DẪN: PGS TS Dƣơng Tuấn Anh Nội dung đề cƣơng Luận văn thạc sĩ đƣợc Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) PGS TS Dƣơng Tuấn Anh Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Ngày 28 tháng 11 năm 2009 Nguyễn Công Thƣơng Nguyễn Công Thƣơng i Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến PGS TS Dƣơng Tuấn Anh, ngƣời Thầy tận tình hƣớng dẫn tơi thực hồn thành luận văn Tơi xin gửi lời cảm ơn Quý Thầy Cô Khoa Khoa học Kỹ thuật Máy tính, Trƣờng Đại học Bách Khoa TP HCM tận tình giảng dạy tơi trình học đại học nhƣ cao học Cuối hết, cảm ơn gia đình động viên tạo điều kiện tốt để tiếp tục đƣờng học tập nghiên cứu Con trân trọng dành tặng thành luận văn cho Cha Mẹ gia đình Nguyễn Công Thƣơng Nguyễn Công Thƣơng ii Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn TĨM TẮT LUẬN VĂN Bài tốn phân lớp liệu chuỗi thời gian có vai trị quan trọng lĩnh vực khai phá liệu Nó giúp cho việc phân tích liệu dự đốn tƣơng lai, đặc biệt lĩnh vực nhƣ tài hay y học Đề tài thực toán phân lớp liệu chuỗi thời gian sử dụng giải thuật phân lớp có thời gian thực thi tùy chọn Giải thuật gồm có hai giai đoạn: Giai đoạn Huấn luyện Giai đoạn Phân lớp Trong giai đoạn Huấn luyện, luận văn đề xuất chiến lƣợc xếp Luân phiên (Round Robin) Chiến lƣợc Luân phiên xếp tập huấn luyện cho chuỗi thuộc lớp khác xuất luân phiên với Trong giai đoạn Phân lớp, giải thuật tìm kiếm tập huấn luyện chuỗi gần với chuỗi mục tiêu Thứ tự tìm kiếm thứ tự đƣợc xếp giai đoạn huấn luyện Giải thuật dừng lúc Kết phân lớp nhãn lớp chuỗi gần với chuỗi mục tiêu đến thời điểm dừng giải thuật Độ tƣơng tự chuỗi thời gian đƣợc sử dụng Khoảng cách xoắn thời gian động Để cải thiện thời gian thực thi giải thuật, đề tài sử dụng kỹ thuật tính chặn dƣới vào hai giai đoạn huấn luyện phân lớp Các kỹ thuật tính chặn dƣới đƣợc sử dụng gồm có LB_Keogh, FTW LB_Improved Qua thực nghiệm cho thấy, LB_Keogh LB_Improved phù hợp cho kích thƣớc cửa sổ xoắn nhỏ, FTW tốt trƣờng hợp cửa sổ xoắn lớn Nguyễn Công Thƣơng iii Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU x CHƢƠNG 1: GIỚI THIỆU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian 1.2 Bài toán phân lớp liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lƣợc kết đạt đƣợc 1.5 Cấu trúc luận văn CHƢƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Độ đo khoảng cách miền liệu chuỗi thời gian 2.1.1 Độ đo khoảng cách Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Bài toán phân lớp liệu 13 2.3 Kỹ thuật phân lớp k láng giềng gần 14 CHƢƠNG 3: CÁC CƠNG TRÌNH CĨ LIÊN QUAN 16 3.1 Các phƣơng pháp thu giảm số chiều 16 3.1.1 Phƣơng pháp khơng thích nghi liệu 16 3.1.2 Phƣơng pháp thích nghi liệu 19 3.2 Ràng buộc đƣờng xoắn cho khoảng cách DTW 21 Nguyễn Công Thƣơng iv Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 3.2.1 Ràng buộc dải Sakoe-Chiba 21 3.2.2 Ràng buộc hình bình hành Itakura 21 3.2.3 Dải Ratanamahatana-Keogh (dải R-K) 22 3.3 Các kỹ thuật tính chặn dƣới cho khoảng cách DTW 25 3.3.1 Ý nghĩa chặn dƣới 25 3.3.2 Phƣơng pháp tính chặn dƣới LB_Keogh 26 3.3.3 Kỹ thuật chặn dƣới FTW 28 3.3.4 Kỹ thuật chặn dƣới LB_Improved 31 3.3.5 Đánh giá 34 3.4 Một số giải thuật phân lớp cho liệu chuỗi thời gian 34 3.4.1 Các giải thuật phân lớp có sử dụng mục 34 3.4.2 Các giải thuật học “hăm hở” 35 3.5 Giải thuật phân lớp có thời gian thực thi tùy chọn 35 3.5.1 Giải thuật phân lớp 36 3.5.2 Sắp xếp tập huấn luyện 37 3.6 Kết luận 40 CHƢƠNG 4: HỆ THỐNG PHÂN LỚP CÓ THỜI GIAN THỰC THI TÙY CHỌN 42 4.1 Đặt vấn đề 42 4.2 Hƣớng giải vấn đề 42 4.3 Giai đoạn huấn luyện 45 4.3.1 Giải thuật NN_LBKeogh 45 4.3.2 Giải thuật NN_FTW 47 4.3.3 Giải thuật NN_LBImproved 48 4.3.4 Giải thuật huấn luyện 50 Nguyễn Công Thƣơng v Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 4.4 Giai đoạn Phân lớp 51 CHƢƠNG 5: THỰC NGHIỆM 54 5.1 Tập liệu 54 5.2 Thực nghiệm giai đoạn huấn luyện 55 5.2.1 Tập liệu TwoPat 55 5.2.2 Tập liệu Clustered 60 5.2.3 Nhận xét 63 5.3 Thực nghiệm giai đoạn phân lớp 64 5.3.1 Tập liệu TwoPat 64 5.3.2 Tập liệu Clustered 68 5.3.3 Độ xác giải thuật phân lớp 70 5.3.4 Nhận xét 72 CHƢƠNG 6: KẾT LUẬN 73 6.1 Tổng kết 73 6.2 Những đóng góp đề tài 74 6.3 Hƣớng phát triển 74 DANH MỤC TÀI LIỆU THAM KHẢO 76 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT 81 Nguyễn Công Thƣơng vi Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn DANH MỤC HÌNH ẢNH Hình 1.1: Đƣờng biểu diễn liệu chuỗi thời gian Hình 1.2: Bài tốn phân lớp liệu chuỗi thời gian Hình 2.1: Hình ảnh trực giác khoảng cách Euclid Hình 2.2: Hai mẫu liệu có hình dạng giống nhƣng lệch thời gian Hình 2.3: Cách tính khoảng cách xoắn thời gian động: A) Cho hai chuỗi mục tiêu Q C, B) Ma trận tính DTW, C) Kết tính DTW Hình 2.4: Đồ thị biểu diễn hai chuỗi thời gian 11 Hình 2.5: Ma trận tính DTW cho hai chuỗi thời gian 11 Hình 2.6: Giải thuật phân lớp k-Nearest-Neighbor 15 Hình 3.1: Cách biến đổi chuỗi liệu ban đầu theo phƣơng pháp DFT, DWT PAA 17 Hình 3.2: Cách biến đổi chuỗi ban đầu theo phƣơng pháp SVD, PACA PLA 19 Hình 3.3: Hai loại ràng buộc đƣờng xoắn: a) Dải Sakoe-Chiba b) Hình bình hành Itakura 22 Hình 3.4: Hình dạng loại ràng buộc cửa sổ xoắn: A) Dải R-K, B) Dải SakoeChiba, C) Hình bình hành Itakura 22 Hình 3.5: Minh họa giải thuật tìm kiếm tiến sử dụng độ xác 23 Hình 3.6: Giải thuật tìm kiếm sử dụng chặn dƣới 25 Hình 3.7: Đƣờng bao ứng với hai loại ràng buộc: A) Dải Sakoe-Chiba B) Hình bình hành Itakura 27 Hình 3.8: Hình ảnh trực quan chặn dƣới LB_Keogh 28 Hình 3.9: Q trình xấp xỉ hóa phân đoạn 29 Hình 3.10: Q trình tính chặn dƣới FTW 30 Hình 3.11: Hình ảnh trực quan chặn dƣới LB_Improved 32 Nguyễn Công Thƣơng vii Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn Thời gian thực thi giai đoạn phân lớp tập liệu Clustered đƣợc trình bày Bảng 5-12 Thời gian thực thi đƣợc tính giây Tỷ lệ thời gian thực thi giải thuật có sử dụng chặn dƣới so với giải thuật khơng sử dụng chặn dƣới đƣợc trình bày Bảng 5-13 TestSize LBKeogh FTW LBImproved 75.94% 48.19% 79.47% 40 17.98% 38.04% 15.62% 80 10.48% 28.88% 9.71% 160 7.17% 27.56% 6.47% 240 6.32% 24.87% 4.43% 320 5.08% 22.49% 3.69% 400 4.49% 20.26% 3.26% Bảng 5-13: Tỷ lệ thời gian thực thi giai đoạn phân lớp giải thuật có sử dụng chặn dƣới so với giải thuật không sử dụng chặn dƣới Tỷ lệ thời gian đƣợc trình bày biểu đồ Hình 5.9 90.00% 80.00% 70.00% 60.00% 50.00% LBKeogh 40.00% FTW 30.00% LBImproved 20.00% 10.00% 0.00% 40 80 160 240 320 400 Hình 5.9: Biểu đồ tỷ lệ thời gian thực thi giai đoạn huấn luyện giải thuật có sử dụng chặn dƣới so với giải thuật không sử dụng chặn dƣới Tỷ lệ thu giảm số lƣợng khoảng cách DTW giai đoạn phân lớp giải thuật đƣợc trình bày Bảng 5-14 Nguyễn Công Thƣơng 69 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn TestSize LBKeogh FTW LBImproved 55.80% 70.90% 53.75% 40 14.04% 34.20% 10.18% 80 9.09% 28.28% 5.81% 160 5.79% 23.94% 3.32% 240 4.48% 21.58% 2.39% 320 3.72% 19.89% 1.88% 400 3.25% 18.66% 1.55% Bảng 5-14: Tỷ lệ thu giảm số lƣợng khoảng cách DTW giai đoạn phân lớp tập liệu Clustered ứng với kích thƣớc cửa sổ xoắn 10% Tỷ lệ thu giảm số lƣợng khoảng cách DTW đƣợc trình bày Hình 5.10 80.00% 70.00% 60.00% 50.00% LBKeogh 40.00% FTW 30.00% LBImproved 20.00% 10.00% 0.00% 40 80 160 240 320 400 Hình 5.10: Biểu đồ tỷ lệ thu giảm số lƣợng khoảng cách DTW giai đoạn phân lớp tập liệu Clustered 5.3.3 Độ xác giải thuật phân lớp Độ xác giải thuật phân lớp tập liệu TwoPat đƣợc trình bày Hình 5.11 Biểu đồ cho thấy bƣớc đầu giai đoạn phân lớp Giải thuật sử dụng chiến lƣợc xếp Luân phiên cho độ xác cao giải thuật sử dụng chiến lƣợc SimpleRank Nguyễn Công Thƣơng 70 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 100.00% 90.00% 80.00% 70.00% 60.00% RoundRobin SimpleRank 50.00% 40.00% 30.00% 20.00% 20 40 60 80 100 120 140 160 180 200 Hình 5.11: Độ xác giải thuật phân lớp tập liệu TwoPat Độ xác giải thuật phân lớp tập liệu Clustered đƣợc trình bày Hình 5.12 Với tập liệu này, độ xác không biến thiên nhiều Tuy nhiên, bƣớc đầu giai đoạn phân lớp giải thuật sử dụng chiến lƣợc Luân phiên cho kết độ xác cao giải thuật sử dụng chiến lƣợc SimpleRank 100.00% 95.00% 90.00% 85.00% 80.00% 75.00% RoundRobin 70.00% SimpleRank 65.00% 60.00% 55.00% 50.00% 20 40 60 80 100 120 140 160 180 200 Hình 5.12: Độ xác giải thuật phân lớp tập liệu Clustered Nguyễn Công Thƣơng 71 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 5.3.4 Nhận xét Kết thực nghiêm giai đoạn phân lớp nhƣ dẫn đến số kết luận: - Với số lƣợng nhỏ chuỗi tập huấn luyện đƣợc kiểm tra độ xác tƣơng đối cao Số lƣợng chuỗi tập huấn luyện dùng để kiểm tra lớn độ xác cao - Với kích thƣớc cửa sổ xoắn 10% LB_Improved tốt LB_Keogh FTW Khi TestSize tăng thời gian xử lý LB_Improved tăng khơng đáng kể Vì LB_Improved thu giảm việc tính DTW đƣợc cho hầu hết chuỗi thêm - Chiến lƣợc xếp Luân phiên cho kết độ xác phân lớp cao chiến lƣợc xếp SimpleRank bƣớc đầu giai đoạn phân lớp Điều có ý nghĩa giải thuật có thời gian thực thi tùy chọn Vì ngƣời dùng ln mong muốn đạt độ xác cao với thời gian thực thi ngắn Nguyễn Công Thƣơng 72 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn CHƢƠNG 6: KẾT LUẬN Chƣơng tổng kết lại kết đạt đƣợc đề tài, đóng góp đề tài hƣớng phát triển 6.1 Tổng kết Đề tài trình bày giải thuật phân lớp có thời gian thực thi tùy chọn cho liệu chuỗi thời gian Đề tài giải đƣợc hai vấn đề xây dựng dựng đƣợc giải thuật phân lớp có thời gian thực thi tùy chọn sử dụng khoảng cách DTW việc tính khoảng cách chuỗi Việc tính DTW có áp dụng chặn dƣới để rút ngắn thời gian xử lý Thứ nhất, đề tài trình bày giải thuật phân lớp có thời gian thực thi tùy chọn Giải thuật có hai giai đoạn: Giai đoạn huấn luyện Giai đoạn phân lớp Trong giai đoạn huấn luyện, giải thuật thực việc xếp tập huấn luyện dựa chiến lƣợc xếp Luân phiên (Round Robin) Ý tƣởng chiến lƣợc xếp Luân phiên xếp tập huấn luyện cho chuỗi thuộc lớp khác xuất luân phiên với Giai đoạn phân lớp thực việc so sánh khoảng cách chuỗi mục tiêu chuỗi tập huấn luyện Thứ tự so sánh thứ tự đƣợc xếp Giai đoạn huấn luyện Trong giai đoạn phân lớp, ngƣời dùng yêu cầu giải thuật dừng lúc kết phân lớp kết tốt đến thời điểm Thứ hai, đề tài trình bày hai độ đo khoảng cách thông dụng lĩnh vực liệu chuỗi thời gian khoảng cách Euclid khoảng cách DTW Dựa đặc điểm hai độ đo khoảng cách phân tích đánh giá cơng trình nghiên cứu gần đây, đề tài sử dụng độ đo khoảng cách DTW Việc tính khoảng cách DTW có chi phí lớn, nên đề đề tài sử dụng ba kỹ thuật tính chặn dƣới cho DTW nhằm rút ngắn thời gian xử lý Các kỹ thuật tính chặn dƣới đƣợc sử dụng đề tài gồm có: LB_Keogh, FTW LB_Improved Qua đó, đề tài thực nghiệm đánh giá ƣu điểm nhƣ nhƣợc điểm ba kỹ thuật chặn dƣới Nguyễn Công Thƣơng 73 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 6.2 Những đóng góp đề tài - Hiện thực chi tiết hóa giải thuật phân lớp có thời gian thực thi tùy chọn cho liệu chuỗi thời gian Giải thuật có ƣu điểm thời gian thực thi giải thuật ngƣời dùng định Nếu thời gian thực thi lâu, độ xác việc phân lớp cao - Cải tiến chiến lƣợc xếp cách đề xuất chiến lƣợc xếp Luân phiên Chiến lƣợc cho kết độ xác phân lớp tốt chiến lƣợc SimpleRank bƣớc đầu giai đoạn phân lớp - Cải tiến giải thuật phân lớp có thời gian thực thi tùy chọn cách áp dụng ba kỹ thuật tính chặn dƣới cho khoảng cách DTW để rút ngắn thời gian xử lý Các kỹ thuật tính chặn dƣới đƣợc áp dụng vào hai giai đoạn huấn luyện phân lớp - Thực nghiệm để so sánh, đánh giá ƣu điểm nhƣợc điểm áp dụng ba kỹ thuật tính chặn dƣới cho DTW vào giải thuật phân lớp có thời gian thực thi tùy chọn Dựa kết thực nghiệm, đề tài kết luận chặn dƣới FTW phù hợp cho trƣờng hợp kích thƣớc cửa sổ xoắn lớn, LB_Keogh LB_Improved phù hợp với trƣờng hợp kích thƣớc cửa sổ xoắn nhỏ Trong trƣờng hợp cửa sổ xoắn nhỏ, chặn dƣới LB_Improved cho kết thời gian thực thi tốt cho giai đoạn huấn luyện giai đoạn phân lớp - Qua thực nghiệm, đề tài đến kết luận, LB_Improved cho giá trị chặn dƣới tỷ lệ thu giảm khoảng cách DTW tốt LB_Keogh, nhƣng mức độ cải thiện thời gian chạy khơng nhiều chi phí để tính LB_Improved lớn 6.3 Hƣớng phát triển Đề tài giải đƣợc toán phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn Tuy nhiên, số vấn đề khác cần nghiên cứu thêm để hoàn thiện - Đề tài giới hạn lại tập liệu chuỗi thời gian đƣợc xử lý phải có chiều dài Do đó, cần phải nghiên cứu xem việc phân lớp tập Nguyễn Công Thƣơng 74 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn liệu chuỗi thời gian có chiều dài khơng có cần thiết hay khơng cần thiết cách giải nhƣ - Các tập liệu chuỗi thời gian đƣợc sử dụng để thực nghiệm đề tài có kích thƣớc nhỏ chiều dài chuỗi liệu không lớn Nên cần phải thực nghiệm tập liệu chuỗi thời gian lớn chiều dài chuỗi lớn để đƣa kết luận kỹ thuật tính chặn dƣới phù hợp cho tập liệu chuỗi thời gian - Đề tài thực nghiệm hai tập liệu mẫu, tập liệu TwoPat tập liệu nhân tạo Vì vậy, cần phải thực nghiệm nhiều loại liệu mẫu nữa, đặc biệt tập liệu thu đƣợc từ thực tế Các lĩnh vực cần thực nghiệm thêm liệu tài chính, y học, thời tiết nhận dạng hình ảnh - Phát triển ứng dụng thực tế cho toán Nguyễn Công Thƣơng 75 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn DANH MỤC TÀI LIỆU THAM KHẢO [1] Agrawal, R., Faloutsos, C., & Swami, A N (1993) Efficient similarity search in sequence databases In Proceedings of the 4th Conference on Foundations of Data Organization and Algorithms (FODO) , 69-84 [2] Agrawal, R., Lin, K., Sawhney, H., & Shim, K (1995) Fast similarity search in the presence of noise scaling, and translation in times-series databases In Proceedings of the 21th International Conference on Very Large Data Bases (VLDB’95), (pp 490-501) [3] Berndt, D., & Clifford, J (1994) Using dynamic time warping to find patterns in time series AAAI-94 Workshop on Knowledge Discovery in Databases (KDD-94) Seattle, Washington [4] Chan, K., & Fu, W (1999) Efficient time series matching by wavelets Proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), (pp 126-133) [5] Chen, L., & Kamel, M S (2005) Design of Multiple Classifier Systems for Time Series Data In Multiple Classifier Systems (pp 216-225) Springer Berlin / Heidelberg [6] Chu, S., Keogh, E., Hart, D., & Pazzani, M (2002) Iterative Deepening Dynamic Time Warping Second SIAM International Conference on Data Mining [7] Fu, A W.-c., Keogh, E., Lau, L Y., & Ratanamahatana, C A (2005) Scaling and Time Warping in Time Series Querying VLDB 2005 [8] Gandhi, A (2002) Content-Based Image Retrieval: Plant Species Identification Master thesis, Oregon State University [9] Gavrilov, M., Anguelov, D., Indyk, P., & Motwani, R (2000) Mining the stock market: which measure is best? Proceedings of the 6th ACM Nguyễn Công Thƣơng 76 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn Interantional Conference on Knowledge Discovery and Data Mining (KDD 2000), (pp 487-496) [10] Geurts, P (2002) Contributions to Decision Tree Induction: Bias/Variance Tradeoff and Time Series Classification Ph.D Thesis, Department of Electrical Engineering and Computer Science, University of Leige, Belgium [11] Grass, J., & Zilberstein, S (1996) Anytime algorithm development tools ACM SIGART Artificial Intelligence (pp 20-27) New York, NY, USA: ACM Press [12] Guttman, A (1984) R-trees: A Dynamic Index Structure for Spatial Searching In Proceedings of ACM SIGMOD International Conference on Management of Data, (pp 47-57) Boston, MA [13] Han, J., & Kamber, M (2006) Data Mining Concepts and Techniques (2 ed.) Morgan Kaufmann Publishers [14] Hansen, E A., & Zilberstein, S (1996) Monitoring anytime algorithms ACM SIGART Artificial Intelligence (pp 28-33) New York, NY, USA: ACM Press [15] Itakura, F (1975) Minimum prediction residual principle applied to speech recognition IEEE Transactions on Acoustics, Speech, and Signal Processing 23, (pp 67-72) [16] Keogh, E (1997) A Fast and Robust Method for Pattern Matching in Time Series Databases In Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI '97), (pp 578-584) [17] Keogh, E (2002) Exact indexing of dynamic time warping In 28th International Conference on Very Large Data Bases, (pp 406-417) Hong Kong [18] Keogh, E (2009) LB_Keogh homepage Retrieved 2009, from http://www.cs.ucr.edu/~eamonn/LB_Keogh.htm Nguyễn Công Thƣơng 77 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn [19] Keogh, E (2009) UCR Time Series Classification/Clustering Page Retrieved 2009, from http://www.cs.ucr.edu/~eamonn/time_series_data/ [20] Keogh, E., & Pazzani, M J (2000) Scaling up Dynamic Time Warping for Datamining In proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, (pp 285-289) Boston, MA, USA [21] Keogh, E., Chakrabarti, K., Pazzani, M., & Mehrot, S (2000) Dimensionality reduction for fast similarity search in large time series databases Journal of Knowledge and Information Systems, Vol 3, (pp 263286) [22] Keogh, E., Chakrabarti, K., Pazzani, M., & Mehrot, S (2001) Locally adaptive dimensionality reduction for indexing large time series databases Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, (pp 151-162) [23] Keogh, E., Wei, L., Xi, X., Lee, S.-H., & Vlachos, M (2006) LB_Keogh Supports Exact Indexing of Shapes under Rotation Invariance with Arbitrary Representations and Distance Measures In Proceedings of VLDB 2006 [24] Korn, F., Jagadish, H., & Faloutsos, C (1997) Efficiently supporting ad hoc queries in large datasets of time sequences Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (CIKM 1997), (pp 289-300) [25] Lemire, D (2008) Fast nearest-neighbor retrieval under the dynamic time warping Retrieved 2009, from http://code.google.com/p/lbimproved/ [26] Lemire, D (2009) Faster Retrieval with a Two-Pass Dynamic-TimeWarping Lower Bound Pattern Recognition 42 (9) , 2169-2180 [27] Pekalska, E., Duin, R., & Paclik, P (2006) Prototype selection for dissimilarity-based classifiers Pattern Recognition, Vol 39, pp 189-208 Nguyễn Công Thƣơng 78 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn [28] Popivanov, I., & Miller, R (2002) Similarity search over time series data using wavelets Proceedings of the 18th International Conference on Data Engineering (ICDE 2002), (pp 212-221) [29] Rafiei, D., & Mendelzon, A (1998) Efficient retrieval of similar time sequences using DFT In Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms (FODO 1998), (pp 249-257) [30] Ratanamahatana, C A., & Keogh, E (2004) Making Time-series Classification More Accurate Using Learned Constraints In Proceedings of SIAM International Conference on Data Mining (SDM '04), (pp 11-22) Lake Buena Vista, Florida [31] Ratanamahatana, C A., & Keogh, E (2005) Three Myths about Dynamic Time Warping In Proceedings of SIAM International Conference on Data Mining (SDM '05), (pp 506-510) Newport Beach, CA [32] Rodriguez, J., & Alonso, C (2004) Interval and dynamic time warpingbased decision trees In Proceedings of the 2004 ACM symposium on Applied computing, (pp 548-552) [33] Sakoe, H., & Chiba, S (1978) Dynamic programming algorithm optimization for spoken word recognition IEEE Trans Acoustics, Speech, and Signal Proc., Vol ASSP-26, pp 43-49 [34] Sakurai, Y., Yoshikawa, M., & Faloutsos, C (2005) FTW: Fast Similarity Search under the Time Warping In Proceedings of PODS '05, (pp 326337) [35] Shou, Y., Mamoulis, N., & Cheung, D W (2005) Fast and Exact Warping of Time Series Using Adaptive Segmental Approximations Machine Learning 58 , 231-267 [36] Ueno, K., Xi, X., Keogh, E., & Lee, D.-J (2006) Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining In Proceedings of ICDM 2006 Nguyễn Công Thƣơng 79 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn [37] Wei, L., & Keogh, E (2006) Semi-Supervised Time Series Classification In Proceedings of SIGKDD 2006 [38] Wilson, D R., & Martinez, T R (1997) Instance Pruning Techniques In Proceedings of ICML '97 (pp 403-411) Morgan Kaufmann [39] Wilson, D R., & Martinez, T R (2000) Reduction Techniques for Instance-Based Learning Algorithms In Machine Learning (Vol 38, pp 257-286) Kluwer Academic Publishers [40] Wu, Y., & Chang, E (2004) Distance-function design and fusion for sequence data In Proceedings of 2004 ACM International Conference on Information and Knowledge Management, (pp 324-333) [41] Xi, X., Keogh, E., Shelton, C., & Ratanamahatana, C A (2006) Fast Time Series Classification Using Numerosity Reduction In Proceedings of the 23nd International Conference on Machine Learning Pittsburgh, PA [42] Xiao, H., Feng, X.-F., & Hu, Y.-F (2004) A new segmented time warping distance for data mining in time series database In Machine Learning and Cybernetics 2004 (pp 1277-1281) [43] Zhu, Y., & Shasha, D (2003) Warping Indexes with Envelope Transforms for Query by Humming SIGMOD '03: Proceedings of the 2003 ACM SIGMOD international conference on Management of data, (pp 181-192) New York, NY Nguyễn Công Thƣơng 80 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt Accuracy Độ xác Best so far distance Khoảng cách tốt Classification Phân lớp Classifier Bộ phân lớp Cumulative distance Khoảng cách tích lũy Data Mining Khai phá liệu Dimensional reduction Thu giảm số chiều Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Discrete Wavelet Transform Biến đổi Wavelete rời rạc DWT Dynamic Programming Quy hoạch động Dynamic Time Warping Xoắn thời gian động Envelope Đƣờng bao Euclidean Distance Khoảng cách Euclid Execution Time Thời gian thực thi False dismissal Lỗi so trùng sót Index Chỉ mục Instance-based learning Phƣơng pháp học dựa ví dụ Itakura Parallelogram Hình bình hành Itakura Keogh’s Lower Bounding Chặn dƣới Keogh LB_Keogh k-Nearest-Neighbor k-Láng giềng gần k-NN Lazy learning Phƣơng pháp học lƣời Learning step Bƣớc học Lemire’s Lower Bound Chặn dƣới Lemire LB_Improved Chặn dƣới tính phân đoạn LBS Giá trị chặn dƣới LB Lower Bound distance with Segmentation Lower Bounding Nguyễn Công Thƣơng Viết tắt DTW 81 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn Mahattan Distance Khoảng cách Mahattan Minkowski Distance Khoảng cách Minkowski Numerosity reduction Thu giảm số lƣợng thể Piecewise Aggregate Approximation Prunning power Xấp xỉ gộp đoạn Khả thu giảm số khoảng cách DTW Round Robin Ordering Chiến lƣợc xếp luân phiên Sakoe-Chiba Band Dải Sakoe-Chiba Singular Value Decomposition Phân rã trị kỳ dị Spatial Access Method Phƣơng pháp truy xuất khơng gian Supervised Learning Học có giám sát Test set Tập kiểm tra TestSize PAA Số lƣợng chuỗi tập huấn luyện đƣợc kiểm tra SVD SAM TestSize Tighness of lower bound Độ chặt giá trị chặn dƣới Training phase Giai đoạn huấn luyện Two pass lower bound Chặn dƣới hai chặng Unsupervised Learning Học khơng có giám sát Warping path Đƣờng xoắn W Warping window Cửa sổ xoắn R Nguyễn Công Thƣơng 82 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Công Thƣơng Ngày sinh: 17/02/1983 Nơi sinh: Hà Tĩnh Địa liên lạc: Khoa Công nghệ Thông tin, Đại học Sƣ phạm Kỹ thuật Tp HCM, Số Võ Văn Ngân, Q Thủ Đức, Tp HCM Email: thuongnc@fit.hcmute.edu.vn QUÁ TRÌNH ĐÀO TẠO: Thời gian Trƣờng Đào tạo Chuyên ngành Trình độ đào tạo 2001 – 2006 Đại học Bách Khoa, Đại học Khoa học Máy tính Kỹ sƣ Quốc gia Tp HCM 2007 – 2010 Đại học Bách Khoa, Đại học Khoa học Máy tính Thạc sĩ Quốc gia Tp HCM Q TRÌNH CƠNG TÁC: Thời gian Đơn vị cơng tác Vị trí cơng tác 3/2006 – Trung tâm Công nghệ phần mềm Đà Nẵng Chuyên viên 11/2006 12/2006 – Khoa Công nghệ Thông tin, Đại học Sƣ phạm Kỹ Giảng viên thuật Tp HCM Nguyễn Công Thƣơng 83 ... Thƣơng Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn giải Đề tài tập trung vào cải thi? ??n thời gian thực thi giải thuật phân lớp có thời gian thực thi tùy chọn. .. end Hình 3.13: Giải thuật phân lớp có thời gian thực thi tùy chọn (nguồn: [36]) Nguyễn Công Thƣơng 36 Phân lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn Gọi Index... lớp liệu chuỗi thời gian sử dụng giải thuật có thời gian thực thi tùy chọn 1.2 Bài toán phân lớp liệu chuỗi thời gian Tập hợp liệu chuỗi thời gian liên quan đến lĩnh vực tốn ứng dụng thƣờng có