Trong hầu hết khai phá dữ liệu chuỗi thời gian, cần yêu cầu nhiều hình thức khác nhau cho việc biểu diễn dữ liệu hoặc xử lý dữ liệu vì những đặc tính độc đáo của chuỗi thời gian, ví dụ như nhiều chiều (số lượng điểm dữ liệu), sự xuất hiện của nhiễu ngẫu nhiên và mối quan hệ phi tuyến tính của các phần tử dữ liệu. Do đó, bất kỳ phương pháp biểu diễn dữ liệu nào cũng đều nhằm mục đích giảm đáng kể dữ liệu đến một kích thước có thể quản lý, đồng thời vẫn giữ được các đặc tính quan trọng của dữ liệu ban đầu và sức mạnh với nhiễu ngẫu nhiên. Hơn nữa, việc lựa chọn phương pháp biểu diễn dữ liệu phù hợp có thể dẫn đến khai phá dữ liệu có ý nghĩa. Nhiều phương pháp biểu diễn cấp cao của dữ liệu theo chuỗi thời gian được dựa trên phương pháp tiếp cận miền thời gian. Các phương pháp này xử lý trực tiếp dữ liệu ban đầu trong miền thời gian và hiểu được bản chất của dữ liệu theo thời gian. Phương pháp này dựa trên một số ý tưởng chính của phương pháp xấp xỉ từng đoạn, biểu diễn dữ liệu bằng cách xác định các điểm quan trọng, và biểu diễn ký hiệu hóa đã được sử dụng rộng rãi trong các lĩnh vực khác nhau.
Biểu diễn liệu… Thống kê Quốc tế Hội nhập BIỂU DIỄN DỮ LIỆU KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN: PHƯƠNG PHÁP TIẾP CẬN MIỀN THỜI GIAN Seunghye J Wilson, Phòng Thống kê, Đại học George Mason, Mỹ Tóm tắt: Trong hầu hết khai phá liệu chuỗi thời gian, cần yêu cầu nhiều hình thức khác cho việc biểu diễn liệu xử lý liệu đặc tính độc đáo chuỗi thời gian, ví dụ nhiều chiều (số lượng điểm liệu), xuất nhiễu ngẫu nhiên mối quan hệ phi tuyến tính phần tử liệu Do đó, phương pháp biểu diễn liệu nhằm mục đích giảm đáng kể liệu đến kích thước quản lý, đồng thời giữ đặc tính quan trọng liệu ban đầu sức mạnh với nhiễu ngẫu nhiên Hơn nữa, việc lựa chọn phương pháp biểu diễn liệu phù hợp dẫn đến khai phá liệu có ý nghĩa Nhiều phương pháp biểu diễn cấp cao liệu theo chuỗi thời gian dựa phương pháp tiếp cận miền thời gian Các phương pháp xử lý trực tiếp liệu ban đầu miền thời gian hiểu chất liệu theo thời gian Phương pháp dựa số ý tưởng phương pháp xấp xỉ đoạn, biểu diễn liệu cách xác định điểm quan trọng, biểu diễn ký hiệu hóa sử dụng rộng rãi lĩnh vực khác Từ khoá: Khai phá liệu chuỗi thời gian, xử lý liệu, giảm liệu, biểu diễn liệu cấp cao, phương pháp tiếp cận miền thời gian Giới thiệu Chuỗi thời gian dạng liệu quan trọng lĩnh vực khác ngành công nghiệp nghiên cứu Trong thập kỷ gần đây, việc khai phá liệu theo chuỗi thời gian quan tâm phát triển bùng nổ Tuy nhiên, thật khó để áp dụng kỹ thuật khai phá để lấy liệu trực tiếp đặc tính độc đáo chuỗi thời gian như: Khối lượng liệu lớn, có mặt nhiễu ngẫu nhiên, mối quan hệ phi tuyến tính phần tử liệu Kết là, việc biểu diễn liệu dạng đơn giản hóa, xử lý liệu bước thiết yếu việc khai phá liệu theo chuỗi thời gian Mục đích việc biểu diễn liệu giảm liệu đến kích SỐ 05 – 2017 thước quản lý xấp xỉ liệu cách loại bỏ nhiễu ngẫu nhiên Tuy nhiên, liệu bị giảm phải bảo tồn tính quan trọng toàn liệu ban đầu Phương pháp tiếp cận miền thời gian để biểu diễn liệu đặc biệt hữu ích để hiểu chất liệu theo thời gian Chúng tóm tắt liệu ban đầu cách ước lượng khoảng giá trị, xác định điểm tới hạn, chuyển đổi liệu số thành biến rời rạc Phương pháp xấp xỉ đoạn phương pháp tiếp cận miền thời gian phổ biến Các phương pháp biểu diễn liệu ban đầu dựa khoảng thời gian không chồng chéo Kết trình bày liệu theo phương pháp xấp xỉ đoạn dãy 35 Biểu diễn liệu… Thống kê Quốc tế Hội nhập đoạn thẳng liên tục hay rời rạc, giá trị biểu diễn tất khoảng với chiều dài giảm đáng kể Phương pháp tiếp cận phổ biến khác để biểu diễn liệu xác định điểm quan trọng để bảo vệ điểm tới hạn góp phần tiết lộ tính quan trọng, chẳng hạn hình dạng tổng thể xu hướng thay đổi điểm liệu ban đầu Gần đây, quan tâm đến việc khai phá liệu có khối lượng lớn, gọi “dữ liệu lớn” tiếp tục tăng lên, phương pháp biểu diễn liệu cách biến đổi chuỗi thời gian số sang biến ký hiệu rời rạc trở nên phổ biến Phương pháp biểu diễn ký hiệu hóa chuyển đổi ký hiệu cho phép không giảm liệu mà tính tốn hiệu sử dụng khơng gian nhớ để lưu trữ liệu yêu cầu dung lượng cho liệu chuỗi so với liệu số Trong viết này, xem xét ba phương pháp phổ biến để biểu diễn liệu miền thời gian thảo luận thuộc tính chúng Phương pháp tiếp cận chung cho xấp xỉ liệu Các mơ hình tổng thể xấp xỉ đoạn Trong phân tích liệu, mơ hình tổng thể thường sử dụng để xác định biểu diễn liệu đơn giản mơ hình q phức tạp để ước tính chức khơng xác định cho liệu quan sát Các mơ hình tổng thể hữu ích để hiểu quy trình tạo liệu Ví dụ, mơ hình hồi quy tuyến tính biến giải thích (độc lập) biến kết (phụ thuộc) dựa số giả định cho phương sai phần sai số số độc lập Hồi quy đa thức mơ hình mở rộng mơ hình hồi quy tuyến tính cho phép biến giải thích đa thức bậc n - mơ hình tuyến tính Mơ hình tự hồi quy trung bình trượt (ARMA), đặc biệt với liệu chuỗi thời gian, mơ tả q trình ngẫu nhiên dạng 36 đa thức tự hồi quy chuyển động trung bình Các mơ hình thường phụ thuộc vào giả định cụ thể đủ số lượng điểm liệu, trở nên khơng xác kích thước liệu tăng lên khơng với điều kiện giả định thực tế Khi kích thước tăng lên, phương pháp xấp xỉ đoạn, chẳng hạn với đa thức đoạn hàm spline, thường có hiệu Thật vậy, nhiều phương pháp biểu diễn chuỗi thời gian dựa phương pháp xấp xỉ đoạn liệu chuỗi thời gian thường đặc trưng kích thước lớn diện nhiễu ngẫu nhiên Theo phương pháp xấp xỉ đoạn, tất điểm liệu chia thành số phân đoạn không chồng chéo để xây dựng mơ hình cục μi(t) (bi - ≤ t