Định nghĩa: Dữliệu thời gian thực hay chuỗi tuần tự theo thời gian (time series) là một chuỗi các giá trị của một đại lượng nào đĩ được ghi nhận là tuần tựtheo thời gian.
Ví dụ: Số lượng hàng hĩa được bán ra trong 12 tháng năm 2008 của một cơng ty. Các giá trị của chuỗi tuần tựtheo thời gian của đại lượng X được kí hiệu là X1, X2, …, Xt, …, Xn. với Xtlà giá trịcủa X tại thời điểm t.
Dữliệu chúng ta sửdụng là dữliệu thời gian thực (time series) . Đặc điểm chính để phân biệt giữa dữ liệu cĩ phải là thời gian thực hay khơng đĩ chính là sự tồn tại của cột thời gian được đính kèm trong đối tượng quan sát. Nĩi cách khác, dữliệu thời gian thực là một chuỗi các giá trị quan sát của biến Y:
= { , , , … , , , , … , } vớ là giá trị của biến Y tại thời điểm t Mục đích chính của việc phân tích chuỗi thời gian thực là thu được một mơ hình dựa trên các giá trị trong quá khứ của biến quan sát , , , … , , cho phép ta cĩ thể dự đốn được giá trị của biến Y trong tương lai, tức là cĩ thể dự đốn được các giá trị
, … , .
Dữ liệu chứng khốn mà Jstock thu thập được là dữ liệu theo chuỗi thời gian và cĩ nhiều thuộc tính cùng được ghi tại một thời điểm nào đĩ. Trong đĩ các thuộc tính chính bao gồm: Open, Last, High, Low, Volume
Open: Giá cổphiếu tại thời điểm mởcửa trong ngày High: Giá cổphiếu cao nhất tính đến thời điểm hiện tại Low: Giá cổphiếu thấp nhất tính đến thời điểm hiện tại Last: Giá cổphiếu được niêm yết tại thời điểm hiện tại
Volume: Khối lượng giao dịch cổphiếu (bán, mua) trong ngày.
Mục đích của bước này là chuyển dữ liệu chứng khốn cĩ dạng như trên thành dữ liệu dưới dạng bảng mà đã trình bày ở chương 4 đểgĩi phần mềm weka cĩ thểhiểu được