Định nghĩa: Dữliệu thời gian thực hay chuỗi tuần tự theo thời gian (time series) là một chuỗi các giá trị của một đại lượng nào đó được ghi nhận là tuần tựtheo thời gian.
Ví dụ: Số lượng hàng hóa được bán ra trong 12 tháng năm 2008 của một công ty. Các giá trị của chuỗi tuần tựtheo thời gian của đại lượng X được kí hiệu là X1, X2, …, Xt, …, Xn. với Xtlà giá trịcủa X tại thời điểm t.
Dữliệu chúng ta sửdụng là dữliệu thời gian thực (time series) . Đặc điểm chính để phân biệt giữa dữ liệu có phải là thời gian thực hay không đó chính là sự tồn tại của cột thời gian được đính kèm trong đối tượng quan sát. Nói cách khác, dữliệu thời gian thực là một chuỗi các giá trị quan sát của biến Y:
= { , , , … , , , , … , } vớ là giá trị của biến Y tại thời điểm t Mục đích chính của việc phân tích chuỗi thời gian thực là thu được một mô hình dựa trên các giá trị trong quá khứ của biến quan sát , , , … , , cho phép ta có thể dự đoán được giá trị của biến Y trong tương lai, tức là có thể dự đoán được các giá trị
, … , .
Dữ liệu chứng khoán mà Jstock thu thập được là dữ liệu theo chuỗi thời gian và có nhiều thuộc tính cùng được ghi tại một thời điểm nào đó. Trong đó các thuộc tính chính bao gồm: Open, Last, High, Low, Volume
Open: Giá cổphiếu tại thời điểm mởcửa trong ngày High: Giá cổphiếu cao nhất tính đến thời điểm hiện tại Low: Giá cổphiếu thấp nhất tính đến thời điểm hiện tại Last: Giá cổphiếu được niêm yết tại thời điểm hiện tại
Volume: Khối lượng giao dịch cổphiếu (bán, mua) trong ngày.
Mục đích của bước này là chuyển dữ liệu chứng khoán có dạng như trên thành dữ liệu dưới dạng bảng mà đã trình bày ở chương 4 đểgói phần mềm weka có thểhiểu được