Một cách đơn giản để giải quyết bài toán dữ liệu chuỗi là coi bài toán như một bài toán hồi quy thông thường, với các trường đầu vào là dữ liệu của cùng một trường tại nhiều khoảng thời gian khác nhau. Ví dụ như muốn xét điểm trung bình năm của lớp 12, ta có thể dùng mô hình hồi quy với đầu vào là điểm trung bình, nhưng là ở các kì trong quá khứ. Rộng hơn nữa, hoàn toàn có thể lấy điều trung bình của từng môn, trong từng kì học, đề dự đoán cho điểm trung bình kỳ cuối. Phần dưới, em sẽ trình bày một số phương pháp hồi quy cơ bản, mỗi phương pháp đều có những ưu, nhược điểm khác nhau.
Thuật toán hồi quy tuyến tính
Thuật toán hồi quy tuyến tính là thuật toán hồi quy đơn giản, với ý tưởng coi đầu ra cần dự đoán có liên kết tuyến tính với những trường dữ liệu chúng ta đã có [4]. Trong trường hợp đơn giản nhất, mô hình hồi quy tuyến tính gồm xét ảnh hưởng của biến x lên biến y, với công thức như sau:
y=βxX+β0 (2.3)
Trong đó: βX là hệ số tuyến tính của Y theo X,β0 là hệ số tự do của mô hình. Với mô hình tuyến tính bội, biến Y cần dự đoán không chỉ phụ thuộc
vào một biến X, mà sẽ phụ thuộc vào n biến{x1,x2, ...,xn}, với công thức hồi quy được thể hiện như sau:
y=β1X1+β2X2+...+βnXn+β0 (2.4) Trong đó: βi là hệ số tuyến tính của Y theo biến xi, β0 là hệ số tự do của mô hình. Tuy là một thuật toán đơn giản những hồi quy tuyến tính được sử dụng vô cùng hiệu quả với những nhưng bộ dữ liệu tuyến tính, không có dữ liệu nhiễu, tách lớp [4].
Thuật toán SVR
Thuật toán SVR (Support vector regression) được lấy cảm hứng trực tiếp từ thuật toán SVM (Support vector machine), nếu như SVM dựa theo nhãn để vẽ các đường hỗ trợ và phân lớp, thì SVR sử dụng phương sai để xác định 2 đường hỗ trợ, đường phân lớp chính là đường hồi quy [48]. Công thức tổng quát của mô hình như sau:
y=WTX (2.5)
trong đóWT là vector hệ số hồi quy, được tính theo công thức tính các đường hỗ trợ, đường hỗ trợ được xác định theo phương saiε của tập dữ liệu [48].
Có thể thấy rằng, với mô hình như trên, các điểm nằm ngoài đường hỗ trợ (có độ lệch lớn hơn phương sai) sẽ bị bỏ qua trong quá trình học. Điều này có thể khiến SVR loại bỏ các phần tử ngoại lai, nhưng cũng có thể gây sai lệch nếu gặp một số bộ dữ liệu đặc biệt.
Đối với bài toán chất lượng nước, các tham số được sử dụng là C = 1 và epsilion = 0.2. Bộ tham số này đã được chọn lọc thông qua nhiều lần thử, nhằm giúp cho mô hình có được kết quả tốt nhất
Thuật toán cây hồi quy
Thuật toán cây hồi quy được kế thừa trực tiếp từ cây quyết định [45]. Cây quyết định mà một phương pháp phân lớp phổ biến, dựa vào các ngưỡng
(thường tính thông qua entropy) để xác định, dự đoán mục tiêu thuộc lớp nào Bằng cách thêm vào kỳ vọng và phương sai của từng lớp, bằng cách phân chia theo các trường dữ liệu. Cây hồi quy sẽ sẽ trả về kỳ vọng làm giá trị cho từng nhóm hồi quy, đặc biệt hiểu quả trong trường hợp hồi quy cho các dạng dữ liệu có dạng "phân lớp"
Trong luận văn này, các tham số Entropy và random_state của cây hồi quy được đặt 0, và với kỳ vọng sẽ giữ được những đặc trưng về thời gian khi xét tới các biến độc lập
Trong bài toán được ứng dụng, để dự đoán nồng độ TSI-chla tại thời điểm
T, các trường dữ liệu đầu vào sẽ được lấy vào cùng thời điểm của hai tháng trước, cùng thời điểm của hai năm trước, tương ứng vớiT−12,T−13,T−1,
T −2, điều này tương ứng phải dùng năm đầu tiên làm dữ liệu đầu vào cho
dữ liệu học, không dùng làm nhãn. Nếu tại mỗi thời điểm, cần lấyitrường dữ liệu đầu vào, thì tổng cộng sẽ cần4itrường dữ liệu cho thuật toán hồi quy