Một trường hợp riêng của lớp mơ hình hồi qui phi tuyến là mơ hình hồi qui logarit, trong đĩ dữ liệu được thay thế bằng giá trị logarit của chúng thì phù hợp với mơ hình hồi qui tuyến tính. Xây dựng mơ hình hồi qui tuyến tính cho giá trị logarit, sau đĩ sử dụng hàm mũ để chuyển đổi giá trị kết quả trở về giá trị dạng thơng thường của dữ liệu.
Kiểm thử trong hồi quy
Mơ hình hồi qui hầu như bao giờ cũng cĩ sai số vì hiện tượng tự nhiên và xã hội phụ thuộc nhiều yếu tố, diễn biến rất phức tạp, rất khĩ cĩ thể ước lượng hết. Để đánh giá, so sánh các phương pháp dự báo một cách định lượng, các chỉ số đánh giá mơ hình dự báo được sử dụng. Dưới đây là một số chỉ số đánh giá thơng dụng nhất:
(i) Sai số quân phương MSE (Mean Square Error):
1 n ˆ 2
MSE = (Qi − Qi )
(2.1)
n i=1
(ii) Sai số căn quân phương RMSE (Root Mean Square Error):
1 n ˆ 2
RMSE = (Qi − Qi )
n i=1 (2.2)
1 n ˆ
MAE = Qi − Qi
n i=1 (2.3)
Trong đĩ:
n: Số lượng các điểm dữ liệu trong bộ dữ liệu kiểm thử. Qˆ
i : Giá trị tính tốn tại điểm dữ liệu thứ i trong bộ dữ liệu kiểm thử. Qi : Giá trị thực đo tại điểm dữ liệu thứ i trong bộ dữ liệu kiểm thử.
Giá trị các chỉ số đánh giá này của một phương pháp dự báo càng nhỏ thì chứng tỏ rằng phương pháp dự báo đĩ càng tốt.
Các chỉ số MSE, RMSE, MAE trực quan và dễ dàng tính tốn, song trong nhiều trường hợp khi dung lượng dữ liệu lớn hay dữ liệu cĩ độ biến động cao thì các chỉ số này trở nên quá thơ sơ. Trong một số trường hợp, người ta cịn sử dụng Chỉ số hiệu quả - E và Chỉ số xác định - R2. Các chỉ số này tuy cĩ độ phức tạp tính tốn cao hơn song cĩ thể khắc phục được hạn chế về tính thơ sơ của các chỉ số MSE, RMSE, MAE. Dưới đây là cơng thức tính các chỉ số E và R2:
(iv) Chỉ số hiệu quả - E (Coefficient of Efficiency)
n ˆ (Q i 2 E =1− − Qi ) i=1 n 2 (Qi − Q) i=1 (2.4) (v) Chỉ số xác định - R2 (Coefficient of Determination) n ( − )( ˆ − ˆ ) Qi Q Qi Q R2 = i=1 n 2 n ˆ 2 ˆ − Q Qi Qi − Q i =1 i=1 (2.5)
Các chỉ số E và R2 cĩ thể được dùng theo cách kết hợp hoặc riêng rẽ. Phương pháp dự báo tốt là phương pháp cho giá trị của các chỉ số này cao.
2.2.2 Dự báo với kỹ thuật phân lớp
Phân lớp là một kỹ thuật khai phá dữ liệu, bản chất là dự đốn các nhãn (hay lớp) của các phần tử dữ liệu đầu vào và các nhãn này nhận các giá trị rời rạc. Đầu vào của bài tốn phân lớp là một tập các mẫu dữ liệu huấn luyện với một nhãn phân lớp
cho mỗi mẫu dữ liệu. Đầu ra là bộ phân lớp dựa trên tập huấn luyện hoặc những nhãn phân lớp. Kỹ thuật phân lớp dữ liệu gồm hai bước:
Bước 1: xây dựng mơ hình từ tập huấn luyện gọi là bước học (learning step,
hay pha học: learning phase) và tập dữ liệu gán nhãn phục vụ quá trình học này được gọi là dữ liệu huấn luyện (training data). Dữ liệu huấn luyện là một tập các
phần tử dữ liệu cĩ gán nhãn. Một điểm (phần tử) dữ liệu X thường được biểu diễn
bằng một vector n chiều X=(x1, x2,…, xn), trong đĩ mỗi thành phần xi trong vector chứa một giá trị biểu diễn thuộc tính (attribute, cịn được gọi là đặc trưng: feature)
Ai của phần tử dữ liệu đĩ. Về bản chất trong bước 1 này, các thuật tốn phân lớp học ra hàm y=f(X) để từ đĩ khi cĩ một phần tử X mới nĩ sẽ dự đốn ra nhãn y tương ứng với X. Theo khía cạnh này thì ta cĩ thể thấy bước 1 là quá trình học ra một hàm cĩ khả năng dự đốn được nhãn lớp dữ liệu.
Bước 2: Sử dụng mơ hình – kiểm tra tính đúng đắn của mơ hình và dùng nĩ để
phân lớp dữ liệu mới.