PHẦN 4: XÂY DỰNG MÔ HÌNH DỰ BÁO
4.2.2. Phân tích hồiquy
Phân tích hồi quy được sử dụng trong phân tích xác định sự ảnh hưởng của các biến dự báo đến biến mục tiêu, mô hình này thường được sử dụng trong phân tích tài chính, kinh tế,…. Kết quả của quá trình này thể hiện mối quan hệ phụ thuộc của biến mục tiêu vào tập biến dự báo, có thể xây dựng hàm hồi quy dự báo để ước lượng dữ liệu trong tương lai. Tuy nhiên, đối với mô hình hồi quy xem các thuộc tính trong bộ dữ liệu có giá trị liên tục và có tác động như nhau đối các tình huống khác nhau trong thực tế. Do đó, mô hình này không thể dự báo chính xác (có độ tương quan thấp).
Vì vậy, trong chuyên đề này chỉ sử dụng phương pháp phân tích hồi quy nhằm xác định tính quan trọng của thuộc tính và mô hình dữ liệu có tính tương quan cao nhất làm cơ sở để xây dựng mô hình dự báo có độ chính xác cao.
Bên cạnh đó, dữ liệu đầu vào có kích thước lớn, sẽ gây áp lực lên quá trình tính toán và xử lý. Do đó, sử dụng phương pháp phân tích hồi quy làm cơ sở để loại bỏ những thuộc tính dự báo không cần thiết giảm độ phức tạp tính toán của phương pháp.
Từ các dữ liệu thu thập được và đã qua bước tiền xử lý, tiến hành sử dụng công cụ phân tích hồi quy nhằm xác định mối tương quan giữa các thuộc tính trong bộ dữ liệu, cũng như tính quan trọng của thuộc tính. Từ đó, cho phép ta loại bỏ các thuộc tính không quan trọng nhằm giảm thời gian xử lý trong quá trình phân tích và xây dựng mô hình dự báo. Quá trình này được thực hiện nhiều lần, mỗi lần với số lượng biến dự báo khác nhau nhằm tìm ra mô hình dữ liệu cho độ tương quan cao nhất.
Kết quả của quá trình phân tích là các thông tin về mối tương quan của các thuộc tính cũng như mức độ ảnh hưởng của từng thuộc tính đến quá trình phân lớp dữ liệu và độ phù hợp của mô hình với dữ liệu thực tế. Dựa vào kết quả này, ta có thể lựa chọn mô hình phù hợp nhất (có độ tương quan cao nhất) .Qua đó, giữ lại những thuộc tính quan trọng và loại bỏ những thuộc tính không cần thiết. Kết thúc quá trình này, ta đã tạo được
bộ dữ liệu thuần khiết, giảm độ nhiễu thông tin và làm đầu vào cho quá trình phân tích và xây dựng mô hình dự báo.