Hồi quy tuyến tớnh (Regression/Simple)

Một phần của tài liệu Khai thác phần mềm winstat để xử lý số liệu bằng phương pháp phân tích hồi quy (Trang 40 - 44)

- Cú thể download phiờn bản dựng thử bộ cài winstat trờn trang Winstat.com và làm theo hương dẫn.

3.2.1. Hồi quy tuyến tớnh (Regression/Simple)

Sử dụng lệnh Regression/Simple để tỡm cỏc phương trỡnh tốt nhất biểu diễn mối quan hệ giữa một biến phụ thuộc vào một biến độc lập. Cỏc lớp phõn biệt cỏc phương trỡnh cú thể chọn trong hộp kiểm Function Classes.

Ta xem Mileage như là một hàm của Horsepower để tỡm ra một phương trỡnh hồi quy phự hợp nhất trong cỏc phương trỡnh trờn.

Chỳ ý: Đỏnh dấu vào Write residues in để viết ra những số dư. Những sai số ngẫu nhiờn là phõn biệt tựy theo từng trường hợp dựa trờn cỏc giỏ trị thực tế Y và cỏc giỏ trị được tớnh toỏn bởi phương trỡnh phự hợp nhất (những giỏ trị nằm trờn đường hồi quy). Bằng việc kớch chọn vào hộp và chọn một tờn biến, ta yờu cầu WinSTAT viết những số dư tới bảng tớnh dưới biến tờn đó cho. Biến này phải là biến đó tồn tại trong cơ sở dữ liệu, và nội dung trước nú sẽ được ghi đố lờn.

Trong đú

R là hệ số tương quan giữa cỏc giỏ trị thực tế Y và cỏc giỏ trị được tớnh bởi phương trỡnh đó cho. Giỏ trị càng cao của R (tối đa = 1,0) núi lờn mụ hỡnh càng phự hợp . Phương trỡnh tương ứng với giỏ trị R cao nhất được đỏnh dấu bằng gạch dưới. Nú là phương trỡnh được sử dụng để tạo ra cỏc số dư, nếu được thiết lập. WinSTAT tự động tạo ra một đồ thị điểm của hai biến, với đường cong phự hợp nhất (đường được đỏnh dấu bằng gạch dưới trong bảng) xen giữa (hỡnh bờn dưới).

R-Square là bỡnh phương của R nú xuất hiện trong cột tiếp theo, và với ý nghĩa thống kờ, nú là tỉ lệ (số %) sự biến động trong biến phụ thuộc. Ở vớ dụ ta thấy phương trỡnh được chon cú R-Square = 0.522890217 cho thấy trong 100% sự biến động của Mileage cú 52.2890217% biến động là do Horsepowr.

0 5 10 15 20 25 30 35 0 50 100 150 200 250 300 Horsepow er M ile ag e Data Y = 10.0919 + 396.081/X

Best-fit simple regression curve

Phõn tớch phần dư

Sau khi tạo ra cỏc biến mới thỡ chỳng ta cần phải thực hiện một số kiểm tra, thụng qua đú sẽ giỳp đưa ra thờm thụng tin về giỏ trị phự hợp nhất với hàm.

* Tớnh chuẩn tắc: Phần dư thường phõn bổ đều. Ta cú thể kiểm tra bằng lệnh GRAPHICS/CUMULATIVE FREQUENCY hoặc lệnh BASICS/TEST OF RANDOMNESS. Trong vớ dụ thỡ Kolmogorov-Smirnov chỉ ra giỏ trị p(p-value) 0.97925 giỏ trị chuẩn.

* Biến ngẫu nhiờn: Phần dư thường biểu diễn một cỏch ngẫu nhiờn. Ngay cả khi dữ liệu đầu vào thể hiện chu kỡ hoặc xu hướng tăng giảm, số liệu này thường thỡ khụng ảnh hưởng nhiều đến phần dư.

* Biểu đồ biểu diễn cỏc giỏ trị dư: Nếu chỳng ta đưa ra dạng đồ thị điểm biểu diễn cỏc giỏ trị dư, ta cú tập hợp cỏc điểm phõn bố đều cả phớa trờn và phớa dưới của trục X, và biểu diễn toàn bộ tập giỏ trị của X

Scatterplot -10 -8 -6 -4 -2 0 2 4 6 8 10 12 0 50 100 150 200 250 300 Horsepower R eg re ss io n R es id ua ls Scatterplot of X vs. residuals

Trờn đồ thị ở trờn ta thấy rằng cỏc điểm biểu diễn phần dư giảm dần khi X tăng, Tuy nhiờn, do số điểm ớt nờn sự biểu diễn chưa rừ ràng.

Dự đoỏn cỏc giỏ trị chưa biết của Y

Trong hộp thoại gốc, đỏnh dấu vào Recalculate cursive rows and overwrite Y-values nếu nú được kiểm tra, thỡ WinSTAT sẽ tự tớnh toỏn để tỡm ra được hàm phự hợp nhất. Sau đú nú sẽ tự động lấy tất cả cỏc giỏ trị của X thuộc đường cong, ứng dụng vào hàm thớch hợp nhất để tớnh toỏn giỏ trị của Y. Sứ dụng tớnh năng này để dự đoỏn cỏc gớ trị cho tất cả cỏc trường hợp mà biến độc lập đó biết.

Một phần của tài liệu Khai thác phần mềm winstat để xử lý số liệu bằng phương pháp phân tích hồi quy (Trang 40 - 44)

Tải bản đầy đủ (DOC)

(62 trang)
w