Thống kê t

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 121 - 126)

2. Hồi quy tuyến tính bộ

2.3.Thống kê t

Thống kê t được trình bày ngắn gọn trong mục 8. Nếu chúng ta xem kết quả từ bài tập 9.1 (hình 9.3), chúng ta sẽ nhận thấy các giá trị t và thống kê t. Thống kê t cung cấp thông tin về mức độ quan trọng của biến đối với mô hình.

Bảng 9.1: Xếp hạng ý nghĩa thống kê t.

Những thống kê này rất quan trọng, vì nó cho chúng ta biết những biến nào nên được xem xét trong mô hình. Ví dụ 9.3 Sử dụng kết quả trước đó về số lượng đồ uống còn lại, biến nào không đóng góp đáng kể vào mô hình?

1) Thống kê t được gắn nhãn Pr (> | t |

2) Từ Hình 9.4, giá đồ uống trung bình của X1 trên mỗi panh không đóng góp (chúng tôi bỏ qua phần chặn). Trong trường hợp này, ta nên chạy lại mô hình loại trừ biến giải thích 'X1', như được hiển thị trong chương trình 9-4.

122

Chương trình 9-4: Bài tập 9.1 Hồi quy đa tuyến tính không có X1.

1) Với các biến giải thích có thống kê t nhỏ hơn 0,05, các biến giải thích có thể được sử dụng với độ tin cậy.

123

Lưu ý: rằng các ước lượng tham số và giá trị chặn đã thay đổi, có nghĩa là

chúng ta có một mô hình đa tuyến tính mới.

Chúng ta đã tiến hành một cách tiếp cận tuần tự được gọi là loại bỏ ngược, bằng cách loại bỏ một biến hoạt động yếu. Các kỹ thuật lựa chọn biến đổi có xu hướng gây ra tranh luận giữa các nhà khoa học / nhà thống kê dữ liệu, mà ta sẽ không đi sâu vào đây.

2.4. Bài tập 9.2

Một tệp CSV có tên là multi3 chứa các giờ dạy hàng tháng cho các trường được chia theo quận. Trong tệp gồm các cột sau:

+ Học sinh - học sinh trung bình đi học; + Sách - sách trong trường;

+ Giáo viên - giờ dạy;

+ Dân số - dân số trong huyện (000); + Vắng mặt - tỷ lệ học sinh vắng mặt; + Học sinh - giờ học sinh ở trường.

Tạo chế độ Dự đoán giờ dạy chỉ sử dụng các biến có giá trị dự đoán (p> | t |) dưới 0,05).

Gợi ý: lập mô hình tất cả các biến trước, sau đó giảm từng biến một.

124

Với những cuốn sách có p> | t | 0f 0.915, đây sẽ là biến đầu tiên được sử dụng.

125

Với sự vắng mặt có p> | t | 0f 0,078, đây sẽ là biến tiếp theo.

Giáo viên = -27.258 + 22,75 * học sinh - 0,727 * dân số.

Với bình phương R-1 được ghi lại ở mỗi lần lặp, đây có thể là một nguyên nhân đáng lo ngại. Bất kỳ mô hình nào có giá trị bình phương R đã điều chỉnh lớn hơn 0,95 sẽ cần điều tra. Vì hầu hết có thể, một trong các biến độc lập là một bản sao gần như của biến phụ thuộc.

126

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 121 - 126)