Hồi quy tuyến tính đơn giản

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 59 - 63)

Ví dụ 1.5.1. đã giới thiệu hồi quy tuyến tính đơn giản, điều này sẽ được tạo

lại bằng Python.

3.1. Ví dụ về hồi quy tuyến tính đơn giản

Chúng ta muốn kiểm tra xem có mối quan hệ giữa độ dày của miếng bọt biển và độ thấm hút chất lỏng của nó hay không. Chúng tôi đã thiết kế một thí nghiệm với các mức độ dày khác nhau của bọt biển, với lượng chất lỏng được hấp thụ. Kết quả được ghi trong bảng 4.3.

Bảng 4.3: Dữ liệu hồi quy tuyến tính đơn giản.

Trong Python, các bước sau sẽ được tiến hành: Tạo mảng, trong cuốn sách này, chúng tôi sẽ định nghĩa mảng là một biến có thể lưu trữ danh sách các giá trị. Tạo hồi quy tuyến tính đơn giản; Tạo đồ thị có trục và tiêu đề được gắn nhãn Chương trình 4-12 dưới đây: Tạo mảng của chúng ta.

np.array, nói với Python rằng chúng ta muốn tạo mảng bằng cách sử dụng các số liệu bên trong ([…]).

Bây giờ, chúng ta có hai mảng: đầu vào x và đầu ra y. Để hồi quy hoạt động trong Python, chúng ta cần sửa đổi x thành hai chiều, một cột, nhưng nhiều hàng. Đó là lý do tại sao chúng ta cần định hình lại lệnh ((- 1,1)). Mảng cho phép chúng ta thao tác dữ liệu dễ dàng hơn.

60

Chương trình 4-13 dưới: Mã hồi quy tuyến tính đơn giản của chúng ta.

1) Nhập thư viện mới; 2) Mã hồi quy của chúng ta;

3) Tạo đầu ra của chúng ta cho mô hình –xem hình 4.16.

Giai đoạn tiếp theo yêu cầu chúng ta tạo ra cốt. Chương trình 4-14: Vẽ mã mô hình hồi quy tuyến tính đơn giản.

61

1) Chúng ta đã tạo một mảng dữ liệu mới dựa trên các hệ số của mô hình. Điều này đã được thực hiện để chúng ta có thể vẽ biểu đồ giá trị dự đoán của mình so với giá trị thực của chúng (đường xu hướng).

2) Mã của chúng ta.

Nhiều mã đã được thêm vào từ các ví dụ trước a. plt.title (‘…’) - đặt tiêu đề biểu đồ;

b. plt.xlabel (‘…’) – gắn nhãn cho trục x; c. plt.ylable (‘…’) - gắn nhãn trục y.

3.2. Bài kiểm tra t

Phần tiếp theo chúng ta giải bài tập kiểm tra t từ ví dụ 2.1.

Trong ví dụ này, chúng ta muốn kiểm tra hiệu quả của một loại thuốc mới. Hỏi một số học sinh về tình trạng sức khỏe của họ (điểm 0 đến 20). Sau đó, không nói với họ, bắt đầu cho họ dùng loại thuốc mới. Sau một tuần, hỏi những người tương tự về tình trạng sức khỏe của họ.

Kết quả được ghi trong bảng 4.4.

1) Tính giá trị trung bình & độ lệch chuẩn;

2) Loại thuốc đó và sức khỏe học sinh, chúng có tương quan với nhau không?

62

3) Tính toán giá trị t-test để theo dõi xem có sự khác biệt về sức khỏe của học sinh hay không.

Ghi chú rất hữu ích khi viết mã:

- Chúng cung cấp cho một bản tóm tắt nhanh chóng về những gì mã thực thi mà ta không cần phải đọc qua các dòng mã;

- Cho phép đồng nghiệp hiểu công việc của chúng ta.

Hình 4.40 hiển thị các giai đoạn cần thiết cho bài tập này trong R.

Để tiến hành kiểm định t, các bước sau sẽ được yêu cầu: - Tạo mảng với các giá trị trước khi tính; (adsbygoogle = window.adsbygoogle || []).push({});

- Tính giá trị trung bình và độ lệch chuẩn: + Tính toán thống kê tương quan;

+ Tính toán thống kê kiểm định t bằng một lệnh mới. - Tạo dữ liệu;

63 Chương trình 4 – 16. T test thống kê

stats.ttest_ind(- lệnh của chúng ta để Python tiến hành kiểm tra trước khi t- test pre, post, - dữ liệu equal_var = False) – được đặt thành false, không giả định phương sai tổng thể bằng nhau.

Ttest_indResult(statistic = -2.9139712, pvalue = 0.0108723).

Phép thử t so sánh hai giá trị trung bình và thông báo cho ta nếu chúng khác nhau. Phép thử t cho biết các biến có ngẫu nhiên hay không.

+ T = -2,91397.

+ Giá trị P (đây là giá trị được tính trong Excel).

Thông báo về xác suất liệu các kết quả từ mẫu có ngẫu nhiên hay không. Giá trị P = 0,05 cho biết rằng có 5% khả năng kết quả xảy ra một cách ngẫu nhiên. Giá trị p càng thấp thì kết quả càng tốt. Trong trường hợp này, p = 0,108 có nghĩa là kết quả có 1,08% khả năng xảy ra ngẫu nhiên.

Python sử dụng một kịch bản thử nghiệm t khác với Excel, do đó sự khác biệt về số liệu, nhưng kết quả là tương tự.

Một phần của tài liệu PHÂN TÍCH DỮ LIỆU THỐNG KÊ VÀ PYTHON (Trang 59 - 63)