1. Trang chủ
  2. » Khoa Học Tự Nhiên

Giáo trình Xác suất thống kê (PGS.TS Nguyễn Thị Dung)

167 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 167
Dung lượng 824,96 KB

Nội dung

Giáo trình Xác suất thống kê PGS.TS Nguyễn Thị Dung, TS Phạm Thanh Hiếu ThS Mai Thị Ngọc Hà, Th.S Nguyễn Thị Hồng Nhung Ngày tháng 10 năm 2018 Mục lục Lời nói đầu I v Lý thuyết xác suất Chương Biến cố ngẫu nhiên xác suất 1.1 Giải tích tổ hợp 1.1.1 Quy tắc cộng 1.1.2 Quy tắc nhân 1.1.3 Hoán vị 1.1.4 Chỉnh hợp 1.1.5 Chỉnh hợp lặp 1.1.6 Tổ hợp 1.1.7 Phương pháp giải toán giải tích tổ hợp 1.2 Phép thử biến cố 1.2.1 Phép thử 1.2.2 Biến cố (sự kiện) 1.2.3 Quan hệ phép toán biến cố 1.3 Các định nghĩa xác suất 1.3.1 Định nghĩa cổ điển xác suất 1.3.2 Định nghĩa thống kê xác suất 1.3.3 Nguyên lý xác suất lớn xác suất nhỏ 1.4 Các định lý 1.4.1 Định lý cộng xác suất 1.4.2 Định lý nhân xác suất 1.4.3 Định lý xác suất toàn phần - Định lý Bayes 1.4.4 Định lý Bernoulli Bài tập Chương Chương Biến ngẫu nhiên Quy luật phân phối xác suất 2.1 Biến ngẫu nhiên 2.2 Quy luật phân phối xác suất biến ngẫu nhiên 2.2.1 Biến ngẫu nhiên rời rạc bảng phân phối xác suất 2.2.2 Hàm phân phối xác xuất 2.2.3 Biến ngẫu nhiên liên tục hàm mật độ xác suất i 10 11 13 15 15 15 17 20 23 26 29 29 30 31 33 36 ii MỤC LỤC 2.3 Các tham số đặc trưng biến ngẫu nhiên 2.3.1 Kỳ vọng toán 2.3.2 Phương sai 2.3.3 Độ lệch chuẩn 2.3.4 Một số tham số đặc trưng khác 2.4 Một số quy luật phân phối xác suất thông dụng 2.4.1 Quy luật không – 2.4.2 Quy luật nhị thức 2.4.3 Quy luật Poisson 2.4.4 Quy luật chuẩn N (a,σ ) 2.4.5 Quy luật bình phương – χ2 2.4.6 Quy luật Student – T(n) 2.4.7 Các định lý giới hạn 2.5 Biến ngẫu nhiên hai chiều 2.5.1 Khái niệm biến ngẫu nhiên hai chiều 2.5.2 Bảng phân phối xác suất 2.5.3 Hàm phân phối xác suất 2.5.4 Hàm mật độ xác suất 2.5.5 Các tham số đặc trưng Bài tập Chương II Thống kê toán Chương Cơ sở lý thuyết mẫu 3.1 Tổng thể mẫu 3.1.1 Tổng thể kích thước tổng thể 3.1.2 Mẫu phương pháp chọn mẫu 3.1.3 Mẫu ngẫu nhiên 3.2 Các phương pháp mô tả mẫu 3.2.1 Sắp xếp số liệu thực nghiệm 3.2.2 Biểu diễn số liệu biểu đồ 3.3 Các tham số đặc trưng mẫu ngẫu nhiên 3.3.1 Hàm thống kê 3.3.2 Trung bình mẫu 3.3.3 Phương sai mẫu phương sai điều chỉnh mẫu 3.3.4 Độ lệch chuẩn mẫu độ lệch chuẩn điều chỉnh mẫu 3.3.5 Một số tham số đặc trưng mẫu khác 3.3.6 Cách tính đặc trưng mẫu 3.4 Ý nghĩa thực nghiệm số đặc trưng mẫu Bài tập Chương 40 40 43 46 46 48 48 49 50 51 58 59 60 64 64 65 66 67 69 71 75 77 77 77 78 79 80 80 82 84 85 85 86 86 87 87 90 93 Chương Ước lượng tham số 97 4.1 Phương pháp ước lượng điểm 97 MỤC LỤC 4.2 Phương pháp ước lượng khoảng tin cậy 4.2.1 Khái niệm 4.2.2 Ước lượng kỳ vọng toán 4.2.3 Ước lượng tỷ lệ Bài tập Chương iii Chương Kiểm định giả thuyết thống kê 5.1 Một số khái niệm 5.1.1 Giả thuyết thống kê 5.1.2 Tiêu chuẩn kiểm định giả thuyết thống kê 5.1.3 Miền bác bỏ giả thuyết thống kê 5.1.4 Giá trị quan sát tiêu chuẩn kiểm định 5.1.5 Quy tắc kiểm định giả thuyết 5.1.6 Các sai lầm mắc phải kiểm định 5.1.7 Các bước tiến hành toán kiểm định giả 5.2 Kiểm định giả thuyết thống kê kỳ vọng toán 5.2.1 Trường hợp tổng thể 5.2.2 Trường hợp hai tổng thể 5.3 Kiểm định giả thuyết thống kê tỷ lệ 5.3.1 Trường hợp tổng thể 5.3.2 Trường hợp hai tổng thể Bài tập Chương thuyết 100 100 100 107 111 thống kê 115 115 115 116 116 116 116 117 117 118 118 122 125 125 126 128 Chương Tương quan hồi quy 6.1 Sắp xếp số liệu thực nghiệm 6.2 Đồ thị phân tán 6.3 Hệ số tương quan 6.3.1 Hệ số tương quan lý thuyết 6.3.2 Hệ số tương quan mẫu 6.3.3 Kiểm định giả thuyết giá trị ρ 6.4 Hồi quy tuyến tính 6.4.1 Mơ hình hồi quy tuyến tính 6.4.2 Phương trình hồi quy tuyến tính đơn giản tổng thể 6.4.3 Phương trình đường hồi quy tuyến tính mẫu Bài tập Chương Phụ lục Phụ lục Phụ lục Phụ lục Tài liệu tham khảo 133 133 135 135 135 137 140 140 140 141 143 146 151 154 155 156 159 Lời nói đầu “Xác suất thống kê” môn học cần thiết sinh viên khối trường kỹ thuật nội dung phong phú ứng dụng rộng rãi nhiều lĩnh vực khác khoa học tự nhiên, kỹ thuật, y học kinh tế - xã hội Đã có nhiều sách giáo trình viết cho mơn học này, nhiên nhóm tác giả mong muốn viết giáo trình phù hợp với nội dung chương trình Trường Đại học Nơng Lâm để sinh viên học tập, vận dụng mơn học vào mơn học chun ngành sau đó, phục vụ cho việc học tập bậc cao ứng dụng vào thực tiễn Nông Lâm nghiệp Giáo trình gồm hai phần • Phần I: “Lý thuyết xác suất” có hai chương, PGS TS Nguyễn Thị Dung biên soạn Chương trang bị kiến thức giải tích tổ hợp, khái niệm tảng, định lý quan trọng lý thuyết xác suất cổ điển Chương quan tâm đến khái niệm trung tâm xác suất biến ngẫu nhiên quy luật phân phối xác suất, tham số đặc trưng Một số quy luật phân phối xác suất thông dụng định lý luật số lớn, định lý giới hạn trình bày chương • Phần II: “Thống kê tốn” gồm có chương TS Phạm Thanh Hiếu ThS Mai Thị Ngọc Hà biên soạn Chương trình bày sở lý thuyết mẫu: phương pháp chọn mẫu, xếp mẫu, đặc trưng mẫu Chương Chương quan tâm đến hai toán ước lượng tham số kiểm định giả thuyết thống kê Các toán tương quan hồi quy tuyến tính đơn giản đề cập đến Chương Phần cuối số bảng phụ lục thơng dụng Các bảng biểu, hình vẽ xử lý kỹ thuật LATEX ThS Nguyễn Thị Hồng Nhung đảm nhận Bạn đọc tự học mơn “Xác suất thống kê” với giáo trình trang bị số kiến thức Giải tích cổ điển Đại số tuyến tính Các khái niệm cập nhật thêm thuật ngữ tiếng Anh để bạn đọc làm quen với thuật ngữ đọc sách nước ngồi Hệ thống ví dụ lựa chọn nhiều liên quan đến toán thường gặp thực tế lĩnh vực Nông, Lâm nghiệp, Sinh học Các tập cuối chương dành cho bạn đọc giải thông qua vận dụng lý thuyết lời giải ví dụ chương Trong kiến thức rộng lớn lý thuyết xác suất thống kê toán, để lựa chọn vấn đề cần thiết viết khuôn khổ giáo trình nhỏ cho phù hợp với nội dung chương trình bậc đại học, đáp ứng mục tiêu đề khó khăn Cuốn sách mơn Tốn - Lý dùng v vi Lời nói đầu làm tài liệu tham khảo giảng dạy cho sinh viên trường Đại học Nông Lâm số năm gần khó tránh khỏi sai sót Các tác giả mong muốn nhận nhận xét góp ý đồng nghiệp, sinh viên bạn đọc để giáo trình hồn thiện Nhóm tác giả Phần I Lý thuyết xác suất Sự không chắn phổ biến giới mà ta sống: từ vấn đề giới tự nhiên nắng, mưa, giông, bão, đến vấn đề đời sống trị, xã hội người Ngay Sinh - Lão - Bệnh - Tử – quy luật tất yếu mà biết, chặng đường chắn mà đời người phải trải qua nhìn chung nằm điều khiển Tuy nhiên, không chắn làm cho sống trở nên thú vị nhiều Hãy thử tưởng tượng xem giới trở nên buồn tẻ, chán ngắt đến mức thứ biết trước cách chắn, hoàn hảo? Lý thuyết xác suất ngành khoa học Tốn học xác lập suy luận mang tính định lượng khơng chắn, thơng qua nghiên cứu quy luật tất nhiên ẩn dấu sau tượng mang tính ngẫu nhiên nhằm cho phép dự báo tượng ngẫu nhiên xảy Chính vậy, phương pháp lý thuyết xác suất ứng dụng rộng rãi lĩnh vực sống Chương Tương quan hồi quy Trong chương thảo luận phương pháp cho việc phân tích mối quan hệ hai biến ngẫu nhiên định lượng X Y Phân tích tương quan hồi quy kỹ thuật cho phân tích mối quan hệ hai biến ngẫu nhiên định lượng Dữ liệu cho phân tích tương quan hồi quy cặp giá trị (xi , yj ) quan sát từ mẫu ngẫu nhiên W = (Xi , Yj ), i,j = 1, , n hai biến ngẫu nhiên (X, Y ) mà nghiên cứu Trong giới hạn chương nghiên cứu tương quan hồi quy đơn biến tuyến tính, nghĩa mơ hình tốn học biểu thị mối quan hệ X Y phương trình có dạng bậc y = ax + b đồ thị biểu thị mối quan hệ X Y có dạng đường thẳng Nội dung chương chia làm mục Mục 6.1 trình bày cách xếp số liệu thực nghiệm, Mục 6.2 giới thiệu đồ thị phân tán dãy số liệu thực nghiệm thu hai biến ngẫu nhiên X Y , Mục 6.3 giới thiệu hệ số tương quan Mục 6.4 trình bày tốn hồi quy tuyến tính đơn giản Kiến thức chương tham khảo tài liệu [2], [8], [9], [12] số nguồn khác 6.1 Sắp xếp số liệu thực nghiệm Cho mẫu ngẫu nhiên có kích thước n W = (X1 , Y1 ), (X2 , Y2 ), (Xn , Yn ) có mẫu cụ thể (xi , yj ) Khi tùy theo mẫu cụ thể (số liệu thực nghiệm) ta xếp thành ba bảng sau: Dạng 1: Giả sử số liệu thực nghiệm thu n cặp giá trị (x1 , y1 ), (x2 , y2 ), (xn , yn ) ta xếp thành dạng bảng sau: X Y x1 y1 x2 y2 x3 y3 xn yn Ví dụ 6.1.1 Để thực cơng trình nghiên cứu mối quan hệ chiều cao Y (m) đường kính X(cm) loại cây, người ta quan sát chiều cao đường kính thu kết sau: thứ có chiều cao 1m đường kính cm, kí hiệu (1, 1) Đo tương tự ta có số liệu  133 134 Chương 6: Tương quan hồi quy sau: (1, 1), (3, 2), (4, 4), (6, 4), (8, 5), (9, 7), (11, 8), (14, 9) Khi ta xếp số liệu dạng bảng sau: xi yi 1 4 11 14 Dạng 2: Giả sử số liệu thực nghiệm thu sau: có n1 lần xuất cặp giá trị (x1 , y1 ), n2 lần xuất cặp giá trị (x2 , y2 ), , nk lần xuất cặp giá trị (xk , yk ), n1 + n2 + n3 + + nk = n ta xếp thành dạng bảng sau: X Y ni x1 y1 n1 x2 y2 n2 xk yk nk Ví dụ 6.1.2 Nghiên cứu lượng phân bón X (kg) dùng để bón cho ruộng vụ, suất lúa Y (kg /1000m2 ) Thống kê 30 hộ gia đình, kết sau: Nếu bón 40 (kg) có hộ đạt suất 270 hộ đạt suất 280 Nếu bón 50 (kg) có hộ đạt suất 280, hộ đạt suất 290 hộ đạt suất 300 Nếu bón 60 (kg) có hộ đạt suất 300, hộ đạt suất 310 hộ đạt suất 320 Khi ta xếp số liệu thực nghiệm dạng bảng sau:  xi yi Số hộ ni 40 270 40 280 50 280 50 290 50 300 60 300 60 310 60 320 Dạng 3: Giả sử số liệu thực nghiệm thu sau: có n11 lần xuất cặp giá trị (x1 , y1 ), n12 lần xuất cặp giá trị (x2 , y1 ), , nkm lần xuất cặp giá trị (xm , yk ), n11 + n12 + + n1m + + nk1 + + nkm = n Khi ta xếp thành dạng bảng sau: X Y y1 y2 ··· ··· yk x1 x2 ··· xm n11 n21 ··· ··· nk1 n12 n22 ··· ··· nk2 ··· ··· ··· ··· ··· n1m n2m ··· ··· nkm  Ví dụ 6.1.3 Để nghiên cứu tác dụng phân vi sinh X (tạ/ha) tới suất cà chua Y (tấn/ha), người ta thí nghiệm 20 ruộng Sau thu hoạch ta có kết sau: Nếu bón 0,15 (tạ/ha) có đạt suất 20 (tấn/ha); bón 0,17 (tạ/ha) có đạt suất 20 (tấn/ha) đạt suất 22 6.2 Đồ thị phân tán 135 (tấn/ha); bón 0,19 (tạ/ha) có đạt suất 20 (tấn/ha), đạt suất 22 (tấn/ha) đạt suất 24 (tấn/ha); bón 0,21 (tạ/ha) có đạt suất 22 (tấn/ha), đạt suất 24 (tấn/ha); bón 0,23 (tạ/ha) có đạt suất 24 (tấn/ha) Khi ta xếp số liệu dạng bảng sau đây: X Y 20 22 24 0,15 0,17 0,19 0,21 0,23 2 6.2 Đồ thị phân tán Định nghĩa 6.2.1 Đồ thị phân tán (scatter diagram) biến Y biến X tập hợp điểm M (xi , yi ) hệ tọa độ vng góc Dựa vào đồ thị phân tán ta xác định dạng quan hệ hai biến X Y Trong đồ thị phân tán, điểm M (xi , yi ) quy tụ xung quanh đường thẳng d ta nói hai biến ngẫu nhiên X Y có tương quan tuyến tính (linear correlation) Đường thẳng d gọi đường hồi quy tuyến tính (linear regression line) Y Y X X Hình 6.1: Quan hệ tuyến tính Ví dụ 6.2.2 Quay trở lại Ví dụ 6.1.1, nhìn vào đồ thị phân tán Hình 6.4, ta dễ dàng thấy điểm quy tụ xung quanh đường thẳng nên dự đốn chiều cao đường kính có mối quan hệ tương quan tuyến tính  6.3 Hệ số tương quan 6.3.1 Hệ số tương quan lý thuyết Khi đồ thị phân tán số liệu thực nghiệm hai biến (X, Y ) xu hướng đường thẳng tự nhiên mơ tả mức độ phụ thuộc tuyến 136 Chương 6: Tương quan hồi quy Y Y X X Hình 6.2: Quan hệ phi tuyến tính Hình 6.3: Khơng có quan hệ y 1 11 14 x Hình 6.4: Đồ thị phân tán tính chúng Cách để đo mức độ phụ thuộc tuyến tính hai biến ngẫu nhiên X Y dùng hệ số tương quan Định nghĩa 6.3.1 Giả sử X Y hai biến ngẫu nhiên có V (X) > V (Y ) > Hệ số tương quan (correlation coefficient) hai biến ngẫu nhiên X Y , kí hiệu ρ(X,Y ), xác định sau: ρ(X,Y ) = E(XY ) − E(X)E(Y ) E[X − E(X)][Y − E(Y )] √ √ √ √ = V (X) V (Y ) V (X) V (Y ) (6.1) Tính chất 6.3.2 (i) ρ(X,Y ) = ρ(Y,X); (ii) Nếu ρ(X,Y ) = X Y khơng có mối quan hệ tương quan tuyến tính; (iii) |ρ(X,Y )| Chú ý 6.3.3 i) Ta dùng ρ(X,Y ) để đo mức độ phụ thuộc tuyến tính hai biến ngẫu nhiên Nếu |ρ| lớn mức độ phụ thuộc tuyến tính chặt chẽ Đặc biệt ρ = ±1 phụ thuộc tuyến tính xảy với xác suất Nếu |ρ| nhỏ mức độ phụ thuộc tuyến tính X Y Đặc biệt ρ = X Y không tương quan với ii) Hai biến ngẫu nhiên độc lập với khơng tương quan, điều ngược lại chưa Riêng biến ngẫu nhiên phân phối chuẩn tính khơng tương quan tính độc lập tương đương 6.3 Hệ số tương quan 137 6.3.2 Hệ số tương quan mẫu Hệ số tương quan lý thuyết ρ số đo mức độ phụ thuộc tuyến tính hai biến ngẫu nhiên X Y Tuy nhiên chưa biết phân phối (X, Y ) việc tính hệ số tương quan lý thuyết ρ khó khăn Giả sử tiến hành n bước quan sát độc lập cặp biến ngẫu nhiên (X, Y ) ta có mẫu ngẫu nhiên kích thước n : (X1 , Y1 ), (X2 , Y2 ), , (Xn , Yn ) Định nghĩa 6.3.4 Hệ số tương quan mẫu (sample correlation coefficient) X Y , kí hiệu r(X, Y ) hay r xác định công thức: 1∑ (Xi − X)(Yi − Y ) XY − X Y n i √ r=√ = 1∑ 1∑ SX SY 2 (Xi − X) (Yi − Y ) n i n i (6.2) Hệ số tương quan mẫu r xem ước lượng hệ số tương quan lý thuyết ρ Tính chất 6.3.5 (i) Ta có |r| (ii) Nếu r > X Y tương quan thuận, r < X Y tương quan nghịch; (iii) Nếu 0,7 |r| X Y tương quan mạnh; (iv) Nếu |r| 0,3 X Y tương quan yếu Cách tính hệ số tương quan mẫu: Giả sử cho mẫu ngẫu nhiên kích thước n, có mẫu cụ thể w = (xi , yj ), i = 1, h; j = 1, , k Ta xét trường hợp sau: (i) Trong trường hợp, hệ số tương quan mẫu xác định công thức: r= xy − x y sx sy (6.3) (ii) Nếu mẫu cụ thể xi yj tương ứng cách khoảng hx xi − x0 hy để làm giảm số liệu tính tốn ta dùng phép biến đổi, đặt ui = hx yi − y0 vi = , với x0 y0 chọn thích hợp theo bảng số liệu, hy ∑ ui vi − nu v uv − u v i √ r = √∑ = (6.4) ∑ su sv u2i − n(u)2 vi2 − n(v)2 i i Từ cách đổi biến ta có: x = x0 + hx u; y = y0 + hy v; sx = hx su ; sy = hy sv (6.5) (6.6) 138 Chương 6: Tương quan hồi quy Ví dụ 6.3.6 Theo dõi kết thi hai mơn Tốn kí hiệu (X) vật lý kí hiệu (Y ) 10 em học sinh lớp ta thu bảng số liệu sau:  Xi Yi ni 2 5 Hãy tính hệ số tương quan mẫu Giải Dựa vào cơng thức (6.3) để tránh nhầm lẫn ta lập bảng tính sau: xi 2 3 yi 5 ni 2 ∑ n = 10 n i xi ∑ x = 22 ni x2i 18 16 ∑ x2 = 58 ni yi 10 ∑ y = 45 ni yi2 27 32 25 50 36 ∑ 49 y = 219 n i xi y i 16 10 30 18 ∑ 28 xy = 111 Nhìn vào bảng số liệu ta có: 22 = 2,2; 10 58 = 5,8; x2 = 10 s2x = 5,8 − (2,2)2 = 0,96; 45 = 4,5; 10 219 = 21,9; y2 = 10 s2y = 21,9 − (4,5)2 = 1,645; xy = 11,1; sx sy = 1,26 x= y= Vậy hệ số tương quan mẫu là: r = 11,1 − (2,2)(4,5) = 0,52 1,26  Ví dụ 6.3.7 Theo dõi vi lượng A đất trồng Y (mg/kg đất) suất loại rau X (tấn/ha) ta có kết sau: X Y 20 30 40 50 60 10 15 20 25 3 Hãy tìm hệ số tương quan r cho nhận xét? Giải Vì xi cách khoảng hx = 5, chọn x0 = 20; Các yi cách xi − 20 yi − 40 khoảng hy = 10, chọn y0 = 40 Đặt u = ;v = Ta lập 10 lại bảng số liệu mới: 6.3 Hệ số tương quan u -2 v −2 −1 -1 4 139 -2 mj mj uj mj u2j -10 20 15 -15 15 20 0 10 10 10 ni ni vi ni vi2 −6 12 11 −11 11 18 0 13 13 13 10 20 Σn = 50 Σu = −15 Σu2 = 45 Σv = Σv2 = 56 Σuv = 26 Nhìn vào bảng số liệu ta có: u= −15 = −0,3; v = = 0,12; 50 50 u v = −0,036; √ 45 su = − (−0,3)2 = 0,9; 50 45 56 = 0,9; v = = 1,12; 50 50 26 uv = = 0,52; 50 √ 56 sv = − (0,12)2 = 1,051 50 u2 = Hệ số tương quan mẫu r= 0,556 uv − u v = = 0,588 su sv 0,946 Vậy X Y có mối tương quan thuận, tức lượng vi lượng A cung cấp đầy đủ suất rau cao Chú ý 6.3.8 Hệ số tương quan mẫu r chứng minh ước lượng vững ước −ρ(1 − ρ2 ) lượng chệch hệ số tương quan lý thuyết ρ với độ chệch Do 2n r = khơng có nghĩa ρ = 0, ngược lại r ̸= chưa ρ ̸= 0, chí có X, Y lại độc lập với Vì cần phải kiểm định giả thuyết giá trị ρ để có kết luận thống kê đắn tồn hay khơng tồn mối quan hệ tuyến tính hai biến ngẫu nhiên xét 140 Chương 6: Tương quan hồi quy 6.3.3 Kiểm định giả thuyết giá trị ρ Có nhiều tốn kiểm định giả thuyết giá trị ρ, nhiên khn khổ giáo trình ta xét toán kiểm định giả thuyết H0 : ρ = 0, tức toán sau: Bài toán Kiểm định giả thuyết tương quan tuyến tính hai biến ngẫu nhiên X Y Giải Để giải toán này, trước hết ta xây dựng mẫu ngẫu nhiên, tính hệ số tương quan mẫu r, sau tiến hành thủ tục tốn kiểm định giả thuyết Bước Chọn giả thuyết: H0 : ρ = 0, đối thuyết: H1 : ρ ̸= √ n−2 Bước Chọn tiêu chuẩn kiểm định: T = r √ − r2 Bước Từ mẫu cụ thể ta tính Tqs (n−2) (n−2) Bước Tìm miền bác bỏ Wα : (−∞; −t1− α ) ∪ (t1− α ; +∞) 2 Bước So sánh Tqs với miền bác bỏ: Tqs ∈ Wα bác bỏ H0 , tức X Y có quan hệ tuyến tính Nếu Tqs ̸∈ Wα chưa có sở bác bỏ H0 , tức X Y khơng có quan hệ tuyến tính  Ví dụ 6.3.9 Quay trở lại ví dụ (6.3.7), kiểm tra xem hai tổng thể hai biến ngẫu nhiên X, Y có quan hệ tuyến tính khơng với mức ý nghĩa α = 0,05 Giải Chọn giả thuyết H0 : ρ = 0, đối thuyết H1 : ρ ̸= Ta có √ √ n−2 48 Tqs = r √ = 0,588 √ = 5,0264; − r2 − 0,5882 α (48) Vì α = 0,05 nên − = 0,975, tra Phụ lục ta có t0,975 ≈ 2,02, miền bác bỏ hai phía (−∞; −2,02) ∪ (2,02; +∞) Dễ thấy Tqs ∈ Wα nên bác bỏ H0 , tức hai biến X, Y có quan hệ tuyến tính 6.4 Hồi quy tuyến tính 6.4.1 Mơ hình hồi quy tuyến tính Để mơ hình hóa quan hệ tuyến tính tương đối chặt chẽ hai biến ngẫu nhiên X, Y người ta sử dụng loại mơ hình sau Định nghĩa 6.4.1 Mơ hình hồi quy tuyến tính đơn giản (Simple linear regression model) mơ hình có dạng sau Yi = A + BXi + ei , (6.7) Yi giá trị biến phụ thuộc Y , Xi giá trị biến độc lập X ei sai số lần quan sát thứ i Hệ số A (điểm cắt đường thẳng hồi quy 6.4 Hồi quy tuyến tính 141 tổng thể trục Oy) giá trị trung bình Y X thay đổi đơn vị Hệ số B (độ dốc đường hồi quy tổng thể) mơ tả thay đổi giá trị trung bình Y X thay đổi đơn vị Phương trình (6.7) cho phép ta tiên đốn giá trị Y biết giá trị cụ thể X, phương trình cho thấy phương trình khơng thể giúp tiên đốn Y xác tuyệt đối Như vậy, với giá trị cụ thể X cho trước có nhiều giá trị cụ thể Y Chẳng hạn, ta quan sát bảng số liệu sau đây: X Y 6 8 10 10 11 12 Với giá trị X có giá trị khác Y Như vậy, đường hồi quy khơng thể qua tất điểm có tọa độ (x, y) y 12 10 x Hình 6.5: Đường hồi quy tuyến tính Biểu diễn số liệu biểu đồ phân tán đường thẳng hồi quy đồ thị phân tán đường “vừa khít nhất” cho tất điểm theo nghĩa tổng bình phương khoảng cách điểm đường “vừa khít nhất” nhỏ 6.4.2 Phương trình hồi quy tuyến tính đơn giản tổng thể Định nghĩa 6.4.2 Phương trình hồi quy tuyến tính tổng thể (Population simple linear regression equation) phương trình diễn tả giá trị trung bình biến phụ thuộc Y theo biến độc lập X biết Y = A + BX (6.8) Nếu biểu diễn biểu đồ phân tán đường hồi quy đường qua giá trị trung bình giá trị y có thực tương ứng với x cho trước Vấn đề đặt ta cần xác định hai tham số A, B phương trình (6.8) Phương pháp bình phương tối thiểu (least squared method) phương pháp tốt 142 Chương 6: Tương quan hồi quy Y Yi = A + BXi + ei ei β A B = tan β Giá trị quan sát Y = A + BX X Hình 6.6: Mơ hình hồi quy tuyến tính tổng thể để ước tính tham số Theo phương pháp này, xây dựng cơng thức tính A, B cho cực tiểu sai số bình phương trung bình E(Y − A − BX)2 Sử dụng tính chất kỳ vọng, ta có đánh giá sau √ √ E(Y − BX − A)2 = B V (X) − 2Bρ V (X) V (Y ) + V (Y ) + (E(Y ) − BE(X) − A)2 Vế phải đạt cực tiểu tam thức bậc hai theo B √ √ B V (X) − 2Bρ V (X) V (Y ) + V (Y ) (6.9) đạt cực tiểu số hạng (E(Y ) − BE(X) − A)2 = (6.10) Đạo hàm tam thức bậc hai (6.9) theo B ta có (6.9) đạt cực tiểu √ √ √ −2ρ V (X) V (Y ) V (Y ) =ρ (6.11) B= 2V (X) V (X) Ta chọn √ A = E(Y ) − BE(X) = E(Y ) − ρ Khi √ E(Y − BX − A)2 = ρ2 V (Y ) V (X) − 2ρ V (X) V (Y ) E(X) V (X) (6.12) √ V (Y ) √ ρ V (Y ) V (X) + V (Y ) V (X) = V (Y )(1 − ρ2 ) Vậy tham số A, B chọn (6.11) (6.12) Khi phương trình đường hồi quy bình phương trung bình tuyến tính tổng thể Y theo X (tương ứng X theo Y ) √ √ √ V (Y ) V (Y ) V (Y ) X + E(Y ) − ρ E(X) = ρ (X − E(X)) + E(Y ) Y =ρ V (X) V (X) V (X) (6.13) 6.4 Hồi quy tuyến tính 143 √ √ √ V (X) V (X) V (X) X=ρ Y + E(X) − ρ E(Y ) = ρ (Y − E(Y )) + E(X) V (Y ) V (Y ) V (Y ) (6.14) Sai số bình phương trung bình (sai số dự báo) dùng đường hồi quy trung bình tuyến tính để xấp xỉ Y (tương ứng xấp xỉ X) 2 σy/x = V (Y )(1 − ρ2 ); σx/y = V (X)(1 − ρ2 ) (6.15) σx/y = V (X)(1 − ρ2 ) (6.16) Chú ý 6.4.3 (i) Mơ hình hồi quy tuyến tính (6.13) hay (6.14) cịn gọi phương trình đường hồi quy lý thuyết (ii) Người ta chứng minh hai biến ngẫu nhiên X, Y tuân theo phân phối chuẩn hai chiều, với kỳ vọng E(X), E(Y ), phương sai dương V (X), V (Y ) hệ số tương quan lý thuyết ρ hàm hồi quy Y theo X hàm hồi quy X theo Y hàm tuyến tính (iii) Khi dùng hàm hồi quy tuyến tính (6.13) để xấp xỉ Y sai số dự báo σy/x = V (Y )(1 − ρ2 ) Nhìn vào cơng thức 6.15 ta thấy sai số nhỏ |ρ| gần Do nên dùng hàm hồi quy (6.13) để xấp xỉ Y sở biết X |ρ| gần (tương tự cho trường hợp xấp xỉ X) 6.4.3 Phương trình đường hồi quy tuyến tính mẫu Trong thực tế, khảo sát hết tổng thể, nên chưa biết quy luật phân phối xác suất (X, Y ), chưa biết đặc trưng kì vọng, phương sai biến ngẫu nhiên nên khó xác định dạng toán học hàm hồi quy tổng thể Chúng ta phải dựa mẫu để xây dựng hàm hồi quy tuyến tính mẫu (sample linear regression equation) hay cịn gọi hàm hồi quy bình phương trung bình tuyến tính thực nghiệm Giả sử (x1 , y1 ), (x2 , y2 ), , (xn , yn ) n cặp quan sát mẫu thành lập từ hệ hai biến ngẫu nhiên (X, Y ) Từ mẫu cụ thể trên, ta xây dựng đường hồi quy bình phương trung bình tuyến tính thực nghiệm cách phương trình (6.13) (6.14) thay tham số đặc trưng tổng thể tham số mẫu tương ứng, tức thay E(Y ) y, E(X) x, V (Y ) sy , V (X) sx ρ r Khi ta có: - Phương trình đường hồi quy bình phương trung bình tuyến tính thực nghiệm y theo x (tương ứng x theo y) sy sx y = r (x − x) + y; x = r (y − y) + x, (6.17) sx sy với sai số dự báo mẫu tương ứng s2y/x = s2y (1 − r2 ); s2x/y = s2x (1 − r2 ) (6.18) 144 Chương 6: Tương quan hồi quy Ví dụ 6.4.4 Để thực cơng trình nghiên cứu mối quan hệ chiều cao Y (m) đường kính X (cm) loại cây, người ta quan sát mẫu ngẫu nhiên có kết  xi yi 1 4 11 14 (i) Hãy vẽ biểu đồ phân tán cho liệu bảng (ii) Hãy tính hệ số tương quan mẫu cho nhận xét mối quan hệ chiều cao đường kính (iii) Viết phương trình đường hồi quy bình phương trung bình tuyến tính thực nghiệm chiều cao theo đường kính Hãy dự báo chiều cao có đường kính 12 (cm) Giải (i) Biểu đồ phân tán mơ tả Hình 6.7 (ii) Để tính hệ số tương quan mẫu, ta lập bảng tính sau: xi 11 ∑ 14 = 56 yi 4 ∑ = 40 x2i 16 36 64 81 121 ∑ 196 = 524 yi2 16 16 25 49 64 ∑ 81 = 256 xi y i 16 24 40 63 88 ∑ 126 = 364 Từ bảng ta tính x = 7; sx = 4,342; y = 5; sy = 2,828, xy = 45,5 Hệ số tương quan mẫu r= 45,5 − 7,5 = 0,977 (4,342)(2,828) Như vậy, chiều cao đường kính có mối quan hệ tương quan thuận mạnh, tức đường kính lớn cao (iii) Phương trình đường hồi quy bình phương trung bình tuyến tính thực nghiệm chiều cao đường kính sy y = r (x − x) + y = 0,6364x + 0,5455 sx Phương trình hồi quy tuyến tính thực nghiệm có độ dốc 0,6364, nghĩa tăng đường kính lên (cm) chiều cao trung bình tăng lên khoảng 0,6364 (m) (xem Hình 6.8) Khi đường kính 12 (cm) dự báo chiều cao y0 = 0,6364.12 + 0,5455 = 8,1823(m) 6.4 Hồi quy tuyến tính 145 y y 5 2 14 x 11 y= 55 ,6 11 Hình 6.7: Biểu đồ phân tán  + 3x 4 ,5 14 x Hình 6.8: Đồ thị hàm hồi quy tuyến tính Ví dụ 6.4.5 Để nghiên cứu tác dụng phân vi sinh X (tạ/ha) tới suất cà chua Y (tấn/ha), người ta thí nghiệm 20 ruộng Sau thu hoạch ta có kết sau: X Y 20 22 24 0,15 0,17 0,19 0,21 0,23 2 (i) Tìm hệ số tương quan mẫu cho nhận xét (ii) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X (iii) Hãy tính sai số dự báo mẫu cho phương trình đường hồi quy bình phương trung bình tuyến tính thực nghiệm xi − 0,19 yj − 22 Giải (i) Đặt u = ;v = lập lại bảng số liệu 0,02 u -2 v −1 -1 2 nj vj −8 0 5 Σn = 20 Σu = −6 Σu2 = 26 Σv = −3 Σv2 = 13 2 -6 6 0 4 Nhìn vào bảng số liệu ta có: −6 −3 u= = −0,3; v = = −0,15; 20 20 u v = 0,045; √ su = 1,3 − (−0,3)2 = 1,1; 2 nj vj2 nj 0 -6 12 mi mi ui mi u2i Σuv = 12 26 13 = 1,3; v = = 0,65.; 20 20 12 uv = = 0,6; √20 sv = 0,65 − (−0,15)2 = 0,79215 u2 = 146 Chương 6: Tương quan hồi quy Vậy hệ số tương quan mẫu r= uv − u v 0,555 = = 0,637 su sv 0,871365 (ii) Dùng công thức đổi biến để đổi lại biến u biến x, ta có x = x0 + hx u = 0,19 + (0,02)(−0,3) = 0,184; y = y0 + hy v = 22 + (2)(−0,15) = 21,7; sx = hx su = (0,02)(1,1) = 0,022; sy = hy sv = (2)(0,79215) = 1,5843 Phương trình đường hồi quy bình phương trung bình tuyến tính thực nghiệm y theo x sy y = r (x − x) + y = 45,873x + 13,2594 sx (iii) Sai số dự báo mẫu s2y/x = s2y (1 − r2 ) = (1,5843)2 (1 − 0,6372 ) = 1,492 Bài tập Chương Theo dõi doanh thu X (triệu đồng/tháng) tiền lãi Y (triệu đồng/tháng) 10 đại lý thức ăn chăn nuôi tháng tỉnh A ta có kết sau: X Y ni 32 4,2 34 4,4 36 4,6 38 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Để nghiên cứu ảnh hưởng lượng phân bón X (tạ/ha) suất lúa Y (tấn/ha), người ta thí nghiệm 10 ruộng Sau thu hoạch ta có kết sau: X Y 3,9 4,1 4,3 1,2 1,4 2 1,5 1,6 2 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Theo dõi doanh thu X (triệu đồng/tháng) tiền lãi Y (triệu đồng/tháng) cửa hàng bán giống trồng 12 tháng ta kết sau: X Y ni 14 2,8 16 3,2 18 20 3,4 6.4 Hồi quy tuyến tính 147 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Điều tra tổng sản phẩm nông nghiệp X (triệu đồng) tổng tài sản cố định Y (triệu đồng) 10 nông trại ta thu số liệu sau: X Y 11,3 13,2 12,9 15,6 13,6 17,2 16,8 18,8 18,8 20,2 22,0 21,9 22,2 22,4 23,7 23,0 26,6 24,4 27,5 24,6 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X X theo Y Người ta xét 10 mảnh ruộng kết sau tỷ lệ phần trăm hạt X suất lúa Y (tấn/ha): X Y 83 80 90 7,5 83 5,5 85 5,3 95 5,6 90 6,8 85 6,9 93 7,3 88 6,5 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Theo dõi vi lượng A đất trồng X (mg/kg đất) suất loại rau Y (tấn/ha) ta có kết sau: X Y 16 10 17 9,3 18 8,7 19 9,7 20 21 8,1 22 23 8,2 24 7,7 25 7,6 26 7,9 27 7,8 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Số vi khuẩn Y (triệu con) sinh sản sau X (giờ) ghi lại bảng sau qua thí nghiệm: X Y 30 32 35 40 48 52 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình đường hồi quy tuyến tính thực nghiệm Y theo X Dự báo số vi khuẩn sau 10 Để nghiên cứu tác dụng phân vi sinh X (tạ/ha) tới suất cà chua Y (tấn/ha), người ta thí nghiệm 20 ruộng Sau thu hoạch ta có kết sau: X Y 20 22 24 0,15 0,17 0,19 0,21 0,23 2 (a) Tìm hệ số tương quan mẫu cho nhận xét (b) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X

Ngày đăng: 25/07/2023, 11:11