1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập xác suất thống kê và thực hành trên phần mềm r

182 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

NGUYỄN THỊ DUNG, MAI THỊ NGỌC HÀ (Đồng chủ biên) VI DIỆU MINH, BÙI LINH PHƯỢNG, DƯƠNG THỊ HỒNG BÀI TẬP XÁC SUẤT THỐNG KÊ VÀ THỰC HÀNH TRÊN PHẦN MỀM R NHÀ XUẤT BẢN BÁCH KHOA HÀ NỘI Biên mục xuất phẩm Thư viện Quốc gia Việt Nam Bài tập Xác suất thống kê thực hành phần mềm R / Nguyễn Thị Dung, Mai Thị Ngọc Hà (ch.b.), Vi Diệu Minh - H : Bách khoa Hà Nội, 2023 - 182 tr : minh hoạ ; 27 cm Phụ lục: tr 170-173 - Thư mục: tr 174-175 Xác suất thống kê Phần mềm máy tính R Bài tập Thực hành 519.2076 - dc23 BKF0271p-CIP ii Lời nói đầu Xác suất thống kê (XSTK) môn học thú vị có nhiều ứng dụng thực tế, đặc biệt lĩnh vực nông − lâm nghiệp Trước đây, có sách giáo trình viết cho sinh viên Trường Đại học Nông Lâm, nhiên sinh viên cần có tài liệu phương pháp giải tập XSTK để tự học môn học Hơn nữa, phát triển mạnh mẽ công nghệ thời kỳ Cách mạng 4.0 đòi hỏi việc dạy học môn XSTK cần phải thay đổi để bắt kịp với xu thời đại Chính vậy, nhóm tác giả biên soạn sách “Bài tập xác suất thống kê thực hành phần mềm R” với mục đích phân loại, hướng dẫn giải dạng tập; bổ sung số kiến thức chưa viết giáo trình trước đây; giới thiệu R − phần mềm thống kê miễn phí, mã nguồn mở dễ sử dụng để sinh viên tiếp cận với phần mềm thống kê đa lĩnh vực làm tảng cho việc học phần mềm chuyên ngành sau Stata, SPSS, SAS, v.v Cấu trúc sách bao gồm chương phụ lục Phần xác suất thuộc hai chương đầu: Chương trình bày nội dung định nghĩa định lý xác suất; Chương trình bày biến ngẫu nhiên rời rạc, biến ngẫu nhiên liên tục, tham số đặc trưng biến ngẫu nhiên phần số quy luật phân phối xác suất thông dụng bước đầu sử dụng phần mềm R để tính số hàm liên quan Phần thống kê nằm bốn chương cuối: Chương tảng phần thống kê, trình bày thống kê mơ tả phương pháp mô tả số liệu thực nghiệm tham số thống kê mô tả mẫu ngẫu nhiên; Chương 4, trình bày toán thống kê suy luận bản: ước lượng tham số khoảng tin cậy; kiểm định giả thuyết thống kê giá trị trung bình, xác suất tổng thể; xác định hệ số tương quan phương trình đường hồi quy Chương sách giới thiệu số kiến thức phần mềm R để sinh viên sử dụng chương sách Cuối phần phụ lục cung cấp số bảng giá trị để tra cứu Để đáp ứng tốt mục tiêu đặt ra, chương, đơn vị kiến thức chia thành ba phần: A Tóm tắt lý thuyết; B Một số ví dụ mẫu; C Bài tập áp dụng cuối chương có hướng dẫn giải chi tiết đáp số tập cho mục C chương Trong phần A trọng tóm tắt kiến thức trọng tâm, thuật ngữ, khái niệm, tính chất, v.v mà người học cần nắm vững học phần B đưa ví dụ mẫu bao gồm hướng dẫn cách phân tích tốn, bước giải, cách lập luận, đặc biệt sai lầm mà người học mắc phải q trình giải toán cuối phần C đưa dạng tập áp dụng để người học thực hành, vận dụng kiến thức phần A B Ở phần thống kê, để giúp sinh viên vừa hiểu chất công thức bản, tảng môn học, vừa biết sử dụng cơng nghệ để xử lý tốn có liệu lớn, phần tóm tắt lý thuyết ví dụ mẫu đưa ngồi cách giải thủ cơng máy tính bỏ túi, cách giải phần mềm thống kê R iv Lời nói đầu hướng dẫn chi tiết Đặc biệt, dành Mục 3.3 Chương để giới thiệu cho sinh viên thực hành khai phá tìm hiểu tập liệu, tải liệu thực hành phân tích thống kê từ số nguồn https://www.kaggle.com/; https://www.packtpub.com/ gõ từ khóa Google Cuốn sách viết để phục vụ cho việc dạy học môn XSTK Trường Đại học Nông Lâm − Đại học Thái Nguyên Với bố cục nội dung cập nhật trình bày trên, nhóm tác giả hy vọng tài liệu giúp cho sinh viên tự học tốt Hai chương đầu sách phần xác suất ThS Vi Diệu Minh, TS Dương Thị Hồng ThS Bùi Linh Phượng biên soạn Phần thống kê gồm bốn chương cuối ThS Mai Thị Ngọc Hà PGS TS Nguyễn Thị Dung biên soạn Chương phần phụ lục ThS Mai Thị Ngọc Hà ThS Vi Diệu Minh đảm nhận Chúng xin trân trọng cảm ơn Bộ môn Khoa học tự nhiên, Khoa Khoa học bản, Trường Đại học Nông Lâm − Đại học Thái Nguyên tạo điều kiện thuận lợi để tác giả biên soạn sách Chúng xin cảm ơn đóng góp thiết thực giảng viên tổ Tốn thuộc Bộ mơn Khoa học tự nhiên − Khoa Khoa học nhận xét quý báu phản biện để giúp sách sớm hoàn thành Mặc dù cố gắng sách khó tránh khỏi sai sót, chúng tơi mong nhận ý kiến đóng góp bạn đọc để sách hoàn thiện lần xuất sau Thái Nguyên, ngày 01 tháng 12 năm 2022 Nhóm tác giả Mục lục Chương CÁC ĐỊNH NGHĨA VÀ ĐỊNH LÝ VỀ XÁC SUẤT 1.1 Một số quy tắc đếm 1.2 Tính xác suất định nghĩa cổ điển 1.3 Tính xác suất cơng thức cộng 1.4 Tính xác suất cơng thức nhân 11 1.5 Tính xác suất cơng thức xác suất đầy đủ Bayes 15 1.6 Tính xác suất công thức Bernoulli 20 Hướng dẫn giải tập chương 24 Chương BIẾN NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT 31 2.1 Biến ngẫu nhiên rời rạc quy luật phân phối xác suất 31 2.2 Biến ngẫu nhiên liên tục quy luật phân phối xác suất 35 2.3 Các tham số đặc trưng biến ngẫu nhiên 38 2.4 Một số phân phối xác suất thông dụng 43 Hướng dẫn giải tập chương 53 Chương THỐNG KÊ MÔ TẢ 58 3.1 Các phương pháp mô tả số liệu thực nghiệm 58 3.2 Các tham số thống kê mô tả mẫu ngẫu nhiên 66 3.3 Thực hành khai phá tìm hiểu liệu 79 Hướng dẫn giải tập chương 85 Chương ƯỚC LƯỢNG THAM SỐ BẰNG KHOẢNG TIN CẬY 88 4.1 Lý thuyết chung ước lượng 88 4.2 Ước lượng giá trị trung bình 89 4.3 Ước lượng tỷ lệ 104 Hướng dẫn giải tập chương 113 Chương KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 115 5.1 Lý thuyết chung kiểm định giả thuyết 115 5.2 Kiểm định giả thuyết giá trị trung bình tổng thể 117 5.3 Kiểm định giả thuyết tỷ lệ tổng thể 127 MỤC LỤC Hướng dẫn giải tập chương 132 Chương TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH 134 6.1 Hệ số tương quan tuyến tính 134 6.2 Hồi quy tuyến tính 144 6.3 Khai phá mối quan hệ biến viết phương trình đường hồi quy 152 Hướng dẫn giải tập chương 155 Chương GIỚI THIỆU VỀ NGÔN NGỮ R 162 7.1 Một số hướng dẫn mở đầu R 162 7.1.1 Tải cài đặt R 162 7.1.2 Khởi động ngừng chạy R 162 7.1.3 Văn phạm ngôn ngữ R 162 7.1.4 Cách đặt tên R 163 7.1.5 Gói lệnh cách cài đặt gói lệnh R 163 7.2 Dữ liệu số thao tác tiền xử lý liệu 164 7.2.1 Nhập liệu R 164 7.2.2 Một số phép toán hàm đơn giản R 166 7.2.3 Viết hàm R 168 Phụ lục 170 Tài liệu tham khảo 174 CHƯƠNG CÁC ĐỊNH NGHĨA VÀ ĐỊNH LÝ VỀ XÁC SUẤT 1.1 Một số quy tắc đếm A TÓM TẮT LÝ THUYẾT Cho k n số tự nhiên Ta nhắc số quy tắc đếm sau: (i) Quy tắc cộng Giả sử cơng việc thực theo k phương án Phương án thứ có n1 cách thực hiện, phương án thứ hai có n2 cách thực hiện, , phương án thứ k có nk cách thực Khi đó, số cách hồn thành cơng việc n = n1 + n2 + + nk (ii) Quy tắc nhân Giả sử để thực công việc ta phải chia thành k công đoạn Công đoạn thứ có n1 cách thực hiện, cơng đoạn thứ hai có n2 cách thực hiện, , cơng đoạn thứ k có nk cách thực Khi đó, số cách hồn thành cơng việc n = n1 × n2 × × nk (iii) Một chỉnh hợp lặp chập k n phần tử dãy phân biệt thứ tự gồm k phần tử (không thiết phải khác nhau) lấy từ n phần tử cho Số chỉnh hợp lặp, ký hiệu Akn , tính cơng thức Akn = nk (iv) Một chỉnh hợp không lặp chập k n phần tử (k ≤ n) dãy phân biệt thứ tự gồm k phần tử khác lấy từ n phần tử cho Số chỉnh hợp không n! lặp, ký hiệu Akn , tính cơng thức Akn = (n− k)! (v) Một hoán vị n phần tử chỉnh hợp không lặp chập n n phần tử Số hoán vị, ký hiệu Pn , tính cơng thức Pn = n! (vi) Một tổ hợp chập k n phần tử (k ≤ n) dãy không phân biệt thứ tự gồm k phần tử khác lấy từ n phần tử cho Số tổ hợp, ký hiệu Cnk , tính cơng thức Cnk = k!(nn!−k)! B MỘT SỐ VÍ DỤ MẪU Để đếm số khả xảy ra, ta đếm cách liệt kê tính nhẩm số khả xảy nhỏ Trong trường hợp số khả xảy lớn, ta cần phải đếm quy tắc giải tích tổ hợp: tổ hợp, chỉnh hợp, hoán vị, v.v CÁC ĐỊNH NGHĨA VÀ ĐỊNH LÝ VỀ XÁC SUẤT Nếu lấy k phần tử từ tập hợp n phần tử (k ≤ n) mà thứ tự lấy phần tử khơng có ý nghĩa (lấy đồng thời) ta dùng cách đếm tổ hợp, cách lấy có phân biệt thứ tự (lấy liên tiếp khơng hồn lại gắn số thứ tự) ta dùng cách đếm chỉnh hợp Chỉnh hợp khơng lặp chỉnh hợp có lặp khác tính lặp (phần tử lấy lấy lại nhiều lần) Ta dùng quy tắc cộng trường hợp công việc hoàn thành cần thực theo k phương án, quy tắc nhân dùng trường hợp cơng việc hồn thành phải thực đủ k công đoạn Sau số ví dụ mẫu Ví dụ 1.1 Có cách xếp khách lên toa tàu hỏa? Hướng dẫn giải Giả thiết xếp khách lên toa tàu hỏa nói lên tính thứ tự Ngồi ra, khách lựa chọn lên toa nói lên tính lặp Như vậy, số cách xếp khách lên toa tàu chỉnh hợp có lặp chập 9: A49 = 94 = 6561 cách Ngoài cách giải sử dụng quy tắc đếm chỉnh hợp lặp, giải quy tắc nhân sau Khi xếp khách lên toa tàu hỏa khách ngồi trùng toa với nên khách thứ có cách xếp, khách thứ hai có cách xếp, khách thứ ba có cách xếp khách thứ có cách xếp Như vậy, theo quy tắc nhân, số cách xếp khách lên toa tàu hỏa 9.9.9.9 = 94 = 6561 cách Ví dụ 1.2 Trong lớp học có 50 học sinh Có cách chọn bạn vào ban cán lớp, có bạn làm lớp trưởng, bạn làm lớp phó bạn làm bí thư? Hướng dẫn giải Giả thiết chọn bạn vào ban cán với chức vụ khác nói lên tính thứ tự, ngồi ra, cần chọn bạn khác từ tập thể lớp 50 bạn nên số cách chọn bạn vào ban cán chỉnh hợp không lặp chập 50 phần tử: A350 = 117600 cách chọn Ví dụ 1.3 Trong chuồng thỏ có 10 thỏ trắng thỏ nâu Có cách bắt thỏ để: a) Bắt thỏ trắng thỏ nâu? b) Bắt thỏ nâu? Hướng dẫn giải a) Công việc bắt thỏ chia thành công đoạn bắt thỏ trắng bắt thỏ nâu Ngồi ra, cơng đoạn thỏ bắt lúc không phân biệt thứ tự nên ta dùng cách đếm tổ hợp Như vậy, ý ta sử dụng phối hợp quy tắc nhân tổ hợp 1.1 Một số quy tắc đếm Công đoạn bắt thỏ trắng có số cách bắt là: n1 = C10 Cơng đoạn hai bắt thỏ nâu có số cách bắt là: n2 = C53 Vậy theo quy tắc nhân, số cách bắt thỏ theo yêu cầu là: n = n1 × n2 = C10 C5 = 450 b) Cơng việc bắt thỏ nâu có phương án thực bắt nâu, trắng bắt nâu Như vậy, ý ta dùng phối hợp quy tắc cộng, quy tắc nhân tổ hợp Phương án 1: Bắt thỏ nâu thỏ trắng Phương án 2: Bắt thỏ nâu Trong đó: C4 Phương án chia thành cơng đoạn có số cách thực n1 = C10 C5 Phương án chia thành cơng đoạn có số cách thực là: n2 = C10 Vậy, theo quy tắc cộng, số cách bắt thỏ theo yêu cầu là: n = n1 + n2 = C10 C5 + C10 C5 = 51 Ví dụ 1.4 Một đoạn gen gồm gen X, gen Y, gen Z gen T liên kết với theo hàng dọc a) Hỏi có cách liên kết gen nói trên? b) Hỏi có cách liên kết để gen X đứng liền nhau? Hướng dẫn giải a) Mỗi cách liên kết gen ta đoạn gen Do đoạn gen có phân biệt thứ tự nên số cách liên kết gen hoán vị phần tử n = 8! b) Để gen X ln đứng liền ta nhóm gen X coi gen, cần xếp gen theo thứ tự Vậy số cách liên kết để gen X đứng liền n = 7! C BÀI TẬP ÁP DỤNG Bài tập 1.1 Một lớp học có 15 học sinh nam 10 học sinh nữ Gọi ngẫu nhiên bạn lên bảng làm tập Hỏi có cách gọi để: a) Có học sinh nam học sinh nữ? b) Trong bạn có nam nữ? Bài tập 1.2 Sinh viên năm thứ trường đại học phải học học phần học kỳ, buổi học học phần Hỏi rằng, phịng đào tạo có cách xếp thời khóa biểu buổi học? Bài tập 1.3 Thang máy tòa nhà tầng xuất phát từ tầng với khách Hỏi khách có lựa chọn tầng để ra? CÁC ĐỊNH NGHĨA VÀ ĐỊNH LÝ VỀ XÁC SUẤT Bài tập 1.4 Có cách nhốt thỏ vào chuồng biết chuồng nhốt con? Bài tập 1.5 Có cách nhốt gà vào chuồng gà? Bài tập 1.6 Để đăng ký biển số xe máy, người ta dùng chữ số từ tập hợp số 0, 1, 2, 3, , để lập thành seri Hỏi seri đăng ký cho xe? Bài tập 1.7 Có 10 đội bóng thi đấu với theo thể thức đấu vòng tròn Hỏi phải tổ chức trận đấu? Bài tập 1.8 Một đàn gà có 20 con, có gà ri, gà tam hồng, gà tre gà đơng tảo Hỏi có cách chọn ngẫu nhiên thuộc giống gà khác nhau? 1.2 Tính xác suất định nghĩa cổ điển A TÓM TẮT LÝ THUYẾT a) Phép thử biến cố (i) Phép thử thí nghiệm hay quan sát tượng tự nhiên, xã hội vấn đề kỹ thuật với hệ điều kiện (ii) Tập hợp gồm tất kết có phép thử gọi khơng gian mẫu, thường ký hiệu Ω (hay S) Mỗi phần tử không gian mẫu Ω gọi biến cố sơ cấp (iii) Biến cố biến cố không xảy thực phép thử, tương ứng với tập ∅ khơng gian mẫu Ω (iv) Biến cố chắn biến cố ln ln xảy thực phép thử, tương ứng với tồn khơng gian mẫu Ω (v) Biến cố ngẫu nhiên (hay biến cố ), thường ký hiệu chữ A, B, C, , biến cố xảy khơng xảy thực phép thử, tương ứng với tập không gian mẫu Ω b) Định nghĩa cổ điển xác suất Xác suất xuất biến cố A phép thử, ký hiệu P( A), tỷ số số biến cố sơ cấp thuận lợi cho A số biến cố sơ cấp đồng khả xảy thực phép thử m P( A) = n 145 6.2 Hồi quy tuyến tính Hình 6.5: Đường hồi quy tuyến tính Giả sử ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) n cặp quan sát mẫu thành lập từ hệ hai biến ngẫu nhiên ( X, Y ) Ta biểu thị số liệu ( xi , yi ), với i = 1, n điểm M( xi , yi ) có hồnh độ xi tung độ yi Khi ta có tập hợp n điểm mặt phẳng, gọi đám mây điểm Nếu điểm đám mây tụ tập xung quanh đường thẳng cho mơ hình tuyến tính phù hợp tức Y có hồi quy tuyến tính theo X Giả sử Y có hồi quy tuyến tính theo X Bài toán cần ước lượng hệ số hồi quy lý thuyết A, B dựa mẫu liệu thu Gọi a, b tương ứng ước lượng cho A, B Bằng phương pháp bình phương bé nhất, ta tìm ước lượng cho công thức sau: n ∑ ( xi − x )(yi − y) a= i =1 n ∑ ( xi − (6.11) x )2 i =1 =r sy ; sx b = y − a.x = y − r (6.12) sy x sx (6.13) 146 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Đường thẳng với phương trình y = ax + b gọi đường hồi quy tuyến tính thực nghiệm (gọi tắt đường thẳng hồi quy) có dạng: y = ax + b = r sy ( x − x ) + y sx (6.14) Hình 6.6: Đường hồi quy tuyến tính thực nghiệm Phương trình đường hồi quy tuyến tính thực nghiệm (hình 6.6) tìm cho phép ta dự báo giá trị biến Y biết giá trị biến X Hiệu số giá trị thực tế giá trị dự báo gọi phần dư c) Viết phương trình đường hồi quy lệnh phần mềm R Trong R, ta sử dụng hàm lm() (linear model) với cấu trúc sau: lm(y ∼ x, data) đó, x, y data hai vectơ liệu biến độc lập biến phụ thuộc tương ứng; bảng liệu chứa liệu hai biến Chúng ta vẽ phương trình đường hồi quy hệ trục tọa độ với biểu đồ phân tán lệnh sau: abline(lm(y ∼ x )) (6.15) d) Sai số tiêu chuẩn đường thẳng hồi quy Ngoài việc ước lượng hệ số hồi quy lý thuyết, ta quan tâm tới ước lượng phương sai σY,X mơ hình hồi quy: Y = AX + B + ϵ 2 Vì σY,X = Var (ϵ) = E(Y − AX − B)2 nên σY,X đo mức độ phân tán Y quanh đường thẳng hồi quy lý thuyết Y = AX + B 147 6.2 Hồi quy tuyến tính , ký hiệu s2 , cho công thức: Ước lượng cho phương sai σY,X y,x s2y,x = s2y (1 − r2 ) Đại lượng sy,x = q (6.16) s2y,x gọi sai số tiêu chuẩn đường thẳng hồi quy Nó đo phân tán đám mây điểm { Mi , i = 1, 2, 3, , n} xung quanh đường thẳng hồi quy y = ax + b e) Kiểm định hệ số hồi quy Giả sử X Y hai biến ngẫu nhiên có phân phối chuẩn Một vấn đề quan trọng cần kiểm định xem biến độc lập X có thực giải thích cho biến phụ thuộc Y hay khơng, ta cần tiến hành tốn kiểm định giả thuyết H0 : "Hệ số góc A đường thẳng hồi quy lý thuyết 0" Nếu giả thuyết H0 Y khơng giải thích X Các bước kiểm định sau: Bước Chọn giả thuyết H0 : A = đối thuyết H1 : A ̸= Bước Chọn tiêu chuẩn kiểm định: T= a sa Nếu giả thuyết H0 T có phân bố Student với (n − 2) bậc tự do, đó: sa = q s2a , vi s2a = s2y,x n ∑ ( xi − x )2 i =1 Thay giá trị cụ thể mẫu vào tiêu chuẩn kiểm định T ta Tqs Bước Ta bác bỏ H0 ∥ Tqs ∥ > tα/2,n−2 , tα/2,n−2 phân vị mức α phân bố Student với (n − 2) bậc tự B MỘT SỐ VÍ DỤ MẪU Ví dụ 6.4 Quay trở lại ví dụ 6.1 a) Hãy viết phương trình đường hồi quy tuyến tính thực nghiệm; b) Hãy dự báo suất lúa mức bón phân đạm 130 (kg/ha) c) Hãy tính sai số tiêu chuẩn đường thẳng hồi quy xây dựng lệnh R Hướng dẫn giải Ta thấy hệ số tương quan mẫu mức bón phân đạm suất lúa 0, 985 với biểu đồ phân tán cho thấy y x có quan hệ tuyến tính mạnh, 148 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH điểm có xu hướng đường dốc lên Ta viết mơ hình hồi quy tuyến tính mẫu đoạn lệnh phần mềm R sau: > xP = c(0, 50, 100, 150) > yNS = c(4230, 5442, 6661, 7150) > plot( xP, yNS, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) > VD = lm(yNS xP) > abline(VD ) Kết thu là: Call: lm(formula = yNS xP) Coefficients: (Intercept) xP 4373.90 19.96 Vậy phương trình đường hồi quy suất lúa theo lượng bón phân đạm là: y = 19, 96x + 4373, Đường hồi quy cho ta thấy tăng thêm kg phân đạm sản lượng lúa tăng lên 19, 96 kg b) Khi lượng bón phân 130 kg suất thu là: y = 19, 96.130 + 4373, = 6968, 7(kg) Hình 6.7: Phương trình đường hồi quy suất lúa theo mức bón phân đạm c) Ta sử dụng hàm summary phần mềm R để tính sau > summary(VD ) 149 6.2 Hồi quy tuyến tính Kết thu là: Call: lm(formula = yNS xP) Residuals: -143.9 70.2 291.3 -217.6 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 4373.900 235.041 18.609 0.00288 ** xP 19.958 2.513 7.943 0.01548 * — Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ Residual standard error: 280.9 on degrees of freedom Multiple R-squared: 0.9693, Adjusted R-squared: 0.9539 F-statistic: 63.09 on and DF, p-value: 0.01548 Như vậy, nhìn vào bảng kết ta thấy sai số chuẩn mô hình 280,9 với bậc tự Ví dụ 6.5 Một nhà khoa học quan tâm nghiên cứu mối liên hệ tuổi (X) mạch đập (Y) người phụ nữ Trong mẫu quan sát phụ nữ độ tuổi khác nhà khoa học thu số liệu: X Y 23 210 39 185 19 220 44 164 51 123 Sử dụng phần mềm R, thực yêu cầu sau: a) Tính hệ số tương quan mẫu; b) Viết phương trình đường hồi quy biến "mạch đập" theo "tuổi" giải thích kết Hướng dẫn giải a) Trên phần mềm R ta sử dụng lệnh sau: > x Tuoi = c(23, 39, 19, 44, 51) > y Mach = c(210, 185, 220, 164, 123) > cor ( x Tuoi , y Mach ) [1] − 0.9558581 Kết thu hệ số tương quan mẫu bằng: −0, 9558581 b) Để viết phương trình hồi quy ta dùng lệnh sau: > lm(y Mach ∼ x Tuoi ) 150 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Kết cho sau: Call: lm( f ormula = y Mach ∼ x Tuoi ) Coefficients: (Intercept) x T uoi 275.620 -2.705 Vậy ta có phương trình đường hồi quy tuyến tính thực nghiệm y theo x là: y = −2, 705x + 275, 620 Ta thấy x tăng thêm đơn vị y giảm lượng 2, 705 Để có hình ảnh sơ mối tương quan hai biến X Y, ta vẽ biểu đồ phân tán đường thẳng hồi quy tuyến tính mẫu mặt phẳng tọa độ lệnh sau: > plot( x Tuoi , y Mach , , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) > VD1 = lm(y Mach ∼ x Tuoi ) > abline(VD1 , col = ”orange”) Hình 6.8: Phương trình đường hồi quy biến mạch đập theo tuổi C BÀI TẬP ÁP DỤNG Bài tập 6.7 Số vi khuẩn Y (triệu con) sinh sản sau X (giờ) ghi lại bảng sau qua thí nghiệm: X Y 30 32 35 40 a) Tìm hệ số tương quan mẫu cho nhận xét; 48 52 151 6.2 Hồi quy tuyến tính b) Viết phương trình đường hồi quy tuyến tính mẫu Y theo X dự báo số vi khuẩn sau 10 giờ; c) Vẽ biểu đồ phân tán đường thẳng hồi quy tuyến tính mẫu mặt phẳng tọa độ Bài tập 6.8 Chiều dài xương đùi X (cm) chiều cao Y (cm) người đàn ông độ tuổi 20−30 biến ngẫu nhiên tuân theo quy luật phân phối chuẩn Đo chiều dài xương đùi chiều cao 10 người đàn ông chọn ngẫu nhiên độ tuổi Kết cho bảng sau: xi yi 44 155 46 159 47 163 47 166 48 169 49 172 50 174 50 176 51 176 52 179 a) X Y có thực tương quan tuyến tính khơng? Hãy dự đốn dựa biểu đồ phân tán; b) Tính hệ số tương quan mẫu cho nhận xét mức độ tương quan X Y; c) Viết phương trình đường hồi quy tuyến tính mẫu X theo Y Hãy dự báo xem giá trị Y giảm bớt (cm) giá trị tương ứng X biến thiên nào? Tại sao? Vẽ đường hồi quy tuyến tính mẫu mặt phẳng tọa độ với biểu đồ phân tán Bài tập 6.9 X% Y (kg/mm2 ) hai tiêu chất lượng loại sản phẩm Điều tra số sản phẩm, người ta giá trị ( xi , yi ) biến ngẫu nhiên X, Y sau: (2, 5); (2, 5); (6, 10); (6, 20); (6, 15); (8, 15); (6, 10); (6, 15); (6, 10); (6, 20); (4, 15); (4, 10); (4, 15); (6, 20) (8, 15) (4, 10); (8, 20); (6, 15); (6, 15); (6, 15); (2, 10); (6, 10); (6, 15); (6, 25); (8, 25); (8, 25); (8, 15); (8, 20); (8, 20); (8, 15); a) Tính hệ số tương quan mẫu X Y; b) X Y có thực tương quan tuyến tính với mức ý nghĩa 5% khơng? c) Viết phương trình hồi quy tuyến tính thực nghiệm Y theo X Bài tập 6.10 Nghiên cứu số lượng protein yi chứa hạt lúa mì suất lúa xi 10 ruộng kích thước, kết đo đạc sau: xi yi 9, 10, 10, 10, 11 12, 11, 12, 11, 12, 12, 12, 12, 12, 13, 11, 14, 11, 14, 12, 152 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH a) Tính hệ số tương quan mẫu cho nhận xét; b) Xác định đường hồi quy tuyến tính thực nghiệm Y theo X Bài tập 6.11 Bảng cho ta tuổi (tính theo năm) chiều cao thân (đơn vị mm) 15 lừa: xi yi xi yi xi yi 0, 06 5, 05 0, 36 5, 25 1, 77 3, 35 0, 08 4, 95 0, 56 4, 1, 94 3, 0, 08 5, 10 0, 53 5, 15 2, 14 3, 05 0, 18 4, 85 1, 02 4, 2, 44 2, 65 0, 28 4, 1, 23 4, 15 2, 44 3, 00 X tuổi Y chiều cao thân a) Tính hệ số tương quan X Y; b) Viết phương trình hồi quy tuyến tính mẫu Y theo X; c) Tính sai số tiêu chuẩn đường hồi quy; d) Với mức ý nghĩa 5%, kiểm định giả thuyết H0 : "Hệ số góc A đường thẳng hồi quy lý thuyết Y theo X 0." 6.3 Khai phá mối quan hệ biến viết phương trình đường hồi quy Quay trở lại với liệu usedcars.csv, để kiểm ta mối tương quan price mileage, vẽ biểu đồ phân tán Giả thuyết giá phụ thuộc vào quãng đường đồng hồ đo quãng đường Vì vậy, sử dụng price biến phụ thuộc y vào biến mileage biến độc lập x Hình 6.9: Biểu đồ phân tán mối quan hệ giá xe số dặm 6.3 Khai phá mối quan hệ biến viết phương trình đường hồi quy 153 > plot( x = usedcars$mileage, y = usedcars$price, main = "Scatterplot of Price vs Mileage",xlab = "Used Car Odometer (mi.)", ylab = "Used Car Price ($)") Nhìn vào biểu đồ phân tán, thấy giá xe số dặm được hiển thị đồng hồ đo công tơ mét có mối quan hệ chặt chẽ, số dặm tăng lên giá xe giảm xuống, điều có nghĩa giá quảng cáo thấp xe có số dặm cao Có lẽ phát thú vị thực tế có tơ vừa có giá cao lại vừa nhiều quãng đường, ngoại trừ xe ngoại lệ mức khoảng 125000 dặm 14000 USD Việc khơng có nhiều điểm cung cấp chứng để hỗ trợ cho kết luận liệu khó bao gồm tơ hạng sang có số dặm cao Tất xe đắt liệu, đặc biệt 17500 la, dường có số dặm thấp, ngụ ý xem xét loại xe bán lẻ với giá khoảng 20000 đô la, loại xe Chúng ta ước lượng mức độ phụ thuộc tuyến tính giá quãng đường dựa vào hệ số tương quan tính lệnh phần mềm R sau: > cor (usedcars$price, usedcars$mileage) [1] − 0.8061494 Hệ số tương quan biến price biến mileage −0, 806 cho biết hai biến có mối tương quan chặt chẽ nghịch biến nhận định dựa vào biểu đồ phân tán Chúng ta kiểm tra xem liệu hai biến có mối quan hệ tương quan tuyến tính thật khơng lệnh sau: > cor.test(usedcars$mileage, usedcars$price, alternative = ”two.sided”, method = ”pearson”, f level = 0.95) Kết cho sau: Pearson’s product-moment correlation data : usedcars$mileageandusedcars$price t = −16.574, d f = 148, p − value < 2.2e − 16 alternative hypothesis: true correlation is not equal to 95 percent confidence interval: −0.8558408 − 0.7417133 sample estimates: cor −0.8061494 Vì p − value < α = 0, 05 nên hai biến giá quãng đường có mối quan hệ tương quan tuyến tính > regre = lm(usedcars$price usedcars$mileage, data = usedcars) > regre 154 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Kết cho sau: Call: lm( f ormula = usedcars$price usedcars$mileage, data = usedcars) Coefficients: (Intercept) usedcars$mileage 1.709e+04 -9.329e-02 Vậy phương trình hồi quy tuyến tính price theo mileage là: y = −0, 09329x + 17090 > abline(regre, col = ”blue”) Hình 6.10: Phương trình hồi quy tuyến tính giá xe phụ thuộc vào số dặm Dựa vào phương trình đường hồi quy tuyến tính dự đốn với xe 100000 dặm giá xe khoảng 7761 USD Hướng dẫn giải tập chương 155 Hướng dẫn giải tập chương 6.1 a) > CacBon = c(1.79, 4.39, 3.07, 4.4, 3.1, 5.6, 7.81, 3.95, 4.71) > Nito = c(0.06, 0.42, 0.18, 0.3, 0.22, 0.38, 0.46, 0.23, 0.42) > plot(CacBon, Nito, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) Biểu đồ phân tán (hình 6.11): Hình 6.11: Biểu đồ phân tán lượng C N mùn b) > cor (CacBon, Nito ) [1]0.8665748 Vậy hệ số tương quan mẫu 0, 8865748 6.2 a) > DuongKinh = c(10, 12, 14, 16, 18, 19, 20, 22, 23, 24) > VoKho = c(10, 9, 15, 15, 17, 16, 15, 18, 20, 17) > plot( DuongKinh, VoKho, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) Biểu đồ phân tán thu (hình 6.12): Hình 6.12: Biểu đồ phân tán đường kính lượng vỏ khô 156 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH b)> cor ( DuongKinh, VoKho ) [1]0.8746251 Vậy hệ số tương quan mẫu 0.8746251 6.3 a) > SoGioHoc = c(20, 25, 30, 50, 20, 23) > GPA = c(3.4, 3.0, 2.8, 2.4, 2.9, 2.9) > plot(SoGioHoc, GPA, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) Biểu đồ phân tán thu (hình 6.13) Hình 6.13: Biểu đồ phân tán số học điểm trung bình GPA Hệ số tương quan mẫu thực lệnh: > cor (SoGioHoc, GPA) [1] − 0.8430889 Vậy hệ số tương quan mẫu −0, 8430889 b) Kiểm định giả thuyết ρ phần mềm R > cor.test(SoGioHoc, GPA, alternative = ”two.sided”, method = ”pearson”, f level = 0.95) Kết cho sau: Pearson’s product-moment correlation data: SoGioHoc and GPA t = −3.1355, d f = 4, p − value = 0.035 alternative hypothesis: true correlation is not equal to 95 percent confidence interval: −0.98244400 − 0.09983977 sample estimates: cor −0.8430889 Vậy số học điểm trung bình GPA có tương quan tuyến tính 6.4 > DT = c(32, 34, 36, 38) > TL = c(4.2, 4.4, 4.6, 5) > TS1 = c(2, 3, 3, 2) > DT1 = rep( DT, TS1 ) Hướng dẫn giải tập chương 157 > TL1 = rep( TL, TS1 ) > cor ( DT1 , TL1 ) [1]0.9792641 Vậy hệ số tương quan mẫu 0, 9792641 nên doanh thu tiền lãi 10 đại lý thức ăn chăn nuôi tương quan thuận mạnh 6.5 a) Vẽ biểu đồ phân tán > PhanBon1 = c(1.2, 1.4, 1.5, 1.6) > NangsuatL1 = c(3.9, 4.1, 4.3) > TS2 = c(1, 4, 4, 1) > PhanBon = rep( PhanBon1 , TS2 ) > NangsuatLua = c(3.9, rep(3.9, 2), rep(4.1, 2), rep(4.1, 2), rep(4.3, 2), 4.3) > plot( PhanBon, NangsuatLua, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) Hình 6.14: Biểu đồ phân tán phân bón suất lúa b) Tính hệ số tương quan > cor ( PhanBon, NangsuatLua) [1]0.7595545 6.6 a) > HatChac = c(83, 80, 90, 83, 85, 95, 90, 85, 93, 88) > NangSuatLua = c(5, 4, 7.5, 5.5, 5.3, 5.6, 6.8, 6.9, 7.3, 6.5) > plot( HatChac, NangSuatLua, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) b) > cor ( HatChac, NangSuatLua) [1]0.6444228 Vậy hệ số tương quan mẫu 0, 64442228 158 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Hình 6.15: Biểu đồ phân tán phần trăm hạt suất lúa c) > cor.test( HatChac, NangSuatLua, alternative = ”two.sided”, method = ”pearson”, f level = 0.95) Kết cho sau: Pearson’s product-moment correlation data: HatChac and NangSuatLua t = 2.3836, d f = 8, p − value = 0.04429 alternative hypothesis: true correlation is not equal to 95 percent confidence interval: 0.02489930.9063156 sample estimates: cor 0.6444228 Kết luận: với mức ý nghĩa 5%, tỷ lệ phần trăm hạt có tương quan tuyến tính suất lúa 6.7 a) > ThoiGian = c(0, 1, 2, 3, 4, 5) > SoViKhuan = c(30, 32, 35, 40, 48, 52) > cor (SoViKhuan, ThoiGian) [1]0.9796374 b)> lm(SoViKhuan ThoiGian) Kết cho sau: Call: lm( f ormula = SoViKhuan ThoiGian)) Coefficients: (Intercept) ThoiGian 27.857 4.657 Vậy phương trình đường hồi quy y theo x là: y = 4, 657x + 27, 857 Ta thấy x tăng thêm đơn vị y tăng lên lượng 4, 657 Số vi khuẩn sinh sản sau 10h y = 4, 657.10 + 27, 857 = 94, 427 c)> Bai67 = lm(SoViKhuan ThoiGian) Hướng dẫn giải tập chương 159 > plot( ThoiGian, SoViKhuan, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) > abline( Bai67, col = ”orange”) Hình 6.16: Phương trình đường hồi quy số vi khuẩn theo thời gian 6.8 a) Dựa biểu đồ phân tán ta dự đoán X Y có tương quan tuyến tính chặt chẽ > ChieuDaiXuongDui = c(44, 46, 47, 47, 48, 49, 50, 50, 51, 52) > Chieucao = c(155, 159, 163, 166, 169, 172, 174, 176, 176, 179) > plot(ChieuDaiXuongDui, Chieucao, , bty = ”l”, type = ”p”, pch = 16, col = ”red”, col.main = ”blue”, col.lab = ”blue”, col.axis = ”blue”) Hình 6.17: Biểu đồ phân tán mối tương quan chiều dài xương đùi chiều cao đàn ông b) > cor (ChieuDaiXuongDui, Chieucao )

Ngày đăng: 15/12/2023, 08:47

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w