1. Trang chủ
  2. » Giáo Dục - Đào Tạo

baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO

29 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,66 MB

Nội dung

MỤC LỤC Bài 1……………………………………………………………………………… Câu 1……………………………………………………………………… Câu 2……………………………………………………………………… Bài 2……………………………………………………………………………….14 Bài 3……………………………………………………………………………….17 Bài 4……………………………………………………………………………….20 Bài 5……………………………………………………………………………….24 Tài liệu tham khảo…….……………………………………………… …………29 Trang BÀI 1: Câu 1: (VD10/172 GT XSTK) Đề Hiệu suất phần trăm (%) phản ứng hóa học nghiên cứu theo yếu tố : PH (A), nhiệt độ (B), xúc tác (C) trình bày bảng sau : Yếu tố Yếu tố B B1 B2 B3 B4 A A1 C1 C2 14 C3 16 C4 A2 C2 12 C3 15 C4 12 C1 A3 C3 13 C4 14 C1 11 C2 A4 C4 10 C1 11 C2 13 C3 Hãy đánh giá ảnh hưởng yếu tố hiệu suất phản ứng? 12 10 14 13 Bài giải Dạng tốn: Phân tích phương sai yếu tố Cơ sở lý thuyết Sự phân tích dùng để đánh giá ảnh hưởng ba yếu tố giá trị quan sát Yijk(i=1,2,…,r: yếu tố A; j=1,2,…,r: yếu tố B; k=1,2,…,r: yếu tố C) Mơ hình Mơ hình vng la tinh ba yếu tố trình bày sau: Yếu tố C (T k, thí dụ T 1=Y111+Y421+Y334+Y241) Yếu tố A Yếu B B1 B2 tố B3 B4 A1 A2 A3 A4 Trang Bảng ANOVA Nguồn Bậc tự Tổng số bình phương sai số Yếu tố A SSR = ∑𝑟𝑖=1 Yếu tố B SSC = ∑𝑐𝑗=1 Yếu tố C SSF = ∑𝑟𝑘=1 Sai số (r-1)(r-2) Tổng cộng 𝑇𝑖… 𝑟 − 𝑇…2 − 𝑇…2 𝑇𝑗… 𝑟 𝑇𝑘… 𝑟 𝑟2 𝑟2 𝑇2 − 𝑟…2 SSE=SST(SSF+SSR+SSC) Bình phương trung Giá trị thống bình kê MSR = 𝑆𝑆𝑅 (𝑟−1) 𝑆𝑆𝐶 MSC = (𝑟−1) 𝑆𝑆𝐹 MSF = (𝑟−1) FR = 𝑀𝑆𝑅 𝑀𝑆𝐸 𝑀𝑆𝐶 FC = 𝑀𝑆𝐸 𝑀𝑆𝐹 F = 𝑀𝑆𝐸 𝑆𝑆𝐸 MSE =(𝑟−1)(𝑟−2) − SST=∑𝑖 ∑𝑗 ∑𝑘 𝑌𝑖𝑗𝑘 𝑇…2 𝑟2 Trắc nghiệm Giả thiết: “Các giá trị trung bình nhau” 𝐻1 : 𝜇1 ≠ 𝜇2 ≠ ⋯ ≠ 𝜇𝑘  “Có hai giá trị trung bình khác nhau” Giá trị thống kê: FR FC Biện luận: Nếu FR < Fa → Chấp nhận H0 (Yếu tố A) Nếu FC < Fa → Chấp nhận H0 (Yếu tố B) Nếu F < Fa → Chấp nhận H0 (Yếu tố C) Bài Giải Giả thiết H0 (yếu tố pH): pH không ảnh hưởng đến hiệu suất phản ứng Giả thiết H0 (yếu tố nhiệt độ): Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng Giả thiết H0 (yếu tố chất xúc tác): Chất xúc tác không ảnh hưởng đến hiệu suất phản ứng Trang Ta sử dụng ngơn ngữ lập trình Rstudio để giải tốn Bước 1: Lập bảng số liệu Khai báo số liệu thiết lập giá trị thành dạng bảng dễ xử lí Kết xuất ra: Bước 2: Lập bảng ANOVA Dùng hàm lm để phân tích số liệu Sau lập bảng ANOVA lệnh summary.aov kết Trang Bước 3: Kết biện luận Với mức ý nghĩa mặc định α = 0,05 : 𝐹𝑅 = 3,10 < 𝐹0,05 = 4,76 ⇒ nhận Chấp 𝐹𝐶 = 11,95 > 𝐹0,05 = 4,76 ⇒ Bác bỏ 𝐹 = 30,05 > 𝐹0,05 = 4,76 ⇒ Bác bỏ (pH) (nhiệt độ) (chất xúc tác) KẾT LUẬN: Vậy có nhiệt độ chất xúc tác gây ảnh hưởng đến hiệu suất Câu 2: (VD12/181 GT XSTK) Người ta dùng ba mức nhiệt độ gồm 105, 120, 135oC kết hợp với ba khoảng thời gian 15, 30 60 phút để thức phản ứng tổng hợp Các hiệu suất phản ứng (%) trình bày bảng sau đây: Thời gian (phút) Nhiệt độ (oC) Hiệu suất (%) X1 X2 Y 15 105 1.87 30 105 2.02 60 105 3.28 15 120 3.05 30 120 4.07 60 120 5.54 15 135 5.03 30 135 6.45 60 135 7.26 Trang Hãy cho biết yếu tố nhiệt độ và/ yếu tố thời gian có liên quan tuyến tính với hiệu suất phản ứng tổng hợp? Nếu có điều kiện nhiệt dộ 115oC vịng 50p hiệu suất phản ứng bao nhiêu? Bài giải Cơ sở lí thuyêt: i Dạng bài: Phân tích tương quan hồi quy tuyến tính ii Khái niệm thống kê trắc nghiệm Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập Xi (i=1,2, ,k) thay có hồi quy tuyến tính đơn giản Phương trình tổng quát: Ŷx0, x1, ,xk = B0 + B1X1 + + BkXk Bảng ANOVA Nguồn sai số Bậc tự Tổng số bình phương Bình phương trung bình Giá trị thống kê Hồi quy k SSR MSR=SSR/k F=MSR/MSE Sai số N-k-1 SSE MSE =SSE/(N-k-1) Tổng cộng N-1 SST = SSR + SSE Trang Giá trị thống kê - Giá trị R-bình phương: - Độ lệch chuẩn: Trắc nghiệm thống kê: - Trắc nghiệm t: H0: βi = ↔ Các hệ số hồi quy ý nghĩa H1: βi ≠ ↔ Tồn vài hệ số hồi quy có ý nghĩa t < (N-k-1) → Chấp nhận H0 - Trắc nghiệm F H0: βi = ↔ Phương trình hồi quy khơng thích hợp H1: βi ≠ ↔ Phương trình hồi quy thích hợp với vài hệ số Bi F < Fα (1, N-k-1) → Chấp nhận H0 Giả thiết : H01 yếu tố thời gian không liên quan tuyến tính với hiệu suất phản ứng tổng hợp H02 yếu tố nhiệt độ khơng liên quan tuyến tính với hiệu suất phản ứng tổng hợp H03 hiệu suất phản ứng tổng hợp có liên quan tuyến tính với hai yếu tố thời gian nhiệt độ Ta sử dụng ngơn ngữ lập trình Rstudio để giải toán i ii Đánh giá: với lý thuyết việc xử lý số liệu cồng kềnh ta sử dụng phần mềm R để hỗ trợ tính tốn Phương pháp giải tốn phần mềm R: - Các bước tiến hành: Bước 1: nhập bảng liệu - Nhập đoạn code sau để xây dựng bảng số liệu ứng với yếu tố thời gian (X1), nhiệt độ (X2) hiệu suất (Y): Trang Bước 2: Tổng hợp số liệu nhập thành data.frame gọi data Bước 3: Xét mối liên hệ yếu tố thời gian, nhiệt độ tới hiệu suất - Dùng hàm lm để xét mối liên hệ: - Dùng hàm summary để kết phân tích: > summary(bang1) > summary(bang2) > summary(bang3) Trang Bước 4: Kết biện luận: Xét liên hệ thời gian hiệu suất phản ứng - Phương trình hồi quy: Ŷ|x1=f(X1) Ŷ|x1 = 2,73 + 0,04X1 t0 = 2,129 < t0,025 =2,365 (hay Pv2 = 0,071 > α = 0,05) → Chấp nhận giả thiết H01 t1 = 1,380 < t0,025 =2,365 (hay Pv = 0,210 > α = 0,05) → Chấp nhận giả thiết H01 F = 1,905 < F0,05 = 5,590 (hay Fs4 = 0,210 > α = 0,05) → Chấp nhận giả thiết H01 - Vậy hai hệ số 2,37(B0) 0,04(B1) phương trình hồi quy Ŷ|x1 = 2,73 + 0,04X1 khơng có ý nghĩa Nói cách khác, phương trình hồi quy khơng thích hợp - Kết luận: Yếu tố thời gian khơng có liên quan tuyến tính với hiệu suất phản ứng tổng hợp Trang 10 Khảo sát thực tế N phần tử, ta bảng kết sau Tổng cột Tổng hàng nij gọi tần số thực nghiệm Ước lượng pi qj Gọi Nij số phần tử có đặc tính (xi;yj) Khi đó, E(Nij)=NPij=Npiqj H0 Đặt phần tử khảo sát, Nij~B(N,Pij) gọi tần số lý thuyết Với Nij Eij=NPij , biến ngẫu nhiên ∑𝑟𝑖=1 ∑𝑠𝑗=1 biến ngẫu nhiên Chi bình phương (𝑁𝑖𝑗−𝐸𝑖𝑗 )2 𝐸𝑖𝑗 hội tụ theo phân phối Bài giải Với toán đặt dùng giá trị χ2 để so sánh khác nhóm Đặt giả thuyết Ho: cấu sử dụng phương tiện nhóm khơng khác H1: cấu sử dụng phương tiện nhóm khác Trang 15 Ta sử dụng ngôn ngữ lập trình Rstudio để giải tốn Bước 1: Chúng ta khai báo bảng số liệu nhóm phương tiện gắn chúng vào data.frame sau: Kết xuất : Bước 2: thay hàng “1” “2” giá trị biểu thị cho nữ nam: Sau dùng lệnh chisq.test để tính giá trị thu kết sau: Bước 3: dùng hàm qchisq(1-α, df) để tìm giá trị χ^2α : Trong X-squared = χ2o Df = bậc tự Χ2α=0.05= 5,991465 So sánh: χ2o > χ2α=0,05 => bác bỏ Ho Kết luận: Vậy có khác biệt cấu sử dụng phương tiện nhóm cơng nhân nam công nhân nữ Trang 16 BÀI 3: Một điều tra xã hội học tiến hành thành phố A, B, C, D, E yêu cầu người hỏi diễn tả mức độ thỏa mãn thành phố mà họ sống Kết cho sau: Mức độ thỏa mãn Thành phố A B C D E Rất thỏa mãn Tương đối Không 220 130 84 156 122 121 207 54 95 164 63 75 24 43 73 Câu hỏi: Với mức ý nghĩa α = 3%, kiểm định xem mức độ thỏa mãn sống có phân bố giống thành phố hay không? Bài làm Cơ sở lý thuyết: Phương pháp giải: So sánh tỷ số Kiểm định Khi bình phương (Chi-squared Test) Đối với thí nghiệm có hai kết (binomial experiment), ví dụ quốc gia, để điều tra tỷ lệ giới tính với kết là: nam hay nữ; người ta thường so sánh hai tỷ số (nam, nữ) với Song, thí nghiệm có nhiều kết (multinomial experiment), ví dụ đánh giá mức độ hài lòng khán giả tiết mục với kết là: hay, hay, bình thường, tệ, tệ; ta cần so sánh nhiều tỷ số Nếu bắt cặp tỷ số để so với phức tạp tốn thời gian, chí khơng xác hay khơng đáng tin cậy Vì thế, phương pháp so sánh tỷ số Kiểm định Khi bình phương (Chi-squared Test) giúp so sánh khơng hai mà cịn nhiều tỷ số (tỷ lệ xác suất) cách tiện lợi xác Kiểm định Khi bình phương (hay gọi tắt Kiểm định χ2) phân phối xác suất, khơng có tính đối xứng có giá trị ≥ Trang 17 Trong tập số này, ta có điều tra xã hội học tiến hành thành phố A, B, C, D, E yêu cầu người hỏi diễn tả mức độ thỏa mãn thành phố mà họ sống Kết “thí nghiệm” gồm: Rất thỏa mãn, Tương đối, Không Ta đặt câu hỏi liệu mức độ thỏa mãn sống có phân bố giống thành phố hay không? Với mức ý nghĩa α = 3% Đầu tiên, ta đặt hai giả thiết: H0: mức độ thỏa mãn sống thành phố có phân bố giống H1: mức độ thỏa mãn sống thành phố có phân bố khác Lập bảng tổng quát: Y X y1 y2 … yc ni x1 n11 n12 … n1c n1 x2 n21 n22 … n2c n2 … … … … … … xr nr1 nr2 … nrc nr mi m1 m2 … mc N X, Y: Lần lượt dấu hiệu số đối tượng thí nghiệm số kết quả, ngược lại Tính tốn: 𝐸𝑖𝑗 = 𝑟 𝑐 𝑚𝑖 𝑛𝑗 𝑁 (𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2 𝜒 = ∑∑ 𝐸𝑖𝑗 𝑖=1 𝑗=1 𝑂𝑖𝑗 : tần số thực nghiệm (observed frequency) ô thuộc hàng i cột j 𝐸𝑖𝑗 : tần số lý thuyết (expected frequency) ô thuộc hàng i cột j r: số hàng c: số cột Trang 18 Xác suất P(X > χ2) với bậc tự (degree of freedom) df = (r – 1)(c – 1) Bằng ngơn ngữ lập trình Rstudio, ta tính xác suất này, thông qua biến P-value Nếu P(X > χ2) > α  chấp nhận H0, bác bỏ H1 Nếu P(X > χ2) ≤ α  chấp nhận H1, bác bỏ H0 Giải vấn đề trả lời câu hỏi đề Ta sử dụng ngơn ngữ lập trình Rstudio để giải tốn Bước 1: Nhập liệu từ đề vào hệ thống Bước 2: Kiểm định Khi bình phương hàm chisq.test Phần code nhập liệu vào kiểm định Khi bình phương Kết xuất hình Console Trang 19 Bước 3: Trả lời câu hỏi đưa kết luận Kết hình Console cho ta thấy được: χ2 = 75,725; df = (5 – 1)(3 – 1) = P(X > χ2) = P-value = 3,53.10-13 < α = 3%  chấp nhận H1, bác bỏ H0 Kết luận: Với mức ý nghĩa α = 3%, mức độ thỏa mãn sống thành phố thực có phân bố khác BÀI 4: Sau số liệu loại báo ngày bán quận nội thành: Ngày khảo Quận nội thành sát Q1 Q2 Q3 Q4 Thứ hai 22 18 22 18 Thứ ba 21 18 22 18 Thứ tư 25 25 25 19 Thứ năm 24 24 18 20 Thứ sáu 28 19 15 22 Thứ 30 22 28 25 a) Lượng báo bán quận có thực khác khơng? Q5 18 19 20 22 25 25 b) Chọn 𝛼 = 2% Hỏi lượng báo bán có chịu yếu tố ngày tuần không? Bài giải a) Câu hỏi thứ kiểm định khác lượng báo bán quận, ta sử dụng phương pháp phân tích phương sai yếu tố (one-way ANOVA) để xử lý Cơ sở lý thuyết: Mục đích phân tích phương sai yếu tố đánh giá ảnh hưởng yếu tố (nhân tạo hay tự nhiên) giá trị quan sát, Trang 20 Mơ hình Yếu tố khảo sát … k … … … … … … … Tổng cộng … Trung bình … Bảng ANOVA Nguồn sai số Bậc tự Tổng số phương bình Bình phương Giá trị thống trung bình kê Yếu tố Sai số Tổng cộng Trong đó:  SSF: Tổng bình phương độ lệch riêng nhóm so với X SST: Tổng bình phương độ lệch MSF: Trung bình bình phương độ lệch riêng Trang 21 Trắc nghiệm Giả thiết “Các giá trị trung bình nhau” “Ít có hai giá trị trung bình khác nhau” Giá trị thống kê: Biện luận: Nếu Chấp nhận giả thiết Bài giải Đặt H: Lượng báo bán năm quận không thực khác  : Lượng bán bán năm quận có khác H Ta sử dụng ngơn ngữ lập trình Rstudio để giải tốn Kết nhận hình: Kết phân tích phương sai: Tính tốn giá trị F0 từ thuật toán: qf(0.98, df1 = - = 4, df2 = 30 – = 25) F0 = 3.549423 Trang 22 F_value = 1.635 Do F_value < F0 nên ta chấp nhận giả thiết H0 Kết luận: Với mức ý nghĩa α = 2%, lượng báo bán năm quận không thực khác b) Câu hỏi thứ hỏi lượng báo bán có chịu yếu tố ngày tuần hay khơng? Đây tốn kiểm định tính độc lập yếu tố số liệu H0: Lượng báo bán không phụ thuộc vào ngày H1: Lượng báo bán có phụ thuộc vào ngày Ta sử dụng ngơn ngữ lập trình Rstudio để giải toán Kết thu được: F0 = 3.331214 nhận từ câu lệnh qf(0.98, df1 = 5, df2 = 24) F_value = 2.863 Do F_value < F0 nên chấp nhận H0 Kết luận: Với mức ý nghĩa 2%, lượng báo bán không phụ thuộc vào ngày tuần ● Giải thích thuật tốn sử dụng: df(): Tìm giá trị thống kê phân phối F aov(): Thực phân tích phương sai (Phân tích ANOVA) Trang 23 ● Giải thích thuật ngữ thống kê: 1) Bậc tự (df) - Bậc tự tiếng Anh Degrees Of Freedom - Bậc tự đề cập đến số lượng giá trị độc lập tối đa hệ, giá trị thay đổi tự mẫu liệu BÀI 5: Theo dõi ngẫu nhiên giá thuê nhà thành phố (với điều kiện thuê nhà nhau) thu số liệu sau: Thành A phố 900 1200 850 1320 1400 1150 975 Thành B phố 625 640 775 1000 690 550 840 750 Thành C phố 415 400 420 560 780 620 800 390 Thành D phố 410 310 320 280 500 385 440 Thành phố E 340 425 275 210 575 360 Hãy tìm P-value để kiểm định xem có khác biệt giá th nhà thành phố nói hay khơng Dạng tốn: Phân tích phương sai yếu tố Cơ sở lý thuyết: Mục đích phân tích phương sai yếu tố đánh giá ảnh hưởng yếu tố (nhân tạo hay tự nhiên) giá trị quan sát, Trang 24 Mơ hình Yếu tố khảo sát … k … … … … … … … Tổng cộng … Trung bình … Bảng ANOVA Nguồn sai số Bậc tự Tổng số phương bình Bình phương Giá trị thống trung bình kê Yếu tố Sai số Tổng cộng Trong đó:  SSF: Tổng bình phương độ lệch riêng nhóm so với X SST: Tổng bình phương độ lệch MSF: Trung bình bình phương độ lệch riêng Trang 25 ... suất phản ứng Trang Ta sử dụng ngôn ngữ lập trình Rstudio để giải tốn Bước 1: Lập bảng số liệu Khai báo số liệu thiết lập giá trị thành dạng bảng dễ xử lí Kết xuất ra: Bước 2: Lập bảng ANOVA Dùng... độ Ta sử dụng ngơn ngữ lập trình Rstudio để giải toán i ii Đánh giá: với lý thuyết việc xử lý số liệu cồng kềnh ta sử dụng phần mềm R để hỗ trợ tính tốn Phương pháp giải tốn phần mềm R: - Các bước... phối Bài giải Với toán đặt dùng giá trị χ2 để so sánh khác nhóm Đặt giả thuyết Ho: cấu sử dụng phương tiện nhóm khơng khác H1: cấu sử dụng phương tiện nhóm khác Trang 15 Ta sử dụng ngơn ngữ lập trình

Ngày đăng: 19/04/2022, 23:01

HÌNH ẢNH LIÊN QUAN

Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 3)
Mô hình vuông la tinh ba yếu tố được trình bày như sau: Yếu tố C (T..k, thí dụ T..1=Y 111+Y421+Y +Y334241)  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình vuông la tinh ba yếu tố được trình bày như sau: Yếu tố C (T..k, thí dụ T..1=Y 111+Y421+Y +Y334241) (Trang 3)
Bảng ANOVA Nguồn  sai số  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA Nguồn sai số (Trang 4)
Bước 1: Lập bảng số liệu - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 1: Lập bảng số liệu (Trang 5)
Bảng ANOVA Nguồn  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA Nguồn (Trang 7)
Bảng số liệu nghiên cứu việc sử dụng phương tiện đi lại của 2 nhóm công nhân nam và công nhân nữ ở thành phố công nghiệp X:  - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
Bảng s ố liệu nghiên cứu việc sử dụng phương tiện đi lại của 2 nhóm công nhân nam và công nhân nữ ở thành phố công nghiệp X: (Trang 14)
Lập bảng tổng quát: - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
p bảng tổng quát: (Trang 18)
Kết quả xuất trên màn hình Console ra - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
t quả xuất trên màn hình Console ra (Trang 19)
Kết quả trên màn hình Console cho ta thấy được: χ2 = 75,725; df = (5   1)(3   1) = 8 –– - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
t quả trên màn hình Console cho ta thấy được: χ2 = 75,725; df = (5 1)(3 1) = 8 –– (Trang 20)
Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 21)
Bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA (Trang 21)
Mô hình - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
h ình (Trang 25)
Bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
ng ANOVA (Trang 25)
Bước 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 2: Thiết lập các giá trị thành dạng bảng dễ xử lí hơn (Trang 26)
Bước 3: Lập bảng ANOVA - baài tập lớn giải các bài tập thống kê bằng cách sử dụng ngôn ngữ lập trình RSTUDIO
c 3: Lập bảng ANOVA (Trang 27)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w