CÁC ĐỊNH NGHĨA VÀ ĐỊNH LÝ VỀ XÁC SUẤT
Một số quy tắc đếm
Chokvànlà các số tự nhiên Ta nhắc tại một số quy tắc đếm sau:
Quy tắc cộng trong xác suất cho biết, nếu một công việc có thể thực hiện theo k phương án khác nhau, với mỗi phương án có số cách thực hiện tương ứng là n1, n2, , nk, thì tổng số cách hoàn thành công việc sẽ được tính bằng công thức: n = n1 + n2 + + nk.
Quy tắc nhân trong xác suất cho thấy rằng khi một công việc được chia thành k công đoạn, số cách thực hiện mỗi công đoạn khác nhau Cụ thể, công đoạn đầu tiên có 1 cách thực hiện, công đoạn thứ hai có n2 cách, và công đoạn thứ k có k cách thực hiện Do đó, tổng số cách hoàn thành công việc được tính bằng tích của số cách thực hiện từng công đoạn, tức là n = n1 × n2 × × nk.
Một chỉnh hợp lặp chập k của n phần tử là một dãy phân biệt thứ tự gồm k phần tử, có thể có phần tử trùng lặp, được lấy từ n phần tử đã cho Số lượng chỉnh hợp lặp, ký hiệu là A_k^n, được tính theo công thức A_k^n = n^k.
Một chỉnh hợp không lặp chập k của n phần tử (k ≤ n) là một dãy phân biệt thứ tự gồm k phần tử khác nhau được chọn từ n phần tử đã cho Số lượng các chỉnh hợp không lặp, được ký hiệu là A_k^n, được tính theo công thức A_k^n = (n - k)! / n!.
(v) Mộthoán vị củanphần tử là chỉnh hợp không lặp chậpncủanphần tử Số các hoán vị, ký hiệu làPn, được tính bằng công thứcPn =n!.
Một tổ hợp chập k của n phần tử (với k ≤ n) là một dãy không phân biệt thứ tự gồm k phần tử khác nhau được chọn từ n phần tử đã cho Số lượng tổ hợp này, ký hiệu là C(n, k), được tính theo công thức C(n, k) = n! / (k! * (n - k)!).
B MỘT SỐ VÍ DỤ MẪU Để đếm số khả năng xảy ra, ta có thể đếm bằng cách liệt kê hoặc tính nhẩm nếu số khả năng xảy ra nhỏ Trong trường hợp số khả năng xảy ra khá lớn, ta cần phải đếm bằng các quy tắc trong giải tích tổ hợp: tổ hợp, chỉnh hợp, hoán vị, v.v
Khi lấy k phần tử từ n phần tử (k ≤ n), nếu thứ tự không quan trọng, ta sử dụng tổ hợp để đếm Ngược lại, nếu thứ tự quan trọng, ta áp dụng chỉnh hợp Sự khác biệt giữa chỉnh hợp không lặp và chỉnh hợp có lặp nằm ở khả năng lặp lại của các phần tử trong quá trình lấy.
Quy tắc cộng áp dụng khi công việc hoàn thành chỉ cần thực hiện một trong k phương án, trong khi quy tắc nhân được sử dụng khi cần thực hiện đủ cả k công đoạn để hoàn thành công việc Dưới đây là một số ví dụ minh họa.
Ví dụ 1.1 Có bao nhiêu cách xếp 4 khách lên 9 toa tàu hỏa?
Số cách xếp 4 khách lên 9 toa tàu hỏa là một bài toán về chỉnh hợp có lặp, thể hiện tính sắp thứ tự và tính lặp của các khách Cụ thể, cả 4 khách đều có thể chọn lên cùng một toa, dẫn đến công thức tính số cách là A₄₉ = 9^4 = 6.561 cách.
Ngoài cách giải bằng sử dụng quy tắc đếm chỉnh hợp lặp, bài này chúng ta cũng có thể giải bằng quy tắc nhân như sau.
Khi xếp 4 khách lên 9 toa tàu hỏa, mỗi khách có thể ngồi trong bất kỳ toa nào Khách thứ nhất có 9 cách xếp, khách thứ hai cũng có 9 cách xếp, khách thứ ba và khách thứ tư tương tự Do đó, tổng số cách xếp khách là 9 x 9 x 9 x 9, tương đương với 9^4.
4 khách lên 9 toa tàu hỏa bằng9.9.9.9 =9 4 e61cách.
Trong một lớp học gồm 50 học sinh, có thể chọn 3 bạn vào ban cán sự lớp với vai trò cụ thể như sau: 1 bạn làm lớp trưởng, 1 bạn làm lớp phó và 1 bạn làm bí thư Số cách chọn ra 3 bạn này sẽ được tính dựa trên sự kết hợp và phân chia vai trò trong nhóm học sinh.
Để chọn 3 bạn vào ban cán sự với 3 chức vụ khác nhau từ lớp 50 bạn, ta cần tính số cách chọn 3 bạn không lặp lại Số cách chọn này được tính bằng công thức chỉnh hợp không lặp chập 3 của 50 phần tử, cho kết quả là A(3, 50) = 117600 cách chọn.
Trong một chuồng thỏ gồm 10 con thỏ trắng và 5 con thỏ nâu, có thể tính toán số cách bắt ra 5 con thỏ với các yêu cầu cụ thể Để bắt được 2 con thỏ trắng và 3 con thỏ nâu, ta có thể sử dụng công thức tổ hợp để xác định số cách thực hiện Đồng thời, nếu yêu cầu là bắt ít nhất 4 con thỏ nâu, ta cũng cần áp dụng các phương pháp tương tự để tìm ra số cách phù hợp.
Hướng dẫn giải bài toán bắt 5 con thỏ gồm 2 con thỏ trắng và 3 con thỏ nâu được chia thành 2 công đoạn, với việc bắt các con thỏ cùng lúc mà không cần phân biệt thứ tự Để giải quyết, ta áp dụng quy tắc nhân và tổ hợp trong cách đếm.
1.1 Một số quy tắc đếm 3
Công đoạn một bắt 2 con thỏ trắng có số cách bắt là:n1 =C 10 2
Công đoạn hai bắt 3 con thỏ nâu có số cách bắt là:n 2 =C 5 3
Theo quy tắc nhân, số cách bắt 5 chú thỏ theo yêu cầu là n = n1 × n2 = C(10, 2) × C(5, 3) × E0 Đối với việc bắt ít nhất 4 con thỏ nâu, có 2 phương án thực hiện là bắt 4 con nâu.
1 con trắng và bắt 5 con nâu Như vậy, ở ý này ta dùng phối hợp quy tắc cộng, quy tắc nhân và tổ hợp.
Phương án 1: Bắt 4 con thỏ nâu và 1 con thỏ trắng.
Phương án 2: Bắt 5 con thỏ nâu.
Phương án 1 chia thành 2 công đoạn và có số cách thực hiện làn 1 =C 10 1 C 5 4
Phương án 2 chia thành 2 công đoạn và có số cách thực hiện là:n2=C 10 0 C 5 5
Vậy, theo quy tắc cộng, số cách bắt 5 con thỏ theo yêu cầu là: n=n1+n2 =C 1 10 C 4 5 +C 0 10 C 5 5 Q.
Tính xác suất bằng định nghĩa cổ điển
A TÓM TẮT LÝ THUYẾT a) Phép thử và biến cố
Phép thử là một thí nghiệm hoặc quan sát nhằm nghiên cứu các hiện tượng tự nhiên, xã hội hoặc vấn đề kỹ thuật trong cùng một hệ điều kiện nhất định.
Không gian mẫu, ký hiệu là Ω (hoặc S), là tập hợp tất cả các kết quả có thể có của một phép thử Mỗi phần tử trong không gian mẫu Ω được gọi là biến cố sơ cấp.
(iii) Biến cố không thể là biến cố không bao giờ xảy ra khi thực hiện phép thử, nó tương ứng với tập con∅của không gian mẫuΩ.
(iv) Biến cố chắc chắn là biến cố luôn luôn xảy ra khi thực hiện phép thử, nó tương ứng với toàn bộ không gian mẫuΩ.
Biến cố ngẫu nhiên, ký hiệu bằng các chữ cái như A, B, C, là những sự kiện có thể xảy ra hoặc không xảy ra trong quá trình thực hiện phép thử, tương ứng với một tập con của không gian mẫu Ω Định nghĩa cổ điển về xác suất giúp chúng ta hiểu rõ hơn về bản chất của các biến cố này.
Xác suất xuất hiện biến cố A trong một phép thử, ký hiệu P(A), được tính bằng tỷ lệ giữa số lượng biến cố sơ cấp thuận lợi cho A và tổng số biến cố sơ cấp có thể xảy ra trong phép thử đó.
1.2 Tính xác suất bằng định nghĩa cổ điển 5 c) Tính chất của xác suất
(i) Cho Alà một biến cố bất kỳ, khi đó0⩽P(A) ⩽1.
(iii) P(∅) =0. d) Định nghĩa thống kê về xác suất
Giả sử một phép thử được thực hiện nhiều lần trong cùng một điều kiện Nếu trong số lần thực hiện đó, biến cố A xảy ra m lần, thì tỷ số fn(A) = m/n được gọi là tần suất xuất hiện của biến cố A trong n phép thử.
(ii) Xác suấtxuất hiện biến cố Alà giới hạn của tần suất của biến cố đó khi số phép thử tăng lên vô hạn.
B MỘT SỐ VÍ DỤ MẪU Để giải bài toán tìm xác suất xảy ra biến cố bằng định nghĩa cổ điển, trước tiên ta phải xác định được đâu là phép thử và đâu là biến cố sơ cấp Sau khi xác định được phép thử và biến cố sơ cấp, ta sẽ phải đếm số biến cố sơ cấp bằng các quy tắc đếm đã học Nhìn chung, các bài toán tính xác suất bằng định nghĩa cổ điển có thể tiến hành theo các bước như sau:
Bước 2.Dựa vào phép thử để tìm số biến cố sơ cấp đồng khả năngn.
Bước 3.Dựa vào biến cố để tìm sốmcác biến cố sơ cấp thuận lợi cho A.
Bước 4.Áp dụng công thức P(A) = m n
Xác suất của một biến cố chỉ có thể nằm trong khoảng từ 0 đến 1 Nhiều sinh viên thường mắc lỗi khi tính xác suất, dẫn đến việc đưa ra giá trị lớn hơn 1, do họ quên rằng xác suất luôn phải tuân theo quy tắc này.
Ví dụ 1.5 Xếp ngẫu nhiên 5 khách lên 7 toa tàu hỏa Tìm xác suất để: a) 5 người cùng lên toa đầu? b) 5 người cùng lên 1 toa? c) 5 người lên 5 toa khác nhau?
Hướng dẫn giải bài toán "Xếp ngẫu nhiên 5 khách lên 7 toa tàu hỏa" được thực hiện bằng cách xác định phép thử, trong đó các toa tàu có thứ tự và khách có thể chọn lặp toa Để tính số cách xếp khách, ta áp dụng quy tắc đếm chỉnh hợp có lặp, với công thức A(5, 7) = 7^5 Gọi A là biến cố 5 khách cùng lên toa đầu, vì chỉ có 1 toa đầu duy nhất, nên m = 1.
7 5 =0, 00006. b) Gọi Blà biến cố 5 khách cùng lên 1 toa Vì có 7 toa nên 5 khách có 7 sự lựa toa tàu, do đóm =7 Áp dụng công thức:
7 5 =0, 0004. c) GọiClà biến cố 5 khách lên 5 toa khác nhau, khi đóm= A 5 7 %20 Áp dụng công thức:
Ví dụ 1.6 Trong tuần lễ vừa qua ở thành phố có 7 tai nạn giao thông Xác suất để mỗi ngày xảy ra đúng 1 tai nạn giao thông là bao nhiêu?
Mỗi tai nạn giao thông có thể xảy ra vào bất kỳ ngày nào trong tuần, dẫn đến 7 khả năng xảy ra Do đó, số cách xảy ra 7 vụ tai nạn trong tuần là 7^7 Nếu xét số khả năng mỗi ngày chỉ xảy ra đúng 1 vụ tai nạn, ta có 7! cách Như vậy, xác suất để mỗi ngày xảy ra đúng 1 vụ tai nạn là một vấn đề thú vị trong thống kê giao thông.
Trong một chuồng có 8 con gà trống và 5 con gà mái, chúng ta tiến hành bắt đồng thời 3 con gà Xác suất để cả 3 con bắt ra đều là gà trống được tính toán dựa trên tổng số cách chọn gà trong chuồng Ngoài ra, xác suất để trong 3 con bắt ra có 2 con trống cũng được xác định bằng cách sử dụng các công thức xác suất phù hợp.
Trong bài toán này, phép thử được xác định là "Bắt đồng thời ra 3 con gà", và do việc bắt gà diễn ra đồng thời, không có sự sắp thứ tự Do đó, ta sử dụng phương pháp đếm tổ hợp để tính số biến cố sơ cấp đồng khả năng, với công thức n = C(13, 3) Gọi A là biến cố "Cả 3 con gà được bắt ra đều là con trống", lúc này m = C(8, 3).
C 13 3 = 0,196 Biến cố B được định nghĩa là "trong 3 con bắt ra có 2 con trống" Trong trường hợp này, quá trình được chia thành hai giai đoạn: bắt 2 con trống và bắt 1 con mái Do đó, việc đếm số lượng xảy ra sẽ được thực hiện dựa trên các giai đoạn này.
Tính xác suất bằng công thức cộng
Để tính số biến cố sơ cấp thuận lợi cho biến cố B, ta áp dụng phối hợp hai quy tắc đếm là tổ hợp và quy tắc nhân Công thức sử dụng trong trường hợp này là m = C(8, 2) * C(5, 1).
Tại một trại lợn giống, có 4 con lợn nái thuộc các loài A, B, C, D được phối giống ngẫu nhiên với 4 con lợn đực cùng loài Câu hỏi đặt ra là xác suất để các cặp lợn phối giống có cùng loài.
Trong một đàn gà, có tổng cộng bốn con gà ri, bao gồm hai con mái và hai con trống, cùng với sáu con gà tam hoàng, trong đó có hai con trống và bốn con mái Khi chọn ngẫu nhiên hai con gà từ đàn này, sẽ có nhiều khả năng khác nhau về sự kết hợp giữa các loại gà.
Gọi A là biến cố hai con gà được chọn đều là trống.
Gọi B là biến cố hai con gà được chọn gồm một trống, một mái.
Gọi C là bến cố hai con gà được chọn là gà mái ri.
Hãy tính xác suất của các biến cố A, B, C.
Trong bài tập 1.11, có hai chuồng lợn giống với chuồng một chứa 7 con cái và 3 con đực, trong khi chuồng hai có 6 con cái và 4 con đực Để tính xác suất cho các trường hợp: a) Cả hai con bắt ra đều là con cái, b) Bắt được một con cái và một con đực, và c) Bắt được ít nhất một con đực.
Bài tập 1.12 Có ba gen X, Y, Z và ba gen x, y, z xếp ngẫu nhiên theo một dãy dọc. Tính xác suất để các gen x, y, z xếp liền nhau.
Trong bài tập 1.13, một hộp thuốc chứa 5 ống thuốc tốt và 3 ống kém chất lượng Khi lấy ngẫu nhiên 2 ống thuốc mà không hoàn lại, ta cần tính xác suất cho hai trường hợp: a) xác suất cả 2 ống thuốc lấy ra đều là thuốc tốt, và b) xác suất chỉ có ống thuốc lấy ra đầu tiên là thuốc tốt.
1.3 Tính xác suất bằng công thức cộng
A TÓM TẮT LÝ THUYẾT a) Quan hệ giữa các biến cố
(i) Biến cốBgọi làhợpcủa hai biến cố A1và A2nếuBxảy ra khi ít nhất 1 trong 2 biến cố xảy ra Ký hiệuB= A1∪A2.
(ii) Biến cốBgọi làgiaocủa hai biến cố A1vàA2nếuBxảy ra khi cả 2 biến cố đồng thời xảy ra Ký hiệuB= A 1 ∩ A 2 hoặcB= A 1 A 2
Hai biến cố A và B được gọi là xung khắc nếu sự xảy ra của biến cố này đồng nghĩa với việc biến cố kia không thể xảy ra, tức là A∩B=∅.
Biến cố A được xem là biến cố đối lập nếu chúng xung khắc và hợp của chúng tạo thành một biến cố chắc chắn Điều này có nghĩa là A và A không có phần giao nhau, tức là A∩ A = ∅.
A∪A =Ω. b) Công thức cộng xác suất
(ii) P(A∪B∪C) = P(A) +P(B) +P(C)−P(AB)−P(AC)−P(BC) +P(ABC).
(iii) Nếu A và B xung khắc thìP(A+B) =P(A) +P(B)(Trong trường hợp này ta thay ký hiệuA∪BbằngA+B).
(iv) NếuAlà biến cố đối lập của AthìP(A+A) = P(A) +P(A) =1.
B MỘT SỐ VÍ DỤ MẪU
Bài toán tìm xác suất bằng công thức cộng thường tiến hành theo các bước như sau:
Bước 1.Gọi tên các biến cố sơ cấp liên quan tới biến cố cần tìm xác suất.
Bước 2.Gọi tên biến cố cần tìm xác suất và biểu thị biến cố đó thông qua các biến cố sơ cấp ở bước 1 bằng quan hệ hợp.
Bước 3.Xét mối quan hệ giữa các biến cố (xem chúng có mối quan hệ đặc biệt như xung khắc hay đối lập không?).
Bước 4.Áp dụng công thức.
Trong bài toán tìm xác suất bằng công thức cộng, chúng ta cần phân biệt giữa biến cố sơ cấp và biến cố cần tìm xác suất Sau khi xác định được tên gọi cho các biến cố, việc biểu thị biến cố cần tìm thông qua các biến cố sơ cấp trở thành một bước quan trọng Dưới đây là một số biểu diễn thường gặp trong bài toán cộng xác suất.
Giả sử A đại diện cho biến cố "hiện tượng thứ nhất xảy ra", B là biến cố "hiện tượng thứ hai xảy ra", và C là biến cố "hiện tượng thứ ba xảy ra".
(i) D= A∪B∪Clà biến cố "có ít nhất 1 hiện tượng xảy ra".
(ii) D= AB∪AC∪BClà biến cố "có ít nhất 2 hiện tượng xảy ra".
(iii) D= A∪B∪Clà biến cố có ít nhất 1 hiện tượng không xảy ra.
1.3 Tính xác suất bằng công thức cộng 9
Công ty Vedan áp dụng hai hình thức quảng cáo cho sản phẩm mới, bao gồm tờ rơi và truyền hình Theo thống kê, 25% khách hàng biết đến thông tin qua truyền hình, 34% qua tờ rơi, và 10% khách hàng nhận được thông tin từ cả hai hình thức Để tính xác suất một khách hàng ngẫu nhiên đã biết đến sản phẩm mới của công ty, ta cần tổng hợp các tỷ lệ này.
Khách hàng được khảo sát đã nhận thức về sản phẩm mới của công ty, cho thấy họ đã tiếp cận ít nhất một hình thức quảng cáo liên quan.
Bước 1.GọiAlà biến cố khách hàng nắm được thông tin qua vô tuyến vàBlà biến cố khách hàng nắm được thông tin qua tờ rơi Theo đề bàiP(A) =0, 25,P(B) =0, 34.
Bước 2 Đặt C là biến cố khách hàng nhận được thông tin qua ít nhất một hình thức, ta có C = A∪B Khi đó, biến cố khách hàng biết thông tin qua cả hai hình thức là AB với xác suất P(AB) = 0,1.
Bước 3.Ta thấyAvàBkhông xung khắc cũng không đối lập.
Bước 4.Áp dụng công thức:
Khi lấy ngẫu nhiên 4 quân bài từ bộ bài 52 quân, ta có thể tính xác suất cho các trường hợp sau: a) xác suất có 1 quân át trong 4 quân bài; b) xác suất có nhiều nhất hai quân át; và c) xác suất có ít nhất 3 quân át.
Trong bộ bài tú lơ khơ có 52 quân thì có 4 quân át và 48 quân không phải là át.
Bước 1.GọiA i là biến cố trong 4 quân lấy ra cóiquân át,i =0, 1, 2, 3, 4. a)Bước 2.Gọi Alà biến cố trong 4 quân lấy ra có 1 quân át.
Bước 4.Áp dụng công thức:
C 52 4 =0, 255. b)Bước 2.GọiBlà biến cố trong 4 quân lấy ra có nhiều nhất 2 quân át.
Bước 3.Ta cóB= A0∪ A1∪A2.Ta thấyA0,A1,A2xung khắc từng đôi.
Bước 4.Áp dụng công thức cộng:
C 52 4 =0, 99. c)Bước 2.GọiClà biến cố trong 4 quân lấy ra có ít nhất 3 quân át Ta có thể biểu diễnC= A3∪A 4 Đến đây ta có thể giải theo hai cách như sau:
Cách 1:Bước 3.VìA 3 vàA 4 xung khắc với nhau nênP(C) = P(A 3 +A 4 ).
Bước 4.Áp dụng công thức cộng:
Cách 2: GọiClà biến cố có nhiều nhất 2 quân át, ta thấyC= Bnên ta có:
Một công ty đang tuyển dụng hai nhân viên từ 6 ứng viên, bao gồm 2 nam và 4 nữ, với khả năng được chọn như nhau Xác suất để cả hai người được chọn đều là nữ là một vấn đề cần tính toán Đồng thời, cũng cần xác định xác suất có ít nhất một nữ được chọn trong số hai nhân viên được tuyển.
Trong bài tập 1.15, có một hòm chứa 10 chi tiết đạt tiêu chuẩn và 5 chi tiết phế phẩm Khi lấy đồng thời 3 chi tiết, ta cần tính xác suất cho các trường hợp sau: a) Cả 3 chi tiết lấy ra đều thuộc loại đạt tiêu chuẩn; b) Trong số 3 chi tiết lấy ra có 2 chi tiết đạt tiêu chuẩn; c) Trong số 3 chi tiết lấy ra có ít nhất 1 chi tiết đạt tiêu chuẩn.
Tính xác suất bằng công thức nhân
Tại một vùng, tỷ lệ người dân nghiện thuốc lá là 20%, nghiện rượu là 14%, và tỷ lệ người dân nghiện cả hai chất là 9% Để xác định xác suất một người được xếp vào danh sách cần theo dõi sức khỏe, ta cần tính tỷ lệ người nghiện ít nhất một trong hai chất kích thích Sử dụng công thức xác suất, ta có: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Áp dụng các giá trị đã cho, xác suất để một người được xếp vào danh sách cần theo dõi sức khỏe là 20% + 14% - 9% = 25%.
1.4 Tính xác suất bằng công thức nhân
(i) Xác suất xảy ra biến cố Avới điều kiện biến cốBđã xảy ra được gọi làxác suất có điều kiệncủa AtheoB, ký hiệu làP(A|B).
Hai biến cố A và B được coi là độc lập nếu sự xảy ra hoặc không xảy ra của biến cố này không ảnh hưởng đến xác suất của biến cố kia Khi A và B độc lập, các cặp biến cố (A, B), (A, B), (A, B) cũng sẽ độc lập Ngược lại, hai biến cố không độc lập được gọi là phụ thuộc.
(iv) Công thức nhân xác suất:
P(AB) = P(A)P(B|A) = P(B)P(B|A). Đặc biệt nếu A và B là hai biến cố độc lập thìP(AB) = P(A)P(B).
(v) Công thức nhân xác suất mở rộng:
B MỘT SỐ VÍ DỤ MẪU
Giải bài toán tìm xác suất bằng công thức nhân thông thường có các bước như sau:
Bước 1.Gọi tên các biến cố sơ cấp có liên quan đến biến cố cần tìm xác suất.
Bước 2.Gọi tên biến cố cần tìm xác suất và biểu thị biến cố đó thông qua các biến cố sơ cấp bằng quan hệ giao.
Bước 3.Xét mối quan hệ giữa các biến cố (độc lập hay phụ thuộc).
Bước 4: Sử dụng công thức nhân xác suất cho các biến cố phụ thuộc, hoặc áp dụng công thức nhân mở rộng nếu cần thiết Đối với các biến cố độc lập, hãy áp dụng công thức đặc biệt để tính toán xác suất chính xác.
Trong bài toán xác suất, việc xác định mối quan hệ giữa các biến cố là rất quan trọng Nếu phép thử diễn ra qua nhiều giai đoạn liên tiếp mà không hoàn lại, các biến cố sẽ phụ thuộc lẫn nhau Ngược lại, nếu phép thử chỉ có một giai đoạn và thực hiện trên hai đối tượng độc lập, các biến cố sẽ có mối quan hệ độc lập Cuối cùng, trong trường hợp phép thử nhiều giai đoạn nhưng có hoàn lại, các biến cố cũng sẽ độc lập với nhau.
Giả sử A là biến cố "hiện tượng thứ nhất xảy ra", B là biến cố "hiện tượng thứ hai xảy ra" và C là biến cố "hiện tượng thứ ba xảy ra" Trong bài toán nhân xác suất, chúng ta thường gặp một số biểu diễn liên quan đến các biến cố này.
(i) D= ABClà biến cố "cả 3 hiện tượng cùng xảy ra".
(ii) D= ABClà biến cố "cả 3 hiện tượng cùng không xảy ra".
(ii) D= ABClà biến cố "chỉ có hiện tượng thứ nhất xảy ra".
(iv) D= ABC+ABC+ABClà biến cố "chỉ có 1 hiện tượng xảy ra."
Để thành lập đội tuyển quốc gia môn Toán, nhà trường tổ chức cuộc thi tuyển gồm 3 vòng Vòng 1 nhận 80% thí sinh, vòng 2 nhận 70% thí sinh qua vòng 1, và vòng 3 nhận 45% thí sinh qua vòng 2 Để vào đội tuyển, thí sinh phải vượt qua cả 3 vòng thi Tính xác suất để một thí sinh bất kỳ được vào đội tuyển và bị loại ở vòng thứ ba.
Để xác định khả năng thí sinh được vào đội tuyển, ta gọi A_i là biến cố thí sinh được chọn ở vòng thứ i, với i = 1, 2, 3 Biến cố A, đại diện cho việc thí sinh vào đội tuyển, chỉ xảy ra khi thí sinh vượt qua cả 3 vòng thi, do đó A = A_1 A_2 A_3.
Bước 3.Các biến cố A i có quan hệ phụ thuộc nên ta áp dụng công thức nhân xác suất.
Bước 4 Theo đề bài, vòng thứ nhất lấy 80% nên P(A 1 ) = 0, 8 Vòng thứ hai lấy 70% thí sinh đã qua vòng một nên ta có, P(A2|A 1 ) = 0, 7 Tương tự, ta có:
P(A) = P(A1A2A3) = P(A1)P(A2|A1)P(A3|A1A2) =0, 8.0, 7.0, 45=0, 252.b)Bước 2.Gọi B là biến cố thí sinh bị loại ở vòng ba Khi đóB = A1A2A3.
1.4 Tính xác suất bằng công thức nhân 13
Bước 3.Biến cố thí sinh bị loại ở vòng ba và biến cố thí sinh được chọn ở vòng ba là hai biến cố đối lập nên
Bước 4.Áp dụng công thức nhân ta có:
Trong bài toán xác suất này, có hai chuồng lợn giống: chuồng thứ nhất chứa 7 con cái và 3 con đực, trong khi chuồng thứ hai có 6 con cái và 4 con đực Để tính xác suất cho hai trường hợp: a) xác suất để cả hai con bắt ra đều là con cái; b) xác suất để bắt được một con cái và một con đực.
Bước 1, gọi A_i là biến cố bắt được con cái từ chuồng thứ i, trong khi biến cố bắt được con đực từ chuồng thứ i được ký hiệu là A_i với i=1, 2 Bước 2, gọi A là biến cố mà cả hai con bắt ra đều là con cái Biến cố này chỉ xảy ra khi chuồng thứ nhất và chuồng thứ hai đều bắt được con cái, tức là A = A_1 A_2.
Bước 3.Ta thấyA1vàA2có quan hệ độc lập.
Bước 4.Áp dụng công thức nhân đặc biệt:
Trong bước 2, biến cố B được định nghĩa là việc bắt được một con cái và một con đực Do chưa xác định được con cái và con đực được bắt từ chuồng nào, có hai trường hợp xảy ra tương ứng với B, được biểu diễn như sau: B = A1 A2 + A1 A2.
Bước 3.Ta thấy, các cặp(A1,A2);(A1,A2)có quan hệ độc lập.
Bước 4.Áp dụng công thức nhân đặc biệt:
Để kiểm soát nạn dịch sâu róm thông, lâm trường đã thực hiện phun thuốc diệt sâu ba lần trong một tuần Kết quả cho thấy, khả năng sâu chết sau lần phun đầu tiên là 50% Nếu sâu sống sót, khả năng chết sau lần phun thứ hai là 70%, và sau lần phun thứ ba là 90% Cần tính xác suất sâu bị chết sau cả ba đợt phun thuốc này.
Một kỹ sư nông nghiệp có hai hộp hạt giống cùng loại: hộp thứ nhất chứa 12 hạt giống, trong đó có 8 hạt đủ tiêu chuẩn, và hộp thứ hai cũng có 12 hạt giống, với 9 hạt đủ tiêu chuẩn Khi chọn ngẫu nhiên một hạt từ mỗi hộp, ta cần tính xác suất cho ba trường hợp: a) có một hạt đủ tiêu chuẩn và một hạt không đủ tiêu chuẩn; b) có ít nhất một hạt đủ tiêu chuẩn; và c) có hai hạt đủ tiêu chuẩn.
Một thủ kho sở hữu 9 chiếc chìa khóa, nhưng chỉ có 1 chiếc có khả năng mở cửa kho Anh ta sẽ thử từng chiếc chìa khóa một cách lần lượt, không thử lại những chiếc đã kiểm tra Xác suất để anh ta mở được cửa ở lần thử thứ tư là một bài toán thú vị trong xác suất.
Trong một phòng điều trị có 3 bệnh nhân nặng, xác suất cần cấp cứu trong cùng một giờ lần lượt là 0,7; 0,8 và 0,9 Để tính xác suất có 2 bệnh nhân cần cấp cứu, ta áp dụng công thức xác suất cho các sự kiện độc lập Đối với xác suất có ít nhất 1 bệnh nhân không cần cấp cứu, ta có thể tính bằng cách lấy 1 trừ đi xác suất tất cả các bệnh nhân đều cần cấp cứu.
Bài tập 1.23 Tham gia thế vận hội Olympic Sydney 2000, môn Taekwondo nữ hạng
Trong hạng cân 57 kg, đoàn Việt Nam có hai vận động viên Trần Hiếu Ngân và Nguyễn Thị Mai, với khả năng lọt vào vòng chung kết lần lượt là 90% và 70% Để tính xác suất cho các biến cố, ta có thể xác định: a) Xác suất cả hai vận động viên lọt vào vòng chung kết là 0.9 x 0.7 = 0.63 hay 63% b) Xác suất ít nhất một người lọt vào vòng chung kết là 1 - (0.1 x 0.3) = 0.97 hay 97% c) Xác suất chỉ có Ngân lọt vào vòng chung kết là 0.9 x 0.3 = 0.27 hay 27%.
Tính xác suất bằng công thức xác suất đầy đủ và Bayes
1.5 Tính xác suất bằng công thức xác suất đầy đủ và
Trong một phép thử, một tập hợp các biến cố {A1, A2, , An} được gọi là hệ đầy đủ nếu các biến cố Ai xung khắc từng đôi và hợp của chúng tạo thành một biến cố chắc chắn Cụ thể, điều này có nghĩa là Ai ∩ Aj = ∅ với mọi i khác j, và A1 ∪ ∪ An = Ω.
Công thức xác suất đầy đủ cho phép tính xác suất của một biến cố B dựa trên một hệ đầy đủ các biến cố {A1, A2, , An} Cụ thể, biến cố B có thể được biểu thị qua các biến cố A như sau: B = A1B + A2B + + AnB Xác suất xảy ra của biến cố B được tính theo công thức này, giúp hiểu rõ mối quan hệ giữa B và các biến cố trong hệ.
Công thức Bayes cho phép tính xác suất xảy ra của một biến cố A k trong một hệ đầy đủ các biến cố {A1, A2, , An}, khi biết rằng một biến cố B đã xảy ra Cụ thể, xác suất của A k với điều kiện B được tính theo công thức Bayes, giúp phân tích mối quan hệ giữa các biến cố trong thống kê.
B MỘT SỐ VÍ DỤ MẪU
Mục đích của việc tính xác suất bằng công thức xác suất đầy đủ và Bayes là phân tích biến cố cần tìm xác suất thành các biến cố đơn giản hơn thông qua hệ đầy đủ Điều quan trọng là xác định hệ đầy đủ phù hợp, dựa vào phép thử Phép thử được chia thành hai loại: loại 1 giai đoạn và loại 2 giai đoạn Trong phép thử một giai đoạn, có hai lớp giả thuyết; nếu biến cố B liên quan đến một trong hai lớp giả thuyết, hệ đầy đủ sẽ nằm ở lớp giả thuyết còn lại Đối với phép thử hai giai đoạn, biến cố B nằm ở giai đoạn sau, trong khi hệ đầy đủ nằm ở giai đoạn đầu.
Bài toán tính xác suất bằng công thức xác suất đầy đủ thường tiến hành theo 4 bước:
Bước 1.Dựa vào phép thử để xác định hệ đầy đủ và đặt tên các biến cố trong hệ đầy đủ.
Bước 2.Đặt tên biến cố B và biểu thị B qua hệ đầy đủ.
Bước 3.Dựa vào đề bài để xác định các xác suất thành phần:P(Ai),P(B|Ai).
Bước 4.Áp dụng công thức.
Sinh viên thường mắc phải một số lỗi khi đặt tên biến cố, chẳng hạn như biến cố B chứa đựng hai kết quả, ví dụ như bệnh nhân bị bỏng và biến chứng Ngoài ra, nhiều bạn gặp khó khăn trong việc nhận biết hệ đầy đủ trong phép thử, hoặc mắc lỗi trong việc đặt tên hệ đầy đủ Ai,i=1, 2, 3 mà không hiểu rõ chỉ số i Thêm vào đó, các bạn thường thiếu lập luận về hệ đầy đủ trước khi áp dụng công thức Hãy theo dõi kỹ các ví dụ dưới đây để cải thiện kỹ năng này.
Công thức Bayes giúp xác định xác suất của biến cố A k trong một hệ đầy đủ khi biến cố B đã xảy ra Để tìm biến cố có khả năng xảy ra cao nhất, ta cần tính toán số lượng công thức Bayes tương ứng với các biến cố trong hệ đầy đủ Sau khi tính toán, so sánh các xác suất thu được để xác định biến cố nào có xác suất lớn nhất, từ đó kết luận rằng biến cố đó có khả năng xảy ra cao nhất.
Trong một dự án trồng cây lâm nghiệp, giống cây trồng được cung cấp từ ba cơ sở khác nhau với tỷ lệ lần lượt là 35%, 40% và 25% Tỷ lệ cây giống đạt tiêu chuẩn của từng cơ sở là 90%, 85% và 80% Để tính xác suất cây trồng được lấy ra đủ tiêu chuẩn, ta cần xem xét tỷ lệ cung cấp và chất lượng giống từ mỗi cơ sở Nếu cây trồng được kiểm tra đạt tiêu chuẩn, khả năng cao nhất cây đó được cung cấp từ cơ sở một do tỷ lệ đạt tiêu chuẩn cao nhất.
Bài toán này có một phép thử với hai lớp giả thuyết: lớp thứ nhất liên quan đến việc cây trồng có thể nhận giống từ một trong ba cơ sở cung cấp, trong khi lớp thứ hai xác định tiêu chuẩn cây trồng Để tìm xác suất của biến cố cần thiết, ta cần tập trung vào lớp giả thuyết thứ hai, nhưng hệ đầy đủ lại nằm ở lớp giả thuyết thứ nhất.
Bước 1.Gọi A i là biến cố cây trồng lấy ra do cơ sở thứ i(i = 1, 2, 3) cung cấp Ta thấy{A1,A2,A3}là một hệ đầy đủ các biến cố.
Bước 2.GọiBlà biến cố cây trồng lấy ra là đủ tiêu chuẩn Khi đóBđược biểu diễn qua hệ đầy đủ như sau: B= A 1 B+A2B+A3B.
Bước 3.Theo đề bài ta có:
1.5 Tính xác suất bằng công thức xác suất đầy đủ và Bayes 17
Bước 4. a) Áp dụng công thức xác suất đầy đủ và thay các kết quả ở bước 3, ta có:
Giả sử cây trồng đạt tiêu chuẩn, tức là biến cố B đã xảy ra Áp dụng công thức Bayes và thay thế các kết quả từ bước 3, chúng ta có thể tính toán xác suất một cách chính xác.
Xác suất cây này do cơ sở một cung cấp là:
Xác suất cây này do cơ sở hai cung cấp là:
Xác suất cây này do cơ sở ba cung cấp là:
Vậy cây trồng đủ tiêu chuẩn được lấy ra có khả năng thuộc cơ sở hai là cao nhất.
Trong bài toán xác suất này, có hai chuồng gà: chuồng thứ nhất có 15 con (bao gồm 3 con trống) và chuồng thứ hai có 20 con (bao gồm 4 con trống) Sau khi chuyển ngẫu nhiên một con gà từ chuồng thứ hai sang chuồng thứ nhất, ta cần tính xác suất để con gà được chọn từ chuồng thứ nhất là con trống Việc tính toán xác suất này yêu cầu xem xét số lượng gà trống và gà mái trong cả hai chuồng sau khi chuyển gà.
Bài toán này bao gồm hai giai đoạn: giai đoạn đầu tiên là di chuyển một con gà từ chuồng thứ hai sang chuồng thứ nhất, và giai đoạn thứ hai là bắt một con gà từ chuồng thứ nhất để bán Hệ đầy đủ được xác định ở giai đoạn đầu, trong khi biến cố cần tìm xác suất xảy ra ở giai đoạn thứ hai.
Bước 1: Gọi A là biến cố khi con gà trống được bắt từ chuồng thứ hai sang chuồng thứ nhất Đồng thời, A cũng là biến cố khi con gà mái được bắt từ chuồng thứ hai bỏ sang chuồng thứ nhất Như vậy, {A, A} là hệ đầy đủ.
Bước 2 Gọi B là biến cố con gà bắt ra từ chuồng thứ nhất là gà trống Khi đó
Bước 3.Theo giả thiết, ta có ngay:
Khi bắt một con gà từ chuồng thứ hai chuyển sang chuồng thứ nhất, có hai khả năng xảy ra: nếu bắt được gà trống, chuồng thứ nhất sẽ có tổng cộng 16 con, trong đó có 4 con trống; nếu bắt được gà mái, chuồng thứ nhất sẽ có 16 con, với 3 con trống Do đó, xác suất tương ứng cho hai trường hợp này cũng khác nhau.
Bước 4.Áp dụng công thức xác suất đầy đủ và thay các kết quả ở bước 3 vào, ta có:
Trong bài tập 1.25, một trại lợn nhận giống từ ba cơ sở với tỷ lệ 20%, 35% và 45%, trong đó tỷ lệ lợn giống không đạt tiêu chuẩn lần lượt là 2%, 3% và 4% Để tìm xác suất bắt được lợn đủ tiêu chuẩn, ta cần tính tổng xác suất từ từng cơ sở Nếu một con lợn không đạt tiêu chuẩn được bắt, ta sẽ xác định khả năng cao nhất mà con lợn đó thuộc về cơ sở nào cung cấp.
Một kỹ sư nông nghiệp ươm cây giống trong 4 khay, mỗi khay có 20 cây, với số lượng cây không đạt tiêu chuẩn lần lượt là 4, 2, 2 và 3 Để tính xác suất chọn được 2 cây giống không đạt tiêu chuẩn, cần xác định tổng số cây không đạt và khả năng chọn ngẫu nhiên từ các khay Nếu kỹ sư lấy được cả 2 cây không đạt tiêu chuẩn, xác suất để chúng thuộc khay ươm thứ nhất cũng cần được tính toán dựa trên số lượng cây không đạt tiêu chuẩn trong khay đó so với tổng số cây không đạt trong tất cả các khay.
Tính xác suất bằng công thức Bernoulli
(i) Một dãy gồmnphép thử độc lập, trong mỗi phép thử chỉ có hai biến cốAhoặc
Dãy phép thử Bernoulli, ký hiệu là B(n, p, q), mô tả một chuỗi các phép thử trong đó sự kiện A xảy ra với xác suất P(A) = p và không xảy ra với xác suất P(A) = 1 - p = q Xác suất này không thay đổi và không phụ thuộc vào thứ tự của các phép thử.
(ii) Công thức Bernoulli:Cho một dãynphép thử Bernoulli, khi đó:
CT1: Xác suất để biến cố A xuất hiện đúngklần không phân biệt thứ tự là:
Pn(k) = C k n p k q n − k CT2: Xác suất để biến cốAxuất hiện từk 1 đếnk2lần không phân biệt thứ tự là:
(iii) Sốk = k0 sao choPn(k0) ≥ Pn(k)với mọik = 0, 1, 2 ,nđược gọi làsố lần xuất hiện chắc chắn nhất (có khả năng nhất)của biến cốAtrongnphép thử Bernoulli.
B MỘT SỐ VÍ DỤ MẪU
Trong bài toán xác suất với công thức Bernoulli, việc xác định dãy phép thử Bernoulli là rất quan trọng Nếu một phép thử được lặp lại nhiều lần và chỉ có hai biến cố đối lập xảy ra với xác suất giống nhau, thì công thức Bernoulli là lựa chọn phù hợp.
Nhận biết dãy phép thử Bernoulli không khó, nhưng sinh viên thường mắc lỗi như quên lập luận tính độc lập của các phép thử trong dãy Ngoài ra, họ cũng có thể không chú ý đến tính không đổi và sự không phụ thuộc vào thứ tự của xác suất.
P(A),P(A)trong các phép thử. Để giải một bài toán áp dụng công thức Bernoulli, ta thường tiến hành2bước:
Bước 1.Đặt tên các biến cố, xác định các tham sốn,p,qvà nhận dạng dãy Bernoulli theo định nghĩa.
Bước 2.Áp dụng công thức.
Tỷ lệ hoa của đậu vàng đồng hợp tử gen AA, hoa vàng dị hợp tử gen Aa và hoa trắng gen aa là 1:2:1 Khi chọn 10 hạt đậu để gieo, cần tính xác suất để có 4 cây đậu hoa vàng là đồng hợp tử.
1.6 Tính xác suất bằng công thức Bernoulli 21 b) Tính xác suất để có ít nhất 7 cây đậu hoa vàng.
Hướng dẫn giải bài toán: Bước 1, xác định biến cố A là việc gieo hạt đậu hoa vàng đồng hợp tử Ngược lại, biến cố A' là việc gieo hạt đậu không phải là đậu vàng đồng hợp tử.
Nếu chỉ xét tới các cây đậu hoa vàng đồng hợp tử trong số cây đậu thì ta có tỷ lệ
Khi gieo 10 hạt đậu, mỗi hạt được coi là một phép thử độc lập, trong đó chỉ có hai biến cố A và A xảy ra với xác suất không đổi Các phép thử này không phụ thuộc vào thứ tự, do đó, chúng tạo thành một dãy phép thử Bernoulli.
Bước 2.Áp dụng công thức thứ nhất của Bernoulli, ta có xác suất để trong 10 hạt đem gieo có 4 hạt cho cây đậu hoa vàng đồng hợp tử là:
4) 6 =0, 146. b)Bước 1.Gọi B là biến cố gieo được hạt đậu hoa vàng,Blà biến cố gieo được hạt đậu hoa trắng.
Nếu xét các cây đậu hoa vàng trong số các cây đậu thì ta có tỷ lệ 3 : 1 Do đó:
Lập luận tương tự như câu a), ta cũng có dãy các phép thử Bernoulli như sau:
Bước 2.Áp dụng công thức thứ 2 của Bernoulli, ta có xác suất để trong 10 hạt gieo có ít nhất 7 hạt cho cây đậu hoa vàng là:
Trong bài toán tìm số lần xuất hiện chắc chắn nhất Để tìm sốk0, ta xét hai trường hợp sau:
• Nếu(np−q)là một số nguyên thìPn(k)đạt cực đại tại hai giá trịk 0 = np−q vàk 0 =np−q+1=np+p.
• Nếu(np−q)không là một số nguyên thìPn(k)đạt cực đại tạik0 = [np−q] +1, trong đó[np−q]là phần nguyên củanp−q.
Trong một lâm trường, xác suất sống sót của mỗi cây keo sau khi trồng là 0,8 Khi trồng 1000 cây, số cây có khả năng sống cao nhất có thể được tính toán.
Bước 1.GọiAlà biến cố cây sống sau một thời gian trồng và Alà biến cố cây chết sau thời gian trồng Theo đề bài ta cóP(A) =0, 8;P(A) =0, 2.
Khi trồng 1000 cây, mỗi cây được xem như một phép thử độc lập Trong mỗi phép thử, chỉ có hai biến cố A hoặc A xảy ra với xác suất không đổi, và các phép thử này không phụ thuộc lẫn nhau Do đó, quá trình này được coi là một dãy phép thử Bernoulli.
Bước 2.Áp dụng công thức, ta có số cây có khả năng sống cao nhất là: k0= [np−q] +1y9, 8+10(cây).
Trong bài viết này, chúng ta sẽ khám phá các bài toán xác suất phức tạp, trong đó cần áp dụng nhiều công thức khác nhau Một điểm quan trọng là dãy Bernoulli thường không được chú ý trong các bài toán này Để giải quyết hiệu quả, việc nhận diện và hiểu rõ khái niệm về dãy phép thử Bernoulli là rất cần thiết.
Trong một bài toán xác suất, giả sử một người có ba địa điểm câu cá yêu thích với xác suất câu được cá lần lượt là 0,6; 0,7 và 0,8 Sau khi chọn một trong ba địa điểm, người này đã thả câu ba lần nhưng chỉ câu được một con cá Nhiệm vụ là tìm xác suất người đó câu được cá ở địa điểm thứ nhất.
Bước 1.Gọi Ai là biến cố người đó chọn địa điểm thứiđể câu,i =1, 2, 3 Ta thấy {A1,A2,A3}lập thành một hệ đầy đủ các biến cố.
Bước 2.GọiBlà biến cố người đó câu được cá, khi đó ta biểu diễn Bthông qua hệ đầy đủ:B= A1B+A2B+A3B.
Bước 3.Theo đề bài, ta có ngay:
Tại địa điểm đã chọn, người này thực hiện thả câu 3 lần nhưng chỉ câu được 1 con cá, điều này tạo ra một dãy 3 phép thử Bernoulli Mỗi lần thả câu tương ứng với một phép thử, trong đó chỉ có 2 khả năng xảy ra: câu được cá hoặc không câu được cá Áp dụng công thức Bernoulli, chúng ta có thể tính toán các xác suất thành phần liên quan.
1.6 Tính xác suất bằng công thức Bernoulli 23
Bước 4.Áp dụng công thức xác suất toàn phần và thay kết quả ở bước 3 vào ta có:
Vì biến cố câu được cá đã xảy ra nên áp dụng công thức Bayes, xác suất để người đó câu được cá ở địa điểm thứ nhất là:
Xác suất để một quả trứng gà nở ra gà con là 0,8 Khi ấp 5 quả trứng, chúng ta cần tính xác suất để có 3 quả nở thành gà con Sử dụng công thức xác suất nhị thức, ta có thể tính được xác suất này.
Tỷ lệ mắc bệnh cúm gà trong một vùng là 10% Trong một đợt khám cho 100 con gà được chọn ngẫu nhiên tại một trang trại, cần tính xác suất cho các trường hợp sau: a) Có 6 con mắc bệnh cúm; b) Có từ 8 đến 10 con mắc bệnh; c) Xác định số con mắc bệnh có khả năng nhất và tính xác suất tương ứng.
Bài thi trắc nghiệm gồm 12 câu hỏi, mỗi câu có 5 lựa chọn với 1 đáp án đúng Học sinh nhận 4 điểm cho mỗi câu trả lời đúng và bị trừ 1 điểm cho mỗi câu trả lời sai Để tìm xác suất học sinh đạt 13 điểm, cần xác định số câu trả lời đúng và sai phù hợp Đối với xác suất bị điểm âm, tính toán số câu trả lời sai nhiều hơn số câu trả lời đúng là cần thiết.
Bài tập 1.37 đề cập đến tỷ lệ người dân vùng cao có ký sinh trùng sốt rét trong máu là 0,2 Câu a yêu cầu tính xác suất để trong 4 người được chọn ngẫu nhiên có 3 người mang ký sinh trùng sốt rét Câu b yêu cầu tính xác suất có ít nhất một người trong số 100 người thử máu có ký sinh trùng sốt rét trong máu.
BIẾN NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT
Biến ngẫu nhiên rời rạc và quy luật phân phối xác suất
(i) Biến ngẫu nhiên rời rạclà biến ngẫu nhiên mà các giá trị của nó lập thành một tập hữu hạn hoặc vô hạn đếm được các phần tử.
Bảng phân phối xác suất của biến ngẫu nhiên rời rạc bao gồm hai dòng: dòng đầu tiên thể hiện các giá trị mà biến ngẫu nhiên có thể nhận, trong khi dòng thứ hai ghi lại các xác suất tương ứng với từng giá trị đó.
(iii) Hàm phân phối xác suấtcủa biến ngẫu nhiên X, ký hiệu là F(x),là xác suất để biến ngẫu nhiên nhận giá trị nhỏ hơnx,vớixlà số thực bất kỳ.
F(x) = P(X 50và phist()?.
Khi làm việc với dữ liệu liên tục và có khoảng dữ liệu rộng, việc sử dụng biểu đồ phân phối tần số có thể dẫn đến nhiều cột, do đó nên sử dụng đa giác tần số Để tạo đa giác tần số, ta đặt điểm tại mỗi giá trị dữ liệu (xi) và tần số (mi), sau đó nối các điểm này lại Để có đa giác tần suất, ta thay mi bằng tần suất fi = mi/n Trên R, để vẽ đa giác tần số, cần cài đặt gói lệnh agricolae() và gọi nó bằng lệnh library(agricolae) Cuối cùng, sử dụng các hàm graph.freq() và polygon.freq() để thực hiện việc vẽ đa giác tần số.
•Biểu đồ thân và lá
Biểu đồ thân và lá là một công cụ trực quan hữu ích để biểu diễn tập dữ liệu gồm các giá trị x1, x2, , xn, đặc biệt khi các giá trị này có ít nhất hai chữ số Để tạo ra biểu đồ thân và lá, người dùng cần thực hiện một số bước cụ thể.
Bước 1 Chia mỗi giá trịx i thành hai phần, phần thân bao gồm một hay nhiều chữ số đứng trước, phần lá bao gồm các chữ số còn lại.
Bước 2 Liệt kê theo thứ tự tăng dần các giá trị "thân" trong một cột.
Bước 3 Ghi các giá trị "lá" tương ứng với mỗi thân theo thứ tự tăng dần ở cột hai.
Bước 4 Ghi phần giải thích cho "thân" và "lá".
Trong R, hàm stem() được sử dụng để vẽ biểu đồ thân và lá Để mô tả hình dáng phân phối của tập dữ liệu định tính, chúng ta có thể sử dụng các loại biểu đồ như biểu đồ thanh và biểu đồ hình tròn.
Biểu đồ thanh là công cụ hữu ích để so sánh tần suất giữa các nhóm dữ liệu Trong R, hàm barplot() được sử dụng để tạo ra biểu đồ thanh với nhiều tham số như height (dữ liệu), names.arg (tên nhóm), legend.text (chú thích), beside (cách sắp xếp thanh), và horiz (hướng của thanh) Tham số col quy định màu sắc của các cột, trong khi border xác định màu đường biên Các tham số main và sub dùng để đặt tiêu đề cho biểu đồ, còn xlab và ylab là tên cho các trục x và y Cuối cùng, xlim và ylim thiết lập giới hạn cho các trục.
Biểu đồ hình tròn là công cụ hữu ích để biểu diễn dữ liệu phân nhóm, giúp so sánh tần suất của từng nhóm với tổng thể Để vẽ biểu đồ hình tròn trong R, ta sử dụng hàm pie với các tham số sau: x là vectơ số thể hiện giá trị của mỗi hình quạt, labels là tên của các hình quạt, col là màu sắc của chúng, border là màu đường ranh giới, lty là kiểu nét vẽ đường ranh giới, và main, sub là tiêu đề và tiêu đề phụ của biểu đồ.
B MỘT SỐ VÍ DỤ MẪU
Ví dụ 3.1 Giả sử điểm thi của 100 sinh viên theo thang điểm 100 được cho như sau:
55 51 50 50 69 63 64 49 56 52 37 60 71 26 30 57 56 55 58 61. a) Lập bảng tần số về điểm thi trên. b) Lập bảng tần suất về điểm thi trên.
3.1 Các phương pháp mô tả số liệu thực nghiệm 61
Hướng dẫn giải. a) Để lập bảng tần số về điểm thi của 100 sinh viên ở ví dụ 3.1, ta dùng các lệnh như sau:
1 1 1 1 b) Ta lập bảng tần suất về điểm thi của 100 sinh viên ở ví dụ 3.1 như sau:
Ví dụ 3.2 Dữ liệu về chiều cao của 20 bạn nam giới được chọn ngẫu nhiên trong một lớp (đơn vị là cm) được cho như sau:
Người thấp nhất 155 cm và cao nhất là 182 cm Hãy lập bảng ghép lớp cho dữ liệu trên.
Ta muốn chia khoảng giá trị thành 6 khoảng con có độ rộng bằng nhau và đếm số lượng giá trị trong mỗi khoảng Để thực hiện điều này trên phần mềm R, ta sử dụng đoạn lệnh phù hợp.
Ta cũng có thể chia thành các khoảng có độ rộng không bằng nhau, ví dụ ta muốn chia thành 3 khoảng[155, 165],(165, 175]),(175, 182]thì dùng lệnh:
Ví dụ 3.3 Cho dữ liệu sau về chiều cao của sinh viên:
Hãy vẽ đa giác tần số cho dữ liệu trên bằng phần mềm R.
Hướng dẫn giải. Để vẽ đa giác tần số trên phần mềm R ta dùng các lệnh sau:
>h =graph.f req(limits,counts= f requencies,border SE,col =NULL,xlab””,ylab =””)
>title(,xlab=”Giá trị”,ylab =”Tần số”)
Ta thu được đa giác tần số như hình sau:
Hình 3.1: Đa giác tần số về chiều cao sinh viên
3.1 Các phương pháp mô tả số liệu thực nghiệm 63
Ví dụ 3.4 Dữ liệu điều tra về tiền nước của 30 hộ gia đình trong một phường thu được như sau:
Dùng phần mềm R minh họa phân phối của tập dữ liệu bằng biểu đồ thân và lá và cho nhận xét.
Ta sử dụng lệnh trên phần mềm R để vẽ biểu đồ thân và lá như sau:
The decimal point is 1 digit(s) to the right of the |
Biểu đồ cho thấy rằng mức tiêu thụ nước của các hộ gia đình chủ yếu tập trung trong khoảng từ 50 đến 59, với nhiều hộ gia đình có mức chi tiêu cho nước cao nhất là 55.
Ví dụ 3.5 Số liệu điều tra về dân số của các nước Đông Nam Á trong một số năm được ghi lại trong bảng sau:
Singapore 4.2 4.2 4.2 4.3 4.5 a) Hãy vẽ biểu đồ thanh mô tả dân số Việt Nam từ năm 2002 đến năm 2006. b) Vẽ biểu đồ thanh minh họa dân số một số nước trong khu vực Đông Nam Á năm 2002, 2004, 2006.
Hướng dẫn giải. a) Trong R, để vẽ biểu đồ thanh mô tả dân số Việt Nam từ năm 2002 đến năm
2006 ta sử dụng các lệnh sau đây:
>barplot(SoDan,names.arg=c(”2002”, ”2003”, ”2004”, ”2005”, ”2006”), col =rainbow(5), xlim =c(0, 6), ylim=c(0, 100))
Nhìn vào biểu đồ chúng ta thấy dân số Việt Nam từ năm 2002 đến 2006 mỗi năm đều tăng nhưng mức tăng nhẹ.
Biểu đồ số dân Việt Nam từ năm 2002 đến 2006 cho thấy sự biến động dân số trong giai đoạn này Để minh họa số dân của một số nước Đông Nam Á, chúng ta cần sử dụng các lệnh vẽ biểu đồ thanh phù hợp.
>barplot(DanSo,col =c(74, 116, 115, 461),names.arg=c(2002, 2004, 2006), xlim=c(0, 18),ylim=c(0, 250),beside =TRUE, col.axis=”blue”,col.main =”red”,col.sub =”red”,bty = ′ n ′ )
>mtext(”Trieunguoi”,at=0.3,col =”blue”)
>legend(14, 200,c(”VietNam”, ”Indonesia”, ”ThaiLand”, ”Singapore”), col =c(74, 116, 115, 461),text.col =”green4”,bg=”gray90”, lty=c(1, 1, 1, 1),pch =c(1, 4, 1, 4),bty=”n”)
> axis(side =2,col =”blue”,col.axis=”blue”)
3.1 Các phương pháp mô tả số liệu thực nghiệm 65
Hình 3.3: Dân số một số nước Đông Nam Á năm 2002, 2004, 2006
Theo biểu đồ hình 3.3, dân số của Việt Nam, Indonesia, Thái Lan và Singapore đều có xu hướng tăng từ năm 2002 đến 2006 Cụ thể, dân số Indonesia gấp khoảng 2,5 lần dân số Việt Nam, trong khi dân số Việt Nam vượt qua Thái Lan, và Singapore có dân số thấp nhất trong số các quốc gia này.
Ví dụ 3.6 Người ta thống kê số lượng học sinh giỏi, khá, trung bình, yếu ở một lớp
12 tại một trường THPT cho kết quả như sau:
Học lực Giỏi Khá Trung bình Yếu
Hãy vẽ biểu đồ hình quạt tròn mô tả tỷ lệ học sinh theo học lực so với tổng số học sinh của lớp.
Trong lớp có tổng cộng 50 học sinh, trong đó có 10 học sinh giỏi chiếm 20%, 15 học sinh khá chiếm 30%, 18 học sinh trung bình chiếm 36%, và 7 học sinh yếu chiếm 14% Để vẽ biểu đồ hình quạt tròn trên R, bạn có thể thực hiện các lệnh cần thiết theo hướng dẫn cụ thể.
>TiLe =round(prop.table(SoHocSinh), 3)∗100
> HocLuc=c(”Gioi”, ”Kha”, ”TrungBinh”, ”Yeu”)
> pie(SoHocSinh,col =rainbow(4),labels= paste(HocLuc, ” : ”,TiLe, ”%”))
Các tham số thống kê mô tả của mẫu ngẫu nhiên
A TÓM TẮT LÝ THUYẾT a) Các hàm thống kê mô tả (hay còn gọi là các tham số thống kê mô tả) được chia thành các nhóm như sau:
Nhóm 1: Các hàm biểu thị số đo hướng tâm: trung bình mẫu, trung vị, mode;
Nhóm 2: Các hàm biểu thị số đo phân bố: tứ phân vị, phân vị thứ p;
Nhóm 3: Các hàm biểu thị số đo độ phân tán: khoảng biến thiên, độ trải giữa, phương sai, độ lệch tiêu chuẩn điều chỉnh mẫu;
Nhóm 4: Các hàm biểu thị các số đo mô tả hình dáng của tập dữ liệu: hệ số bất đối xứng
Skewness, hệ số đo độ nhọn Kurtosis;
Nhóm 5: So sánh mức độ biến động của các tổng thể có bản chất và đơn vị đo khác nhau, trung bình mẫu khác nhau thì cần dùng tham số thống kê gọi làhệ số biến động;
Nhóm 6: Hàm biểu thị sai số chọn mẫu tức là sai số do bản thân chọn mẫu gây ra chứ không phải sai số do dụng cụ quan sát, đo lường sai hay do ghi chép sai, tính toán sai gọi làsai số chuẩn.
Đầu tiên, chúng ta cần nhắc lại định nghĩa và các công thức tính toán các tham số Giả sử có một bộ số liệu thực nghiệm bao gồm các phần tử (x1, x2, , xn).
(i) Trung bình mẫuđược tính bằng tổng số các giá trị quan sát của tập dữ liệu chia cho số quan sát của tập dữ liệu đó: x = x 1 +x2+ +xn n
3.2 Các tham số thống kê mô tả của mẫu ngẫu nhiên 67
Trung vị là giá trị nằm ở vị trí giữa của một tập dữ liệu đã được sắp xếp Đối với các tập dữ liệu có số lượng quan sát là số lẻ, trung vị được xác định là giá trị ở vị trí thứ n+1.
Khi số lượng quan sát là số chẵn, trung vị được tính bằng trung bình cộng của hai quan sát nằm ở vị trí giữa trong tập dữ liệu, tức là hai quan sát ở vị trí thứ n.
2 (iii) Modecủa tập dữ liệu là giá trị xuất hiện nhiều nhất trong tập dữ liệu.
Tứ phân vị là cách phân chia tập dữ liệu thành bốn phần bằng nhau, mỗi phần chứa số lượng quan sát tương đương Trong đó, có ba tứ phân vị quan trọng: tứ phân vị thứ nhất (Q1), tứ phân vị thứ hai (Q2, hay còn gọi là trung vị) và tứ phân vị thứ ba (Q3) Khoảng 25% số quan sát trong tập dữ liệu nhỏ hơn hoặc bằng Q1, 50% nhỏ hơn hoặc bằng Q2, và 75% nhỏ hơn hoặc bằng Q3.
Phân vị thứ p của tập dữ liệu được xác định là giá trị chia tập dữ liệu thành hai phần: một phần chứa khoảng p% số quan sát nhỏ hơn hoặc bằng phân vị thứ p, trong khi phần còn lại có khoảng (100−p)% số quan sát lớn hơn hoặc bằng phân vị thứ p.
(vi) Khoảng biến thiêncủa một tập dữ liệu là hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất của tập dữ liệu:R=xmax−x min
(vii) Độ trải giữacủa một tập dữ liệu là hiệu giữa tứ phân vị thứ ba và tứ phân vị thứ nhất của tập dữ liệu:R Q =Q 3 −Q 1
(viii) Phương sai mẫu chưa điều chỉnhcủa tập dữ liệu được xác định bằng công thức s 2 = 1 n ∑ n i = 1
(ix) Phương sai điều chỉnh mẫu (gọi tắt là phương sai mẫu) của một tập dữ liệu mẫu, ký hiệu làs ′ 2 ,được xác định bằng công thức s ′ 2 = ∑ n i = 1(xi−x) 2 n−1 = n n−1s 2
(x) Độ lệch tiêu chuẩn mẫu chưa điều chỉnh, ký hiệu làs,là căn bậc hai của phương sai mẫu chưa điều chỉnhs=√ s 2
Độ lệch tiêu chuẩn điều chỉnh mẫu, ký hiệu là s′, được tính bằng căn bậc hai của phương sai điều chỉnh mẫu, tức là s′ = √s′² Hệ số bất đối xứng (skewness) được tính theo công thức ∑(xi−x)³/n s′³.
(xiii) Hệ số đo độ nhọn Kurtosisđược tính bằng: ∑ n i = 1(x i −x) 4 /n s ′ 4 −3.
(xiv) Hệ số biến động, ký hiệu là CV,là tỷ lệ phần trăm giữa độ lệch tiêu chuẩn mẫu với trung bình mẫu, được tính bằng công thứcCV = s
Sai số chuẩn, hay còn gọi là sai số của số trung bình (ký hiệu SE), thể hiện mức độ đại diện của tham số mẫu so với tham số tổng thể Sai số chuẩn được xác định theo công thức SE = s.
Trong R, có một số hàm hữu ích để tính toán các tham số thống kê mô tả mẫu Hàm `mean(x)` được sử dụng để tính trung bình cộng của các giá trị trong vectơ x, trong khi `median(x)` tính trung vị Để xác định mode, bạn có thể sử dụng `which(table(x))` và `max(table(x))` Để tính phương sai, sử dụng hàm `var(x)`, và để tính độ lệch chuẩn, hãy dùng `sd(x)` Hàm `quantile(x)` cho phép tính phân vị, trong khi `range(x)` tìm giá trị lớn nhất và nhỏ nhất Hàm `summary(x)` cung cấp thông tin tổng quan như giá trị lớn nhất, giá trị nhỏ nhất, trung bình mẫu và trung vị Cuối cùng, `skewness(x)` tính hệ số bất đối xứng và `kurtosis(x)` tính hệ số độ nhọn của các giá trị trong vectơ x.
Trong R, không có hàm tính sai số chuẩn, và hàm summary không cung cấp độ lệch chuẩn Để lấy thông tin này, chúng ta có thể tự viết một hàm đơn giản có tên là hàmdesc.
{av =mean(x) sd =sd(x) se =sd/sqrt(length(x)) cv=sd/av∗100; c(Mean=av,sd =sd(x),SE=se,CV =cv)} c) Các phương pháp phát hiện quan sát bất thường
Có nhiều phương pháp để phát hiện quan sát bất thường, trong đó hai phương pháp sau là thông dụng nhất.
•Phương pháp sử dụng biểu đồ hộp
Biểu đồ hộp là một công cụ trực quan để trình bày dữ liệu, giúp thể hiện các đặc điểm quan trọng của tập dữ liệu như trung tâm, độ phân tán, tính đối xứng và các điểm bất thường Nó cung cấp thông tin về ba điểm tứ phân vị Q1, Q2, Q3 và giá trị nhỏ nhất, từ đó giúp người dùng dễ dàng phân tích và hiểu rõ hơn về dữ liệu.
3.2 Các tham số thống kê mô tả của mẫu ngẫu nhiên 69 nhất, giá trị lớn nhất trên một hộp chữ nhật (có thể dựng đứng hoặc nằm ngang). Một cạnh của hình chữ nhật nằm tại vị trí tứ phân vị thứ nhất Q 1 , cạnh đối diện ở vị trí của điểm tứ phân vị thứ ba Q 3 , như vậy chiều dài của hình chữ nhật chính là độ dài khoảng tứ phân vị R Q = Q 3 −Q 1 (chiều rộng của hình chữ nhật được chọn sao cho hình chữ nhật nhìn cân đối) Từ điểm Q 1 ta vẽ một đoạn thẳng theo hướng đi ra giá trị nhỏ nhất của dữ liệu với độ dài1, 5R Q và từ điểmQ3vẽ đoạn thẳng đi ra hướng giá trị lớn nhất của dữ liệu với độ dài1, 5R Q (các đoạn thẳng này được gọi là
”đuôi dưới " và "đuôi trên") Các quan sát nằm ngoài hình chữ nhật và hai đuôi này được coi là cácquan sát bất thường.
Để vẽ biểu đồ hộp trong phần mềm R, ta sử dụng hàm boxplot với cú pháp: boxplot(x, names, border, col, horizontal) Trong đó, x là vectơ dữ liệu số, names dùng để ghi chú dưới mỗi biểu đồ, border xác định màu sắc của râu, đường biên và giá trị ngoại biên, col là màu của hộp, và horizontal cho phép điều chỉnh hướng vẽ: nếu horizontal = FALSE, biểu đồ sẽ được vẽ theo chiều dọc, còn nếu horizontal = TRUE, biểu đồ sẽ được vẽ theo chiều ngang.
•Phương pháp sử dụng giá trị trung bình và độ lệch tiêu chuẩn
Phương pháp này dựa trên nguyên tắc rằng nếu dữ liệu tuân theo phân bố chuẩn, khoảng 95% số quan sát sẽ nằm trong khoảng (x−2s ′ ;x+2s ′ ) và 99,74% sẽ nằm trong khoảng (x−3s ′ ;x+3s ′ ) Trong đó, x là trung bình mẫu và s ′ là độ lệch chuẩn mẫu Các quan sát không nằm trong khoảng (x−2s ′ ;x+2s ′ ) được coi là bất thường Để xác định các quan sát bất thường, ta thực hiện theo quy trình đã nêu.
Bước 1.Từ dãy số liệu đã cho tínhxvàs ′
Bước 2.Tìm khoảng(x−2s ′ ;x+2s ′ ).Các quan sát bất thường là các giá trị không thuộc khoảng vừa tìm được.
Thực hành khai phá và tìm hiểu dữ liệu
Để phân tích tập dữ liệu, trước tiên, chúng ta cần tính toán các tham số mô tả độ phân bố như tứ phân vị và các phân vị thứ 10, 60, 90 Tiếp theo, việc xác định các tham số độ phân tán như khoảng biến thiên, độ trải giữa, phương sai và độ lệch chuẩn là rất quan trọng Cuối cùng, việc vẽ biểu đồ hộp cho tập dữ liệu sẽ giúp trực quan hóa các thông tin này và từ đó đưa ra những nhận xét sâu sắc hơn về đặc điểm của dữ liệu.
Bài tập 3.11 Thu nhập theo tháng (đơn vị: triệu đồng) của các công nhân trong một công ty nhỏ được cho như sau:
Để tính thu nhập theo tháng của công nhân công ty, ta cần sử dụng các số liệu đã cho Trong bối cảnh đại dịch Covid-19, công ty đã áp dụng chính sách hỗ trợ 25% cho những công nhân có thu nhập thấp nhất Để xác định các công nhân đủ điều kiện nhận hỗ trợ, ta cần tính toán các tứ phân vị và giá trị của chúng.
3.3 Thực hành khai phá và tìm hiểu dữ liệu
Sử dụng kiến thức thống kê mô tả, chúng ta sẽ khám phá tập dữ liệu usedcars.csv, chứa thông tin thực tế về ô tô đã qua sử dụng được rao bán trên một trang web nổi tiếng của Hoa Kỳ Tập dữ liệu này cho phép chúng ta đảm nhiệm vai trò của một nhà khoa học dữ liệu, tìm hiểu và phân tích thông tin về xe đã qua sử dụng Để bắt đầu, chúng ta cần tải dữ liệu vào R để khám phá cấu trúc của nó.
>usedcarszsum.test(mean.x =3.266,sigma.x =0.544,n.x ,alt =”t”,con f.level =0.95)
Ta thu được kết quả như sau:
Data: summarized x z $.015,p−value TyLeToiDa = f unction(MTanSo,NTyLe,al pha)
>+SE=sqrt(Ep∗(1−Ep)/Ntyle)
>TyLeToiThieu = f unction(MTanSo,NTyLe,al pha)
>+SE=sqrt(Ep∗(1−Ep)/Ntyle)
>+c(Ep−zstar∗SE,+In f)} b) Ước lượng số cá thể Mmang đặc tính Atrong tổng thể
Trong bài toán trên, nếu N đã biết thì ta có thể ước lượng M bằng cách thay p = M
N vào công thức (4.16), ta được khoảng tin cậy của số cá thể mang đặc tính A trong tổng thể là:
Phần mềm R không có hàm sẵn để ước lượng số cá thể mang đặc tính A trong tổng thể nên ta có thể tự xây dựng hàm như sau:
>ULSoCaThe= f unction(nMau,mtanso,Ntongthe,ALPH A)
+SE1=sqrt(TS1∗(1−TS1)/nMau)
+c(Ntongthe∗(TS1−SE1∗ZSTAR1),Ntongthe∗(TS1+SE1∗ZSTAR1))} c) Ước lượng kích thướcN của tổng thể
Trong bài toán trên, nếu cho trước M thì ta có thể ước lượng N bằng cách thay p = M
N vào công thức (4.16), ta được khoảng tin cậy của kích thước tổng thể là:
Phần mềm Rkhông có hàm sẵn để ước lượng kích thước của tổng thể mà ta có thể tự xây dựng hàm như sau:
>ULKTTongThe = f unction(MCaThe,mtanso,nmau,Al pha)
+SE=sqrt(EP∗(1−EP)/nmau)
B MỘT SỐ VÍ DỤ MẪU
Tại một cơ sở chăn nuôi lợn thịt, trong số 2000 con lợn được kiểm tra, có 1600 con lợn bị nhiễm ký sinh trùng đường tiêu hóa Với độ tin cậy 95%, tỷ lệ lợn nhiễm ký sinh trùng đường tiêu hóa tại cơ sở này được ước lượng là 80%.
•Tính trực tiếp bằng công thức
Gọi plà tỷ lệ lợn thịt nhiễm ký sinh trùng đường tiêu hóa, bài viết này đề cập đến việc ước lượng tỷ lệ của tổng thể thông qua khoảng tin cậy đối xứng.
Dựa vào mẫu cụ thể ta có: n 00; f = 1600
Với độ tin cậy1− α =0, 95,tra bảng phụ lục 2 (bảng phân vị chuẩn mứcα) ta có z α
Khoảng tin cậy đối xứng củaplà:
Vậy với độ tin cậy95%,tỷ lệ lợn thịt bị nhiễm ký sinh trùng đường tiêu hóa nằm trong khoảng(78, 247; 81, 753)%.
•Tính bằng lệnh trên phần mềm R
Ta thu được kết quả sau:
1 -sample propositions test with continuity correction data: m out of n, null probability0.5
X−squared q8.8,d f =1,p−value MCaThe 00;mtanso ;nmau @0,Al pha=0.05
Vậy số cá trong hồ nằm trong khoảng(8362, 12438)con.
Bài tập 4.12 Cân thử100quả trứng gà của giống gà tam hoàng ta được kết quả như sau:
Trứng có khối lượng nhỏ hơn 165 gam được phân loại là trứng loại hai Để xác định tỷ lệ trứng loại hai, cần ước lượng khoảng tin cậy đối xứng với độ tin cậy 95%.
Bài tập 4.13 Tại một lâm trường, người ta tiến hành đo chiều cao của 35 cây bạch đàn và thu được bảng số liệu như sau:
Hãy ước lượng tỷ lệ cây bạch đàn có chiều cao lớn hơn8mét với độ tin cậy95%.
Trong bài tập 4.14, một cuộc kiểm tra ngẫu nhiên được thực hiện trên 400 sản phẩm do một máy tự động sản xuất, trong đó có 20 sản phẩm bị loại bỏ như phế phẩm Với độ tin cậy 95%, cần ước lượng tỷ lệ phế phẩm tối đa của máy này Kết quả sẽ giúp đánh giá chất lượng sản phẩm và hiệu suất hoạt động của máy tự động.
Bài tập 4.15 Điều tra 2000gia đình giáo viên ở các tỉnh Đồng bằng Bắc Bộ thấy có
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Lý thuyết chung về kiểm định giả thuyết
(i) Giả thuyết thống kêlà giả thuyết về dạng phân phối xác suất, về các tham số đặc trưng hoặc về tính độc lập của các biến ngẫu nhiên.
Cặp giả thuyết thống kê bao gồm hai mệnh đề chính: giả thuyết gốc (H0) và giả thuyết đối (H1) Việc sử dụng cặp giả thuyết này giúp đảm bảo tính toán chính xác và thuận tiện trong quá trình kiểm định.
(iii) Tiêu chuẩn kiểm định: Từ tổng thể của biến ngẫu nhiên gốc, lập mẫu ngẫu nhiên kích thướcn W = (X 1 ,X2, ,Xn)và chọn thống kê
T = f(X1, X2, , Xn, θ0) là một hàm trong đó θ0 đại diện cho tham số liên quan đến giả thuyết kiểm định Khi giả thuyết H0 đúng, T sẽ có quy luật phân phối xác suất xác định, và được gọi là tiêu chuẩn kiểm định.
(iv) Miền bác bỏgiả thuyết thống kê, ký hiệuW α , là miền để xác suấtTnhận giá trị trong miền đó với điều kiệnH 0 đúng bằngα.
Giá trịαđược gọi làmức ý nghĩa, phần còn lại gọi là miền chấp nhận giả thuyết
Có3loại miền bác bỏ tùy thuộc vào đối thuyết H1, đó là:miền bác bỏ hai phía, miền bác bỏ bên phảivàmiền bác bỏ bên trái.
Khi thực hiện phép thử với mẫu ngẫu nhiên W, chúng ta thu được mẫu cụ thể w = (x1, x2, , xn) Bằng cách thay giá trị này vào tiêu chuẩn kiểm định T, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là t0 = f(x1, x2, , xn, θα) Giá trị tới hạn (hay còn gọi là critical-value) là giá trị phân định giữa miền bác bỏ và miền chấp nhận giả thuyết.
Giá trị xác suất (p-value) là giá trị nhỏ nhất để bác bỏ giả thuyết H0, phản ánh sức mạnh của các bằng chứng chống lại H0 Phương pháp kiểm định là cách thức sử dụng p-value để xác định tính xác thực của giả thuyết.
Cuốn sách này giới thiệu 02 phương pháp kiểm định thông dụng, sau đó áp dụng tính toán bằng phần mềmR.
Phương pháp sử dụng giá trị tới hạn (critical value) hay còn gọi là phương pháp tìm miền bác bỏ giả thuyết, bắt đầu bằng việc tính toán giá trị quan sát t0 Sau đó, so sánh t0 với miền bác bỏ W α để đưa ra kết luận theo quy tắc đã định.
− Nếut 0 ∈ W α thìH 0 sai và do đó bác bỏH 0 , thừa nhậnH 1
− Nếut 0 ∈/ W α thì ta chỉ có thể nói qua mẫu cụ thể chưa có cơ sở để bác bỏ H 0 (trên thực tế là thừa nhận H 0 ).
Phương pháp sử dụng giá trị xác suất (p-value) bắt đầu bằng việc tính giá trị quan sát t0 Tiếp theo, dựa vào t0, ta tính các p-value tương ứng với từng loại giả thuyết H1 Cuối cùng, kết luận của bài toán kiểm định được đưa ra dựa trên việc so sánh α với p-value theo quy tắc đã định.
− Nếu p-value⩽αthì bác bỏH0;
− Nếu p-value>αthì chưa có cơ sở để bác bỏH0(trên thực tế là thừa nhận H0).
Chú ý 5.1 (i) Nếu không cố định trước mức ý nghĩaα, ta có thể đưa ra kết luận kiểm định theo p-value dựa trên quy tắc sau:
− Nếu p-value>0, 1thì thừa nhậnH 0 ;
− Nếu0, 05 < p-valuet0).
− NếuH1 : a p2):W α = (z α ;+∞).
− Miền bác bỏ bên trái (nếuH1 : p1< p2):W α = (−∞;−z α ).
Bước 4.So sánht0với miền bác bỏW α rồi rút ra kết luận.
Bước 1 và 2được thực hiện như phương pháp trên.
Bước 3.Tínhp-value tùy thuộc vào đối thuyếtH 1 như sau:
Bước 4.So sánh giá trị của mức ý nghĩaαvới p-value rồi rút ra kết luận.
Để thực hiện kiểm định tỷ lệ trong phần mềm R, bạn có thể sử dụng lệnh `prop.test(x, n, p, alt, correct)` Trong đó, `x` là số lần xuất hiện của biến cố A, `n` là tổng số lần thực hiện thí nghiệm, `alt` là chuỗi ký tự chỉ giả thuyết đối, `p` là xác suất thành công, và `correct` là tham số logic chỉ định có hay không sự điều chỉnh liên tục Yate, với giá trị mặc định là `correct = TRUE`.
B MỘT SỐ VÍ DỤ MẪU
Trong nghiên cứu tại Ba Vì, tỷ lệ bò lang trắng đen được xác định là 5% Qua việc kiểm tra ngẫu nhiên 300 con bò, kết quả cho thấy có 24 con lang trắng đen Dựa trên dữ liệu này, có ý kiến cho rằng tỷ lệ bò lang trắng đen tại địa phương đang có xu hướng gia tăng Để kết luận ý kiến này, cần thực hiện kiểm định giả thuyết với mức ý nghĩa α = 0,05.
Gọi plà tỷ lệ bò lang trắng đen.
•Phương pháp tìm miền bác bỏ giả thuyết
Bước 1.Đặt giả thuyếtH0 : p=0, 05và đối thuyếtH1 : p>0, 05.
5.3 Kiểm định giả thuyết về tỷ lệ một tổng thể 129
Bước 2.Chọn tiêu chuẩn kiểm định:
Nếu giả thuyết H 0 là đúng thì ta có:
√300, trong đó f là tần suất mẫu với kích thước mẫu làn00 Từ mẫu cụ thể ta tìm được f = 24
Bước 3 Với mức ý nghĩa α = 0, 05, tra bảng phụ lục về phân vị chuẩn ta có z α =z 0,05 =1, 645 Miền bác bỏ bên phảiW α = (1, 645;+∞).
Bước 4 Ta thấyt0∈ W α nên bác bỏ H0, chấp nhậnH1, nghĩa là tỷ lệ bò lang trắng đen tại Ba Vì đúng là đã tăng lên.
Bước 1vàBước 2tương tự phương pháp tìm miền bác bỏ giả thuyết.
Bước 3: Vì p-value = P(T > 2, 38) = 1−Φ(|2, 38|) nên tra bảng phụ lục ta có
Bước 4:Vì p-value < α =0, 05nên bác bỏ H 0 ,nghĩa là tỷ lệ bò lang trắng đen tại
Ba Vì đúng là đã tăng lên.
•Tính bằng lệnh trên phần mềmR
Ta sử dụng hàmprop.testđể kiểm định như sau:
> prop.test(x$,n00,p=0.05,alt =”g”,correct= TRUE)
Ta thu được kết quả sau:
1-sample proportions test with continuity correction data: 24 out of 300, null probability0.05
X−squared =5.0702,d f =1,p−value=0.01217 alternative hypothesis: true p is greater than0.05
Từ kết quả trên ta thấy p-value = 0, 01217 < α = 0, 05, do đó bác bỏ giả thuyết
H 0 ,chấp nhậnH 1 và có thể kết luận rằng tỷ lệ bò lang trắng đen đúng là đã tăng lên.
Trong một kho hạt giống có tỷ lệ nảy mầm ban đầu là 0,9, một thiết bị hỏng đã làm thay đổi điều kiện bên trong kho, dẫn đến giả định rằng tỷ lệ nảy mầm có thể đã thay đổi Thí nghiệm được thực hiện trên 200 hạt giống cho thấy có 140 hạt nảy mầm Với mức ý nghĩa 0,05, cần xem xét kết quả thí nghiệm để đưa ra kết luận về sự thay đổi tỷ lệ nảy mầm.
Gọi plà tỷ lệ nảy mầm của hạt giống.
•Phương pháp tìm miền bác bỏ giả thuyết
Bước 1 Đặt giả thuyếtH0: p =0, 9và đối thuyếtH 1 : p ̸=0, 9.
Bước 2 Chọn tiêu chuẩn kiểm định:
Nếu giả thuyết H 0 là đúng thì ta có:
√ 200, trong đó f là tần suất mẫu với kích thước mẫu là n = 200 Khi đó T có phân phối chuẩn hóa N(0, 1) Từ mẫu cụ thể ta tìm được: f = 140
Bước 3 Với mức ý nghĩa α = 0, 05, tra bảng phụ lục về phân vị chuẩn ta có z α
2 =z0,025 =1, 96 Miền bác bỏ hai phíaW α = (−∞;−1, 96)∪(1, 96;+∞).
Bước 4 Ta thấyt0 ∈ W α nên bác bỏH0, chấp nhậnH 1 , nghĩa là tỷ lệ nảy mầm của hạt giống đúng là đã thay đổi.
Bước 1vàBước 2tiến hành như phương pháp tìm miền bác bỏ giả thuyết.
Bước 4:Vìp-value ≈0< α =0, 05nên bác bỏH0,nghĩa là tỷ lệ nảy mầm của hạt giống đúng là đã thay đổi.
Trong nghiên cứu về hiệu quả điều trị bệnh cúm A, tỷ lệ bệnh nhân khỏi bệnh khi sử dụng thuốc H đạt 85% Khi thử nghiệm thuốc K trên 900 bệnh nhân mắc cúm A, có 810 người khỏi bệnh Để so sánh hiệu quả của thuốc K và thuốc H, cần thực hiện kiểm định với mức ý nghĩa 0,05 để xác định liệu thuốc K có hiệu quả hơn thuốc H trong việc điều trị bệnh cúm A hay không.
Trong một nghiên cứu tại địa phương, 10,650 trẻ sơ sinh đã được thống kê, trong đó có 5,410 bé trai Để xác định xem tỷ lệ sinh con trai có cao hơn tỷ lệ sinh con gái hay không, cần phân tích dữ liệu với mức ý nghĩa 1% Kết quả sẽ giúp đưa ra kết luận chính xác về tỷ lệ sinh giới tính tại địa phương này.
5.3 Kiểm định giả thuyết về tỷ lệ một tổng thể 131
Trong một thí nghiệm kiểm tra hiệu lực của thuốc chữa bệnh lở mồm long móng, một nhà sản xuất khẳng định rằng thuốc của họ có hiệu lực 90% Tuy nhiên, khi thử nghiệm trên 200 con lợn mắc bệnh, chỉ có 160 con khỏi bệnh Kết quả này cho thấy tỷ lệ khỏi bệnh là 80% (160/200), thấp hơn mức hiệu lực mà nhà sản xuất quảng cáo Với mức ý nghĩa 1%, điều này cho thấy nghi ngờ về sự chính xác trong quảng cáo của nhà sản xuất là đúng.
Theo một nguồn tin, tỷ lệ người dân ở thành phố Thái Nguyên thích xem dân ca trên tivi là 80% Một cuộc khảo sát được thực hiện với 120 hộ dân trong thành phố này cho thấy có 84 hộ dân thích xem dân ca Với mức ý nghĩa 5%, cần xác định xem nguồn tin này có đáng tin cậy hay không.
Hướng dẫn giải bài tập chương 5
5.1 Đặt giả thuyếtH 0 :a,đối thuyếtH 1 : a̸.
Dựa vào mẫu cụ thể ta có:n%,x, 84,s ′ =2, 576.t 0 =1, 63.
Với mức ý nghĩaα= 0, 05,vì kích thước mẫu nhỏ nên tra bảng phụ lục về phân vị student, ta cót 0,975,24 =2, 064.
Vì đối thuyếtH 1 :a̸,nên ta tìm miền bác bỏ hai phíaW α = (−∞;−2, 064)∪(2, 064;+∞).
Ta thấyt 0 ∈/W α nên ta chưa có cơ sở để bác bỏ H 0
Kết luận: không cần phải thay đổi định mức.
5.2 Đặt giả thuyếtH 0 :aP,đối thuyếtH 1 : a1.
Dựa vào mẫu cụ thể ta có:nP,x=1, 1.t 0 =7, 1.
Với mức ý nghĩaα=0, 05,tra bảng phụ lục về phân vị chuẩn, ta cóz 0,05 =1, 645.
Vì đối thuyếtH 1 : a> 1,nên ta có miền bác bỏ bên phảiW α = (1, 645;+∞) Vìt 0 ∈ W α nên ta bác bỏH 0 ,chấp nhậnH 1
Kết luận: với mức ý nghĩa5%,có thể nói rằng vườn cây đã đạt tiêu chuẩn mang ra trồng.
5.5 Đặt giả thuyếtH 0 :a0và đối thuyếtH 1 : a>140.
Dựa vào mẫu cụ thể ta có:n0;x 7, 8;s ′ $, 1033;t0=3, 23607.
Với mức ý nghĩaα=0, 05,tra bảng phụ lục về phân vị chuẩn, ta cóz 0,05 =1, 645.
Vì đối thuyếtH 1 :a >1,nên miền bác bỏ bên phải làW α = (1, 645;+∞).Dot 0 ∈ W α nên ta bác bỏH0,chấp nhậnH 1
Kết luận: với mức ý nghĩa5%,có thể cho rằng lượng điện tiêu dùng trung bình của một hộ gia đình đúng là đã tăng lên.
5.6 Đặt giả thuyếtH0 :a và đối thuyếtH 1 : a0, 5. Dựa vào mẫu cụ thể ta cón=10650,f =0, 50798,t 0 =1, 647.
Tra bảng phụ lục ta cóz α = z 0,01 =2, 33 Miền bác bỏ bên phảiW α = (2, 33;+∞)
Ta thấyt 0 ̸∈W α nên chưa có cơ sở để bác bỏH 0
Kết luận: chưa có cơ sở để nói rằng tỷ lệ sinh con trai ở địa phương này cao hơn tỷ lệ sinh con gái.
5.9 Gọiplà tỷ lệ lợn khỏi bệnh lở mồm long móng Đặt giả thuyếtH 0 : p=0, 9và đối thuyết
Dựa vào mẫu cụ thể ta cón 0,f =0, 8,t0=−3, 535.
Tra bảng phụ lục ta cóz α = z 0,01 =2, 33 Miền bác bỏ bên tráiW α = (−∞;−2, 33).
Ta thấyt 0 ∈W α nên bác bỏH 0 chấp nhậnH 1
Kết luận: nhà sản xuất đã quảng cáo không đúng sự thật.
5.10 Gọi p là tỷ lệ hộ dân thích xem dân ca Đặt giả thuyết H 0 : p = 0, 8 và đối thuyết
Dựa vào mẫu cụ thể ta cón=120,f =0, 7,t 0 =−0, 022.
Tra bảng phụ lục ta cóz α
Miền bác bỏ hai phíaW α = (−∞;−1, 96)∪(1, 96;+∞).
Ta thấyt 0 ̸∈W α nên chưa có cơ sở để bác bỏH 0
Kết luận: nguồn tin đó là đáng tin cậy.
TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH
Hệ số tương quan tuyến tính
A TÓM TẮT LÝ THUYẾT a) Một số khái niệm
(i) Đồ thị phân tán của biếnY đối với biến X là tập hợp các điểm M(x i ,y i ) trong hệ tọa độ vuông góc.
Trong đồ thị phân tán, nếu các điểm M(x i ,y i ) tập trung quanh một đường thẳng d, điều này cho thấy hai biến ngẫu nhiên X và Y có mối tương quan tuyến tính Đường thẳng này được gọi là đường hồi quy tuyến tính.
Giả sử X và Y là hai biến ngẫu nhiên với V(X) > 0 và V(Y) > 0 Hệ số tương quan lý thuyết giữa hai biến ngẫu nhiên X và Y, ký hiệu là ρ(X, Y), được xác định theo công thức: ρ(X,Y) = E[X−E(X)][Y−E(Y)] / (√V(X)√V(Y)) = (E(XY)−E(X)E(Y)) / (√V(X)√V(Y)).
Hệ số tương quan ρ(X,Y) nằm trong khoảng [−1, 1], với ρ(X,Y) = 0 cho thấy không có mối tương quan tuyến tính giữa X và Y, hoặc có nhưng không phải là tuyến tính Đặc biệt, nếu X và Y có phân bố chuẩn, ρ(X,Y) = 0 chỉ xảy ra khi X và Y độc lập Giá trị tuyệt đối của ρ(X,Y) càng gần 1 thì mức độ phụ thuộc tuyến tính giữa X và Y càng cao; ngược lại, nếu giá trị tuyệt đối của ρ(X,Y) nhỏ thì mức độ phụ thuộc tuyến tính giữa chúng cũng giảm.
Hai biến XvàY được gọi là cótương quan thuận nếuρ(X, Y) > 0và được gọi là cótương quan nghịchnếuρ(X,Y)0thìXvàYlà tương quan thuận;
(iii) Nếur plot(xP,yNS,bty =”l”,type =”p”,pch=16,col =”red”,col.main =”blue”, col.lab=”blue”,col.axis =”blue”)
Biểu đồ phân tán trong hình 6.3 cho thấy có mối tương quan tuyến tính chặt chẽ giữa mức bón phân đạm và năng suất lúa.
Hình 6.3: Biểu đồ phân tán giữa mức bón phân đạm và năng suất của lúa
6.1 Hệ số tương quan tuyến tính 139 b) Tính hệ số tương quan mẫu.
•Tính trực tiếp bằng công thức
Ta lập bảng tính như sau: x i y i x 2 i y 2 i x i y i
Hệ số tương quan mẫu giữa mức bón phân đạm và năng suất lúa là r= 502675−75×5870, 75
Giá trị r = 0, 985 cho biết năng suất lúa có tương quan thuận chặt chẽ với mức bón phân đạm trong khoảng bón đạm từ0đến150(kg/ha).
•Tính bằng lệnh trên phần mềm R
Ta dùng phần mềm R với các lệnh như sau:
Vậy hệ số tương quan mẫu giữa mức bón phân đạm và năng suất lúa là0, 985.
Ví dụ 6.2 Theo dõi vi lượngAtrong đất trồngY(mg/kg)đất và năng suất của một loại rauX(tấn/ ha), ta có kết quả sau:
Để dự đoán mối tương quan giữa lượng vi lượng A trong đất trồng và năng suất của một loại rau, cần vẽ biểu đồ phân tán Sau khi hoàn thành, hãy tìm hệ số tương quan mẫu và đưa ra nhận xét về mối quan hệ giữa hai yếu tố này.
Hướng dẫn giải. a) Biểu đồ phân tán được vẽ bằng phần mềm R với các lệnh như sau:
>yTN =c(20,rep(30, 3), 40,rep(20, 2),rep(30, 5),rep(40, 6),rep(50, 2),rep(30, 3), rep(40, 8),rep(50, 6),rep(60, 3),rep(40, 3),rep(50, 5),rep(60, 2))
> plot(xTNTC,yTN, ,bty =”l”,type=”p”,pch ,col =”red”, col.main =”blue”,col.lab=”blue”,col.axis=”blue”)
Biểu đồ phân tán (hình 6.4) cho thấy mối quan hệ tương quan tuyến tính giữa lượng vi lượng A trong đất và năng suất của giống rau.
Hình 6.4: Biểu đồ phân tán giữa vi lượng A trong đất và năng suất của rau
6.1 Hệ số tương quan tuyến tính 141 b) Tính hệ số tương quan mẫu:
• Tính trực tiếp bằng công thức
Vì các x i cách đều nhau một khoảng hx = 5,chọnx 0 , cácy i cách đều nhau một khoảnghy,chọny 0 @.Đặt ui= x i −20
Ta lập lại bảng số liệu mới như sau:
Nhìn vào bảng số liệu trên ta có: u = −15
50 −(0, 12) 2 =1, 051;susv=0, 946. Vậy hệ số tương quan mẫu là: r = uv−u v susv
Hệ số tương quan mẫu r = 0,588 cho thấy có mối tương quan thuận giữa lượng vi lượng A và năng suất rau Điều này có nghĩa là khi lượng vi lượng A được cung cấp đầy đủ, năng suất của rau sẽ tăng cao.
• Tính bằng lệnh trên phần mềm R
Ta dùng đoạn lệnh như sau:
>yTN =c(20,rep(30, 3), 40,rep(20, 2),rep(30, 5),rep(40, 6),rep(50, 2),rep(30, 3), rep(40, 8),rep(50, 6),rep(60, 3),rep(40, 3),rep(50, 5),rep(60, 2))
Vậy hệ số tương quan mẫu0, 588.
Ví dụ 6.3 Quay trở lại ví dụ 6.2,hãy kiểm tra xem hai tổng thể của hai biến ngẫu nhiênXvàYcó quan hệ tuyến tính không với mức ý nghĩa5%.
• Tính trực tiếp bằng công thức
Chọn giả thuyếtH0 : ρ=0, đối thuyếtH1 : ρ̸=0 Ta có: t 0 =r
2 =0, 975, tra bảng phụ lục 3 ta cót0,975,48 ≈2, 02, miền bác bỏ hai phía là:
Dễ thấyt0 ∈W α nên bác bỏ H0, tức là hai biếnX,Ycó quan hệ tuyến tính.
•Tính bằng lệnh trên phần mềm R
>cor.test(xTNTC,yTN,alternative =”two.sided”,method =”pearson”, con f.level =0.95)
Kết quả cho như sau:
Pearson’s product-moment correlation data: xTNTC and yTN t =5.0304,d f H,p−value =7.269e−06 alternative hypothesis: true correlation is not equal to 0
Vì p-value=7, 2.10 − 6 t α/2,n − 2 ,trong đót α/2,n − 2 là phân vị mức α
2 của phân bố Student với(n−2)bậc tự do.
B MỘT SỐ VÍ DỤ MẪU
Trong ví dụ 6.4, chúng ta sẽ quay trở lại ví dụ 6.1 để thực hiện các bước phân tích sau: đầu tiên, viết phương trình đường hồi quy tuyến tính thực nghiệm; tiếp theo, dự báo năng suất lúa khi mức bón phân đạm đạt 130 kg/ha; cuối cùng, tính sai số tiêu chuẩn của đường thẳng hồi quy được xây dựng bằng lệnh trên R.
Ta thấy hệ số tương quan mẫu giữa mức bón phân đạm và năng suất của lúa là
Biểu đồ phân tán cho thấy mối quan hệ tuyến tính mạnh giữa y và x với các điểm có xu hướng tăng dốc Chúng ta có thể xây dựng mô hình hồi quy tuyến tính mẫu bằng đoạn lệnh trên phần mềm R.
> plot(xP,yNS, ,bty=”l”,type=”p”,pch ,col =”red”,col.main =”blue”, col.lab=”blue”,col.axis =”blue”)
Kết quả thu được là:
Call: lm(formula = yNS xP)
Phương trình đường hồi quy mô tả mối quan hệ giữa năng suất lúa và lượng phân đạm bón là y = 19,96x + 4373,9 Điều này cho thấy mỗi khi tăng thêm 1 kg phân đạm, sản lượng lúa sẽ tăng thêm 19,96 kg Cụ thể, khi lượng phân bón đạt 130 kg, năng suất lúa thu được sẽ là 68,7 kg.
Hình 6.7: Phương trình đường hồi quy của năng suất lúa theo mức bón phân đạm. c) Ta có thể sử dụng hàmsummarytrong phần mềm R để tính như sau
Kết quả thu được là:
Call: lm(formula = yNS xP)
Estimate Std Error t value Pr(>|t|)
Residual standard error: 280.9 on 2 degrees of freedom
F-statistic: 63.09 on 1 and 2 DF, p-value: 0.01548
Như vậy, nhìn vào bảng kết quả ta thấy sai số chuẩn của mô hình là 280,9 với 2 bậc tự do.
Một nhà khoa học nghiên cứu mối liên hệ giữa tuổi tác (X) và nhịp tim (Y) của phụ nữ Trong một cuộc khảo sát, nhà khoa học đã thu thập dữ liệu từ 5 phụ nữ ở các độ tuổi khác nhau.
Sử dụng phần mềm R, bạn có thể tính hệ số tương quan mẫu để đánh giá mối liên hệ giữa các biến Bên cạnh đó, hãy viết phương trình đường hồi quy cho biến "mạch đập" dựa trên "tuổi" và giải thích kết quả để hiểu rõ hơn về ảnh hưởng của tuổi tác đến nhịp tim.
Hướng dẫn giải. a) Trên phần mềm R ta sử dụng các lệnh như sau:
Kết quả thu được hệ số tương quan mẫu bằng:−0, 9558581. b) Để viết phương trình hồi quy ta dùng lệnh như sau:
Kết quả cho như sau:
Call: lm(f ormula=y Mach ∼ x Tuoi )
Vậy ta có phương trình đường hồi quy tuyến tính thực nghiệm của y theo x là: y =−2, 705x+275, 620.Ta thấy khi x tăng thêm 1 đơn vị thì y giảm đi một lượng là
Khai phá mối quan hệ giữa biến và viết phương trình đường hồi quy 152 Hướng dẫn giải bài tập chương 6
Để kiểm tra mối tương quan giữa giá cả và quãng đường đã đi, chúng ta sẽ sử dụng bộ dữ liệu usedcars.csv và vẽ biểu đồ phân tán Giả thuyết của chúng ta là giá cả phụ thuộc vào quãng đường đi được, trong đó giá cả là biến phụ thuộc và quãng đường là biến độc lập.
Hình 6.9: Biểu đồ phân tán về mối quan hệ giữa giá xe và số dặm đã đi
6.3 Khai phá mối quan hệ giữa biến và viết phương trình đường hồi quy 153
> plot(x =usedcars$mileage,y =usedcars$price, main ="Scatterplot of Price vs Mileage",xlab="Used Car Odometer (mi.)", ylab = "Used Car Price ($)")
Biểu đồ phân tán cho thấy mối quan hệ chặt chẽ giữa giá xe và số dặm đi được, với giá xe giảm khi số dặm tăng Điều này chỉ ra rằng các xe có số dặm cao thường có giá thấp hơn Đặc biệt, rất ít ô tô có giá cao lại có số dặm lớn, ngoại trừ một chiếc duy nhất với khoảng 125000 dặm và 14000 USD Sự thiếu hụt những chiếc xe này chứng minh rằng dữ liệu khó có thể bao gồm ô tô hạng sang với số dặm cao Các xe đắt nhất, đặc biệt là trên 17500 USD, thường có số dặm rất thấp, cho thấy chúng ta đang xem xét xe bán lẻ mới với giá khoảng 20000 USD.
Chúng ta có thể ước lượng mức độ phụ thuộc tuyến tính giữa giá và quãng đường di chuyển thông qua hệ số tương quan, được tính bằng lệnh trong phần mềm R.
>cor(usedcars$price,usedcars$mileage)
Hệ số tương quan giữa giá (price) và số dặm đã đi (mileage) là -0,806, cho thấy rằng hai biến này có mối tương quan chặt chẽ và nghịch biến Để xác định xem liệu mối quan hệ giữa chúng có phải là tương quan tuyến tính hay không, chúng ta sẽ thực hiện các kiểm tra cần thiết.
>cor.test(usedcars$mileage,usedcars$price,alternative =”two.sided”, method =”pearson”,con f.level =0.95)
Kết quả cho như sau:
Pearson’s product-moment correlation data: usedcars$mileageandusedcars$price t =−16.574,d f 8,p−value plot(CacBon,Nito, ,bty=”l”,type=”p”,pch=16,col =”red”,col.main=”blue”, col.lab=”blue”,col.axis=”blue”)
Biểu đồ phân tán (hình 6.11):
Hình 6.11: Biểu đồ phân tán giữa lượng C và N trong mùn b)>cor(CacBon,Nito)
Vậy hệ số tương quan mẫu là0, 8865748.
> plot(DuongKinh,VoKho, ,bty=”l”,type=”p”,pch,col =”red”,col.main=”blue”, col.lab=”blue”,col.axis=”blue”)
Biểu đồ phân tán thu được (hình 6.12):
Hình 6.12: Biểu đồ phân tán giữa đường kính và lượng vỏ khô b)>cor(DuongKinh,VoKho)
Vậy hệ số tương quan mẫu là0.8746251.
> plot(SoGioHoc,GPA, ,bty=”l”,type =”p”,pch=16,col =”red”,col.main=”blue”, col.lab=”blue”,col.axis=”blue”)
Biểu đồ phân tán thu được (hình 6.13)
Hình 6.13: Biểu đồ phân tán giữa số giờ học và điểm trung bình GPA
Hệ số tương quan mẫu thực hiện bởi lệnh:
Vậy hệ số tương quan mẫu là−0, 8430889. b) Kiểm định giả thuyết vềρtrên phần mềm R.
>cor.test(SoGioHoc,GPA,alternative=”two.sided”,method =”pearson”,con f.level= 0.95) Kết quả cho như sau:
Pearson’s product-moment correlation data: SoGioHoc and GPA t =−3.1355,d f =4,p−value=0.035 alternative hypothesis: true correlation is not equal to 0
Vậy giữa số giờ học và điểm trung bình GPA có tương quan tuyến tính.
Hướng dẫn giải bài tập chương 6 157
Vậy hệ số tương quan mẫu là0, 9792641nên giữa doanh thu và tiền lãi của10đại lý thức ăn chăn nuôi là tương quan thuận và mạnh.
6.5 a) Vẽ biểu đồ phân tán
> NangsuatLua=c(3.9,rep(3.9, 2),rep(4.1, 2),rep(4.1, 2),rep(4.3, 2), 4.3)
> plot(PhanBon,NangsuatLua, ,bty = ”l”,type = ”p”,pch = 16,col = ”red”,col.main ”blue”,col.lab=”blue”,col.axis=”blue”)
Hình 6.14: Biểu đồ phân tán giữa phân bón và năng suất lúa b) Tính hệ số tương quan
> plot(HatChac,NangSuatLua, ,bty = ”l”,type = ”p”,pch = 16,col = ”red”,col.main ”blue”,col.lab=”blue”,col.axis=”blue”) b)>cor(HatChac,NangSuatLua)
Vậy hệ số tương quan mẫu là0, 64442228.
Hình 6.15: Biểu đồ phân tán giữa phần trăm hạt chắc và năng suất lúa c)> cor.test(HatChac,NangSuatLua,alternative=”two.sided”,method =”pearson”, con f.level =0.95)
Kết quả cho như sau:
Pearson’s product-moment correlation data: HatChac and NangSuatLua t =2.3836,d f =8,p−value=0.04429 alternative hypothesis: true correlation is not equal to 0
Kết luận: với mức ý nghĩa5%,tỷ lệ phần trăm hạt chắc có tương quan tuyến tính đối với năng suất lúa.
Kết quả cho như sau:
Call: lm(f ormula= SoViKhuan ThoiGian))
Vậy phương trình đường hồi quy của ytheo xlà: y = 4, 657x+27, 857.Ta thấy khi x tăng thêm 1 đơn vị thìytăng lên một lượng là4, 657.
Số vi khuẩn sinh sản sau10hlày=4, 657.10+27, 857, 427. c)> Bai67=lm(SoViKhuan ThoiGian)
Hướng dẫn giải bài tập chương 6 159
> plot(ThoiGian,SoViKhuan, ,bty = ”l”,type = ”p”,pch = 16,col = ”red”,col.main ”blue”,col.lab=”blue”,col.axis=”blue”)
Hình 6.16: Phương trình đường hồi quy của số vi khuẩn theo thời gian
6.8 a) Dựa trên biểu đồ phân tán ta dự đoán được giữaXvàYcó tương quan tuyến tính chặt chẽ.
> plot(ChieuDaiXuongDui,Chieucao, ,bty=”l”,type=”p”,pch,col =”red”,col.main”blue”,col.lab=”blue”,col.axis=”blue”)
Hình 6.17: Biểu đồ phân tán về mối tương quan giữa chiều dài xương đùi và chiều cao của đàn ông b)>cor(ChieuDaiXuongDui,Chieucao)
Call: lm(f ormula= ChieuDaiXuongDui Chieucao)
Phương trình hồi quy tuyến tính cho chiều dài xương đùi (X) theo chiều cao (Y) được xác định là: X = 0,3027Y - 2,7211 Khi giá trị của Y giảm 1 cm, giá trị của X cũng sẽ giảm 0,3027 cm Để vẽ đường hồi quy tuyến tính trên cùng mặt phẳng tọa độ với biểu đồ phân tán, bạn có thể sử dụng đoạn lệnh thích hợp.
> plot(Chieucao,ChieuDaiXuongDui,col=”red”)
Hình 6.18: Đường hồi quy giữa chiều dài xương đùi theo chiều cao
> cor.test(ChiTieuChatLuongX,ChiTieuChatLuongY,alternative = ”two.sided”,method ”pearson”,con f.level =0.95)
Kết quả cho như sau:
Hướng dẫn giải bài tập chương 6 161 data: ChiTieuChatLuongX and ChiTieuChatLuongY t =3.2555,d f (,p−value=0.002957 alternative hypothesis: true correlation is not equal to 0
Vậy hệ số tương quan mẫu làr =0, 5240075. b)>abline(Bai69,col =”blue”)
> plot(ChiTieuChatLuongX,ChiTieuChatLuongY,col =”red”)
Hình 6.19: Đường hồi quy về hai chỉ tiêu X và Y của một loại sản phẩm c)> Bai69=lm(ChiTieuChatLuongY ChiTieuChatLuongX)
Kết quả cho như sau:
Call: lm(f ormula= ChiTieuChatLuongY ChiTieuChatLuongX)
Vậy phương trình đường hồi quy củaYtheoXlày=1, 505x+6, 235.
GIỚI THIỆU VỀ NGÔN NGỮ R
Một số hướng dẫn mở đầu về R
7.1.1 Tải và cài đặt R Để tải và cài đặt phần mềm R, ta làm theo thứ tự sau:
•Tải R và cài đặt tại địa chỉ: https://cran.r- project.org/bin/windows/base/;
•Tải R Studio và cài đặt tại địa chỉ: https://www.rstudio.com/products/rs tudio/download/;
• Tải Rtools (và cài đặt) tại địa chỉ: https://cran.r- project.org/bin/windows/Rtools/.
7.1.2 Khởi động và ngừng chạy R
Sau khi cài đặt R xong, trên màn hình sẽ xuất hiện biểu tượng của R Để khởi động
R ta có thể làm theo những cách sau:
•Nhấn đúp vào biểu tượng của R trên màn hình.
• Vào Start→Program→R→R i386 2.15.1 Để ngừng hoạt động R, tại cửa sổ dòng lệnh ta nhấn vào nút chéo (x) ở góc trên bên phải của màn hình hoặc vàoFile→Exitshay gõ lệnhq().
Văn phạm chung của R bao gồm lệnh và hàm, trong đó các hàm yêu cầu thông số đi kèm Cú pháp cơ bản của R yêu cầu người dùng cung cấp các thông số cần thiết sau mỗi hàm.
DoiTuong = function(Thongso1, Thongso2, ,Thongsok)
Rhoạt động như một máy tính, thực hiện các lệnh thông qua các phép toán cơ bản như cộng (+), trừ (−), nhân (∗), chia (/), hoặc các hàm khác.
7.1 Một số hướng dẫn mở đầu về R 163
Khi ta muốn đưa một lời chú thích cho các lệnh cần làm thì để dấu#ở đầu câu:
#Kiểm tra thư mục làm việc của R
R cho phép ghi lại kết quả trong các đối tượng mà không nhất thiết phải hiển thị ra, giúp người dùng sử dụng kết quả cho các phân tích và phép toán tiếp theo Việc đặt tên cho các đối tượng trong R cũng rất linh hoạt, với quy tắc tên bắt đầu bằng chữ cái và chỉ bao gồm chữ cái, chữ số, dấu chấm và dấu gạch dưới Lưu ý rằng R phân biệt chữ hoa và chữ thường, do đó đối tượng "Days" và "day" là hoàn toàn khác nhau.
>Dayso =seq(f rom =0,to =0,by=2)
Error : object ′ dayso ′ not f ound
>Dayso =seq(f rom =0,to =0,by=2)
Eror: unexpected symbol in ”Dayso”
Để cải thiện khả năng đọc tên đối tượng không có dấu cách, bạn có thể viết hoa chữ cái đầu của mỗi từ trong tên, ví dụ như "DaySo", hoặc sử dụng dấu chấm để phân biệt giữa các từ, chẳng hạn như "day.so".
7.1.5 Gói lệnh và cách cài đặt gói lệnh trong R
Một gói lệnh (package) bao gồm các hàm, dữ liệu, tài liệu hướng dẫn và thủ tục kiểm tra thực hiện công việc Thông tin cơ bản về gói lệnh được lưu trữ trong file Description, cung cấp chi tiết về mục đích, tác giả và phiên bản của gói lệnh Để tìm hiểu thêm về gói lệnh, bạn có thể sử dụng lệnh phù hợp.
Khi bắt đầu với R, để biết gói lệnh nào cần thiết cho công việc của bạn, hãy truy cập CRAN task views tại https://cran.r-project.org/web/views Tại đây, bạn sẽ tìm thấy các gói lệnh phù hợp cho từng lĩnh vực thống kê, với ba loại gói lệnh chính.
Nhóm thứ nhất bao gồm các gói lệnh cơ bản của R, cung cấp các hàm thiết yếu cho người dùng Những gói lệnh này chủ yếu được phát triển bởi nhóm sáng lập phần mềm R và bao gồm các gói như "base", "complier", "datasets", "grDevices", "graphics", "grid" và "method".
"parallel", "splines", "stats", "tcltk", "tool", "utils".
•Nhóm thứ hai: được mặc định trên R bao gồm các thủ tục thống kê phức tạp hơn, gồm có các gói lệnh "boot", "class", "cluster", "codetools", "foreign", "MASS".
Nhóm thứ ba bao gồm các gói lệnh do người dùng đóng góp, được lưu trữ tại các kho (repository) trên toàn cầu Kho gói lệnh lớn nhất là CRAN, có thể truy cập tại địa chỉ http://cran.r-project.org Người dùng có thể tải các gói lệnh từ các kho này về máy để sử dụng Để cài đặt một gói lệnh, bạn chỉ cần sử dụng lệnh thích hợp.
>install.packages(”tengoilenh”) hoặc có thể cài đặt một gói lệnh từ thanh menu của R bằng cách chọn:
>tools→ Install packageschọn gói lệnh cần cài đặt.
Sau khi cài đặt các gói lệnh, để sử dụng được các hàm có trong gói lệnh này chúng ta cần dùng lệnh:
Để sử dụng gói lệnh BSDA trong R Studio, bạn có thể chọn mục "Load package " từ menu "Session" Để tìm hiểu về các hàm có trong gói lệnh này và cách sử dụng từng hàm, hãy sử dụng lệnh tương ứng.
>library(hel p=”tengoilenh”) Để biết chi tiết về hàm như công dụng, cú pháp, các tham số, v.v ta dùng lệnh: