Thống kê mô tả
Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học CHƯƠNG THỐNG KÊ MƠ TẢ I KHƠNG GIAN MẪU Để nghiên cứu tính chất vật thể tập hợp lớn, người ta thường lấy số vật thể để nghiên cứu, từ rút kết luận cho tất vật thể tập hợp + Ví dụ Để xác định tuổi thọ loại bóng đèn, người ta khơng thể thử nghiệm tất bóng đèn, mà thử nghiệm số bóng suy tuổi thọ chung (tất nhiên với độ tin cậy đó) • Định nghĩa Tập hợp tất vật thể ban đầu gọi tập tổng thể Mẫu tập vật thể lấy từ tập tổng thể Số phần tử mẫu gọi cỡ mẫu Bằng phương pháp lấy nhiều mẫu khác cỡ mẫu Tập hợp tất mẫu cỡ mẫu tập tổng thể gọi không gian mẫu , mẫu coi điểm không gian mẫu Muốn cho từ mẫu lấy suy xác tính chất tập tổng thể mẫu phải tiêu biểu Mẫu coi tiêu biểu người ta lấy mấu cách ngẫu nhiên, tức phần tử tập tổng thể rơi vào mẫu với xác suất (có thể chọn hú hoạ sinh số ngẫu nhiên máy tính) Mẫu có hai tính chất: lặp khơng lặp có thứ tự khơng có thứ tự Gọi N số tất vật thể, n cỡ mẫu Mẫu có lặp có thứ tự chỉnh hợp lặp chập n từ N phần tử số mẫu Nn Mẫu khơng lặp có thứ tự chỉnh hợp không lặp chập n từ N phần tử số mẫu n A(N, n) = N(N−1) … (N−n+1) Mẫu có lặp khơng thứ tự tổ hợp lặp chập n từ N phần tử số mẫu C(N+n−1, n) Mẫu không lặp không thứ tự tổ hợp chập n từ N phần tử số mẫu C(N, n) Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Nếu N lớn n nhỏ tỉ lệ số mẫu lặp không lặp xấp xỉ 1, việc lấy mẫu lặp không lặp cho kết gần Bây giả sử tính chất vật thể cần nghiên cứu đại lượng ngẫu nhiên X Khi mẫu cỡ n cho kết (X1, X2, …, Xn) Ta nói lấy mẫu (X1, X2, …, Xn) từ đại lượng ngẫu nhiên X Mẫu (X1, X2, …, Xn) phân lớp theo hai cách sau: (i) Phân lớp đơn: {(xi, ni) | ≤ i ≤ k } với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n (ii) Phân lớp ghép: {([ai, ai+1), ni) | ≤ i ≤ k } với a1 < a2 < … < ak ni số xi rơi vào khoảng [ai; ai+1), i=1,…,k, ∑ni = n Ghi chú: Phân lớp ghép áp dụng cho X biến ngẫu nhiên liên tục Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học II BIỂU DIỄN PHÂN PHỐI MẪU Trường hợp phân lớp đơn Cho đại lượng ngẫu nhiên X, n ∈ N Giả sử ta có mẫu cỡ n với phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n • Tần suất xi đại lượng ni , i=1,…,k n Bảng phân phối tần suất X có dạng x1 n1 n x2 n2 n … … xi ni n … … xk nk n • Biểu đồ tần suất biểu diễn mặt phẳng toạ độ đoạn thẳng biểu diễn tần suất ni/n x1 x2 xi-1 xi xi+1 xk-1 xk • Đa giác tần suất đường gấp khúc (màu xanh) nối đỉnh đoạn thẳng tần suất ni/n x1 Thống kê mô tả x2 xi-1 xi xi+1 xk-1 xk Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học • Tần suất tích luỹ hàm phân phối mẫu sau: Fn(x) , x < x1 0 j n i ∑ n i =1 1 = , x j ≤ x < x j +1 , j = 1, , k − , x ≥ xk Đồ thị có dạng bậc thang x1 x2 xi-1 xi xi+1 xk-1 xk Ghi chú: Fn(x) tần suất kiện X ≤ x, hàm phân phối F(x) xác suất kiện X ≤ x Vậy theo luật số lớn yếu (Định lý Bernoulli) ta có P Fn ( x) → F ( x) n →∞ tức ∀ x ∈ R, ∀ ε > 0, ∀ x ∈ R, P(|Fn(x) − F(x)| < ε) → n → ∞ Trường hợp phân lớp ghép Cho đại lượng ngẫu nhiên liên tục X, n ∈ N Giả sử ta có mẫu cỡ n với phân lớp ghép {([ai, ai+1), ni) | ≤ i ≤ k } với a1 < a2 < … < ak ni số xi rơi vào khoảng [ai; ai+1), i=1,…,k, ∑ni = n ni , i=1,…,k n a + +1 Các giá trị lớp [ai ; ai+1) xấp xỉ trị trung bình i • Tần suất lớp ghép i, tức khoảng [ai ; ai+1) đại lượng Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Bảng phân phối tần suất X có dạng + +1 a1 + a2 [a1; a2) : : : : : a + a k +1 [ak; ak+1) k [ai; ai+1) ni n n1 n : : nk n ni n1 : : : nk • Tổ chức đồ tần suất cách biểu diễn tần suất mặt phẳng toạ độ tần ni suất biểu diễn hình chữ nhật đáy [a i; ai+1) chiều cao n ni , i = 1, …, k n(ai +1 − ) a1 a2 ai-1 ai+1 ak-1 ak ak+1 • Đa giác tần suất đường gấp khúc (màu xanh) nối trung điểm đáy hình chữ nhật kề tổ chức đồ tần suất Đoạn bên trái nối trung điểm [a1; a2) với điểm m0 trục hoành cách a1 khoảng nửa đoạn [a1; a2) Đoạn bên phải nối trung điểm [a k; ak+1) với điểm mk+1 trục hoành cách ak+1 khoảng nửa đoạn [ak; ak+1) Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học m0 a a2 ai-1 ai+1 ak-1 ak ak+1 mk+1 • Hàm tần suất tích luỹ hàm phân phối mẫu có đường cong tần suất tích luỹ đường gấp khúc nối điểm ni n n + n2 (a1, 0), (a2, ), (a3, ), , (aj+1, ∑ ), , (ak+1, 1) n n i≤ j n Đồ thị có dạng a1 Thống kê mô tả a2 ai-1 ai+1 ak-1 ak ak+1 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học III CÁC THAM SỐ ĐẶC TRƯNG Các tham số vị trí Cho đại lượng ngẫu nhiên X, n ∈ N, mẫu cỡ n X a) Trị trung bình mẫu (i) Trường hợp mẫu phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n n Ký hiệu tần suất xi fi = i , i=1,…,k Ta định nghĩa trị trung bình sau: n − Trung bình cộng hay kỳ vọng mẫu: k k ma = x = ∑ ni xi = ∑ f i xi n i =1 i =1 − Trung bình hình học : mg = n k k ∏ xi i = ∏ xi n i =1 fi i =1 − Trung bình điều hồ: mh = k ni ∑ n i=1 xi = k fi i =1 i ∑x − Trung bình bình phương: mq = k ∑ ni xi2 = n i =1 k ∑ f x i =1 i i (i) Trường hợp mẫu phân lớp ghép {([ai, ai+1), ni) | ≤ i ≤ k } với a1 < a2 < … < ak+1 ni số xi rơi vào khoảng [ai; ai+1), i=1,…,k, ∑ni = n n Ký hiệu tần suất lớp ghép i, tức khoảng [ai ; ai+1) fi = i , i=1,…,k Ta n định nghĩa trị trung bình tương tự trường hợp mẫu phân lớp đơn với xi a + +1 thay ci = i − Trung bình cộng hay kỳ vọng mẫu: Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học k k ma = x = ∑ ni ci = ∑ f i ci n i =1 i =1 b) Trung vị mẫu (i) Trường hợp mẫu phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n Trung vị mẫu , ký hiệu med, số đứng dãy x1, x2, …, xk xác định sau Xếp n trị xi theo thứ tự sau x1, x1, …, x1, …, xi, xi, …, xi, …, xk, xk, …, xk n1 ni nk Khi đó, n = 2.m+1 lẻ med phần tử vị trí thứ m+1, n = 2.m chẵn med trung bình cộng phần tử vị trí thứ m phần tử vị trí thứ m+1 + Ví dụ 1: Cho mẫu cỡ sau 3; 4; 4; 5; 6; 8; 8; 10; 11 Ở n = = 2*4 + Vậy med phần tử thứ (=4+1), tức med = + Ví dụ 2: Cho mẫu cỡ 100 sau 171; …; 171; 174; …; 174; 177; …; 177; 180; …; 180; 183; …; 183 17 41 27 Ở n = 100 = 2*50 Vậy med trung bình cộng phần tử thứ 50 phần tử thứ 51, tức med = (177+177)/2 = 177 (ii) Trường hợp mẫu phân lớp ghép {([ai; ai+1), ni) | ≤ i ≤ k }, với a1 < a2 < … < ak+1 ni số xi rơi vào khoảng [ai; ai+1), fi = ni , i=1,…,k, n = n ∑ni Trung vị mẫu , ký hiệu med, giá trị mà hàm tần suất tích luỹ F ½, tức F(med) = ½ med xác định sau: Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học − Tìm khoảng [ah; ah+1) chứa med thoả ph−1 = − ∑f i ≤ h −1 i < ≤ ∑ f i = ph i≤h Trung vị med tính từ phương trình med − ah 0.5 − ph −1 0.5 − ph −1 = = ah +1 − ah ph − ph −1 fh ⇒ med = ah + 0.5 − ph −1 ( ah +1 − ah ) fh + Ví dụ: Cân 100 niên ta có bảng tần suất lớp ghép sau [ai; ai+1) fi 59.5 − 62.5 5% 62.5 − 65.5 18% 65.5 − 68.5 42% 68.5 − 71.5 27% 71.5 − 74.5 8% Vì p2 = 5% + 18% < ½ < 5% + 18% + 42% = 65% < p3 nên khoảng chứa med khoảng thứ [a3; a4) = [65.5; 68.5) Suy med = 65.5 + 0.5 − 23% (68.5 − 65.5) = 65.5 + (27/42).3 = 67.4 (kg) 42% c) Mode mẫu (i) Trường hợp mẫu phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n Mode mẫu xm (1≤m≤k) có tần số nm lớn (có thể có nhiều mode)ẫu + Ví dụ Mẫu cỡ 13 xi ni 2 10 11 18 có hai mode 11 Thống kê mô tả Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học (ii) Trường hợp mẫu phân lớp ghép {([ai; ai+1), ni) | ≤ i ≤ k }, ni , i=1,…,k, n = n với a1 < a2 < … < ak+1 ni số xi rơi vào khoảng [ai; ai+1), fi = ∑ni mode xác định sau: − Tìm khoảng [ah; ah+1) có tần số lớn (có thể có nhiều khoảng vậy) − mode tính theo công thức mode = ah + nh − nh −1 ( ah +1 − ah ) (nh − nh −1 ) + (nh − nh +1 ) + Ví dụ: Cân 100 niên ta có bảng tần suất lớp ghép sau [ai; ai+1) fi 59.5 − 62.5 5% 62.5 − 65.5 18% 65.5 − 68.5 42% 68.5 − 71.5 27% 71.5 − 74.5 8% Vì lớp [65.5; 68.5) có tần suất lớn nên mode tính sau Mode = 65.5 + 42 − 18 (68.5 − 65.5) = 67.34 42 − 18 + 42 − 27 Các tham số phân tán Cho đại lượng ngẫu nhiên X, n ∈ N Giả thiết X có mẫu cỡ n phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n, phân lớp ghép {([ai; ai+1), ni) | ≤ i ≤ k }, với a1 < a2 < … < ak+1 ni số xi rơi vào khoảng [ai; ai+1), ci = n = ∑ni Thống kê mô tả + +1 , i=1,…,k, 10 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học a) Độ trải rộng Độ trải rộng mẫu hiệu xk − x1 cho mẫu phân lớp đơn ak+1 − a1 cho mẫu phân lớp ghép b) Phương sai mẫu độ lệch chuẩn ∧2 S = ( ) k ∑ ni xi − x n i =1 cho mẫu phân lớp đơn ∧2 S = ( ) k ∑ ni ci − x n i =1 cho mẫu phân lớp ghép Ghi chú: Trong trường hợp phân lớp ghép, khoảng [ai; ai+1) c, sử dụng phương sai hiệu chỉnh ∧2 ∧2 S hc = S − ∧ ∧ • Đại lượng S = S c2 c2 ( 12 12 gọi hiệu chỉnh Shepard) gọi độ lệch chuẩn c) Độ lệch trung bình e= k ∑ ni xi − x n i =1 cho mẫu phân lớp đơn e= k ∑ ni ci − x n i =1 cho mẫu phân lớp ghép d) Momen mẫu • Momen mẫu bậc a (a ∈ N): k a ma = ∑ xi n i =1 cho mẫu phân lớp đơn k a ∑ ci cho mẫu phân lớp ghép n i =1 • Momen trung tâm mẫu bậc a (a ∈ N): ma = Thống kê mô tả 11 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học ( ) cho mẫu phân lớp đơn ( ) cho mẫu phân lớp đơn a k µa = ∑ ni xi − x n i =1 a k µa = ∑ ni ci − x n i =1 • Momen trung tâm rút gọn bậc a: αa = µa ∧a s Các tham số hình dạng a) Hệ số bất đối xứng mẫu γ = α3 = µ3 ∧3 s b) Hệ số nhọn mẫu γ = α4 − Các điểm phần tư a) Trường hợp mẫu phân lớp đơn {(xi, ni) | ≤ i ≤ k }, với x1 < x2 < … < xk ni tần số xuất xi , i=1,…,k, ∑ni = n n Ký hiệu tần suất xi fi = i , i=1,…,k n i • Điểm phần tư mẫu, ký hiệu q1, trị xi nhỏ thoả ∑f j =1 j ≥ i j =1 • Khoảng [q1; q3 ] gọi khoảng phần tư trị δ = q3 − q1 gọi độ lệch phần tư + Ví dụ Cho mẫu • Điểm ba phần tư xi ni fi ∑fj mẫu, ký hiệu q3, trị xi nhỏ thoả ∑f j ≥ 10 11 12 12 13 16 12 14 5 0.01 0.03 0.08 0.12 0.13 0.16 0.12 0.14 0.09 0.05 0.05 0.02 0.01 0.04 0.12 0.24 0.37 0.53 0.65 0.79 0.88 0.93 0.98 Thống kê mô tả 12 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Điểm phần tư q1 = 5, ∑ j =1 f j = 0.24 ≤ Điểm ba phần tư q3 = 8, ∑f j =1 j ≤ 0.37 = ∑ f j j =1 = 0.65 ≤ ≤ 0.79 = ∑ f j j =1 Khoảng phần tư [q1; q3 ] = [5; 8] Độ lệch phần tư q3 − q1 = − = b) Trường hợp mẫu phân lớp ghép {([ai; ai+1), ni) | ≤ i ≤ k }, với a1 < a2 < … < ak+1 ni số xi rơi vào khoảng [ai; ai+1), fi = ni , i=1,…,k, n = n ∑ni • Hàm tần suất tích luỹ hàm có đồ thị đường gấp khúc nối điểm i −1 (ai; F(ai)), với F(ai) = ∑f j =1 j , i=1,…,k,k+1 • Điểm phần tư điểm q1 thoả F(q1) = 1/4 • Điểm ba phần tư điểm q3 thoả F(q3) = 3/4 • Khoảng [q1; q3 ] gọi khoảng phần tư trị δ = q3 − q1 gọi độ lệch phần tư Thống kê mô tả 13 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học IV PHÂN TÍCH THỐNG KÊ BIẾN NGẪU NHIÊN CHIỀU Tổng quát a) Mẫu phân lớp đơn Cho đại lượng ngẫu nhiên hai chiều (X, Y), n ∈ N Mẫu phân lớp đơn cỡ n (X, Y) có dạng sau {((xi, yj), nij ) | ≤ i ≤ r & ≤ j ≤ s } r, s ∈ N, nij ∈ N, ∑nij = n Mẫu biểu diễn dạng bảng sau Y y1 y2 … yj … ys x1 n11 n12 … n1j … n1s x2 n21 n22 … n2j … n2s : : : … : … : xi ni1 ni2 … nij … nis : : : … : … : xr nr1 nr2 … nrj … nrs X • Tần suất cặp (xi, yj) đại lượng fij = nij , ≤ i ≤ r, ≤ j ≤ s n Ký hiệu s ni,• = ∑n n•,j = ∑n j =1 ij ,1≤i≤r r i =1 ij ,1≤j≤s Ta có hai mẫu X Y {(xi , ni,•) | ≤ i ≤ r } {(yj , n•,j) | ≤ j ≤ s } • Tần suất có điều kiện xi với điều kiện yj đại lượng Thống kê mơ tả nij n•, j 14 Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học • Tần suất có điều kiện yj với điều kiện xi đại lượng nij ni ,• • Các tham số đặc trưng - Trị trung bình mẫu: x= r ∑ ni ,• xi n i =1 y = s ∑ n•, j y j n j =1 - Phương sai mẫu: ( ∧2 ) ∧2 ( s S Y = ∑ n•, j y j − y n j =1 r S X = ∑ ni ,• xi − x n i =1 ) - Hiệp phương sai mẫu: ∧ S XY = ( )( ) r s r s ∑∑ ni , j xi − x y j − y = n ∑∑ ni , j xi y j − x y n i=1 j =1 i =1 j =1 - Hệ số tương quan mẫu: ∧ RXY = S XY ∧ ∧ S X S Y b) Mẫu phân lớp ghép Cho đại lượng ngẫu nhiên hai chiều (X, Y), n ∈ N Mẫu phân lớp ghép cỡ n (X, Y) có dạng sau {(([ai;ai+1), [bj;bj+1)), nij ) | ≤ i ≤ r & ≤ j ≤ s } r, s ∈ N, nij ∈ N, ∑nij = n Mẫu biểu diễn dạng bảng sau Thống kê mô tả 15 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Y [b1;b2) [b2;b3) … [bj;bj+1) … [bs;bs+1) [a1;a2) n11 n12 … n1j … n1s [a2;a3) n21 n22 … n2j … n2s : : : … : … : [ai;ai+1) ni1 ni2 … nij … nis : : : … : … : [ar;ar+1) nr1 nr2 … nrj … nrs X • Tần suất cặp lớp ([ai;ai+1), [bj;bj+1)) đại lượng fij = nij , ≤ i ≤ r, ≤ j ≤ s n Ký hiệu s ni,• = ∑n j =1 ij ,1≤i≤r r n•,j = ∑n i =1 ij ,1≤j≤s Ta có hai mẫu X Y {([ai;ai+1) , ni,•) | ≤ i ≤ r } {([bj;bj+1), n•,j) | ≤ j ≤ s } • Tần suất có điều kiện [ai;ai+1) với điều kiện [bj;bj+1) đại lượng • Tần suất có điều kiện [bj;bj+1) với điều kiện [ai;ai+1) đại lượng nij n•, j nij ni ,• Ký hiệu xi = (ai + ai+1)/2, i=1,…,r yj = (bj + bj+1)/2 Ta định nghĩa tham số đặc trưng tương tự trường hợp phân lớp đơn • Các tham số đặc trưng - Trị trung bình mẫu: x= r ∑ ni ,• xi n i =1 y = s ∑ n•, j y j n j =1 - Phương sai mẫu: Thống kê mô tả 16 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học ( ∧2 ) ∧2 r S X = ∑ ni ,• xi − x n i =1 S Y = ( s ∑ n•, j y j − y n j =1 ) - Hiệp phương sai mẫu: ∧ S XY = ( )( ) r s r s ni , j xi − x y j − y = ∑∑ ni , j xi y j − x y ∑∑ n i=1 j =1 n i =1 j =1 - Hệ số tương quan mẫu: ∧ RXY = S XY ∧ ∧ S X S Y + Ví dụ Để xác định mối quan hệ chi phí quảng cáo doanh số bán hàng người ta thống kê số liệu 10 tháng sau: i pi ci 480 22 450 18 480 20 540 24 570 24 420 22 390 14 520 22 470 18 10 480 16 Ở pi ci tương ứng số sản phẩm bán chi phí quảng cáo tháng i, i=1,…,10 Từ bảng ta suy mẫu thống kê số sản phẩm bán X sau: xi 390 420 450 470 480 520 540 570 1 1 ni,• mẫu thống kê chi phí Y sau: yj n•,j 1 1 2 2 24 Từ ta tính ∧2 ∧2 ∧ x = 480; y = 20; S X = 2600; S Y = 10.4; S XY = 118; RXY = 0.72 + Ví dụ Bảng sau cho mẫu thống kê điểm mơn tốn (X) tin (Y) thang điểm 20 100 sinh viên Thống kê mô tả 17 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Y [0;4) [4;8) [8;12) 12 10 28 X [0;4) [4;8) [8;12) [12;16) [16;20) [12;16) [16;20) 12 10 1 2 Mẫu thống kê X [ai;ai+1) ni,• xi=(ai+ai+1)/2 [0;4) [4;8) 26 [8;12) 44 10 [12;16) 18 14 [16;20) 18 [bj;bj+1) n•,j yj =(bj+bj+1)/2 [0;4) [4;8) 21 [8;12) 45 10 [12;16) 26 14 [16;20) 18 Y Từ ta tính ∧2 ∧2 ∧ x = 9.20; y = 10.36; S X = 14.08; S Y = 12.5104; S XY = 8.608; RXY = 0.65 c) Đám mây điểm Để biểu diễn mẫu chiều người ta dùng khái niệm đám mây điểm Cho mẫu phân lớp đơn cỡ n (X, Y) {((xi, yj), nij ) | ≤ i ≤ r & ≤ j ≤ s } r, s ∈ N, nij ∈ N, ∑nij = n Mỗi cặp (xi , yj ) với tần suất nij biểu diễn nij điểm tụ xung quah điểm Mij(xi, yj) hình trịn tâm Mij(xi, yj) bán kính tỉ lệ thuận với nij Hình tạo gọi đám mây điểm biểu diễn mẫu chiều Điểm G( x , y ) gọi tâm điểm đám mây điểm Khái niệm đám mây điểm biểu diễn mẫu chiều phân lớp ghép định nghĩa tương tự Thống kê mô tả 18 Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học Điều chỉnh tuyến tính Điều chỉnh tuyến tính tìm đường thẳng điều chỉnh đám mây điểm biểu diễn phân phối mẫu vectơ ngẫu nhiên (X,Y) Ta áp dụng phương pháp bình phương nhỏ Ký hiệu ∆ đường thằng có phương trình y = a.x + b (a≠0) Với điểm Mk(xk, yk) đám mây điểm ta ký hiệu P k(xk, a.xk+b), Qk((yk−b)/a, yk) điểm chiếu Mk lên ∆ theo Ox Oy Mk Qk Pk a) Đường thẳng hồi qui y theo x Đường thẳng hồi qui y theo x đường thẳng có hệ số a, b làm cực tiểu tổng n n S(a,b) = ∑ M k Pk = ∑ ( yk − a.xk − b ) k =1 2 k =1 Giải hệ sau theo a b n n ∂S = 2b∑ xk − 2∑ xk ( yk − a.xk ) ∂a k =1 k =1 ∂S n = 2nb − 2∑ ( yk − a.xk ) ∂b k =1 =0 =0 Khử b ta có n ∧ ∑ xk yk − x y S XY n k =1 a= = ∧2 n SX ∑ xk − x n k =1 Từ suy ∧ b = y − a.x = y − S XY ∧2 x SX Thống kê mô tả 19 Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học Vì điểm có đạo hàm triệt tiêu S(a,b) > bị chặn nên điểm cực tiểu Vậy phương trinh đường thẳng hồi qui ∆ y theo x ∧ S XY y−y= ∧2 ( x − x) SX b) Đường thẳng hồi qui x theo y Đường thẳng hồi qui x theo y đường thẳng có hệ số a, b làm cực tiểu tổng S(a,b) = n ∑M Q k =1 k k y −b = ∑ xk − k a k =1 n Tương tự ta tính phương trinh đường thẳng hồi qui ∆’ x theo y ∧ x−x= S XY ∧2 ( y − y) SY Ghi chú: - Trong trường hợp phân lớp đơn ta coi lớp (xij, nij) có nij điểm trùng phương trình đường thẳng hồi qui - Các đường thẳng ∆ ∆’ giao điểm G( x , y ) có hệ số góc ∧ dấu với S XY - Các đường thẳng ∆ ∆’ trùng ∧2 ∧ S XY ∧2 SX = SY ∧ S XY ∧2 ∧2 ∧2 ⇔ S XY = S X S Y ⇔ RXY = Nếu RXY gần 1, ta nói X Y tương quan tốt Thống kê mô tả 20 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học V PHÂN PHỐI XÁC SUẤT CỦA ĐẠI LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU Khái niệm phân phối xác suất đại lượng thống kê Cho đại lượng ngẫu nhiên X có mật độ f(x) Giả sử (x 1, x2, …, xn) mẫu X có mật độ f(x1) … f(xn) Một hàm Y = g(x1, x2, …, xn) gọi đại lượng thống kê không gian mẫu Y = g(x1, x2, …, xn) đại lượng ngẫu nhiên ∧2 + Ví dụ kỳ vọng mẫu x phương sai mẫu S đại lượng thống kê Vấn đề đặt tìm hàm phân phối H(y) Y Ta có f ( x1 ) f ( xn )dx1 dxn H(y) = ∫ Gy với Gy = { (x1, x2, …, xn) | g(x1, x2, …, xn) ≤ y } Phân phối xác suất số đại lượng thống kê a) Phân phối xác suất kỳ vọng mẫu • Định lý Nếu mẫu (x1, x2, …, xn) lấy từ đại lượng ngẫu nhiên X có phân phối chuẩn N(θ, σ2), n σ2 (i) x = ∑ xk có phân phối chuẩn N(θ, ) n k =1 n (ii) x −θ σ n có phân phối chuẩn N(0, 1) b) Phân phối χ2 (khi bình) • Định nghĩa Nếu Xi , ≤ i ≤ n, đại lượng ngẫu nhiên có phân phối chuẩn N(0, 1), biến ngẫu nhiên n U= ∑X k =1 k có phân phối bình với n bậc tự có ký hiệu χ n • Định lý Cho biến ngẫu nhiên U có phân phối χ n Khi (i) Hàm mật độ U Thống kê mô tả 21 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học n u −1 − u e n f(u) = n / Γ 2 0 ,u > ,u ≤ (ii) E(U) = n; D(U) = 2.n ∞ Ghi Γ(a) = ∫x a −1 − x e dx (a > 0) • Định lý Cho biến ngẫu nhiên X có phân phối chuẩn N(θ, σ2) (x1, x2, …, xn) mẫu X Khi đại lượng thống kê n −1 s σ2 có phân phối χ n −1 , s2 = ( ) n ∑ xk − x n − k =1 c) Phân phối student • Định nghĩa Cho biến ngẫu nhiên Z có phân phối chuẩn N(0,1) U có phân phối χ n (n≥1) độc lập với Khi biến ngẫu nhiên Z n t= U tuân theo luật phân phối student với n bậc tự • Định lý Cho t tuân theo luật phân phối student với n bậc tự (n≥1) Khi (i) Hàm mật độ t n + 1 Γ n +1 f(t) = n π nΓ t 1 + n ∀t ∈ (-∞, +∞) (ii) Với n > 1: E(t) = (f(t) hàm chẵn) n Với n > 2: D(t) = n−2 Thống kê mô tả 22 Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học • Định lý Cho X tuân theo luật phân phối chuẩn N(θ, σ2) (x1, x2, …, xn) (n≥1) mẫu X Khi đại lượng thống kê x −θ n s có phân phối student với n-1 bậc tự do, t= ( ) n s = ∑ xk − x n − k =1 CM Suy từ định lý định nghĩa x −θ t= n = s x −θ n σ n −1 n − 1.s σ d) Phân phối Fisher • Định nghĩa Cho biến ngẫu nhiên độc lập U1 có phân phối χ n (n1, n2 ≥ 1) Khi biến ngẫu nhiên phân phối χ n1 U2 có U1 n F = U1 n2 tuân theo luật phân phối Fisher với cặp bậc tự (n1, n2), ký hiệu Fn1,n2 • Định lý Cho biến ngẫu nhiên X có phân phối Fn1,n2 Khi (i) Hàm mật độ X n1 n1 + n2 n1 n1+ n Γ n1 − n1 n −1 t 1 + t f(t) = n1 n2 n2 Γ Γ 2 0 (ii) E(X) = n2 n2 − Thống kê mô tả ∀n2 > 2; D(X) = 2.n 22.( n1 + n2 − ) n1.( n − 4).( n2 − ) ,t > ,t ≤ ∀n2 > 23 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Bây ta cho (x1, x2, …, xn1) mẫu X , (y1, y2, …, yn2) mẫu Y ( ) ( ) x= n1 ∑ xi ; n1 i =1 s12 = n1 ∑ xk − x n1 − k =1 y= n2 ∑ yi ; n2 i =1 s2 = n2 ∑ yk − y n − k =1 2 • Định lý Cho X Y biến ngẫu nhiên độc lập có phân phối chuẩn phương sai (D(X) = D(Y)) Khi đại lượng thống kê s2 F = 12 s2 có phân phối Fisher Fn1-1,n2-1 CM Suy từ định lý định nghĩa Thống kê mô tả 24 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học VI PHÂN PHỐI TIỆM CẬN CHUẨN CỦA ĐẠI LƯỢNG THỐNG KÊ Theo định lý giới hạn, cỡ mẫu n tăng đến vơ chứng minh nhiều đại lượng thống kê có hàm phân phối xác suất tiến tới hàm phân phối chuẩn Các phân phối gọi phân phối tiệm cận chuẩn • Định lý Cho đại lượng ngẫu nhiên X với E(X) = θ D(X) = σ2 (x1, x2, …, xn) mẫu X Khi x −θ n σ có phân phối tiến tới phân phối chuẩn N(0,1) n→+∞ Từ định lý suy • Định lý Cho kiện A phép thử α có xác suất p n ≥ Giả sử phép thử α thực n lần cách độc lập kiện A xuất m lần Khi m −p n n p.(1 − p ) có phân phối tiến tới phân phối chuẩn N(0,1) n→+∞ • Định lý Nếu đại lượng ngẫu nhiên U có phân phối χ n , đại lượng U −n 2.n ( 2.U − 2.n − ) có phân phối tiến tới phân phối chuẩn N(0,1) n→+∞ • Định lý Nếu đại lượng ngẫu nhiên t có phân phối student với n bậc tự , phân phối xác suất t tiến tới phân phối chuẩn N(0,1) n→+∞ Ghi Với n ≥ 30 phân phối student coi trùng với phân phối chuẩn N(0,1) Thống kê mô tả 25 ... tốt Thống kê mô tả 20 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học V PHÂN PHỐI XÁC SUẤT CỦA ĐẠI LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU Khái niệm phân phối xác suất đại lượng thống kê Cho... RXY = 0.72 + Ví dụ Bảng sau cho mẫu thống kê điểm mơn tốn (X) tin (Y) thang điểm 20 100 sinh viên Thống kê mô tả 17 Trần Quốc Chiến: Lý thuyết xác suất thống kê toán học Y [0;4) [4;8) [8;12) 12... khoảng phần tư trị δ = q3 − q1 gọi độ lệch phần tư Thống kê mô tả 13 Trần Quốc Chiến: Lý thuyết xác suất thống kê tốn học IV PHÂN TÍCH THỐNG KÊ BIẾN NGẪU NHIÊN CHIỀU Tổng quát a) Mẫu phân lớp