Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,61 MB
Nội dung
PHẦN II: THỐNG KÊ Thống kê tốn mơn toán học nghiên cứu quy luật tượng ngẫu nhiên có tính chất số lớn sở thu nhập xử lý số liệu thống kê (các kết quan sát) Nội dung chủ yếu thống kê toán xây dựng phương pháp thu nhập xử lý số liệu thống kê nhằm rút kết luận khoa học thực tiễn, dựa thành tựu lý thuyết xác suất Việc thu thập, xếp, trình bày số liệu tổng thể hay mẫu gọi thống kê mơ tả Cịn việc sử dụng thơng tin mẫu để tiến hành suy đoán, kết luận tổng thể gọi thống kê suy diễn Thống kê ứng dụng vào lĩnh vực Một số ngành phát triển thống kê ứng dụng chuyên sâu ngành thống kê xã hội học, y khoa, giáo dục học, tâm lý học, kỹ thuật, sinh học, phân tích hóa học, thể thao, hệ thống thơng tin địa lý, xử lý hình ảnh… Chương I: LÝ THUYẾT MẪU Chương II: LÝ THUYẾT ƯỚC LƯỢNG Chương III: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ Chương IV: PHÂN TÍCH PHƯƠNG SAI ( BTL) Chương V: LÝ THUYẾT HỒI QUY ĐƠN Chương I: LÝ THUYẾT MẪU I.1 Một số khái niệm: • Tổng thể thống kê tập hợp phần tử thuộc đối tượng nghiên cứu, cần quan sát, thu thập phân tích theo đặc trưng Các phần tử tạo thành tổng thể thống kê gọi đơn vị tổng thể • Mẫu số đơn vị chọn từ tổng thể theo phương pháp lấy mẫu Các đặc trưng mẫu sử dụng để suy rộng đặc trưng tổng thể nói chung • Đặc điểm thống kê (dấu hiệu nghiên cứu) tính chất quan trọng liên quan trực tiếp đến nội dung nghiên cứu khảo sát cần thu thập liệu đơn vị tổng thể; Người ta chia làm loại: đặc điểm thuộc tính đặc điểm số lượng • Trong thực tế, phương pháp nghiên cứu toàn tổng thể áp dụng với tập hợp có qui mơ nhỏ, cịn chủ yếu người ta áp dụng phương pháp nghiên cứu khơng tồn bộ, đặc biệt phương pháp chọn mẫu • Nếu mẫu chọn cách ngẫu nhiên xử lý phương pháp xác suất thu kết luận cách nhanh chóng, đỡ tốn mà đảm bảo độ xác cần thiết • Có phương pháp để lấy mẫu có n phần tử : lấy có hồn lại lấy khơng hồn lại Nếu kích thước mẫu bé so với kích thước tổng thể hai phương pháp coi cho kết • Về mặt lý thuyết, ta giả định phần tử lấy vào mẫu theo phương thức có hồn lại phần tử tổng thể lấy vào mẫu với khả • Việc sử dụng bất kz phương pháp thống kê đắn tổng thể nghiên cứu thỏa mãn giả thiết toán học cần thiết phương pháp Việc sử dụng sai liệu thống kê tạo sai lầm nghiêm trọng việc mô tả diễn giải Bằng việc chọn ( bác bỏ, hay thay đổi) giá trị đó, hay việc bỏ giá trị quan sát lớn nhỏ cách làm thay đổi kết quả; kết thú vị nghiên cứu với mẫu nhỏ lại khơng cịn với mẫu lớn • Dữ liệu sơ cấp liệu người làm nghiên cứu thu thập trực tiếp từ đối tượng nghiên cứu thuê công ty, tổ chức khác thu thập theo u cầu • Dữ liệu thứ cấp liệu thu thập từ nguồn có sẵn, thường qua tổng hợp, xử lý Dữ liệu thứ cấp thường có ưu điểm thu nhập nhanh, tốn cơng sức chi phí so với việc thu thập liệu sơ cấp; nhiên liệu thường chi tiết đơi khơng đáp ứng yêu cầu nghiên cứu Khái quát trình nghiên cứu thống kê Xác định vấn đề nghiên cứu, mục tiêu, nội dung, đối tượng nghiên cứu Xây dựng hệ thống khái niệm, tiêu thống kê Thu thập liệu thống kê Xử lý số liệu: - Kiểm tra, chỉnh lý xếp số liệu - Phân tích thống kê sơ - Phân tích thống kê thích hợp Phân tích giải thích kết Báo cáo truyền đạt kết nghiên cứu Có nhóm kỹ thuật lấy mẫu kỹ thuật lấy mẫu xác suất (probability sampling ) , nguyên tắc phần tử tổng thể có hội lấy vào mẫu nhau) lấy mẫu phi xác suất (non- probability sampling ) I.2 CÁC KỸ THUẬT LẤY MẪU XÁC SUẤT: I.2.1 Lấy mẫu ngẫu nhiên đơn giản ( simple random sampling): Cách tiến hành: - Lập danh sách tổng thể theo số thứ tự, gọi khung lấy mẫu - Xác định số phần tử n cần lấy vào mẫu (sample size) - Chọn mẫu gồm đối tượng có số thứ tự lựa chọn cách ngẫu nhiên cách bốc thăm, lấy từ bảng số ngẫu nhiên; MTBT hay phần mềm thống kê - Ưu điểm: Tính đại diện cao - Hạn chế: Mẫu phải khơng có kích thước q lớn; Người nghiên cứu phải lập danh sách tổng thể cần khảo sát I.2.2 Lấy mẫu hệ thống ( systematic sampling): Cách tiến hành: - Lập danh sách N phần tử tổng thể, có mã số thứ tự - Xác định số phần tử n cần lấy vào mẫu (sample size) - Xác định số nguyên k gọi khoảng cách, k lấy giá trị làm tròn N/n Chọn phần tử vào mẫu cách ngẫu nhiên (có số thứ tự khoảng đến k hay đến N) Các phần tử phần tử có STT = STT phần tử + k/2k/3k/… Có thể quay vịng lại để tiếp tục lấy mẫu chưa đủ n phần tử; coi phần tử số có STT N+1,… - Ưu điểm: Tiết kiệm thời gian cần mẫu có kích thước lớn - Hạn chế: Người nghiên cứu phải lập danh sách tổng thể cần khảo sát Thứ tự danh sách tổng thể để mã hóa, khơng xếp theo đặc điểm khảo sát I.2.3 Lấy mẫu phân tầng ( stratified sampling): Cách tiến hành: - Chia tổng thể thành nhiều tầng khác dựa vào tính chất liên quan đến đặc điểm cần khảo sát Trên tầng thực lấy mẫu ngẫu nhiên đơn giản với số lượng phần tử cần lấy vào mẫu ni phân bổ theo tỉ lệ phần tử tầng - Trong thực tế, với mẫu chọn, người ta kết hợp khảo sát thêm đặc điểm riêng lẻ phần tử tầng Khi nhận thấy vài giá trị mi nhỏ làm khảo sát riêng lẻ khơng đủ độ tin cậy cần lấy mẫu không cân đối (disproportionately) phải quan tâm đến việc hiệu chỉnh kết theo trọng số ( xem thêm tài liệu) - Ưu điểm: Kỹ thuật làm tăng khả đại diện mẫu theo đặc điểm cần khảo sát Ở nghiên cứu có quy mơ lớn, người ta thường kết hợp với cách lấy mẫu cụm I.2.4 Lấy mẫu cụm( cluster sampling) lấy mẫu nhiều giai đoạn (multi- stage sampling): Cách tiến hành: - Chia tổng thể thành nhiều cụm theo tính chất liên quan đến đặc tính cần khảo sát, chọn m cụm ngẫu nhiên Khảo sát hết phần tử cụm lấy Theo cách số phần tử lấy vào mẫu nhiều số cần thiết n phần tử cụm có khuynh hướng giống - Để khắc phục, ta chọn m cụm gọi mẫu bậc không khảo sát hết mà cụm bậc lại chọn ngẫu nhiên ki cụm nhỏ gọi mẫu bậc 2;…làm đủ số lượng cần Khảo sát tất phần tử chọn bậc cuối - Ưu điểm: Kỹ thuật xử lý tốt khó khăn gặp phải tổng thể có phân bố rộng mặt địa lý ( thời gian, tiền bạc, nhân lực, bảo quản liệu…), hay lập danh sách tổng thể đầy đủ 10 III.3 Bài toán kiểm định phi tham số: ( xét KĐ Chi Bình Phương) III.3.1 Bài tốn kiểm định tính độc lập: ( so sánh ti lệ) Xét mẫu kích thước n BNN định tính chiều (X,Y) X nhận giá trị A1; A2;….; Ak Y nhận giá trị B1; B2; …; Bh Y Tổng hàng B1 B2 … Bh A1 n11 n12 … n1h n1 A2 n21 n22 … n2h n2 … … … … … … Ak nk1 nk2 … nkh nk Tổng cột m1 m2 … mh X 𝑛𝑖 =n Hãy kiểm định xem X,Y có độc lập hay khơng với mức ý nghĩa 62 * Giả thiết kiểm định H0: X,Y độc lập Giả thiết đối H1: X, Y không độc lập * Miền bác bỏ W = ( 2 (số hàng-1)*(số cột-1) ; +) * Do giả thiết X,Y độc lập nên xác suất tính theo l{ thuyết ni m j pij = P(X= Ai ; Y= Bj) = P(X= Ai)*P(Y= Bj) = * n n suy tần số l{ thuyết là: n * m tong hang i * tong cot j i j Eij = n*pij = n kich thuoc mau Tính tiêu chuẩn kiểm định: qs O i; j hoặc: * B4: Kết luận ij Eij Eij i; j Observed ij Expectedij Expectedij n ij qs n 1 i ; j ni m j 63 Ví dụ 19: Ở trường đại học, để nghiên cứu xem khả học toán sinh viên có tương quan với yêu thích môn thống kê hay không, người ta chọn ngẫu nhiên 200 SV khảo sát có kết quả: Khả học toán Mức độ u thích môn thống kê Thấp Trung bình Cao Ít thích 60 15 15 Thích vừa 15 45 10 Rất thích 10 25 Với mức ý nghóa = 0,05, kiểm định xem yêu thích môn thống kê có phụ thuộc vào khả học toán sinh viên trường hay không? Hướng dẫn: Gọi X : mức độ yêu thích môn TK SV Gọi Y : mức độ thể khả học toán sinh viên 64 + Giả thiết kiểm định H0: X, Y độc lập H1: X,Y không độc lập + Miền bác bỏ: W = (2 (3-1)*(3-1) ; +) = ( 9,49; +) + Tính tiêu chuẩn kiểm định: Cách 1: Bảng tần số thực nghiệm Oij Bảng tần số lý thuyết Eij Cách 2: 60 15 15 90 15 45 10 70 10 25 40 80 70 50 200 qs i; j O ij Eij Eij 90*80 200 90*70 200 … … … … … … 40*50 200 84, 7513 Wα 2 60 15 25 qs 200 1 84, 7513 Wα 40 50 90 80 90 70 Bác bỏ H0, chấp nhận H1 Mức độ u thích SV mơn học thống kê có liên quan đến khả học tốn Lưu ý: Kiểm định Chi-Bình-Phương coi xác tất giá trị bảng tần số lý thuyết lớn hay Vì bảng tần số lý thuyết xuất số nhỏ ta nên xếp lại liệu ban đầu cho thích hợp thực lại tốn III.3.2 Bài toán kiểm định dạng phân phối XS tổng thể : Chúng ta xét toán kiểm định sau: • Kiểm định phân phối Poisson • Kiểm định phân phối chuẩn • Kiểm định phù hợp ( tham khảo) ( trường hợp riêng: kiểm định phân phối rời rạc) Các bước tiến hành chung: + B1: Đặt giả thiết kiểm định: H0: Tổng thể có phân phối F(x) H1: Tổng thể khơng có phân phối F(x) Tính đặc trưng mẫu cần thiết dạng ước lượng hợp l{ cực đại + B2: Tìm miền bác bỏ W = ( 2 (k-r-1); +) k: số hàng ( cột) chia bảng liệu mẫu r: số tham số chưa biết phân phối F(x).( số tham số cần ước lượng từ mẫu để sử dụng cơng thức tính pi ) k Oi Ei + B3: Tính tiêu chuẩn kiểm định: ; qs Ei i 1 Oi = ni tần số từ mẫu thực nghiệm; Ei tần số theo l{ thuyết giả thiết H0 + B4: Kết luận Nếu qs Wα ta bác bỏ giả thiết H0 Chấp nhận H0 trường hợp ngược lại 67 Ví dụ 20: Kiểm định phân phối Poisson Một hãng bảo hiểm nghiên cứu số tai nạn xảy gia đình có từ nhỏ trở lên năm Dưới bảng số liệu thống kê mẫu: Số tai nạn 5 Số gia đình 135 344 257 165 78 21 Với mức ý nghĩa 5%, xem số vụ tai nạn loại tuân theo quy luật phân bố Poisson hay không? Hướng dẫn: Gọi X số vụ tai nạn năm gia đình có từ nhỏ trở lên + Giả thiết kiểm định H0: X có phân phối Poisson H1: X khơng có phân phối Poisson Tra bảng Chi-Bình-Phương với k= ; r = tìm : 2 (k r 1) 0,05 (6 1) 9, 49 Miền bb W= ( 9,49; +) pi = P(X= xi) x e = ni Oi xi i n*pi Ei ( xi )! 135 344 257 165 78 21 0.1703 0.3015 0.2668 0.1574 0.0697 0.0247 Do qs i Oi Ei Ei Ei n npi i npi 170.3 301.49 266.82 157.42 69.660 24.659 Tổng: 2qs = n=1000 Oi -Ei 7.3293 5.9941 0.3613 0.3647 0.9986 0.5430 15.59106 15,59106 W nên bác bỏ H0 Số tai nạn gia đình khơng tn theo phân phối Poisson Ví dụ 21: (Kiểm định phân phối Chuẩn) Khảo sát chiều cao chọn ngẫu nhiên từ vườn ươm, người ta có kết sau: xi (cm) – 15 15 – 25 ni 25 67 25 - 35 35 – 45 191 273 45 - 55 55 - 65 65 - 75 202 54 18 Với mức ý nghĩa 1%, coi mẫu phù hợp phân phối chuẩn hay không? Hướng dẫn: Gt kđ H0: Mẫu phù hợp với phân phối Chuẩn Gt đối H1: Mẫu không phù hợp với phân phối Chuẩn Tính đặc trưng mẫu: n= 830 ; x = 39.5663; s = 12.3329 x ước lượng hợp l{ cực đại cho a a = 39,5663 s ước lượng hợp l{ cực đại cho 2 = 12,3329 Tra bảng Chi-BP với k= ; r = 2 (k r 1) 13, 28 Miền bác bỏ W= ( 13,28; +) Tính tiêu chuẩn kiểm định: Khoảng (; ) ni Oi (-; 15) 25 (15; 25) (25; 35) (35; 45) (45; 55) (55; 65) (65;+) pi = P(