NHỮNG KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ...3 1.1 Giả thuyết thống kê Statistical Hypothesis...3 1.2 Giả thuyết không giả thuyết đơn và giả thuyết ngược lại đối thuyết Null Hypot
Trang 1MỤC LỤC
MỞ ĐẦU 2
1 NHỮNG KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 3
1.1 Giả thuyết thống kê ( Statistical Hypothesis) 3
1.2 Giả thuyết không (giả thuyết đơn) và giả thuyết ngược lại (đối thuyết) (Null Hypothesis & Alternative Hypothesis) 3
1.3 Các loại sai lầm trong việc kiểm định giả thuyết thống kê 3
1.4 Miền bác bỏ và miền chấp nhận ( Rejection Region & Acceptance Region ) 4
1.5 Kiểm định một đầu và kiểm định 2 đầu (one-tailed test & two-tailed test) 4
1.6 Các bước kiểm định thống kê 5
2 KIỂM ĐỊNH T 5
2.1 Phân phối T (Student) 5
2.2 Kiểm định sự khác nhau của các trung bình từ tổng thể chung có phương sai bằng nhau 6
2.3 Kiểm định sự khác nhau của các trung bình từ tổng thể có phương sai khác nhau 9
3 KIỂM ĐỊNH 2 10
3.1 Phân phối 2 (chi bình phương) 10
3.2 Kiểm định giả thuyết về phân phối chuẩn 11
3.3 Kiểm tra sự khác nhau giữa hai tần suất của hai mẫu độc lập 12
3.4 Kiểm tra mối tương quan giữa các biến định tính 13
KẾT LUẬN 15
TÓM TẮT 16
TÀI LIỆU THAM KHẢO 18
Phụ lục 1: BẢNG PHÂN PHỐI T (STUDENT) 19
Phụ lục 2: BẢNG PHÂN PHỐI 2 20
Trang 2MỞ ĐẦU
Trong lĩnh vực giáo dục hay tâm lý, ta luôn luôn phải đưa ra những quyết định: quyết định dùng phương pháp này hay phương pháp kia, quyết định thay thế một biện pháp này bằng một biện pháp khác tốt hơn hay giữ nguyên như cũ Muốn vậy,
ta phải so sánh phương pháp cũ với phương pháp mới, biện pháp này hay biện pháp kia để xem những cái lợi và bất lợi của từng loại Các quyết định của ta hầu như luôn luôn phải dựa vào những hiểu biết có giới hạn của ta nên không thể hoàn toàn chắc chắn Luôn luôn có yếu tố rủi ro trong các quyết định của ta Ta có lúc đưa ra quyết định sai lầm hoặc khi tiến hành thực nghiệm một vấn đề nào đó và thu được các bảng số liệu cụ thể thì bạn sẽ làm gì? Để khẳng định việc mình làm thực nghiệm đạt mục tiêu đề ra, để tăng độ tin cậy từ các số liệu bạn thu thập được thì bạn làm như thế nào? Các phương pháp thống kê suy diễn có thể giúp ta trong các quá trình
ấy Nó được gọi là kiểm định giả thuyết thống kê
Trong các lĩnh vực kinh tế, quân sự và các bộ môn khoa học thực nghiệm như vật lý, hóa học, sinh học, nông – lâm – ngư nghiệp, tâm lý, xã hội học… Người ta
xử lý các kết quả thí nghiệm, thực nghiệm bằng phương pháp thống kê toán học hoặc biểu diễn các quy luật ngẫu nhiên bằng mô hình toán học
Trong việc nghiên cứu khoa học từ xưa đến nay, việc thống kê và xử lý các số liệu thực nghiệm là một vấn đề rất quan trọng Nó không những giúp việc nghiên cứu có độ chính xác, độ tin cậy cao mà nó còn giúp người nghiên cứu có cơ sở khẳng định giả thiết mình đưa ra là đúng hay sai Như vậy có thể coi, kiểm định giả thiết thống kê là một công cụ minh chứng các giả thiết đưa ra
Đó là các lí do mà tôi chọn đề tài: “Kiểm định giả thuyết thống kê, kiểm định
T và kiểm định 2 ”
Trang 31 NHỮNG KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
1.1 Giả thuyết thống kê ( Statistical Hypothesis) [2][6][7,
tr 15-16]
Là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của một hay nhiều tập hợp chính
Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết gọi là kiểm định giả thuyết thống kê
Ví dụ: Một giáo viên tuyên bố rằng việc sử dụng công nghệ thông tin vào quá
trình dạy học sẽ giúp cho học sinh tiếp thu được nhiều kiến thức hơn; đây là một giả thuyết kỳ vọng của biến ngẫu nhiên X= tác dụng của việc ứng dụng công nghệ thông tin vào quá trình dạy học Để đưa ra kết luận là chấp nhận hay bác bỏ giả thuyết trên, ta cần dựa vào mẫu điều tra và quy tắc kiểm định thống kê
1.2 Giả thuyết không (giả thuyết đơn) và giả thuyết ngược lại (đối
thuyết) (Null Hypothesis & Alternative Hypothesis) [7, tr15-16]
Giả thuyết không: là sự giả sử mà ta muốn kiểm định thường được ký hiệu là Ho
Giả thuyết ngược lại: Việc bác bỏ giả thuyết không sẽ dẫn đến việc chấp nhận giả thuyết ngược lại Giả thuyết ngược lại thường được ký hiệu là H1
Ví dụ:
Kiểm định giả thuyết Ho : θ ≥ θo có thể θ= θo
Với H1 : θ< θo
Kiểm định giả thuyết Ho : θ ≤ θo có thể θ= θo
Với H1: θ> θo
Kiểm định giả thuyết Ho : θ= θo
Với H1 : θ ≠ θo
1.3 Các loại sai lầm trong việc kiểm định giả thuyết
thống kê [6, tr 18-19]
Đề tài: “Kiểm định giả thuyết thống kê, kiểm định T và kiểm định 2”
Trang 4a) Sai lầm loại I (type I error)
Là loại sai lầm mà chúng ta phạm phải trong việc bác bỏ giả thuyết Ho khi Ho
đúng
Xác suất của việc bác bỏ Ho khi Ho đúng là xác suất của sai lầm loại I và được
ký hiệu là α
α: còn được gọi là mức ý nghĩa ( level of significance)
α= 0,05; 0,02; 0,01 …
b) Sai lầm II (type II error)
Là loại sai lầm mà chúng ta phạm phải khi không bác bỏ giả thuyết Ho khi Ho sai Xác suất của việc không bác bỏ Ho khi Ho sai là xác suất của sai lầm loại II và được ký hiệu là β
= P(type II error)
1.4 Miền bác bỏ và miền chấp nhận ( Rejection Region & Acceptance Region ) [7, tr 17-18]
Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể chia làm 2 miền: miền bác bỏ và miền chấp nhận
Miền bác bỏ là miền chứa các giá trị làm cho giả thuyết Ho bị bác bỏ
Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết Ho không bị bác
bỏ Trong thực tế khi Ho không bị bác bỏ cùng nghĩa là, nó được chấp nhận Giá trị chia đôi hai miền được gọi là giá trị giới hạn (Critical value)
1.5 Kiểm định một đầu và kiểm định 2 đầu (one-tailed test & two-tailed test) [7, tr 20-21]
a) Kiểm định một đầu
Khi giả thuyết ngược lại H1 có tính chất 1 phía (one - sided) thì việc kiểm định được gọi là kiểm định 1 đầu
Ho: θ ≤ θo hay Ho: θ ≥ θo α= P ( bác bỏHo/ Ho đúng)
β= P (không bác bỏHo/Ho sai)
Trang 5H1: θ> θo H1: θ< θo
b) Kiểm định hai đầu
Khi giả thuyết ngược lại H1 có tính chất 2 phía (two - sided) thì việc kiểm định được gọi là kiểm định 2 đầu
Ho: θ= θo
H1: θ ≠ θo
1.6 Các bước kiểm định thống kê [2, tr 74-75]
Để kiểm định một giả thiết thống kê, người ta cần tiến hành theo các bước sau:
Bước 1: Phát biểu giả thiết không (Ho) và đối thuyết (H1) Xác định kiểm định có chiều hướng hay không có chiều hướng
Ví dụ: Giả thuyết Ho
Ho: θ= θo
Ho: θ ≤ θo
Ho: θ ≥ θo
Bước 2: Nêu rõ mức ý nghĩa cho kiểm định thống kê.
Bước 3: Chọn loại kiểm định thống kê.
Bước 4: Chọn miền bác bỏ giả thiết Ho
Bước 5: Tính giá trị kiểm định thống kê từ mẫu quan sát được.
Bước 6: Kết luận bác bỏ Ho hay chấp
nhận Ho tùy theo giá trị của kiểm định thống kê có rơi vào miền bác bỏ hay không
William S Gosset
Ví dụ: Đối thuyết H1
H1: θ< θo
H1: θ> θo
H1: θ ≠ θo
Trang 62 KIỂM ĐỊNH T
2.1 Phân phối T (Student) [1][2, tr 75] [4][9]
- Phương pháp kiểm định T hay gọi là T-test, phương pháp này do Gosset Wiliam Sealy tìm ra Ông sinh ra tại Canterbury (1876-1937) thuộc ngoại ô London Thời niên thiếu ông học toán tại trường New college (Oxford), ông được xem là một nhà khoa học thống kê Năm 1899 ông làm việc tại phân xưởng sản xuất bia Guinness Brewery thuộc Dublin, Ireland Trong quá trình sản xuất, nhà máy muốn giảm giá thành sản phẩm (giảm chi phí sản xuất) nhưng đảm bảo việc nâng cao chất lượng lúa đại mạch và hoa hublon Từ đó, ông tiến hành nghiên cứu phương pháp T-test từ đây Cùng thời điểm đó, ông cùng với Karl Pearson nghiên cứu trong 2 năm 1906-1907 Cuối năm 1908 ông đưa ra “chuẩn” test, sau này gọi là test Gosset dùng
để lựa chọn lúa đại mạch Với phương pháp này, ông đã thành công trong việc đáp ứng yêu cầu của nhà máy Vì vậy, việc công bố bài báo này và đồng thời giữ bí mật thành quả của nhà máy, ông quyết định không nêu tên thật mà chỉ dùng tên biệt hiệu Pupil hay Student
- Để đánh giá độ khác biệt giữa hai nhóm, chúng ta thường sử dụng phương pháp kiểm định T (hay T-test) Kiểm định T có lẽ là một trong những phương pháp đơn giản nhất trong thống kê học, vì có thể tính toán một cách thủ công, mà không cần đến máy tính hay phần mềm phân tích số liệu
- Tuy đơn giản, nhưng phương pháp kiểm định T cũng rất dễ sai lầm Sai lầm thông thường nhất là không để ý đến những giả định đằng sau phương pháp này Phương pháp kiểm định T chỉ thích hợp nếu số liệu đáp ứng những điều kiện hay giả định sau đây:
Hai nhóm so sánh phải hoàn toàn độc lập nhau
Biến so sánh phải tuân theo luật phân phối chuẩn (Gaussian distribution)
Phương sai của hai nhóm bằng nhau, hay gần bằng nhau
Các đối tượng phải được chọn một cách ngẫu nhiên (random sample)
- Dùng T để kiểm định sự khác nhau về các giá trị trung bình, tần suất
Trang 72.2 Kiểm định sự khác nhau của các trung bình từ tổng thể chung có phương sai bằng nhau [2, tr 75-77] & [3]
- Giả sử có 2 mẫu xuất phát từ tổng thể chung trong đó biến ngẫu nhiên phân phối chuẩn, có cùng phương sai Mẫu 1 có trung bình cộng là x1 Mẫu 2 có trung bình cộng là x2với x1 x2 Hỏi sự khác nhau giữa x1và x2 có ý nghĩa không?
Đầu tiên Phát biểu giả thiết Ho: Sự khác nhau giữa x1và x2không có ý nghĩa (
1
x =x2) Giả thiết đối H1: x1 x2
- Chọn đại lượng kiểm định là T
Trong đó:
s1, s2: là độ lệch tiêu chuẩn trong các mẫu
n1, n2: là kích thước của mẫu (số học sinh, số mẫu máy móc……)
Công thức tính độ lệch chuẩn của từng
mẫu:
Ta có mức ý nghĩa và bậc tự do f = n1 + n2 – 2 Dựa vào bảng phân phối T
ta tra được giá trị t(giá trị tới hạn)
Kết luận:
Nếu T< t chấp nhận Ho
Nếu T≥ t bác bỏ Ho (chấp nhận H1)
Ví dụ 1: Điểm số của 22 học sinh nam và 26 học sinh nữ trong một cuộc nghiên cứu về việc ứng dụng công nghệ thông tin vào giảng dạy (lớp 11A1 – THPT Châu Văn Liêm – TP Cần Thơ năm học 2010 -2011 ) Liệu sự khác nhau về trung
n n
x - x
T =
s n + n
1 1 2 2
1 2
s =
2 i
i
i
n (x x )
s =
n 1
Trang 8bình cộng của hai phân phối này có ý nghĩa kết luận là liệu học sinh nữ học giỏi hơn học sinh nam không hay ngược lại?
Điểm số Tần số đối với Nam Nữ
n1=22 n2=26 Giải:
Tương tự tính
B1: Phát biểu giả thiết Ho: Trung bình cộng của các tổng thể chung là bằng nhau θ= θo và đối thuyết H1: θ ≠ θo Ở đây ta tiến hành thực nghiệm cả hai phía vì không có lí do nào để loại bỏ một trong hai trường hợp, không có lí do nào để chứng minh học sinh nữ giỏi hơn học sinh nam hoặc ngược lại
B2: Định rõ mức ý nghĩa = 0,01
B3: Chọn kiểm định T
B4: Tính các giá trị: s, T
Trang 9B5: Chọn miền bác bỏ Ho : D={(x1,…….,xn): T≥ t}
Với = 0,01; f = 48-2=46 Dựa vào bảng Student ta tra t = 2,7
Vậy :T< t
B6: Kết luận: Chấp nhận giả thiết Ho: sự khác nhau giữa các giá trị trung bình
là không có ý nghĩa Như vậy sự khác biệt về điểm số giữa học sinh nam và nữ là không đáng kể
2.3 Kiểm định sự khác nhau của các trung bình từ tổng thể chung có phương sai khác nhau [2, tr77-78], [ 3]& [5]
Kiểm định này dùng trong trường hợp: sử dụng một phương pháp dạy học áp dụng trong một nhóm thực nghiệm (nhóm TN), nhóm còn lại gọi là nhóm đối chứng (nhóm ĐC)
Các công thức áp dụng trong trường hợp này là:
Ví dụ 2: Sử dụng phương pháp giải bài tập hóa học theo nhiều cách (luận văn của Kim Tiên – LL&PPDH môn Hóa học K19)
Nhóm TN: sử dụng phương pháp giải bài tập hóa học theo nhiều cách (phương pháp A)
Nhóm ĐC: sử dụng phương pháp giải bài tập hóa học theo một cách (phương pháp B)
T
2 1
2 2
1 2 1
1 2
c
n
1 f
1 c c
Trang 10Nếu chọn = 0,01 có thể kết luận như thế nào về hiệu quả của phương pháp giảng dạy A so với B?
Bảng kết quả thu được
Giải:
Giả thuyết Ho: phương pháp A mang lại kết quả tốt hơn phương pháp B
Với = 0,01; f =331 dựa vào bảng phân phối T ta tra được t = 2,58
Vậy T< t chấp nhận giả thuyết Ho
3 KIỂM ĐỊNH 2 [2][8][9]
3.1 Phân phối 2 (chi bình phương) [2, tr 78]
- Do Karl Pearson đưa ra năm 1900
- 2là phân phối của các biến ngẫu nhiên, trong đó
các biến X1, X2,… , Xn là các biến độc lập
Nhóm TN Nhóm ĐC
6, 65 5,52
2
2 2
4,56 3,66
175
175 170
1
1 0, 6 0,6
Trang 11- Dùng 2 để kiểm định giả thiết về phân phối chuẩn, sự khác nhau về tần suất
và mối tương quan giữa hai biến định tính
3.2 Kiểm định giả thuyết về phân phối chuẩn [5] & [8]
Ví dụ 3:
Có: x 6, 0 s2 5,56 s 2,36
Đặt giả thiết: Mẫu này lấy ra từ tổng thể chung phân phối chuẩn có = 6;
= 2,36
Dưới 2
2-4
5-7
8-9
Trên 9
0,5 1,5 4,5 7,5 9,5
-2,33 -1,91 -0,64 0,64 1,48
0,002 0,0024 0,2644 0,2389 0,4306
0,0004 0,262 0,405 0,238 0,0946
0,0168 11,004 17,01 9,996 3,9732
Công thức tính:
Với fb là tần số quan sát, fe là tần số kì vọng
Ta thay fe; fb vào công thức và ghép nhóm điểm dưới 2 với nhóm 2-4 để fe lớn hơn 1 thì thu được bảng kết quả sau:
Nhóm điểm
1-4 5-7 1217 11,020817,01 5,9.100,087-6
2
e
f - f
χ =
f
Trang 12Với f = k -3 = 1 (k là nhóm điểm ở bảng trên) và = 0,1 ta tìm được
2
1-0,1
Ta thấy 2 <
2 1-0,1
χ = 2,7 chấp nhận giả thiết Ho
3.3 Kiểm tra sự khác nhau giữa hai tần suất của hai mẫu độc lập [2, tr 80-81]
Giả sử 2 mẫu cần quan sát có các giá trị sau:
Tổng thể chung
Số lượng mẫu
Số đối tượng
Xác xuất
Tần suất
Câu hỏi đặt ra là: sự khác nhau giữa w2 và w1 là có ý nghĩa do p1 p2 hay là
sự khác nhau đó chỉ là ngẫu nhiên từ tổng thể chung có p1 = p2?
Ví dụ 4[4, tr.85-89]: Để nghiên cứu sự phụ thuộc giữa việc chia học sinh các nhóm để dạy với tình trạng kiến thức của học sinh về môn Thể dục, người ta chia 45 học sinh thành 3 nhóm Nhóm I gồm các em có năng khiếu đặc biệt; nhóm II gồm các em có học lực khá; nhóm III gồm các em học lực trung bình Sau một đợt huấn luyện, người ta tiến hành kiểm tra trên 30 học sinh đó Kết quả thu được như sau:
Tình trạng
bình
Trang 13Tổng 16 16 13 45 Giải:
Ta có:
Ta tính các giá trị:
Đề giả thiết: sự khác nhau giữa các tần suất là có ý nghĩa (xác xuất của 3 nhóm bằng nhau = 10/45) với =0,05
Ta tính tần số kỳ vọng fe(i)
Chọn test thống kê là 2
e
f - f
f
Với =0,05; bậc tự do f =(m-1)(k-1)= (3-1)(3-1)=4 trong đó m là số hàng, k
là số cột trong bảng đề bài cho, không tính cột và hàng tổng số bằng cách tra bảng
ta có χ20,05= 9, 49
Vậy 2 < χ20,05= 9, 49 chấp nhận H0 có nghĩa là việc phân ra thành các nhóm không có sự khác biệt về kiến thức
3.4 Kiểm tra mối tương quan giữa các biến định tính [2, tr 80-82]
Ta cũng lấy ví dụ 4:
Đặt giả thiết Ho:không có mối tương quan giữa các biến, các biến hoàn toàn độc lập với nhau
Trang 14Ta tính toán giống như ở trên ta thu được kết quả là 2 < χ20,05 = 9, 49 chấp nhận H0
KẾT LUẬN
Trong khoa học giáo dục, ta cũng gặp phải những tình huống cần phải kiểm định Để so sánh hiệu quả của hai phương pháp giảng dạy ( phương pháp mới so với
Trang 15phương pháp cũ ), ta dạy theo phương pháp mới ở một số lớp ( lớp thực nghiệm ), đồng thời dạy theo phương pháp cũ ở một số lớp khác ( lớp đối chứng ), cố gắng san bằng mọi yếu tố ( trừ phương pháp dạy ) ở lớp thực nghiệm và lớp đối chứng Kết quả kiểm tra cho thấy điểm trung bình cộng ở các lớp thực nghiệm cao hơn điểm trung bình cộng ở các lớp đối chứng Ta đứng trước câu hỏi : sự khác nhau đó ( trên
các mẫu ) có ý nghĩa không, có phải thực sự do phương pháp mới tốt hơn phương pháp dạy cũ hay chỉ do ngẫu nhiên mà có ?
Nếu ta áp dụng rộng rãi phương pháp mới thì kết quả nói chung có tốt hơn phương pháp cũ không ?
Để trả lời câu hỏi đó, chúng ta cần thực hiện bài toán kiểm định
TÓM TẮT Các bước kiểm định thống kê