1 Chương VII. KIỂM ĐỊNH PHI THAM SỐ Kiểm định phi tham số là các thủ tục thống kê để kiểm định giả thuyết khi không có được các giả thuyết liên quan đến tham số của tổng thể hay dạng phân phối xác suất của tổng thể. Kiểm định phi tham số dùng trong trường hợp các nghiên cứu thử nghiệm, vậy nên áp dụng trong trường hợp mẫu nhỏ thì dùng phương pháp kiểm định không có hiệu quả. Một cách tổng quát, kiểm định phi tham số là kiểm định thường dùng dữ liệu ở dạng liệt kê, số đếm và không yêu cầu điều kiện giả định về phân phối của tồng thể (đặc biệt là phân phối chuẩn). 1. Kiểm định Dựa vào hàm mật độ của biến ngẫu nhiên liên tục χ phân phối theo quy luật khi bình phương với bậc tự do . Ta có thể chứng minh được ( χ ) = ; ( χ ) = 2 Giá trị tới hạn khi bình phương ký hiệu χ , là giá trị của biến ngẫu nhiên χ phân phối theo quy luật khi bình phương với mức ý nghĩa và số bậc tự do thỏa mãn điều kiện χ >χ , = Ý nghĩa của phân phối khi bình phương: khi số bậc tự do tăng lên thì quy luật khi bình phương sẽ xấp xỉ với quy luật chuẩn. Quy luật khi bình phương có tính chất sau đây: “Nếu và là biến ngẫu nhiên độc lập cùng phân phối theo quy luật khi bình phương với số bậc tự do tương ứng là và thì tổng của chúng là biến ngẫu nhiên = + cũng phân phối theo quy luật khi bình phương với số bậc tự do là = + .” Trong thực tế, quy luật khi bình phương thường được sử dụng trong các trường hợp sau đây: Giả sử có các biến ngẫu nhiên ( = 1,2,…, ) độc lập, cùng phân phối theo quy luật chuẩn tắc (0,1). Nếu xét tổng bình phương của các biến ngẫu nhiên nói trên ta có: = sẽ là biến ngẫu nhiên phân phối theo quy luật khi bình phương với số bậc tự do . 2 Ta nói đến kiểm định dùng phân phối χ với dữ liệu là số đếm hoặc tần số. Trong nhiều trường hợp, phân tích χ trở nên phổ biến và tiện lợi khi dữ liệu thu thập được ở dạng số đếm, như số lượng người ở những độ tuổi, giới tính, nghề nghiệp, thu nhập khác nhau, số lượng sản phẩm sản xuất có số lỗi khác nhau… 1.1. Kiểm định giả thuyết về phân phối của tổng thể Kiểm định xem tổng thể có tuân theo hay phù hợp với một phân phối giả định nào đó hay không? Giả sử có mẫu ngẫu nhiên có quan sát được chia thành nhóm khác nhau: mỗi quan sát chỉ thuộc vè một nhóm; là số lượng quan sát của nhóm thứ . Ta dùng mẫu quan sát này để kiểm định giả thuyết về phân phối của tổng thể (hay gỉa thuyết thể hiện các xác suất để một quan sát nào đó thuộc về nhóm thứ : ∑ = 1). Kiểm định được thực hiện như sau: : ổ ể ó â ố ộ ả đị ặ ậ â ố à đó : ổ ể ô ó â ố ư ậ B1. Tính số lượng quan sát thuộc về nhóm thứ trong trường hợp giả thuyết đúng; nghĩa là tính các giá trị mong muốn theo công thức = Nhóm 1 2 … Tổng Giá trị thực tế ( ) … Xác suất theo giả thuyết ( ) … 1 Giá trị kỳ vọng ( ) = = … = B2. Tính giá trị kiểm định χ = ( − ) B3. Quy tắc quyết định: Bác bỏ ở mức ý nghĩa nếu χ > χ , trong đó χ , là tra bảng phân phối χ với mức ý nghĩa và bậc tự do ( −1). Trường hợp chưa biết các tham số tổng thể Trong trường hợp xác suất chưa được xác định rõ trong giả thuyết . 3 Trong trường hợp chưa biết các tham số tổng thể tuân theo một phân phối nào dó, như phân phối nhị thức, phân phối Poisson, phân phối chuẩn… ta có thể dùng các tham số mẫu để ước lượng cho tham số tổng thể. Nguyên tắc chung là phải xác định: Xác suất để một quan sát rơi vào nhóm thứ theo như luật phân phối muốn kiểm định, nghĩa là xác định các . Tính các . Tính giá trị kiểm định χ . Áp dụng quy tắc kiểm định như đã nói ở trên. Lưu ý rằng số bậc tự do giảm đi 1 cho mỗi tham số tổng thể được ước lượng. Ví dụ: Ở một phân xưởng sản xuất, số lần máy bị hư trong một tuần lễ được ghi nhận lại. Số liệu trong 100 mẫu như sau: Số lần máy hư 0 1 2 3 4 Số tuần lễ 10 26 35 24 5 Ở mức ý nghĩa 0.01 hãy kiểm định giả thuyết cho rằng số lần máy hư có phân phối Poisson. Giải: Giả thuyết : Số lần máy hư có phân phối Poisson. Đối thuyết : Số lần máy hư không có phân phối Poisson. Theo phân phối Poisson, xác suất xảy ra lần máy hư là: ( ) = ! Với làsố lần máy hư trung bình. Ở đây ta ước lượng λ = x = 1.9 Ta có ( 0 ) = . . ! ; ( 1 ) = . . ! ;…; ( 4 ) = 1− ( 0 ) − ( 1 ) − ( 2 ) − ( 3 ) . Từ đó ta có kết quả theo bảng sau 0 1 2 3 4 Tổng 10 26 35 24 5 100 0.1495 0.2840 0.2698 0.1709 0.1258 1 15 28 27 17 13 100 ( − ) 1.6666 1.1428 2.3703 2.8823 4.9230j 11.985 Ta có =5và một tham số λ do vậy bậc tự do là 5−1−1 = 3. Tra bảng phân phối χ ta tìm được χ , = χ ,; , = 11.34 Vì 11.985>11.34 nên giả thuyết cho rằng số lần máy hư có phân phối Poisson bị bác bỏ với mức ý nghĩa 0.01 4 1.2. Kiểm định giả thuyết về sự độc lập (kiểm định giả thuyết về mối liên hệ) giữa hai biến (dữ liệu) định tính Trong phần này, ta sẽ đề cập đến kiểm định χ trong việc xem xét xem giữa hai biến (dữ liệu) định tính tổng thể có mối liên hệ hay không. Ví dụ về mối liên hệ giữa giới tính và hành vi tiêu dùng, giữa giới tính và mức độ hoàn thành công việc, giữa tuổi tác và kết quả học tập của sinh viên… Giả sử có mẫu ngẫu nhiên gồm quan sát, được phân nhóm kết hợp theo hai biến (dữ liệu) định tính, hình thành nên bảng phân nhóm kết hợp gồm dòng và cột. Gọi là số lượng quan sát ứng với hàng thứ và cột thứ ; là tổng số quan sát ở hàng thứ ; là tổng số quan sát ở cột thứ ; là tổng số quan sát của dòng đồng thời cũng là tổng số quan sát của cột. Dạng tổng quát của một bảng phân nhóm kết hợp hai biến (dữ liệu) định tính như sau: Phân nhóm theo biến định tính thứ hai Phân nhóm theo biến định tính thứ nhất 1 2 … Tổng 1 … 2 … … … … … … … … Tổng … Kiểm định mối liên hệ giữa hai biến định tính như sau: Giả thuyết : Không có mối liên hệ giữa hai biến định tính. Đối thuyết : Tồn tại mối liên hệ giữa hai biến định tính. Tính giá trị = . Giá trị kiểm định χ = − Quy tắc kiểm định: Bác bỏ ở mức ý nghĩa nếu χ > χ ( ) ( ), trong đó χ ( ) ( ), là tra bảng phân phối χ với mức ý nghĩa và bậc tự do ( −1 ) ( −1). 1.3. Kiểm định giả thuyết về tỷ lệ tổng thể 5 Kiểm định χ cũng có thể dùng để kiểm định các giả thuyết: - Tỷ lệ của một tổng thể - So sánh tỷ lệ của hai tổng thể - So sánh tỷ lệ của nhiều tổng thể. Kiểm định χ về giả thuyết tỷ lệ của một tổng thể và so sánh tỷ lệ của hai tổng thể đã được nói đến trong kiểm định tham số trong chương ước lượng và kiểm định giả thuyết, nhưng không cần điều kiện chuẩn của tổng thể. Ví dụ: Công ty hóa mỹ phẩm U vừa đưa ra thị trường một loại dầu gội đầu mới, dành riêng cho phái nam. Có ý kiến cho rằng chỉ có 30% nam sẽ ưa chuộng loại sản phẩm mới này. Chọn ngẫu nhiên 20 người nam đã dùng qua sản phẩm và hỏi ý kiến, chỉ có 3 người là ưa thích loại dầu gội mới này, còn lại 17 người là không ưa thích. Như vậy ý kiên trên có xác nhận hay không? Giải: Giả thuyết : = 0.3 Đối thuyết : ≠0.3 Ưa thích Không ưa thích Tổng 3 17 20 = 6 14 20 Giá trị kiểm định χ = ( − ) = (3−6) 6 + (17−14) 14 = 2.14 Tra bảng phân phối khi bình phương với mức ý nghĩa 5% ta có χ , . = 3.84 nên χ < χ , . nên không có cơ sở bác bỏ cho rằng 30% nam ưa chuộng loại dầu gội mới này (mặc dù tỷ lệ trên mẫu chỉ là 15%). Ví dụ: Trở lại ví dụ trên, giả sử có hai loại dầu gội mới dành cho phái nam. Với mẫu ngẫu nhiên 20 người nam trong số những người đã từng dùng sản phẩm thứ nhất, có 3 người ưa thích loại dầu gội này. Mẫu thứ hai cũng gồm 20 người nam đã từng dùng qua sản phẩm thứ hai, có 9 người ưa thích loại dầu gội mới này. Câu hỏi đặt ra là liệu có thể nói rằng đối với hai loại sản phẩm mới này, tỷ lệ khách hàng nam ưa thích chúng bằng nhau. Giải: Gọi , lần lượt là tỷ lệ khách hàng nam ưa thích loại dầu gội 1 và 2. 6 Giả thuyết : = =0.3 Đối thuyết : ≠ . Ta có bảng giá trị như sau Ưa thích Không ưa thích = = Loại dầu gội 1 3 6 17 14 Loại dầu gội 2 9 6 11 14 Giá trị kiểm định χ = ( − ) = (3−6) 6 + (9−6) 6 + (17−14) 14 + (11−14) 14 = 4.28 Giá trị tra bảng phân phối khi bình phương với mức ý nghĩa 0.05 ta có χ , . = 3.84 nên χ > χ , . nên bác bỏ giả thuyết cho rằng tỷ lệ khách hàng nam ưa thích hai loại dầu gội này là bằng nhau. Như vậy có thể nói rằng tỷ lệ khách hàng nam ưa thích hai loại dầu gội này là khác nhau. Lưu ý: Khi so sánh tỷ lệ của hai tổng thể, hai mẫu ngẫu nhiên độc lập sẽ được thu thập từ hai tổng thể tương ứng. Chẳng hạn, ở ví dụ trên mẫu ngẫu nhiên độc lập thứ nhất sẽ được thu thập từ tổng thể những người nam đã sử dụng loại dầu gội 1 và mẫu ngẫu nhiên độc lập thứ hai sẽ được thu thập từ tổng thể những người nam đã sử dụng loại dầu gội thứ 2. Ví dụ: Mở rộng ví dụ trên đây, giả sử công ty U phát triển 4 loại dầu gội mới dành cho phái nam với các mùi hương đặc trưng khác nhau. Công ty muốn kết luận phải chăng tỷ lệ khách hàng nam ưa thích 4 loại sản phẩm mới này là bằng nhau. Bốn mẫu ngẫu nhiên, mỗi mẫu gồm 20 người nam được chọn từ bốn tổng thể khách hàng nam đã dùng qua các sản phẩm mới này. Số liệu điều tra mẫu và kết quả tính toán được thể hiện trong bảng dưới đây: Giả thuyết : = = = = 0.25 7 Ưa thích Không ưa thích = = Loại dầu gội 1 3 6.5 17 13.5 Loại dầu gội 2 9 6.5 11 13.5 Loại dầu gội 3 2 6.5 18 13.5 Loại dầu gội 4 12 6.5 8 13.5 Giá trị kiểm định χ = ( − ) = (3−6.5) 6.5 + + (8−13.5) 13.5 = 15.72 Giá trị tra bảng phân phối khi bình phương với mức ý nghĩa 0.05 ta có χ , . = 7.81 nên χ > χ , . nên bác bỏ giả thuyết cho rằng tỷ lệ khách hàng nam ưa thích bốn loại dầu gội này là bằng nhau. Như vậy có thể nói rằng tỷ lệ khách hàng nam ưa thích bốn loại dầu gội này là khác nhau. Tương tự như trong trường hợp so sánh tỷ lệ hai tổng thể, khi so sánh tỷ lệ nhiều tổng thể, một mẫu ngẫu nhiên độc lập sẽ được thu thập từ mỗi tổng thể tương ứng. 2. Kiểm định Dựa vào hàm mật độ của biến ngẫu nhiên liên tục phân phối theo quy luật Student với bậc tự do . Ta có thể chứng minh được ( ) = 0; ( ) = . Giá trị tới hạn Student ký hiệu , là giá trị của biến ngẫu nhiên phân phối theo quy luật Student với mức ý nghĩa và số bậc tự do thỏa mãn điều kiện > , = Khi số bậc tự do tăng lên, phân phối Student sẽ hội tụ rất nhanh về phân phối chuẩn. Do đó, nếu khá lớn ( > 30)có thể dùng phân phối chuẩn thay cho phân phối Student. Tuy nhiên cần phải nhấn mạnh rằng số bậc tự do nhỏ ( < 30)việc thay thế quy luật Student bằng quy luật chuẩn có thể dẫn đến những sai sót rất lớn. Trong thực tế, quy luật Student thường được sử dụng trong trường hợp sau đây: Giả sử có U là biến ngẫu nhiên có phân phối chuẩn tắc; biến ngẫu nhiên độc lập với ; phân phối theo quy luật χ với bậc tự do. Nếu xét biến ngẫu nhiên 8 = thì biến ngẫu nhiên sẽ phân phối theo quy luật Student với bậc tự do. Kiểm định được sử dụng trong các bài toán: Kiểm định giả thuyết về trung bình tổng thể trong trường hợp chưa biết phương sai của tổng thể và mẫu nhỏ. Kiểm định giả thuyết về sự khác biệt của hai trung bình tổng thể trong các trường hợp: kiểm định dựa trên sự phối hợp từng cặp, kiểm định dựa trên mẫu ngẫu nhiên độc lập chưa biết phương sai tổng thể nhưng hoặc một trong hai mẫu nhỏ hoặc cả hai mẫu đều nhỏ, giả định phương sai tổng thể bằng nhau trong trường hợp mẫu nhỏ. Kiểm định giả thuyết thống kê tính có ý nghĩa của một biến trong hồi quy đơn biến và hồi quy đa biến (sẽ được trình bày ở chương Hồi quy). 3. Kiểm định Dựa vào hàm mật độ của biến ngẫu nhiên liên tục phân phối theo quy luật Fisher với và bậc tự do. Ta có thể chứng minh được ( ) = −2 ; ( ) = 2 ( + −2) ( −2 ) ( −4) Giá trị tới hạn Fisher, ký hiệu là , , là giá trị của biến ngẫu nhiên , phân phối theo quy luật Fisher với , bậc tự do, thỏa mãn điều kiện > , , = Trong thực tế, quy luật Fisher thường được sử dụng trong trương hợp sau: Giả sử có các biến ngẫu nhiên và độc lập với nhau và cùng phân phối theo quy luật khi bình phương với bậc tự do tương ứng là , . Khi đó nếu xét biến ngẫu nhiên = / / thì sẽ phân phối theo quy luật Fisher với , bậc tự do. Kiểm định được sử dụng trong các bài toán: Phân tích phương sai ANOVA. Kiểm định giả thuyết thống kê đồng thởi về tính có ý nghĩa đồng thời của nhiều biến trong mô hình hồi quy đa biến (sẽ được sử dụng trong mô hình hồi quy đa biến trong kinh tế lượng). . 1 Chương VII. KIỂM ĐỊNH PHI THAM SỐ Kiểm định phi tham số là các thủ tục thống kê để kiểm định giả thuyết khi không có được các giả thuyết liên quan đến tham số của tổng thể hay dạng. kiểm định phi tham số là kiểm định thường dùng dữ liệu ở dạng liệt kê, số đếm và không yêu cầu điều kiện giả định về phân phối của tồng thể (đặc biệt là phân phối chuẩn). 1. Kiểm định Dựa vào hàm. thể. Kiểm định phi tham số dùng trong trường hợp các nghiên cứu thử nghiệm, vậy nên áp dụng trong trường hợp mẫu nhỏ thì dùng phương pháp kiểm định không có hiệu quả. Một cách tổng quát, kiểm định