- ả ết không H0 : Null Hypothesis là giả Gi thi thiết về yếu tố cần kiểm định của tổng thể ở ạng thái bình thường, không chịu tác động củtr a các hiện tượng liên quan.- ả Gi thiết đối H1
Cơ sở lý thuyết
Bài toán ki ểm đị nh 1 m ẫu
- ả ết không H0 : (Null Hypothesis) là giả Gi thi thiết về yếu tố cần kiểm định của tổng thể ở ạng thái bình thường, không chịu tác động củtr a các hiện tượng liên quan.
- ả Gi thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể hiện xu hướng cần kiểm định
- Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu ngẫu nhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặ t ra v i ớ thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định - Miền bác bỏ giả ết RR ( Rejection region) là miền số ực thỏa P(G RR /H0 thi th đúng) = là mộ ố khá bé, thường không quá 10% và đượt s c gọi là mức ý nghĩa của kiểm định Một ký hiệu khác của miền bác bỏ được dùng trong bài: W - Miền chấp nhận AR: phần bù của miền bác bỏ trong R
Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ ể củth a tiêu chuẩn kiểm định, gọi là giá trị kiểm định thống kê: gqs = G(x1 , x2 , , xn , 0 ) Theo nguyên lý xác suất bé, biến cố G RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra
Kết luận của một bài toán kiểm định có thể mắc các sai lầm sau: - Sai lầm loại I: Bác bỏ giả ết H0 trong khi H0 đúng Xác suất mắc phảthi i sai l m này nầ ếu H0 đúng chính bằng mức ý nghĩa Nguyên nhân mắc phải sai lầm lo i I thưạ ờng có thể do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu … - Sai lầm loại II: Thừa nhận H0 trong khi H0 sai, tức là mặc dù thực tế H1 đúng nhưng giá trị thực nghiệm gqs không thuộc RR.
Bài toán ki ểm đị nh 2 m ẫu
Bài toán kiểm định 2 mẫu là một trong những bài toán thống kê cơ bản, được sử dụng để so sánh hai mẫu dữ ệu và xem xét sự khác biệt giữa hai mẫu, từ đó đưa ra nhận xét hay li kết luận về sự khác biệt đó.
H0 (Null Hypothesis): Không có sự khác biệt ý nghĩa nào giữa hai mẫu Cả hai mẫu được cho là đến từ cùng một phân phối
H1 (Alternative Hypothesis): Có sự khác biệt ý nghĩa giữa hai mẫu Một trong những dạng phổ biến của giả thuyết thay thế là (trung bình của hai mẫu khác nhau).
Sự lựa chọn giữa kiểm định z (khi biết đến độ lệch chuẩn của quần thể) và kiểm định t (khi chỉ biế ến độ lệch chuẩn mẫu) phụ t đ thuộc vào thông tin có sẵn.
Nếu biế ến độ lệch chuẩn củt đ a quần thể:
Nếu chỉ biế đến độ lệch chuẩn mẫu: t
2.4) Chấp nh n hoậ ặc bác bỏ giả thuyết:
So sánh thống kê với giới hạn quyế ịnh (critical value) hoặt đ c giá tr p: ị
Nếu p-value nhỏ hơn một ngưỡng alpha (thường là 0.05), ta bác bỏ giả thuyết không Ngược lại, nếu p-value lớn hơn α, ta không thể bác bỏ giả thuyết không
Nếu bác bỏ giả thuyết không, ta có thể kết luận rằng có sự khác biệt ý nghĩa giữa hai mẫu Ngược lại, nếu không bác bỏ, ta không có đủ ứng cứ để kết luận rằng có sự khác biệt ý ch nghĩa
- Sự quan trọng của kích thước mẫu: Kích thước mẫu lớn thường giúp kiểm định có sức mạnh thống kê cao hơn
- ểm tra các điều kiện kiểm định: Cần kiểm tra các điều kiện cho phép sử dụng kiểKi m định z hoặc t, đặc biệt là về tính phân phối chuẩn và tính đồng nhấ ủa phương sai.t c
Trong bài toán kiểm định 2 mẫu, việc hiểu và áp dụng đúng các khái niệm trên sẽ giúp xác định xem có sự khác biệt giữa hai mẫu hay không và đưa ra kết luận hợp lý dựa trên thông tin thống kê.
Bài toán ki ểm đị nh ANOVA
Phân tích phương sai (Analysis of Variance) hay còn gọi là kiểm định ANOVA là một kỹ thuật thống kê tham số đượ ử dụng để so sánh các bộ dữ c s liệu Nói một cách dễ hiểu, phân tích ANOVA có chức năng đánh giá sự khác biệt ti m năng trong mề ột biến phụ thuộc mức quy mô bằng một biến mức danh nghĩa có từ 2 loại trở lên Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng của các biến độ ập đốc l i với biến phụ thuộc trong nghiên cứu hồi quy Kỹ thuật kiểm định ANOVA này được phát triển bởi Ronald Fisher năm 1918
Ví dụ về phân tích phương sai:
Một nhóm bệnh nhân tâm thần đang thử ba liệu pháp khác nhau: tư vấn, dùng thuốc và phản hồi sinh học Bạn muốn xem liệu mộ ệu pháp tốt hơn những liệu pháp khác.t li
3.2) Phân loại: a) Anova mộ ếu tố:t y
Anova một yếu tố là một lo i thạ ử nghiệm thống kê so sánh phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét mộ ếu tố hoặt y c một biến độ ập Phương c l sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay không Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh
Các giả định của anova 1 yếu tố:
-Tổng thể có phân phối chuẩn hoặc gần chuẩn
-Mẫu phải được chọn ngẫu nhiên và độc lập
-Tổng thể ải có phương sai bằng nhauph b) Anova hai yếu tố:
Anova hai yếu tố mở rộng khám phá sự ảnh hưởng của hai yếu tố độ ập đến biến phụ c l thuộc Nó không chỉ giúp xác định sự ảnh hưởng củ ừng yếu tố một cách riêng lẻ a t mà còn xem xét xem có tương tác giữa chúng hay không, tức là liệu sự ảnh hưởng của một yếu tố có thể phụ thuộc vào giá trị của yếu tố khác hay không.
Các phương pháp hồi quy tuyến tính
- Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độ ập Mô hình vớc l i một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn g i là hồi quy đa biến) ọ
Ví dụ: Ch tiêu cỉ ủa hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục, ; Lương của một người phụ thuộc vào ch c vứ ụ, kinh nghiệm, độ tu i, ổ
- Nếu mô hình hồi quy phân tích sự ụ ph thuộc của 1 biến phụ thuộc vào 1 biến độ ập c l gọi là hồi quy đơn, nếu có nhiều biến độ ập gọc l i là hồi quy bội Hồi quy tuyến tính là mô hình hồi quy trong đó mối quan hệ giữa các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp nhấ ới dữ ệu) t v li
- Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến tính Logistic, một kỹ thuật phân tích dữ ệu sử dụng toán học để tìm ra mốli i quan hệ giữa hai yếu tố dữ ệu Sau đó, li kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra mộ ố kết s t quả hữu hạn, như có hoặc không.
Thống kê mô tả
Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho các biế n, xuất dưới dạng bảng: mean