CAO HỌC BÀI GIẢNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC . HỆ THỐNG KIẾN THỨC CAO HỌC BÀI GIẢNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC , LÝ THUYẾT VỀ CAO HỌC BÀI GIẢNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC . TỔNG QUÁT VỀ CAO HỌC BÀI GIẢNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC
•24/10/2014 Chương V: Xử lý liệu •Nguyen Hung Phong NHP Chương 5: Xử lý liệu I Các đại lượng đo lường độ phân tán II Ước lượng thông số đám đông từ mẩu III Một số phép kiểm định IV Phân tích nhân tố V Phân tích tương quan hàm tương quan VI Kiểm tra giả định hàm tương quan VII.Các phép kiểm định phi tham số (nonparametric tests) NHP Sử dụng cơng cụ thống kê phân tích Mục tiêu kiểu câu hỏi nghiên cứu Mục tiêu chung Mục tiêu cụ thể Kiểu câu hỏi/ giả thiết Kiểu thống kê Quan hệ biến Mức độ liên quan, biến liên quan So sánh nhóm Khác biệt Thống kê khác biệt (v.d t-test, ANOVA) NHP Liên quan Thống kê liên quan (v.d tương quan, hồi quy) Mơ tả Tóm lược liệu Mơ tả Thống kê mơ tả (v.d trung bình, tỷ lệ) •1 •24/10/2014 I Các đại lượng đo lường độ phân tán • Thông số • 1.Trung bình • Đám đông • Mẩu n X= (X /n ∑i ) N µ = ∑Xi/ N i=1 i= N • Phương sai σ = ∑ ( Xi − µ ) / N • Độ lệch tiêu chuẩn • Hàm phân phoái σ =2 σ2 2 n s = ∑ ( Xi − X ) /( n − 1) i =1 i =1 s = s2 X i ∈ N (µ , σ ) X i ∈ N (µ ,σ X ) NHP I Các đại lượng đo lường độ phân tán • Thông số • Tỷ lệ • Phương sai • Độ lệch • tiêu chuẩn • Đám đông Mẩu Pp σP = p Ps σP = Pp (1− Pp ) s N σp =2σp p p P(1−P) s s n σp = σp s s NHP Phân phối chuẩn đơn vị NHP •2 •24/10/2014 Đo lường dạng hình phân phối (Measures of Shape) • • • • • Độ lệch (skewness) đo lường độ lệch phân phối hai phía Phân phối lệch trái (negative skew, left-skewed) phía trái dài hơn, phần lớn số liệu tập trung phía phải phân phối Phân phối lệch phải (positive sknew, right-skewed) phía phải dài hơn, phần lớn số liệu tập trung phía trái phân phối Khi lệch phải, giá trị sknewness dương; lệch trái, giá trị skewness âm Độ lớn giá trị sknewness lớn Với phân phối chuẩn, độ lệch gần nhận giá trị Tuy nhiên giá trị nằm khỏang -1 =1, chấp nhận phân phối xấp xĩ phân phối chuẩn NHP Đo lường dạng hình phân phối (Measures of Shape) NHP Đo lường dạng hình phân phối (Measures of Shape) • Độ nhọn (kurtosis) – – Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt phân phối so với phân phối bình thường (có độ nhọn 0) Phân phối có dạng nhọn giá trị kurtosis dương có dạng bẹt giá trị kurtosis âm Với phân phối bình thường, giá trị độ lệch độ nhọn Căn tỷ số giá trị skewness kurtosis sai số chuẩn nó, ta đánh giá phân phối có bình thường hay khơng (khi tỷ số nhỏ -2 lớn +2, phân phối khơng bình thường) NHP •3 •24/10/2014 Kỷ thuật chuyển đổi phân phối chuẩn Biến ban đầu: X Giảm độ lệch âm Giảm độ lệch dương Kỷ thuật chuyển đổi Dùng biến X2 X3 LogX (X)1/2 1/X 1/X2 ArcsineX Kéo dài phân phối NHP 10 II Ước lượng thông số đám đông − S S X Ps μ Pp Đám đông NHP 11 II Ước lượng thông số đám đông II.1.1 Ước lượng trung bình đám đông n ≥ 30 – Chuyển phân phối chuẩn tổng quát trở X − µ Z = phân phối chuẩn σ X đơn vị với biến ngẩu nhiên – Tìm xác xuất P P (a ≤ Z ≤ b) = (1 − cho: – Đối với phân phối chuẩn đơn vị, ta P(− Zα / ≤ Z ≤ + Zα / ) = (1 − có NHP α) α) 12 •4 •24/10/2014 II Ước lượng thông số đám đông Như vậy, có : − Zα / ≤ Z ≤ + Zα / Hay: − Zα / ≤ Suy ra: X −µ σX ≤ + Zα / X − Zα σ X ≤ µ ≤ X + Zσ σ X Ở đây, ta có: σ X = σ X = σ2 n =σ n NHP 13 II Ước lượng thông số đám đông n α, không bác bỏ giả thiết H0) NHP 21 •7 •24/10/2014 Kiểm định ý nghĩa: kiểu kiểm định • Có hai loại: parametric (tham số) nonparametric (phi tham số) – Parametric tests cơng cụ mạnh xử lý liệu dạng scale (interval, ratio) – Nonparametric tests công cụ xử lý liệu dạng nominal ordinal NHP 22 Kiểm định ý nghĩa: kiểu kiểm định • Parametric tests địi hỏi số giả định: – Các quan sát phải độc lập với – Các quan sát phải rút từ đám đơng có phân phối chuẩn – Các nhóm đám đơng phải có phương sai tương đương – Các biến phải có quan hệ tuyến tính – Thang đo phải dạng scale để tính tốn thực NHP 23 Kiểm định ý nghĩa: kiểu kiểm định • Nonparametric tests địi hỏi giả định: – Khơng địi hỏi quan sát phải rút từ đám đơng có phân phối chuẩn – Khơng địi hỏi nhóm phải có phương sai tương đương – Là cách để xử lý liệu danh xưng (nominal) – Là cách đắn để xử lý liệu với thang đo thứ tự (ordinal), parametric áp dụng – Dễ hiểu dễ sử dụng NHP 24 •8 •24/10/2014 III.1 Kiểm định trung bình tỷ lệ đám đông Trình tự – Bước 1: Thiết lập giả thuyết H : µ = µo H1 : µ ≠ µ o – Bước 2: Chọn alpha – Bước 3: Xác định phép kiểm định (Z t) trường hợp kiểm định trung bình Z tt = ttt = X −µ σX X −µ σX NHP 25 III.1 Kiểm định trung bình tỷ lệ đám đông Trong trường hợp kiểm định tỷ lệ đám đông, xác định Ztt ttt sau Z tt = ttt = Ps − Pp σp S Ps − Pp σP S NHP 26 III.1 Kiểm định trung bình tỷ lệ đám đông Bước 4: xác định giá trị Z tthoặc ttt có nằm vùng chấp nhận hay không Z tt ∈ [ − Zα / , Zα ] Chấp nhận H0 Z tt ∉ [ − Zα / , Zα ] Từ chối H0, chấp nhận H1, Tương tự trường hợp kiểm định t, ta chấp nhận Ho neáu ttt ∈ [−tα / 2,( n −1) , tα 2,( n −1) ] ttt ∉ [−tα / 2,( n −1) , tα 2,( n −1) ] Từ chối Ho chấp nhận H1 NHP 27 •9 •24/10/2014 Ví dụ: µ=6.5, lấy mẩu với n=9, tính giá trị trung bình One-Sample T Test Analyze Compare Means One-Sample T Test NHP 28 Ví dụ: µ=6.5, lấy mẩu với n=9, tính giá trị trung bình One-Sample T Test Analyze Compare Means One-Sample T Test NHP 29 III.2 Kiểm định khác biệt giửa hai trung bình, tỷ lệ III.2.1 Kiểm định khác biệt giửa hai trung bình/tỷ lệ Trường hợp áp dụng: – Khi đám đông phân thành hay nhiều nhóm – Chúng ta muốn xác định trung bình/tỷ lệ đám đông có khác biệt hay không – Dựa vào mẩu tìm hai trung bình/tỷ lệ sử dụng chúng để kiểm định cho trung bình/tỷ lệ đám đông NHP 30 •10 •24/10/2014 Income and Experience: Log Independent Variable • Log independent variable NHP 175 Income and Experience: Income Logged • Log(Y) NHP 176 Income and Experience: Double Log • Double Log - Elasticity Model (Note: LFEXP is already logged in this example) NHP 177 •59 •24/10/2014 Income and Experience: Quadratic • Quadratic NHP 178 Income and Experience: Log plus Quadratic • Log(Y) + Quadratic NHP 179 Income and Experience: All Specifications • Many specifications NHP 180 •60 •24/10/2014 VI Mơ hình tương quan với biến giả (Dummy-Variable Regression Model) NHP 181 Multiple Regression Models Multiple Regression Models Linear Linear PolyNomial Dummy Variable Square Root NonLinear Interaction Log Reciprocal Exponential NHP 182 Mô hình tương quan với biến giả (Dummy-Variable Regression Model) • Biến độc lập dạng biến phân loại (từ trở lên) – Ví dụ: male-female, college-no college etc – Phân loại cơng ty, nghề nghiệp • Trong trường hợp phân thành nhóm, nhóm nhận giá trị 0, nhóm nhận giá trị • Trường hợp đơn giản hệ số góc hai hàm giống nhau, khác số hàm tương quan • Số biến giả = số nhóm - NHP 183 •61 •24/10/2014 Ví dụ cách mã hóa • Giới tính (2 nhóm): Nam=1; Nữ=0, cần biến giả • Tình trạng nhân (3 trạng thái )đòi hỏi biến giả – MARRIED: Single=0; Divorced=0; Married=1 – DIVORCED: Single=0; Divorced=1; Married=0 NHP 184 Giải thích kết hàm tương quan với biến giả $ Giả sử:Yi = b + b X 2i Y = Lương khởi điểm người tốt nghiệp đại học X2 = Nếu nam Nếu nữ b0 = trung bình lương cho nam Y=b0+b2*(0) b2= Khác biệt trung bình lương nam nữ Y=b0+b2*(1) b0+b2 = Trung bình lương nữ NHP 185 So sánh với phép kiểm định khác • Giống kiểm định khác biệt hai trung bình (t-test) • Trong trường hợp có n nhóm, cách kiểm định tương đương ANOVA NHP 186 •62 •24/10/2014 Minh họa sơ đồ Y Trung bình Nam Nữ Nữ b + b2 b0 Nam X1 NHP 187 Giải thích kết hàm tương quan với biến giả $ Giả sử:Yi = b0 + b1X 1i + b2 X 2i Y = Lương khởi điểm người tốt nghiệp ĐH X = GPA Nếu Nam X2 = Nếu Nữ Nam ( X = 0): $ Yi = b0 + b1X 1i + b2 = b0 + b1X 1i NHP 188 Giải thích kết hàm tương quan với biến giả FEMALES ( X = 1) : ˆ Yi = b0 + b1 X1i + b2 (1) = (b0 + b2 ) + b1 X1i NHP 189 •63 •24/10/2014 Minh họa đồ thị Cùng hệ số góc b1 Y Nữ b + b2 b0 Nam X1 NHP 190 Ví dụ cụ thể hàm tương quan với biến giả ˆ Computer Output : Yi { X2 = = + X 1i + X 2i if Male if Female Same slopes Males ( X = 0) : ˆ Yi = + X 1i + 7(0 ) = + X 1i Females ( X = 1) : ˆ Yi = + X1i + 7(1) = (3 + ) + X 1i = 10 + X NHP 1i 191 Giải thích kết • Sự khác biệt tiền lương Nữ Nam đơn vị hai có kết học tập • Khi có nhiều hai nhóm việc giải thích sau: khác biệt trung bình nhóm (nhóm sở) so với nhóm cịn lại NHP 192 •64 •24/10/2014 Hàm tương quan có tương tác giửa biến độc lập NHP 193 Các mô hình tương quan Multiple Regression Models Linear Linear PolyNomial Dummy Variable Square Root NonLinear Interaction Log Reciprocal Exponential NHP 194 Hàm tương quan có tương tác giửa biến độc lập • Giả thuyết tương tác giửa cặp biến độc lập – Sự thay đổi biến độc lập thay đổi giá trị biến độc lập khác Yi = β + β1X 1i + β X 2i + β X 1i X 2i + ε i NHP 195 •65 •24/10/2014 Tác động tương tác giửa cặp biến độc lập • Giả sử: Yi = β + β 1X 1i + β X 2i + β X 1i X 2i + ε i • Nếu khơng có tương tác, tác động X1 lên Y đo lường β1 • Khi có tương tác, tác động X1 lên Y đo lường β1 + β3X2 – Tác động thay đổi X2 tăng NHP 196 Minh họa tương tác Y Y = + 2X1 + 3X2 + 4X1X2 Y = + 2X1 + 3(1) + 4X1(1) = + 6X1 12 Y = + 2X1 + 3(0) + 4X1(0) = + 2X1 0 0.5 1.5 X1 Effect (slope) of X1 on Y does depend on X2 value NHP 197 Minh họa mơ hình tương tác lên bảng tính Case, i Yi X1i X2i X1i X2i : : : : 40 30 : Nhân X1 với X2 ta có X1X2 Lập hàm tương quan y theo X1, NHP X2 , X1X2 198 •66 •24/10/2014 Interpretation when there are 3+levels It is possible to interact the dummy variables This can give an identical result as a 2-way ANOVA •In this example, this would allow the effect of marital status to vary with gender NHP 199 Interpretation when there are 3+levels Y = α + β1MALE + β MARRIED + β DIVORCED a = Mean Y for a single female (MALE,MARRIED,DIVORCED=0) b1 = Difference in means between males and females (a+b1=mean Y for single males) b2 = Difference in means between single and married (holding gender constant) b3= Difference in means between divorced and single b2-b3=Difference in means between married and divorced NHP 200 Interpretation when there are 3+levels Y = α + β1MALE + β MARRIED + β DIVORCED + β MALE * MARRIED + β 5MALE * DIVORCED MALE=0 if female and if male NHP 201 •67 •24/10/2014 Interpretation when there are 3+levels Y = α + β1MALE + β MARRIED + β DIVORCED + β MALE * MARRIED + β 5MALE * DIVORCED MALE=0 if female and if male MARRIED=1 if married; if divorced or single DIVORCED=1 if divorced; if single or married MALE*MARRIED=1 if male married; otherwise =(MALE times MARRIED) MALE*DIVORCED=1 if male divorced; otherwise(=MALE times DIVORCED) NHP 202 Y = α + β1MALE + β MARRIED + β DIVORCED + β MALE * MARRIED + β MALE * DIVORCED SINGLE MARRIED FEMALE MALE B1 B2 DIVORCED B3 B1+B2+B4 B1+B3+B5 NHP 203 Interpreting Results • • • • FEMALE • Single: α • Married: α + β 2• Divorced: α + β• MALE Difference Single: α + β β1 β1 + β Married: α + β1 + β + β4 Divorced: α + β1 + β + β β1 + β Main Effects: MALE; (MARRIED and DIVORCED) Interaction Effects: MALE*MARRIED and MALE*DIVORCED NHP 204 •68 •24/10/2014 Interpreting results • Testing for interaction: Must F-test of joint β = β5 = hypothesis that • EXAMPLE NHP 205 Một số phép kiểm định khác • Kiểm định Chi-square NHP 206 Kiểm định chi square phù hợp (goodness of fit) Mục đích: Kiểm định khác biệt giửa giá trị mong đợi (Ei) giá trị quan sát (Oi) H o : E1 = O1 ; E2 = O2 ; ; Ek = Ok Giả thuyết H : E1 ≠ O1 ; E2 ≠ O2 ; ; Ek ≠ Ok k χ tt = ∑ Xác định chi-bình phương i =1 NHP (Oi − Ei ) Ei 207 •69 •24/10/2014 Kiểm đđịnh chi square phù hợp (goodness of fit) • So sánh với Chi-bình phương tiêu chuẩn • Chúng ta chấp nhận giả thuyết Ho 2 χ tt ≤ χ alpha,(k −1),( n − k ) NHP 208 Kiểm đđịnh chi square phù hợp (goodness of fit) • For example, let's suppose that we believe that the general population consists of 10% Hispanic, 10% Asian, 10% African American and 70% White folks We want to test whether the observed proportions from our sample differ significantly from these hypothesized proportions NHP 209 NHP 210 •70 •24/10/2014 Kiểm đđịnh chi square phù hợp: trường hợp biến • Chi-square test • Kiểm tra mối quan hệ giửa hai biến đo lường theo thang đo danh xưng/phân loại • Ví dụ: muốn khảo sát mối quan hệ loại hình trường học giới tính học sinh • Trong phép kiểm định giá trị mong đợi mổi ô phải từ trở lên (nếu nhỏ phải dùng Fisher’s exact test) NHP 211 NHP 212 Kruskal Wallis test • The Kruskal Wallis test: sử dụng có biến độc lập phân loại biến phụ thuộc sử dụng thang đo thứ tự • Nó dạng kiểm định tương tự ANOVA • Là mở rộng Mann-Whitney test cho phép biến phân loại có từ ba nhóm trở lên, Mann-Whitney cho phép kiểm định trường hợp hai nhóm NHP 213 •71 •24/10/2014 Kruskal Wallis test NHP 214 Paired t-test • A paired (samples) t-test: sử dụng có hai quan nhóm quan sát có liên hệ với (hai nhóm quan sát cho đối muốn biết trung bình biến sử dụng thang đo khoảng cách có khác hay khơng • Ví dụ muốn khảo sát xem kỹ đọc viết học sinh có khác khơng NHP 215 Paired t-test NHP 216 •72 •24/10/2014 Wilcoxon signed rank sum test • The Wilcoxon signed rank sum test dạng kiểm định phi tham số • Sử dụng để khảo sát xem có khác biệt hai biến có thang đo khoảng cách • Chúng ta sử dụng ví dụ giả định hai kỹ đọc viết đo lường thang đo khoảng cách NHP 217 Wilcoxon signed rank sum test NHP 218 •73 ... 126 .50 126.00 120.00 122.00 120 .50 129 .50 129.00 127.00 1 25. 39 PK2 124.00 124 .50 122 .50 117 .50 119.00 120.00 126 .50 1 25. 00 127.00 122.89 PK3 130.00 131 .50 132 .50 123.00 1 25. 00 124 .50 128 .50 130.00... 124.10 TB nhóm 124.97 POP2 123.80 123 .50 124.30 123.60 123.80 124 .50 123.92 POP3 126.00 1 25. 50 1 25. 90 124.10 123.80 1 25. 50 1 25. 13 Trung bình khối 124.33 124.67 1 25. 40 124.07 123.87 124.70 124.67 •16... 130.00 127 .50 128.06 PK4 120 .50 122.00 122.00 119.00 120 .50 119.00 120 .50 118.00 117 .50 119.89 PK5 120.00 118.00 121.00 122.00 122.00 121.00 126.00 126.00 127 .50 122.61 124.60 121.00 1 25. 70 TB tổng