Mục một và hai được dành riêng cho việc mô tảđối tượng nghiên cứu, phương pháp lấy mẫu, thu thập và tổ chức giữ liệu.Mục ba sử dụng phần mềm SPSS tiến hành tất cả các tính toán và phân t
CÁCMÔ HÌNH TUYẾN TÍNH TRONG PHAN TÍCH THONG KẼ
Mô hình Hồi quy tuyến tính cố điển .-. e2 sssssssesseseesesse 7 1 Hồi quy tuyến tinh ỉI - 2-55 SE‡SE‡EEỀEEEEEEEEEEEEEEEEEEEEE2121 1111111111 tre 7
1.1.1 Hài quy tuyến tính đơn
Mô hình hồi quy tuyến tính giữa 2 biến Y và X có dạng sau:
Y= bạ + b,X +e (1.1) trong đó e là sai số ngẫu nhiên của mô hình Y được gọi biến phụ thuộc hay biến được giải thích hay đáp ứng X được gọi biến độc lập hay biến giải thích. Với (X,Y), giả sử ta đã biết n cặp giá trị quan sát {(X¡, Y)), (Xa,Yn)} tạo thành một “đám mây điểm” trên mặt phăng (X,Y) Hãy tìm một đường thang
Y =b, +b,X (1.2) dé xấp xi dam mây điểm trên Tai quan sat thứ i, (1.1) và (1.2) có dang:
Sai lệch hay phan du (residual) do dùng hồi quy Y thay cho Y là: ei =ŸY—Yi =(b+bX,)
Ta muốn tìm &,,4, là các giá trị ước lượng của b,,b, sao cho tổng bình phương các sai lệch:
Lay đạo hàm riêng của S theo b,và b, rồi gan băng 0, ta được hai phương trình:
> Œ,—bạ—b,X,)X,=0 i=l hay hai phuong trinh chuan sau: bạn +hX, = vy i=l i=l b, ` X, + vx? = xy i=l i=l i=l
>XY- nXY Dee xan Š'{x,~)Œ,~Ÿ) b= — i=l —_XY
DX? nk Dx? (LX? yin Ÿ(x_#) 3 i=l
Phương trình (1.4) được gọi là hồi quy tuyến tính đơn trong đó các hệ số được xác định theo phương pháp bình phương bé nhất.
Chú ý 1: hy b, là các điểm dừng Dé khang định ô ;› b, làm cực tiêu S, cần A lay đạo hàm riêng bậc 2 của S theo b,,b,, ta có ma tran Hessian: as as 6?b, — Ob Ob, 2n 2X,
H= os os “(2°x, 25x? ôb,Ôb, Ob,
|H|=4(+3_x?—(>_.X,)=4n(3`X?~— z2 OX 4n>)\(X,-X) >0 nên H là ma trận xác đinh dương va điểm dừng chính là điểm cực tiểu của S.
Các giả thiết của mô hình hồi quy tuyến tính đơn
1) — Các giá trị của biến độc lập X là không ngẫu nhiên (tất định) và được xác định từ trước.
2) Sai số ngẫu nhiên có kỳ vọng bằng 0:
3) _ Sai số ngẫu nhiên có phương sai cô định:
4) _ Các sai số không tương quan với nhau: cov(e,„e,) =0, Vỉ # j
5) Sai số là đại lượng ngẫu nhiên có phân bố chuẩn: e, € N(0,07)
Các tinh chat của ước lượng a) Trung bình của các sai lệch bằng 0 : b) _ Đường thăng hồi quy luôn đi qua điểm trung bình mẫu
Y =b,+b,X c) Trung bình các giá trị dự báo bằng trung bình mẫu của Y:
P= == n d) Cac giá trị dự báo không tương quan với các sai lệch: cov(ê, Ÿ) =0 e) Sai lệch không tương quan với biến độc lập: cov(é, X)=0 Định lý Gaus-Markov
Với các giả thiết từ 1 đến 5 của mô hình HOTT đơn, ước lượng BPBN của các hệ số hoi quy là các ước lượng
- Có phương sai bé nhất (wéc lượng hiệu quả) trong lớp các ước lượng tuyến tinh không chệch của các hệ số hoi quy.
Tại mỗi quan sát của mẫu, ta xét sai lệch giữa giá trị quan sát và giá trị ước lượng:
Binh phương hai về đăng thức trên rồi lấy tổng theo các quan sát và lưu ý
>5 Œ.—-Y}= SST, tổng bình phương này thể hiện sự biến động của Y.
> -¥) = SSR thé hiện sự biến động được giải thích bằng hồi quy. S0 -Ÿ#)? =SSE thé hiện sự biến động không được giải thích bằng hồi quy Đây chính là độ biến động ngẫu nhiên của sai số.
Từ những khái niệm trên, ta có thé định nghĩa hệ số xác định R° như sau:
R?= Biến động được giải thích bằng hồi quy/ Biến động tổng cộng
R’ càng gần 1 càng tốt vì khi đó mô hình hồi quy tuyến tinh sẽ phù hợp (có ý nghĩa) vì nó giải thích hầu hết các biến động của Y; phần biến động không được giải thích bởi hồi quy (SSE) sẽ nhỏ.
Các tổng bình phương trên đều gắn với một số gọi là bậc tự do (viết tắt là df).
Vi dụ để tính SST, chi cần biết n-1 quan sát độc lập, lúc đó bậc tự do của SST là n-I Để tính SS&=?Š"(x,—X}” chỉ cần 1 số hạng, bậc tự do của SSR là 1.
Bằng phép trừ, ta suy ra dé tính biến động không được giải thích băng hồi quy, cần (n-1) —1 = n-2 số hạng độc lập, bậc tự do của sai số ngẫu nhiên là n-
2 Với các khái niệm như trên, ta có thé thiết lập bang phân tích phương sai đối với hồi quy tuyến tính đơn như sau:
Nguôn biến | Bậc tự | Tổng bình phương | Trung bình bình phương | F
Hồi quy 1 SSR=S_ Œ, -yy MSR=S' Œ, ơ MSR
Ta có thé sử dung bảng phân tích phương sai dé kiểm tra tính phù hợp của dit liệu với mô hình Cu thé dữ liệu được coi là phù hợp với mô hình (hay nói cách khác, mô hình Hỏi quy tuyến tính đơn có ý nghĩa đối với số liệu), nếu
Khoảng tin cậy va kiểm định giả thuyết và trong phân tích hồi quy a) Ta muốn kiêm định giả thuyết H,: b, =0 (đường hồi quy song song với trục X) so với đối thuyết H,: b +0 dựa trên giá trị 5, va phân phối của nó Độ lệch chuẩn của ô, được ký hiệu là S(6,) và được cho bởi
Khoảng tin cậy (1~ứz)% của b, là:(bị, bị}
JŠ(X,—X) bi =b,+t 1-/2;n—2) a,x S với í¿_„„;„ „là giá tri phân vi có được bằng cách tra bảng phân phối Student với (n-2) bậc tự do và với mức ý nghĩa a.
Liên quan đến việc kiểm định H,, Ta có thé dùng khoảng tin cậy trên đây:
Nếu 0e(Jj, b;') thì chấp nhận giả thiết b,=0 Nêu ngược lại, ta bác bỏ giả thiết.
Ta cũng có thể kiểm định H, bang cách tính thống kê
TÔI solr | với í„., „ là gia trị thu được băng cách tra bang.Néult,| (X¡-X)(-Y) os
Phân tách các nguồn biến động:
Tinh hệ số xác định:
“? pene _ssr_ssr-sse_, sse_, X(%-%) = |- Se = 1-
SST SST SST - S(y-rŸ và hệ sô xác định hiệu chỉnh
Xac dinh bac tu do cua cac nguồn biến động: Các tổng bình phương sai số SST, SSR va SSE sẽ có các bậc tự do tương ứng là (n-1), 1 và (n-2).
Tính độ lệch chuân của sai sô:
Tính độ lệch chuân của các tham sô:
Tính độ lệch chuẩn của dự báo:
Ví dụ 1: Số lần vào/ ra đĩa và thời gian sử dụng CPU của 7 chương trình máy tính được thống kê như sau: (14,2) (16,5), (27,7), (42,9) (39,10), (50,13),
(83,20) Hãy lập một mô hình tuyến tính dé dự đoán thời gian sử dụng CPU theo số lần vào/ra đĩa.
Ta có n=7, >) XY375,3 X?=l13.855, ÐS X'1, Ð Yf, Ð Y?8 Do đó X 8,71 và Y =9,43.và
Mô hình hồi quy tuyến tinh dự báo thời gian sử dụng CPU có dang:
Thời gian sử dụng CPU = -0,0083 + 0,2438( số lan vào/ra dia)
Hình 1 cho ta đồ thị của dữ liệu và đường thăng hồi quy với độ dốc 0,2438 va hệ số chặn -0.0083 Hệ số xác định rR” =0,9715 chứng tỏ mô hình hồi quy tuyến tính đơn là tốt và có ý nghĩa.
Giới han / tin cay tren
Gidi han tin cây đướ.
Hình 1.1: Hoi quy tuyên tinh don Hình 1.2: Khoảng tin cậy của dự báo
1.1.2 Hồi quy tuyén tinh bội
Mô hình va ước luợng BPBN
Mô hình héi quy tuyến tính bội cho phép ta dự báo một biến đáp ứng Y nhờ một ham tuyến tính của k biến dự báo X, X; , X,:
Y.=b,+bXij,+ +b,Xu+e, 1=L n trong đó {b,b,, b, } là k+1 tham số và e là sai số ngẫu nhiên Giả sử ta có một mẫu gồm n quan sát {(X 1s Xạ X;¡.Ÿ,) (X„Xz„ X„Ý„)} Mô hình bao gồm zứ phương trỡnh sau: ù.=b,+b,Xii+b,X,Ă+ +b,X, +2,
Dùng ký hiệu véc tơ và ma trận, các phương trình trên được viết gộp lại thành
LY, l1 Xi, X>, Xụ | | by 4 en Ä hay
Y là véc tơ cột gồm n giá trị quan sát được của Y ={f.V,, Y};
X là ma trận n hàng k+1 cột, với các giá tri của cột 1 luôn bằng 1;
Z2_ là véc tơ cột gồm k+l phần tử {z„,b, ”,} e là véc to cột gôm n sô hang sai sô {e,,¢,, ,e,}
Ta có thể giả thiết
E(e)=0 và D(e)= Iứ? (1.7) trong đó I là ma trận đơn vị cấp n với n phan tử trên đường chéo bang 1, các phần tử còn lại bằng 0.
Với giả thiết (1.7), mô hình (1.6) có thể viết lại như sau:
EŒ)=Xb (1.8) Đặt véc tơ Ÿ = Xb Phan tử thứ i của phương trình véc tơ ê=Y—Ÿ=Y-— Xb có dạng é, =Y, —(b, +b,X,, +b, X,, + +B, Xy)
Véc to é=(6,,é,, ,6,) là véc tơ các sai số Véc tơ b được chọn sao cho tổng bình phương các sai lệch sau đạt cực tiểu, eđe=(Œ-_—XP)(Y-Xb)=YY-bXY_—Y Xb+bX Xb=YY-2bXY+bX Xp(1.9)
(điều này suy ra từ việcb'X Y là ma trận 1x1 tức là hăng số nên ma trận chuyền vị của nó chính bằng nó, (XY) =Y X9). Ước lượng bình phương bé nhất 6 của được tính bằng cách đạo hàm (1.9) theo ứ rồi gỏn bằng 0 và được phương trỡnh sau:
Nếu x x không suy biến, nghiệm của phương trình (1.10) là b=(X X)'XY
Các gia thiết của mô hình
1) Các giá trị của các biến độc lập X,,X,, X, là không ngẫu nhiên (tất định) và được xác định từ trước
2) Sai số ngẫu nhiên có kỳ vọng bằng 0 :
3) Sai số ngẫu nhiên có phương sai cô định:
4) Các sai số không tương quan với nhau: cov(e,„e,) =0, Vỉ # j
5) Sai số là đại lượng ngẫu nhiên có phân bố chuẩn: e, eN(0,ứ”)
Các tính chất của ước lượng a) Ước lượng của các hệ số hồi quy là ước lượng không chéch:
E(ấ)=b:cov(6)=ứ°(x X)` b) Các sai lệch có kỳ vọng bằng 0:
E(ê) =0;cov(2) =" ('-x (xx) x’) c) Ước lượng của phương sai:
C= éé= £? n-k-1 mm ‘ là ước lượng khụng chệch của o° tức là: z(@?)=ứ? d) Các giá trị dự báo của các tham số và sai lệch không tương quan với nhau: cov(6,ê) =0;cov (6 2) =0
Các bước thực hiện khi dùng mô hình hồi quy tuyến tính bội
Y=b+b,X,+ +bh,Xy +28, haydưới dạng ma trận
Y là véc tơ cột gồm n phân tử Y =(Y,,Y,, ,Y,) b=(bu.,b, b, ) ;
X là ma trận n hàng, k+1 cột, cột 1 gồm các số 1.
A ' -l i] b= (x x) (XY) trong đó X _ là ma trận chuyền vị của ma trận X.
3 Phân tách các nguồn biến động:
4 Tính hệ số xác định:
6 Xác định bậc tự do cho các nguồn biến động: Các tổng bình phương sai số
SST, SSR và SSE có các bậc tự do tương ứng là (n-1), k va (n-k+1);
5 Tính hệ số tương quan bội:
7 Tính các độ biến động trung bình
MSR= 2" sg=_ 5S k n—-k-1 và tién hành kiêm định tinh phù hợp của số liệu với mô hình, tức là đánh giá ý nghĩa của mô hình đối với số liệu Mô hình hồi quy tuyến tính có nghĩa với số liệu khi
8 Tínhđộ lệch chuẩn của sai số: S, = MSE
9 Tínhđộ lệch chuẩn của ước lượng: Sp, = Se IC „ trong đó €, là phần tử
19 thứ J trên đường chéo của ma trận C=(X X)".
10 Tiến hành dự báo: Với một quan sát mới, ta có
Yp =ho +hX,, +haX,, + +fÐ,X kp
11 Xác định độ lệch tiêu chuẩn của dự báo:
Mô hình Phân tích phương SãÌ << << se s5 99 99195 9558598958 22
Phân tích phương sai (ANOVA) là phương pháp phân tích thống kê rat tổng quát, được sử dụng hữu ích một cách rất rộng rãi cho các bải toán ké từ các thiết kế thí nghiệm đơn giản đến các mô hình thực sự phức tạp Về cơ bản, ANOVA được sử dụng để đánh giá cách thức và mức độ thay đổi của giá trị trung bình của một số biến định lượng, được gọi là biến phụ thuộc hoặc biến mo ta, trên một tập hợp các điều kiện khác nhau trong cùng một thí nghiệm. Các điều kiện khác nhau được so sánh trong thí nghiệm được xác định qua một hay nhiều biến định tính gọi là biến độc lập Nói một cách ngắn gọn, ANOVA được sử dụng để đánh giá mối quan hệ giữa giá trị trung bình của một biến phụ thuộc định lượng và giả trị của một hay nhiễu biến độc lập định tính.
Ta có thể biéu diễn tóm tắt cau trúc của mô hình ANOVA qua phương trình sau:
Giá trị biến PT = TB chung + Ảnh hưởng của nhân to + Ti wong tac + Sai số
Sử dụng ký hiệu tương ứng trong Bảng 1.2, phương trình trên được viết lại thành
Y=yut+A+B+C+ +AB + AC+ BC + +S(nhóm)
22 trong đó, e Y là giá trị thực nghiệm đo được của đại lượng cần nghiên cứu; e là phần trung bình chung cho tất cả các quan sát, đại diện cho hiệu quả chung của thí nghiệm; e A,B, C , là các phần tác động chính của các nhân tố trong mô hình, ảnh hưởng lên giá trị của đại lượng cần nghiên cứu. e AB, BC, CA, là tương tác giữa các nhân tố, AB, BC, CA là tương tác hai chiều, trong mô hình còn có thé có các tương tác ba chiều ABC; ABD; ACD; BCD và tương tác bốn chiều ABCD. e S(nhdm) là sai số ngẫu nhiên trong mô hình, được tinh bằng độ sai lệch giữa giá trị của đại lượng cần nghiên cứu tại mỗi quan sát so với giá trị trung bình tính riêng cho nhóm chứa quan sát đó.
Bang 1.3 Các thành phan của dữ liệu thực nghiệm trong phân tích phương sai
Khia cạnh của thí nghiệm | Thanh phan của mô hình Ký hiệu Biến phụ thuộc định lượng Gia trị do được của biến Y Ảnh hưởng chung của thí Giá tri cơ bản (gia tri trung nghiệm bình chung) ụ
Nhân tô ảnh hưởng của thực | ¡nh hưởng chính A.B.C nghiệm
Hiệu Weg tương tác giữa các Tương tác AB, AC, BC nhân tô
Sai số ngẫu nhiên Sai số ngẫu nhiên S(nhóm)
1.2.1 Mô hình Phân tích phương sai một nhân tổ
Giả sử để nghiên cứu chất lượng học tập của sinh viên, ta chọn ngẫu nhiên ra ba nhóm sinh viên được giảng dạy bằng ba phương pháp khác nhau, sau đó cho làm bài kiểm tra chung dé thu được điểm số phan ánh chất lượng học tập. Gọi lì, Hạ, Hạ là trung bình thật sự của điểm kiểm tra ứng với ba phương pháp giảng dạy Chúng ta có thể sử dụng phương pháp Phân tích phương sai một
23 nhân tố để giải quyết bài toán này Bài toán kiểm định giả thuyết trong mô hình Phân tích phương sai một nhân tô được phát biểu như sau:
Bài toán kiểm định: Thành lập giả thuyết và đối thuyết
Ay: ut, # t(h #k);h,k =1,2, K, trong đó pi là kỳ vọng của biến ngẫu nhiên cần nghiên cứu trong nhóm thứ i, i=l, ,K Với một mức ý nghĩa a cho trước, ta cần đưa ra quyết định chấp nhận hay bác bỏ giả thuyết.
Dữ liệu của mô hình thiết kế ngẫu nhiên có dang trong Bảng 1.1.
Yi, tị ty lấn Y) Y,, tụ Yoo
Nếu biến ngẫu nhiên của thiết kế thỏa mãn điều kiện của Dinh lý 1 và giả thuyết Hy được xem là đúng, thì theo các Dinh ly 1 và Dinh lý 2,các thống kê ằ ằ (Yj — Vy ý Kj —
SS, — i=l j=l có phân phối Khi - bình phương với bậc tự do tương ứng là N-1va K-1 Phan biến động do sai số gây ra,
24 có phân phối Khi — bình phương với bậc tự do N-K.Từ đó, đại lượng
Co phan phối Fisher với bậc tự do K-/ và N-K (theo các Dinh lý 1 và 2).
Trong công thức trên, SSy là phần biến động toàn phan của số liệu, SS, là phần biến động do nhân tố gây ra, SSsq) là phần biến động do sai số ngẫu nhiên gây ra.
Sử dụng kết quả trên, ta có thé đưa ra kết luận bác bỏ hay chấp nhận giả thuyết Ho với mức ý nghĩa a, dựa vào xác suất ý nghĩa (P- value) hoặc giá trị tới hạn của phân phối Fisher với bậc tự do tương ứng Thao tác đó có thé được thực hiện theo một sô cách như sau: a) Phương pháp xác suất ÿ nghĩa X là biến ngẫu nhiên có phân phối Fisher có bậc tự do (K-/, N-K) ta tính xác suất p= P(X =F) với mức ý nghĩa a cho trước, nếu a < p thì ta bác bỏ giả thuyết Ho ; còn nếu a>p thì ta chấp nhận gia thuyết đó. b) Phương phỏp giỏ trị tới hạn Với mức ý nghĩa ứ cho trước, tra bảng để xỏc định giỏ tri tới hạn F(a;K—1,N—K) , là phan vi l—ứ của phan phối Fisher với bậc tự do (K-1, N-K) Khi ấy, ta bác bỏ giả thuyết Ho nêu F >F(a;K—1,N —K) và chấp nhận giả thuyết nếu F )2,07,-yyY k j=l với y, là trung bình của nhóm j.
Sau khi có các tông bình phương độ sai lệch như trên, ta có thể tính các giá trị trung bình bình phương độ sai lệch (là ước lượng của các độ biến động) bằng
26 cách lay từng tổng bình phương độ sai lệch chia cho bậc tự do tương ứng Ta có
+ Bậc tự do của giá trị trung bình u luôn bằng 1(df,=1).
+ Bậc tự do của nhân tổ là số nhóm trừ đi 1 (dfy= số nhóm -1= K-]).
+ Bậc tự do của sai số ngẫu nhiên (đ4ƒs/A) = số đổi tượng -số nhóm = N-K).
Nói một cách ngăn gọn, các độ biên động của mô hình được ước lượng băng công thức MS=-, với SS là tong bình phương độ sai lệch, df là ký hiệu của bậc tự do tương ứng Ta tóm tắt các thành phan của phương pháp Phân tích phương sai một nhân tố như trong Bang 1.4.
Bảng 1.4 Tóm tắt các thành phan trongPhân tích Phương sai một nhân tổ
Nguồn sai sỐ Df SS MS F
Bậc tự do Tổng bình Trung bình bình Giá trị thống kê phương phương bế 1 SS; S5 F= MS, 7 MSsa)
Trong bang trên ta có
+ ¿ là giá trị trung bình chung của toàn bộ mẫu.
+ đƒ là bậc tự do.
+ SS là tổng bình phương.
+ F là tiêu chuẩn kiểm định của gia thuyết thống kê Hy.
Ta thấy nếu giả thuyết Hạ đúng và sai số trong các nhóm có cùng phân phối với phương sai như nhau, thì F có phân phối Fisher với bậc tự do K-7 và N- K.Như vậy, ta sẽ bác bỏ giả thuyết Hạ nếu F > Fy), (1-0) Ngược lại, ta chap nhận giả thuyết Hạ nếu F< FLi, nx(1-a).
1.2.2 Mô hình Phân tích phương sai hai nhân tổ
Giả sử bài toán có dữ liệu sau:
Các mức của, Các mức của nhân tố thứ hai (B) nhân tô thứ nhât
Trong đó, a là mức của nhân tô thứ nhat, b là mức cua nhân tô thứ hai, ab
N=> nữ.) i=l j=l là tông sô các quan sát trong sô liệu Với dữ liệu ở trên ta có các bài toán sau
Bài toán kiểm định Đánh giá tác động của nhân tổ A:
Họa MAI— MA2— MA3—: — HAa
Hya: An # HAk voi hz k nào đó; h, k=1,2, nr. với wa; là kỳ vọng của Y trong nhóm thứ i (i=/, ,a) của nhân tô A.
Bài toán kiểm định Đánh giá tác động của nhân to B:
Hop: Hpị= Hpa= Hp3= = HBa
Hip: Upn £ px với h# k nao đó; h, k=1,2, b. với /;, là ky vọng cuaY trong nhóm thứ i (=1, ,b) của nhân tổ B
Bài toán kiểm định Đánh giá tác động tương tác của nhân tô A và B:
Hy ap: HABh # MAbBk VỚI hz k nao do; h, k=1,2, ab.
28 với [api là kỳ vọng các biến ngẫu nhiên Y trong nhóm thứ i (i=1, ,ab) của nhân tố A và B. Đề giải quyết bài toán trên ta đưa bài toán mô hình Phân tích phương sai hai nhân tổ với tương tác giữa các nhân tố có dạng
Mô hình tuyến tính tong quát -.e s s-s° se sessessessessesseessrseessssse 35 nó 17
Trong việc xây dựng mô hình thống kê luôn cần có sự lựa chọn giữa tính đơn giản và tính đầy đủ Những mô hình đơn giản hướng tới sự dễ hiểu, dé dang hơn cho việc tính toán, nhưng chúng dễ bị chênh so với dữ liệu Ngược lại, những mô hình phức tạp thường phù hợp hơn với dữ liệu, nhưng có thể gặp phải những khó khăn trong tính toán xử lý Khi quá phức tạp, chúng sẽ khó thực hiện lặp lại.
Qua các mục 1.1 và 1.2, ta thấy mô hình Hồi quy tuyến tính cổ điển và Phan tích phương sai đều là các mô hình tuyến tính khá đơn giản, đòi hỏi các tính
35 toán khá dé dàng Tuy nhiên, nhiều dit liệu trong thực tế lại không đáp ứng các điều kiện đặt ra cho hai mô hình đó, chăng hạn như trường hợp mô hình cần có đồng thời các biến độc lập định tính và định lượng, hoặc khi ma trận thiết kế không có hạng đầy đủ Mô hình tuyến tính tổng quát là một mở rộng của cả mô hình hồi quy tuyến tính cổ điển và mô hình phân tích phương sai, khắc phục được các hạn chế của hai mô hình đó, do đó có thé áp dụng rộng rãi hơn trong thực tế, mặc dù đòi hỏi phải có những tính toán phức tạp hơn.
Với ly do thực hành, những thủ tục cổ điển như mô hình hồi quy tuyến tính có thé áp dụng trong tính toán đối với các mô hình tuyến tính tổng quát Tuy nhiên, hiệu lực của tính toán không còn giới hạn trong một lần tính toán cụ thể Nhiều thứ mà trước đây rất khó thực hiện như thuật toán lặp; phương pháp Monte Carlo; phép kiểm định lặp; toàn bộ phạm vi của tiếp cận Bayes, bây giờ có thể giải quyết được (hoặc gần hoàn toàn giải quyết được) nhờ vào sự phát triên vượt bậc của các công cụ tin học.
Ngoài ra, việc hình ảnh hóa dữ liệu sẽ đem lại hiệu ứng làm chúng có thê được bộc lộ ra một cách khác biệt đáng kế với khi sử dụng các phương pháp truyền thống Tuy nhiên, các phương pháp cô điển vẫn thích hợp nhất cho nhiều vấn đề nghiên cứu và vì chúng là cơ sở của nhiều cách tiếp cận mới nên người ta vẫn luôn lưu tâm tới các phương pháp đó.
Dữ liệu mô hình tuyến tính tổng quát
Mô hình tuyến tính tổng quát (GLM) được sử dụng dé xem xét một biến phụ thuộc định lượng nào đó, như chiều cao; thu nhập; chỉ số IQ; tuổi tác , trong mỗi quan hệ với các biến độc lập khác (có thể bao gồm cả biến định lượng và biến định tính).
Dữ liệu của mô hình được dé cập ở đây có cau trúc tổng quát dạng bang của những quan sát với các biến Trong bang số liệu (xem Bang 1), các hàng - những quan sát — là thông tin quan sát được có thé tại những thời điểm khác
36 nhau; những địa điểm khác nhau; hoặc những đối tượng khác nhau , tùy thuộc vào từng nghiên cứu cụ thê.
Các cột của bảng được chia thành hai nhóm Một nhóm được ký hiệu bởi x; , là những biến mô tả điều kiện trong đó quan sát được thực hiện Chúng có thể là các biến giả mô tả các nhóm; những chủ thể; hoặc điều kiện đáp ứng đặc biệt, hay chúng có thể là những hiệp biến khác Nhóm thứ hai ký hiệu bởi yx, , là những phép đo quan sát được, chăng hạn mức phóng xạ được đo tại những vị trí khác nhau.
Trong nhiều nghiên cứu, người ta thường tập trung phân tích một biến phụ thuộc y duy nhất, mặc dù trong các nghiên cứu phân tích hình ảnh, thông thường có số lượng lớn các biến đáp ứng được ghi nhận Mục đích cơ bản của phân tích là tìm cách mô tả y, như là hàm sô của x.
Bảng1.4 Cấu trúc của bang dữ liệu
Các biên Điều kiện Đáp ứng
Quan sát XI,X2, ,Xp | V1, Y2 - ; Yq
Bang 1.5 biểu diễn ví dụ đơn giản của dữ liệu Các biến đáp ứng chiếm bốn vị trí (từ y¡ đến y,4) tại một chuỗi quan sát của 16 thời điểm Hai mức độ kích thích hiển diện trong thời gian theo dõi, mức thứ nhất (1) xuất hiện các khoảng 4, 5 và 6 Mức kích thứ (2) xuất hiện trong khoảng 10, 11, và 12 rồi lại bắt đầu tại khoảng 16 Với các mức kích thích đó, ba biến giả được tạo ra:
Xo luôn bằng lva tương ứng với hoạt động trên cơ sở nền, x, là 0 trừ khi có mặt kích thích mứcl va x; là 0 trừ khi có mặt của kích thích mức 2.
Các cột của bảng dữ liệu là các biến và chúng là các véc tơ cột Cách tô chức số liệu kiêu này giúp chúng ta dé hiểu và dễ giải thích liên hệ với các ý nghĩa hình học Mỗi biến được biểu diễn băng một véc tơ trong không gian Độ dài
37 véc tơ chỉ tính chât độ biên động của biên và góc giữa hai véc tơ miêu tả quan hệ giữa các biên Đặc biệt, bình phương độ dài của véc tơ là tông bình phương độ biến động tương ứng, lyf =, ~ y) i=l
Va cosin của góc băng hệ sô tương quan giữa các biên: r„ =COS (X,,X,)
Bảng 1.5 Dữ liệu minh họa — Hai kích thích có mặt tại thời điểm khác biệt ứng với giá trị đáp ứng ghi tai 4 vị trí.
Trong luận văn này ta thống nhất dùng các ký hiệu như sau: vecto được biểu thị bằng chữ cái in thường (ví du x, y, z ); ma trận được biéu thị bằng chữ cái in hoa (ví dụ X, Y ), ma trận chuyển vị ký hiệu bằng số mũ T in hoa (vi dụ X', Y? ); ma trận nghịch đảo được thê hiện bằng số mũ -1 (ví dụ x'⁄Y mm
Biến phụ thuộc thường ký hiệu băng véc tơ định lượng Y với I quan sát, biến mô tả lưu trữ trong một ma trận cấp IxK ký hiệu là X.
Trong mô hình tuyến tinh tổng quát (GLM), biến phụ thuộc được biểu diễn một cách tuyến tính qua các biến độc lập Véc tơ chứa các hệ SỐ tuyến tính trong biểu diễn nói trên ứng với ma trận X được ký hiệu là véc tơ b Nhìn
Dữ liệu dùng trong nghiÊNn CUU do 5< 5 5 5< 9 5 54 59 8995895988995 50
Nghiên cứu nay được tiến hành dựa trên số liệu thu thập từ ba khoa, khoa Điện, khoa Điện tử - Tin học và khoa Kinh tế Dữ liệu thu thập dựa trên công cụ của các bộ phiếu câu hỏi được biên soạn một cách khoa học và đã được hoàn chỉnh sau các góp ý của cán bộ nhà trường, của thầy hướng dẫn, được điều tra thử tại lớp 04TĐHI Phiếu điều tra gồm ba loại, phiếu điều tra sinh viên, phiếu điều tra phụ huynh và phiếu điều tra giáo viên (xem mẫu phiếu điều tra trong phần Phụ lục).
Các phiếu điều tra sinh viên và điều tra phụ huynh được phát cho sinh viên tự điền trong giờ lên lớp Phiếu điều tra giáo viên được cán bộ quản lý chất lượng của nhà trường phát cho các giáo viên điền vào và trả lại sau một tuần.Số liệu điều tra của sinh viên, phụ huynh được bồ sung chỉnh lý bang cách tra cứu lại hồ sơ lưu trữ của nhà trường đo hai phòng Đảo tạo và Quản lý học sinh sinh viên cung cấp.
Sinh viên được điều tra thuộc khóa 04 hệ cao đăng của ba khoa nêu trên, với tong số 1219 sinh viên trong 24 lớp Phân bồ sinh viên được mô tả dưới đây:
Khoa Kinh tế Điện Điện tử - Tin học
Các khoa có số lượng sinh viên nam nữ không đồng đều, hai khoa Điện và Điện tử- Tin học có số lượng sinh viên nam đông hơn, khoa Kinh số lượng sinh viên nữ nhiều hon Đây có thé là một trong các yếu tố ảnh hưởng đến kết qua hoc tập của
50 sinh viên Kết quả học tập của sinh viên được điều tra trong bốn học kỳ đầu tiên của chương trình đào tạo Trong mỗi khoa có thể có nhiều chuyên ngành, nhưng đều có các môn học của bốn học kỷ đầu như nhau Độ tuôi của sinh viên được điều tra tính tới thời điềm 01/10/2008 có trung bình là 18.6283, tuổi thấp nhất là 17.31, tuổi cao nhất là 28.56 Độ tuôi sinh viên là gần nhau, có rất ít sinh viên theo học không đúng độ tuổi.
Trong số 200 giáo viên đã tham gia cung cấp thông tin, số lượng giáo viên nữ là 71 và nam là 129, tất cả đều có trình độ từ đại học trở lên Da phần các giáo viên có tuổi đời và tuổi nghề còn trẻ, với thâm niên trung bình là 6.67 năm.
Phân tích số liỆu - - s- s2 s£s£ s£Ss£S£ES£ EsEsEESESESeEsEsEEsEsseserserserser 5
2.3.1 Phân tích tác động riêng rẽ các nhân tô lên kết quả học tập
Dé đánh giá những nhân tố ảnh hưởng đến chất lượng học tập của sinh viên, trước tiên ta dùng phương pháp phân tích phương sai một nhân tố xem xét các yếu tố ảnh hưởng đến điểm của từng học kỳ của sinh viên Kết quả phân tích ảnh hưởng của giới tính được trình bày trong Bang 2.1.
Bảng 2.1 Phân tích ảnh hưởng của giới tính lên kết quả học tập các học kỳ
Trong Bảng 2.1, cột thứ hai cung cấp các tổng bình phương (Sum of Squares), bao gồm tổng bình phương sai lệch giữa các nhóm (Between Groups) thé hiện độ biến động giữa các nhóm, tổng bình phương sai lệch nội tại nhóm (Winthin Groups) mô tả biến động do các yếu tô ngau nhiên gây ra, và tổng cộng bình phương sai lệch (Total) bằng tổng số hai tổng bình phương ké trên Cột thứ ba cho biết bậc tự do (df) tương ứng của các tổng bình phương Cột thứ tư cung cấp các trung bình bình phương sai lệch (Mean Square), bằng tổng bình phương sai lệch chia cho bậc tự do tương ứng Cột thứ năm trình bày giá trị của các thống kê F ứng với các trung bình bình phương sai lệch Cột cuối cùng cho thấy xác suất ý nghĩa (Sig.) của các thống kê F trong cột thứ năm Giá trị 0.000 < 5% của các xác suất ý nghĩa đó trong bảng cho thấy có sự khác biệt mang ý nghĩa thống kê giữa nam và nữ về điểm số trung bình của từng học kỳ Điểm trung bình các học kỳ của nữ lần lượt là 6.54, 6.67, 6.74 và 6.94 Trong khi đó điểm trung bình các học kỳ của nam tương ứng là 6.19, 6.23, 6.32 và 6.55 Như vậy ở cả bốn học kỳ điểm trung bình của nữ đều cao hơn điểm trung bình của nam và sự khác biệt đó có ý nghĩa thống kê.
Kết quả phân tích phương sai đánh giá tác động của nhân tố ngành học lên điểm tổng kết các học kỳ được trình bày trong Bảng 2.2.
Bảng 2.2 Phân tích ảnh hưởng của chuyên ngành lên kết quả học tập các học kỳ
Các xác suất ý nghĩa trong Bảng 2.2 đều có giá trị bằng 0.000 (nhỏ hơn 0.1%) khăng định có sự khác biệt mang ý nghĩa thống kê giữa các chuyên ngành về điểm số trung bình của các học kỳ Các diém số trung bình các học kỳ các chuyên ngành cho trong Bảng 2.3.
Bảng 2.3 Điểm trung bình học kỳ của các chuyên ngành
Ngành Điểm học kỳ 1 | Điểm học kỳ 2 | Điểm học kỳ 3 | Điểm học kỳ 4
Bang 2.3 cho biết nhóm sinh viên Kế toán ngân hàng có điểm trung bình cao nhất trong ba học kỳ đầu (6.60, 6.63, 6.75), nhóm sinh viên chuyên ngành Hệ thống điện có điểm trung bình học kỳ 4 cao nhất (7.15) Điểm trung bình thấp nhất ở các học ky 1 và 3 thuộc về nhóm sinh viên Hệ thống điện (6.09 và 6.18), còn ở các học kỳ 2 và 4 lại thuộc về nhóm sinh viên Tự động hóa (6.19 và 6.53 ). Đề đánh giá sự ảnh hưởng của điều kiện kinh tế lên kết quả học tập của sinh viên, nghiên cứu này phân tích nhân tổ thu nhập bình quân của gia đình sinh viên theo bốn mức: Thu nhập bình quân 2 triệu trở xuống: trên 2 triệu đến 3 triệu; trên 3 triệu đến 4 triệu; trên 4 triệu Tác động của nhân tố thu nhập bình quân của gia đình lên điểm tổng kết các học kỳ của sinh viên được trình bày trong Bảng 2.4 Kết quả trong Bảng 2.4 cho thấy kinh tế của gia đình ảnh hưởng một cách có ý nghĩa thống kê lên kết quả học tập của sinh viên ở học kỳ thứ nhất và học kỳ thứ hai (các xác suất ý nghĩa bằng 0.003 và 0.001 nhỏ hơn 5%) trong khi đó lại không ảnh hưởng đến kết quả học tập của hai học kỳ sau (các xác suất ý nghĩa bằng 0.749 và 0.524 đều lớn hơn 5%) Điểm trung bình của các sinh viên thuộc các nhóm kinh tế khác nhau được mô tả trong Bảng 2.5.
Bảng 2.4.Phân tích ảnh hưởng của thu nhập gia đình lên kết quả học tập các học kỳ
Between Groups 8.302 Within Groups 349.667 Tota 357.969 Between Groups 14.138 Within Groups 509.294 Tota 523.432
Bang 2.5 Điểm trung bình các học kỳ của sinh viên theo nhóm thu nhập hộ gia đình
Thu nhập(triệu) | Điểm học kỳ 1 | Điểm học kỳ 2 | Điểm học kỳ 3 | Điểm học kỳ 4
Bảng 2.5 cho thấy những hộ gia đình có thu nhập dưới hai triệu điểm trung bình của sinh viên các học kỳ là thấp nhất (6.4, 6.5, 6.6, 6.8); diém trung bình của nhóm sinh viên thuộc hộ có thu nhập hơn ba triệu đến bốn triệu cao nhất trong từng học kỳ (6.8, 6.9, 6.8, 7.1) Điểm trung bình các nhóm sinh viên trong học kỳ ba và bốn gần như nhau, cho ta thấy ít có sự ảnh hưởng của kinh tế gia đình nên các nhóm sinh viên trong các học kỳ ba và bôn.
Tác động của nhân tố trình độ học vấn mẹ lên điểm tổng kết các học kỳ của sinh viên được trình bày trong Bảng 2.6 Trong bảng đó, các xác suất ý nghĩa của học kỳ một, học kỳ hai và học kỳ bốn là 0.000, 0.000, và 0.007 (nhỏ hơn 5%) khăng định có sự khác biệt mang ý nghĩa thống kê về trình độ học van mẹ lên điểm trung bình các học kỳ của sinh viên Nhưng đối với học kỳ ba thì lại không có sự ảnh hưởng trình độ học vân mẹ lên điêm trung bình học kỳ của các nhóm sinh viên
(xác suất ý nghĩa là 0.148 lớn hơn 5%) Điểm trung bình của các nhóm sinh viên này thể hiện trong Bảng 2.7.
Bảng 2.6.Phân tích ảnh hưởng của trình độ mẹ lên kết quả học tập các học kỳ
Total 376.122 Between Groups 1.571 Within Groups 356.398
Bang 2.7 Điểm trung bình các học ky của sinh viên theo nhóm trình độ mẹ
Trình độ của mẹ Điểm học | Điểm học | Điểm học | Điểm học kỳ 1 kỳ 2 kỳ 3 kỳ 4
Chưa tốt nghiệp hoặc tốt nghiệp trung học 6.6 6.6 6.6 6.7
Tot nghiép trung cap hodc cao dang 6.5 6.5 6.6 6.8
Tot nghiép dai hoc va trén dai hoc 6.7 6.8 6.7 7.1
Nhìn vào Bang số liệu 2.7 điểm trung bình của các nhóm sinh viên này ở học kỳ một, học kỳ hai và học kỳ bốn có sự khác biệt nhưng ở học kỳ ba điểm trung bình của các nhóm sinh viên trên là 6.6, 6.6, 6.6 và 6.7 cho ta thay rõ it có sự anh hưởng về trình độ học vấn mẹ lên điểm trung bình học kỳ ba Hơn thế nữa, Bảng 2.7 cho biết điểm trung bình của các học kỳ bình của nhóm sinh viên có mẹ chưa tốt nghiệp phô thông hoặc tốt nghiệp trung học phổ thông lần lượt là 6.6, 6.6, 6.6 và 6.7; điểm trung bình các học kỳ của nhóm sinh viên có mẹ tốt nghiệp 12 lần lượt là 6.4, 6.5, 6.6 và 6.8; đối với nhóm có mẹ tốt nghiệp trung cấp và hoặc cao đăng thì điểm trung bình tương ứng các học kỳ lần lượt là 6.5, 6.5, 6.6 và 6.7 Theo kết quả
55 nêu trên thì điểm trung bình của ba nhóm này gần như nhau ít có sự khác biệt nhưng đối với nhóm có mẹ tốt nghiệp đại học và trên đại học thì có điểm trung bình các học kỳ tương ứng lần lượt là 6.7, 6.8, 6.7 và 7.1 cao hơn nhiều so với ba nhóm sinh viên kể trên.
Tác động của nhân tố trình độ học vấn bố lên điểm tổng kết các học kỳ của sinh viên được trình bày trong Bảng 2.8 Cũng như Bảng 2.6 các xác suất ý nghĩa của Bảng 2.8 ở học kỳ một, học kỳ hai và học kỳ bốn là 0.001, 0.006, 0.012 (nhỏ hơn 5%) có sự khác biệt mang ý nghĩa thống kê về trình độ bồ lên điểm các học ky của sinh viên.
Bảng 2.8.Phân tích ảnh hưởng của trình độ bố lên kết quả học tập các học kỳ
Tuy nhiên, lại không có sự ảnh hưởng của trình độ bố lên các nhóm sinh viên đối với học kỳ ba đó (xác suất ý nghĩa của học kỳ ba là 0.310 lớn hơn 5%) Điểm trung bình của sinh viên theo nhóm trình độ bố được thé hiện rõ trong Bảng 2.9.
Bảng 2.9 Điểm trung bình các học kỳ của sinh viên theo nhóm trình độ bố
Trinh độ của bố Điểm học | Điểm học | Điểm học | Điểm học kỳ I kỳ 2 kỳ 3 kỳ 4 Chưa tốt nghiệp hoặc tốt nghiệp trung học 6.4 6.5 6.6 6.8
Tot nghiép trung cap hodc cao đăng 6.4 6.5 6.6 6.8
Tot nghiệp đại hoc và trên đại học 6.7 6.7 6.7 7.0
Bảng 2.9 cho ta thấy điểm trung bình 6.6, 6.6, 6.6, 6.7 ở học ky ba khác nhau it, thé hiện không có sự ảnh hưởng cua trình độ hoc vấn bố lên điểm trung bình học kỳ ba của sinh viên Bảng đó cho ta biết thêm điểm trung bình các học kỳ của ba nhóm sinh viên có bố chưa tốt nghiệp hoặc tốt nghiệp trung học, tốt nghiệp 12, tốt nghiệp trung cấp và cao đăng là như nhau (6.4, 6.5, 6.6 và 6.8), chỉ có nhóm sinh viên có bồ tốt nghiệp đại học và trên đại học đạt điểm trung bình các học kỳ cao hơn là 6.7,
Dé đánh giá mức độ ảnh hưởng nghề nghiệp của bố, mẹ lên điểm trung bình hoc kỳ của sinh viên, nghiên cứu này chia nhân tố nghề nghiệp của bố, mẹ theo bốn nhóm: nhóm công chức - viên chức; công nhân; làm ruộng; kinh doanh Kết quả phân tích phương sai về tác động của nhân tô nghề nghiệp mẹ được trình bay trong
Bảng 2.10.Phân tích ảnh hưởng nghề nghiệp của mẹ lên kết quả học tập các học kỳ
Total 376.122 Between Groups 2.428 Within Groups 355.541 Total 357.969 Between Groups 6.883 Within Groups 516.549 Total 523.432
Các xác suất ý nghĩa của học kỳ một, hai, ba va bốn lần lượt là 0.000 0.007, 0.041, 0.001 (đều nhỏ hơn 5%) khăng định có sự khác biệt mang ý nghĩa thống kê của nhân tố nghề nghiệp mẹ lên điểm các học kỳ của sinh viên Điểm trung bình các hoc kỳ của sinh viên theo nhóm nghề nghiệp mẹ được trình bày trong Bảng 2.11.
Bảng 2.11 Điểm trung bình các học kỳ của sinh viên theo nhóm nghề nghiệp mẹ
Nghề nghiệp Điểm học kỳ 1 | Điểm học kỳ 2 | Điểm học kỳ 3 | Điểm học kỳ 4
Nhìn vào Bảng 2.11 điểm trung bình các nhóm theo các học ky tăng dan lên, điểm trung bình của nhóm sinh viên có mẹ là công chức, viên chức cao nhất trong các học kỳ (6.6, 6.7, 6.7, 6.9) Điểm trung bình của nhóm sinh viên có mẹ là kinh doanh là thấp nhất trong các học kỳ (6.1, 6.4, 6.4, 6.5) Có thể do đặc thù công việc sự quan tâm của mẹ làm nghề kinh doanh ít hơn các ngành nghề khác nên điểm trung bình của nhóm sinh viên này là thấp hơn với nhóm khác.
Kết quả phân tích phương sai đánh giá ảnh hưởng nghề của bố đến điểm trung bình học kỳ của sinh viên được trình bày trong Bảng 2.12.
Bảng 2.12.Phân tích ảnh hưởng nghề nghiệp của bồ lên kết quả hoc tập các học kỳ
Within Groups 357.354 Total 357.969 Between Groups 2.134 Within Groups 521.298
Quan sát số liệu trong Bang 2.12, ta thấy xác suất ý nghĩa của học kỳ 1 là 0.032 (nhỏ hơn 5%) khăng định có sự khác biệt mang ý nghĩa thống kê ảnh hưởng nghề bồ lên điểm trung bình của sinh viên trong học kỳ một Ngược lại ở các học kỳ hai, ba và bốn không có sự ảnh hưởng nghề của bố lên điểm trung bình học kỳ của sinh