Mô hình tuyến tính tổng quát

Một phần của tài liệu Phân tích thống kê hiệu quả đào tạo cao đẳng tại trường Đại học Sao Đỏ (Trang 36)

Trong việc xây dựng mô hình thống kê luôn cần có sự lựa chọn giữa tính đơn giản và tính đầy đủ. Những mô hình đơn giản hướng tới sự dễ hiểu, dễ dàng hơn cho việc tính toán, nhưng chúng dễ bị chênh so với dữ liệụ Ngược lại, những mô hình phức tạp thường phù hợp hơn với dữ liệu, nhưng có thể gặp phải những khó khăn trong tính toán xử lý. Khi quá phức tạp, chúng sẽ khó thực hiện lặp lạị

Qua các mục 1.1 và 1.2, ta thấy mô hình Hồi quy tuyến tính cổ điển và Phân tích phương sai đều là các mô hình tuyến tính khá đơn giản, đòi hỏi các tính

36

toán khá dễ dàng. Tuy nhiên, nhiều dữ liệu trong thực tế lại không đáp ứng các điều kiện đặt ra cho hai mô hình đó, chẳng hạn như trường hợp mô hình cần có đồng thời các biến độc lập định tính và định lượng, hoặc khi ma trận thiết kế không có hạng đầy đủ. Mô hình tuyến tính tổng quát là một mở rộng của cả mô hình hồi quy tuyến tính cổ điển và mô hình phân tích phương sai, khắc phục được các hạn chế của hai mô hình đó, do đó có thể áp dụng rộng rãi hơn trong thực tế, mặc dù đòi hỏi phải có những tính toán phức tạp hơn. Với lý do thực hành, những thủ tục cổ điển như mô hình hồi quy tuyến tính có thể áp dụng trong tính toán đối với các mô hình tuyến tính tổng quát. Tuy nhiên, hiệu lực của tính toán không còn giới hạn trong một lần tính toán cụ thể. Nhiều thứ mà trước đây rất khó thực hiện như thuật toán lặp; phương pháp Monte Carlo; phép kiểm định lặp; toàn bộ phạm vi của tiếp cận Bayes, bây giờ có thể giải quyết được (hoặc gần hoàn toàn giải quyết được) nhờ vào sự phát triển vượt bậc của các công cụ tin học.

Ngoài ra, việc hình ảnh hóa dữ liệu sẽ đem lại hiệu ứng làm chúng có thể được bộc lộ ra một cách khác biệt đáng kể với khi sử dụng các phương pháp truyền thống. Tuy nhiên, các phương pháp cổ điển vẫn thích hợp nhất cho nhiều vấn đề nghiên cứu và vì chúng là cơ sở của nhiều cách tiếp cận mới nên người ta vẫn luôn lưu tâm tới các phương pháp đó.

Dữ liệu mô hình tuyến tính tổng quát

Mô hình tuyến tính tổng quát (GLM) được sử dụng để xem xét một biến phụ thuộc định lượng nào đó, như chiều cao; thu nhập; chỉ số IQ; tuổi tác…, trong mối quan hệ với các biến độc lập khác (có thể bao gồm cả biến định lượng và biến định tính).

Dữ liệu của mô hình được đề cập ở đây có cấu trúc tổng quát dạng bảng của những quan sát với các biến. Trong bảng số liệu (xem Bảng 1), các hàng - những quan sát – là thông tin quan sát được có thể tại những thời điểm khác

37

nhau; những địa điểm khác nhau; hoặc những đối tượng khác nhau…, tùy thuộc vào từng nghiên cứu cụ thể.

Các cột của bảng được chia thành hai nhóm. Một nhóm được ký hiệu bởi xj , là những biến mô tả điều kiện trong đó quan sát được thực hiện. Chúng có thể là các biến giả mô tả các nhóm; những chủ thể; hoặc điều kiện đáp ứng đặc biệt, hay chúng có thể là những hiệp biến khác. Nhóm thứ hai ký hiệu bởi yk , là những phép đo quan sát được, chẳng hạn mức phóng xạ được đo tại những vị trí khác nhaụ

Trong nhiều nghiên cứu, người ta thường tập trung phân tích một biến phụ thuộc y duy nhất, mặc dù trong các nghiên cứu phân tích hình ảnh, thông thường có số lượng lớn các biến đáp ứng được ghi nhận. Mục đích cơ bản của phân tích là tìm cách mô tả yk như là hàm số của x.

Bảng1.4 Cấu trúc của bảng dữ liệu

Các biến Điều kiện Đáp ứng Quan sát x1, x2, …, xp y1, y2, …, yq 1 …… …… 2 … …… … N ….. …..

Bảng 1.5 biểu diễn ví dụ đơn giản của dữ liệụ Các biến đáp ứng chiếm bốn vị trí (từ y1 đến y4) tại một chuỗi quan sát của 16 thời điểm. Hai mức độ kích thích hiển diện trong thời gian theo dõi, mức thứ nhất (1) xuất hiện các khoảng 4, 5 và 6. Mức kích thứ (2) xuất hiện trong khoảng 10, 11, và 12 rồi lại bắt đầu tại khoảng 16. Với các mức kích thích đó, ba biến giả được tạo ra: x0 luôn bằng 1và tương ứng với hoạt động trên cơ sở nền, x1 là 0 trừ khi có mặt kích thích mức1 và x2 là 0 trừ khi có mặt của kích thích mức 2.

Các cột của bảng dữ liệu là các biến và chúng là các véc tơ cột. Cách tổ chức số liệu kiểu này giúp chúng ta dễ hiểu và dễ giải thích liên hệ với các ý nghĩa hình học. Mỗi biến được biểu diễn bằng một véc tơ trong không gian. Độ dài

38

véc tơ chỉ tính chất độ biến động của biến và góc giữa hai véc tơ miêu tả quan hệ giữa các biến. Đặc biệt, bình phương độ dài của véc tơ là tổng bình phương độ biến động tương ứng,

2 2 1 ( ) n i i y y y   

Và cosin của góc bằng hệ số tương quan giữa các biến: cos ( , )

jk j k

r   x x

Bảng 1.5 Dữ liệu minh họa – Hai kích thích có mặt tại thời điểm khác biệt ứng với giá trị đáp ứng ghi tại 4 vị trí. x0 x1 x2 y1 y2 y3 y4 1 0 0 1 0 0 1 0 0 1 1 0 1 1 0 … … … 9,45 13,25 11,23 16,48 9,86 10,26 10,26 13,62 10,17 13,90 11,74 15,13 12,97 11,76 10,97 16,63 11,31 13,83 10,65 16,42 … … … … 1.3.1 Ký hiệu

Trong luận văn này ta thống nhất dùng các ký hiệu như sau: vectơ được biểu thị bằng chữ cái in thường (ví dụ x, y, z …); ma trận được biểu thị bằng chữ cái in hoa (ví dụ X, Y…), ma trận chuyển vị ký hiệu bằng số mũ T in hoa (ví dụ XT, YT …); ma trận nghịch đảo được thể hiện bằng số mũ -1 (ví dụ X-1, Y- 1… ).

Biến phụ thuộc thường ký hiệu bằng véc tơ định lượng Y với I quan sát, biến mô tả lưu trữ trong một ma trận cấp IxK ký hiệu là X.

1.3.2. Mô hình

Trong mô hình tuyến tính tổng quát (GLM), biến phụ thuộc được biểu diễn một cách tuyến tính qua các biến độc lập. Véc tơ chứa các hệ số tuyến tính trong biểu diễn nói trên ứng với ma trận X được ký hiệu là véc tơ b. Nhìn

39

chung, biến phụ thuộc y không thể hoàn toàn thu được bởi sự kết hợp tuyến tính của các cột X và sự khác biệt giữa thực tế và bài toán dự báo gọi là các sai số dự báọ Các sai số dự báo được lưu trữ trong một véc tơ ký hiệu là ẹ Dạng chính tắc của mô hình được biểu diễn bằng phương trình

y = Xb + ẹ (1.11) Các giá trị dự báo được lưu trữ trong một véc tơ y

. Như vậy y Xb  và phương trình (1.11) có thể viết lại thành

y = y + e;

(1.12) e = y - y

Ta có thể bắt đầu với dạng đơn giản nhất của mô hình tuyến tính tổng quát là mô hình hồi quy tuyến tính. Lúc đó, trong phương trình (1.11) các biến độc lập được giả thiết là tất định (tức là giá trị của nó không thay đổi trong từng quan sát). Các phần dư e được hiểu như là các biến ngẫu nhiên độc lập có cùng phân phối 2

N(0, ). Giá trị của biến phụ thuộc được giả định là một mẫu ngẫu nhiên đang được quan tâm, véc tơ b được xem như là ước lượng được tính theo véc tơ ỵ

Với giả thiết của mô hình, véc tơ tham số được ước lượng bởi b qua công thức

b = (XTX)-1XTy . Tổng bình phương của y ký hiệu là

SST = yTy . (1.13) Thay công thức (1.12) vào (1.13) ta có

 

( ) ( ).

T T

T

SSy yye ye (1.14)

Vì 2ye = 0 nên phương trình (1.14) có thể đưa về dạng

 T

T T

T

40

Phần thứ nhất phương trình (1.15) gọi là tổng bình phương của mô hình và được ký hiệu là SSM, do vậy ta có phương trình

 T

T M

SS y y = (Xb) Xb .

Phần thứ hai của phương trình (1.15) gọi là tổng bình phương phần dư hoặc tổng bình phương sai số, và được ký hiệu là SSR. Như vậy, ta có phương trình

 

T T T

T

SS e e = (y-y) (y-y)=( y-Xb) ( y-Xb).

1.3.3 Phân bố mẫu của các tổng bình phương

Trong mô hình này ta giả thiết các phần dư có cùng phân phối chuẩn 2

N(0, ), tỷ số tổng bình phương phần dư và phương sai của sai số có phân bố Khi - bình phương, tức là 2 2 R SS    với n= (I - K -1) bậc tự dọ (1.16)

Do đó tỷ số tổng bình phương của mô hình và phương sai sai số có phân bố Khi - bình phương với bậc tự do m = K, tức là M 2

2

SS 

  . Trong tính toán đối

với phân phối Khi – bình phương đó có xuất hiện tham số qui tâm

T 2 2 (X ) X      . Do vậy, ta còn viết 2 M 2 SS ( , )m     (1.17). Từ (1.16), (1.17) ta thấy tỷ lệ M 2 M R R 2 SS SS n n F= SS m SS m      (1.18)

có phân bố Fisher (phân phối F) với bậc tự do (m, n) và tham số quy tâm

T 2 2 (X ) X      .

Trong trường hợp giả thiết  0, tham số trung tâm biến mất và tỷ lệ F trong biểu thức (1.18) có phân phối Fisher chính tắc với bậc tự do (m,n).

1.3.4. Kiểm tra tham số trên tập hợp con

Trong nhiều bài toán thống kê, người ta chỉ quan tâm một tập hợp con các tham số của mô hình. Đối với trường hợp đang xét ở đây, mẫu quan sát I

41

ma trận X cấp IxK được chia thành hai khối ma trận X0 cấp IxK0, X1 cấp IxK1 với K= K0 + K1 , ký hiệu là

 0 1

X= X X  . Tương tự véc tơ b được chia thành hai phần,

0 1 b b = b            .

Trong trường hợp này mô hình tương ứng với phương trình (1.11) được viết lại thành  0 1 0 0 0 1 1 1 b y = Xb + e = X X + e =X b + X b + e b             .

Để thuận tiện, chúng ta giả sử tham số 1 ước lượng cho véc tơ b1. Đồng thời, ta giả thiết dự báo của y chỉ phụ thuộc vào phần đầu X0 của X, còn phần sau, cụ thể là X1, không giúp cải thiện dự đoán của ỵ Đầu tiên ta đánh giá X0một mình. Giá trị ước lượng của tham số ký hiệu là b0. Nói chung b0 và b0 là khác nhau, b0=b0nếu và chỉ nếu X

0 và X1 là hai khối trực giaọMô hình y theo X0 gọi là mô hình rút giảm có phương trình

0 0 0

y = X b + e   , trong đó e0 là độ sai lệch của mô hình rút giảm.

Tổng bình phương của mô hình rút giảm được ký hiệu là

0

b

SS , giống tính toán của phương trình (1.15). Phần biến động còn lại do X1 gây ra, sau khi đã tính đến phần biến động do X0 gây ra, được ký hiệu SSb |b1 0 và được cho bởi công thức

1 0 0

b |b M b

SS SS SS . 

Giả thuyết “không” khẳng định X1không ảnh hưởng đến dự đoán của y trên X0 và giả sử rằng 1 0. Phép kiểm định đối với giả thuyết đó có thể tiến hành dựa trên tỷ số

42 1 0 1 0 b |b b |b R 1 SS I-K-1 F SS K   .

Nếu giả thuyết đúng thì

1 0

b |b

F có phân bố F Fisher với bậc tự do là K1 và I- K - 1. Do đó

1 0

b |b

F có thể sử dụng kiểm định giả thuyết 1 0.

Nếu kết quả tính toán cho thấy giả thuyết được chấp nhận thì rõ ràng chất lượng dự báo của y chỉ phụ thuộc và phần đầu X0 của ma trận dữ liệu và mô hình được rút gọn, chỉ chứa các tham số trong 0. Ngược lại, nếu giả thuyết bị bác bỏ thì mô hình cần bổ sung một số tham số có trong 1 và phần sau X1 của ma trận dữ liệu thực sự có vai trò trong việc dự báo giá trị của ỵ

1.3.5 Phép kiểm định phù hợp

Độ biến động của tham số 2 trong mô hình tuyến tính tổng quát được ước lượng bởi

2 yT(y Xb)

n p

  

Từ đó ước lượng của ma trận hiệp phương sai có dạng

2

1

( T )

b

S  X X

Sự phù hợp của mô hình có thể được đo bằng tỷ lệ của độ biến động mà mô hình có thể giải thích trên toàn bộ độ biến động của biến phụ thuộc, đó là tỷ số tương đối giữa bình phương hai độ dài của véc tơ ước lượng được và véc tơ quan sát:

2 2

2

do bien dong giai thich do bien dong toan phan

y R

y

 

Đại lượng này được biết như là tỷ số tương quan và trong các mô hình phân tích phương sai thường được ký hiệu bởi 2

43

Phép kiểm định của giả thuyết không  0 thu được bằng cách so sánh độ dài bình phương ( có hiệu chỉnh theo số chiều tương ứng) của hai thành phần của

y với mô hình tuyến tính tổng quát. Với p biến giải thích và n quan sát,

2 mohinh 2 saiso S S y M p F M e n p    

Bên cạnh phép kiểm định trên, người ta thường quan tâm đến các phép kiểm định hữu ích hơn, đó là các phép kiểm định giả thuyết về giá trị riêng rẽ của từng tham số trong mô hình.

Đa số phép kiểm định các tham số của mô hình tuyến tính tổng quát được tiến hành đối với những ràng buộc tuyến tính áp lên . Các phép kiểm định này có dạng C 0, trong đó với C là ma trận ràng buộc. Sử dụng ví dụ trong bảng 1.5, phép kiểm định “ giả thuyết không” về việc y không chịu tác động của kích thích thứ hai( tức là hệ số 2 của x2 bằng 0) tương ứng với ma trận ràng buộc C0 0 1. Phép kiểm định “giả thuyết không” cho rằng hai loại kích thích có tác động như nhau đối với biến đáp ứng (1 và 2 bằng nhau) được gắn với ma trận ràng buộc C0 0 1. Giả thuyết hỗn hợp về việc cả hai tham số của các kích thích đều bằng 0 có thể kiểm định với ma trận ràng buộc 0 1 0 0 0 1 C       .

Diễn giải bằng hình học, việc kiểm định các giả thuyết tuyến tính trên được tiến hành bằng cách phân tích y thành hai thành phần trực giao là véc tơ 

c

44 phần phù hợp với giả thuyết và véc tơ 

c

y tương ứng với phần giả thuyết bị xâm phạm.

Nếu C 0 thì thành phần 

c

y hoàn toàn do nhiễu ngẫu nhiên gây ra, và do đó chiều dài của nó có thể không lớn hơn khi so sánh (có hiệu chỉnh theo số chiều tương ứng) với độ dài véc tơ Nếu C 0 thì chiều dài của 

c

y lớn hơn nhiều so với chiều dài của e.

Dưới đây là ba cách thực hiện phép kiểm định thống kê cho những giả thuyết nêu trên, tất cả được tiến hành cho mô hình tuyến tính tổng quát với điều kiện sai số có phân phối chuẩn:

1. So sánh bình phương trung bình độ dài của các véc tơ yce, đồng thời sử dụng thống kê F để tiến hành phép kiểm định. Nếu r là hạn chế tuyến tính (số hàng của C ) thì thống kê này là:

 2 2 / S S / ( ) c rangbuoc saiso y r M F M e n p     

2. Khi giả thuyết có ràng buộc một chiều(chứa duy nhất một hạn chế) thì có thể được kiểm định bằng cách so sánh độ lớn của đại lượng tương ứng với sự xâm phạm giả thuyết và sai số chuẩn của đại lượng này:

VCb và 2

S T

v b

sC C

Giả thuyết được kiểm định với thống kê t- Student, t=V/sv, là căn bậc hai của thống kê F đã nói ở trên.

3. Bằng cách so sánh mức độ phù hợp của hai mô hình, một mô hình chứa những tham số đã được kiểm định và một mô hinh không chứa các

Một phần của tài liệu Phân tích thống kê hiệu quả đào tạo cao đẳng tại trường Đại học Sao Đỏ (Trang 36)

Tải bản đầy đủ (PDF)

(102 trang)