5 ANOVA
5.1.4 ANOCOVA Phân tích hiệp phương sai
5 ANOVA
Same mean y=α+ε
Separate means y= (α+αi) +ε
Same line y=α+βx+ε
Parallel lines y= (α+αi) +βx+ε
Separate lines y= (α+αi) + (β+βi)x+ε
Phân tích hiệp phương sai là kỹ thuật để phân tích các dữ liệu được phân nhóm sử dụng mẫu yêu cầu (y, biến dự đoán) và mẫu dự đoán (x, biến được sử dụng để tạo dự đoán). Bằng phương pháp này, chúng ta có thể xây dựng mơ hình tuyến tính củaytheoxvới các hệ số có thể thay đổi tuỳ theo các nhóm.
Hàm aoctool mở một môi trường tương tác đồ hoạ để fit và dự đốn với mơ hình ANOCOVA. Nó sẽ fit model như bảng ở phần đầu chogroupthứi.
Ví dụ, trong model các đường song song thì hệ số tự do thay đổi từ group này sang group khác, nhưng các group có độ dốc giống nhau. Ở mơ hình cùng trung bình thì có chung hệ số tự do và khơng có độ dốc. Để có thể xác định được tốt các hệ số của nhóm, cơng cụ này áp đặt rằng
∑aj =∑bj=0
Ví dụ cài đặt code
Các bước sử dụngaoctool
B1:Load dữ liệu. Statistics and Machine Learning Toolbox có sẵn bộ dữ liệucarsmall.mat
từ năm 1970, 1976 và 1982 phân tích về mối quan hệ giữa khối lượng xe và nhiên liệu tiêu thụ qua từng năm. Để load dữ liệu, ta thực hiện câu lệnh:
load carsmall
5 ANOVA
B2:Sử dụng cơng cụ. Dịng lệnh sau đây gọi hàmaoctoolđể fit các đường riêng biệt cho vector cộtWeightvà MPGcho mỗi 3 group của mơ hình trong ModelYear. Mơ hình phù hợp fit
với biếny(MPG), là một hàm tuyến tính của biến x(Weight):
[h,atab,ctab,stats] = aoctool(Weight,MPG,Model_Year);
B3:Kiểm tra đầu ra: Đầu ra dạng đồ hoạ gồm cửa sổ chính với 1 đồ thị, một bảng giá trị các hệ số ước lượng, và một bảng ANOVA. Trong đồ thị, mỗi group ModelYearcó 1 đường khác nhau. Các điểm dữ liệu của mỗi group có cùng màu với nhau, với biểu tượng và đường fit cho mỗi group.
Hệ số của 3 đường xuất hiện trong 1 ảnh có tênANOCOVA Coefficients. Có thể thấy độ dốc
xấp xỉ -0.0078, với độ lệch nhỏ cho mỗi group:
• Mơ hình năm 1970:y= (45.9798−8.5805) + (−0.0078+0.002)x+ε • Mơ hình năm 1976:y= (45.9798−3.8902) + (−0.0078+0.0011)x+ε • Mơ hình năm 1982:y= (45.9798+12.4707) + (−0.0078−0.0031)x+ε
5 ANOVA
Vì 3 đường fit nàu có độ dốc gần tường đương nhau, ta tự hỏi rằng chúng có giống nhau thật khơng. Sự tương tác ModelYear*Weight thể hiện sự khác biệt về độ dốc, và bảng ANOVA kiểm tra ý nghĩa của kết luận này. Với thống kêF là 0.53 và p-value là 0.0072 thì kết luận độ dốc
khác nhau là có ý nghĩa.
B4:Ép các độ dốc giống nhau: Để tìm ra các đường fit mà các độ dốc phải giống nhau, ta trở lại với đồ thị ở trên, ở menu cuộnModelchọnParallel Lines. Đồ thị sẽ được cập nhật lại
5 ANOVA
Mặc dù thấy khá hợp lý, nhưng nó lại khơng ý nghĩa bằng mơ hìnhSeperate Lines. Chọn lại
menu cuộnModelđể về mơ hình gốc.