III. PHĐN TÍCH PHĐN BIỆ T DISCRIMINANT ANALYSIS
4.2. Phđn tích phđn biệt đa nhĩm: Lă kỹ thuật phđn tích được sử dụng trong trường họp biến phụ thuộc được phđn loại thănh ba hay nhiều nhĩm Chi tiết của phđn tích năy sẽ được đề cập trong
phụ thuộc được phđn loại thănh ba hay nhiều nhĩm. Chi tiết của phđn tích năy sẽ được đề cập trong những phần sau.
5. Mơ hình phđn tích phđn biệt
Mơ hình phđn tích phđn biệt được dựa văo mơ hình thống kí như sau: D = bo + b1x1 + b2x2 + ...+ bkxk
Trong đĩ:
D: Ðiểm phđn biệt (biến phụ thuộc) bi: Câc hệ số hay trọng số phđn biệt (i = 1,n) xi: câc biến độc lập (i = 1,n)
Trong mơ hình phđn tích, hệ số hay trọng số (bi) được ước lượng để phđn biệt sự khâc nhau giữa câc nhĩm dựa văo giâ trị của hăm phđn biệt. Ðiều năy xuất hiện khi tỷ số giữa tổng bình phương giữa câc nhĩm vă tổng bình phương trong từng nhĩm cĩ điểm phđn biệt lớn nhất.
Bước 1: Hình thănh vấn đề
Vấn đề được hình thănh bằng câch nhận dạng mục tiíu phđn tích, biến độc lập vă biến phụ thuộc. Biến phụ thuộc phải bao gồm hai hay nhiều nhĩm được chọn. Nếu biến phụ thuộc sử dụng thang đo khoảng hay thang đo tỷ lệ, trước tiín phải phđn loại chúng về tính chất thay vì dùng hệ thống thang đo. Chẳng hạn như thâi độ của khâch hăng đối với một nhên hiệu năo đĩ dùng thang đo 6 điểm với mức ưa thích tăng dần từ một đến sâu. Trong trường hợp năy ta chia thang đo 6 điểm lăm hai phần: từ một đến ba điểm lă điểm thể hiện khâch hăng khơng thích nhên hiệu vă điểm từ bốn đến sâu lă nhên hiệu mă khâch hăng quan tđm nhiều hơn. Những biến độc lập được chọn dựa văo mơ hình lý thuyết hoặc dựa văo câc nghiín cứu trước.
Tiến trình phđn tích nhđn tố trong phần mềm SPSS như sau:
• Nhập dữ liệu 5 biến như giới thiệu trong bước 1- chọn menu Analyze - chọn Classify -
chọn Discriminant ... - Chọn câc chi tiết của câc menu trong hộp thoại Discriminant Analysis như Grouping variable, Independent variables, Statistics and Classify - chọn OK, sau đĩ ta cĩ bảng kết quả (bảng 7.8) được giải như dưới đđy.
Sau khi nhận dạng câc biến độc lập vă phụ thuộc, mẫu sẽ được chia thănh hai bộ phận khâc nhau: (1) Mẫu phđn tích được sử dụng để ước lượng hăm phđn biệt, vă (2) Mẫu tiíu chuẩn dùng để chuẩn hĩa hăm phđn biệt. Khi cỡ mẫu đủ lớn thì cĩ thể chia lăm hai phần cĩ số quan sât bằng nhau cho hai bộ phận năy vă vai trị của chúng cũng luđn phiín thay đổi, nghĩa lă một nửa cỡ mẫu sẽ đĩng hai vai trị của hai bộ phận khâc nhau năy. Hơn nữa, phđn phối của một nữa cỡ mẫu được giả sử giống như phđn phối của toăn bộ mẫu. Chẳng hạn, nếu mẫu bao gồm 25% khâch hăng trung thănh vă 75% khâch hăng khơng trung thănh thì khi thực hiện mẫu phđn tích vă mẫu chuẩn hĩa cũng cĩ phđn phối xâc suất lă 25% vă 75%. Một trong những chỉ tiíu đânh giâ hiệu quả lă số lần thử nghiệm được lập lại vă luđn phiín thay đổi giữa hai bộ phận năy của mẫu.
Bước 1: Ước lượng câc hệ số của hăm phđn biệt
Ước lượng hệ số của hăm phđn biệt thường dựa văo mẫu phđn tích (analysis sample). Cĩ
hai câch tiếp cận cho ước lượng năy:
¨ Phương phâp trực tiếp: Theo phương phâp năy mơ hình ban đầu bao gồm tất cả câc biến độc lập. Câch tiếp cận năy phù hợp khi vấn đề đê cĩ nghiín cứu trước đđy hoặc khi mơ hình lý thuyết cĩ sẵn.
¨ Phđn tích phđn biệt từng biến: Trong trường hợp năy, câc biến độc lập lần lượt được đưa văo mơ hình, phương phâp năy được sử dụng khi nhă nghiín cứu muốn chọn một số nhđn tố văo hăm phđn biệt. Ðể hiểu rõ hơn câc bước tiến hănh phđn tích phđn biệt giữa hai nhĩm, giả sử rằng chúng ta muốn xâc định những đặc điểm nổi bật của câc gia đình đi nghĩ mât trong hai năm qua. Số liệu thu nhập thập từ 42 gia đình bao gồm số gia đình đi du lịch vă khơng đi du lịch.
Trong đĩ, mẫu phđn tích cĩ số gia đình lă 30 vă mẫu chuẩn hĩa lă 12. Trong mỗi mẫu phđn tích vă chuẩn hĩa cĩ tỷ lệ bằng nhau về số gia đình cĩ đi nghĩ mât vă gia đình khơng đi nghĩ mât (đúng bằng 50%). Nghĩa lă trong 30 gia đình thuộc mẫu phđn tích cĩ 15 gia đình khơng đi nghĩ mât. Trường hợp mẫu chuẩn hĩa cũng hiểu tương tự nghĩa lă cĩ 6 gia đình khơng đi nghĩ mât. Dữ liệu thu thập trín năm biến độc lập: (1) thu nhập hăng năm (triệu đồng); (2) thâi độ thích đi du lịch (dùng thang đo 9 điểm cho sự tăng dần từ 1 - 9); (3) Tầm quan trọng của vấn đề đi du lịch (cũng dùng thang đo 9 điểm với tầm quan trọng tăng dần từ 1 đến 9); (4) Số nhđn khẩu trong gia đình vă (5) tuổi của chủ hộ. Kết quả xử lý bằng phần mềm SPSS ở mức ý nghĩa 5% như sau:
Bảng 7.8: kết qủa phđn tích phđn biệt hai nhđn tố
Pooled Within-Groups Correlation Matrix
Wilks'λ and F Ratio
Standard Canonical Discriminant Function Coefficients
Structure Matrix
Unstandard Canonical Discriminant Function Coefficients
Canonical Discriminant Functions evaluated at group means
Classification Results for cases selected for use in analysis
Theo kết quả phđn tích trong bảng 7.8, trước tiín chúng ta xem xĩt câc trung bình của nhĩm (group means) vă độ lệch chuẩn (standard deviations):
- Thứ nhất, thu nhập trung bình của hai nhĩm cĩ chính lệch khâ lớn, do đĩ nĩ cũng kĩo theo tầm quan trọng của việc du lịch (biến 3) cũng cĩ mức độ phđn biệt lớn hơn lă thâi độ thích thú đi du lịch (biến 2) giữa hai nhĩm. Trong khi đĩ, sự khâc biệt giữa hai nhĩm về số nhđn khẩu vă tuổi chủ hộ rất thấp, đặc biệt độ lệch chuẩn của biến tuổi chủ hộ rất lớn (8,57).
- Thứ hai, ma trận tương quan trong câc nhĩm (within- groups Correlation matrix) rất thấp
giữa câc biến độc lập (tất cả câc hệ số tương quan đều nhỏ hơn 0,2).
- Thứ ba, tỷ số F vă mức ý nghĩa trong từng biến thể hiện sự phđn biệt cĩ ý nghĩa hay khơng đến số người đi du lịch, khi phđn tích một biến năo đĩ nếu sig.F nhỏ hơn mức ý nghĩa ( trong xử lý thì biến đĩ cĩ ý nghĩa trong mơ hình phđn biệt. Theo kết quả xử lý chỉ cĩ 3 biến - thu nhập (sig = 0,000), tầm quan trọng của du lịch (sig=0,209) vă số nhđn khẩu (sig= 0,007) lă cĩ sự phđn biệt cĩ ý nghĩa giữa hai nhĩm.
- Thứ tư, cần xâc định số hăm phđn biệt (bằng số nhĩm trừ đi 1). Theo ví dụ ta cĩ hai nhĩm nín chỉ cĩ 1 hăm phđn biệt được xâc định. Dựa văo hăm phđn biệt chuẩn tắc (Canonical disriminant functions) trong bảng 7.8 ta thấy rằng hệ số tương quan R= 0,8007 vă từ đđy hệ số xâc định được tính như sau:
R2 = (0,807)2 = 0,64 = 64%
- Hệ số xâc định bằng 64% cĩ nghĩa lă chỉ cĩ 64% câc biến độc lập ảnh hưởng đến sự khâc biệt của hai nhĩm, cịn 26% do câc nhđn tố khâc khơng nghiín cứu trong mơ hình.
Bước 3: Xâc định ý nghĩa của hăm phđn biệt
Ðể hiểu rõ hăm phđn biệt cĩ ý nghĩa hay khơng, kiểm định giả thuyết Ho lă cần thiết:
Ho: Trung bình của tất cả câc hăm phđn biệt trong tất cả câc nhĩm thì bằng nhau (khơng cĩ sự phđn biệt)
H1: Trung bình của tất cả câc hăm phđn biệt trong tất cả câc nhĩm thì khâc nhau (sự phđn biệt cĩ ý nghĩa)
Bước 4: Giải thích kết quả
Giải thích câc hệ số phđn biệt cũng tương tự câch giải thích câc tham số hồi qui trong phđn tích hồi qui nhiều chiều. Biến độc lập năo cĩ hệ số phđn biệt chuẩn cao thì ảnh hưởng căng lớn đến hăm phđn biệt. Tương tự, trong ma trận tương quan (structure matrix) biến năo cĩ hệ số tương quan cao cũng tâc động lớn đến hăm phđn biệt. Qua ví dụ ta thấy biến thu nhập (r = 0,743) lă nhđn tố
quan trọng nhất trong sự phđn biệt giữa câc nhĩm, kế đến lă số nhđn khẩu vă tầm quan trọng của du lịch.
Ngoăi ra, nếu xử lý mẫu số liệu chuẩn hĩa (n = 12) , ta thấy rằng hăm phđn biệt nhĩm 1 cĩ giâ trị dương (1,29) (nhĩm người du lịch) vă nhĩm 2 (nhĩm người khơng đi du lịch) cĩ giâ trị đm (- 1,29).
Hơn nữa, tất cả năm biến độc lập đều cĩ hệ số hăm phđn biệt dương, điều năy nĩi lín rằng tuy mức độ cĩ khâc nhau nhưng căng cao thu nhập, số nhđn khẩu vă tuổi chủ hộ thì xu hướng căng kích thích câc gia đình tham quan du lịch (tham khảo mục Unstandardized canoncal discriminant
coefficients trong kết quả xử lý).
Mơ hình phđn biệt hợp lý hình thănh chung cho cả hai nhĩm bao gồm 3 nhđn tố: thu nhập, số nhđn khẩu vă tầm quan trọng của du lịch vì ba nhđn tố năy cĩ hệ số tương quan cao.
Bước 5: Ðânh giâ hiệu quả của phđn tích phđn biệt
Như đê được đề cập ở câc phần trước, mẫu trong phđn tích phđn biệt được chia lăm hai mẫu nhỏ. Mẫu phđn tích dùng để ước lượng hăm phđn biệt vă mẫu chuẩn hĩa sử dụng để phât triển ma trận phđn loại. Ðể đânh giâ hiệu quả phđn tích ta tính câc chỉ tiíu cĩ liín quan đến hai loại mẫu năy như sau.
• Tính điểm phđn biệt (discriminant scores)
Chỉ tiíu điểm phđn biệt năy cịn cĩ thể thay thế bằng câc tỷ số tiếp cận.
• Tỷ số tiếp cận (hit ratio): Lă phần trăm câc trường hợp được phđn loại đúng bởi phđn tích phđn biệt. Tỷ số năy được tính bằng câch lấy tổng số trường hợp được phđn loại đúng theo đường chĩo dấu huyền chia cho tổng số trường hợp xử lý. Nhìn trong bảng kết quả xử lý mục kết quả phđn loại (classfication results) ta cĩ câc tỷ số tiếp cận như sau:
- Trong mẫu phđn tích: ĉ - Trong mẫu chuẩn hĩa:ĉ
• Tỷ số tiếp cận tối thiểu: Lă tỷ số được tính từ tổng xâc suất của câc nhĩm (nếu cỡ mẫu của câc nhĩm bằng nhau thì chỉ tiíu năy bằng 1) chia cho số nhĩm. Trở lại ví dụ trín ta cĩ tỷ số tiếp cận tối thiểu lă:
- Kết luận chung: Nếu câc tỷ số tiếp cận trong phđn tích vă tỷ số tiếp cận tối thiểu lớn hơn 25% thì
tính hiệu quả của phđn tích phđn biệt được chấp nhận.
Sử dụng phđn tích đa nhĩm khi biến phụ thuộc được phđn loại từ ba nhĩm trở lín. Chẳng hạn như biến thu nhập cĩ thể phđn thănh ba loại: thu nhập cao, thu nhập trung bình vă thu nhập thấp. Trong nghiín cứu ta cĩ thể xâc định được biến độc lập năo cĩ thể phđn biệt được ba loại thu nhập năy. Trở lại ví dụ về du lịch được đề cập ở phần trín, ta vẫn sử dụng 5 biến độc lập: thu nhập, thâi độ du lịch, tầm quan trọng của du lịch, số nhđn khẩu vă tuổi chủ hộ nhưng cĩ sự thay đổi trong biến phụ thuộc. Biến phụ thuộc đại diện cho câc khả năng chi tiíu khi đi du lịch, hay nĩi câch khâc biến phụ thuộc Y chia lăm ba nhĩm - nhĩm 1: chi tiíu cao; nhĩm 2: chi tiíu trung bình vă nhĩm 3: chi tiíu thấp.
Bảng 7.9: kết quả phđn tích phđn biệt đa nhđn tố
Pooled Within-Groups Correlation Matrix
Wilks'λ and F Ratio
Canonical Discriminant Functions
Standard Canonical Discriminant Function Coefficients
Structure Matrix
Unstandard Canonical Discriminant Function Coefficients
Canonical Discriminant Functions evaluated at group means
Kết quả xử lý trong bảng 7.9 được giải thích theo thứ tự như sau: 7.1 Trung bình nhĩm (group means):
Trung bình thu nhập giữa câc nhĩm cĩ câch biệt lớn hơn so với câc biến khâc, tiếp theo lă thâi độ du lịch vă tầm quan trọng của du lịch. Trung bình nhđn khẩu vă tuổi chủ hộ giữa câc nhĩm khơng khâc biệt nhiều. Tuy nhiín, chính lệch tuổi của chủ hộ giữa câc nhĩm cĩ độ lệch chuẩn khâ cao.