7. Bố cục đề tài nghiên cứu:
3.3.4 Một số kỹ thuật phân tích, xử lý số liệu thống kê
3.3.4.1 Phân tích thống kê mô tả
- Định nghĩa: Thống kê mô tả là các phƣơng pháp liên quan đến phƣơng pháp thu thập số liệu, tóm tắt, trình bày và mô tả các đặc trƣng khác nhau để phản ánh một cách tổng quát đối tƣợng nghiên cứu.
- Dãy số phân phối: Là dãy số trình bày theo thứ tự số lƣợng các đơn vị của từng tổ trong một tổng thể đã đƣợc phân tổ theo một tiêu thức nào đó nhằm khảo sát tình hình phân phối các đơn vị tổng thể theo tiêu thức nghiên cứu. Qua đó thấy đƣợc kết cấu của tổng thể và sự biến động của kết cấu đó, có thể tính các chỉ tiêu nói lên đặc trƣng của tổng thể.
- Bảng thống kê: Là một hình thức biểu hiện các tài liệu tổng hợp thống kê một cách có hệ thống, hợp lý, rõ ràng nhằm nói lên đặc trƣng về mặt lƣợng của hiện tƣợng nghiên cứu. Thông qua bảng thống kê số liệu đƣợc trình bày một cách khoa học, gọn
gàng, dễ hiểu, giúp cho ngƣời xem hiểu đƣợc mối liên hệ giữa các số liệu trong bảng, thực hiện so sánh đối chiếu để rút ra bản chất của hiện tƣợng nghiên cứu.
- Đồ thị thống kê: Là những hình vẽ, đƣờng nét hình học dùng để miêu tả có tính chất quy ƣớc các tài liệu thống kê. Đồ thị thống kê nêu lên sự phát triển của hiện tƣợng theo thời gian, trình bày mức độ phổ biến và mối liên hệ giữa các hiện tƣợng, trình bày tình hình thực hiện kế hoạch.
- Các đại lƣợng thống kê mô tả:
+ Mean: số trung bình cộng + Sum: tổng cộng
+ Std Deviation: độ lệch chuẩn + Std Error: sai số chuẩn
+ Minimum, maximum: giá trị nhỏ nhất, giá trị lớn nhất
+ Median (Me): số trung vị là lƣợng biến của tiêu thức của đơn vị đứng ở vị trí giữa trong dãy số lƣợng biến, chia số lƣợng biến thành hai phần (phần trên và phần dƣới) mỗi phần có cùng một số đơn vị bằng nhau.
+ Mode (Mo): số yếu vị là biểu hiện của tiêu thức đƣợc gặp nhiều nhất trong tổng thể hay trong dãy phân phối. Số mode là giá trị thể hiện tính phổ biến của hiện tƣợng, tức là dữ liệu tập trung ở một khoảng giá trị nào đó.
3.3.4.2 Phân tích nhân tố
- Khái niệm: Phân tích nhân tố là tên chung của một nhóm các thủ tục đƣợc sử dụng chủ yếu để thu nhỏ và tóm tắt dữ liệu. Trong nghiên cứu, chúng ta có thể thu thập đƣợc một số lƣợng biến khá lớn và hầu hết các biến này có liên hệ với nhau và số lƣợng của chúng cần phải đƣợc giảm bớt xuống đến một số lƣợng mà chúng ta có thể sử dụng. Liên hệ giữa các nhóm biến có liên hệ qua lại lẫn nhau đƣợc xem xét và trình bày dƣới dạng một số nhân tố cơ bản.
Trong phân tích phƣơng sai, hồi quy bội và phân tích biệt số, một biến đƣợc coi là phụ thuộc và các biến còn lại là biến độc lập (biến dự đoán), nhƣng trong phân tích nhân tố thì không có sự phân biệt này.
+ Nhận diện các khía cạnh hay nhân tố giải thích đƣợc các liên hệ tƣơng quan trong các tập hợp biến.
+ Nhận diện một tập hợp gồm một số lƣợng biến mới tƣơng đối ít không có tƣơng quan với nhau để thay thế tập hợp biến gốc có tƣơng quan với nhau để thực hiện một phân tích đa biến tiếp theo sau (ví dụ, hồi quy hay phân tích biệt số).
+ Để nhận ra một tập hợp gồm một số ít các biến nổi trội từ một tập hợp nhiều
biến để sử dụng trong các phân tích đa biến kế tiếp. - Mô hình phân tích nhân tố
Về mặt tính toán, phân tích nhân tố hơi giống phân tích hồi quy bội ở chỗ mỗi biến đƣợc biểu diễn nhƣ là một kết hợp tuyến tính của các nhân tố cơ bản. Lƣợng biến thiên của một biến đƣợc giải thích bởi những nhân tố chung trong phân tích gọi là communality. Biến thiên chung của các biến đƣợc mô tả bằng một số ít các nhân tố chung cộng với một nhân tố đặc trƣng cho mỗi biến. Những nhân tố này không bộc lộ rõ ràng. Nếu các biến đƣợc chuẩn hóa thì mô hình nhân tố đƣợc thể hiện bằng phƣơng trình:
Xi = Ai1F1 + Ai2F2 + Ai3F3 + … + AimFm + ViUi
Trong đó:
Xi: biến thứ i đƣợc chuẩn hóa
Aim: hệ số hồi quy bội chuẩn hóa của nhân tố m đối với biến i Fi: nhân tố chung
Vi: các hệ số hồi quy chuẩn hóa của nhân tố đặc trƣng i đối với biến i Ui : nhân tố đặc trƣng của biến i
m: số nhân tố chung
- Các tham số thống kê trong phân tích nhân tố
+ Barlett' test of sphericity: đại lƣợng Bartlett là một đại lƣợng thống kê dùng để xem xét giả thiết các biến không có tƣơng quan trong tổng thể. Nói cách khác, ma trận tƣơng quan tổng thể là một ma trận đồng nhất, mỗi biến tƣơng quan hoàn toàn với chính nó nhƣng không tƣơng quan với các biến khác.
+ Correlation matrix: cho biết hệ số tƣơng quan giữa tất cả các cặp biến trong phân tích.
+ Communality: là lƣợng biến thiên của một biến đƣợc giải thích chung với các biến khác đƣợc xem xét trong phân tích.
+ Eigenvalue: đại diện cho phần biến thiên đƣợc giải thích bởi mỗi nhân tố. + Factorloading: là những hệ số tƣơng quan đơn giữa các biến và các nhân tố. + Factor matrix: chứa các hệ số tải nhân tố của tất cả các biến đối với các nhân tố đƣợc rút ra.
+ Kaiser- Meyer-Olkin (KMO): Là một số dùng để xem xét sự thích hợp của phân tích nhân tố. Trị số của KMO lớn (giữa 0,5 và 1) có ý nghĩa là phân tích nhân tố là thích hợp, còn nếu nhƣ trị số này nhỏ hơn 0,5 thì phân tích nhân tố có khả năng không thích hợp với các dữ liệu.
+ Percentage of variance: phần trăm phƣơng sai toàn bộ đƣợc giải thích bởi từng nhân tố. Nghĩa là coi biến thiên là 100% thì giá trị này cho biết phân tích nhân tố cô đọng đƣợc bao nhiêu phần trăm.
- Tiến hành phân tích nhân tố Bƣớc 1. Xác định vấn đề
Xác định vấn đề nghiên cứu gồm có nhiều bƣớc. Đầu tiên, phải nhận diện các mục tiêu của phân tích nhân tố cụ thể là gì. Các biến tham gia vào phân tích nhân tố phải đƣợc phân tích dựa vào các nghiên cứu trong quá khứ, phân tích lý thuyết và đánh giá của các nhà nghiên cứu. Một vấn đề là các biến này phải đƣợc đo lƣờng một cách thích hợp bằng thang đo định lƣợng và cỡ mẫu phải đủ lớn. Thông thƣờng thì số quan sát ít nhất phải bằng 4 hoặc 5 lần số biến trong phân tích nhân tố.
Bƣớc 2. Xây dựng ma trận tƣơng quan
Quá trình phân tích đƣợc dựa trên ma trận tƣơng quan của các biến này. Để có thể áp dụng đƣợc phân tích nhân tố thì các biến phải có liên hệ với nhau. Trong thực tế thƣờng luôn có điều này. Nếu hệ số tƣơng quan giữa các biến nhỏ, phân tích nhân tố có thể không thích hợp. Các nghiên cứu kỳ vọng rằng các biến này có tƣơng quan chặt chẽ với nhau và nhƣ vậy sẽ tƣơng quan chặt với cùng một hay nhiều nhân tố.
Có thể sử dụng Bartlett's test of sphericity để kiểm định giả thuyết không (H0) là các biến không có tƣơng quan với nhau trong tổng thể, nói cách khác là ma trận tƣơng quan tổng thể là một ma trận đơn vị trong đó các giá trị trên đƣờng chéo đều bằng 1 còn
các giá trị nằm ngoài đƣờng chéo đều bằng 0. Đại lƣợng kiểm định này dựa trên sự biến
đổi thành đại lƣợng Chi-square (χ2) từ định thức của ma trận tƣơng quan. Đại lƣợng này
có giá trị càng lớn thì ta càng có nhiều khả năng bác bỏ giả thuyết H0 này. Nếu giả thuyết H0 không thể bị bác bỏ thì phân tích nhân tố rất có khả năng không thích hợp.
Bƣớc 3. Số lƣợng nhân tố
Có thể tính ra một số lƣợng nhân tố nhiều bằng số biến, nhƣng làm nhƣ vậy thì không có tác dụng gì cho mục đích tóm tắt thông tin. Để tóm tắt thông tin chứa đựng trong các biến gốc, chúng ta cần rút ra số lƣợng nhân tố ít hơn số biến. Vấn đề là xác định có bao nhiêu nhân tố? Có 5 phƣơng pháp nhằm xác định số lƣợng nhân tố: xác định từ trƣớc, dựa vào eigenvalue, biểu đồ dốc, phần trăm biến thiên giải thích đƣợc, chia đôi mẫu và kiểm định mức ý nghĩa. Ta tìm hiểu cụ thể 2 phƣơng pháp sau:
- Phƣơng pháp xác định từ trƣớc: đôi khi từ kinh nghiệm và hiểu biết của mình, từ phân tích lý thuyết hay từ kết quả của các cuộc nghiên cứu trƣớc… ngƣời nghiên cứu biết đƣợc có bao nhiêu nhân tố có thể rút ra và nhƣ vậy có thể chỉ định trƣớc số lƣợng nhân tố có thể rút ra. Từ đó, có thể chỉ định trƣớc số lƣợng nhân tố có thể rút ra để báo cho chƣơng trình máy tính.
- Phƣơng pháp dựa vào eigenvalue: chỉ có nhân tố nào có eigenvalue lớn hơn 1 mới đƣợc giữ lại trong mô hình phân tích. Đại lƣợng eigenvalue đại diện cho lƣợng biến thiên đƣợc giải thích bởi nhân tố. Những nhân tố có eigenvalue nhỏ hơn 1 sẽ không có tác dụng tóm tắt thông tin tốt hơn biến gốc vì sau khi chuẩn hóa mỗi biến gốc có phƣơng sai là 1.
Bƣớc 4. Xoay nhân tố
Một phần quan trọng trong kết quả phân tích nhân tố là ma trận nhân tố (Component Matrix). Ma trận nhân tố chứa các hệ số biểu diễn các biến chuẩn hóa bằng các nhân tố. Những hệ số này (factor loading) biểu diễn tƣơng quan giữa nhân tố và các biến. Hệ số này lớn cho biết nhân tố và biến có quan hệ chặt chẽ với nhau. Các hệ số này dùng để giải thích các nhân tố.
Mặc dù ma trận nhân tố ban đầu hay ma trận không xoay này cho thấy đƣợc mối quan hệ giữa các nhân tố và từng biến một nhƣng nó ít khi tạo ra những nhân tố có thể giải thích đƣợc một cách dễ dàng bởi các nhân tố có tƣơng quan với nhiều biến, trong
những ma trận phức tạp việc giải thích kết quả khó khăn hơn. Vì vậy, thông qua việc xoay các nhân tố, ma trận nhân tố sẽ trở nên đơn giản hơn và dễ giải thích hơn. Khi xoay nhân tố, chúng ta muốn mỗi nhân tố có hệ số khác 0 (có ý nghĩa) chỉ trong vài biến. Tƣơng tự, chúng ta cũng muốn mỗi biến chỉ có hệ số khác không chỉ với vài nhân tố hay nếu có thể chỉ với một nhân tố mà thôi. Nếu nhiều nhân tố có hệ số lớn trong cùng một biến, chúng ta cũng khó mà giải thích đƣợc. Việc xoay nhân tố không có ảnh hƣởng đến communality và phần trăm của toàn bộ phƣơng sai đƣợc giải thích. Tuy nhiên, phần trăm phƣơng sai đƣợc giải thích bởi từng nhân tố có thay đổi. Phần trăm đƣợc giải thích bởi từng nhân tố sẽ đƣợc phân phối lại khi xoay nhân tố. Vì vậy, các phƣơng pháp xoay khác nhau sẽ nhận diện những nhân tố khác nhau.
Bƣớc 5. Đặt tên và giải thích các nhân tố
Việc giải thích các nhân tố đƣợc thực hiện trên cơ sở nhận ra các biến có hệ số tải (factor loading) lớn ở cùng một nhân tố. Nhƣ vậy, nhân tố này có thể đƣợc giải thích bằng các biến có hệ lớn đối với bản thân nó.
3.3.4.3 Phân tích hồi quy
Sử dụng phân tích hồi quy để phân tích tác động của các biến độc lập với các biến phụ thuộc. Kết quả phân tích hồi quy sẽ đƣợc dùng để đánh giá độ phù hợp của mô hình hiệu chỉnh theo EFA và kiểm định các giả thyết nêu trên.
Khi kết luận đƣợc hai biến có liên hệ chặt chẽ với nhau, đồng thời giả định rằng đã cân nhắc kỹ bản chất của mối liên hệ tiềm ẩn giữa hai biến, và xem nhƣ đã xác định đúng hƣớng của mối quan hệ nhân quả có thật giữa chúng thì ta có thể mô hình hóa mối quan hệ nhân quả của chúng bằng mô hình hồi quy tuyến tính trong đó một biến đƣợc gọi là biến phụ thuộc (hay biến đƣợc giải thích - Y) và biến kia là biến độc lập (hay biến giải thích - X). Mô hình này sẽ mô tả hình thức của mối liên hệ và qua đó giúp ta dự đoán đƣợc mức độ của biến phụ thuộc (với độ chính xác trong phạm vi giới hạn) khi biết trƣớc giá trị của biến độc lập.
Mô hình hồi quy bội mở rộng mô hình hồi quy hai biến bằng cách thêm vào một số biến độc lập để giải thích tốt hơn cho biến phụ thuộc.
Yi=01X1i 2X2i ...pXpi ei
Trong đó:
Xpi: giá trị của biến độc lập thứ p tại quan sát thứ i.
k
: hệ số hồi quy riêng phần thứ k
ei: biến độc lập ngẫu nhiên ( có phân phối chuẩn với trung bình là 0 và phƣơng sai
không đổi 2)
Mô hình hồi quy tuyến tính bội giả định rằng biến phụ thuộc có phân phối chuẩn đối với bất kỳ kết hợp nào của các biến độc lập trong mô hình.
Đánh giá độ phù hợp của mô hình hồi quy tuyến tính bội:
Hệ số xác định R2
(coefficient of determination) thƣờng đƣợc dùng là thƣớc đo sự
phù hợp của mô hình hồi quy tuyến tính. Công thức tính R2
xuất phát từ ý tƣởng: toàn bộ biến thiên quan sát đƣợc của biến phụ thuộc đƣợc chia thành hai phần – phần biến thiên do hồi quy và phần biến thiên không do hồi quy hay còn gọi là phần dƣ. Ngƣời ta sử dụng
R2 theo quy tắc R2 càng gần 1 thì mô hình đã xây dựng càng thích hợp, càng gần 0 thì
mô hình càng kém phù hợp với tập dữ liệu mẫu.
Vì R2 đƣợc chứng minh là hàm không giảm theo số biến độc lập đƣợc đƣa vào mô
hình. Do đó, càng đƣa thêm nhiều biến độc lập vào mô hình thì R2
càng tăng. Điều này không có nghĩa là phƣơng trình càng có nhiều biến thì sẽ càng phù hợp hơn với tập dữ liệu.
Kiểm định giả thuyết về độ phù hợp của mô hình:
Hệ số xác định R2
chỉ thể hiện sự phù hợp giữa mô hình với tập dữ liệu mẫu. Để kiểm định độ phù hợp của mô hình hồi quy tổng thể, ta sử dụng kiểm định F trong bảng phân tích phƣơng sai để kiểm định giả thuyết về sự phù hợp của mô hình hồi quy tuyến tính tổng thể. Ở đây, ta xem xét liệu biến phụ thuộc có liên hệ tuyến tính với toàn bộ tập hợp các biến độc lập hay không. Ta lần lƣợt đặt giả thuyết cho các 1,2,3,4,…=0 và kỳ vọng rằng giả thuyết này bị bác bỏ vì nếu có nào bằng 0 thì yếu tố đó (biến độc lập)
Khi kiểm định các giả thuyết trên, để rút ra các kết luận, ta so sánh mức ý nghĩa
quan sát sig. với mức ý nghĩa ta chọn cho kiểm định là 5% (p = 0.05). Nếu các giá trị
khác 0 và sig < 0,05 thì những giá trị đó có ý nghĩa về mặt thống kê. Và ngƣợc lại nếu
các giá trị khác 0 và sig > 0,05 thì những giá trị đó không có ý nghĩa về mặt thống
kê.
Xác định tầm quan trọng của các biến trong mô hình:
Trong hồi quy bội có nhiều biến độc lập ta có thể muốn xác định với các biến đã đƣa vào mô hình, biến nào có vai trò quan trọng hơn trong việc dự đoán giá trị lý thuyết của Y hay chúng quan trọng nhƣ nhau.
Theo Pindick, Rubinfeld (1991),căn cứ vào trị số tuyệt đối của hệ số beta đã chuẩn hóa (standardized coefficients) hoặc hệ số tƣơng quan riêng phần (Part Correlations) ta có thể xác định đƣợc biến nào có vai trò quan trọng hơn trong việc dự đoán giá trị lý thuyết của Y hay chúng quan trọng nhƣ nhau.
Tóm tắt chƣơng 3:
Chƣơng này trình bày phƣơng pháp nghiên cứu gồm hai bƣớc chính: nghiên cứu sơ bộ và nghiên cứu chính thức. Nghiên cứu sơ bộ đƣợc thực hiện bằng nghiên cứu định tính