Cần xác định rõ sự khác nhau rất cơ bản của một số trạng thái đặc biệt của số liệu gán cho các biến. Khi quan sát trạng thái (mức hay biểu hiện) của một biến trên các đối tượng khác nhau của một tổng thể chúng ta có thể gặp những tình huống cần lưu ý như sau : Khơng có hiện tượng (NA); Có hiện tượng xảy ra nhưng không thu thập được do: không trả lời (REF)/ không được cung cấp (NP)/không biết (DK); Mức giá trị 0 (0 hoặc 0,0); Trường hợp có thơng tin chỉ định giá trị thiếu (không mặc định) và giá trị mức hoặc không áp dụng của một biến ; Trường hợp các giá trị khơng hợp lệ (ngồi khung giá trị qui ước), sai đơn vị, sai định dạng số, v.v…
Các bộ số liệu thường cung cấp thông tin từ các đối tượng, ở những mức độ, phạm vi khác nhau các quan sát phải đảm bảo tính duy nhất. Kiểm tra tính duy nhất dựa trên các trường khóa là một trong các cách để loại trừ số liệu bị nhập trùng lặp hoặc thậm chí là điều tra trùng trong khi thu thập số liệu thực địa.
3.1.1.4. Kiểm tra logic và các đặc trưng mẫu a. Kiểm tra logic a. Kiểm tra logic
Thông thường các quan hệ logic được đặt ngay trong thiết kế nhập dữ liệu. Tuy nhiên, cần kiểm tra logic với tất cả các khả năng có thể để tránh sai sót và ảnh hưởng đến kết quả phân tích sau này. Một hệ thống các biến kiểm tra phải được thiết kế ngay từ đầu để phát hiện các sai sót dạng này. Hết sức tránh tình trạng khi xử lý gặp một kết quả khơng giải thích được mới phát hiện ra số liệu lỗi logic, hậu quả là có thể phải làm lại mọi tính tốn, phân tích từ đầu.
b. Sử dụng thống kê mơ tả, các biểu đồ phát hiện các giá trị ngoại lai và dữ liệu lỗi
Các mô tả thống kê nhờ các đặc trưng và các biểu đồ của các biến là cơng cụ hữu ích hơn cả để phát hiện các giá trị (thông tin) cá biệt- ngoại lai. Các giá trị nhỏ nhất, lớn nhất sẽ cho biết vùng dữ liệu quan sát được của mỗi biến. Đây chính là thơng tin quan trọng xác định một biến nào đó có trường hợp ngoại lai khơng . Cũng cần chú ý là giá trị ngoại lai không nhất thiết là thông tin sai , nhưng cần loại các giá trị này trong một số tính tốn vì chúng có thể làm sai lệch đặc trưng chung của tổng thể nghiên cứu.
Lỗi dữ liệu có thể xuất hiện có tính hệ thống, có thể phát hiện các lỗi này qua các biểu đồ quan hệ, qua mối quan hệ giữa các biến có quy luật, v.v… Khi một biểu đồ quan hệ của hai biến X và Y không phản án h đúng quan hệ thực tế chúng ta có thể cần nhiều hơn các phân tích để xác định đó là trường hợp cá biệt hay do lỗi của dữ liệu (do cách hiểu các câu hỏi không thống nhất hoặc hiểu sai nội dung câu hỏi trong các cuộc khảo sát).
c. Xử lý số liệu thiếu
Cần phân biệt rõ số liệu thiếu và giá trị 0 của số liệu (nhất là các biến định lượng). Trong rất nhiều trường hợp một quan sát tại một biến nào đó khơng có dữ liệu thì dữ liệu này có thể thay bằng 0 trong một số tính tốn. Trong những trường hợp khác giá trị thiếu khơng thể thay bằng 0 vì chắc chắn đó là giá trị tồn tại, khác 0
mà không thu thập được. Để bù giá trị thiếu loại này có thể dùng một số cách thông thường sau đây:
- Sử dụng giá trị trung tâm chung: Trong trường hợp tổng thể thuần nhất theo chỉ tiêu X, giá trị thiếu của X có thể lấp đầy bởi một trong các giá trị trung tâm của biến này (trung bình, trung vị hay mốt).
- Sử dụng giá trị trung tâm nhóm: Nếu tổng thể chỉ được coi là thuần nhất về X với một số điều kiện nào đó. Chúng ta có thể sử dụng trung bình nhóm lấp đầy giá trị thiếu nhờ việc chia nhóm theo các điều kiện sao cho trong mỗi nhóm tính thuần nhất có thể được chấp nhận.
- Sử dụng trung bình (hay trung vị) địa phương: Trong một số trường hợp người ta sử dụng trung bình của các quan sát liền kề lấp đầy giá trị thiếu.
- Ngồi ra có thể sử dụng các phép nội suy theo các quan hệ của các biến để tìm giá trị thay cho giá trị thiếu. Trong hầu hết các phân tích thống kê, các phần mềm chuyên nghiệp đều cho phép lựa chọn cách bù giá trị thiếu tạm thời trong tính tốn. Việc lựa chọn cách thức bù giá trị thiếu cần hết sức thận trọng.
3.1.2. Các công cụ thống kê trong phân tích định lượng
3.1.2.1. Kiểm tra tính vững của các biến quan sát
Việc đưa vào hay loại bỏ các chỉ số trong tập dữ liệu là một tiếp cận làm tăng minh chứng dữ liệu trong việc đo lường. Do đó, việc quan trọng đối với các giá trị của chỉ số thu hút FDI rằng các chỉ số phải đại diện cho việc quyết định mạnh mẽ hơn. Nghiên cứu này được áp dụng kiểm định bằng hệ số tương quan Pearson để đánh giá độ bền, với điều kiện là một mối quan hệ tuyến tính tồn tại. Quan hệ tuyến tính là một giả định quan trọng và cần phải được kiểm tra, thử nghiệm trước khi tương quan Pearson được áp dụng. Kiểm tra tương quan Pearson cung cấp một thước đo của sự tương quan (phụ thuộc tuyến tính) giữa hai biến. Nếu sự tương quan giữa một chỉ số và chỉ số khác là mạnh mẽ, có khả năng là hai chỉ số chia cùng sẻ những đặc điểm trong cùng một nhân tố (Joseph F. Hair và cộng sự, 2010). Vì vậy, một sự tương quan mạnh mẽ mang lại lợi ích thiết thực của các số liệu, như các chỉ số bao gồm là đại diện cho các chỉ số khác của yếu tố. Joseph F. Hair và cộng sự (2010) nhấn mạnh rằng mối tương quan tối thiểu là 0,3 là cần thiết để chứng minh bất kỳ mối quan hệ giữa hai biến. Một kiểm tra mạnh mẽ đầy đủ tất cả các chỉ số là
một quá trình rộng lớn và sâu rộng, và được coi là nằm ngoài phạm vi của nghiên cứu này. Do đó việc kiểm tra mạnh mẽ cố gắng tập trung vào hai yếu tố quyết định nhạy cảm nhất được phát hiện trong các tài liệu (OECD, 2008).
Mối liên hệ ràng buộc lẫn nhau giữa các chỉ tiêu hoặc tiêu thức của hiện tượng (từ đây chỉ dùng từ “chỉ tiêu” đặc trưng cho cả hai), trong đó sự biến động của một chỉ tiêu này (chỉ tiêu kết quả) là do tác động của nhiều chỉ tiêu khác (các chỉ tiêu nguyên nhân) gọi là liên hệ tương quan - một hình thức liên hệ khơng chặt chẽ.
Một phương pháp tốn học áp dụng vào việc phân tích thống kê nhằm biểu hiện và nghiên cứu mối liên hệ tương quan giữa các chỉ tiêu của hiện tượng kinh tế xã hội gọi là phân tích tương quan.
Q trình phân tích tương quan gồm các cơng việc cụ thể sau:
- Phân tích định tính về bản chất của mối quan hệ, đồng thời dùng phương pháp phân tổ hoặc đồ thị để xác định tính chất và xu thế của mối quan hệ đó.
- Biểu hiện cụ thể mối liên hệ tương quan bằng phương trình hồi quy tuyến tính hoặc phi tuyến tính và tính các tham số của các phương trình.
- Đánh giá mức độ chặt chẽ của mối liên hệ tương quan bằng các hệ số tương quan hoặc tỉ số tương quan.
3.1.2.2. Kiểm tra tính q trình ngẫu nhiên dừng và khơng dừng
Trong một mơ hình hồi quy bằng phương pháp OLS, sai số ngẫu nhiên có kỳ vọng bằng 0, phương sai khơng đổi và chúng khơng có tương quan với nhau. Nếu mơ hình được ước lượng theo phương pháp OLS trong đó giá trị của các biến là các chuỗi thời gian và các chuỗi thời gian này thường có yếu tố xu thế. Trong trường hợp này nếu ước lượng mơ hình thì giá trị trung bình và phương sai không nhất quán theo thời gian. Để kiểm tra tính dừng và khơng dừng, có thể sử dụng nhiều công cụ khác nhau để kiểm chứng (nhiễu trắng, bước ngẫu nhiên, tự hồi quy, lược đồ tự tương quan, nghiệm đơn vị, hồi quy giả mạo, v.v…).
3.1.2.3. Khắc phục đa cộng tuyến giữa các biến quan sát
Trong một mơ hình nếu có nhiều biến độc lập cùng giải thích đến biến phụ thuộc đồng thời các biến độc lập này có quan hệ chặt chẽ với nhau dẫn đến hiện tương đa cộng tuyến. Dấu hiệu có thể phát hiện đa cộng tuyến: phương sai và hiệp
phương sai của các ước lượng OLS lớn, khoảng tin cậy của ước lượng rộng hơn; hệ số xác định R2 cao nhưng có giá trị t thấp; các ước lượng OLS và sai số của ước lượng rất nhạy đối với những thay đổi nhỏ trong dữ liệu; dấu của các ước lượng của các hệ số hồi quy có thể sai, v.v… Để khắc phục đa cộng tuyến, có thể sử dụng thông tin tiên nghiệm từ thực tế hoặc lý thuyết để lý giải trong lĩnh vực nghiên cứu; loại trừ bớt biến giải thích ra khỏi mơ hình; thu thập thêm số liệu hoặc lấy thêm mẫu mới; rút gọn các biến quan sát thành nhân tố chung bằng phân tích nhân tố EFA làm biến đại diện cho các biến quan sát ban đầu, v.v…
3.2. Phân tích chạy mơ hình thu hút dịng vốn FDI
Phương trình hồi quy tuyến tính tổng qt nhằm đo lường mức độ ảnh hưởng của các nhân tố đến thu hút dòng vốn FDI và FDI địa phương ở Việt Nam:
j ij n h hij h m k kij k ij M X e u Y = + ∑ + ∑ + + = =1 1 0 α α α (1)
Trong đó: Yij là biến phụ thuộc (thu hút dòng vốn FDI); Mkijlà biến độc lập thứ k ở thời điểm thứ i của đối tượng j (các nhân tố bên ngoài tác động đến FDI gồm quy mô thị trường, tăng trưởng kinh tế, lạm phát, tỷ giá hối đoái, hiệu quả đầu tư, độ mở thương mại); Xhij là biến độc lập thứ h ở thời điểm thứ i của đối tượng j (các nhân tố năng lực cạnh tranh tác động đến FDI gồm chi phí gia nhập thị trường; tiếp cận đất đai; tính minh bạch; chi phí thời gian; chi phí khơng chính thức; cạnh tranh bình đẳng; tính năng động; hỗ trợ doanh nghiệp; đào tạo lao động; thiết chế pháp lý); eijlà sai số ở thời điểm thứ i đối tượng j; ujlà sai số đối tượng j.
Tuy nhiên, để các hệ số ước lượng được vững, cần rút gọn các nhân tố năng lực cạnh tranh PCI (10 nhân tố) bằng phân tích EFA. Như vậy, phương trình (1) được thiết kế theo hệ phương trình sau:
j ij q p pij p m k kij k ij M F e u Y = + ∑ + ∑ + + = =1 1 0 α α α (2) j ij n h hij h pij F e u F = ∑ + + =1 β (3)
Trong đó, nhân tố Fpijlà nhân tố p đại diện cho các biến độc lập h có trọng số
tranh nhằm hạn chế vấn đề đa cộng tuyến, đồng thời nhân tố được rút gọn đánh giá những khía cạnh độc lập ảnh hưởng đến việc thu hút dòng vốn FDI.
3.2.1. Quy tắc phân tích nhân tố khám phá (EFA)
Hình 3.2. Quy trình phân tích nhân tố khám phá EFA
Phân tích nhân tố khám phá (EFA) là một phương pháp thống kê để xác định mối tương quan giữa các biến trong một bộ dữ liệu. Kiểu phân tích này cung cấp một cấu trúc nhân tố khám phá EFA để xem xét tính ổn định và mối tương quan của các biến quan sát có trong dữ liệu trước khi điều tra chính thức. Trong nghiên cứu chính thức, hai cơng cụ thống kê này ngoại việc xem xét tính ổn định của số liệu của mơ hình, số liệu của các biến quan được rút gọn thành những nhân tố thay thế đại diện cho những thang đo.
Phân tích nhân tố EFA nhằm rút gọn một tập hợp biến quan sát ban đầu thành những nhân tố chung đại diện cho những thang đo (Child, 1990). Các nhà nghiên cứu muốn khám phá các mẫu trong các dữ liệu hoặc để kiểm tra giả thuyết quy định rõ ràng. Phân tích nhân tố khám phá (EFA), khơng áp đặt những hạn chế nội dung trên các dữ liệu; khơng có hạn chế về các mơ hình của các mối quan hệ giữa các biến quan sát và tiềm ẩn. EFA là dữ liệu hướng (Brown, 2006). Mỗi nhân tố phổ biến được giả định ảnh hưởng đến tất cả các biến quan sát và các nhân tố thông thường là một trong hai tất cả các tương quan hoặc không tương quan. Sau khi mơ hình được ước tính, điểm số yếu tố, các đại lượng của các biến tiềm ẩn,
Xác định các biến quan sát Các nguyên tắc kiểm định EFA
Xác định các nhân tố Giải thích từng nhân tố Tính điểm cho các biến nhân tố:
- Chuẩn hóa - Chưa chuẩn hóa
được tính tốn và sử dụng để phân tích đánh giá. Như vậy, phân tích nhân tố EFA được cho là phù hợp khi các tiêu chuẩn sau đây được thỏa điều kiện:
- Tính thích hợp của EFA (Kaiser – Meyer – Olkin): là chỉ số dùng xem xét sự thích hợp của phân tích nhân tố nếu 0,5 ≤ KMO ≤ 1.
- Kiểm định Bartlett (Bartlett’s Test of Sphericity): kiểm định giả thuyết H0 (các biến khơng có tương quan với nhau trong tổng thể). Ma trận tương quan tổng thể là một ma trận đơn vị trong đó tất cả các giá trị trên đường chéo đều bằng 1 và ngoài đường chéo bằng 0. Đại lượng kiểm định này dựa trên sự biến đổi thành đại lượng Chi-Square từ định thức của ma trận tương quan. Ý nghĩa kiểm định Bartlett cho biết nếu bác bỏ giả thuyết H0: đại lượng Chi-Square lớn, ý nghĩa thống kê nhỏ hơn 0,05 thì phân tích nhân tố là thích hợp, cịn nếu chưa có cơ sở bác bỏ giả thuyết H0: đại lượng Chi-Square nhỏ, ý nghĩa thống kê lớn hơn 0,05 thì phân tích nhân tố có khả năng khơng thích hợp.
- Hệ số tải nhân tố (Factor Loadings): là những hệ số tương quan đơn giữa các biến và các nhân tố. Thông thường, nếu số mẫu trên 350 thì hệ số tải nhân tố được cho là phù hợp 0.3.
- Phương sai trích (cumulative of variance): là phân trăm phương sai tồn bộ được thích bởi các nhân tố, nghĩa là coi biến thiên 100% thì giá trị này cho biến phân tích nhân tố cơ đọng được bao nhiêu % và bị thất thoát bao nhiêu %. Tiêu chuẩn để chấp nhận phân tích nhân tố có phương sai cộng dồn lớn hơn 50% với Eigenvalue phải lớn hơn 1.
Để tính điểm nhân tố, kết quả phân tích nhân tố EFA đã cho kết quả các biến nhân tố đã được chuẩn hóa và các nhân tố này độc lập với nhau để giải thích những khía cạnh riêng biệt của từng nhân tố. Tuy nhiên, biến nhân tố cũng có thể được tính trên cơ sở ma trận trọng số nhân tố. Trong một số nghiên cứu khác, ma trận trọng số nhân tố cịn được tính bằng điểm số bình qn của các biến quan sát có trong nhân tố đó, nhưng cách tính này vẫn cịn nhược điểm các nhân tố cũng có thể có mối quan hệ với nhau.
3.2.2. Phân tích hồi quy tuyến tính:
- Phương pháp Enter: được sử dụng để phân tích hồi quy bằng cách tất cả các biến độc lập được đưa vào một lần, đưa ra các thông số thống kê liên quan đến các
biến. Nếu biến nào thỏa đìều kiện kiểm định ý nghĩa hệ số hồi quy (Sig. ≤ 0,05) thì nên giữ lại trong mơ hình hồi quy, cịn biến nào khơng thỏa điều kiện kiểm định thì nên loại ra.
- Phương pháp Stepwise: được sử dụng để phân tích hồi quy bằng cách lựa chọn từng biến độc lập đưa vào dần (Forward Selection) và loại trừ dần (Backward Elimination). Đây là phương pháp kết hợp giữa phương pháp đưa vào dần (Forward selection) và loại trừ dần (Backward elimination). Biến độc lập thứ nhất được xem xét đưa vào phương trình là biến có tương quan lớn nhất với biến phụ thuộc (SAT), tiêu chuẩn để kiểm định F là xác suất F vào (Probability of F to Enter) phải ≤ 0,05 và xác suất F ra (Probability of F to remove) phải ≥ 0,10. Nếu nó thỏa cả 2 tiêu chuẩn xác suất F vào và xác suất F ra thì biến này được giữ lại trong mơ hình hồi