Thu thập và phân tích dữ liệu

20 Lĩnh vực chính trị không được đưa vào thang đo hội nhập quốc tế ở cấp địa phương trong nghiên cứu này bởi các hoạt động hội nhập chính trị chỉ diễn ra ở cấp quốc gia (nghĩa là giữa chính phủ các nước với nhau).

3.4.3. Thu thập và phân tích dữ liệu

Thu thập dữ liệu: Dữ liệu sử dụng trong nghiên cứu này là dữ liệu ở dạng thứ cấp, nghĩa là chúng đã có sẵn trên thị trường, cụ thể là trên website của các tổ chức nghiên cứu độc lập, các cơ quan nhà nước và Niên giám Thống kê của Tổng cục Thống kê và Cục Thống kê 63 tỉnh/thành Việt Nam. Việc sử dụng dữ liệu có sẵn

mang lại nhiều thuận lợi: (i) tiết kiệm thời gian và chi phí thu thập dữ liệu và (ii) NNC không phải quá bận tâm đến việc đo lường các khái niệm (biến) nghiên cứu (Nguyễn Đình Thọ, 2014). Tuy nhiên, với dữ liệu dạng này, các NNC trong khu vực nhà nước thường gặp trở ngại lớn đó là một số biến nghiên cứu cần xem xét nhưng dữ liệu thích hợp nhất lại không có sẵn, buộc họ phải sử dụng những dữ liệu thay thế khác mà những dữ liệu này có thể không phản ánh hết bản chất của biến nghiên cứu, dẫn đến kết quả nghiên cứu thiếu sự nhất quán. Nhưng cũng bởi thực tế là các vấn đề liên quan đến nhà nước thường bao trùm lên một phạm vi rất rộng và đa dạng khiến việc thu thập dữ liệu đòi hỏi nhiều nguồn lực mà chỉ có các nhóm nghiên cứu được tài trợ hoặc các cơ quan chức năng mới có thể thực hiện được, mặt khác, thông tin nội bộ thuộc khu vực nhà nước cũng khó điều tra hơn so với khu vực tư, nên các NNC thường dựa vào dữ liệu có sẵn để nghiên cứu. Những dữ liệu này có thể hạn chế ở một số mặt nào đó nhưng không vì thế mà chúng ta bỏ qua việc nghiên cứu các vấn đề thuộc nhà nước.

Phân tích dữ liệu: Quy trình phân tích dữ liệu định lượng được tiến hành theo các bước như sau: (i) chuẩn bị dữ liệu; (ii) tạo biến hội nhập quốc tế bằng kỹ thuật phân tích nhân tố khám phá; (iii) kiểm tra mối quan hệ giữa các nhân tố bằng ma trận tương quan nhị biến; và (iv) cuối cùng, sử dụng kỹ thuật hồi quy tuyến tính đa biến để kiểm định giả thuyết về mối quan hệ giữa minh bạch ngân sách trên website (biến phụ thuộc) và các nhân tố giải thích.

(i) Chuẩn bị dữ liệu (gồm mã hóa và làm sạch dữ liệu)

Do hầu hết các biến đều đo lường theo thang đo tỉ lệ nên không cần mã hóa. Chỉ có biến trình độ học vấn của nhà quản lý, là thang đo thứ bậc nên cần chuyển đổi dữ liệu thành dạng mã số (1, 2, 3, 4) tương ứng với từng cấp bậc học vấn (trung học phổ thông, đại học, thạc sĩ, tiến sĩ).

Công việc tiếp theo là nhập dữ liệu vào máy và chuyển sang các phần mềm tương ứng cho việc xử lý và phân tích. NCS sử dụng phần mềm SPSS vì nó hỗ trợ nhiều kỹ thuật phân tích thống kê và thân thiện với người dùng. SPSS là một công cụ

mạnh để phân tích đa biến phụ thuộc lẫn nhau (ví dụ phân tích nhân tố khám phá), và cũng có thể phân tích đa biến phụ thuộc (ví dụ phân tích hồi quy). Tuy nhiên, SPSS hỗ trợ kém trong việc dò tìm và khắc phục sự vi phạm các giả định cần thiết trong hồi quy tuyến tính đa biến. Vì vậy, STATA – một phần mềm mạnh về phân tích hồi quy – được sử dụng kết hợp để thực hiện những kỹ thuật mà SPSS chưa làm tốt được.

Trước khi tóm tắt và xử lý, dữ liệu cần được làm sạch nhằm phát hiện các sai sót có thể xãy ra. Do công tác thống kê của Cục thống kê ở 63 tỉnh/thành Việt Nam chưa được đồng bộ và nhất quán dẫn đến thiếu dữ liệu (ô trống) của 5 tỉnh ở các chỉ tiêu thu nhập bình quân đầu người, số lượng khách du lịch và số thuê bao internet. Cách thông thường là nếu ô trống ít, NNC có thể loại các phần tử đó đi hoặc thay ô trống bằng giá trị trung bình của một số hay tất cả phần tử còn lại (Nguyễn Đình Thọ, 2014). Do các chỉ tiêu bị thiếu dữ liệu có biến thiên rất lớn và kích thước mẫu hạn chế, việc lấy giá trị trung bình để thay thế sẽ ảnh hưởng lớn đến biến thiên của dữ liệu, từ đó khiến các giá trị ước lượng bị sai lệch. Vì vậy, NCS chọn cách loại trừ 5 phần tử bị thiếu dữ liệu ra khỏi mẫu mặc dù điều này có thể làm giảm kích thước mẫu hơn nữa.

(ii) Tạo biến hội nhập quốc tế bằng kỹ thuật phân tích nhân tố khám phá

Ý tưởng cơ bản của phân tích nhân tố khám phá (EFA) là kết hợp một số biến quan sát thành một tập hợp các biến độc lập nhỏ hơn mà không mất thông tin cần thiết từ bộ dữ liệu gốc (Andersen & Herbertsson, 2003). Trong trường hợp này, vấn đề là làm thế nào để kết hợp các biến phản ánh các dòng chảy thương mại, vốn, con người và thông tin vào một thang đo duy nhất để đo lường mức độ hội nhập quốc tế. EFA thuộc nhóm phân tích đa biến phụ thuộc lẫn nhau, dùng để rút gọn một tập hợp k biến quan sát thành một tập F (F<k) các nhân tố có ý nghĩa hơn. Cơ sở của việc rút gọn dựa vào quan hệ tuyến tính giữa các nhân tố với các biến gốc (Nguyễn Đình Thọ, 2014). EFA có thể thực hiện với nhiều phép trích. Trong đó, phép trích thành phần chính (PCA) cùng với phương pháp quay vuông góc Varimax, trích được

nhiều phương sai hơn từ các biến quan sát với số lượng thành phần nhỏ nhất, được dùng để rút gọn một tập biến nhằm phục vụ cho thủ tục phân tích tiếp theo (Hair et al., 2017).

Trước tiên, NNC phải kiểm tra các điều kiện để phân tích EFA, gồm xem xét mức độ quan hệ giữa các biến quan sát và xác định kích thước mẫu phù hợp. Các kỹ thuật để đánh giá mối quan hệ giữa các biến như sau:

- Ma trận hệ số tương quan giúp nhận biết mức độ quan hệ giữa các biến. Nếu các

hệ số tương quan nhỏ (< 0.3) thì áp dụng EFA là không phù hợp.

- Kiểm định Bartlett (Bartlett’s test of sphericity) để xem ma trận tương quan có

phải là ma trận đơn vị (hệ số tương quan giữa các biến bằng 0 và đường chéo bằng 1). Nếu phép kiểm định này có p-value ≤ 5%, giả thuyết H0 bị bác bỏ, nghĩa là các biến có quan hệ với nhau.

- Kiểm định KMO (Kaiser-Meyer-Olkin) để so sánh độ lớn của hệ số tương quan

giữa hai biến với độ lớn của hệ số tương quan riêng phần giữa chúng. KMO càng lớn càng tốt vì phần chung của các biến càng lớn (Nguyễn Đình Thọ, 2014). Để áp dụng EFA, KMO phải ≥ 0.5. KMO ≥ 0.9 là rất tốt, KMO ≥ 0.8 là tốt, KMO ≥ 0.7 là được, KMO ≥ 0.6 là tạm được và KMO ≥ 0.5 là xấu (Kaiser, 1974).

Dựa theo kinh nghiệm, kích thước mẫu trong EFA được xác định dựa vào kích thước tối thiểu và số lượng biến quan sát đưa vào (Nguyễn Đình Thọ, 2014). Theo Hair et al. (2017), kích thước tối thiểu phải là 50 và tỉ lệ quan sát/biến quan sát ít nhất là 5:1.

Việc chọn số lượng nhân tố hay thành phần chính trong PCA là vấn đề cần quan tâm tiếp theo trong ứng dụng EFA để phục vụ mục tiêu dự báo. Các NNC thường kết hợp nhiều phương pháp để chọn số lượng nhân tố, còn gọi là điểm dừng (Hair et al., 2017). Ba phương pháp phổ biến là: tiêu chí eigenvalue, tiêu chí điểm gãy và xác định trước số lượng nhân tố (Nguyễn Đình Thọ, 2014).

- Theo tiêu chí eigenvalue, số lượng nhân tố được xác định ở nhân tố có eigenvalue tối thiểu bằng 1 (tức ≥ 1).

- Tiêu chí điểm gãy dựa vào đường biểu diễn giữa số lượng nhân tố và giá trị

eigenvalue. Tại điểm gãy, đường biểu diễn này sẽ thay đổi độ dốc đột ngột.

- Xác định trước số lượng nhân tố được thực hiện dựa vào lý thuyết. Khi NNC xây

dựng thang đo cho một khái niệm đa hướng (nhiều khía cạnh), họ đã xác định được về mặt lý thuyết, khái niệm này có bao nhiêu thành phần.

Dựa trên 3 phương pháp này, NCS kỳ vọng kỹ thuật phân tích PCA kết hợp được 8 biến phản ánh các dòng chảy thương mại, vốn, con người và thông tin thành 1 nhân tố (thang đo đơn hướng) đo lường mức độ hội nhập quốc tế của địa phương.

Sau khi phân tích EFA, để đánh giá thang đo hội nhập quốc tế, NCS xem xét 3 thuộc tính quan trọng trong kết quả EFA: số lượng nhân tố trích được, trọng số hay hệ số tải nhân tố, và tổng phương sai trích.

- Số lượng nhân tố trích được theo tiêu chí eigenvalue hay tiêu chí điểm gãy được

kỳ vọng bằng với số lượng nhân tố xác định dựa vào lý thuyết, tức bằng 1.

- Trọng số hay hệ số tải nhân tố (factor loading) biểu thị tương quan giữa biến

quan sát với nhân tố trích được. Trọng số này càng cao nghĩa là tương quan giữa biến quan sát đó với nhân tố càng lớn và ngược lại. Theo Hair et al. (2009), trọng số ở mức ± 0.3 là điều kiện tối thiểu để giữ lại biến quan sát, trọng số ở mức ± 0.5 nghĩa là biến quan sát có ý nghĩa thống kê tốt, và trọng số ở mức ± 0.7 nghĩa là biến quan sát có ý nghĩa thống kê rất tốt.

- Tổng phương sai trích (Total variance explained) thể hiện các nhân tố trích được

bao nhiêu phần trăm của các biến quan sát. Tổng này nếu đạt từ 50% trở lên (tốt hơn là từ 60% trở lên), nghĩa là phần chung phải lớn hơn phần riêng và sai số, thì kết luận là mô hình EFA phù hợp (Nguyễn Đình Thọ, 2014).

Cuối cùng, dựa trên kết quả phân tích EFA với phép trích PCA phù hợp, giá trị chính xác (không phải giá trị ước lượng) của nhân tố hội nhập quốc tế được tính toán theo phương pháp hồi quy, Bartlett hay Anderson-Rubin đều cho kết quả như nhau (Nguyễn Đình Thọ, 2014):

INTE = w1EXPO + w2IMPO + w3FDIN + w4FDIC + w5IMMI + w6EMMI + w7TRAV + w8NETT

(iii) Kiểm tra mối quan hệ giữa các nhân tố bằng ma trận tương quan nhị biến

Để kiểm tra tính độc lập của các biến giải thích (biến độc lập), từ đó đưa ra chẩn đoán ban đầu về đa cộng tuyến, cách thức phổ biến là sử dụng ma trận tương quan nhị biến (Jorge et al., 2011). Theo đó, NCS tiến hành phân tích sự tồn tại có thể có của mối quan hệ tuyến tính giữa các biến độc lập và đánh giá khả năng xảy ra hiện tượng đa cộng tuyến bằng cách kiểm tra ma trận hệ số tương quan Pearson và Spearman. Hệ số tương quan Pearson dùng để lượng hóa mức độ chặt chẽ của mối quan hệ tuyến tính giữa hai biến định lượng. Giả định cần để kiểm định giả thuyết về hệ số tương quan Pearson là tổng thể có phân phối chuẩn. Đối với dữ liệu không đáp ứng được giả định này, hệ số tương quan Spearman có thể được dùng tương tự như Pearson nhưng được tính toán dựa vào hạng của dữ liệu chứ không dựa vào giá trị thực của quan sát (Hoàng Trọng & Chu Nguyễn Mộng Ngọc, 2008).

Theo kinh nghiệm, ở mức ý nghĩa 1-5%, hệ số tương quan của từng cặp biến lớn hơn 0.3 cho thấy các biến này có quan hệ với nhau (Hair et al., 2017) và nếu nó lớn hơn 0.8 thì vấn đề cộng tuyến được xem là nghiêm trọng (Gujarati, 1995). Lưu ý rằng đa cộng tuyến là hiện tượng các biến độc lập có quan hệ với nhau và nếu mối quan hệ này chặt chẽ thì sẽ vi phạm một trong các giả định của mô hình hồi quy bội. Đa cộng tuyến, nếu không được khắc phục, sẽ làm tăng độ lệch chuẩn của các hệ số hồi quy và làm giảm giá trị thống kê t của kiểm định hệ số hồi quy khiến các hệ số này kém ý nghĩa hơn trong khi hệ số xác định R2 vẫn khá cao (Hoàng Trọng & Chu Nguyễn Mộng Ngọc, 2008). Việc kiểm tra sự tương quan nhằm phát hiện đa cộng tuyến trước khi thực hiện hồi quy bội là cần thiết nên nó được áp dụng rất rộng rãi trong loại nghiên cứu này (Caba Pérez et al., 2008; Tejedo-Romero & de Araujo, 2015).

(iv) Sử dụng kỹ thuật hồi quy tuyến tính đa biến để kiểm định giả thuyết

Để giải thích mối quan hệ giữa giá trị kỳ vọng của biến phụ thuộc (minh bạch ngân sách trên website) từ các giá trị của hai hay nhiều biến giải thích (các nhân tố đã chọn) trên cơ sở dữ liệu mẫu, NCS sử dụng kỹ thuật hồi quy tuyến tính đa biến

(MLR) với phương pháp ước lượng bình phương bé nhất thông thường (OLS) – cực tiểu biến thiên của sai số khi ước lượng các hệ số hồi quy β. Đây được xem là một trong những mô hình thống kê phổ biến để kiểm định lý thuyết khoa học (Nguyễn Đình Thọ, 2014). Hầu hết nghiên cứu về các nhân tố tác động đến minh bạch thông tin nhà nước đều được thực hiện dựa trên mô hình MLR-OLS. Trong luận án, việc phân tích ảnh hưởng của các nhân tố đã chọn đến mức độ minh bạch ngân sách được thực hiện với 3 trường hợp: bắt buộc, tự nguyện và tổng thể. Theo đó, NCS lấy lần lượt 3 chỉ số: công khai bắt buộc (POBIM), công khai tự nguyện (POBIV) và công khai tổng thể (POBIG) để phân tích hồi quy với 11 biến giải thích phản ánh các nhân tố từ phía cung và cầu minh bạch dựa trên 3 phương trình như sau:

Phương trình 1: POBIM =

Phương trình 2: POBIV = (j = 1, …, 58)

Phương trình 3: POBIG = POBIM + POBIV =

Trong phân tích MLR, có hai phương pháp chính để lựa chọn mô hình là phương pháp khẳng định (đồng thời) hay khám phá (từng bước). Theo Alcaraz-Quiles et al. (2015), không có phương pháp duy nhất để chọn mô hình tốt nhất. Việc tiếp cận theo phương pháp nào tùy thuộc vào mục tiêu của NNC (Field, 2009).

- Phương pháp đồng thời thường dùng để kiểm định lý thuyết khoa học, gồm các

giả thuyết suy diễn từ lý thuyết đã có (Nguyễn Đình Thọ, 2014). Nó đưa tất cả các biến cần kiểm định vào một lần. Sau đó, dựa trên các thông số thống kê, NNC sẽ tự đánh giá việc nên loại biến nào ra hay đưa biến nào vào (Hoàng Trọng & Chu Nguyễn Mộng Ngọc, 2008).

- Phương pháp từng bước thường dùng để khám phá quan hệ giữa các biến, gồm

các quan hệ chưa có cơ sở lý thuyết vững chắc để suy diễn và các quan hệ phát hiện từ thị trường, đặc biệt là khi NNC muốn điều chỉnh, bổ sung cho các mô hình hiện có trong bối cảnh cụ thể của Việt Nam (Nguyễn Đình Thọ, 2014). Phương pháp này, cho dù bằng cách đưa biến vào dần hoặc loại biến ra dần, sử dụng các quy tắc dừng dựa trên tiêu chuẩn được thiết lập trước để kiểm tra giả thuyết (Alcaraz-Quiles et al., 2015). Nó được đề xuất bởi Montgomery et al.

(2001) và được Alcaraz-Quiles et al. (2015) sử dụng để khắc phục hạn chế do cỡ mẫu nhỏ trong phân tích hồi quy mà không ít nghiên cứu ở cấp chính quyền gặp phải.

Trong các nghiên cứu trước, giả thuyết về mối quan hệ giữa minh bạch thông tin nhà nước với các nhân tố được suy diễn dựa trên các lý thuyết nền phổ biến trong khu vực tư. Khi được áp dụng sang khu vực nhà nước, lập luận của các lý thuyết này dường như chưa giải thích thỏa đáng ảnh hưởng của các nhân tố đến sự minh bạch của CQĐP, dẫn đến sự thiếu nhất quán trong kết quả nghiên cứu. Một lần nữa, từ rất nhiều nhân tố được đề xuất bởi các tác giả trước, NCS chọn lọc 10 nhân tố và bổ sung 1 nhân tố dựa trên bối cảnh cụ thể của Việt Nam với mục tiêu khám phá xem trong các nhân tố đã được kiểm tra ở các nước tư bản phát triển và nhân tố được quan sát từ bối cảnh Việt Nam (hội nhập quốc tế), nhân tố nào quyết định mức độ minh bạch ngân sách của chính quyền cấp tỉnh Việt Nam. Trong tình huống này, phương pháp từng bước là phù hợp với mục tiêu nghiên cứu. Theo đó, NCS tiến hành hồi quy từng bước với thủ tục loại trừ dần cho 3 mô hình (1, 2, 3). Thủ tục này bắt đầu với tất cả 11 biến độc lập trong mỗi mô hình và sau đó loại trừ dần chúng dựa vào một trong hai tiêu chuẩn thống kê (Hoàng Trọng & Chu Nguyễn Mộng Ngọc, 2008):

- Thứ nhất là giá trị F tối thiểu mà thống kê F của một biến độc lập phải đạt được để ở lại trong mô hình (ký hiệu trong SPSS là FOUT với giá trị mặc định là 2,71). Các biến có giá trị thống kê F nhỏ hơn FOUT sẽ bị loại khỏi mô hình.

- Thứ hai là xác suất tối đa tương ứng với FOUT mà một biến độc lập không vượt

Hướng nghiên cứu của luận án

Vai trò của ngân sách nhà nước