2. Sự đáp ứng của nội dung khóa luận đối với đề tài khóa luậ n:
3.2. Nguồn và phương pháp thu thập dữ liệu
Ngoại trừ biến tính bất định trong chính sách kinh tế sử dụng chỉ số WUI (Ahir và cộng sự, 2018). Tất cả các biến trong các mô hình ở trên đều sử dụng dữ liệu trực tiếp từ báo cáo tài chính cụ thể là trong Bảng cân đối kế toán, báo cáo kết quả hoạt động kinh doanh; báo cáo lưu chuyển tiền tệ được cung cấp từ Fiinpro, bộ dữ liệu bao gồm dữ liệu báo cáo tài chính của các doanh nghiệp niêm yết trên 2 sàn chứng khoán HOSE và HNX, trong giai đoạn từ 2007-2020. Fiinpro được đánh giá là nền tảng cung cấp cơ sở dữ liệu tài chính và phân tích dữ liệu toàn diện và chuyên sâu nhất tại Việt Nam.
Sau khi thu thập được bộ dữ diệu này, người viết tiến hành xử lí bằng cách loại bỏ các doanh nghiệp thuộc nhóm ngành tài chính, ngân hàng, bảo hiểm và tiện ích công cộng vì đặc thù nghiệp vụ cùng với các thông tin trên báo cáo tài chính của các công ty này có sự khác biệt đáng kể và tuân thủ theo các chuẩn mực kế toán riêng biệt do đó nếu bao gồm vào mẫu dữ liệu sẽ làm thiên lệch kết quả nghiên cứu. Các doanh nghiệp trong mẫu quán sát được phân ngành 4 cấp theo chuẩn ICB. Người viết không bao gồm dữ liệu các doanh nghiệp trên các sàn UPCOM và OTP nhằm tránh những hạn chế tiềm tàng vì hai sàn chứng khoán này không có các yêu cầu về công bố thông tin báo cáo kế toán nhất quán và chất lượng thông tin kế toán thiếu sự chuẩn hóa cao.
Thị trường chứng khoán tại Việt Nam chính thức đi vào hoạt động kể từ năm 2000 nhưng chỉ phát triển mạnh mẽ cả về quy mô lẫn số lượng giao dịch kể từ năm 2007 khi thời gian giao dịch chứng khoán được điều chỉnh mở rộng, cùng với đó là các quy định về trình bày, công bố thông tin cũng được kiểm soát chặt chẽ hơn. Ngoài ra, người viết sử dụng cơ sở dữ liệu của các doanh nghiệp niêm yết trên cả hai sàn
chứng khoán HOSE và HNX, sàn HOSE bắt đầu giao dịch từ năm 2000 trong khi sàn HNX cho tới năm 2005 mới chính thức đi vào hoạt động, do vậy để có được sự nhất quán trong mẫu dữ liệu qua từng năm, người viết quyết định sử dụng bộ dữ liệu từ năm 2007 đến năm 2020. Thêm vào đó, đề tài nghiên cứu liên quan đến tác động của tính bất định trong chính sách kinh tế, vì vậy việc bao gồm dữ liệu trong giai đoạn khủng hoảng kinh tế thế giới (2008 đến 2010) là hợp lí và cần thiết nhằm nắm bắt những đặc điểm đặc trưng và tác động rõ rệt của tính bất định toàn vẹn trong giai đoạn này trên mẫu nghiên cứu.
Cuối cùng, sau khi xử lí dữ liệu bước ban đầu, người viết có được mẫu nghiên cứu là bộ dữ liệu bảng không cân bao gồm 609 doanh nghiệp niêm yết trên 2 sàn HOSE và HNX với thời gian quan sát từ năm 2007 đến năm 2020. Trước khi thực hiện ước lượng, hồi quy kiểm định giả thuyết, người viết tiến hành bước xử lí thứ hai để nhằm đảm bảo mẫu dữ liệu không tồn tại giá trị trống và các quan sát có giá trị bất thường không mang tính đại diện có nguy cơ làm thiên lệch các kết quả ước lượng.
Người viết xử lí vấn đề liên quan đến các quan sát ngoại lai (outliers) theo tuần tự 3 bước. Bước thứ nhất, xem xét có dấu hiệu của các quan sát ngoại lai hay không thông qua thống kê mô tả theo ngành, theo năm, nếu như giá trị trung bình của một ngành, một năm cao hơn hay thấp hơn bất thường so với các ngành hay các năm còn lại thì đó là dấu hiệu cho thấy sự tồn tại của quan sát ngoại lai. Bước thứ hai, người viết sử dụng biểu đồ hộp để kiểm tra sự phân phối của biến, sau đó sử dụng quy tắc Interquartile Rule để tìm điểm outliers và sau đó đếm số lượng quan sát ngoại lai. Bước cuối cùng, người viết thực hiện xử lí các outliers bằng cách gán giá trị thuộc phân vị đầu và cuối lần lượt cho giá trị bé nhất của phân vị thứ 2 và giá trị lớn nhất của phân vị thứ 99 (Trong trường hợp nếu chỉ có một số rất ít các quan sát có giá trị bất thường cách biệt rất lớn với các quan sát còn lại, người viết thực hiện xóa đi các các quan sát đó).