Mục tiêu nghiên cứu của bài viết về các thành phần của thuế và tăng trưởng của nền kinh tế ở Việt Nam bằng cách sử dụng dữ liệu bảng từ 2004-2013 được thu thập theo từng tỉnh thành riêng của Việt Nam. Tổng cộng có 50 tỉnh thành được thu thập từ nguồn dữ liệu từ ngân hàng phát triển Châu Á và Niên giám thống kê của cục thống kê Việt Nam từ năm 2004 đến năm 2013 do vậy đảm bảo được tính đồng nhất và đáng tin cậy trong việc thực hiện kiểm định với mô hình nghiên cứu đã đưa ra. Trong quá trình xử lý dữ liệu, tác giả đã bỏ đi dữ liệu của 14 địa phương do số liệu về số thu thuế ở các địa phương này không được đầy đủ. Như vậy, dữ liệu bảng được tác giả thu thập có thời gian T=10 năm và N=50 địa phương, số quan sát của bảng là 500 quan sát. Tuy nhiên, khi tạo biến phụ thuộc về tăng trưởng kinh tế bằng cách lấy LogGDP trừ đi LogGDP với độ trễ bằng 1 thì có 50 giá trị được bỏ qua ở năm đầu tiên của mỗi địa phương. Vì vậy biến tăng trưởng kinh tế trong mô hình chỉ gồm 450 quan sát.
Thông tin được thu thập được lấy log của các biến: Tăng trưởng kinh tế, Tổng sản phẩm GDP với độ trễ bằng 1, Thuế GTGT, Thuế TNDN, Thuế TNCN, Thuế XNK và các yếu tố khác như Chỉ số giá tiêu dùng CPI đại diện cho lạm phát, Lực lượng lao động, nguồn vốn đầu tư tư nhân của từng địa phương ảnh hưởng đến tốc độ tăng trưởng kinh tế.
Việc sử dụng dữ liệu bảng giúp bài nghiên cứu có nhiều thông tin hơn, ít xảy ra hiện tượng đa cộng tuyến giữa các biến số, nhiều bậc tự do hơn và hiệu quả hơn cho bài nghiên cứu. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn những tác động mà chúng ta khó có thể quan sát khi sử dụng dữ liệu thời gian hoặc dữ liệu chéo.