6. Kết cấu của luận án
3.5.1. Dữ liệu nghiên cứu
- Lựa chọn dữ liệu nghiên cứu
Nghiên cứu sẽ có giá trị hơn nếu tất cả các cá thể của một quần thể được tập hợp trong nghiên cứu, ví dụ với nghiên cứu này, nếu tất cả các DNKNST Việt Nam được bao hàm trong luận án thì đảm bảo tính chính xác của nghiên cứu. Một mẫu nghiên cứu được xem là tốt nếu đáp ứng được các tiêu chuẩn sau. Thứ nhất, mẫu nghiên cứu có thể đại diện cho quần thể nghiên cứu khi nó có tất cả các tính chất cơ bản của quần
thể nghiên cứu. Thứ hai, mẫu nghiên cứu cần đủ lớn để có thể khái quát hoá một cách tin cậy cho quần thể nghiên cứu. Thứ ba, mẫu nghiên cứu giúp việc thu thập số liệu dễ dàng và thuận tiện. Cuối cùng mẫu nghiên cứu được chọn sao cho thông tin thu được là nhiều nhất trong khi chi phí tối ưu nhất. Do đó hình thành hai nhóm kỹ thuật chọn mẫu là chọn mẫu xác suất và chọn mẫu không xác suất (Hoàng & Lưu, 2020).
Tuy nhiên điều này thường khó thực hiện với thực thế doanh nghiệp khởi nghiệp sáng tạo, do đó các phương pháp chọn mẫu được đề xuất để đảm bảo thu về được kết quả nghiên cứu tốt nhất trong khả năng của mình. Với đặc điểm của dữ liệu nghiên cứu như trình bày ở phần dưới, luận án sử dụng phương pháp chọn mẫu thuận tiện nằm trong nhóm phương pháp chọn mẫu không xác suất. Cụ thể luận án chọn mẫu dựa trên các nền tảng có thể tiếp cận được đó là CrunchBase (có trả phí) và các trang thông tin công khai như: cổng thông tin doanh nghiệp của Bộ Kế hoạch và đầu tư, PitchBook, Linkedin, Facebook và các phương tiện truyền thông đại chúng khác.
Dữ liệu nghiên cứu liên quan đến tài chính cho khởi nghiệp được xem là tập dữ liệu khan hiếm nhất trong nhóm các dữ liệu về tài chính và khởi nghiệp. Hiện nay, trên thế giới có các bộ dữ liệu công khai giúp cho các nhà khoa học có thể tiếp cận được và tiết kiệm được thời gian và chi phí nghiên cứu. Các nhóm dữ liệu nghiên cứu này chủ yếu tập trung nhiều nhất ở Mỹ và Châu Âu, một số dữ liệu có ở phạm vi toàn cầu. Ví dụ như Kauffman Surveys ở Mỹ (Robb Robinson, 2014), và Center for Business Research (CBR) tại Cambridge, Anh (Cosh và cộng sự, 2009). Tuy nhiên với hai bộ dữ liệu này, chủ yếu các doanh nghiệp sử dụng nợ thay vì vốn đầu tư mạo hiểm, điều này mang lại sự e ngại về việc thiếu một bộ dữ liệu hoàn chỉnh về các thương vụ đầu tư mạo hiểm, mặc dù các nghiên cứu đều cho thấy vai tr của đầu tư mạo hiểm tới sự tăng trưởng của doanh nghiệp lớn hơn là khoản nợ từ ngân hàng (Cole và cộng sự, 2016).
Bên cạnh đó, xu hướng nghiên cứu về tài chính cho khởi nghiệp những năm gần đây chứng kiến sự phát triển mạnh mẽ các nghiên cứu về huy động vốn cộng đồng cũng chính bởi vì tính dễ tiếp cận của dữ liệu. Các dự án huy động vốn cộng đồng thường triển khai chiến dịch huy động vốn của mình trên các nền tảng huy động vốn lớn (IndieGogo, KickStarter, …) do đó thông tin công bố công khai và dễ thu thập. Một xu hướng nghiên cứu điển hình nữa đó là việc tiến hành niêm yết đại chúng lần đầu (IPO) của các doanh nghiệp khởi nghiệp, điều này cũng chính vì yêu cầu công bố thông tin khi niêm yết cũng như các tổ chức thứ ba như Thompson SDC hay
VentureOne có cung cấp các dịch vụ này. Có thể thấy rằng hai hướng nghiên cứu này đều đang phân cực ở hai khía cạnh khác nhau, trong khi thiếu các nghiên cứu ở các giai đoạn đầu và giữa của quá trình tăng trưởng của loại hình doanh nghiệp thú vị này, nguyên nhân chính cũng bởi vì khó khăn trong thu thập dữ liệu. Dữ liệu nghiên cứu trong mảng này chủ yếu là dữ liệu chéo (cross-sectional data), gần đây có thêm dữ liệu dạng dọc (longitudinal datasets) và thường là do các nhà nghiên cứu tự thu thập trên các nền tảng như CrunchBase, CBInsight và kết hợp với các trang mạng xã hội như LinkedIn và Twitter (Cumming và cộng sự, 2016).
Tại Việt Nam, dữ liệu về các DNKNST cũng đang ở giai đoạn đầu và chủ yếu là các quỹ đầu tư tự tiến hành thu thập với mục đích tổng hợp nhằm hỗ trợ hệ sinh thái và ra quyết định đầu tư hơn là phục vụ nghiên cứu khoa học. Đầu tiên là Học viện Nhà sáng lập Topica (Topica Founder Insitude) đã tiến hành thu thập các thương vụ gọi vốn thành công của các dự án khởi nghiệp Việt Nam và công bố Báo cáo thường niên về tình hình đầu tư khởi nghiệp của Topica Founder Institute, tiếp đến là quỹ đầu tư DoVenture cũng tiến hành thu thập dữ liệu và công bố báo cáo thực trạng thu hút vốn đầu tư từ năm 2019. Các thông tin về thương vụ đầu tư này được thu thập dựa trên các thông tin được cung cấp bởi chính các quỹ đầu tư hoặc doanh nghiệp khởi nghiệp và do mối quan hệ sẵn có của các tổ chức này với các quỹ và doanh nghiệp. Các nhà nghiên cứu thường gặp khó khăn khi tiếp cận để sử dụng nguồn dữ liệu này bởi chính các tổ chức thu thập dữ liệu cũng có ràng buộc với các bên liên quan. Chính vì thế, luận án sử dụng dữ liệu CrunchBase làm tiền đề để tiếp tục thu thập dữ liệu ở những bước sau bởi tính dễ tiếp cận hơn của dữ liệu này.
- Giới thiệu về cơ sở dữ liệu CrunchBase
CrunchBase là một công ty công nghệ của Mỹ được thành lập vào năm 2007, cung cấp dữ liệu kinh doanh của các công ty khởi nghiệp sáng tạo (Dalle và cộng sự, 2017). Cơ sở dữ liệu này nhanh chóng tăng trưởng trong những năm gần đây và trở thành một trong những cơ sở hàng đầu được các quỹ đầu tư mạo hiểm sử dụng phổ biến trên toàn thế giới. CrunchBase (November, 1, 2021) đã công bố phương pháp thu thập dữ liệu của mình để nhằm đảm bảo tính chính xác của thông tin và tính cập nhật của thông tin. Cụ thể:
- Mạng lưới nhà đầu tư: CrunchBase hợp tác với hơn 3700 công ty đầu tư trên toàn thế giới để hộ cập nhật danh mục đầu tư hàng tháng vào dữ liệu để đổi lấy việc truy cập
miễn phí. Điều này đảm bảo CrunchBase có cơ sở dữ liệu đầu tiên và cập nhật so với các cơ sở dữ liệu khác.
- Cộng đồng cộng tác viên. CrunchBase thu hút một cộng đồng lớn gồm các chuyên gia, doanh nhân và các nhà đầu tư rất năng động thường xuyên cập nhật thông tin trên đó.
- Thuật toán máy học và trí tuệ nhân tạo. Ngoài ra với mục tiêu đảm bảo độ tin cậy của thông tin, CrunchBase áp dụng máy học để đánh giá tính chính xác của dữ liệu, rà soát tất cả các dữ liệu được cung cấp và báo hiệu các điểm bất thường cho chuyên gia dữ liệu. Ngoài ra các thuật toán liên tục tìm kiếm trên các trang web và các tạp chí điện tử để cung cấp thông tin làm phong phú thêm dữ liệu.
CrunchBase dần trở thành một cơ sở dữ liệu quan trọng cho các nhà đầu tư, do đó nó thôi thúc các DNKNST khác đăng ký thông tin của mình để thu hút sự chú ý của các nhà đầu tư. Ngoài ra quy trình tìm kiếm và xác thực thông tin ứng dụng công nghệ máy học và trí tuệ nhân tạo mang lại sự khác biệt nổi trội của CrunchBase so với các cơ sở dữ liệu khác thường được sử dụng trong cộng đồng nghiên cứu. Chính vì vậy, cơ sở dữ liệu này mang lại cơ hội chưa từng có cho các nhà khoa học trên thế giới, cụ thể là nghiên cứu trong các lĩnh vực khởi nghiệp, đổi mới sáng tạo và tài chính. Tính đến tháng 01/2020 có đến 47 công trình nghiên cứu sử dụng dữ liệu CrunchBase được công bố thuộc danh mục Scopus, trong đó 41 công trình công bố từ năm 2016. Điều này cho thấy rằng nhiều chuyên gia đã chấp nhận rằng đây là nguồn dữ liệu hợp pháp để nghiên cứu (Ferrati & Muffatto, 2020).
3.5.2. Thu thập dữ liệu nghiên cứu
Dựa vào các phân tích trên, nhàm phù hợp với mục tiêu nghiên cứu và chi phí phù hợp nhất, luận án sử dụng phương pháp thu thập thu thập dữ liệu thủ công thông qua kênh chính là CrunchBase (có trả phí) và các trang thông tin công khai như: cổng thông tin doanh nghiệp của Bộ Kế hoạch và đầu tư, PitchBook, Linkedin, Facebook và các phương tiện truyền thông đại chúng khác. Các bước chính trong quá trình thu thập dữ liệu như sau:
Bước 1: Lựa chọn các doanh nghiệp đang hoạt động và đặt trụ sở chính tại Việt Nam và thành lập từ năm 2013 – 06/2021 trên CrunchBase
Bước 2: Lọc các doanh nghiệp theo các tiêu chí: doanh nghiệp hoạt động vì lợi nhuận, doanh nghiệp tư nhân và chưa niêm yết.
Bước 3: Tiến hành thu thập dữ liệu thủ công theo danh sách các biến, và kiểm tra chéo dữ liệu qua các nền tảng.
Bước 4: Cuối cùng là bước làm sạch dữ liệu. Dữ liệu thu về được tổng hợp bằng excel, một số biến không thể thu thập được số liệu đã được loại ra khỏi mẫu và mẫu cuối cùng là những doanh nghiệp có đầy đủ thông tin.
Mẫu nghiên cứu của luận án chọn lọc các doanh nghiệp thoả mãn tiêu chuẩn sau: (i) Về tư cách pháp lý, phải là DN đã thực hiện đăng ký kinh doanh; (ii) Về hoạt động, dựa trên khai thác tài sản trí tuệ, công nghệ hoặc mô hình kinh doanh mới; (iii) doanh nghiệp có tên trong cơ sở dữ liệu của Crunchbase; (iv) doanh nghiệp phải có trang thông tin đại chúng, nhà sáng lập có tài khoản trên các mạng xã hội có thể tiếp cận dễ dàng và công khai.
Thời điểm nghiên cứu được lựa chọn trong giai đoạn từ năm 2011 - 2021 bởi các lý do sau. Mặc dù doanh nghiệp khởi nghiệp được tính là thời gian dưới 5 năm, tuy nhiên tại Việt Nam với thị trường đầu tư mạo hiểm c n non trẻ nên các nghiên cứu vẫn chấp nhận các doanh nghiệp dưới 10 năm là doanh nghiệp khởi nghiệp.
Nhằm làm tăng độ tin cậy cho mẫu nghiên cứu, tránh các hạn chế do cỡ mẫu nhỏ, cỡ mẫu nghiên cứu này bao gồm tất cả các doanh nghiệp được thành lập dưới 10 năm và có trên trong cơ sở dữ liệu của CrunchBase. Sau khi sàng lọc các yếu tố về doanh nghiệp như trên, mẫu nghiên cứu thu về được 936 doanh nghiệp KNST. Tác giả tiếp tục sàng lọc các thông tin biến phục vụ luận án, do các thông tin rời rạc và nhiều doanh nghiệp không có đủ các thông tin về nhà sáng lập nên mẫu cuối cùng thu được 222 DNKNT. Quy mô mẫu này so sánh với các nghiên cứu trước đây như Hsu (2007) thực hiện với 149 doanh nghiệp khởi nghiệp công nghệ giai đoạn sớm, Cassar (2004) là 292 doanh nghiệp khởi nghiệp và 134 doanh nghiệp công nghệ trong nghiên cứu của Mueller (2012). Hay gần đây nghiên cứu của Talaia (2016) về các yếu tố ảnh hưởng đến kết quả huy động vốn đầu tư của DNKNST sử dụng mẫu gồm 108 doanh nghiệp. Những nghiên cứu này cũng có các kết quả được công nhận trên các tạp chí được xếp hạng, cho thấy cỡ mẫu ở mức như luận án là chấp nhận được trong nghiên cứu.
3.6. Phương pháp phân tích dữ liệu
Để trả lời câu hỏi nghiên cứu, luận án sử dụng các kỹ thuật thống kê và mô hình hồi quy bằng phần mềm Stata. Mục đích là tìm ra ý nghĩa thống kê của một số biến tới
kết quả hoạt động huy động vốn và mối quan hệ của biến độc lập tới hoạt động huy động vốn. Quy trình tính toán và phân tích dữ liệu được thực hiện như sau: Bước 1: Thống kê mô tả
Dữ liệu thu được sau khi điều tra thống kê phải được chỉnh lý và hệ thống hoá theo một trật tự nhất định nhằm làm cho các đặc trưng riêng biệt về từng đơn vị của hiện tượng nghiên cứu bước đầu chuyển thành những đặc trưng chung của toàn bộ hiện tượng. Phương pháp trình bày dữ liệu được sử dụng phổ biến nhất trong nghiên cứu thống kê là phân tổ thống kê. Thống kê mô tả là quá trình thu thập, tổng hợp và xử lý dữ liệu để đổi dữ liệu thành thông tin. Kỹ thuật sử dụng trong thống kê mô tả là thống kê mô tả chung, thống kê mô tả chi tiết và thống kê mô tả theo nhóm.
Tiếp đến là thống kê tần số, các biến sử dụng trong nghiên cứu được phân tích về tần số. Đối với các biến định lượng luận án phân tích phân bố chuẩn và không phân bố chuẩn để phân tích. Đồng thời luận án phân tích theo các cặp biến nhằm tìm kiếm các thông tin cho dữ liệu nghiên cứu. Các cặp phân tích như sau: phân tích biến định tính với biến định tính, phân tích biến định lượng với biến định tính và phân tích biến định lượng với biến định lượng.
Bước 2: Phân tích tương quan – Pearson. Phân tích Pearson là một phép đo độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến, mô tả hướng và mức độ mà một biến này có liên quan tuyến tính với một biến khác. Hệ số tương quan Pearson có thể nhận các giá trị từ -1 đến +1. Giá trị +1 cho thấy các biến có liên quan tuyến tính hoàn hảo theo mối quan hệ tăng dần, giá trị -1 cho thấy các biến có liên quan tuyến tính hoàn hảo theo mối quan hệ giảm và giá trị 0 cho thấy các biến không liên quan tuyến tính bởi lẫn nhau. Được coi là tương quan mạnh nếu hệ số tương quan lớn hơn 0,8 và tương quan yếu nếu hệ số tương quan nhỏ hơn 0,5.
Bước 3: Sử dụng phương pháp hồi quy phù hợp và kiểm định các khuyết tật của mô hình hồi quy.
Chủ đề nghiên cứu về tài chính cho khởi nghiệp hay huy động vốn cho doanh nghiệp khởi nghiệp thu hút rất nhiều học giả tham gia với đa dạng các phương pháp nghiên cứu, tuy nhiên phổ biến nhất vẫn là phương pháp nghiên cứu định lượng dựa trên các dữ liệu và sử dụng các mô hình hồi quy. Với đặc điểm của các nghiên cứu về doanh nghiệp khởi nghiệp đặc biệt hoạt động huy động vốn của DNKNST là thông tin công bố bị hạn chế. Do đó các nghiên cứu trong lĩnh vực này thường áp dụng hai
phương pháp chính. Ở những giai đoạn đầu tiên các nghiên cứu chủ yếu là định tính thông qua phỏng vấn sâu, nghiên cứu tình huống điển hình (Sopie Manigart và Carol Struyf, 1996; Andrew, 2012; Calopa và cộng sự, 2014). Tiếp đến với sự hỗ trợ của các cuộc khảo sát ở các nước phát triển như Khảo sát các doanh nghiệp mới của Kauffman (KFS – Kauffman Firm Survey) tại Mỹ, hay Dữ liệu về năng lực động của kinh doanh (Panel Study of Entrepreneurial Dynamics - PSED II) tại Mỹ (Rassoul Yazdipour, 2011). Nhiều nghiên cứu đã được công bố dựa trên các nguồn dữ liệu này (Coleman, S., và Robb, A., 2009; Georg, 2007) và mô hình hồi quy được sử dụng chủ yếu là mô hình Logit, Probit, OLS, Poisson, Tobit.
Bảng 3.6 Tổng hợp các mô hình hồi quy liên quan đến hoạt động huy động vốn của doanh nghiệp khởi nghiệp
Mô hình hồi quy Các tác giả
OLS – Hồi quy bình phương nhỏ nhất
Scherr (1993); Hsu (2007), Verheul (2001); Cassar (2004); Nofsinger và Wang (2011); Cosh và cộng sự (2009); Kang, H.D., (2017); Waleczek và cộng sự (2017); Michael J. Peel (2016); Calopa và cộng sự (2014)
Nhị phân, Logit, Probit
Hsu (2007); Thomas (2003); Cassar (2004); Nofsinger và Wang (2011); Cosh và cộng sự (2009); Coleman và cộng sự (2016); Talaia và cộng sự (2014); Saeid và Darush (2013) Hồi quy logit đa
thức, hồi quy thứ bậc Poisson
Cumming (2005); Witt và Brachtendorf (2006); Conti và cộng sự (2013)
Tobit Cassar (2004); Cosh và cộng sự (2009); Cotei và Farhat (2012); Conti và cộng sự (2013); Goudriaan (2016); Roszkowska & Konopka (2016); Coleman và cộng sự (2016); Talaia và cộng sự (2014); Saeid và Darush (2013)
(Nguồn: Tác giả tổng hợp)
Theo bảng trên, có thể rút ra được việc sử dụng các mô hình hồi quy được sử dụng phổ biến trong một khoảng thời gian khá dài từ 20 – 30 năm và không có sự thay đổi lớn. Do đó luận án kế thừa các nghiên cứu sử dụng mô hình hồi quy với biến nhị
phân Logit (hoặc Probit), mô hình hồi quy biến chặn Tobit và mô hình hồi quy thứ bậc Orderd logit.
Thứ nhất, mô hình với biến nhị phân Hồi quy nhị phân hay c n gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có hai giá trị là 0 và 1. Cụ thể mô hình để kiểm chứng các yếu tố ảnh hưởng đến khả năng huy