Kinh Tế - Quản Lý - Kinh tế - Thương mại - Kinh tế 28Tạp chí Khoa học Đào tạo Ngân hàng Số 252- Tháng 5. 2023 Học viện Ngân hàng ISSN 1859 - 011X Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế Phạm Mạnh Hùng Học viện Ngân hàng Ngày nhận: 09052023 Ngày nhận bản sửa: 21052023 Ngày duyệt đăng: 23052023 Tóm tắt: Thuật ngữ “Dữ liệu lớn” (big data) đã xuất hiện được gần hai thập kỷ và nhanh chóng trở thành biểu tượng của khoa học phân tích dữ liệu nhờ góp phần giải quyết nhiều vấn đề phức tạp của nghiên cứu xã hội học. Một trong những ứng dụng quan trọng của dữ liệu lớn là cải thiện tính kịp thời và tăng mức độ chính xác trong các dự báo kinh tế. Trước khi dữ liệu lớn ra đời, các nhà hoạch định chính sách cần chờ đợi những thống kê định kỳ để dự báo chỉ số kinh tế vĩ mô như tăng trưởng GDP và lạm phát thì ngày nay chuỗi dữ liệu kinh tế tần suất cao cho phép các nhà nghiên cứu đưa ra dự báo thường xuyên hơn, nhanh hơn, và trong một số trường hợp, chính xác hơn đáng kể so với các phương pháp dự báo dựa trên dữ liệu truyền thống. Bài viết này sẽ nghiên cứu ứng dụng của dữ liệu lớn trong các dự báo kinh tế thông qua phương pháp khảo lược các nghiên cứu để cung cấp bức tranh tổng quan nghiên cứu về chủ đề này. Bên cạnh đó, bài viết cũng đưa ra một số thảo luận về thách thức và giải pháp trong sử dụng dữ liệu lớn liên quan tới đầu tư về cơ sở hạ tầng kỹ Overview of big data application in economic forecast Abstract: The term “big data” has been first appeared for nearly two decades and has quickly become a symbol for data analytics by helping to solve the most complex problems of research. One of the important applications of big data is to improve the timeliness and accuracy of economic forecasts. Before the advent of big data, policymakers needed to wait for the periodic release of macroeconomic statistics to forecast GDP and inflation. Today, high frequency economic time series allow researchers to make forecasts more frequently, faster, and, in some cases, significantly more accurately than traditional forecasting methods. This paper will examine the use of big data in economic forecasting by providing an overview of empirical studies on this topic. In addition, the article also provides some discussions on challenges and solutions in using big data related to investment in technical infrastructure for analysis and handling of unstructured data. as well as accessibility and privacy when using big data. Keywords: big data, forecasting, macroeconomics. Doi: 10.59276TCKHDT.2023.05.2542 Pham, Manh Hung Email: hungpmhvnh.edu.vn Banking Academy of Vietnam PHẠM MẠNH HÙNG29Số 252- Tháng 5. 2023- Tạp chí Khoa học Đào tạo Ngân hàng thuật cho phân tích, xử lý tính không cấu trúc của dữ liệu, cũng như khả năng tiếp cận và bảo mật quyền riêng tư khi sử dụng dữ liệu lớn. Từ khóa: dữ liệu lớn, dự báo, kinh tế vĩ mô 1. Giới thiệu Các loại dữ liệu đang được tạo lập và cung cấp ở mức độ lớn chưa thấy từ trước đến nay trên toàn cầu. Trong bối cảnh cách mạng khoa học và công nghệ lần thứ 4, nhờ sự xuất hiện của những thiết bị công nghệ cao ngày càng phổ biến, tập dữ liệu toàn cầu cũng tăng với tốc độ chưa từng có trước đây. Mỗi ngày thế giới tạo ra khoảng 2,5 triệu byte dữ liệu và chỉ trong hai năm liền trước, khoảng 90 dữ liệu hiện có được tạo ra (Tomar và cộng sự, 2016). Kể từ khi ra đời, dữ liệu lớn (big data) nhanh chóng trở thành biểu tượng của khoa học phân tích dữ liệu và góp phần giải quyết nhiều vấn đề phức tạp của nghiên cứu xã hội học. Một trong những ứng dụng to lớn của dữ liệu lớn là cải thiện tính kịp thời và tăng mức độ chính xác trong các dự báo kinh tế. Trước khi dữ liệu lớn ra đời, các nhà hoạch định chính sách cần chờ đợi những công bố định kỳ của các thống kê kinh tế để dự báo chỉ số tăng trưởng GDP và lạm phát thì ngày nay, chuỗi dữ liệu kinh tế tần suất cao cho phép các nhà nghiên cứu đưa ra dự báo thường xuyên hơn và trong một số trường hợp, chính xác hơn so với phương pháp truyền thống (Lin và cộng sự, 2022). Thuật ngữ “dữ liệu lớn” đã xuất hiện được gần hai thập kỷ, tuy nhiên, cho đến nay vẫn chưa có định nghĩa thống nhất về dữ liệu lớn. Quỹ khoa học quốc gia Hoa Kỳ mô tả dữ liệu lớn là “các tập dữ liệu, đa dạng, phức tạp được tạo từ các công cụ, cảm biến, giao dịch Internet, email, video, luồng nhấp chuột vàhoặc tất cả các nguồn kỹ thuật số khác hiện có và trong tương lai” (Hassani, 2015). Theo quan điểm của nghiên cứu (Shi, 2014), đối với cộng đồng học thuật và kinh doanh, dữ liệu lớn là “một tập hợp dữ liệu phức tạp, đa dạng, không đồng nhất và có giá trị tiềm năng cao khó xử lý và phân tích trong thời gian hợp lý”. Đối với các nhà hoạch định chính sách, dữ liệu lớn là “một loại tài nguyên chiến lược mới trong kỷ nguyên số và là yếu tố then chốt để thúc đẩy sự đổi mới, đang làm thay đổi phương thức sản xuất và sinh hoạt hiện tại của con người.” (Shi, 2014). Mặc dù định nghĩa khác nhau, những đặc trưng chính của dữ liệu lớn bao gồm: (i) Volume: khối lượng lớn, được sản xuất từ nhiều nguồn như các giao dịch, truyền thông, hình ảnh, âm thanh, giao tiếp cá nhân; (ii) Velocity: tốc độ tạo ra dữ liệu nhanh và (iii) Variety: sự đa dạng về định dạng của dữ liệu từ dữ liệu số, tài liệu văn bản, email, video và âm thanh. Về cơ bản, dữ liệu lớn là thuật ngữ chỉ những tệp dữ liệu rất lớn và phức tạp, mà các công cụ xử lý dữ liệu truyền thống không xử lý được. Với bản chất đó, dữ liệu lớn đặt ra một số thách thức liên quan tới tìm kiếm, tiếp cận, thu thập, xử lý, và phân tích dữ liệu như việc sử dụng dữ liệu lớn yêu cầu về đầu tư cơ sở hạ tầng, nâng cao năng lực chuyên môn của nhà nghiên cứu, và những hạn chế về khả năng tiếp cận nguồn dữ liệu. Trên thực tế, không có ngưỡng cụ thể mà một tập dữ liệu có thể được coi là lớn. Tuy nhiên, vẫn có sự khác biệt cơ bản giữa dữ liệu lớn và dữ liệu truyền thống. Thứ nhất, dữ liệu lớn thường được thu thập cho các mục đích khác ngoài mục đích nghiên cứu học thuật và lập mô hình thống kê (Baldacci và cộng sự, 2016). Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế30Tạp chí Khoa học Đào tạo Ngân hàng- Số 252- Tháng 5. 2023 Thứ hai, chúng thường vượt quá khả năng xử lý của phần mềm thống kê tiêu chuẩn thông thường (Hassani Silva, 2015; Shi, 2014). Hình 1 đã tổng hợp những nguồn dữ liệu lớn có thể được sử dụng trong phân tích và dự báo kinh tế vĩ mô. Cùng với sự phát triển của công nghệ, ngày càng có nhiều thông tin được trao đổi, khả năng lưu trữ thông tin ngày càng phát triển, do đó những nguồn thông tin được trao đổi online và số hóa như dữ liệu từ thị trường tài chính, từ công ty thương mại điện tử, kết quả tìm kiếm, thông tin từ mạng xã hội, thông tin văn bản từ các phương tiện truyền thông online, dữ liệu cảm biến và Internet vạn vật, dữ liệu giao thông... có thể được thu thập để sử dụng cho mục đích nghiên cứu (Garboden, 2020). Bài viết này sẽ nghiên cứu ứng dụng của dữ liệu lớn trong việc dự báo và phân tích các chỉ tiêu kinh tế thông qua phương pháp khảo lược các nghiên cứu để cung cấp một bức tranh tổng quan về chủ đề này. Thông qua bài viết, tác giả sẽ làm rõ khái niệm về dữ liệu lớn; phân tích các nguồn dữ liệu lớn khác nhau và ứng dụng của loại dữ liệu này trong dự báo kinh tế. Bên cạnh đó, bài viết cũng đưa ra một số thảo luận về thách thức và giải pháp trong sử dụng dữ liệu lớn liên quan tới đầu tư về cơ sở hạ tầng kỹ thuật cho phân tích, xử lý tính không cấu trúc của dữ liệu cũng như khả năng tiếp cận và bảo mật quyền riêng tư khi sử dụng dữ liệu lớn. 2. Ứng dụng các nguồn dữ liệu lớn trong dự báo kinh tế Mặc dù thuật ngữ “dữ liệu lớn” mới xuất hiện gần hai thập kỷ, các nhà nghiên cứu đã sử dụng dữ liệu lớn từ các nguồn thông tin khác nhau để ứng dụng trong nhiều lĩnh vực, điển hình như xây dựng chỉ số lạm phát, dự báo giá dầu, đánh giá tình hình hoạt động ngân hàng, dự báo giá bất động sản, tình hình nghèo đói, thất nghiệp, tăng trưởng kinh tế, theo dõi tình hình dịch bệnh... 2.1. Dữ liệu thị trường tài chính Nhiều chỉ số kinh tế chính như chỉ số lạm Nguồn: Tổng hợp của tác giả Hình 1. Các nguồn dữ liệu lớn được sử dụng trong dự báo kinh tế PHẠM MẠNH HÙNG31Số 252- Tháng 5. 2023- Tạp chí Khoa học Đào tạo Ngân hàng phát hay tăng trưởng GDP được công bố vài tháng sau diễn biến kinh tế đã xảy ra và đôi khi những chỉ số này còn chịu sự điều chỉnh chủ quan. Như vậy, độ trễ của phân tích là khá lớn. Trên thực tế, những dự báo về chỉ số kinh tế đóng vai trò quan trọng với các tổ chức, doanh nghiệp, do đó việc phân tích và dự báo kịp thời mang lại giá trị to lớn. Hiện nay, những chỉ số về lĩnh vực tài chính được công bố thường xuyên với tần suất rất đa dạng (Buono và cộng sự, 2017). Các dữ liệu này có thể được sử dụng để đưa ra các dự báo kinh tế một cách nhanh chóng. Bảng 1. Các nguồn dữ liệu lớn và ứng dụng của dữ liệu lớn trong dự báo kinh tế Loại dữ liệu Nghiên cứu Nội dung ứng dụng Thông tin từ thị trường tài chính Modugno (2013), Monteforte và Moretti (2013) Xây dựng chỉ số lạm phát trong thời gian thực từ giá hàng hóa, giá năng lượng, chỉ số sản xuất và dữ liệu tài chính Degiannakis và Filis (2018) Dự báo giá dầu dựa trên dữ liệu tần suất cao như sản lượng dầu, dự trữ dầu, tỷ giá hối đoái, chỉ số thị trường chứng khoán, hàng hóa (dầu, vàng, đồng, khí đốt, bạc), lãi suất tín phiếu kho bạc của Hoa Kỳ. Giulio và cộng sự (2021) Dự báo tình hình hoạt động ngân hàng từ dữ liệu các giao dịch phái sinh, các khoản vay hoặc thanh toán cá nhân tại các ngân hàng Châu Á Dữ liêu thương mại điện tử Berardi và cộng sự (2017) Thu thập dữ liệu lớn từ máy quét mã vạch Cavallo Rigobon, (2016) – Dự án Một tỷ mức giá của MIT Dự báo lạm phát trong thời gian dựa trên dữ liệu lớn từ các nhà bán lẻ thương mại điện tử Cavallo (2013) Đo lường lạm phát tại Argentina từ dữ liệu của các trang web siêu thị tại quốc gia này trong 4 năm, và so sánh với các dữ liệu ở Brazil, Chile, Columbia và Venezuela Dữ liệu từ kết quả tìm kiếm Ginsberg và cộng sự (2009) Yuan và cộng sự (2013) Theo dõi tình hình dịch bệnh trong thời gian thực, sử dụng dữ liệu từ kết quả tìm kiếm Pan và cộng sự (2018) Dự báo nhu cầu phòng khách sạn, sử dụng dữ liệu từ kết quả tìm kiếm Dietzel và cộng sự (2014) Dự báo giá trị bất động sản, sử dụng dữ liệu từ kết quả tìm kiếm Goel và cộng sự (2010) Dự báo doanh thu bán trò chơi điện tử và đo mức độ phổ biến của bài hát, sử dụng dữ liệu từ kết quả tìm kiếm D’Amuri và Marcucci (2017) Dự báo tỷ lệ thất nghiệp hàng tháng của Hoa Kỳ, sử dụng kết quả tìm kiếm cho từ “việc làm” Sawaengsuksant (2019) Hỗ trợ các hoạt động giám sát do Ngân hàng Thái Lan, sử dụng kết quả tìm kiếm về ngân hàng trên Internet Choi và Varian (2012) Dự báo các chỉ tiêu kinh tế ngắn hạn như doanh số, lợi nhuận của doanh nghiệp Yu và cộng sự (2019) Tiêu thụ dầu dựa trên dữ liệu Google xu hướng Dữ liệu từ mạng xã hội Bollen và cộng sự (2011) Mittal Goel (2012) Dự báo giá cổ phiếu sử dụng dữ liệu từ mạng xã hội (như Twitter) Miah và cộng sự (2017) Hành vi của khách hàng từ việc đăng tải ảnh trên mạng xã hội Dữ liệu văn bản và phương tiện truyền thông Baker và cộng sự (2016) Thorsrud (2018) Xây dựng một chỉ số về sự bất ổn của chính sách kinh tế (Economic Policy Uncertainty - EPU) dựa trên dữ liệu lớn bằng cách đếm số lượng bài báo Moat và cộng sự (2013) Đánh giá mối tương quan giữa việc sử dụng Wikipedia và các biến động trong các cổ phiếu của các công ty niêm yết Singh và cộng sự (2017) Sử dụng thông tin từ các bài đánh giá để dự đoán xu hướng khách hàng Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế32Tạp chí Khoa học Đào tạo Ngân hàng- Số 252- Tháng 5. 2023 Degiannakis và Filis (2018) đã sử dụng dữ liệu thị trường tần suất cao để dự báo giá dầu. Mô hình của các nhà nghiên cứu kết hợp các phép đo truyền thống về chu kỳ kinh doanh toàn cầu, sản lượng dầu, dự trữ dầu và dữ liệu tần suất “cực cao” về tỷ giá hối đoái, chỉ số thị trường chứng khoán, hàng hóa (dầu, vàng, đồng, khí đốt, bạc) và lãi suất tín phiếu kho bạc của Hoa Kỳ. Tác giả thấy rằng đối với các dự báo ngắn hạn, việc sử dụng dữ liệu lớn với tần suất cao giúp cải thiện đáng kể tính chính xác của phép đo. Nghiên cứu của Modugno (2013) đã thử nghiệm xây dựng một mô hình dự báo lạm phát được cập nhật liên tục, thay vì chờ đợi các số liệu công bố hàng tháng. Nghiên cứu này đã sử dụng dữ liệu hàng ngày về giá cả hàng hóa từ giá nguyên liệu thô trên thị trường thế giới (World Market Price of Raw Materials), dữ liệu hàng tuần về giá năng lượng từ chỉ số giá xăng và dầu diesel bán lẻ hàng tuần (WRGDP) từ Cơ quan Thông tin Năng lượng Hoa Kỳ, dữ liệu hàng tháng về sản xuất từ Viện Quản lý cung ứng (dữ liệu này được phát hành hai tuần trước dữ liệu lạm phát được công bố) và dữ liệu tài chính hàng ngày từ chỉ số đô la Mỹ, SP 500, chỉ số trái phiếu kho bạc và lãi suất tín phiếu kho bạc. Nghiên cứu đã cho thấy việc sử dụng các dữ liệu có tần suất cao hỗn hợp này tỏ ra hiệu quả hơn so với các mô hình truyền thống khi sử dụng các dữ liệu có tần suất dài. Monteforte và Moretti (2013) đã sử dụng mô hình hồi quy dữ liệu hỗn hợp (MIDAS- mixed data sampling) để dự báo chỉ số lạm phát hàng ngày tại khu vực đồng Euro. Mô hình kết hợp chỉ số lạm phát cơ bản hàng tháng với dữ liệu hàng ngày từ thị trường tài chính. Kết quả nghiên cứu cho thấy việc đưa vào các biến hàng ngày giúp giảm sai số dự báo so với các mô hình chỉ xem xét các biến hàng tháng. Gần đây, nghiên cứu của Giulio và cộng sự (2021) đã dự báo tình hình hoạt động tại các ngân hàng Châu Á từ kho dữ liệu lớn các giao dịch phái sinh, các khoản vay hoặc thanh toán cá nhân từ các cơ quan đăng ký tín dụng tại các ngân hàng Châu Á hoặc từ cơ quan đăng ký tín dụng cho các khoản vay hoặc thanh toán cá nhân. 2.2. Dữ liệu thương mại điện tử Để xây dựng chỉ số giá tiêu dùng, phương pháp truyền thống sẽ sử dụng nhân viên thực địa đi thị trường để thu thập giá cả trên một rổ hàng hóa từ các cửa hàng truyền thống trên toàn quốc. Phương pháp này giúp đảm bảo chất lượng dữ liệu, nhưng Loại dữ liệu Nghiên cứu Nội dung ứng dụng Dữ liệu từ điện thoại di động Deville và cộng sự (2014) Dự báo các xu hướng nhân khẩu học như mật độ tiêu dùng của dân số, sử dụng dữ liệu từ điện thoại di động Blumenstock và cộng sự (2015) Mao và cộng sự (2015); Dự báo nghèo đói, sử dụng dữ liệu từ điện thoại di động Toole và cộng sự (2015) Dự báo các thất nghiệp, sử dụng dữ liệu từ điện thoại di động Chantapong và Tassanoonthornwong, (2021) Đánh giá tác động của Covid-19 đối với di cư dựa trên lưu lượng người dùng điện thoại di động Dữ liệu hình ảnh và Internet vạn vật Keola và cộng sự (2015) Dự báo tăng trưởng kinh tế và GDP, sử dụng dữ liệu cảm biến từ vệ tinh liên quan tới việc sử dụng đất Henderson và cộng sự, (2012); Jean và cộng sự, (2016) Ước tính chi tiêu tiêu dùng và tài sản của các thành phố hoặc quốc gia có thu nhập thấp Glaeser và cộng sự (2018) Sử dụng Google Street View để dự đoán thu nhập ở thành phố New York Nguồn: Tổng hợp của tác giả PHẠM MẠNH HÙNG33Số 252- Tháng 5. 2023- Tạp chí Khoa học Đào tạo Ngân hàng nó vừa tốn kém để thu thập, vừa không thể theo dõi trong thời gian thực, có nghĩa là chúng ta chỉ có thể theo dõi những chỉ số này qua những công bố định kỳ khi biến động kinh tế đã xảy ra khá lâu. Bên cạnh đó, phương pháp này không tính được đến yếu tố chất lượng sản phẩm có thể ảnh hưởng tới giá cả hàng hóa; một yếu tố quan trọng để đo lường chính xác lạm phát (Silver và Heravi, 2001). Để khắc phục vấn đề này, các nhà kinh tế đã bắt đầu thu thập các tệp dữ liệu lớn về giá cả dựa trên dữ liệu từ máy quét mã vạch tại của hàng (Berardi và cộng sự, 2017) hoặc bằng cách thu thập giá từ các nhà bán lẻ thương mại điện tử (Cavallo, 2013). Nghiên cứu của Barardi và cộng sự (2017) đã đánh giá các yếu tố ảnh hưởng tới sự biến động giá tiêu dùng sử dụng tệp dữ liệu lớn từ máy quét mã vạch tại 1500 siêu thị tại Pháp. Kết quả nghiên cứu khẳng định giá tiêu dùng phần lớn được quyết định bởi khả năng thương lượng của các tập đoàn bán lẻ với nhà sản xuất. Ngoài ra, sự biến động giá tiêu dùng không bị ảnh hưởng bởi các đợt giảm giá và khuyến mại của các nhà bán lẻ. Nghiên cứu của Cavallo (2013) đã chứng minh được rằng các công bố chính thức từ các cơ quan quản lý của Argentina đang che đậy tỷ lệ lạm phát thực sự đang xảy ra tại quốc gia này. Bằng cách thu thập dữ liệu trong bốn năm từ các trang web siêu thị ở Argentina và so sánh với các dữ liệu ở Brazil, Chile, Columbia và Venezuela, Cavallo đã kết luận tỷ lệ lạm phát thực tế là 20, so với mức 4 từ số liệu thống kê chính thức của Chính phủ. Nổi bật nhất trong các ứng dụng dự báo sử dụng dữ liệu thương mại điện tử là dự án Một tỷ mức giá của Đại học MIT (MIT Billion Prices Project) được thực hiện vào năm 2019, dự án này đã thu thập 15 triệu mức giá mỗi ngày từ hơn 1.000 nhà bán lẻ ở 60 quốc gia (Cavallo Rigobon, 2016). Dựa trên phương pháp nghiên cứu này của Cavallo, dự án nghiên cứu Một tỷ mức giá của Đại học MIT đã thu thập và quản lý giá bán hàng hóa trực tuyến từ khắp nơi trên thế giới. Với tệp dữ liệu lớn này, các nhà nghiên cứu có thể dự báo lạm phát, thậm chí đưa ra những nghiên cứu về định giá. Mặc dù thương mại điện tử đã tăng thị phần đáng kể và sẽ tiếp tục xu hướng này trong tương lai, các doanh nghiệp truyền thống vẫn đang có tỷ trọng không nhỏ trong thị trường, đặc biệt là trong một số lĩnh vực như bán lẻ. Do vậy, nhiều nhà nghiên cứu đã hợp tác với các nhà bán lẻ lớn để thu thập dữ liệu từ máy quét giá nhằm xây dựng chỉ số giá (Ivancic và cộng sự, 2011). 2.3. Dữ liệu từ kết quả tìm kiếm Các dữ liệu về kết quả tìm kiếm thường được sử dụng nhằm mục đích tăng hiệu quả quảng cáo trên không gian Internet. Tuy nhiên, nhờ sự xuất hiện những công cụ như Google xu hướng (Google Trends), dữ liệu tìm kiếm cung cấp thông tin chi tiết về mối quan tâm của người dân đối với một chủ đề cụ thể hoặc mong muốn có được thông tin cụ thể về chủ đề đó. Vì vậy, dữ liệu tìm kiếm có thể được sử dụng trong công tác dự báo. Một trong những ứng dụng rất có giá trị của việc sử dụng dữ liệu kết quả tìm kiếm đó là dự báo thất nghiệp. Nghiên cứu điển hình của D’Amuri và Marcucci (2017) đã sử dụng kết quả tìm kiếm cho từ “việc làm” để dự báo tỷ lệ thất nghiệp hàng tháng của Hoa Kỳ, nghiên cứu này đã chứng minh phương pháp sử dụng dữ liệu lớn vượt trội đáng kể so với các mô hình truyền thống. Bên cạnh đó, một số nhà nghiên cứu đã cố gắng sử dụng dữ liệu lớn của kết quả tìm kiếm để theo dõi tình hình dịch bệnh trong thời gian thực (Ginsberg và cộng sự, 2009; Yuan và cộng sự, 2013). Với phương pháp tương tự, một số công trình nghiên cứu Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế34Tạp chí Khoa học Đào tạo Ngân hàng- Số 252- Tháng 5. 2023 cũng sử dụng dữ liệu tìm kiếm để dự báo giá trị bất động sản thương mại (Dietzel và cộng sự, 2014), dự báo nhu cầu phòng khách sạn (Pan và cộng sự, 2018), truy vấn tìm kiếm về ngân hàng trên Internet để hỗ trợ các hoạt động giám sát của Ngân hàng Trung ương Thái Lan (Sawaengsuksant, 2019), doanh thu bán trò chơi điện tử và đo mức độ phổ biến của bài hát (Goel và cộng sự, 2010). Choi và Varian (2012) đã chỉ ra cách sử dụng dữ liệu của công cụ tìm kiếm để dự báo các giá trị ngắn hạn của các chỉ số kinh tế, với các ví dụ bao gồm doanh số bán ô tô, yêu cầu trợ cấp thất nghiệp, lập kế hoạch điểm đến du lịch và niềm tin của người tiêu dùng. Hay Yu và cộng sự (2019) đã đề xuất một mô hình dự báo tiêu thụ dầu dựa trên dữ liệu lớn trực tuyến với Google Xu hướng để dự đoán cả xu hướng và giá trị tiêu thụ dầu. 2.4. Dữ liệu từ mạng xã hội Kể từ những ngày đầu tiên khi Internet ra đời, các mạng xã hội đã tạo ra và lưu trữ một lượng lớn dữ liệu và phần lớn là dữ liệu theo thời gian thực. Khi các nền tảng xã hội như Facebook và Twitter trở nên phổ biến ở mọi nơi, những nhà kinh tế cũng tìm cách khai thác các luồng dữ liệu này để dự báo. Dữ liệu từ mạng xã hội hàm chứa các tín hiệu ban đầu về suy nghĩ hoặc trạng thái cảm xúc của các nhóm dân cư cụ thể, giúp dự đoán hành vi của họ trong tương lai (Mittal Goel, 2012). Qua đó, những cảm xúc này có thể thúc đẩy hành vi thị trường và do đó có thể là dữ liệu hữu ích để kết hợp vào các mô hình dự báo. Miah và cộng sự (2017) đã thiết kế và sử dụng phương pháp phân tích dữ liệu lớn để dự đoán các kiểu hành vi của khách du lịch tại các điểm đến cụ thể bằng cách sử dụng ảnh được gắn thẻ địa lý do khách du lịch tải lên trang mạng xã hội chia sẻ ảnh Flickr. Trong một nghiên cứu của mình, Bollen và cộng sự (2011) đã sử dụng dữ liệu Twitter để thu thập “trạng thái của nhà đầu tư” được xác định theo một mô hình sáu chiều (bình tĩnh, tỉnh táo, chắc chắn, sống động, tốt bụng và hạnh phúc). Nhóm tác giả đã kiểm tra mối liên hệ phi tuyến tính giữa những “trạng thái nhà đầu tư” này và chỉ số Dow Jones (DJIA). Kết quả nghiên cứu cho thấy một số trạng thái (đặc biệt là bình tĩnh) đã cải thiện đáng kể các dự đoán cho DJIA, cho thấy rằng tâm lý của công chúng đã không được tính toán đầy đủ vào diễn biến giá cổ phiếu trong các mô hình nghiên cứu truyền thống. Bằng phương pháp nghiên cứu tương tự, một số nhà nghiên cứu đã sử dụng dữ liệu từ mạng xã hội chuyên biệt về đầu tư, như các diễn đàn chứng khoán (Chen và cộng sự, 2014; Avery và cộng sự, 2015) để dự báo xu hướng đầu tư và biến động thị trường. 2.5. Dữ liệu văn bản và phương tiện truyền thông Dữ liệu lớn từ các phương tiện truyền thông đang trở thành xu hướng phổ biến để xác định các xu hướng quan tâm và thậm chí xác định trạng thái bất ổn của nền kinh tế (Bholat và cộng sự, 2015). Dữ liệu văn bản phổ biến nhất được sử dụng trong dự báo là các tờ báo trực tuyến, đặc biệt là các tờ báo liên quan đến kinh tế...
Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế Ngày nhận: 09/05/2023 Phạm Mạnh Hùng Ngày duyệt đăng: 23/05/2023 Học viện Ngân hàng Ngày nhận bản sửa: 21/05/2023 Tóm tắt: Thuật ngữ “Dữ liệu lớn” (big data) đã xuất hiện được gần hai thập kỷ và nhanh chóng trở thành biểu tượng của khoa học phân tích dữ liệu nhờ góp phần giải quyết nhiều vấn đề phức tạp của nghiên cứu xã hội học Một trong những ứng dụng quan trọng của dữ liệu lớn là cải thiện tính kịp thời và tăng mức độ chính xác trong các dự báo kinh tế Trước khi dữ liệu lớn ra đời, các nhà hoạch định chính sách cần chờ đợi những thống kê định kỳ để dự báo chỉ số kinh tế vĩ mô như tăng trưởng GDP và lạm phát thì ngày nay chuỗi dữ liệu kinh tế tần suất cao cho phép các nhà nghiên cứu đưa ra dự báo thường xuyên hơn, nhanh hơn, và trong một số trường hợp, chính xác hơn đáng kể so với các phương pháp dự báo dựa trên dữ liệu truyền thống Bài viết này sẽ nghiên cứu ứng dụng của dữ liệu lớn trong các dự báo kinh tế thông qua phương pháp khảo lược các nghiên cứu để cung cấp bức tranh tổng quan nghiên cứu về chủ đề này Bên cạnh đó, bài viết cũng đưa ra một số thảo luận về thách thức và giải pháp trong sử dụng dữ liệu lớn liên quan tới đầu tư về cơ sở hạ tầng kỹ Overview of big data application in economic forecast Abstract: The term “big data” has been first appeared for nearly two decades and has quickly become a symbol for data analytics by helping to solve the most complex problems of research One of the important applications of big data is to improve the timeliness and accuracy of economic forecasts Before the advent of big data, policymakers needed to wait for the periodic release of macroeconomic statistics to forecast GDP and inflation Today, high frequency economic time series allow researchers to make forecasts more frequently, faster, and, in some cases, significantly more accurately than traditional forecasting methods This paper will examine the use of big data in economic forecasting by providing an overview of empirical studies on this topic In addition, the article also provides some discussions on challenges and solutions in using big data related to investment in technical infrastructure for analysis and handling of unstructured data as well as accessibility and privacy when using big data Keywords: big data, forecasting, macroeconomics Doi: 10.59276/TCKHDT.2023.05.2542 Pham, Manh Hung Email: hungpm@hvnh.edu.vn Banking Academy of Vietnam Tạp chí Khoa học & Đào tạo Ngân hàng 28 © Học viện Ngân hàng ISSN 1859 - 011X Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG thuật cho phân tích, xử lý tính không cấu trúc của dữ liệu, cũng như khả năng tiếp cận và bảo mật quyền riêng tư khi sử dụng dữ liệu lớn Từ khóa: dữ liệu lớn, dự báo, kinh tế vĩ mô 1 Giới thiệu 2015) Theo quan điểm của nghiên cứu (Shi, 2014), đối với cộng đồng học thuật Các loại dữ liệu đang được tạo lập và cung và kinh doanh, dữ liệu lớn là “một tập hợp cấp ở mức độ lớn chưa thấy từ trước đến dữ liệu phức tạp, đa dạng, không đồng nhất nay trên toàn cầu Trong bối cảnh cách và có giá trị tiềm năng cao khó xử lý và mạng khoa học và công nghệ lần thứ 4, nhờ phân tích trong thời gian hợp lý” Đối với sự xuất hiện của những thiết bị công nghệ các nhà hoạch định chính sách, dữ liệu lớn cao ngày càng phổ biến, tập dữ liệu toàn là “một loại tài nguyên chiến lược mới cầu cũng tăng với tốc độ chưa từng có trước trong kỷ nguyên số và là yếu tố then chốt đây Mỗi ngày thế giới tạo ra khoảng 2,5 để thúc đẩy sự đổi mới, đang làm thay đổi triệu byte dữ liệu và chỉ trong hai năm liền phương thức sản xuất và sinh hoạt hiện tại trước, khoảng 90% dữ liệu hiện có được của con người.” (Shi, 2014) Mặc dù định tạo ra (Tomar và cộng sự, 2016) Kể từ khi nghĩa khác nhau, những đặc trưng chính ra đời, dữ liệu lớn (big data) nhanh chóng của dữ liệu lớn bao gồm: (i) Volume: khối trở thành biểu tượng của khoa học phân lượng lớn, được sản xuất từ nhiều nguồn tích dữ liệu và góp phần giải quyết nhiều như các giao dịch, truyền thông, hình ảnh, vấn đề phức tạp của nghiên cứu xã hội học âm thanh, giao tiếp cá nhân; (ii) Velocity: Một trong những ứng dụng to lớn của dữ tốc độ tạo ra dữ liệu nhanh và (iii) Variety: liệu lớn là cải thiện tính kịp thời và tăng sự đa dạng về định dạng của dữ liệu từ dữ mức độ chính xác trong các dự báo kinh tế liệu số, tài liệu văn bản, email, video và Trước khi dữ liệu lớn ra đời, các nhà hoạch âm thanh Về cơ bản, dữ liệu lớn là thuật định chính sách cần chờ đợi những công ngữ chỉ những tệp dữ liệu rất lớn và phức bố định kỳ của các thống kê kinh tế để dự tạp, mà các công cụ xử lý dữ liệu truyền báo chỉ số tăng trưởng GDP và lạm phát thống không xử lý được Với bản chất đó, thì ngày nay, chuỗi dữ liệu kinh tế tần suất dữ liệu lớn đặt ra một số thách thức liên cao cho phép các nhà nghiên cứu đưa ra quan tới tìm kiếm, tiếp cận, thu thập, xử lý, dự báo thường xuyên hơn và trong một số và phân tích dữ liệu như việc sử dụng dữ trường hợp, chính xác hơn so với phương liệu lớn yêu cầu về đầu tư cơ sở hạ tầng, pháp truyền thống (Lin và cộng sự, 2022) nâng cao năng lực chuyên môn của nhà Thuật ngữ “dữ liệu lớn” đã xuất hiện được nghiên cứu, và những hạn chế về khả năng gần hai thập kỷ, tuy nhiên, cho đến nay vẫn tiếp cận nguồn dữ liệu Trên thực tế, không chưa có định nghĩa thống nhất về dữ liệu có ngưỡng cụ thể mà một tập dữ liệu có lớn Quỹ khoa học quốc gia Hoa Kỳ mô thể được coi là lớn Tuy nhiên, vẫn có sự tả dữ liệu lớn là “các tập dữ liệu, đa dạng, khác biệt cơ bản giữa dữ liệu lớn và dữ liệu phức tạp được tạo từ các công cụ, cảm biến, truyền thống Thứ nhất, dữ liệu lớn thường giao dịch Internet, email, video, luồng nhấp được thu thập cho các mục đích khác ngoài chuột và/hoặc tất cả các nguồn kỹ thuật số mục đích nghiên cứu học thuật và lập mô khác hiện có và trong tương lai” (Hassani, hình thống kê (Baldacci và cộng sự, 2016) Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 29 Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế Nguồn: Tổng hợp của tác giả Hình 1 Các nguồn dữ liệu lớn được sử dụng trong dự báo kinh tế Thứ hai, chúng thường vượt quá khả năng xử ứng dụng của loại dữ liệu này trong dự báo lý của phần mềm thống kê tiêu chuẩn thông kinh tế Bên cạnh đó, bài viết cũng đưa ra thường (Hassani & Silva, 2015; Shi, 2014) một số thảo luận về thách thức và giải pháp Hình 1 đã tổng hợp những nguồn dữ liệu trong sử dụng dữ liệu lớn liên quan tới đầu lớn có thể được sử dụng trong phân tích tư về cơ sở hạ tầng kỹ thuật cho phân tích, và dự báo kinh tế vĩ mô Cùng với sự phát xử lý tính không cấu trúc của dữ liệu cũng triển của công nghệ, ngày càng có nhiều như khả năng tiếp cận và bảo mật quyền thông tin được trao đổi, khả năng lưu trữ riêng tư khi sử dụng dữ liệu lớn thông tin ngày càng phát triển, do đó những nguồn thông tin được trao đổi online và số 2 Ứng dụng các nguồn dữ liệu lớn trong hóa như dữ liệu từ thị trường tài chính, từ dự báo kinh tế công ty thương mại điện tử, kết quả tìm kiếm, thông tin từ mạng xã hội, thông tin Mặc dù thuật ngữ “dữ liệu lớn” mới xuất văn bản từ các phương tiện truyền thông hiện gần hai thập kỷ, các nhà nghiên cứu đã online, dữ liệu cảm biến và Internet vạn sử dụng dữ liệu lớn từ các nguồn thông tin vật, dữ liệu giao thông có thể được thu khác nhau để ứng dụng trong nhiều lĩnh vực, thập để sử dụng cho mục đích nghiên cứu điển hình như xây dựng chỉ số lạm phát, dự (Garboden, 2020) Bài viết này sẽ nghiên báo giá dầu, đánh giá tình hình hoạt động cứu ứng dụng của dữ liệu lớn trong việc dự ngân hàng, dự báo giá bất động sản, tình báo và phân tích các chỉ tiêu kinh tế thông hình nghèo đói, thất nghiệp, tăng trưởng qua phương pháp khảo lược các nghiên kinh tế, theo dõi tình hình dịch bệnh cứu để cung cấp một bức tranh tổng quan về chủ đề này Thông qua bài viết, tác giả 2.1 Dữ liệu thị trường tài chính sẽ làm rõ khái niệm về dữ liệu lớn; phân tích các nguồn dữ liệu lớn khác nhau và Nhiều chỉ số kinh tế chính như chỉ số lạm 30 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG phát hay tăng trưởng GDP được công bố phân tích và dự báo kịp thời mang lại giá vài tháng sau diễn biến kinh tế đã xảy ra và trị to lớn Hiện nay, những chỉ số về lĩnh đôi khi những chỉ số này còn chịu sự điều vực tài chính được công bố thường xuyên chỉnh chủ quan Như vậy, độ trễ của phân với tần suất rất đa dạng (Buono và cộng tích là khá lớn Trên thực tế, những dự báo sự, 2017) Các dữ liệu này có thể được sử về chỉ số kinh tế đóng vai trò quan trọng dụng để đưa ra các dự báo kinh tế một cách với các tổ chức, doanh nghiệp, do đó việc nhanh chóng Bảng 1 Các nguồn dữ liệu lớn và ứng dụng của dữ liệu lớn trong dự báo kinh tế Loại dữ liệu Nghiên cứu Nội dung ứng dụng Thông tin từ Modugno (2013), Monteforte và thị trường Moretti (2013) Xây dựng chỉ số lạm phát trong thời gian thực từ giá hàng tài chính hóa, giá năng lượng, chỉ số sản xuất và dữ liệu tài chính Degiannakis và Filis (2018) Dữ liêu Dự báo giá dầu dựa trên dữ liệu tần suất cao như sản thương mại Giulio và cộng sự (2021) lượng dầu, dự trữ dầu, tỷ giá hối đoái, chỉ số thị trường điện tử chứng khoán, hàng hóa (dầu, vàng, đồng, khí đốt, bạc), lãi Berardi và cộng sự (2017) suất tín phiếu kho bạc của Hoa Kỳ Dữ liệu từ Cavallo & Rigobon, (2016) – Dự kết quả tìm án Một tỷ mức giá của MIT Dự báo tình hình hoạt động ngân hàng từ dữ liệu các giao kiếm dịch phái sinh, các khoản vay hoặc thanh toán cá nhân tại Cavallo (2013) các ngân hàng Châu Á Dữ liệu từ mạng xã hội Ginsberg và cộng sự (2009) Thu thập dữ liệu lớn từ máy quét mã vạch Dữ liệu Yuan và cộng sự (2013) văn bản Pan và cộng sự (2018) Dự báo lạm phát trong thời gian dựa trên dữ liệu lớn từ các và phương nhà bán lẻ thương mại điện tử tiện truyền Dietzel và cộng sự (2014) thông Đo lường lạm phát tại Argentina từ dữ liệu của các trang Goel và cộng sự (2010) web siêu thị tại quốc gia này trong 4 năm, và so sánh với các dữ liệu ở Brazil, Chile, Columbia và Venezuela D’Amuri và Marcucci (2017) Theo dõi tình hình dịch bệnh trong thời gian thực, sử dụng Sawaengsuksant (2019) dữ liệu từ kết quả tìm kiếm Choi và Varian (2012) Dự báo nhu cầu phòng khách sạn, sử dụng dữ liệu từ kết Yu và cộng sự (2019) quả tìm kiếm Bollen và cộng sự (2011) Mittal & Goel (2012) Dự báo giá trị bất động sản, sử dụng dữ liệu từ kết quả Miah và cộng sự (2017) tìm kiếm Baker và cộng sự (2016) Dự báo doanh thu bán trò chơi điện tử và đo mức độ phổ Thorsrud (2018) biến của bài hát, sử dụng dữ liệu từ kết quả tìm kiếm Moat và cộng sự (2013) Dự báo tỷ lệ thất nghiệp hàng tháng của Hoa Kỳ, sử dụng kết quả tìm kiếm cho từ “việc làm” Singh và cộng sự (2017) Hỗ trợ các hoạt động giám sát do Ngân hàng Thái Lan, sử dụng kết quả tìm kiếm về ngân hàng trên Internet Dự báo các chỉ tiêu kinh tế ngắn hạn như doanh số, lợi nhuận của doanh nghiệp Tiêu thụ dầu dựa trên dữ liệu Google xu hướng Dự báo giá cổ phiếu sử dụng dữ liệu từ mạng xã hội (như Twitter) Hành vi của khách hàng từ việc đăng tải ảnh trên mạng xã hội Xây dựng một chỉ số về sự bất ổn của chính sách kinh tế (Economic Policy Uncertainty - EPU) dựa trên dữ liệu lớn bằng cách đếm số lượng bài báo Đánh giá mối tương quan giữa việc sử dụng Wikipedia và các biến động trong các cổ phiếu của các công ty niêm yết Sử dụng thông tin từ các bài đánh giá để dự đoán xu hướng khách hàng Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 31 Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế Loại dữ liệu Nghiên cứu Nội dung ứng dụng Dữ liệu từ Deville và cộng sự (2014) Dự báo các xu hướng nhân khẩu học như mật độ tiêu dùng điện thoại di của dân số, sử dụng dữ liệu từ điện thoại di động động Blumenstock và cộng sự (2015) Mao và cộng sự (2015); Dự báo nghèo đói, sử dụng dữ liệu từ điện thoại di động Dữ liệu hình ảnh và Toole và cộng sự (2015) Dự báo các thất nghiệp, sử dụng dữ liệu từ điện thoại di Internet vạn động vật Chantapong và Đánh giá tác động của Covid-19 đối với di cư dựa trên lưu Tassanoonthornwong, (2021) lượng người dùng điện thoại di động Dự báo tăng trưởng kinh tế và GDP, sử dụng dữ liệu cảm Keola và cộng sự (2015) biến từ vệ tinh liên quan tới việc sử dụng đất Ước tính chi tiêu tiêu dùng và tài sản của các thành phố Henderson và cộng sự, (2012); hoặc quốc gia có thu nhập thấp Jean và cộng sự, (2016) Sử dụng Google Street View để dự đoán thu nhập ở thành phố New York Glaeser và cộng sự (2018) Nguồn: Tổng hợp của tác giả Degiannakis và Filis (2018) đã sử dụng dữ sử dụng các dữ liệu có tần suất cao hỗn hợp liệu thị trường tần suất cao để dự báo giá này tỏ ra hiệu quả hơn so với các mô hình dầu Mô hình của các nhà nghiên cứu kết truyền thống khi sử dụng các dữ liệu có tần hợp các phép đo truyền thống về chu kỳ suất dài Monteforte và Moretti (2013) đã kinh doanh toàn cầu, sản lượng dầu, dự trữ sử dụng mô hình hồi quy dữ liệu hỗn hợp dầu và dữ liệu tần suất “cực cao” về tỷ giá (MIDAS- mixed data sampling) để dự báo hối đoái, chỉ số thị trường chứng khoán, chỉ số lạm phát hàng ngày tại khu vực đồng hàng hóa (dầu, vàng, đồng, khí đốt, bạc) Euro Mô hình kết hợp chỉ số lạm phát cơ và lãi suất tín phiếu kho bạc của Hoa Kỳ bản hàng tháng với dữ liệu hàng ngày từ thị Tác giả thấy rằng đối với các dự báo ngắn trường tài chính Kết quả nghiên cứu cho hạn, việc sử dụng dữ liệu lớn với tần suất thấy việc đưa vào các biến hàng ngày giúp cao giúp cải thiện đáng kể tính chính xác giảm sai số dự báo so với các mô hình chỉ của phép đo xem xét các biến hàng tháng Nghiên cứu của Modugno (2013) đã thử Gần đây, nghiên cứu của Giulio và cộng sự nghiệm xây dựng một mô hình dự báo lạm (2021) đã dự báo tình hình hoạt động tại phát được cập nhật liên tục, thay vì chờ đợi các ngân hàng Châu Á từ kho dữ liệu lớn các số liệu công bố hàng tháng Nghiên cứu các giao dịch phái sinh, các khoản vay hoặc này đã sử dụng dữ liệu hàng ngày về giá thanh toán cá nhân từ các cơ quan đăng ký cả hàng hóa từ giá nguyên liệu thô trên thị tín dụng tại các ngân hàng Châu Á hoặc từ trường thế giới (World Market Price of Raw cơ quan đăng ký tín dụng cho các khoản Materials), dữ liệu hàng tuần về giá năng vay hoặc thanh toán cá nhân lượng từ chỉ số giá xăng và dầu diesel bán lẻ hàng tuần (WRGDP) từ Cơ quan Thông 2.2 Dữ liệu thương mại điện tử tin Năng lượng Hoa Kỳ, dữ liệu hàng tháng về sản xuất từ Viện Quản lý cung ứng (dữ Để xây dựng chỉ số giá tiêu dùng, phương liệu này được phát hành hai tuần trước dữ pháp truyền thống sẽ sử dụng nhân viên liệu lạm phát được công bố) và dữ liệu tài thực địa đi thị trường để thu thập giá cả trên chính hàng ngày từ chỉ số đô la Mỹ, S&P một rổ hàng hóa từ các cửa hàng truyền 500, chỉ số trái phiếu kho bạc và lãi suất tín thống trên toàn quốc Phương pháp này phiếu kho bạc Nghiên cứu đã cho thấy việc giúp đảm bảo chất lượng dữ liệu, nhưng 32 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG nó vừa tốn kém để thu thập, vừa không thể Dựa trên phương pháp nghiên cứu này của theo dõi trong thời gian thực, có nghĩa là Cavallo, dự án nghiên cứu Một tỷ mức giá chúng ta chỉ có thể theo dõi những chỉ số của Đại học MIT đã thu thập và quản lý giá này qua những công bố định kỳ khi biến bán hàng hóa trực tuyến từ khắp nơi trên động kinh tế đã xảy ra khá lâu Bên cạnh đó, thế giới Với tệp dữ liệu lớn này, các nhà phương pháp này không tính được đến yếu nghiên cứu có thể dự báo lạm phát, thậm tố chất lượng sản phẩm có thể ảnh hưởng chí đưa ra những nghiên cứu về định giá tới giá cả hàng hóa; một yếu tố quan trọng Mặc dù thương mại điện tử đã tăng thị phần để đo lường chính xác lạm phát (Silver và đáng kể và sẽ tiếp tục xu hướng này trong Heravi, 2001) tương lai, các doanh nghiệp truyền thống Để khắc phục vấn đề này, các nhà kinh tế vẫn đang có tỷ trọng không nhỏ trong thị đã bắt đầu thu thập các tệp dữ liệu lớn về trường, đặc biệt là trong một số lĩnh vực giá cả dựa trên dữ liệu từ máy quét mã vạch như bán lẻ Do vậy, nhiều nhà nghiên cứu tại của hàng (Berardi và cộng sự, 2017) đã hợp tác với các nhà bán lẻ lớn để thu hoặc bằng cách thu thập giá từ các nhà thập dữ liệu từ máy quét giá nhằm xây bán lẻ thương mại điện tử (Cavallo, 2013) dựng chỉ số giá (Ivancic và cộng sự, 2011) Nghiên cứu của Barardi và cộng sự (2017) đã đánh giá các yếu tố ảnh hưởng tới sự 2.3 Dữ liệu từ kết quả tìm kiếm biến động giá tiêu dùng sử dụng tệp dữ liệu lớn từ máy quét mã vạch tại 1500 siêu thị Các dữ liệu về kết quả tìm kiếm thường tại Pháp Kết quả nghiên cứu khẳng định được sử dụng nhằm mục đích tăng hiệu quả giá tiêu dùng phần lớn được quyết định bởi quảng cáo trên không gian Internet Tuy khả năng thương lượng của các tập đoàn nhiên, nhờ sự xuất hiện những công cụ như bán lẻ với nhà sản xuất Ngoài ra, sự biến Google xu hướng (Google Trends), dữ liệu động giá tiêu dùng không bị ảnh hưởng tìm kiếm cung cấp thông tin chi tiết về mối bởi các đợt giảm giá và khuyến mại của quan tâm của người dân đối với một chủ đề các nhà bán lẻ Nghiên cứu của Cavallo cụ thể hoặc mong muốn có được thông tin (2013) đã chứng minh được rằng các công cụ thể về chủ đề đó Vì vậy, dữ liệu tìm kiếm bố chính thức từ các cơ quan quản lý của có thể được sử dụng trong công tác dự báo Argentina đang che đậy tỷ lệ lạm phát thực Một trong những ứng dụng rất có giá trị sự đang xảy ra tại quốc gia này Bằng cách của việc sử dụng dữ liệu kết quả tìm kiếm thu thập dữ liệu trong bốn năm từ các trang đó là dự báo thất nghiệp Nghiên cứu điển web siêu thị ở Argentina và so sánh với hình của D’Amuri và Marcucci (2017) đã các dữ liệu ở Brazil, Chile, Columbia và sử dụng kết quả tìm kiếm cho từ “việc làm” Venezuela, Cavallo đã kết luận tỷ lệ lạm để dự báo tỷ lệ thất nghiệp hàng tháng của phát thực tế là 20%, so với mức 4% từ số Hoa Kỳ, nghiên cứu này đã chứng minh liệu thống kê chính thức của Chính phủ phương pháp sử dụng dữ liệu lớn vượt trội Nổi bật nhất trong các ứng dụng dự báo đáng kể so với các mô hình truyền thống sử dụng dữ liệu thương mại điện tử là dự Bên cạnh đó, một số nhà nghiên cứu đã cố án Một tỷ mức giá của Đại học MIT (MIT gắng sử dụng dữ liệu lớn của kết quả tìm Billion Prices Project) được thực hiện vào kiếm để theo dõi tình hình dịch bệnh trong năm 2019, dự án này đã thu thập 15 triệu thời gian thực (Ginsberg và cộng sự, 2009; mức giá mỗi ngày từ hơn 1.000 nhà bán lẻ Yuan và cộng sự, 2013) Với phương pháp ở 60 quốc gia (Cavallo & Rigobon, 2016) tương tự, một số công trình nghiên cứu Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 33 Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế cũng sử dụng dữ liệu tìm kiếm để dự báo Trong một nghiên cứu của mình, Bollen và giá trị bất động sản thương mại (Dietzel cộng sự (2011) đã sử dụng dữ liệu Twitter và cộng sự, 2014), dự báo nhu cầu phòng để thu thập “trạng thái của nhà đầu tư” được khách sạn (Pan và cộng sự, 2018), truy vấn xác định theo một mô hình sáu chiều (bình tìm kiếm về ngân hàng trên Internet để hỗ tĩnh, tỉnh táo, chắc chắn, sống động, tốt trợ các hoạt động giám sát của Ngân hàng bụng và hạnh phúc) Nhóm tác giả đã kiểm Trung ương Thái Lan (Sawaengsuksant, tra mối liên hệ phi tuyến tính giữa những 2019), doanh thu bán trò chơi điện tử và đo “trạng thái nhà đầu tư” này và chỉ số Dow mức độ phổ biến của bài hát (Goel và cộng Jones (DJIA) Kết quả nghiên cứu cho thấy sự, 2010) Choi và Varian (2012) đã chỉ ra một số trạng thái (đặc biệt là bình tĩnh) đã cách sử dụng dữ liệu của công cụ tìm kiếm cải thiện đáng kể các dự đoán cho DJIA, để dự báo các giá trị ngắn hạn của các chỉ cho thấy rằng tâm lý của công chúng đã số kinh tế, với các ví dụ bao gồm doanh số không được tính toán đầy đủ vào diễn biến bán ô tô, yêu cầu trợ cấp thất nghiệp, lập giá cổ phiếu trong các mô hình nghiên cứu kế hoạch điểm đến du lịch và niềm tin của truyền thống Bằng phương pháp nghiên người tiêu dùng Hay Yu và cộng sự (2019) cứu tương tự, một số nhà nghiên cứu đã sử đã đề xuất một mô hình dự báo tiêu thụ dầu dụng dữ liệu từ mạng xã hội chuyên biệt dựa trên dữ liệu lớn trực tuyến với Google về đầu tư, như các diễn đàn chứng khoán Xu hướng để dự đoán cả xu hướng và giá (Chen và cộng sự, 2014; Avery và cộng sự, trị tiêu thụ dầu 2015) để dự báo xu hướng đầu tư và biến động thị trường 2.4 Dữ liệu từ mạng xã hội 2.5 Dữ liệu văn bản và phương tiện Kể từ những ngày đầu tiên khi Internet ra truyền thông đời, các mạng xã hội đã tạo ra và lưu trữ một lượng lớn dữ liệu và phần lớn là dữ Dữ liệu lớn từ các phương tiện truyền liệu theo thời gian thực Khi các nền tảng thông đang trở thành xu hướng phổ biến để xã hội như Facebook và Twitter trở nên xác định các xu hướng quan tâm và thậm phổ biến ở mọi nơi, những nhà kinh tế cũng chí xác định trạng thái bất ổn của nền kinh tìm cách khai thác các luồng dữ liệu này để tế (Bholat và cộng sự, 2015) Dữ liệu văn dự báo Dữ liệu từ mạng xã hội hàm chứa bản phổ biến nhất được sử dụng trong dự các tín hiệu ban đầu về suy nghĩ hoặc trạng báo là các tờ báo trực tuyến, đặc biệt là các thái cảm xúc của các nhóm dân cư cụ thể, tờ báo liên quan đến kinh tế có uy tín như giúp dự đoán hành vi của họ trong tương Wall Street Journal hoặc Financial Times lai (Mittal & Goel, 2012) Qua đó, những (Baker và cộng sự, 2016; Thorsrud, 2018), cảm xúc này có thể thúc đẩy hành vi thị hoặc các bản tuyên bố của FED (Ericsson, trường và do đó có thể là dữ liệu hữu ích để 2016, 2017) và Wikipedia (Moat và cộng kết hợp vào các mô hình dự báo sự, 2013) Miah và cộng sự (2017) đã thiết kế và sử Baker và cộng sự (2016) đã xây dựng một dụng phương pháp phân tích dữ liệu lớn để chỉ số về sự bất ổn của chính sách kinh tế dự đoán các kiểu hành vi của khách du lịch (Economic Policy Uncertainty- EPU) dựa tại các điểm đến cụ thể bằng cách sử dụng trên dữ liệu lớn bằng cách đếm số lượng ảnh được gắn thẻ địa lý do khách du lịch tải bài báo sử dụng một hoặc nhiều thuật ngữ lên trang mạng xã hội chia sẻ ảnh Flickr từ một trong ba nhóm sau: 1) ‘kinh tế’ 34 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG hoặc ‘nền kinh tế’, 2) ‘sự không chắc chắn’ các thiết bị khác cũng cho phép các nhà hoặc ‘ không chắc chắn’, và 3) ‘Quốc hội’, kinh tế khảo sát tốt hơn về các thói quen cá ‘thâm hụt’, ‘Cục dự trữ liên bang’, ‘luật nhân hàng ngày pháp’, ‘quy định’ hoặc ‘Nhà Trắng’ Nhóm Một số nghiên cứu đã sử dụng dữ liệu lớn tác giả đã thu thập dữ liệu từ 10 tờ báo hàng từ dữ liệu điện thoại di động trên cơ sở tần đầu trong 20 năm để xây dựng thước đo suất và vị trí phát sinh dịch vụ để dự báo này Mặc dù cách tiếp cận này chưa thể bao các xu hướng nhân khẩu học như nghèo phủ được tất cả các bài báo đề cập tới sự đói (Blumenstock và cộng sự, 2015; Mao bất ổn của chính sách, kết quả cho thấy chỉ và cộng sự, 2015;), thất nghiệp (Toole số EPU dựa trên dữ liệu lớn có mối tương và cộng sự, 2015), mật độ tiêu dùng của quan chặt chẽ với chỉ số EPU dựa trên các dân số (Deville và cộng sự, 2014) Ví dụ biện pháp đo lường truyền thống và từ đó nghiên cứu của Blumenstock và cộng sự có thể cải thiện các dự báo kinh tế (2015) không những chỉ ra rằng lịch sử sử Nghiên cứu của Moat và cộng sự (2013) dụng điện thoại di động trong quá khứ của tìm hiểu cách các nhà đầu tư tìm kiếm một cá nhân có thể được sử dụng để suy ra thông tin trước khi đưa ra quyết định giao tình trạng kinh tế xã hội của anh ta mà còn dịch Tác giả đã thu thập số lượt xem và chứng minh rằng các thuộc tính được dự chỉnh sửa đối với các trang Wikipedia về đoán của hàng triệu cá nhân có thể tái tạo các công ty niêm yết, kết quả cho thấy mối chính xác sự phân bổ của cải của cả một tương quan giữa việc sử dụng Wikipedia quốc gia hoặc để suy ra sự phân bố tài sản và các biến động trong các cổ phiếu của của các khu vực các công ty này Đối với dữ liệu văn bản trực tuyến, Singh và cộng sự (2017) đã 2.7 Dữ liệu hình ảnh và Internet vạn vật phát triển các mô hình dựa trên máy học để có thể dự đoán mức độ hữu ích của các bài Đối với dữ liệu hình ảnh, các học giả đánh giá của người tiêu dùng bằng cách sử (Henderson và cộng sự, 2012; Jean và cộng dụng một số đặc điểm văn bản, chẳng hạn sự, 2016) đã ước tính chi tiêu tiêu dùng và như tính phân cực, tính chủ quan, cảm xúc tài sản của các thành phố hoặc quốc gia có và tính dễ hiểu thu nhập thấp từ dữ liệu hình ảnh vệ tinh có độ phân giải cao Glaeser và cộng sự 2.6 Dữ liệu từ điện thoại di động (2018) lần đầu tiên cho thấy cách hình ảnh Google Street View có thể được sử dụng để Điện thoại di động ngày nay đã có độ bao dự đoán thu nhập ở thành phố New York phủ vô cùng rộng lớn trên phạm vi toàn Nghiên cứu của Keola và cộng sự (2015) đã cầu Ở các nền kinh tế phát triển, gần 100% sử dụng hình ảnh vệ tinh từ Chương trình dân số sử dụng điện thoại di động và ngay vệ tinh khí tượng quốc phòng Hoa Kỳ để cả ở các nước đang phát triển, nhiều quốc ước tính mức độ ánh sáng xung quanh vào gia cũng có tới 75% dân số đã sử dụng điện ban đêm và sử dụng máy quang phổ hình thoại di động Điều này đã thúc đẩy nhiều ảnh của NASA để xác định xem những khu nhà nghiên cứu xem xét giá trị của dữ liệu vực không đô thị hóa là đất rừng hay đất điện thoại di động để dự báo kinh tế, đặc nông nghiệp Kết quả cho thấy rằng kết biệt là ở những khu vực mà các cuộc điều hợp hai biện pháp này có thể thu thập thông tra truyền thống rất tốn kém hoặc gặp khó tin về sử dụng đất, từ đó dự báo tăng trưởng khăn khi tiến hành Điện thoại di động và kinh tế và GDP Phương pháp này tỏ ra hữu Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 35 Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế ích ở những quốc gia mà phương pháp đo bối cảnh này, việc ứng dụng dữ liệu lớn có lường hành chính và khảo sát truyền thống thể bù đắp những khoảng trống của phương chưa đáng tin cậy, đặc biệt là ở các nước pháp truyền thống Đã có nhiều nghiên cứu đang phát triển sử dụng dữ liệu lớn vào các dự báo và so Internet vạn vật (Internet of Things), đang sánh hiệu suất của phương pháp mới với ngày càng trở nên phổ biến hơn, và chắc các mô hình truyền thống và cho thấy sử chắn rằng xu hướng công nghệ này tiềm dụng dữ liệu lớn có thể cải thiện tính chính tàng có những tác động sâu sắc đối với công xác và tính kịp thời của các dự báo kinh tế tác dự báo Trong tương lai, ngày càng có Bên cạnh những nguồn dữ liệu lớn đã được nhiều thiết bị điện tử sẽ sớm được tích hợp giới thiệu trong bài viết, một số nguồn dữ khả năng giao tiếp từ xa giữa người dùng liệu lớn mới cũng có thể được xem xét sử cuối với nhà sản xuất với chi phí rẻ hơn dụng trong tương lai để dự báo kinh tế (Keola và cộng sự, 2015) Hiện nay công Trong khi việc sử dụng dữ liệu văn bản nghệ này còn ở giai đoạn sơ khai nên chưa trong dự báo đã tăng lên, dữ liệu âm thanh có dự báo kinh tế nào sử dụng dữ liệu được và video phần lớn vẫn bị bỏ qua trong các thu thập từ các thiết bị này (Buono và cộng công tác dự báo Khi phần mềm nhận dạng sự, 2017) Tuy nhiên, nếu những thiết bị giọng nói cải thiện cùng với khả năng trích điện tử này được phát triển hơn, dữ liệu từ xuất thông tin từ hình ảnh và bản ghi video, các cảm biến được gắn với hàng hóa sẽ có có khả năng một số dữ liệu này có thể hữu thể được dùng để phản ánh trực tiếp hành ích cho việc dự báo các xu hướng kinh tế vi của người dùng (Fleisch, 2010) Ngoài ra, có một tiềm năng rất lớn của dữ liệu hành chính có thể được sử dụng trong 3 Kết luận và một số hàm ý dự báo, đặc biệt là dữ liệu được thu thập ở cấp địa phương trong toàn quốc, hay các dữ Bài viết đã tổng kết 7 nguồn dữ liệu lớn có liệu y tế công cộng (Giulio, 2021) thể sử dụng trong phân tích kinh tế vĩ mô Dữ liệu lớn cũng đặt ra một số thách thức cũng như thực hiện tổng hợp các nghiên với các nhà nghiên cứu bao gồm sự đòi hỏi cứu tiêu biểu trong thực tế đã ứng dụng dữ về bổ sung công cụ thống kê mới; nâng cao liệu lớn này để đưa ra các báo cáo phân tích trình độ chuyên môn để có thể xử lý một và dự báo Đây sẽ là các gợi ý quan trọng để tệp dữ liệu lớn và khả năng về điều kiện hạ các nhà nghiên cứu tại Việt Nam thực hiện tầng và pháp lý để tiếp cận tới các nguồn các dự báo tương tự dựa trên các nguồn dữ dữ liệu lớn Một số khuyến nghị đề xuất liệu lớn So sánh với các phương pháp phân để phát triển tốt công tác dự báo kinh tế sử tích truyền thống, phương pháp sử dụng dữ dụng dữ liệu lớn có thể được tổng kết lại liệu lớn trong nghiên cứu và phân tích các như sau: biến số vĩ mô vẫn còn tương đối mới tại các Thứ nhất, phát triển cơ sở hạ tầng tại các đơn vị kinh doanh cũng như các cơ quan tổ chức sử dụng dữ liệu lớn để phân tích quản lý Phương pháp dự báo sử dụng dữ biến số kinh tế vĩ mô Thách thức cốt lõi liệu truyền thống khó có thể linh hoạt do đầu tiên đối với các nhà phân tích kinh tế vĩ cần thời gian và chi phí để khảo sát và lấy mô muốn sử dụng dữ liệu lớn là nó thường số liệu Trong nhiều trường hợp, việc dự được lưu trữ ở hệ thống máy tính phân tán báo muộn và không chính xác có thể đem được kết nối qua mạng tốc độ cao, và hiếm lại những hậu quả tiêu cực trong việc hoạch khi được lưu trữ và xử lý trên máy tính cá định chính sách và quản lý rủi ro Trong nhân Do vậy, việc tiếp cận dữ liệu lớn đòi 36 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG hỏi có sự đầu tư về cơ sở hạ tầng và hệ năng tiếp cận dữ liệu lớn cũng như bảo mật thống máy tính tương đối mạnh để xử lý quyền riêng tư khi sử dụng dữ liệu lớn Hầu tác vụ mà không có nhiều cơ sở nghiên cứu hết dữ liệu lớn của CShính phủ và doanh học thuật đáp ứng được Hiện nay, việc đầu nghiệp chỉ được xuất từ các hệ thống lưu tư cơ sở hạ tầng này khá tốn kém cả về chi trữ dữ liệu độc quyền, gây khó khăn cho phí mua mới và chi phí duy trì mà hiếm cơ những nhà nghiên cứu muốn tiếp cận và xử sở nghiên cứu học thuật nào đáp ứng được lý Đồng thời, việc sử dụng dữ liệu lớn có Do đó, Chính phủ và các cơ quan quản lý sẵn, ví dụ như kết quả tìm kiếm trên Google tích cần có những cơ chế hỗ trợ, khuyến xu hướng, có thể gây ra một số rủi ro liên khích việc đầu tư cơ sở hạ tầng, phục vụ quan tới pháp lý, đạo đức và tài chính khi cho việc nghiên cứu và dự báo dựa trên dữ tiếp cận và phân tích các thông tin cá nhân liệu lớn Bên cạnh đó, việc tiếp cận các nguồn dữ Thứ hai, nhà phân tích cần nâng cao năng liệu lớn cũng còn nhiều hạn chế so phần lực chuyên môn để đáp ứng yêu cầu phân lớn dữ liệu lớn có tính chất độc quyền, tích của dữ liệu lớn Hầu hết dữ liệu lớn hoặc riêng tư, nên các tổ chức sẽ ngần ngại không được tạo ra vì mục đích nghiên cứu trong việc chia sẻ công khai dữ liệu Để tận học thuật mà tồn tại như một sản phẩm phụ dụng được nguồn dữ liệu lớn trong khi đảm của các hoạt động kinh doanh hoặc quản bảo yếu tố an toàn và quyền riêng tư, Chính lý Vì vậy, cấu trúc của “dữ liệu lớn” có phủ cần ban hành các quy định cụ thể về thể khá phức tạp, thường kết hợp các yếu chia sẻ và phân tích dữ liệu lớn, bao gồm tố không gian và thời gian vào các bảng đa việc mã hóa dữ liệu để đảm bảo bảo mật chiều không cân bằng Bên cạnh đó, những thông tin Theo đó, các kỹ thuật phân tích dữ liệu bẩn (dirty data) như dữ liệu lặp lại, dữ liệu cũng cần được điều chỉnh để hoạt dữ liệu nhiễu, dữ liệu không liên quan, dữ động với dữ liệu đã được mã hóa hoặc phân liệu kém chất lượng rất thường xuyên tán Bên cạnh đó, cũng cần có những cơ xuất hiện trong những tệp dữ liệu lớn Bên chế thúc đẩy những thỏa thuận chia sẻ dữ cạnh đó, cấu trúc của “dữ liệu lớn” cũng liệu giữa các tổ chức, cơ quan quản lý và cơ thay đổi liên tục theo yêu cầu quản lý thực sở nghiên cứu học thuật để việc tiếp cận dữ tế Do đó, để có thể xử lý và phân tích tệp liệu được mở rộng với chi phí hợp lý dữ liệu lớn, các nhà nghiên cứu cần học hỏi Dự báo là công tác rất quan trọng đối với những kiến thức chuyên ngành liên quan tới việc ra quyết định kinh tế Việc ứng dụng khoa học máy tính, thay vì những lý thuyết dữ liệu lớn trong dự báo kinh tế ngày càng về thống kê và toán kinh tế thông thường phổ biến trong thời gian qua đã cung cấp Vì vậy, Chính phủ và các cơ quan quản lý một số gợi ý đối với các nhà kinh tế Đầu cần có chính sách khuyến khích, hỗ trợ đẩy tiên, số liệu thống kê kinh tế không còn là mạnh công tác đào tạo nguồn nhân lực chất nguồn duy nhất của công tác dự báo Các lượng cao trong ngành dữ liệu lớn như: mở chỉ số dữ liệu khác nhau trong dự báo kinh rộng các chương trình đào tạo tại các cơ sở tế có thể được tạo theo thời gian thực dựa giáo dục hàng đầu tại Việt Nam, phối hợp trên các nguồn dữ liệu đa dạng như dữ liệu mở các khóa học chuyên sâu, các tọa đàm tìm kiếm, dữ liệu truyền thông xã hội, tin chuyên môn với chuyên gia quốc tế để tức trực tuyến, dữ liệu giao dịch Thứ nâng cao nhận thức và trình độ ngành khoa hai, sự phát triển của dữ liệu lớn đã đặt học dữ liệu ra những yêu cầu mới về phương pháp và Thứ ba, cần có chính sách tăng cường khả công cụ dự báo kinh tế Trong những năm Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 37 Tổng quan về ứng dụng dữ liệu lớn trong dự báo kinh tế gần đây, phương pháp dự báo kết hợp đã ứng nhu cầu xử lý dữ liệu lớn Đồng thời, được phát triển tốt bằng cách tích hợp các việc đưa dữ liệu lớn vào các mô hình dự phương pháp kinh tế lượng truyền thống, báo kinh tế truyền thống cho thấy sự hiệu phương pháp học máy và các phương pháp quả trong cải thiện độ chính xác và tính kịp phân tích bằng trí tuệ nhân tạo khác để đáp thời của dự báo ■ Tài liệu tham khảo Dietzel, A, M., Braun, N., & Schäfers, W (2014) Sentiment-based commercial real estate forecasting with google search volume data Journal of Property Investment & Finance, 32(6), 540–569 https://doi.org/10.1108/JPIF-01-2014- 0004 Avery, C N., Chevalier, J A., & Zeckhauser, R J (2015) The CAPS prediction system and stock market returns Review of Finance, 20(4), 1363–1381 https://doi.org/10.1093/rof/rfv043 Baker, S R., Bloom, N., & Davis, S J (2016) Measuring economic policy uncertainty The Quarterly Journal of Economics, 131(4), 1593–1636 https://doi.org/10.1093/qje/qjw024 Baldacci, E., Buono, D., Kapetanios, G., Krische, S., Marcellino, M., Mazzi, G., & Papailias, F (2016) Big data and macroeconomic nowcasting: From data access to modelling Eurostat Statistical Book https://doi org/10.2785/3605875 Berardi, N., Sevestre, P., & Thébault, J (2017) The determinants of consumer price dispersion: Evidence from french supermarkets In L Matyas (Ed.), The econometrics of multi-dimensional panels (pp 427–449) Springer https:// doi.org/10.1007/978-3-319-60783-2_15 Bholat, D., Hansen, S., Santos, P., & Schonhardt-Bailey, C (2015) Text mining for central banks Available at SSRN 2624811 http://dx.doi.org/10.2139/ssrn.2624811 Blumenstock, J., Cadamuro, G., & On, R (2015) Predicting poverty and wealth from mobile phone metadata Science, 350(6264), 1073–1076 https://doi.org/10.1126/science.aac4420 Bollen, J., Mao, H., & Zeng, X (2011) Twitter mood predicts the stock market Journal of computational science, 2(1), 1–8 https://doi.org/10.1016/j.jocs.2010.12.007 Buono, D., Mazzi, G L., Kapetanios, G., Marcellino, M., & Papailias, F (2017) Big data types for macroeconomic nowcasting Eurostat Review on National Accounts and Macroeconomic Indicators, 1(2017), 93–145 Cavallo, A (2013) Online and official price indexes: Measuring Argentina’s inflation Journal of Monetary Economics, 60(2), 152–165 https://doi.org/10.1016/j.jmoneco.2012.10.002 Cavallo, A., & Rigobon, R (2016) The billion prices project: Using online prices for measurement and research Journal of Economic Perspectives, 30(2), 151–78 https://doi.org/10.1257/jep.30.2.151 Chanthaphong S & Tassanoonthornwong T (2021) Workers’ mobility and Covid 19 pandemic: An analysis using mobile big data Bank of Thailand https://doi.org/10.14456/nrru-rdi.2023.1 Chen, H., De, P., Hu, Y J., & Hwang, B.-H (2014) Wisdom of crowds: The value of stock opinions transmitted through social media The Review of Financial Studies, 27(5), 1367–1403 https://doi.org/10.1093/rfs/hhu001 Choi, H., & Varian, H (2012) Predicting the present with Google Trends Economic record, 88, 2-9 https://doi org/10.1111/j.1475-4932.2012.00809.x D’Amuri, F., & Marcucci, J (2017) The predictive power of Google searches in forecasting US unemployment International Journal of Forecasting, 33(4), 801–816 https://doi.org/10.1016/j.ijforecast.2017.03.004 Degiannakis, S., & Filis, G (2018) Forecasting oil prices: High-frequency financial data are indeed useful Energy Economics, 76, 388–402 https://doi.org/10.1016/j.eneco.2018.10.026 Deville, P., Linard, C., Martin, S., Gilbert, M., Stevens, F R., Gaughan, A E., Tatem, A J (2014) Dynamic population mapping using mobile phone data Proceedings of the National Academy of Sciences, 111(45), 15888– 15893 https://doi.org/10.1073/pnas.1408439111 Ericsson, N R (2016) Eliciting GDP forecasts from the FOMC’s minutes around the financial crisis International Journal of Forecasting, 32(2), 571–583 https://doi.org/10.1016/j.ijforecast.2015.09.007 Fleisch, E (2010) What is the internet of things? an economic perspective Eco- nomics, Management & Financial Markets, 5(2) Garboden, P M (2020) Sources and types of big data for macroeconomic forecasting Macroeconomic Forecasting in the Era of Big Data: Theory and Practice, 3-23 https://doi.org/10.1007/978-3-030-31150-6_1 Ginsberg, J., Mohebbi, M H., Patel, R S., Brammer, L., Smolinski, M S., & Brilliant, L (2009) Detecting influenza epidemics using search engine query data Nature, 457(7232), 1012 https://doi.org/10.1038/nature07634 Giulio, C, Sebastian, D., Gambacorta, L., and Tisot, B (2021) Big Data in Asian Central Bank JCER Working Paper: AEPR serries No 2021-2-4 https://doi.org/10.1111/aepr.12376 38 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 252- Tháng 5 2023 PHẠM MẠNH HÙNG Goel, S., Hofman, J M., Lahaie, S., Pennock, D M., & Watts, D J (2010) Predicting consumer behavior with web search Proceedings of the National academy of sciences, 107(41), 17486–17490 https://doi.org/10.1073/ pnas.1005962107 Hassani, H., & Silva, E S (2015) Forecasting with big data: A review Annals of Data Science, 2(1), 5–19 https://doi org/10.1007/s40745-015-0029-9 Henderson, J V., Storeygard, A., & Weil, D N (2012) Measuring economic growth from outer space American economic review, 102(2), 994-1028 https://doi.org/10.1257/aer.102.2.994 Ivancic, L., Diewert, W E., & Fox, K J (2011) Scanner data, time aggregation and the construction of price indexes Journal of Econometrics, 161(1), 24–35 https://doi.org/10.1016/j.jeconom.2010.09.003 Keola, S., Andersson, M., & Hall, O (2015) Monitoring economic development from space: Using nighttime light and land cover data to measure economic growth World Development, 66, 322–334 https://doi.org/10.1016/j worlddev.2014.08.017 Lin, W., Wang, S., & Wei, Y (2022) Economic Forecasting with Big Data: A Literature Review https://doi.org/10.21203/ rs.3.rs-1893266/v1 MacKerron, G., & Mourato, S (2010) Lse’s mappiness project may help us track the national mood: But how much should we consider happiness in deciding public policy? Bristish Politics and Policy at LSE Madhavi, K L., Cordova, J., Ulak, M B., Ohlsen, M., Ozguven, E E., Arghandeh, R., & Kocatepe, A (2017, September) Advanced electricity load forecasting combining electricity and transportation network In 2017 North American power symposium (NAPS) (pp 1-6) IEEE https://doi.org/10.1109/NAPS.2017.8107312 Mao, H., Shuai, X., Ahn, Y.-Y., & Bollen, J (2015) Quantifying socio-economic indicators in developing countries from mobile phone communication data: Applications to Côte d’Ivoire EPJ Data Science, 4(1), 15 Miah, S J., Vu, H Q., Gammack, J., & McGrath, M (2017) A big data analytics method for tourist behaviour analysis Information & Management, 54(6), 771-785 https://doi.org/10.1016/j.im.2016.11.011 Mittal, A., & Goel, A (2012) Stock prediction using Twitter sentiment analysis http://dx.doi.org/10.1140/epjds/s13688- 015-0053-1 Moat, H S., Curme, C., Avakian, A., Kenett, D Y., Stanley, H E., & Preis, T (2013) Quantifying Wikipedia usage patterns before stock market moves Scientific reports, 3, 1801 Modugno, M (2013) Now-casting inflation using high frequency data International Journal of Forecasting, 29(4), 664–675 https://doi.org/10.1038/srep01801 Monteforte, L., & Moretti, G (2013) Real‐time forecasts of inflation: The role of financial variables Journal of Forecasting, 32(1), 51-61 https://doi.org/10.1002/for.1250 Pan, Z., Wang, Q., Wang, Y., & Yang, L (2018) Forecasting US real GDP using oil prices: A time-varying parameter MIDAS model Energy Economics, 72, 177–187 https://doi.org/10.1016/j.eneco.2018.04.008 Sawaengsuksant P (2019) Standardised approach in developing economic indicators using internet searching applications IFC Bulletin 50 Singh, J P., Irani, S., Rana, N P., Dwivedi, Y K., Saumya, S., & Roy, P K (2017) Predicting the “helpfulness” of online consumer reviews Journal of Business Research, 70, 346-355 https://doi.org/10.1016/j.jbusres.2016.08.008 Shi, Y (2014) Big data: History, current status, and challenges going forward Bridge, 44(4), 6–11 Silver, M., & Heravi, S (2001) Scanner data and the measurement of inflation The Economic Journal, 111(472), 383–404 https://doi.org/10.1111/1468-0297.00636 Thorsrud, L A (2018) Words are the new numbers: A newsy coincident index of the business cycle Journal of Business & Economic Statistics, 1–17 https://doi.org/10.1080/07350015.2018.1506344 Tomar, L., Guicheney, W., Kyarisiima, H., Zimani, T., Roseth, B., & Acevedo, S (2016) Big Data in the Public Sector Inter_Amercian Developmnet Bank Toole, J L., Lin, Y.-R., Muehlegger, E., Shoag, D., González, M C., & Lazer, D (2015) Tracking employment shocks using mobile phone data Journal of The Royal Society Interface, 12(107), 20150185 https://doi.org/10.1098/ rsif.2015.0185 Williams, L V., & Reade, J J (2016) Prediction markets, social media and information efficiency Kyklos, 69(3), 518–556 https://doi.org/10.1111/kykl.12119 Yuan, Q., Nsoesie, E O., Lv, B., Peng, G., Chunara, R., & Brownstein, J S (2013) Monitoring influenza epidemics in china with search query from baidu PloS one, 8(5), e64323 https://doi.org/10.1371/journal.pone.0064323 Jean, N., Burke, M., Xie, M., Davis, W M., Lobell, D B., & Ermon, S (2016) Combining satellite imagery and machine learning to predict poverty Science, 353(6301), 790-794 https://doi.org/10.1126/science.aaf7894 Glaeser, E L., Kominers, S D., Luca, M., & Naik, N (2018) Big data and big cities: The promises and limitations of improved measures of urban life Economic Inquiry, 56(1), 114-137 https://doi.org/10.1111/ecin.12364 Yu, L., Zhao, Y., Tang, L., & Yang, Z (2019) Online big data-driven oil consumption forecasting with Google trends International Journal of Forecasting, 35(1), 213-223 https://doi.org/10.1016/j.ijforecast.2017.11.005 Số 252- Tháng 5 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 39