Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
-NGUYỄN THANH BÌNH
KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH
CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
LUẬN ÁN TIẾN SĨ KINH TẾ
Tp Hồ Chí Minh - Năm 2023
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
NGUYỄN THANH BÌNH
-KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH
CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM
(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)
Chuyên ngành: THỐNG KÊ
Mã số: 9460201
LUẬN ÁN TIẾN SĨ KINH TẾ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 TS Hà Văn Sơn
2 TS Lê Thị Thanh Loan
Tp Hồ Chí Minh - Năm 2023
Trang 3LỜI CAM ĐOAN
Tôi cam đoan về sự trung thực và chuẩn mực đạo đức của toàn bộ nghiên cứu này
Thành phố Hồ Chí Minh, tháng 12 năm 2023
Tác giả
Nguyễn Thanh Bình
Trang 4Chương 2 Cơ sở lý thuyết và tổng quan các nghiên cứu trước có 11
Trang 5Trang liên quan
2.1.4 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 16một số quốc gia trên thế giới
2.1.5 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 21Việt Nam
2.2.6 Sự khác biệt giữa dữ liệu truyền thống và dữ liệu lớn 40
2.3.1 Điều chỉnh chất lượng hàng hóa trong chỉ số giá tiêu 43dùng
2.4 Tổng quan các nghiên cứu trước có liên quan đến đề tài 49
Trang 6Chương 3 Phương pháp nghiên cứu và quy trình nghiên cứu 81
3.2.1. Thu thập ý kiến chuyên gia qua phiếu khảo sát 85
3.4 Phương pháp tính chỉ số giá tiêu dùng từ dữ liệu lớn 983.5 Xây dựng mô hình Hedonic: Trường hợp giá máy tính xách tay 103
3.5.1. Tổng hợp các yếu tố tác động đến giá máy tính xách tay
3.5.2. Đề xuất mô hình hồi quy Hedonic cho sản phẩm máy
Trang 74.5 Ứng dụng kết quả mô hình hồi quy Hedonic cho sản phẩm máy
tính xách tay vào việc tính chỉ số giá tiêu dùng
131
142
4.8 Phân tích những thách thức khi triển khai tính chỉ số giá tiêu dùng
Danh mục các công trình khoa học đã công bố
Danh mục tài liệu tham khảo
Trang 8DANH MỤC CÁC CHỮ VIẾT TẮT
ABS Cơ quan Thống kê quốc gia Úc
ARIMA Phương pháp trung bình trượt kết hợp tự hồi quy (Autoregressive
Integrated Moving Average)Big data Dữ liệu lớn
BLS Cục Thống kê lao động Hoa Kỳ (Bureau of labor statistics)
CAPI Phỏng vấn cá nhân với sự trợ giúp của máy tính (Computer Assisted
Personal Interviewing)CNTT Công nghệ thông tin
COICOP Phân loại hàng hóa tiêu dùng cá nhân theo mục đích sử dụng
CIS STAT Ủy ban Thống kê liên bang của Cộng đồng các Quốc gia Độc lập
CPI Chỉ số giá tiêu dùng (Consumer Price index)
CPU Bộ xử lý trung tâm (Central Processing Unit)
ĐTV Điều tra viên
EC Ủy Ban Châu Âu (European Commission)
Eurostat Cơ quan Thống kê của Cộng đồng Châu Âu (Statistical
Office of the European Communities)GDP Tổng sản phẩm trong nước (Gross Domestic Product)
GRDP Tổng sản phẩm trên địa bàn (Gross Regional Domestic Product)
Trang 9HDD Ổ cứng máy tính (Hard Disk Drive)
ICLS Hội nghị quốc tế về các nhà thống kê lao động
ILO Tổ chức Lao động Quốc tế
IMF Quỹ Tiền tệ Quốc tế (International Monetary Fund)
KHTK Khoa học Thống kê
OECD Tổ chức Hợp tác và Phát triển Kinh tế (Organization for
Economic Co-operation and Development)OLS Bình phương bé nhất thông thường (Ordinary Least Squares)
PPCĐ Phương pháp chế độ
RAM Bộ nhớ truy cập ngẫu nhiên (Random Access Memory)
RPI Chỉ số giá bán lẻ (Retail price index)
TCTK Tổng cục Thống kê
TMĐT Thương mại điện tử
TNHH Trách nhiệm hữu hạn
TP.HCM Thành phố Hồ Chí Minh
UN Liên Hợp Quốc (United Nations)
UNECE Liên Hiệp Quốc ủy ban kinh tế châu Âu (United Nations Economic
Commission for Europe)
WB Ngân hàng Thế giới (The World Bank)
WLS Bình phương nhỏ nhất có trọng số (Weighted Least Squares)
Trang 10Sử dụng mô hình Hedonic để điều chỉnh sự thay đổi về
48chất lượng sản phẩm ở các nước
Tổng hợp nghiên cứu ngoài nước liên quan đến CPI và
Tổng hợp nghiên cứu ngoài nước liên quan đến mô
74hình hồi quy Hedonic
Bảng 3.2 Tổng hợp chuyên gia tham gia khảo sát 85
Trang 11Bảng Tên bảng Trang
Bảng 3.3 Danh sách các trang web chia theo nhóm ngành 92
Tổng sản phẩm trên địa bàn theo giá so sánh 2010 phân
theo khu vực kinh tế
Tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu
dùng theo giá hiện hành phân theo ngành kinh tế
119
122Bảng 4.3 Chỉ số giá tiêu dùng các tháng trong năm 123
Một số kết quả chủ yếu về hoạt động TMĐT tại
TP.HCM
Bảng 4.5 Số lượng trang web và số lượng mặt hàng thu thập 129Bảng 4.6 Kết quả thống kê mô tả giá trị các biến của mô hình 132Bảng 4.7 Các nhân tố tác động đến giá máy tính xách tay 134
Các nhân tố tác động đến giá máy tính xách tay (sau khi
xử lý hiện tượng phương sai thay đổi)
Bảng 4.9 Chỉ số giá sản phẩm máy tính xách tay chia theo tháng 144Bảng 4.10 Chỉ số giá nhóm thiết bị và đồ dùng gia đình 145Bảng 4.11 Chỉ số giá tiêu dùng so tháng trước chia theo tháng 151Bảng 4.12 Bảng so sánh các yếu tố từ các nghiên cứu trước 154
Trang 12DANH MỤC HÌNH
Hình 3.2 Quy trình thu thập thông tin từ khai thác dữ liệu lớn 91Hình 3.3 Quy trình sử dụng dữ liệu lớn trong tính toán CPI 98Hình 4.1 Cơ cấu tổng sản phẩm trên địa bàn của TP.HCM
năm 2018-2022
120
Hình 4.2 Hình thức đặt hàng và đối tượng bán hàng 128Hình 4.3 Sơ đồ cấu trúc của mặt hàng máy tính xách tay trong
Trang 13DANH MỤC PHỤ LỤC
Phụ lục 1 Kết quả mô hình hồi quy Hedonic cho máy tính xách tay
Phụ lục 2 Danh sách chuyên gia
Phụ lục 3 Phiếu khảo sát chuyên gia
Phụ lục 4 Kết quả tổng hợp các ý kiến của chuyên gia
Phụ lục 5 Biên bản hội thảo
Phụ lục 6 Một số hình ảnh và các đoạn chương trình khai thác dữ liệu giá Phụ lục 7 Kết quả tính chỉ số giá tiêu dùng khai thác từ dữ liệu lớn (27 biểu)
Trang 14số phi chọn mẫu, chi phí thu thập) mà còn cho phép chúng ta mở rộng cỡ mẫu, tầnsuất thu thập cao hơn, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thếcủa người tiêu dùng, thông tin thu thập kịp thời hơn Kết quả tính toán chỉ số giátiêu dùng dựa trên dữ liệu lớn thu thập được từ các trang web trực tuyến so với chỉ
số giá tiêu dùng được tính theo phương pháp truyền thống cũng khá tương đồng, thểhiện đúng xu hướng Từ nguồn dữ liệu lớn thu thập được, luận án cũng đã xây dựngđược mô hình hồi quy Hedonic (tính cho trường hợp máy tính xách tay) nhằm điềuchỉnh sự thay đổi của chất lượng, quy cách hàng hóa trong rỗ hàng hóa tính chỉ sốgiá tiêu dùng, đảm bảo tính so sánh của chỉ số giá Qua đó cho thấy mô hình hồi quyHedonic phù hợp trong việc điều chỉnh sự thay đổi của chất lượng hàng hóa, là mộtnội dung quan trọng trong kỹ thuật tính toán chỉ số giá tiêu dùng Nghiên cứu này
đã bổ sung phương pháp mới trong việc thu thập dữ liệu phục vụ công tác thống kê,đặc biệt là thống kê nhà nước cũng như xây dựng được phương pháp tính chỉ số giátiêu dùng từ nguồn dữ liệu lớn
Từ khóa: Dữ liệu lớn, chỉ số giá tiêu dùng, mô hình hồi quy Hedonic
Trang 15The thesis exploits big data in calculating the consumer price index for Ho ChiMinh City using price information collected from online websites This data sourcenot only solves some challenges in traditional price collection methods (such asdelay in data publication, difficulty in collecting data at sampling zone/ difficulty inoffline data collection, non-sampling error, collection costs) but also allows us toexpand sample sizes and frequency which helps better reflect consumer substitutionpatterns and get real-time data The consumer price index calculated based on largeonline data is showing similar trend compared with the consumer price indexcalculated by the traditional method From the big data collected, the thesis has alsobuilt a Hedonic regression model (applied for the case of laptop category) to adjustthe change in quality and specifications of goods in the basket to calculate theconsumer price index and ensure the comparability Thereby, it shows that theHedonic regression model is approriate in adjusting the change of goods quality,which is an important content in consumer price index calculating technique Thisstudy has added a new method of collecting data for statistics, especially officialstatistics, as well as developing a method to calculate the consumer price indexfrom abig data source
Keyword: Big data, consumer price index, Hedonic regression model
Trang 16
CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU
Trong chương 1, tác giả luận án trình bày tầm quan trọng của chỉ số giá tiêu dùng và đưa ra những lý do mà tác giả luận án lựa chọn vấn đề nghiên cứu Trong chương này, tác giả cũng trình bày được mục tiêu nghiên cứu tổng quát, qua đó tác giả luận án đưa ra từng mục tiêu cụ thể cần đạt được trong nghiên cứu Chương này còn trình bày các nội dung gồm đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn, những đóng góp chính của nghiên cứu Ngoài ra, ở phần cuối chương, tác giả trình bày cấu trúc từng chương trong luận án.
1.1 Lý do chọn đề tài
Chỉ số giá và các thông tin về giá cả thị trường có một vị trí, vai trò rất quantrọng trong công tác quản lý và điều hành các chính sách vĩ mô của nhà nước nhưcác chính sách về quản lý tài chính tiền tệ, kiềm chế lạm phát, điều chỉnh lãi suấtngân hàng, điều chỉnh tỷ giá, ban hành các chính sách phát triển kinh tế xã hội theovùng miền, các chính sách tiền lương, qua đó góp phần phát triển hoạt động sảnxuất kinh doanh và trao đổi thương mại quốc tế Trong đó chỉ số giá tiêu dùng đượcxem là một trong những chỉ số kinh tế quan trọng nhất do các cơ quan thống kêquốc gia công bố (Berry et al., 2019) Chỉ số giá tiêu dùng có lịch sử rất lâu đời,được thu thập và tính toán ở phần lớn các quốc gia trên thế giới Phương pháp tínhchỉ số giá tiêu dùng hiện nay cũng khác biệt nhiều so với trước đây, hàng hóa đãđược mở rộng phạm vi thu thập, nguồn dữ liệu được sử dụng để xác định quyền sốcũng có nhiều bước phát triển Mặc dù vậy, tính toán chỉ số giá tiêu dùng vẫn dựatrên mẫu chứ không phải tất cả mọi mức giá của từng loại hàng hóa hoặc dịch vụ
mà người dân chi tiêu dùng cuối cùng đều được thu thập Các cơ quan thống kêquốc gia thường chọn mẫu các hàng hóa và dịch vụ đại diện mà người dân tiêu dùngnhiều nhất Ngoài ra, do không thể quan sát giá của hàng hóa và dịch vụ được lựachọn tại tất cả các cửa hàng bán lẻ bán trên toàn quốc, nên một lần nữa, các cơ quan
Trang 17thống kê quốc gia lại sử dụng phương pháp chọn mẫu chọn đại diện các cửa hàng
để thu thập giá Điều này dẫn đến khả năng phát sinh sai số chọn mẫu cao Việc thuthập thông tin giá theo phương pháp truyền thống thông qua các cuộc điều tra nhưhiện nay cũng có một số bất cập như chi phí thực hiện điều tra và việc tiến hànhngày càng trở lên khó khăn hơn, việc gia tăng số lượng chuỗi cửa hàng làm cho thờigian thu thập kéo dài hơn, tỷ lệ trả lời ngày càng giảm (Crystal et al., 2019) Ngoài
ra việc tính toán chỉ số giá tiêu dùng theo phương pháp truyền thống cũng phát sinhthêm một số bất cập như có độ trễ trong việc công bố số liệu, còn tồn tại sai số phichọn mẫu, khó khăn trong việc xử lý các mặt hàng thay thế của người tiêu dùng, cácmặt hàng mới xuất hiện, các mặt hàng có vòng đời sản phẩm ngắn
Ngành thống kê Việt Nam tiến hành điều tra, thu thập thông tin, tính chỉ sốgiá tiêu dùng và công bố hàng tháng vào các ngày cuối tháng Thông tin thống kê vềchỉ số giá tiêu dùng được thu thập từ cuộc điều tra giá tiêu dùng do Tổng cục Thống
kê triển khai và được thực hiện ở cả 63 tỉnh, thành phố Hệ thống thông tin thống kê
về giá tiêu dùng của ngành Thống kê đã được xây dựng và ngày càng hoàn thiện vớimột số các nghiên cứu điển hình như nghiên cứu về phương pháp xác định hệ thốngquyền số tính chỉ số giá tiêu dùng (Văn Thị Loan, 1998); Chỉ số giá tiêu dùng ViệtNam và các yếu tố tác động phương pháp tiếp cận định lượng (Trương Văn Phước
và Chu Hoàng Long, 2005); Hoàn thiện phương pháp tính chỉ số giá nhóm nhà ởtrong chỉ số giá tiêu dùng ở Việt Nam (Đỗ Thị Ngọc, 2014a); Giới thiệu về phươngpháp tính chỉ số giá tiêu dùng mới và một số khuyến nghị (Đỗ Thị Ngọc, 2014b);
Hệ thống thông tin giá và các cuộc điều tra thống kê giá (Vũ Thị Thu Thủy, 2015);Nghiên cứu và đề xuất mô hình dự báo chỉ số giá tiêu dùng áp dụng cho Tổng cụcThống kê (Vũ Thị Thu Thủy, 2018) Tuy nhiên, cũng tương tự như thực trạng tínhchỉ số giá tiêu dùng trên thế giới, phương pháp tính chỉ số giá tiêu dùng ở Việt Namcũng còn một số bất cập như công tác thu thập tại địa bàn ngày một khó khăn hơn;sai số phi chọn mẫu vẫn còn cao do chất lượng thông tin thu thập được phụ thuộcvào kỹ năng thu thập thông tin cũng như tính trung thực của điều tra viên; chi phícho cuộc điều tra cao vì phải huy động lực lượng lớn điều tra viên lớn
Trang 18Cùng với xu hướng ngày càng phát triển của nền kinh tế số trên thế giới, cácgiao dịch mua bán, giới thiệu sản phẩm trực tiếp trên internet ở Việt Nam ngày càngphổ biến Theo sách trắng thương mại điện tử Việt Nam năm 2022, thị trườngthương mại điện tử Việt Nam đạt nhiều kết quả ấn tượng Nếu như năm 2017,thương mại điện tử bán lẻ Việt Nam mới chỉ đạt 6,2 tỷ USD, thì đến năm 2022 đãđạt mức 16,4 tỷ USD (Cục Thương mại điện tử và Kinh tế số (Bộ Công Thương),2022) Việc người dân quan tâm và phát triển mua bán trên mạng ngày càng nhiều
sẽ tạo ra nguồn dữ liệu vô cùng lớn Nghiên cứu về dữ liệu lớn ở Việt Nam đượcphát triển trong thời gian gần đây trong một số lĩnh vực như kinh tế, thông tin - thưviện, kiểm toán báo cáo tài chính, ngân hàng, bất động sản, giáo dục và đào tạo.Tuy nhiên, các nghiên cứu về dữ liệu lớn ứng dụng trong thống kê chính thức ở ViệtNam còn hạn chế, phần lớn đang trong giai đoạn nghiên cứu tổng quan Năm 2018,Tổng cục Thống kê thực hiện một nghiên cứu thí điểm việc lồng ghép các dữ liệuthu thập trực tuyến trong việc sản xuất chỉ số giá tiêu dùng Kết quả không đượccông bố và nguồn dữ liệu chưa được tích hợp vào quy trình nghiệp vụ thống kê(Thuy Nguyen Van and Hoan Nguyen Cong, 2018)
Hơn hai mươi năm trước, cuộc cách mạng công nghệ thông tin và truyềnthông tại các quốc gia phát triển đã làm thay đổi hành vi tiêu dùng của người dâncũng như hành vi phân phối hàng hóa của doanh nghiệp Sự phát triển vượt bậc nàygiúp tạo ra một nguồn dữ liệu lớn chưa từng có ở những khu vực mà các kỹ thuậtthu thập dữ liệu truyền thống không thể tiếp cận được Ngoài ra, cùng với sự giatăng của các hình thức cửa hàng hiện đại là sự gia tăng của các nền tảng bán hàngtrực tuyến, điều này tạo điều kiện cho việc thu thập giá trực tuyến trong rất nhiềulĩnh vực khác nhau Xuất phát từ thực tế trên, cơ quan thống kê của các quốc gia đãxác định nguồn dữ liệu mới này là cơ hội tốt giúp họ giải quyết nhiều thách thức màđiều tra giá tiêu dùng đang gặp phải Nguồn dữ liệu giá thu thập từ các trang webbán hàng trực tuyến có thể đo lường chính xác hơn sự thay đổi giá, giúp mở rộng cởmẫu, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêudùng, giảm hoặc loại bỏ áp lực của người cung cấp thông tin và trong một số trường
Trang 19hợp sẽ giúp giảm chi phí thu thập thông tin Ngoài ra nguồn dữ liệu lớn này có thểgiúp thu thập thông tin giá kịp thời hơn, mặt hàng đa dạng hơn, tần số thu thập caohơn (Crystal et al., 2019)
Một trong những dự án đi đầu và tiêu biểu cho việc sử dụng tính năng thuthập dữ liệu giá trực tuyến trên web để tính toán và dự báo chỉ số giá tiêu dùng là dự
án tỷ giá do Viện Công nghệ Massachusetts nghiên cứu và phát triển Kết quảnghiên cứu đã chứng minh rằng dữ liệu chi tiết về giá bán lẻ có thể được thu thập từ
xa với chi phí thấp hơn đáng kể so với thu thập bằng phương pháp truyền thống(Cavallo and Rigobon, 2016) Dự án này đã làm thay đổi đáng kể mô hình hoạtđộng truyền thống của các cơ quan thống kê quốc gia là thu thập thông tin giá trựctiếp, điều tra viên đến các điểm bán lẻ để thu thập thông tin (Harchaoui and Janssen,2018) Mặc dù chỉ số giá tiêu dùng tính theo phương pháp trực tuyến vẫn đangtrong giai đoạn đầu của quá trình phát triển, nhưng có rất nhiều bằng chứng chothấy nó cung cấp cho các nhà hoạch định chính sách một bức tranh hợp lý, phản ánhđúng xu hướng về chỉ số giá tiêu dùng theo thời gian thực Một bằng chứng chắcchắn và cụ thể hơn là trường hợp của Argentina, trong đó chỉ số giá tiêu dùng của
dự án tỷ giá được chứng minh là một sự thay thế tốt hơn cho chỉ số giá tiêu dùngchính thức sau khi nó bị mất uy tín do can thiệp chính trị (Cavallo, 2013) Ngoài raCavallo nhận xét các chỉ số được xây dựng từ giá trực tuyến này đã cung cấp mộtước tính hợp lý tốt về cả mức độ và diễn biến của tỷ lệ lạm phát chính thức chophần lớn các quốc gia được xem xét (Brazil, Chile, Columbia và Venezuela) Tiếptục các nghiên trước, Dubey và Gennari (2014) đã nghiên cứu sử dụng dữ liệu lớntrong lĩnh vực giá với nhóm hàng cụ thể là lương thực, từ việc đưa ra các số liệuthống kê chính thức đến các dự báo, cảnh báo sớm về an ninh lương thực Trong bốicảnh trên, một số quốc gia cũng đã và đang tích cực chuẩn bị để chuyển sang sửdụng dữ liệu lớn để tính toán chỉ số giá tiêu dùng như Na Uy (Manik and Albarda,2015), Anh (Naynor et al., 2015), Bỉ (Van Loon and Roels, 2018), Pháp, Thụy Điển
và Hà Lan (Jens, 2019), Hoa Kỳ (Crystal et al., 2019) Dữ liệu lớn để thống kê giácũng được các cơ quan thống kê quốc gia ở Châu Á và Thái Bình Dương tích cực
Trang 20khai thác, tuy nhiên công việc này cũng mới đang từng bước tìm hiểu (Bernal et al.,2021), cụ thể như Úc (ESCAP, 2020), New Zealand (Statistics New Zealand, 2017),Nhật Bản (Statistics Bureau of Japan, 2019), Malaysia (Mustapa, 2020),Philippines, Indonesia (Bernal et al., 2021)
Nhận thức được tầm quan trọng của công nghệ thông tin - truyền thông vàđặc biệt là dữ liệu lớn, ngày 10 tháng 5 năm 2018 Thủ tướng Chính phủ ban hànhQuyết định số 501/QĐ-TTg phê duyệt Đề án ứng dụng công nghệ thông tin - truyềnthông trong Hệ thống thống kê nhà nước giai đoạn 2017-2025, tầm nhìn đến năm
2030 đề ra mục tiêu: “Ứng dụng công nghệ dữ liệu lớn để hiện đại hóa, giảm chiphí, nâng cao chất lượng và tăng cường khả năng dự báo đối với một số chỉ tiêuthống kê trong các lĩnh vực thống kê giá” (Thủ tướng Chính phủ, 2018) Đánh giáđược tiềm năng to lớn của dữ liệu lớn, Tổng cục Thống kê đã có một số định hướnghoạt động như thành lập tổ công tác về dữ liệu lớn, bổ sung thêm nội dung "Nghiêncứu ứng dụng dữ liệu lớn vào chương trình phát triển ứng dụng công nghệ thông tincủa Tổng cục Thống kê", xây dựng đề án ứng dụng dữ liệu lớn trong thống kê nhànước (Nguyễn Bích Lâm, 2016)
Nghiên cứu giải pháp sử dụng nguồn dữ liệu lớn để tính chỉ số giá tiêu dùng
ở Việt Nam là một việc rất cần thiết và phù hợp với xu hướng của thế giới nên tácgiả chọn chủ đề: “Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở ViệtNam (trường hợp Thành phố Hồ Chí Minh)” làm nghiên cứu cho luận án này Đềtài triển khai thu thập thông tin giá từ các trang web trực tuyến và tiến hành tínhtoán chỉ số giá tiêu dùng dựa trên nguồn thông tin thu thập được Những hàm ýchính sách, những giải pháp được đề xuất trong nghiên cứu này sẽ giúp cho việctriển khai thành công công tác thu thập giá trực tuyến phục vụ việc tính toán chỉ sốgiá tiêu dùng ở Việt Nam
1.2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu: Xây dựng quy trình thu thập và tổng hợp chỉ số giá tiêu
dùng từ nguồn dữ liệu lớn là thông tin giá trên các trang web bán hàng trực tuyến
Trang 21Mục tiêu cụ thể:
Mục tiêu 1: Xây dựng quy trình khai thác thông tin giá từ dữ liệu lớn.
Mục tiêu 2: Xây dựng quy trình và kỹ thuật tính toán chỉ số giá tiêu dùng từ
khai thác dữ liệu lớn
Mục tiêu 3: Nghiên cứu ứng dụng mô hình hồi quy Hedonic để điều chỉnh
sự thay đổi chất lượng hàng hóa hoặc trường hợp hàng hóa không còn xuất hiện trênthị trường phục vụ cho việc tính chỉ số giá tiêu dùng
Mục tiêu 4: Phân tích tính phù hợp của ứng dụng mô hình Hedonic để điều
chỉnh sự thay đổi chỉ số giá tiêu dùng bằng mô hình Hedonic
Mục tiêu 5: Hàm ý chính sách để triển khai thực thi trong việc tính toán chỉ
số giá tiêu dùng từ khai thác dữ liệu lớn
1.3 Câu hỏi nghiên cứu
Với các mục tiêu nghiên cứu trên, đề tài sẽ từng bước trả lời các câu hỏi nghiên cứusau đây:
Câu hỏi nghiên cứu 1: Quy trình thu thập giá từ các trang web trực tuyến
như thế nào?
Câu hỏi nghiên cứu 2: Quy trình và kỹ thuật tính toán chỉ số giá tiêu dùng
từ khai thác dữ liệu lớn ra sao?
Câu hỏi nghiên cứu 3: Có thể ứng dụng mô hình hồi quy Hedonic dựa trên
dữ liệu lớn để điều chỉnh sự thay đổi của chất lượng hàng hóa hoặc trường hợp hànghóa không còn xuất hiện trên thị trường không?
Câu hỏi nghiên cứu 4: Tổng hợp chỉ số giá tiêu dùng từ nguồn dữ liệu lớn
đã thu thập với sự ứng dụng mô hình hồi quy Hedonic dựa trên dữ liệu lớn có phùhợp không?
Trang 22Câu hỏi nghiên cứu 5: Các hàm ý nghiên cứu nào để có thể triển khai thành
công công tác thu thập giá trực tuyến phục vụ việc tính toán chỉ số giá tiêu dùng ởViệt Nam?
1.4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Dữ liệu lớn, chỉ số giá tiêu dùng và mô hình hồi quy
1.5 Phương pháp nghiên cứu
Để thực hiện mục tiêu nghiên cứu, luận án được tác giả triển khai theo hướng sửdụng phương pháp hỗn hợp, sử dụng đồng thời nghiên cứu định tính và nghiên cứuđịnh lượng
1.5.1 Phương pháp nghiên cứu định tính
Phương pháp định tính được triển khai thực hiện qua các hình thức thảo luận nhóm,phỏng vấn trực diện, hội thảo khoa học Đối tượng tham gia thảo luận là các nhàkhoa học, các chuyên gia trong lĩnh vực giá tiêu dùng, lĩnh vực máy tính nhằm điềuchỉnh, bổ sung các yếu tố liên quan đến vấn đề nghiên cứu Việc thực hiện nghiêncứu định tính nhằm mục đích xác định:
Trang 23(1) Sự cần thiết sử dụng dữ liệu lớn trong công tác thống kê (trong đó tính toán chỉ
số giá tiêu dùng thông qua dữ liệu lớn là một trong các chỉ tiêu có thể được áp dụngsớm) và các giải pháp để có thể triển khai được việc thu thập dữ liệu lớn phục vụtính toán chỉ số giá tiêu dùng
(2) Việc giải quyết vấn đề thay đổi chất lượng sản phẩm trong quá trình thu thậpthông tin về giá và tính toán chỉ số giá tiêu dùng, cụ thể là sử dụng mô hình hồi quyHedonic để điều chỉnh chất lượng hàng hóa và dịch vụ áp dụng cho máy tính xáchtay Các yếu tố tác động đến giá của máy tính xách tay
1.5.2 Phương pháp nghiên cứu định lượng
Xây dựng mô hình nghiên cứu các yếu tố tác động đến giá máy tính xách tay.Nghiên cứu của Haan và Diewert (2013) cho rằng đối với các sản phẩm như hàngcông nghệ cao, mô hình tuyến tính logarit thường được ưa thích hơn với những môhình khác Theo Griliches (1971), dạng hàm bán logarit thường được coi là ''tốtnhất'' trong các kiểm tra đánh giá về dạng hàm trong các nghiên cứu về hàm hồi quyHedonic Một số nghiên cứu sử dụng dạng hàm này như Baker (1997); Chwelos(2003); Byrne, Oliner và Sichel (2016); Zafar và Himpens (2019) McCormack(2013) đã sử dụng mô hình hồi quy Hedonic tuyến tính logarit (LogLin) để xác địnhcác đặc điểm ảnh hưởng đến giá ô tô mới Bulut và Zaman (2018) đã phân tích cácyếu tố ảnh hưởng đến giá với các mô hình như mô hình tuyến tính (LinLin), môhình số học logarit (LogLog), mô hình logarit tuyến tính (LinLog) và mô hình tuyếntính logarit (LogLin) Kết quả của nghiên cứu cho thấy rằng mô hình tuyến tínhlogarit (LogLin) mang lại hiệu quả nhất Selim (2008) sử dụng mô hình tuyến tínhlogarit (LogLin) để xác định các đặc điểm của ngôi nhà và các ước tính được thựchiện bằng phương pháp bình phương tối thiểu thông thường (OLS) Phương phápbình phương tối thiểu thông thường được sử dụng rộng rãi trong phân tích hồi quy
Từ các phân tích trên, tác giả chọn sử dụng mô hình tuyến tính logarit (LogLin) chonghiên cứu này và ước tính được thực hiện bằng phương pháp bình phương tốithiểu thông thường Để đảm bảo tính vững, tính hiệu quả và tính không chệch của
Trang 24mô hình, ta thực hiện các kiểm định sự phù hợp với lý thuyết (kiểm định về hệ sốhồi quy), mức độ phù hợp của mô hình (R2) và các giả thuyết của mô hình cổ điển.Các kiểm định được thực hiện cho mô hình là kiểm định mô hình bằng kiểm định t,kiểm định F, sử dụng hệ số xác định R2 để đánh giá sự phù hợp của mô hình, sử dụngnhân tử phóng đại phương sai (Variance Inflation Factor - VIF) để kiểm định hiệntượng đa cộng tuyến, kiểm định White để kiểm định hiện tượng phương sai thay đổi
1.6 Nguồn dữ liệu
Về dữ liệu sơ cấp, luận án sử dụng nguồn thông tin về giá của tất cả các mặthàng được thu thập từ 29 trang web chính thức có giấy phép của Bộ Thông tin vàTruyền thông, đây là những trang web bán hàng lớn và có uy tín ở Việt Nam, tầnsuất thu thập ba lần trong một tháng, thời gian thu thập bắt đầu từ tháng 10 năm
2017 đến tháng 12 năm 2018 Tổng số mặt hàng thu thập giá là 246.069 mặt hàng,đây là nguồn dữ liệu được sử dụng để tính toán chỉ số giá tiêu dùng
Dữ liệu thứ cấp là thông tin về giá và chỉ số giá tiêu dùng của Cục Thống kêThành phố Hồ Chí Minh qua các năm 2017, 2018 và 2019; Niên giám Thống kêThành phố Hồ Chí Minh qua các năm 2017, 2018, 2019 và 2022
1.7 Những đóng góp mới của luận án
Về mặt lý thuyết:
Xây dựng phương pháp tiếp cận mới trong việc thu thập thông tin thống kê,một trong những bước quan trọng nhất trong quá trình bảy bước sản xuất thông tinthống kê
Về mặt thực tiễn:
Phương pháp thu thập thông tin theo dữ liệu lớn sẽ giúp cải thiện chất lượng
dữ liệu đầu vào do giảm các sai số chọn mẫu và phi chọn mẫu, giảm công sức vàchi phí thu thập thông tin, tiết kiệm thời gian;
Trang 251.8 Kết cấu của nghiên cứu
Luận án gồm 5 chương như sau:
Chương 1 Giới thiệu về đề tài: Lý do nghiên cứu và tính cấp thiết của đề tài;
Mục tiêu nghiên cứu của luận án và câu hỏi nghiên cứu; Đối tượng, phạm vi,phương pháp và nguồn dữ liệu nghiên cứu; Ý nghĩa của đề tài
Chương 2 Cơ sở lý thuyết và tổng quan các nghiên cứu trước có liên quan đến đề tài: Tổng quan các lý thuyết về chỉ số giá, dữ liệu lớn, mô hình hồi quy
Hedonic, tổng quan các nghiên cứu trong và ngoài nước có liên quan đến đề tài
Chương 3 Phương pháp nghiên cứu và quy trình nghiên cứu: Quy trình
nghiên cứu, nghiên cứu định tính, nghiên cứu định lượng, mô hình hồi quyHedonic
Chương 4 Kết quả và thảo luận: Tổng quan về Thành phố Hồ Chí Minh, các
yếu tố tác động đến giá máy tính xách tay, phân tích các kết quả tính toán chỉ số giátiêu dùng
Chương 5 Kết luận và hàm ý chính sách: Kết luận, khuyến nghị, hạn chế của
đề tài, hướng nghiên cứu tiếp theo
Danh mục tài liệu tham khảo
Phụ lục
Trang 26và ở Việt Nam Chương này cũng sẽ tổng hợp các nghiên cứu trong và ngoài nước liên quan đến luận án Cuối cùng, tác giả đưa ra khoảng trống của vấn đề nghiên cứu và các hướng nghiên cứu của đề tài.
2.1 Cơ sở lý thuyết về giá và chỉ số giá
2.1.1 Khái niệm về giá và chỉ số giá
Một quan hệ trao đổi khi tiền tệ đã phát sinh sẽ tạo nên sự ra đời của giá cảhàng hóa Như vậy giá cả xuất hiện ngay từ khi khoa kinh tế học ra đời, mà ban đầuđược gọi là kinh tế chính trị học Phạm trù giá cả xuất hiện và phát triển gắn liềnvới sự phát triển của nền kinh tế hàng hóa và cùng với đó là sự hoàn thiện của nhànước Để giải quyết vấn đề mà nhà kinh tế học David Ricardo đưa ra là xem đốitượng nghiên cứu của kinh tế chính trị học là sự tạo nên và phân phối tổng sảnphẩm quốc gia giữa các nhóm hay các giai cấp trong xã hội, các nhà lý thuyết tạithời điểm đó đều phải nghiên cứu để giải quyết việc xác định giá cả (hay giá trị)của các nguồn lực và sản phẩm trên thị trường Về sau, các thế hệ nghiên cứu tiếptheo lại ngày càng quan tâm đến vấn đề giá trị và giá cả Những nỗ lực nghiên cứuliên tục và rất đa dạng, bắt đầu từ tư tưởng của Karl Marx đến Leon Walras Đếncuối thế kỷ XIX, kinh tế học ngày càng đi sâu vào phát triển các kỹ thuật và tậptrung các lý luận để phân tích các thị trường cụ thể nhằm tìm kiếm lời giải chonguồn gốc của giá cả Đó là lý do kinh tế học đã phát triển theo chiều hướng màngày nay chúng ta gọi là kinh tế học vi mô (vì vậy trước đây kinh tế học vi mô cómột tên gọi khác, cũ hơn là lý thuyết giá cả) Theo quan điểm của các nhà kinh tếhọc cổ điển do Adam Smith (1937) khai sinh và được David Ricardo, phát triển thì
Trang 27giá cả là biểu hiện bằng tiền của giá trị hàng hóa David Ricardo (1973) thì chorằng giá dựa trên số lượng lao động cần thiết để tạo ra hàng hóa bao gồm cả cáckhoản chi phí bổ sung như chi phí phân phối
Kinh tế học tân cổ điển là một trường phái kinh tế học có trọng tâm nghiêncứu là cơ chế quyết định giá cả Đỉnh cao trong các nghiên cứu về giá của giai đoạnnày được tập hợp lại trong các công trình của Afred Marshall Alfred Marshall tiếpthu các lý luận của Ricardo, bổ sung thêm bằng các lý luận về thỏa dụng và tínhthỏa dụng cận biên được phát triển trước đó bởi John Stuart Mill, William StanleyJevons, Carl Menger và Leon Walras Marshall (1920) định nghĩa giá cả mà ngườimua sẵn sàng trả để có được hàng hóa phụ thuộc đồng thời vào ước muốn sở hữuhàng hóa đó của họ và chi tiêu mà họ dành cho việc đó Ông đã giải thích cơ chếquyết định giá cả bởi sự giao nhau của hai đường cung cấp và đường nhu cầu Ông
đã đem kỹ thuật phân tích cân bằng bộ phận vào kinh tế học tân cổ điển TheoMarshall: cần phân biệt việc xác định giá ở ngắn hạn và dài hạn Ở ngắn hạn, cầuthị trường có tác động rất mạnh đến giá trong khi ở dài hạn, giá cả được điều chỉnhchủ yếu dựa vào chi phí sản xuất với giả thiết về cạnh tranh Để nghiên cứu giá cả,cần phải sử dụng một công cụ cơ bản là khái niệm về độ co giãn
Lý thuyết giá cả là thuật ngữ được Stigler và các nhà kinh tế học khác sửdụng vào giữa thế kỷ trước để biểu thị sự cải tiến của họ đối với lý thuyết giá trịnhư lý thuyết xác định giá khai thác (Stigler and Boulding, 1952; Stigler, 1946;Bain, 1972) Một đặc điểm nổi bật của lý thuyết giá là thừa nhận sự đa dạng củacác loại cạnh tranh hoặc thiếu cạnh tranh, ảnh hưởng đến việc xác định giá, cùngvới việc tập trung vào các yếu tố xác định loại cạnh tranh áp dụng ở các thị trường
cụ thể
Theo quan điểm của các nhà kinh tế thị trường hiện đại thì giá cả là sự biểuhiện bằng tiền của giá trị và giá trị sử dụng của hàng hóa, đồng thời cũng biểu thịmột cách tổng hợp các mối quan hệ trong nền kinh tế quốc dân
Trang 28Chỉ số giá là thước đo mức độ thay đổi tương đối của giá cả, bao gồm mộtdãy số được sắp xếp để so sánh các giá trị giữa hai thời kỳ hoặc giữa hai địa điểmbất kỳ Chỉ số giá giúp chúng ta thấy được mức thay đổi bình quân về giá giữa cácthời kỳ hoặc mức chênh lệch bình quân về giá giữa các địa phương Các chỉ số giálần đầu tiên được sử dụng để đo lường những thay đổi trong chi phí sinh hoạt, qua
đó xác định được mức tăng lương cần thiết để duy trì mức sống không đổi khi giá
cả hàng hóa tăng lên Sau đó, chỉ số giá tiếp tục được sử dụng rộng rãi để ước tính
sự thay đổi của giá cả theo thời gian và cũng được sử dụng để đo lường sự khácbiệt về chi phí sinh hoạt giữa các khu vực hoặc giữa các quốc gia khác nhau trênthế giới Vũ Thị Thu Thủy (2015) đã phân tổ giá theo 3 nhóm chính là giá sản xuất,giá hàng hóa giao dịch với nước ngoài và giá tiêu dùng
Khi tính toán các chỉ tiêu chủ yếu của hệ thống tài khoản quốc gia (SNA),một thuật ngữ thường được đề cập đến là giá Căn cứ vào quá trình hoạt động sảnxuất và phân phối sản phẩm vật chất và sản phẩm dịch vụ, yếu tố chi phí, thuế, trợcấp sản xuất, phí lưu thông, giá được phân ra các loại: giá cơ bản, giá sản xuất vàgiá sử dụng Theo Tổng cục Thống kê (2018), nội dung chi tiết các loại giá nhưsau:
Giá cơ bản là số tiền người sản xuất nhận được do bán hoặc cung cấp mộtđơn vị sản phẩm vật chất hoặc sản phẩm dịch vụ sản xuất ra thị trường, cộng (+) trợcấp sản xuất, trừ (-) thuế sản phẩm Giá cơ bản không bao gồm phí vận tải đượcngười sản xuất ghi hóa đơn riêng Giá cơ bản không bao gồm bất kỳ loại thuế nàođánh vào sản phẩm, nhưng bao gồm các loại trợ cấp sản xuất (trợ cấp sản phẩm vàtrợ cấp sản xuất khác) Giá cơ bản đo lường khoản tiền người sản xuất được hưởng
và là mức giá sát thực nhất liên quan đến quyết định của người sản xuất
Giá sản xuất là số tiền người sản xuất nhận được do bán hoặc cung cấp mộtđơn vị sản phẩm vật chất hoặc dịch vụ sản xuất ra thị trường trừ thuế giá trị giatăng (VAT) được khấu trừ người mua phải trả Giá sản xuất không bao gồm chi phí
Trang 29"Chỉ số giá tiêu dùng là chỉ tiêu tương đối (tính bằng %) phản ánh xu hướng
và mức độ biến động giá theo thời gian của các mặt hàng trong rổ hàng hóa và dịch
vụ tiêu dùng đại diện" (Tổng cục Thống kê, 2018) “Quyền số để tính chỉ số giátiêu dùng là cơ cấu chi tiêu các nhóm mặt hàng trong tổng chi tiêu của hộ gia đìnhđược tổng hợp từ kết quả điều tra mức sống dân cư và dùng cố định khoảng 5 năm”(Tổng cục Thống kê, 2018) Chỉ số giá tiêu dùng đo lường tốc độ thay đổi giá củamột rổ hàng hóa và dịch vụ cụ thể từ một khoảng thời gian này sang khoảng thờigian khác, có thể là tháng, quí, 6 tháng, năm Như vậy, để tính chỉ số giá tiêu dùng,các cơ quan thống kê quốc gia phải thu thập dữ liệu giá cả và số lượng cho nhiềuloại hàng hóa và dịch vụ Hiện nay hầu như tất cả các cơ quan thống kê quốc giatrên thế giới đều triển khai các chương trình thu thập dữ liệu giá tiêu dùng hàngtháng đều đặn, tạo cơ sở cho việc tính toán chỉ số giá tiêu dùng Ngoài ra, để ướctính sự thay đổi giá so với thời kỳ gốc (có sử dụng quyền số hay còn gọi là trọngsố), các cơ quan thống kê quốc gia phải thu thập được dữ liệu về cơ cấu chi tiêu của
Trang 30hộ gia đình Thông thường dữ liệu này được thực hiện bởi cuộc điều tra khảo sátmức sống dân cư mà hầu hết các cơ quan thống kê quốc gia đều thực hiện trong cáckhoảng thời gian không đều đặn (Beegle et al., 2016)
Hầu hết các cơ quan thống kê quốc gia sử dụng chỉ số Laspeyres cơ sở cốđịnh và cách tiếp cận tổng hợp theo nhiều giai đoạn để tính chỉ số giá tiêu dùng(United Nations, 2009) Chỉ số Laspeyres tính toán sự thay đổi giữa hai thời kỳtrong tổng số tiền mua một rổ hàng hóa và dịch vụ tiêu dùng phổ biến Theo ILO,
sử dụng chỉ số Laspeyres có thể có các ưu điểm là dễ hiểu và dễ giải thích cho mọingười; được thu thập từ kết quả khảo sát hộ gia đình hoặc nguồn dữ liệu hành chínhtại kỳ gốc, phương pháp sử dụng chỉ số này được dùng trong một thời gian dài thay
vì phải cập nhật dữ liệu mới hàng tháng (ILO, 2004)
Ngoài ra, ILO cũng nhận định thêm: một lợi thế đáng chú ý khác làLaspeyres nhất quán trong việc tổng hợp số liệu, từ mức trên cùng xuống mức tổnghợp thấp nhất Chỉ số có thể được chia thành các tập hợp con có liên quan đến nhaumột cách đơn giản Tuy khái niệm Laspeyres khá đơn giản, nhưng để triển khaitrong thực tế cho việc tính toán một chỉ số Laspeyres thích hợp cũng có nhiều khókhăn (ILO, 2004) Do đó, có một số nội dung, các cơ quan thống kê phải tính toánmột cách tương đối, thay vì phải thu thập tất cả mọi mức giá giao dịch cho từngnhóm hàng hóa, thông thường các cơ quan thống kê chỉ thu thập giá cả của mộtmẫu đại diện ở các cửa hàng Chỉ số tổng hợp cơ bản được tính toán dựa trên côngthức không có quyền số và các chỉ số này sẽ đại diện cho mỗi nhóm 100.000 sảnphẩm khi tính toán chỉ số Laspeyres ở mức cao hơn Mặc dù quy trình hai giai đoạnnày không thật sự hoàn toàn phù hợp với phương pháp Laspeyres (trong từng giaiđoạn tích hợp đều đòi hỏi phải có trọng số) Mitchell (1927) và Knibbs (1924) lànhững người đầu tiên nghiên cứu phương pháp này
2.1.3 Ứng dụng của chỉ số giá tiêu dùng
Để có thể hoạch định chính sách và đo lường kết quả hoạt động kinh tế mộtcách hiệu quả, một trong những yếu tố đầu vào cần thiết là phải có một chỉ số giá
Trang 31đáng tin cậy và chính xác Khi mới ra đời, chỉ số giá tiêu dùng chủ yếu dùng đểtính toán việc tăng lương do có sự thay đổi về chi phí sinh hoạt của người lao động,tuy nhiên theo thời gian, mục đích sử dụng của chỉ số giá tiêu dùng đã được mởrộng ra rất nhiều Chính phủ sử dụng chỉ số giá tiêu dùng như là một công cụ đểthực hiện các chính sách tiền tệ và tài khóa, ngành thống kê sử dụng chỉ số giá tiêudùng làm công cụ giảm phát trong tài khoản quốc gia để ước tính tốt hơn nhữngthay đổi về tăng trưởng kinh tế trong thực tế (ILO, 2013; Phạm Thị Hằng vàNguyễn Phương Anh, 2020) Ngoài ra, chỉ số giá tiêu dùng được sử dụng rộng rãinhư một chỉ báo kinh tế vĩ mô về lạm phát Ngày nay, với quá trình toàn cầu hóa và
tự do hóa thị trường, chính phủ các quốc gia, các ngân hàng trung ương, các tổchức quốc tế và người dùng tin rất chú trọng đến chỉ số giá tiêu dùng và đánh giáchất lượng của chỉ số giá tiêu dùng ở ba khía cạnh chính: chất lượng, độ chính xác
Năm 2012 tổ chức ILO đã tiến hành khảo sát 169 quốc gia (ILO, 2013) vớimột số kết quả chính sau: Về mục đích sử dụng chính của chỉ số giá tiêu dùng, 96%các nước sử dụng chỉ số giá tiêu dùng để tính toán tỷ lệ lạm phát phục vụ cho việcban hành các chính sách tiền tệ; 91% các nước sử dụng chỉ số giá tiêu dùng để phục
vụ cho việc tính toán chỉ số tiền lương, lương hưu và chi trả an sinh xã hội; 88%các nước sử dụng chỉ số giá tiêu dùng để phục vụ cho việc tính chỉ số tiền thuê, hợpđồng và các khoản thanh toán khác Ngoài ra các nước cũng sử dụng chỉ số giá tiêu
Trang 32dùng để tính toán giảm phát chi tiêu hộ gia đình trong tài khoản quốc gia; tính toánsức mua của các hộ gia đình và xây dựng các mô hình kinh tế vĩ mô, các ứng dụngphân tích khác Berry và cộng sự (2019) đã tiến hành một nghiên cứu thu thập vàtổng hợp thông tin thống kê giá cho 196 nền kinh tế Nghiên cứu đã đưa ra một sốkết luận như khoảng thời gian tham chiếu sử dụng các quyền số chỉ số giá tiêudùng là một chỉ số về độ tin cậy và độ chính xác của dữ liệu Các nền kinh tế cóquyền số chỉ số giá tiêu dùng được cập nhật trong vòng 5 năm chiếm tỷ lệ 45%trong tất cả các nền kinh tế; 38% các nền kinh tế cập nhật quyền số trong khoảngthời gian từ 6-10 năm; 14% các nền kinh tế cập nhật quyền số trong khoảng thờigian từ 11-15 năm; còn lại 3% là trên 15 năm Về việc phổ biến thông tin thống kê,tính kịp thời rất quan trọng đối với tất cả số liệu thống kê, đặc biệt là chỉ số giá tiêudùng, nó là chìa khóa cho tính hữu ích và mức độ liên quan của dữ liệu Trong thờigian qua, hầu hết các quốc gia đều cố gắng rút ngắn thời gian phổ biến số liệu vềchỉ số giá tiêu dùng Khoảng 86% (169/196) các nền kinh tế biên soạn và phổ biếnchỉ số giá tiêu dùng hàng tháng và công bố trong vòng bốn tuần sau khoảng thờigian tham chiếu
Bảng 2.1 Tổng hợp đánh giá chỉ số giá tiêu dùng ở các nước
Nguồn: Tính toán của chuyên gia IMF; các khu vực tô màu làm nổi bật các thông
lệ quốc tế tốt nhất (Berry et al., 2019)
Trang 33Để có được bức tranh cụ thể và chi tiết hơn về công tác thu thập, tính toán
và phổ biến chỉ số giá tiêu dùng tại các quốc gia trên thế giới, nghiên cứu sẽ trìnhbày chi tiết các giai đoạn sản xuất thông tin giá tại các quốc gia: Hoa Kỳ, Anh, Úc,Nhật Bản và Nam Phi, là những nước đại diện cho các Châu lục và có công tácthống kê chính thức phát triển, ổn định
2.1.4.1 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại HoaKỳ
Ở Hoa Kỳ, chỉ số giá tiêu dùng được định nghĩa là thước đo sự thay đổitrung bình theo thời gian của giá cả được người tiêu dùng khu vực thành thị trả tiềncho một rổ hàng hóa và dịch vụ tiêu dùng cố định trên thị trường và cơ quan chịutrách nhiệm tính toán và công bố là Cục Thống kê Lao động Chỉ số giá tiêu dùngđược công bố theo định kỳ hàng tháng và thời gian tham chiếu của chỉ số là giaiđoạn 1982-1984 Chỉ số giá tiêu dùng ở Hoa Kỳ được sử dụng cho các mục đíchnhư tính chỉ số tiền lương, lương hưu, các khoản chi trả an sinh xã hội, tính chỉ sốtiền thuê nhà, chi trả hợp đồng, các khoản thanh toán khác Phạm vi địa lý củaquyền số chi tiêu và thu thập giá tập trung ở khu vực thành thị Kết quả điều tra chitiêu hộ gia đình được sử dụng để tính quyền số chỉ số giá tiêu dùng và được cậpnhật hai năm một lần Chỉ số giá tiêu dùng ở Hoa Kỳ được thu thập và công bốhàng tháng, một số hàng hóa đặc biệt như may mặc và bảo dưỡng, chăm sóc y tế,
đồ đạc và hoạt động gia đình thu thập hai tháng một lần Dữ liệu chỉ số giá tiêudùng được công bố khoảng hai tuần sau tháng tham chiếu Về việc xử lý sự khácbiệt về chất lượng, Cục Thống kê Lao động sử dụng nhiều phương pháp để tính đến
sự thay đổi chất lượng, xác định giá trên cơ sở đơn vị (tính đến sự thay đổi về kíchthước, số lượng), các điều chỉnh được cung cấp bởi nhà sản xuất và phân tích hồiquy Hedonic được sử dụng để điều chỉnh chất lượng cho các mặt hàng như quần
áo, điện tử và thiết bị gia dụng (ILO, 2012)
Trang 342.1.4.2 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại Anh
Ở Anh, Văn phòng Thống kê quốc gia không sử dụng khái niệm chỉ số giátiêu dùng mà khái niệm này được gọi là chỉ số giá bán lẻ (RPI), là thước đo lạmphát lâu đời nhất ở Anh Tổ chức chịu trách nhiệm công bố RPI là Văn phòngThống kê quốc gia Thông thường chỉ số giá tiêu dùng ở Anh được sử dụng để tínhchỉ số tiền lương, lương hưu, chi trả an sinh xã hội, lập chỉ số tiền thuê nhà, cáckhoản thanh toán hợp đồng và các khoản thanh toán khác, tính toán sức mua củacác hộ gia đình, lập mô hình kinh tế vĩ mô và cho các mục đích phân tích khác.Phạm vi địa lý của quyền số chi tiêu và thu thập giá ở Anh là như nhau, trải đềutrong toàn quốc Về bảng phân loại, chỉ số giá tiêu dùng ở Anh sử dụng bảng phânloại riêng là bảng phân loại theo RPI Về nguồn của quyền số chỉ số giá tiêu dùng,Anh cũng sử dụng kết quả điều tra chi tiêu hộ gia đình để tính quyền số Quyền số
và mẫu được cập nhật hàng năm Hầu hết các mặt hàng được thu thập hàng tháng;những mặt hàng mà người ta biết rằng giá chỉ thỉnh thoảng thay đổi được thu thậphàng quý Sự khác biệt về chất lượng được xử lý qua một loạt các phương phápđiều chỉnh chất lượng được sử dụng bao gồm điều chỉnh chi phí tùy chọn, điềuchỉnh một biến số và điều chỉnh chất lượng bằng hồi quy Hedonic (ILO, 2012).2.1.4.3 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại Úc
Chỉ số giá tiêu dùng Úc là một thước đo chung về lạm phát giá cả cho toàn
bộ khu vực hộ gia đình Chỉ số giá tiêu dùng đo lường sự thay đổi trung bình theothời gian của giá phải trả cho một giỏ hàng hóa và dịch vụ cố định Chỉ số giá tiêudùng ở Úc được công bố định kỳ hàng quý Quyền số chỉ số giá tiêu dùng đượctính ở các thành phố chính, các khu vực đô thị Để phân tổ chỉ số giá tiêu dùng, Úc
sử dụng bảng phân loại coicop Nguồn để tính quyền số chỉ số giá tiêu dùng ở Úc là
từ điều tra chi tiêu hộ gia đình, tài khoản quốc gia, điều tra dân số và ngành, dữ liệucủa chính phủ, tổ chức tài chính và dữ liệu hành chính với tần suất cập nhật là trên
5 năm Giá của hầu hết hàng hóa và dịch vụ được thu thập một lần mỗi quý với sốlượng quan sát khoảng 100.000 mặt hàng Sự khác biệt về chất lượng giữa sản
Trang 35phẩm mới và sản phẩm thay thế được xử lý bởi các nhà phân tích và thu thập giá tạitrụ sở chính bằng nhiều phương pháp Hồi quy Hedonic được sử dụng trong trườnghợp máy tính cá nhân (ILO, 2012)
2.1.4.4 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại NhậtBản
Chỉ số giá tiêu dùng của Nhật Bản được tính toán để đo lường một cách toàndiện sự biến động giá cả của hàng hóa và dịch vụ mà các hộ chi tiêu trên toàn quốctheo chuỗi thời gian Tổ chức chịu trách nhiệm tính toán và công bố chỉ số giá tiêudùng là Văn phòng Thống kê Nhật Bản Định kỳ thu thập và công bố chỉ số giá tiêudùng ở Nhật Bản là hàng tháng với thời kỳ tham chiếu của chỉ số: 2010 = 100 Chỉ
số giá tiêu dùng được công bố vào lúc 8 giờ 30 sáng thứ sáu của tuần và vào ngày
26 hàng tháng Số liệu công bố là chỉ số của tháng trước cho cả nước Về bảngphân loại, Nhật Bản sử dụng bảng phân loại coicop và tính toán quyền số dựa trênkết quả điều tra chi tiêu hộ gia đình, với tần suất cập nhật là 2-5 năm Để xử lýnhững khác nhau về chất lượng, phương pháp chi phí tùy chọn được áp dụng cho ô
tô, điều chỉnh số lượng nếu có, và các chỉ số mô hình hồi quy Hedonic cho máyảnh kỹ thuật số và máy tính cá nhân (ILO, 2012)
2.1.4.5 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại NamPhi
Ở Nam Phi, chỉ số giá tiêu dùng được định nghĩa là một chỉ số kinh tế và xãhội hiện tại được xây dựng để đo lường sự thay đổi theo thời gian về mức giáchung của hàng hóa và dịch vụ tiêu dùng mà các hộ gia đình mua, sử dụng hoặc trảtiền cho dịch vụ Tổ chức chịu trách nhiệm thu thập, tính toán và công bố chỉ số giátiêu dùng ở Nam Phi là Cục Thống kê Nam Phi Nam Phi công bố chỉ số giá tiêudùng định kỳ hàng tháng và sử dụng phân loại coicop Nguồn số liệu để tính quyền
số chỉ số giá tiêu dùng là dựa vào khảo sát chi tiêu hộ gia đình với tần suất cập nhậtquyền số là 3-5 năm một lần Ở Nam Phi, không xử lý điều chỉnh chất lượng khi có
sự khác biệt về chất lượng (ILO, 2012)
Trang 362.1.5 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại Việt Nam
Ở Việt Nam, để có thể tính và công bố được chỉ số giá tiêu dùng hàng tháng,quí, năm như hiện nay, ngành thống kê thực hiện cuộc điều tra giá tiêu dùng (Tổngcục Thống kê, 2015) với những nội dung chính trong phương án điều tra như sau:
Đơn vị điều tra là các sạp, quầy hàng tại các chợ, điểm bán hàng (chuyênbán lẻ), các cơ sở kinh doanh dịch vụ có địa điểm kinh doanh ổn định trong nhữngkhu vực điều tra đã được chọn mẫu Về phạm vi điều tra, cuộc điều tra được tiếnhành tại tất cả các tỉnh, thành phố trực thuộc Trung ương Thời điểm điều tra giátiêu dùng được chia ra làm 2 nhóm mặt hàng Nhóm thứ nhất chỉ điều tra một lầntrong tháng và sẽ điều tra vào ngày 10 hàng tháng; Nhóm thứ hai sẽ điều tra ba lầntrong tháng vào các ngày 1, 10, 20 hàng tháng Tổng số mặt hàng lấy giá là 654mặt hàng Số lượng cụ thể các mặt hàng theo từng kỳ và từng điểm điều tra nhưsau: có 126 mặt hàng lấy giá tại một đến ba nơi điều tra trong mỗi khu vực điều tra
và lấy 3 lần/tháng; có 50 mặt hàng lấy giá tại một đến ba nơi điều tra trong mỗi khuvực điều tra và lấy một lần/tháng; có 18 mặt hàng lấy giá tại một nơi điều tra trongmỗi khu vực điều tra và lấy ba lần/tháng; có 453 mặt hàng lấy giá tại một nơi điềutra trong mỗi khu vực điều tra và lấy một lần/tháng; có năm mặt hàng lấy giá tạimột nơi điều tra trong mỗi khu vực điều tra và lấy theo số lần phát sinh trong tháng
Về loại điều tra, đây là cuộc điều tra chọn mẫu, được thực hiện theo các bước sau:
Xây dựng dàn mẫu điều tra là danh mục mặt hàng đại diện, dựa vào danhmục điều tra giá tiêu dùng chung của cả nước, các tỉnh, thành phố trực thuộc Trungương tiến hành rà soát và xác định danh mục điều tra cụ thể cho địa phương củamình và danh mục này được dùng làm cơ sở để thu thập giá Danh mục điều tra giácủa địa phương phải đảm bảo hai tiêu chí sau một là phải có trong danh mục chungcủa cả nước; hai là phải đảm bảo hàng hóa và dịch vụ phổ biến tiêu dùng tại địaphương Một yêu cầu bắt buộc để thu thập được giá là phải mô tả chi tiết nhãn mác,chất lượng, quy cách, cụ thể các loại hàng hóa và dịch vụ trong danh mục điều tra.Ngoại trừ trong danh mục chuẩn, các hàng hóa và dịch vụ phải thống nhất nhãn
Trang 37mác, chất lượng, quy cách trên phạm vi cả nước, các mặt hàng và dịch vụ còn lại cóthể được chọn theo đặc điểm tiêu dùng của từng tỉnh, thành phố do mỗi địa phương
có mức sống, đặc điểm vùng miền và tập quán tiêu dùng khác nhau
Thu thập giá kỳ gốc, sau khi tiến hành rà soát và xác định được danh mụchàng hóa và dịch vụ đại diện của tỉnh, thành phố; các tỉnh, thành phố sẽ tiến hànhlập bảng giá kỳ gốc
Quyền số tính chỉ số giá tiêu dùng là cơ cấu chi tiêu các nhóm hàng hóa vàdịch vụ trong tổng chi tiêu của hộ gia đình Quyền số để tính chỉ số giá tiêu dùngcủa Việt Nam là cơ cấu chi tiêu của từng vùng so với tổng chi tiêu của cả quốc giachia theo từng nhóm hàng Cấu trúc của chỉ số giá tiêu dùng được Tổng cục Thống
kê xây dựng luôn đảm bảo hai yêu cầu, một là đảm bảo tính liên tục của chuỗi chỉ
số giá tiêu dùng qua thời gian, hai là phải phù hợp với cơ cấu tiêu dùng của hộ giađình trong giai đoạn hiện tại Hiện nay chỉ số giá tiêu dùng có cấu trúc gồm cấpmột có 11 nhóm, cấp hai có 32 nhóm, cấp ba có 86 nhóm và cấp bốn có 266 nhóm
Công thức áp dụng tính chỉ số giá tiêu dùng, áp dụng công thức Laspeyres
bình quân nhân để tính chỉ số giá tiêu dùng thời kỳ 2014-2019
Từ phương án triển khai điều tra của Tổng cục Thống kê và thực tiễn thuthập thông tin giá tại địa phương, dựa vào nghiên cứu của Berry và cộng sự (2019)đưa ra các tiêu chí để đánh giá tính hợp lý của chỉ số giá tiêu dùng, có thể thấyphương pháp tính chỉ số giá tiêu dùng của Việt Nam phù hợp với thông lệ quốc tếtốt nhất
Tần suất cập nhật quyền số chỉ số giá tiêu dùng được thực hiện 5 năm mộtlần dựa vào cuộc điều tra khảo sát mức sống dân cư Tổng cục Thống kê công bốchỉ số giá tiêu dùng lần đầu vào năm 1998 với gốc so sánh là năm 1995 Năm 2001,Tổng cục Thống kê cập nhật quyền số chi tiêu dùng cuối cùng để tính chỉ số giátiêu dùng; năm gốc so sánh được chọn là năm 2000 Năm 2006, Tổng cục Thống
kê cập nhật quyền số để tính chỉ số giá tiêu dùng; năm gốc so sánh được chọn lànăm 2005 Tháng 10 năm 2009, Tổng cục Thống kê tiến hành cập nhật quyền số,
Trang 38lấy năm 2009 làm năm gốc so sánh Quyền số dùng để tính chỉ số giá tiêu dùng chothời kỳ 2009-2014 được xây dựng từ kết quả của khảo sát mức sống hộ gia đình vàđiều tra quyền số chỉ số giá tiêu dùng năm 2008 Để tính quyền số phục vụ tính chỉ
số giá tiêu dùng thời kỳ 2015-2020, Tổng cục Thống kê đã thực hiện thu thập thôngtin tính quyền số chỉ số giá tiêu dùng từ cuộc “khảo sát mức sống dân cư và điều traquyền số chỉ số giá tiêu dùng năm 2014” Quyền số được thu thập và tính toán cho
cả khu vực thành thị và nông thôn phù hợp với phạm vi địa lý thu thập thông tingiá
Về tính kịp thời của việc công bố số liệu, chỉ số giá tiêu dùng của Việt Namđược công bố vào ngày 29 hàng tháng Chỉ số giá tiêu dùng được công bố bao gồmchỉ số giá tiêu dùng của cả nước, 6 vùng kinh tế và các tỉnh, thành phố trực thuộcTrung ương Về chi tiết, chỉ số giá tiêu dùng công bố bao gồm chỉ số giá chung, chỉ
số giá 11 nhóm hàng cấp một và chia theo khu vực thành thị, nông thôn
Về việc sử dụng các phân loại quốc tế, hiện nay Việt Nam đang sử dụngbảng phân loại coicop cho việc thu thập, tính toán và công bố chỉ số giá tiêu dùng.Bảng phân loại này phù hợp theo khuyến cáo của các tổ chức quốc tế
2.2 Cơ sở lý thuyết về dữ liệu lớn
2.2.1 Định nghĩa về dữ liệu lớn
Có rất nhiều định nghĩa khác nhau về dữ liệu lớn, Katal và cộng sự (2013)cho rằng dữ liệu lớn là một tập hợp dữ liệu đa dạng đòi hỏi công nghệ và kỹ thuậtmới để có thể nắm bắt, trích xuất giá trị, xử lý và phân tích Desouza và Smith(2014) định nghĩa dữ liệu lớn là các tập dữ liệu mở rộng hơn các kho dữ liệu đơn
lẻ, quá lớn và phức tạp để được xử lý bằng các công cụ xử lý và quản lý cơ sở dữliệu truyền thống, bao gồm thông tin như giao dịch, mạng xã hội, các thông tintrong doanh nghiệp, cảm biến và thiết bị di động Daas và cộng sự (2023) thì chorằng dữ liệu lớn thường là các tập dữ liệu (cực kỳ lớn) có thể chứa cả dữ liệu có cấutrúc và phi cấu trúc Khi được phân tích bằng máy tính, có thể khám phá các mô
Trang 39dữ liệu, nó có thể được diễn tả sự gia tăng ở ba khía cạnh là dung lượng thông tin,vận tốc và chủng loại (Laney, 2001) Đến năm 2014, Gartner bổ sung thêm hai đặctrưng của dữ liệu lớn để hoàn chỉnh hơn khái niệm về dữ liệu và được sử dụng phổbiến khi định nghĩa về dữ diệu lớn, cụ thể là khối lượng dữ liệu (Volume); tốc độ
xử lý (Velocity); đa dạng (Variety); độ tin cậy, độ chính xác (Veracity); giá trịthông tin (Value) Dữ liệu lớn với những đặc trưng được thể hiện bởi năm chữ “V”
ở trên đã mở ra một hướng mới giúp cho dữ liệu kịp thời, thường xuyên, chi tiết vàhiệu quả hơn Điều này cho phép các nhà hoạch định chính sách có được đánh giá,
dự báo về các hiện tượng kinh tế quan trọng, chẳng hạn như tăng trưởng GDP, tỷ lệthất nghiệp, tổng mức bán lẻ, lạm phát, qua đó sẽ góp phần cung cấp thông tin tốthơn về chính sách tài khóa và tiền tệ, đồng thời cũng cung cấp những cảnh báo sớm
về những vấn đề có khả năng phát sinh trong nền kinh tế (Armah, 2013; Askitasand Zimmerman, 2009; Banbura et al., 2010; Choi and Varian, 2009a and 2009b;Galbraith and Tkacs, 2013; Khan, 2012; McLaren and Shanbhogue, 2011; Wu andBrynjoflsson, 2009) Dữ liệu lớn cũng giúp giải quyết hạn chế là số liệu thống kêchính thức được sử dụng cho nhiều quyết định chính sách chỉ có sẵn với độ trễ thờigian đáng kể, thiếu tính chi tiết và phân tách cần thiết (Manik and Albarda,2015) Từ khi các quốc gia tiến hành nghiên cứu sử dụng dữ liệu lớn trong việc dựbáo số liệu thống kê chính thức, các cơ quan thống kê quốc gia và quốc tế có rấtnhiều tranh luận xoay quanh các nội dung như vai trò của dữ liệu lớn trong côngtác thống kê chính thức; khi sử dụng dữ liệu lớn vào công tác thống kê chính thức,thì các nhà sản xuất dữ liệu lớn ở khu vực ngoài nhà nước sẽ xuất hiện, như vậy vaitrò của họ đối với số liệu thống kê chính thức như thế nào? (Karlbeg and Skaliotis,2013; Pierson, 2013; United Nations Global Pulse, 2012, 6/2013, 10/2013; UNSC,
Trang 402014) Dữ liệu lớn mang lại những thách thức và thay đổi lớn cho số liệu thống kêchính thức (Damin and Jinjing, 2014) Mariyah (2014) đã xác định những tháchthức về dữ liệu lớn đến từ các bước của phương pháp thống kê Những thách thức
về dữ liệu lớn cũng đến từ luật pháp, bảo mật, quyền riêng tư, lưu trữ, xử lý và truycập dữ liệu, yêu cầu kỹ năng và tài chính (Manik and Albarda, 2015) Bên cạnh đó,nhóm ủng hộ dữ liệu lớn cũng đưa ra nhiều lợi ích của việc thu thập thông tin từ dữliệu lớn như chi phí thấp, giảm áp lực cung cấp thông tin, dữ liệu kịp thời và chitiết, đồng thời nhóm ủng hộ cũng đưa ra nhiều giải pháp để giải quyết các rủi ro mànhóm phản đối nêu ra theo hướng sử dụng dữ liệu quản trị
Mặc dù cũng còn nhiều thách thức nhưng dữ liệu lớn vẫn được ứng dụngrộng rãi trong hầu hết các ngành, các lĩnh vực trên thế giới Các tổ chức trong bất
kỳ ngành nào có dữ liệu lớn đều có thể hưởng lợi từ việc phân tích cẩn thận dữ liệulớn để có được những hiểu biết theo chiều sâu để giải quyết các vấn đề thực tế(Intel IT Center, 2012) Manyika và cộng sự (2011) đã xác định tiềm năng của dữliệu lớn nằm trong năm chủ đề chính, một là y tế (hệ thống hỗ trợ quyết định lâmsàng, phân tích cá nhân áp dụng đối với hồ sơ bệnh nhân, phân tích mô hình bệnhtật, cải thiện sức khỏe cộng đồng); hai là lĩnh vực công (tạo ra sự minh bạch bằng
dữ liệu liên quan có thể truy cập, khám phá nhu cầu, cải thiện hiệu suất, tùy chỉnhhành động cho các sản phẩm và dịch vụ phù hợp, ra quyết định với các hệ thống tựđộng để giảm rủi ro, đổi mới sản phẩm và dịch vụ mới); ba là bán lẻ (phân tíchhành vi khách hàng, đa dạng và tối ưu hóa giá cả, thiết kế vị trí sản phẩm, cải thiệnhiệu suất, tối ưu hóa đầu vào lao động, thị trường); bốn là sản xuất (cải thiện dựbáo nhu cầu, lập kế hoạch chuỗi cung ứng, hỗ trợ bán hàng, phát triển hoạt độngsản xuất, ứng dụng dựa vào việc tìm kiếm trên web); và năm là dữ liệu vị trí cánhân (định tuyến thông minh, các mô hình kinh doanh mới)
2.2.2 Các ứng dụng dữ liệu lớn
Từ phần định nghĩa và những đặc điểm của dữ liệu lớn được trình bày ởtrên, có thể thấy rõ dữ liệu lớn là một chủ đề rất đa dạng và rộng rãi để nghiên cứu