1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh)

282 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Thác Dữ Liệu Lớn Trong Việc Tính Chỉ Số Giá Tiêu Dùng Ở Việt Nam (Trường Hợp Thành Phố Hồ Chí Minh)
Tác giả Nguyễn Thanh Bình
Người hướng dẫn TS. Hà Văn Sơn, TS. Lê Thị Thanh Loan
Trường học Trường Đại Học Kinh Tế Tp. Hồ Chí Minh
Chuyên ngành Thống Kê
Thể loại Luận Án Tiến Sĩ Kinh Tế
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 282
Dung lượng 4,06 MB

Nội dung

Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp TP. Hồ Chí Minh).

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

-NGUYỄN THANH BÌNH

KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH

CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM

(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)

LUẬN ÁN TIẾN SĨ KINH TẾ

Tp Hồ Chí Minh - Năm 2023

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

NGUYỄN THANH BÌNH

-KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH

CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM

(TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH)

Chuyên ngành: THỐNG KÊ

Mã số: 9460201

LUẬN ÁN TIẾN SĨ KINH TẾ

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 TS Hà Văn Sơn

2 TS Lê Thị Thanh Loan

Tp Hồ Chí Minh - Năm 2023

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan về sự trung thực và chuẩn mực đạo đức của toàn bộ nghiên cứu này

Thành phố Hồ Chí Minh, tháng 12 năm 2023

Tác giả

Nguyễn Thanh Bình

Trang 4

Chương 2 Cơ sở lý thuyết và tổng quan các nghiên cứu trước có 11

Trang 5

Trang liên quan

2.1.4 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 16một số quốc gia trên thế giới

2.1.5 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 21Việt Nam

2.2.6 Sự khác biệt giữa dữ liệu truyền thống và dữ liệu lớn 40

2.3.1 Điều chỉnh chất lượng hàng hóa trong chỉ số giá tiêu 43dùng

2.4 Tổng quan các nghiên cứu trước có liên quan đến đề tài 49

Trang 6

Chương 3 Phương pháp nghiên cứu và quy trình nghiên cứu 81

3.2.1. Thu thập ý kiến chuyên gia qua phiếu khảo sát 85

3.4 Phương pháp tính chỉ số giá tiêu dùng từ dữ liệu lớn 983.5 Xây dựng mô hình Hedonic: Trường hợp giá máy tính xách tay 103

3.5.1. Tổng hợp các yếu tố tác động đến giá máy tính xách tay

3.5.2. Đề xuất mô hình hồi quy Hedonic cho sản phẩm máy

Trang 7

4.5 Ứng dụng kết quả mô hình hồi quy Hedonic cho sản phẩm máy

tính xách tay vào việc tính chỉ số giá tiêu dùng

131

142

4.8 Phân tích những thách thức khi triển khai tính chỉ số giá tiêu dùng

Danh mục các công trình khoa học đã công bố

Danh mục tài liệu tham khảo

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT

ABS Cơ quan Thống kê quốc gia Úc

ARIMA Phương pháp trung bình trượt kết hợp tự hồi quy (Autoregressive

Integrated Moving Average)Big data Dữ liệu lớn

BLS Cục Thống kê lao động Hoa Kỳ (Bureau of labor statistics)

CAPI Phỏng vấn cá nhân với sự trợ giúp của máy tính (Computer Assisted

Personal Interviewing)CNTT Công nghệ thông tin

COICOP Phân loại hàng hóa tiêu dùng cá nhân theo mục đích sử dụng

CIS STAT Ủy ban Thống kê liên bang của Cộng đồng các Quốc gia Độc lập

CPI Chỉ số giá tiêu dùng (Consumer Price index)

CPU Bộ xử lý trung tâm (Central Processing Unit)

ĐTV Điều tra viên

EC Ủy Ban Châu Âu (European Commission)

Eurostat Cơ quan Thống kê của Cộng đồng Châu Âu (Statistical

Office of the European Communities)GDP Tổng sản phẩm trong nước (Gross Domestic Product)

GRDP Tổng sản phẩm trên địa bàn (Gross Regional Domestic Product)

Trang 9

HDD Ổ cứng máy tính (Hard Disk Drive)

ICLS Hội nghị quốc tế về các nhà thống kê lao động

ILO Tổ chức Lao động Quốc tế

IMF Quỹ Tiền tệ Quốc tế (International Monetary Fund)

KHTK Khoa học Thống kê

OECD Tổ chức Hợp tác và Phát triển Kinh tế (Organization for

Economic Co-operation and Development)OLS Bình phương bé nhất thông thường (Ordinary Least Squares)

PPCĐ Phương pháp chế độ

RAM Bộ nhớ truy cập ngẫu nhiên (Random Access Memory)

RPI Chỉ số giá bán lẻ (Retail price index)

TCTK Tổng cục Thống kê

TMĐT Thương mại điện tử

TNHH Trách nhiệm hữu hạn

TP.HCM Thành phố Hồ Chí Minh

UN Liên Hợp Quốc (United Nations)

UNECE Liên Hiệp Quốc ủy ban kinh tế châu Âu (United Nations Economic

Commission for Europe)

WB Ngân hàng Thế giới (The World Bank)

WLS Bình phương nhỏ nhất có trọng số (Weighted Least Squares)

Trang 10

Sử dụng mô hình Hedonic để điều chỉnh sự thay đổi về

48chất lượng sản phẩm ở các nước

Tổng hợp nghiên cứu ngoài nước liên quan đến CPI và

Tổng hợp nghiên cứu ngoài nước liên quan đến mô

74hình hồi quy Hedonic

Bảng 3.2 Tổng hợp chuyên gia tham gia khảo sát 85

Trang 11

Bảng Tên bảng Trang

Bảng 3.3 Danh sách các trang web chia theo nhóm ngành 92

Tổng sản phẩm trên địa bàn theo giá so sánh 2010 phân

theo khu vực kinh tế

Tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu

dùng theo giá hiện hành phân theo ngành kinh tế

119

122Bảng 4.3 Chỉ số giá tiêu dùng các tháng trong năm 123

Một số kết quả chủ yếu về hoạt động TMĐT tại

TP.HCM

Bảng 4.5 Số lượng trang web và số lượng mặt hàng thu thập 129Bảng 4.6 Kết quả thống kê mô tả giá trị các biến của mô hình 132Bảng 4.7 Các nhân tố tác động đến giá máy tính xách tay 134

Các nhân tố tác động đến giá máy tính xách tay (sau khi

xử lý hiện tượng phương sai thay đổi)

Bảng 4.9 Chỉ số giá sản phẩm máy tính xách tay chia theo tháng 144Bảng 4.10 Chỉ số giá nhóm thiết bị và đồ dùng gia đình 145Bảng 4.11 Chỉ số giá tiêu dùng so tháng trước chia theo tháng 151Bảng 4.12 Bảng so sánh các yếu tố từ các nghiên cứu trước 154

Trang 12

DANH MỤC HÌNH

Hình 3.2 Quy trình thu thập thông tin từ khai thác dữ liệu lớn 91Hình 3.3 Quy trình sử dụng dữ liệu lớn trong tính toán CPI 98Hình 4.1 Cơ cấu tổng sản phẩm trên địa bàn của TP.HCM

năm 2018-2022

120

Hình 4.2 Hình thức đặt hàng và đối tượng bán hàng 128Hình 4.3 Sơ đồ cấu trúc của mặt hàng máy tính xách tay trong

Trang 13

DANH MỤC PHỤ LỤC

Phụ lục 1 Kết quả mô hình hồi quy Hedonic cho máy tính xách tay

Phụ lục 2 Danh sách chuyên gia

Phụ lục 3 Phiếu khảo sát chuyên gia

Phụ lục 4 Kết quả tổng hợp các ý kiến của chuyên gia

Phụ lục 5 Biên bản hội thảo

Phụ lục 6 Một số hình ảnh và các đoạn chương trình khai thác dữ liệu giá Phụ lục 7 Kết quả tính chỉ số giá tiêu dùng khai thác từ dữ liệu lớn (27 biểu)

Trang 14

số phi chọn mẫu, chi phí thu thập) mà còn cho phép chúng ta mở rộng cỡ mẫu, tầnsuất thu thập cao hơn, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thếcủa người tiêu dùng, thông tin thu thập kịp thời hơn Kết quả tính toán chỉ số giátiêu dùng dựa trên dữ liệu lớn thu thập được từ các trang web trực tuyến so với chỉ

số giá tiêu dùng được tính theo phương pháp truyền thống cũng khá tương đồng, thểhiện đúng xu hướng Từ nguồn dữ liệu lớn thu thập được, luận án cũng đã xây dựngđược mô hình hồi quy Hedonic (tính cho trường hợp máy tính xách tay) nhằm điềuchỉnh sự thay đổi của chất lượng, quy cách hàng hóa trong rỗ hàng hóa tính chỉ sốgiá tiêu dùng, đảm bảo tính so sánh của chỉ số giá Qua đó cho thấy mô hình hồi quyHedonic phù hợp trong việc điều chỉnh sự thay đổi của chất lượng hàng hóa, là mộtnội dung quan trọng trong kỹ thuật tính toán chỉ số giá tiêu dùng Nghiên cứu này

đã bổ sung phương pháp mới trong việc thu thập dữ liệu phục vụ công tác thống kê,đặc biệt là thống kê nhà nước cũng như xây dựng được phương pháp tính chỉ số giátiêu dùng từ nguồn dữ liệu lớn

Từ khóa: Dữ liệu lớn, chỉ số giá tiêu dùng, mô hình hồi quy Hedonic

Trang 15

The thesis exploits big data in calculating the consumer price index for Ho ChiMinh City using price information collected from online websites This data sourcenot only solves some challenges in traditional price collection methods (such asdelay in data publication, difficulty in collecting data at sampling zone/ difficulty inoffline data collection, non-sampling error, collection costs) but also allows us toexpand sample sizes and frequency which helps better reflect consumer substitutionpatterns and get real-time data The consumer price index calculated based on largeonline data is showing similar trend compared with the consumer price indexcalculated by the traditional method From the big data collected, the thesis has alsobuilt a Hedonic regression model (applied for the case of laptop category) to adjustthe change in quality and specifications of goods in the basket to calculate theconsumer price index and ensure the comparability Thereby, it shows that theHedonic regression model is approriate in adjusting the change of goods quality,which is an important content in consumer price index calculating technique Thisstudy has added a new method of collecting data for statistics, especially officialstatistics, as well as developing a method to calculate the consumer price indexfrom abig data source

Keyword: Big data, consumer price index, Hedonic regression model

Trang 16

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU

Trong chương 1, tác giả luận án trình bày tầm quan trọng của chỉ số giá tiêu dùng và đưa ra những lý do mà tác giả luận án lựa chọn vấn đề nghiên cứu Trong chương này, tác giả cũng trình bày được mục tiêu nghiên cứu tổng quát, qua đó tác giả luận án đưa ra từng mục tiêu cụ thể cần đạt được trong nghiên cứu Chương này còn trình bày các nội dung gồm đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn, những đóng góp chính của nghiên cứu Ngoài ra, ở phần cuối chương, tác giả trình bày cấu trúc từng chương trong luận án.

1.1 Lý do chọn đề tài

Chỉ số giá và các thông tin về giá cả thị trường có một vị trí, vai trò rất quantrọng trong công tác quản lý và điều hành các chính sách vĩ mô của nhà nước nhưcác chính sách về quản lý tài chính tiền tệ, kiềm chế lạm phát, điều chỉnh lãi suấtngân hàng, điều chỉnh tỷ giá, ban hành các chính sách phát triển kinh tế xã hội theovùng miền, các chính sách tiền lương, qua đó góp phần phát triển hoạt động sảnxuất kinh doanh và trao đổi thương mại quốc tế Trong đó chỉ số giá tiêu dùng đượcxem là một trong những chỉ số kinh tế quan trọng nhất do các cơ quan thống kêquốc gia công bố (Berry et al., 2019) Chỉ số giá tiêu dùng có lịch sử rất lâu đời,được thu thập và tính toán ở phần lớn các quốc gia trên thế giới Phương pháp tínhchỉ số giá tiêu dùng hiện nay cũng khác biệt nhiều so với trước đây, hàng hóa đãđược mở rộng phạm vi thu thập, nguồn dữ liệu được sử dụng để xác định quyền sốcũng có nhiều bước phát triển Mặc dù vậy, tính toán chỉ số giá tiêu dùng vẫn dựatrên mẫu chứ không phải tất cả mọi mức giá của từng loại hàng hóa hoặc dịch vụ

mà người dân chi tiêu dùng cuối cùng đều được thu thập Các cơ quan thống kêquốc gia thường chọn mẫu các hàng hóa và dịch vụ đại diện mà người dân tiêu dùngnhiều nhất Ngoài ra, do không thể quan sát giá của hàng hóa và dịch vụ được lựachọn tại tất cả các cửa hàng bán lẻ bán trên toàn quốc, nên một lần nữa, các cơ quan

Trang 17

thống kê quốc gia lại sử dụng phương pháp chọn mẫu chọn đại diện các cửa hàng

để thu thập giá Điều này dẫn đến khả năng phát sinh sai số chọn mẫu cao Việc thuthập thông tin giá theo phương pháp truyền thống thông qua các cuộc điều tra nhưhiện nay cũng có một số bất cập như chi phí thực hiện điều tra và việc tiến hànhngày càng trở lên khó khăn hơn, việc gia tăng số lượng chuỗi cửa hàng làm cho thờigian thu thập kéo dài hơn, tỷ lệ trả lời ngày càng giảm (Crystal et al., 2019) Ngoài

ra việc tính toán chỉ số giá tiêu dùng theo phương pháp truyền thống cũng phát sinhthêm một số bất cập như có độ trễ trong việc công bố số liệu, còn tồn tại sai số phichọn mẫu, khó khăn trong việc xử lý các mặt hàng thay thế của người tiêu dùng, cácmặt hàng mới xuất hiện, các mặt hàng có vòng đời sản phẩm ngắn

Ngành thống kê Việt Nam tiến hành điều tra, thu thập thông tin, tính chỉ sốgiá tiêu dùng và công bố hàng tháng vào các ngày cuối tháng Thông tin thống kê vềchỉ số giá tiêu dùng được thu thập từ cuộc điều tra giá tiêu dùng do Tổng cục Thống

kê triển khai và được thực hiện ở cả 63 tỉnh, thành phố Hệ thống thông tin thống kê

về giá tiêu dùng của ngành Thống kê đã được xây dựng và ngày càng hoàn thiện vớimột số các nghiên cứu điển hình như nghiên cứu về phương pháp xác định hệ thốngquyền số tính chỉ số giá tiêu dùng (Văn Thị Loan, 1998); Chỉ số giá tiêu dùng ViệtNam và các yếu tố tác động phương pháp tiếp cận định lượng (Trương Văn Phước

và Chu Hoàng Long, 2005); Hoàn thiện phương pháp tính chỉ số giá nhóm nhà ởtrong chỉ số giá tiêu dùng ở Việt Nam (Đỗ Thị Ngọc, 2014a); Giới thiệu về phươngpháp tính chỉ số giá tiêu dùng mới và một số khuyến nghị (Đỗ Thị Ngọc, 2014b);

Hệ thống thông tin giá và các cuộc điều tra thống kê giá (Vũ Thị Thu Thủy, 2015);Nghiên cứu và đề xuất mô hình dự báo chỉ số giá tiêu dùng áp dụng cho Tổng cụcThống kê (Vũ Thị Thu Thủy, 2018) Tuy nhiên, cũng tương tự như thực trạng tínhchỉ số giá tiêu dùng trên thế giới, phương pháp tính chỉ số giá tiêu dùng ở Việt Namcũng còn một số bất cập như công tác thu thập tại địa bàn ngày một khó khăn hơn;sai số phi chọn mẫu vẫn còn cao do chất lượng thông tin thu thập được phụ thuộcvào kỹ năng thu thập thông tin cũng như tính trung thực của điều tra viên; chi phícho cuộc điều tra cao vì phải huy động lực lượng lớn điều tra viên lớn

Trang 18

Cùng với xu hướng ngày càng phát triển của nền kinh tế số trên thế giới, cácgiao dịch mua bán, giới thiệu sản phẩm trực tiếp trên internet ở Việt Nam ngày càngphổ biến Theo sách trắng thương mại điện tử Việt Nam năm 2022, thị trườngthương mại điện tử Việt Nam đạt nhiều kết quả ấn tượng Nếu như năm 2017,thương mại điện tử bán lẻ Việt Nam mới chỉ đạt 6,2 tỷ USD, thì đến năm 2022 đãđạt mức 16,4 tỷ USD (Cục Thương mại điện tử và Kinh tế số (Bộ Công Thương),2022) Việc người dân quan tâm và phát triển mua bán trên mạng ngày càng nhiều

sẽ tạo ra nguồn dữ liệu vô cùng lớn Nghiên cứu về dữ liệu lớn ở Việt Nam đượcphát triển trong thời gian gần đây trong một số lĩnh vực như kinh tế, thông tin - thưviện, kiểm toán báo cáo tài chính, ngân hàng, bất động sản, giáo dục và đào tạo.Tuy nhiên, các nghiên cứu về dữ liệu lớn ứng dụng trong thống kê chính thức ở ViệtNam còn hạn chế, phần lớn đang trong giai đoạn nghiên cứu tổng quan Năm 2018,Tổng cục Thống kê thực hiện một nghiên cứu thí điểm việc lồng ghép các dữ liệuthu thập trực tuyến trong việc sản xuất chỉ số giá tiêu dùng Kết quả không đượccông bố và nguồn dữ liệu chưa được tích hợp vào quy trình nghiệp vụ thống kê(Thuy Nguyen Van and Hoan Nguyen Cong, 2018)

Hơn hai mươi năm trước, cuộc cách mạng công nghệ thông tin và truyềnthông tại các quốc gia phát triển đã làm thay đổi hành vi tiêu dùng của người dâncũng như hành vi phân phối hàng hóa của doanh nghiệp Sự phát triển vượt bậc nàygiúp tạo ra một nguồn dữ liệu lớn chưa từng có ở những khu vực mà các kỹ thuậtthu thập dữ liệu truyền thống không thể tiếp cận được Ngoài ra, cùng với sự giatăng của các hình thức cửa hàng hiện đại là sự gia tăng của các nền tảng bán hàngtrực tuyến, điều này tạo điều kiện cho việc thu thập giá trực tuyến trong rất nhiềulĩnh vực khác nhau Xuất phát từ thực tế trên, cơ quan thống kê của các quốc gia đãxác định nguồn dữ liệu mới này là cơ hội tốt giúp họ giải quyết nhiều thách thức màđiều tra giá tiêu dùng đang gặp phải Nguồn dữ liệu giá thu thập từ các trang webbán hàng trực tuyến có thể đo lường chính xác hơn sự thay đổi giá, giúp mở rộng cởmẫu, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêudùng, giảm hoặc loại bỏ áp lực của người cung cấp thông tin và trong một số trường

Trang 19

hợp sẽ giúp giảm chi phí thu thập thông tin Ngoài ra nguồn dữ liệu lớn này có thểgiúp thu thập thông tin giá kịp thời hơn, mặt hàng đa dạng hơn, tần số thu thập caohơn (Crystal et al., 2019)

Một trong những dự án đi đầu và tiêu biểu cho việc sử dụng tính năng thuthập dữ liệu giá trực tuyến trên web để tính toán và dự báo chỉ số giá tiêu dùng là dự

án tỷ giá do Viện Công nghệ Massachusetts nghiên cứu và phát triển Kết quảnghiên cứu đã chứng minh rằng dữ liệu chi tiết về giá bán lẻ có thể được thu thập từ

xa với chi phí thấp hơn đáng kể so với thu thập bằng phương pháp truyền thống(Cavallo and Rigobon, 2016) Dự án này đã làm thay đổi đáng kể mô hình hoạtđộng truyền thống của các cơ quan thống kê quốc gia là thu thập thông tin giá trựctiếp, điều tra viên đến các điểm bán lẻ để thu thập thông tin (Harchaoui and Janssen,2018) Mặc dù chỉ số giá tiêu dùng tính theo phương pháp trực tuyến vẫn đangtrong giai đoạn đầu của quá trình phát triển, nhưng có rất nhiều bằng chứng chothấy nó cung cấp cho các nhà hoạch định chính sách một bức tranh hợp lý, phản ánhđúng xu hướng về chỉ số giá tiêu dùng theo thời gian thực Một bằng chứng chắcchắn và cụ thể hơn là trường hợp của Argentina, trong đó chỉ số giá tiêu dùng của

dự án tỷ giá được chứng minh là một sự thay thế tốt hơn cho chỉ số giá tiêu dùngchính thức sau khi nó bị mất uy tín do can thiệp chính trị (Cavallo, 2013) Ngoài raCavallo nhận xét các chỉ số được xây dựng từ giá trực tuyến này đã cung cấp mộtước tính hợp lý tốt về cả mức độ và diễn biến của tỷ lệ lạm phát chính thức chophần lớn các quốc gia được xem xét (Brazil, Chile, Columbia và Venezuela) Tiếptục các nghiên trước, Dubey và Gennari (2014) đã nghiên cứu sử dụng dữ liệu lớntrong lĩnh vực giá với nhóm hàng cụ thể là lương thực, từ việc đưa ra các số liệuthống kê chính thức đến các dự báo, cảnh báo sớm về an ninh lương thực Trong bốicảnh trên, một số quốc gia cũng đã và đang tích cực chuẩn bị để chuyển sang sửdụng dữ liệu lớn để tính toán chỉ số giá tiêu dùng như Na Uy (Manik and Albarda,2015), Anh (Naynor et al., 2015), Bỉ (Van Loon and Roels, 2018), Pháp, Thụy Điển

và Hà Lan (Jens, 2019), Hoa Kỳ (Crystal et al., 2019) Dữ liệu lớn để thống kê giácũng được các cơ quan thống kê quốc gia ở Châu Á và Thái Bình Dương tích cực

Trang 20

khai thác, tuy nhiên công việc này cũng mới đang từng bước tìm hiểu (Bernal et al.,2021), cụ thể như Úc (ESCAP, 2020), New Zealand (Statistics New Zealand, 2017),Nhật Bản (Statistics Bureau of Japan, 2019), Malaysia (Mustapa, 2020),Philippines, Indonesia (Bernal et al., 2021)

Nhận thức được tầm quan trọng của công nghệ thông tin - truyền thông vàđặc biệt là dữ liệu lớn, ngày 10 tháng 5 năm 2018 Thủ tướng Chính phủ ban hànhQuyết định số 501/QĐ-TTg phê duyệt Đề án ứng dụng công nghệ thông tin - truyềnthông trong Hệ thống thống kê nhà nước giai đoạn 2017-2025, tầm nhìn đến năm

2030 đề ra mục tiêu: “Ứng dụng công nghệ dữ liệu lớn để hiện đại hóa, giảm chiphí, nâng cao chất lượng và tăng cường khả năng dự báo đối với một số chỉ tiêuthống kê trong các lĩnh vực thống kê giá” (Thủ tướng Chính phủ, 2018) Đánh giáđược tiềm năng to lớn của dữ liệu lớn, Tổng cục Thống kê đã có một số định hướnghoạt động như thành lập tổ công tác về dữ liệu lớn, bổ sung thêm nội dung "Nghiêncứu ứng dụng dữ liệu lớn vào chương trình phát triển ứng dụng công nghệ thông tincủa Tổng cục Thống kê", xây dựng đề án ứng dụng dữ liệu lớn trong thống kê nhànước (Nguyễn Bích Lâm, 2016)

Nghiên cứu giải pháp sử dụng nguồn dữ liệu lớn để tính chỉ số giá tiêu dùng

ở Việt Nam là một việc rất cần thiết và phù hợp với xu hướng của thế giới nên tácgiả chọn chủ đề: “Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở ViệtNam (trường hợp Thành phố Hồ Chí Minh)” làm nghiên cứu cho luận án này Đềtài triển khai thu thập thông tin giá từ các trang web trực tuyến và tiến hành tínhtoán chỉ số giá tiêu dùng dựa trên nguồn thông tin thu thập được Những hàm ýchính sách, những giải pháp được đề xuất trong nghiên cứu này sẽ giúp cho việctriển khai thành công công tác thu thập giá trực tuyến phục vụ việc tính toán chỉ sốgiá tiêu dùng ở Việt Nam

1.2 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu: Xây dựng quy trình thu thập và tổng hợp chỉ số giá tiêu

dùng từ nguồn dữ liệu lớn là thông tin giá trên các trang web bán hàng trực tuyến

Trang 21

Mục tiêu cụ thể:

Mục tiêu 1: Xây dựng quy trình khai thác thông tin giá từ dữ liệu lớn.

Mục tiêu 2: Xây dựng quy trình và kỹ thuật tính toán chỉ số giá tiêu dùng từ

khai thác dữ liệu lớn

Mục tiêu 3: Nghiên cứu ứng dụng mô hình hồi quy Hedonic để điều chỉnh

sự thay đổi chất lượng hàng hóa hoặc trường hợp hàng hóa không còn xuất hiện trênthị trường phục vụ cho việc tính chỉ số giá tiêu dùng

Mục tiêu 4: Phân tích tính phù hợp của ứng dụng mô hình Hedonic để điều

chỉnh sự thay đổi chỉ số giá tiêu dùng bằng mô hình Hedonic

Mục tiêu 5: Hàm ý chính sách để triển khai thực thi trong việc tính toán chỉ

số giá tiêu dùng từ khai thác dữ liệu lớn

1.3 Câu hỏi nghiên cứu

Với các mục tiêu nghiên cứu trên, đề tài sẽ từng bước trả lời các câu hỏi nghiên cứusau đây:

Câu hỏi nghiên cứu 1: Quy trình thu thập giá từ các trang web trực tuyến

như thế nào?

Câu hỏi nghiên cứu 2: Quy trình và kỹ thuật tính toán chỉ số giá tiêu dùng

từ khai thác dữ liệu lớn ra sao?

Câu hỏi nghiên cứu 3: Có thể ứng dụng mô hình hồi quy Hedonic dựa trên

dữ liệu lớn để điều chỉnh sự thay đổi của chất lượng hàng hóa hoặc trường hợp hànghóa không còn xuất hiện trên thị trường không?

Câu hỏi nghiên cứu 4: Tổng hợp chỉ số giá tiêu dùng từ nguồn dữ liệu lớn

đã thu thập với sự ứng dụng mô hình hồi quy Hedonic dựa trên dữ liệu lớn có phùhợp không?

Trang 22

Câu hỏi nghiên cứu 5: Các hàm ý nghiên cứu nào để có thể triển khai thành

công công tác thu thập giá trực tuyến phục vụ việc tính toán chỉ số giá tiêu dùng ởViệt Nam?

1.4 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Dữ liệu lớn, chỉ số giá tiêu dùng và mô hình hồi quy

1.5 Phương pháp nghiên cứu

Để thực hiện mục tiêu nghiên cứu, luận án được tác giả triển khai theo hướng sửdụng phương pháp hỗn hợp, sử dụng đồng thời nghiên cứu định tính và nghiên cứuđịnh lượng

1.5.1 Phương pháp nghiên cứu định tính

Phương pháp định tính được triển khai thực hiện qua các hình thức thảo luận nhóm,phỏng vấn trực diện, hội thảo khoa học Đối tượng tham gia thảo luận là các nhàkhoa học, các chuyên gia trong lĩnh vực giá tiêu dùng, lĩnh vực máy tính nhằm điềuchỉnh, bổ sung các yếu tố liên quan đến vấn đề nghiên cứu Việc thực hiện nghiêncứu định tính nhằm mục đích xác định:

Trang 23

(1) Sự cần thiết sử dụng dữ liệu lớn trong công tác thống kê (trong đó tính toán chỉ

số giá tiêu dùng thông qua dữ liệu lớn là một trong các chỉ tiêu có thể được áp dụngsớm) và các giải pháp để có thể triển khai được việc thu thập dữ liệu lớn phục vụtính toán chỉ số giá tiêu dùng

(2) Việc giải quyết vấn đề thay đổi chất lượng sản phẩm trong quá trình thu thậpthông tin về giá và tính toán chỉ số giá tiêu dùng, cụ thể là sử dụng mô hình hồi quyHedonic để điều chỉnh chất lượng hàng hóa và dịch vụ áp dụng cho máy tính xáchtay Các yếu tố tác động đến giá của máy tính xách tay

1.5.2 Phương pháp nghiên cứu định lượng

Xây dựng mô hình nghiên cứu các yếu tố tác động đến giá máy tính xách tay.Nghiên cứu của Haan và Diewert (2013) cho rằng đối với các sản phẩm như hàngcông nghệ cao, mô hình tuyến tính logarit thường được ưa thích hơn với những môhình khác Theo Griliches (1971), dạng hàm bán logarit thường được coi là ''tốtnhất'' trong các kiểm tra đánh giá về dạng hàm trong các nghiên cứu về hàm hồi quyHedonic Một số nghiên cứu sử dụng dạng hàm này như Baker (1997); Chwelos(2003); Byrne, Oliner và Sichel (2016); Zafar và Himpens (2019) McCormack(2013) đã sử dụng mô hình hồi quy Hedonic tuyến tính logarit (LogLin) để xác địnhcác đặc điểm ảnh hưởng đến giá ô tô mới Bulut và Zaman (2018) đã phân tích cácyếu tố ảnh hưởng đến giá với các mô hình như mô hình tuyến tính (LinLin), môhình số học logarit (LogLog), mô hình logarit tuyến tính (LinLog) và mô hình tuyếntính logarit (LogLin) Kết quả của nghiên cứu cho thấy rằng mô hình tuyến tínhlogarit (LogLin) mang lại hiệu quả nhất Selim (2008) sử dụng mô hình tuyến tínhlogarit (LogLin) để xác định các đặc điểm của ngôi nhà và các ước tính được thựchiện bằng phương pháp bình phương tối thiểu thông thường (OLS) Phương phápbình phương tối thiểu thông thường được sử dụng rộng rãi trong phân tích hồi quy

Từ các phân tích trên, tác giả chọn sử dụng mô hình tuyến tính logarit (LogLin) chonghiên cứu này và ước tính được thực hiện bằng phương pháp bình phương tốithiểu thông thường Để đảm bảo tính vững, tính hiệu quả và tính không chệch của

Trang 24

mô hình, ta thực hiện các kiểm định sự phù hợp với lý thuyết (kiểm định về hệ sốhồi quy), mức độ phù hợp của mô hình (R2) và các giả thuyết của mô hình cổ điển.Các kiểm định được thực hiện cho mô hình là kiểm định mô hình bằng kiểm định t,kiểm định F, sử dụng hệ số xác định R2 để đánh giá sự phù hợp của mô hình, sử dụngnhân tử phóng đại phương sai (Variance Inflation Factor - VIF) để kiểm định hiệntượng đa cộng tuyến, kiểm định White để kiểm định hiện tượng phương sai thay đổi

1.6 Nguồn dữ liệu

Về dữ liệu sơ cấp, luận án sử dụng nguồn thông tin về giá của tất cả các mặthàng được thu thập từ 29 trang web chính thức có giấy phép của Bộ Thông tin vàTruyền thông, đây là những trang web bán hàng lớn và có uy tín ở Việt Nam, tầnsuất thu thập ba lần trong một tháng, thời gian thu thập bắt đầu từ tháng 10 năm

2017 đến tháng 12 năm 2018 Tổng số mặt hàng thu thập giá là 246.069 mặt hàng,đây là nguồn dữ liệu được sử dụng để tính toán chỉ số giá tiêu dùng

Dữ liệu thứ cấp là thông tin về giá và chỉ số giá tiêu dùng của Cục Thống kêThành phố Hồ Chí Minh qua các năm 2017, 2018 và 2019; Niên giám Thống kêThành phố Hồ Chí Minh qua các năm 2017, 2018, 2019 và 2022

1.7 Những đóng góp mới của luận án

Về mặt lý thuyết:

Xây dựng phương pháp tiếp cận mới trong việc thu thập thông tin thống kê,một trong những bước quan trọng nhất trong quá trình bảy bước sản xuất thông tinthống kê

Về mặt thực tiễn:

Phương pháp thu thập thông tin theo dữ liệu lớn sẽ giúp cải thiện chất lượng

dữ liệu đầu vào do giảm các sai số chọn mẫu và phi chọn mẫu, giảm công sức vàchi phí thu thập thông tin, tiết kiệm thời gian;

Trang 25

1.8 Kết cấu của nghiên cứu

Luận án gồm 5 chương như sau:

Chương 1 Giới thiệu về đề tài: Lý do nghiên cứu và tính cấp thiết của đề tài;

Mục tiêu nghiên cứu của luận án và câu hỏi nghiên cứu; Đối tượng, phạm vi,phương pháp và nguồn dữ liệu nghiên cứu; Ý nghĩa của đề tài

Chương 2 Cơ sở lý thuyết và tổng quan các nghiên cứu trước có liên quan đến đề tài: Tổng quan các lý thuyết về chỉ số giá, dữ liệu lớn, mô hình hồi quy

Hedonic, tổng quan các nghiên cứu trong và ngoài nước có liên quan đến đề tài

Chương 3 Phương pháp nghiên cứu và quy trình nghiên cứu: Quy trình

nghiên cứu, nghiên cứu định tính, nghiên cứu định lượng, mô hình hồi quyHedonic

Chương 4 Kết quả và thảo luận: Tổng quan về Thành phố Hồ Chí Minh, các

yếu tố tác động đến giá máy tính xách tay, phân tích các kết quả tính toán chỉ số giátiêu dùng

Chương 5 Kết luận và hàm ý chính sách: Kết luận, khuyến nghị, hạn chế của

đề tài, hướng nghiên cứu tiếp theo

Danh mục tài liệu tham khảo

Phụ lục

Trang 26

và ở Việt Nam Chương này cũng sẽ tổng hợp các nghiên cứu trong và ngoài nước liên quan đến luận án Cuối cùng, tác giả đưa ra khoảng trống của vấn đề nghiên cứu và các hướng nghiên cứu của đề tài.

2.1 Cơ sở lý thuyết về giá và chỉ số giá

2.1.1 Khái niệm về giá và chỉ số giá

Một quan hệ trao đổi khi tiền tệ đã phát sinh sẽ tạo nên sự ra đời của giá cảhàng hóa Như vậy giá cả xuất hiện ngay từ khi khoa kinh tế học ra đời, mà ban đầuđược gọi là kinh tế chính trị học Phạm trù giá cả xuất hiện và phát triển gắn liềnvới sự phát triển của nền kinh tế hàng hóa và cùng với đó là sự hoàn thiện của nhànước Để giải quyết vấn đề mà nhà kinh tế học David Ricardo đưa ra là xem đốitượng nghiên cứu của kinh tế chính trị học là sự tạo nên và phân phối tổng sảnphẩm quốc gia giữa các nhóm hay các giai cấp trong xã hội, các nhà lý thuyết tạithời điểm đó đều phải nghiên cứu để giải quyết việc xác định giá cả (hay giá trị)của các nguồn lực và sản phẩm trên thị trường Về sau, các thế hệ nghiên cứu tiếptheo lại ngày càng quan tâm đến vấn đề giá trị và giá cả Những nỗ lực nghiên cứuliên tục và rất đa dạng, bắt đầu từ tư tưởng của Karl Marx đến Leon Walras Đếncuối thế kỷ XIX, kinh tế học ngày càng đi sâu vào phát triển các kỹ thuật và tậptrung các lý luận để phân tích các thị trường cụ thể nhằm tìm kiếm lời giải chonguồn gốc của giá cả Đó là lý do kinh tế học đã phát triển theo chiều hướng màngày nay chúng ta gọi là kinh tế học vi mô (vì vậy trước đây kinh tế học vi mô cómột tên gọi khác, cũ hơn là lý thuyết giá cả) Theo quan điểm của các nhà kinh tếhọc cổ điển do Adam Smith (1937) khai sinh và được David Ricardo, phát triển thì

Trang 27

giá cả là biểu hiện bằng tiền của giá trị hàng hóa David Ricardo (1973) thì chorằng giá dựa trên số lượng lao động cần thiết để tạo ra hàng hóa bao gồm cả cáckhoản chi phí bổ sung như chi phí phân phối

Kinh tế học tân cổ điển là một trường phái kinh tế học có trọng tâm nghiêncứu là cơ chế quyết định giá cả Đỉnh cao trong các nghiên cứu về giá của giai đoạnnày được tập hợp lại trong các công trình của Afred Marshall Alfred Marshall tiếpthu các lý luận của Ricardo, bổ sung thêm bằng các lý luận về thỏa dụng và tínhthỏa dụng cận biên được phát triển trước đó bởi John Stuart Mill, William StanleyJevons, Carl Menger và Leon Walras Marshall (1920) định nghĩa giá cả mà ngườimua sẵn sàng trả để có được hàng hóa phụ thuộc đồng thời vào ước muốn sở hữuhàng hóa đó của họ và chi tiêu mà họ dành cho việc đó Ông đã giải thích cơ chếquyết định giá cả bởi sự giao nhau của hai đường cung cấp và đường nhu cầu Ông

đã đem kỹ thuật phân tích cân bằng bộ phận vào kinh tế học tân cổ điển TheoMarshall: cần phân biệt việc xác định giá ở ngắn hạn và dài hạn Ở ngắn hạn, cầuthị trường có tác động rất mạnh đến giá trong khi ở dài hạn, giá cả được điều chỉnhchủ yếu dựa vào chi phí sản xuất với giả thiết về cạnh tranh Để nghiên cứu giá cả,cần phải sử dụng một công cụ cơ bản là khái niệm về độ co giãn

Lý thuyết giá cả là thuật ngữ được Stigler và các nhà kinh tế học khác sửdụng vào giữa thế kỷ trước để biểu thị sự cải tiến của họ đối với lý thuyết giá trịnhư lý thuyết xác định giá khai thác (Stigler and Boulding, 1952; Stigler, 1946;Bain, 1972) Một đặc điểm nổi bật của lý thuyết giá là thừa nhận sự đa dạng củacác loại cạnh tranh hoặc thiếu cạnh tranh, ảnh hưởng đến việc xác định giá, cùngvới việc tập trung vào các yếu tố xác định loại cạnh tranh áp dụng ở các thị trường

cụ thể

Theo quan điểm của các nhà kinh tế thị trường hiện đại thì giá cả là sự biểuhiện bằng tiền của giá trị và giá trị sử dụng của hàng hóa, đồng thời cũng biểu thịmột cách tổng hợp các mối quan hệ trong nền kinh tế quốc dân

Trang 28

Chỉ số giá là thước đo mức độ thay đổi tương đối của giá cả, bao gồm mộtdãy số được sắp xếp để so sánh các giá trị giữa hai thời kỳ hoặc giữa hai địa điểmbất kỳ Chỉ số giá giúp chúng ta thấy được mức thay đổi bình quân về giá giữa cácthời kỳ hoặc mức chênh lệch bình quân về giá giữa các địa phương Các chỉ số giálần đầu tiên được sử dụng để đo lường những thay đổi trong chi phí sinh hoạt, qua

đó xác định được mức tăng lương cần thiết để duy trì mức sống không đổi khi giá

cả hàng hóa tăng lên Sau đó, chỉ số giá tiếp tục được sử dụng rộng rãi để ước tính

sự thay đổi của giá cả theo thời gian và cũng được sử dụng để đo lường sự khácbiệt về chi phí sinh hoạt giữa các khu vực hoặc giữa các quốc gia khác nhau trênthế giới Vũ Thị Thu Thủy (2015) đã phân tổ giá theo 3 nhóm chính là giá sản xuất,giá hàng hóa giao dịch với nước ngoài và giá tiêu dùng

Khi tính toán các chỉ tiêu chủ yếu của hệ thống tài khoản quốc gia (SNA),một thuật ngữ thường được đề cập đến là giá Căn cứ vào quá trình hoạt động sảnxuất và phân phối sản phẩm vật chất và sản phẩm dịch vụ, yếu tố chi phí, thuế, trợcấp sản xuất, phí lưu thông, giá được phân ra các loại: giá cơ bản, giá sản xuất vàgiá sử dụng Theo Tổng cục Thống kê (2018), nội dung chi tiết các loại giá nhưsau:

Giá cơ bản là số tiền người sản xuất nhận được do bán hoặc cung cấp mộtđơn vị sản phẩm vật chất hoặc sản phẩm dịch vụ sản xuất ra thị trường, cộng (+) trợcấp sản xuất, trừ (-) thuế sản phẩm Giá cơ bản không bao gồm phí vận tải đượcngười sản xuất ghi hóa đơn riêng Giá cơ bản không bao gồm bất kỳ loại thuế nàođánh vào sản phẩm, nhưng bao gồm các loại trợ cấp sản xuất (trợ cấp sản phẩm vàtrợ cấp sản xuất khác) Giá cơ bản đo lường khoản tiền người sản xuất được hưởng

và là mức giá sát thực nhất liên quan đến quyết định của người sản xuất

Giá sản xuất là số tiền người sản xuất nhận được do bán hoặc cung cấp mộtđơn vị sản phẩm vật chất hoặc dịch vụ sản xuất ra thị trường trừ thuế giá trị giatăng (VAT) được khấu trừ người mua phải trả Giá sản xuất không bao gồm chi phí

Trang 29

"Chỉ số giá tiêu dùng là chỉ tiêu tương đối (tính bằng %) phản ánh xu hướng

và mức độ biến động giá theo thời gian của các mặt hàng trong rổ hàng hóa và dịch

vụ tiêu dùng đại diện" (Tổng cục Thống kê, 2018) “Quyền số để tính chỉ số giátiêu dùng là cơ cấu chi tiêu các nhóm mặt hàng trong tổng chi tiêu của hộ gia đìnhđược tổng hợp từ kết quả điều tra mức sống dân cư và dùng cố định khoảng 5 năm”(Tổng cục Thống kê, 2018) Chỉ số giá tiêu dùng đo lường tốc độ thay đổi giá củamột rổ hàng hóa và dịch vụ cụ thể từ một khoảng thời gian này sang khoảng thờigian khác, có thể là tháng, quí, 6 tháng, năm Như vậy, để tính chỉ số giá tiêu dùng,các cơ quan thống kê quốc gia phải thu thập dữ liệu giá cả và số lượng cho nhiềuloại hàng hóa và dịch vụ Hiện nay hầu như tất cả các cơ quan thống kê quốc giatrên thế giới đều triển khai các chương trình thu thập dữ liệu giá tiêu dùng hàngtháng đều đặn, tạo cơ sở cho việc tính toán chỉ số giá tiêu dùng Ngoài ra, để ướctính sự thay đổi giá so với thời kỳ gốc (có sử dụng quyền số hay còn gọi là trọngsố), các cơ quan thống kê quốc gia phải thu thập được dữ liệu về cơ cấu chi tiêu của

Trang 30

hộ gia đình Thông thường dữ liệu này được thực hiện bởi cuộc điều tra khảo sátmức sống dân cư mà hầu hết các cơ quan thống kê quốc gia đều thực hiện trong cáckhoảng thời gian không đều đặn (Beegle et al., 2016)

Hầu hết các cơ quan thống kê quốc gia sử dụng chỉ số Laspeyres cơ sở cốđịnh và cách tiếp cận tổng hợp theo nhiều giai đoạn để tính chỉ số giá tiêu dùng(United Nations, 2009) Chỉ số Laspeyres tính toán sự thay đổi giữa hai thời kỳtrong tổng số tiền mua một rổ hàng hóa và dịch vụ tiêu dùng phổ biến Theo ILO,

sử dụng chỉ số Laspeyres có thể có các ưu điểm là dễ hiểu và dễ giải thích cho mọingười; được thu thập từ kết quả khảo sát hộ gia đình hoặc nguồn dữ liệu hành chínhtại kỳ gốc, phương pháp sử dụng chỉ số này được dùng trong một thời gian dài thay

vì phải cập nhật dữ liệu mới hàng tháng (ILO, 2004)

Ngoài ra, ILO cũng nhận định thêm: một lợi thế đáng chú ý khác làLaspeyres nhất quán trong việc tổng hợp số liệu, từ mức trên cùng xuống mức tổnghợp thấp nhất Chỉ số có thể được chia thành các tập hợp con có liên quan đến nhaumột cách đơn giản Tuy khái niệm Laspeyres khá đơn giản, nhưng để triển khaitrong thực tế cho việc tính toán một chỉ số Laspeyres thích hợp cũng có nhiều khókhăn (ILO, 2004) Do đó, có một số nội dung, các cơ quan thống kê phải tính toánmột cách tương đối, thay vì phải thu thập tất cả mọi mức giá giao dịch cho từngnhóm hàng hóa, thông thường các cơ quan thống kê chỉ thu thập giá cả của mộtmẫu đại diện ở các cửa hàng Chỉ số tổng hợp cơ bản được tính toán dựa trên côngthức không có quyền số và các chỉ số này sẽ đại diện cho mỗi nhóm 100.000 sảnphẩm khi tính toán chỉ số Laspeyres ở mức cao hơn Mặc dù quy trình hai giai đoạnnày không thật sự hoàn toàn phù hợp với phương pháp Laspeyres (trong từng giaiđoạn tích hợp đều đòi hỏi phải có trọng số) Mitchell (1927) và Knibbs (1924) lànhững người đầu tiên nghiên cứu phương pháp này

2.1.3 Ứng dụng của chỉ số giá tiêu dùng

Để có thể hoạch định chính sách và đo lường kết quả hoạt động kinh tế mộtcách hiệu quả, một trong những yếu tố đầu vào cần thiết là phải có một chỉ số giá

Trang 31

đáng tin cậy và chính xác Khi mới ra đời, chỉ số giá tiêu dùng chủ yếu dùng đểtính toán việc tăng lương do có sự thay đổi về chi phí sinh hoạt của người lao động,tuy nhiên theo thời gian, mục đích sử dụng của chỉ số giá tiêu dùng đã được mởrộng ra rất nhiều Chính phủ sử dụng chỉ số giá tiêu dùng như là một công cụ đểthực hiện các chính sách tiền tệ và tài khóa, ngành thống kê sử dụng chỉ số giá tiêudùng làm công cụ giảm phát trong tài khoản quốc gia để ước tính tốt hơn nhữngthay đổi về tăng trưởng kinh tế trong thực tế (ILO, 2013; Phạm Thị Hằng vàNguyễn Phương Anh, 2020) Ngoài ra, chỉ số giá tiêu dùng được sử dụng rộng rãinhư một chỉ báo kinh tế vĩ mô về lạm phát Ngày nay, với quá trình toàn cầu hóa và

tự do hóa thị trường, chính phủ các quốc gia, các ngân hàng trung ương, các tổchức quốc tế và người dùng tin rất chú trọng đến chỉ số giá tiêu dùng và đánh giáchất lượng của chỉ số giá tiêu dùng ở ba khía cạnh chính: chất lượng, độ chính xác

Năm 2012 tổ chức ILO đã tiến hành khảo sát 169 quốc gia (ILO, 2013) vớimột số kết quả chính sau: Về mục đích sử dụng chính của chỉ số giá tiêu dùng, 96%các nước sử dụng chỉ số giá tiêu dùng để tính toán tỷ lệ lạm phát phục vụ cho việcban hành các chính sách tiền tệ; 91% các nước sử dụng chỉ số giá tiêu dùng để phục

vụ cho việc tính toán chỉ số tiền lương, lương hưu và chi trả an sinh xã hội; 88%các nước sử dụng chỉ số giá tiêu dùng để phục vụ cho việc tính chỉ số tiền thuê, hợpđồng và các khoản thanh toán khác Ngoài ra các nước cũng sử dụng chỉ số giá tiêu

Trang 32

dùng để tính toán giảm phát chi tiêu hộ gia đình trong tài khoản quốc gia; tính toánsức mua của các hộ gia đình và xây dựng các mô hình kinh tế vĩ mô, các ứng dụngphân tích khác Berry và cộng sự (2019) đã tiến hành một nghiên cứu thu thập vàtổng hợp thông tin thống kê giá cho 196 nền kinh tế Nghiên cứu đã đưa ra một sốkết luận như khoảng thời gian tham chiếu sử dụng các quyền số chỉ số giá tiêudùng là một chỉ số về độ tin cậy và độ chính xác của dữ liệu Các nền kinh tế cóquyền số chỉ số giá tiêu dùng được cập nhật trong vòng 5 năm chiếm tỷ lệ 45%trong tất cả các nền kinh tế; 38% các nền kinh tế cập nhật quyền số trong khoảngthời gian từ 6-10 năm; 14% các nền kinh tế cập nhật quyền số trong khoảng thờigian từ 11-15 năm; còn lại 3% là trên 15 năm Về việc phổ biến thông tin thống kê,tính kịp thời rất quan trọng đối với tất cả số liệu thống kê, đặc biệt là chỉ số giá tiêudùng, nó là chìa khóa cho tính hữu ích và mức độ liên quan của dữ liệu Trong thờigian qua, hầu hết các quốc gia đều cố gắng rút ngắn thời gian phổ biến số liệu vềchỉ số giá tiêu dùng Khoảng 86% (169/196) các nền kinh tế biên soạn và phổ biếnchỉ số giá tiêu dùng hàng tháng và công bố trong vòng bốn tuần sau khoảng thờigian tham chiếu

Bảng 2.1 Tổng hợp đánh giá chỉ số giá tiêu dùng ở các nước

Nguồn: Tính toán của chuyên gia IMF; các khu vực tô màu làm nổi bật các thông

lệ quốc tế tốt nhất (Berry et al., 2019)

Trang 33

Để có được bức tranh cụ thể và chi tiết hơn về công tác thu thập, tính toán

và phổ biến chỉ số giá tiêu dùng tại các quốc gia trên thế giới, nghiên cứu sẽ trìnhbày chi tiết các giai đoạn sản xuất thông tin giá tại các quốc gia: Hoa Kỳ, Anh, Úc,Nhật Bản và Nam Phi, là những nước đại diện cho các Châu lục và có công tácthống kê chính thức phát triển, ổn định

2.1.4.1 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại HoaKỳ

Ở Hoa Kỳ, chỉ số giá tiêu dùng được định nghĩa là thước đo sự thay đổitrung bình theo thời gian của giá cả được người tiêu dùng khu vực thành thị trả tiềncho một rổ hàng hóa và dịch vụ tiêu dùng cố định trên thị trường và cơ quan chịutrách nhiệm tính toán và công bố là Cục Thống kê Lao động Chỉ số giá tiêu dùngđược công bố theo định kỳ hàng tháng và thời gian tham chiếu của chỉ số là giaiđoạn 1982-1984 Chỉ số giá tiêu dùng ở Hoa Kỳ được sử dụng cho các mục đíchnhư tính chỉ số tiền lương, lương hưu, các khoản chi trả an sinh xã hội, tính chỉ sốtiền thuê nhà, chi trả hợp đồng, các khoản thanh toán khác Phạm vi địa lý củaquyền số chi tiêu và thu thập giá tập trung ở khu vực thành thị Kết quả điều tra chitiêu hộ gia đình được sử dụng để tính quyền số chỉ số giá tiêu dùng và được cậpnhật hai năm một lần Chỉ số giá tiêu dùng ở Hoa Kỳ được thu thập và công bốhàng tháng, một số hàng hóa đặc biệt như may mặc và bảo dưỡng, chăm sóc y tế,

đồ đạc và hoạt động gia đình thu thập hai tháng một lần Dữ liệu chỉ số giá tiêudùng được công bố khoảng hai tuần sau tháng tham chiếu Về việc xử lý sự khácbiệt về chất lượng, Cục Thống kê Lao động sử dụng nhiều phương pháp để tính đến

sự thay đổi chất lượng, xác định giá trên cơ sở đơn vị (tính đến sự thay đổi về kíchthước, số lượng), các điều chỉnh được cung cấp bởi nhà sản xuất và phân tích hồiquy Hedonic được sử dụng để điều chỉnh chất lượng cho các mặt hàng như quần

áo, điện tử và thiết bị gia dụng (ILO, 2012)

Trang 34

2.1.4.2 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại Anh

Ở Anh, Văn phòng Thống kê quốc gia không sử dụng khái niệm chỉ số giátiêu dùng mà khái niệm này được gọi là chỉ số giá bán lẻ (RPI), là thước đo lạmphát lâu đời nhất ở Anh Tổ chức chịu trách nhiệm công bố RPI là Văn phòngThống kê quốc gia Thông thường chỉ số giá tiêu dùng ở Anh được sử dụng để tínhchỉ số tiền lương, lương hưu, chi trả an sinh xã hội, lập chỉ số tiền thuê nhà, cáckhoản thanh toán hợp đồng và các khoản thanh toán khác, tính toán sức mua củacác hộ gia đình, lập mô hình kinh tế vĩ mô và cho các mục đích phân tích khác.Phạm vi địa lý của quyền số chi tiêu và thu thập giá ở Anh là như nhau, trải đềutrong toàn quốc Về bảng phân loại, chỉ số giá tiêu dùng ở Anh sử dụng bảng phânloại riêng là bảng phân loại theo RPI Về nguồn của quyền số chỉ số giá tiêu dùng,Anh cũng sử dụng kết quả điều tra chi tiêu hộ gia đình để tính quyền số Quyền số

và mẫu được cập nhật hàng năm Hầu hết các mặt hàng được thu thập hàng tháng;những mặt hàng mà người ta biết rằng giá chỉ thỉnh thoảng thay đổi được thu thậphàng quý Sự khác biệt về chất lượng được xử lý qua một loạt các phương phápđiều chỉnh chất lượng được sử dụng bao gồm điều chỉnh chi phí tùy chọn, điềuchỉnh một biến số và điều chỉnh chất lượng bằng hồi quy Hedonic (ILO, 2012).2.1.4.3 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại Úc

Chỉ số giá tiêu dùng Úc là một thước đo chung về lạm phát giá cả cho toàn

bộ khu vực hộ gia đình Chỉ số giá tiêu dùng đo lường sự thay đổi trung bình theothời gian của giá phải trả cho một giỏ hàng hóa và dịch vụ cố định Chỉ số giá tiêudùng ở Úc được công bố định kỳ hàng quý Quyền số chỉ số giá tiêu dùng đượctính ở các thành phố chính, các khu vực đô thị Để phân tổ chỉ số giá tiêu dùng, Úc

sử dụng bảng phân loại coicop Nguồn để tính quyền số chỉ số giá tiêu dùng ở Úc là

từ điều tra chi tiêu hộ gia đình, tài khoản quốc gia, điều tra dân số và ngành, dữ liệucủa chính phủ, tổ chức tài chính và dữ liệu hành chính với tần suất cập nhật là trên

5 năm Giá của hầu hết hàng hóa và dịch vụ được thu thập một lần mỗi quý với sốlượng quan sát khoảng 100.000 mặt hàng Sự khác biệt về chất lượng giữa sản

Trang 35

phẩm mới và sản phẩm thay thế được xử lý bởi các nhà phân tích và thu thập giá tạitrụ sở chính bằng nhiều phương pháp Hồi quy Hedonic được sử dụng trong trườnghợp máy tính cá nhân (ILO, 2012)

2.1.4.4 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại NhậtBản

Chỉ số giá tiêu dùng của Nhật Bản được tính toán để đo lường một cách toàndiện sự biến động giá cả của hàng hóa và dịch vụ mà các hộ chi tiêu trên toàn quốctheo chuỗi thời gian Tổ chức chịu trách nhiệm tính toán và công bố chỉ số giá tiêudùng là Văn phòng Thống kê Nhật Bản Định kỳ thu thập và công bố chỉ số giá tiêudùng ở Nhật Bản là hàng tháng với thời kỳ tham chiếu của chỉ số: 2010 = 100 Chỉ

số giá tiêu dùng được công bố vào lúc 8 giờ 30 sáng thứ sáu của tuần và vào ngày

26 hàng tháng Số liệu công bố là chỉ số của tháng trước cho cả nước Về bảngphân loại, Nhật Bản sử dụng bảng phân loại coicop và tính toán quyền số dựa trênkết quả điều tra chi tiêu hộ gia đình, với tần suất cập nhật là 2-5 năm Để xử lýnhững khác nhau về chất lượng, phương pháp chi phí tùy chọn được áp dụng cho ô

tô, điều chỉnh số lượng nếu có, và các chỉ số mô hình hồi quy Hedonic cho máyảnh kỹ thuật số và máy tính cá nhân (ILO, 2012)

2.1.4.5 Việc áp dụng phương pháp tính chỉ số giá tiêu dùng truyền thống tại NamPhi

Ở Nam Phi, chỉ số giá tiêu dùng được định nghĩa là một chỉ số kinh tế và xãhội hiện tại được xây dựng để đo lường sự thay đổi theo thời gian về mức giáchung của hàng hóa và dịch vụ tiêu dùng mà các hộ gia đình mua, sử dụng hoặc trảtiền cho dịch vụ Tổ chức chịu trách nhiệm thu thập, tính toán và công bố chỉ số giátiêu dùng ở Nam Phi là Cục Thống kê Nam Phi Nam Phi công bố chỉ số giá tiêudùng định kỳ hàng tháng và sử dụng phân loại coicop Nguồn số liệu để tính quyền

số chỉ số giá tiêu dùng là dựa vào khảo sát chi tiêu hộ gia đình với tần suất cập nhậtquyền số là 3-5 năm một lần Ở Nam Phi, không xử lý điều chỉnh chất lượng khi có

sự khác biệt về chất lượng (ILO, 2012)

Trang 36

2.1.5 Phương pháp tính chỉ số giá tiêu dùng truyền thống tại Việt Nam

Ở Việt Nam, để có thể tính và công bố được chỉ số giá tiêu dùng hàng tháng,quí, năm như hiện nay, ngành thống kê thực hiện cuộc điều tra giá tiêu dùng (Tổngcục Thống kê, 2015) với những nội dung chính trong phương án điều tra như sau:

Đơn vị điều tra là các sạp, quầy hàng tại các chợ, điểm bán hàng (chuyênbán lẻ), các cơ sở kinh doanh dịch vụ có địa điểm kinh doanh ổn định trong nhữngkhu vực điều tra đã được chọn mẫu Về phạm vi điều tra, cuộc điều tra được tiếnhành tại tất cả các tỉnh, thành phố trực thuộc Trung ương Thời điểm điều tra giátiêu dùng được chia ra làm 2 nhóm mặt hàng Nhóm thứ nhất chỉ điều tra một lầntrong tháng và sẽ điều tra vào ngày 10 hàng tháng; Nhóm thứ hai sẽ điều tra ba lầntrong tháng vào các ngày 1, 10, 20 hàng tháng Tổng số mặt hàng lấy giá là 654mặt hàng Số lượng cụ thể các mặt hàng theo từng kỳ và từng điểm điều tra nhưsau: có 126 mặt hàng lấy giá tại một đến ba nơi điều tra trong mỗi khu vực điều tra

và lấy 3 lần/tháng; có 50 mặt hàng lấy giá tại một đến ba nơi điều tra trong mỗi khuvực điều tra và lấy một lần/tháng; có 18 mặt hàng lấy giá tại một nơi điều tra trongmỗi khu vực điều tra và lấy ba lần/tháng; có 453 mặt hàng lấy giá tại một nơi điềutra trong mỗi khu vực điều tra và lấy một lần/tháng; có năm mặt hàng lấy giá tạimột nơi điều tra trong mỗi khu vực điều tra và lấy theo số lần phát sinh trong tháng

Về loại điều tra, đây là cuộc điều tra chọn mẫu, được thực hiện theo các bước sau:

Xây dựng dàn mẫu điều tra là danh mục mặt hàng đại diện, dựa vào danhmục điều tra giá tiêu dùng chung của cả nước, các tỉnh, thành phố trực thuộc Trungương tiến hành rà soát và xác định danh mục điều tra cụ thể cho địa phương củamình và danh mục này được dùng làm cơ sở để thu thập giá Danh mục điều tra giácủa địa phương phải đảm bảo hai tiêu chí sau một là phải có trong danh mục chungcủa cả nước; hai là phải đảm bảo hàng hóa và dịch vụ phổ biến tiêu dùng tại địaphương Một yêu cầu bắt buộc để thu thập được giá là phải mô tả chi tiết nhãn mác,chất lượng, quy cách, cụ thể các loại hàng hóa và dịch vụ trong danh mục điều tra.Ngoại trừ trong danh mục chuẩn, các hàng hóa và dịch vụ phải thống nhất nhãn

Trang 37

mác, chất lượng, quy cách trên phạm vi cả nước, các mặt hàng và dịch vụ còn lại cóthể được chọn theo đặc điểm tiêu dùng của từng tỉnh, thành phố do mỗi địa phương

có mức sống, đặc điểm vùng miền và tập quán tiêu dùng khác nhau

Thu thập giá kỳ gốc, sau khi tiến hành rà soát và xác định được danh mụchàng hóa và dịch vụ đại diện của tỉnh, thành phố; các tỉnh, thành phố sẽ tiến hànhlập bảng giá kỳ gốc

Quyền số tính chỉ số giá tiêu dùng là cơ cấu chi tiêu các nhóm hàng hóa vàdịch vụ trong tổng chi tiêu của hộ gia đình Quyền số để tính chỉ số giá tiêu dùngcủa Việt Nam là cơ cấu chi tiêu của từng vùng so với tổng chi tiêu của cả quốc giachia theo từng nhóm hàng Cấu trúc của chỉ số giá tiêu dùng được Tổng cục Thống

kê xây dựng luôn đảm bảo hai yêu cầu, một là đảm bảo tính liên tục của chuỗi chỉ

số giá tiêu dùng qua thời gian, hai là phải phù hợp với cơ cấu tiêu dùng của hộ giađình trong giai đoạn hiện tại Hiện nay chỉ số giá tiêu dùng có cấu trúc gồm cấpmột có 11 nhóm, cấp hai có 32 nhóm, cấp ba có 86 nhóm và cấp bốn có 266 nhóm

Công thức áp dụng tính chỉ số giá tiêu dùng, áp dụng công thức Laspeyres

bình quân nhân để tính chỉ số giá tiêu dùng thời kỳ 2014-2019

Từ phương án triển khai điều tra của Tổng cục Thống kê và thực tiễn thuthập thông tin giá tại địa phương, dựa vào nghiên cứu của Berry và cộng sự (2019)đưa ra các tiêu chí để đánh giá tính hợp lý của chỉ số giá tiêu dùng, có thể thấyphương pháp tính chỉ số giá tiêu dùng của Việt Nam phù hợp với thông lệ quốc tếtốt nhất

Tần suất cập nhật quyền số chỉ số giá tiêu dùng được thực hiện 5 năm mộtlần dựa vào cuộc điều tra khảo sát mức sống dân cư Tổng cục Thống kê công bốchỉ số giá tiêu dùng lần đầu vào năm 1998 với gốc so sánh là năm 1995 Năm 2001,Tổng cục Thống kê cập nhật quyền số chi tiêu dùng cuối cùng để tính chỉ số giátiêu dùng; năm gốc so sánh được chọn là năm 2000 Năm 2006, Tổng cục Thống

kê cập nhật quyền số để tính chỉ số giá tiêu dùng; năm gốc so sánh được chọn lànăm 2005 Tháng 10 năm 2009, Tổng cục Thống kê tiến hành cập nhật quyền số,

Trang 38

lấy năm 2009 làm năm gốc so sánh Quyền số dùng để tính chỉ số giá tiêu dùng chothời kỳ 2009-2014 được xây dựng từ kết quả của khảo sát mức sống hộ gia đình vàđiều tra quyền số chỉ số giá tiêu dùng năm 2008 Để tính quyền số phục vụ tính chỉ

số giá tiêu dùng thời kỳ 2015-2020, Tổng cục Thống kê đã thực hiện thu thập thôngtin tính quyền số chỉ số giá tiêu dùng từ cuộc “khảo sát mức sống dân cư và điều traquyền số chỉ số giá tiêu dùng năm 2014” Quyền số được thu thập và tính toán cho

cả khu vực thành thị và nông thôn phù hợp với phạm vi địa lý thu thập thông tingiá

Về tính kịp thời của việc công bố số liệu, chỉ số giá tiêu dùng của Việt Namđược công bố vào ngày 29 hàng tháng Chỉ số giá tiêu dùng được công bố bao gồmchỉ số giá tiêu dùng của cả nước, 6 vùng kinh tế và các tỉnh, thành phố trực thuộcTrung ương Về chi tiết, chỉ số giá tiêu dùng công bố bao gồm chỉ số giá chung, chỉ

số giá 11 nhóm hàng cấp một và chia theo khu vực thành thị, nông thôn

Về việc sử dụng các phân loại quốc tế, hiện nay Việt Nam đang sử dụngbảng phân loại coicop cho việc thu thập, tính toán và công bố chỉ số giá tiêu dùng.Bảng phân loại này phù hợp theo khuyến cáo của các tổ chức quốc tế

2.2 Cơ sở lý thuyết về dữ liệu lớn

2.2.1 Định nghĩa về dữ liệu lớn

Có rất nhiều định nghĩa khác nhau về dữ liệu lớn, Katal và cộng sự (2013)cho rằng dữ liệu lớn là một tập hợp dữ liệu đa dạng đòi hỏi công nghệ và kỹ thuậtmới để có thể nắm bắt, trích xuất giá trị, xử lý và phân tích Desouza và Smith(2014) định nghĩa dữ liệu lớn là các tập dữ liệu mở rộng hơn các kho dữ liệu đơn

lẻ, quá lớn và phức tạp để được xử lý bằng các công cụ xử lý và quản lý cơ sở dữliệu truyền thống, bao gồm thông tin như giao dịch, mạng xã hội, các thông tintrong doanh nghiệp, cảm biến và thiết bị di động Daas và cộng sự (2023) thì chorằng dữ liệu lớn thường là các tập dữ liệu (cực kỳ lớn) có thể chứa cả dữ liệu có cấutrúc và phi cấu trúc Khi được phân tích bằng máy tính, có thể khám phá các mô

Trang 39

dữ liệu, nó có thể được diễn tả sự gia tăng ở ba khía cạnh là dung lượng thông tin,vận tốc và chủng loại (Laney, 2001) Đến năm 2014, Gartner bổ sung thêm hai đặctrưng của dữ liệu lớn để hoàn chỉnh hơn khái niệm về dữ liệu và được sử dụng phổbiến khi định nghĩa về dữ diệu lớn, cụ thể là khối lượng dữ liệu (Volume); tốc độ

xử lý (Velocity); đa dạng (Variety); độ tin cậy, độ chính xác (Veracity); giá trịthông tin (Value) Dữ liệu lớn với những đặc trưng được thể hiện bởi năm chữ “V”

ở trên đã mở ra một hướng mới giúp cho dữ liệu kịp thời, thường xuyên, chi tiết vàhiệu quả hơn Điều này cho phép các nhà hoạch định chính sách có được đánh giá,

dự báo về các hiện tượng kinh tế quan trọng, chẳng hạn như tăng trưởng GDP, tỷ lệthất nghiệp, tổng mức bán lẻ, lạm phát, qua đó sẽ góp phần cung cấp thông tin tốthơn về chính sách tài khóa và tiền tệ, đồng thời cũng cung cấp những cảnh báo sớm

về những vấn đề có khả năng phát sinh trong nền kinh tế (Armah, 2013; Askitasand Zimmerman, 2009; Banbura et al., 2010; Choi and Varian, 2009a and 2009b;Galbraith and Tkacs, 2013; Khan, 2012; McLaren and Shanbhogue, 2011; Wu andBrynjoflsson, 2009) Dữ liệu lớn cũng giúp giải quyết hạn chế là số liệu thống kêchính thức được sử dụng cho nhiều quyết định chính sách chỉ có sẵn với độ trễ thờigian đáng kể, thiếu tính chi tiết và phân tách cần thiết (Manik and Albarda,2015) Từ khi các quốc gia tiến hành nghiên cứu sử dụng dữ liệu lớn trong việc dựbáo số liệu thống kê chính thức, các cơ quan thống kê quốc gia và quốc tế có rấtnhiều tranh luận xoay quanh các nội dung như vai trò của dữ liệu lớn trong côngtác thống kê chính thức; khi sử dụng dữ liệu lớn vào công tác thống kê chính thức,thì các nhà sản xuất dữ liệu lớn ở khu vực ngoài nhà nước sẽ xuất hiện, như vậy vaitrò của họ đối với số liệu thống kê chính thức như thế nào? (Karlbeg and Skaliotis,2013; Pierson, 2013; United Nations Global Pulse, 2012, 6/2013, 10/2013; UNSC,

Trang 40

2014) Dữ liệu lớn mang lại những thách thức và thay đổi lớn cho số liệu thống kêchính thức (Damin and Jinjing, 2014) Mariyah (2014) đã xác định những tháchthức về dữ liệu lớn đến từ các bước của phương pháp thống kê Những thách thức

về dữ liệu lớn cũng đến từ luật pháp, bảo mật, quyền riêng tư, lưu trữ, xử lý và truycập dữ liệu, yêu cầu kỹ năng và tài chính (Manik and Albarda, 2015) Bên cạnh đó,nhóm ủng hộ dữ liệu lớn cũng đưa ra nhiều lợi ích của việc thu thập thông tin từ dữliệu lớn như chi phí thấp, giảm áp lực cung cấp thông tin, dữ liệu kịp thời và chitiết, đồng thời nhóm ủng hộ cũng đưa ra nhiều giải pháp để giải quyết các rủi ro mànhóm phản đối nêu ra theo hướng sử dụng dữ liệu quản trị

Mặc dù cũng còn nhiều thách thức nhưng dữ liệu lớn vẫn được ứng dụngrộng rãi trong hầu hết các ngành, các lĩnh vực trên thế giới Các tổ chức trong bất

kỳ ngành nào có dữ liệu lớn đều có thể hưởng lợi từ việc phân tích cẩn thận dữ liệulớn để có được những hiểu biết theo chiều sâu để giải quyết các vấn đề thực tế(Intel IT Center, 2012) Manyika và cộng sự (2011) đã xác định tiềm năng của dữliệu lớn nằm trong năm chủ đề chính, một là y tế (hệ thống hỗ trợ quyết định lâmsàng, phân tích cá nhân áp dụng đối với hồ sơ bệnh nhân, phân tích mô hình bệnhtật, cải thiện sức khỏe cộng đồng); hai là lĩnh vực công (tạo ra sự minh bạch bằng

dữ liệu liên quan có thể truy cập, khám phá nhu cầu, cải thiện hiệu suất, tùy chỉnhhành động cho các sản phẩm và dịch vụ phù hợp, ra quyết định với các hệ thống tựđộng để giảm rủi ro, đổi mới sản phẩm và dịch vụ mới); ba là bán lẻ (phân tíchhành vi khách hàng, đa dạng và tối ưu hóa giá cả, thiết kế vị trí sản phẩm, cải thiệnhiệu suất, tối ưu hóa đầu vào lao động, thị trường); bốn là sản xuất (cải thiện dựbáo nhu cầu, lập kế hoạch chuỗi cung ứng, hỗ trợ bán hàng, phát triển hoạt độngsản xuất, ứng dụng dựa vào việc tìm kiếm trên web); và năm là dữ liệu vị trí cánhân (định tuyến thông minh, các mô hình kinh doanh mới)

2.2.2 Các ứng dụng dữ liệu lớn

Từ phần định nghĩa và những đặc điểm của dữ liệu lớn được trình bày ởtrên, có thể thấy rõ dữ liệu lớn là một chủ đề rất đa dạng và rộng rãi để nghiên cứu

Ngày đăng: 04/03/2024, 13:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w