Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.
Trang 1THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP
SỐ 03 – 2017 31
KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG
KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC
ThS Nguyễn Văn Thụy*
Tóm tắt:
Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước Thực
tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn
và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI) Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI
1 Lời giới thiệu
Big data có nhiều loại và hình thức khác
nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu
truyền thông xã hội, dữ liệu giao dịch, Dữ liệu
giao dịch được khai thác để biên soạn các thông
tin thống kê kinh tế, trong đó có chỉ số giá tiêu
dùng Thông tin của dữ liệu giao dịch thu thập
được từ các nhà bán lẻ chủ yếu thông qua các
giao dịch điện tử về mua bán hàng hóa tại thời
điểm giao dịch (mua bán) Dữ liệu giao dịch bao
gồm các thông tin chi tiết về doanh nghiệp như:
Tên doanh nghiệp, địa điểm giao dịch, ngày tháng,
số lượng, giá cả và doanh thu của hàng hóa được
giao dịch Dữ liệu này được dùng để ước lượng
giá trị đơn vị (giá đơn vị) và sự biến động về giá
của từng sản phẩm hàng hóa, đồng thời ước lượng
mức độ chi tiêu dùng đối với từng mặt hàng của
* Phó Viện trưởng Viện Khoa học Thống kê
doanh nghiệp Vì vậy dữ liệu giao dịch là một nguồn thông tin rất đa dạng và phong phú đối với công tác thống kê, đặc biệt là thống kê nhà nước Tiếp cận và truy cập được các files (tập tin) dữ liệu điện tử sẽ giúp các cơ quan thống kê giảm thiểu được chi phí thu thập thông tin cũng như giảm bớt được gánh nặng cho người cung cấp thông tin trong quá trình thu thập thông tin thống kê
Điều này đặc biệt có ý nghĩa trong việc nâng cao tính đại diện của mẫu trong rổ hàng hóa tính CPI Dữ liệu giao dịch sẽ cho phép khắc phục được những nhược điểm về khái niệm cũng như sự thay đổi về giá trong quá trình xác định giá của hàng hóa được giao dịch Về mặt lý thuyết, để xây dựng và tính toán được chỉ số giá tiêu dùng một cách chính xác và hiệu quả, các nhà thống kê giá phải ghi chép tất cả các mức giá của từng loại
Trang 232
hàng hóa và dịch vụ tại thời điểm mà ngườ
dùng mua Do đó, việc sử dụng dữ liệu giao d
sẽ thu thập được thông tin của nhiều hàng hóa c
nhiều nhà bán lẻ hơn so với dữ liệu thu thập đư
từ phương pháp truyền thống điều tra tại địa bàn
Hơn nữa, dữ liệu giao dịch chứa nhiều thông tin v
số lượng và doanh thu của hàng hóa được giao
dịch, nên có thể được sử dụng để tính toán m
chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ, m
lưu chuyển hàng hóa bán lẻ,
ABS bắt đầu thu thập các dữ liệu giao d
của các nhà cung cấp từ tháng 12 năm 2011 và
thực hiện nhiều công việc liên quan để tính ch
giá thông qua việc sử dụng các thông tin về giá và
mức chi tiêu của hàng hóa ABS đã sử
phương pháp lấy mẫu trực tiếp từ dữ liệu giao d
để thay thế cho việc lấy mẫu điều tra tại địa bàn
Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫu đ
thập thông tin về giá của khoảng 20.000 mặt hàng
hóa thay thế cho các mặt hàng trong rổ hàng hóa
của CPI Đồng thời, ABS đã phân tích và ch
minh được các thông tin về giá thu thập được t
liệu giao dịch hoàn toàn phù hợp với việc thông tin
phân tích thu thập được từ điều tra tại địa bàn
dụ, Hình 1 cho thấy chỉ số giá của nhóm hàng
thuốc lá và đồ uống có cồn được thu thập và tính
toán từ tháng 9/2012 đến tháng 3/2016
Phân tích số liệu trong giai đoạn từ
9/2012 đến tháng 3/2016 cho thấy, hai phương
pháp thu thập dữ liệu (truyền thống và dữ liệu giao
dịch) cho kết quả tương đối giống nhau: Chỉ s
của nhóm hàng thuốc lá và đồ uống có cồn tăng
của 2 phương pháp này tăng lần lượt là 23,6% và
23,9% (chênh lệch không đáng kể 0,3% trong giai
đoạn 3 năm) Đồng thời, xu hướng chỉ số giá c
nhóm hàng này cũng tăng cùng với xu hướng c
chỉ số giá chung CPI (22,5%)
SỐ 03 – 201
ời tiêu
u giao dịch
u hàng hóa của
p được
a bàn
u thông tin về
c giao tính toán một số
, mức
u giao dịch tháng 12 năm 2011 và
tính chỉ số giá và dụng
u giao dịch
a bàn
u để thu
t hàng hàng hóa
i, ABS đã phân tích và chứng
c từ dữ
c thông tin
a bàn Ví
a nhóm hàng
p và tính
tháng
y, hai phương
u giao
số giá
n tăng
t là 23,6% và 0,3% trong giai giá của
ng của
Hình 1: Chỉ số giá của nhóm hàng thuốc lá và
đồ uống có cồn1
Ghi chú:
Chỉ số giá chung (CPI) Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ phương pháp truyền thố Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ dữ liệu giao dịch
2 Những thách thức trong quá trình khai thác và ứng dụng dữ liệu giao dịch để biên so chỉ số giá tiêu dùng
Như đã trình bày ở trên, sử dụng dữ giao dịch để tổng hợp và biên soạn chỉ số giá tiêu dùng đã nhận được sự quan tâm đáng kể của các
cơ quan thống kê quốc gia trên thế giới Tuy nhiên,
do đặc điểm của dữ liệu giao dịch có khối lư rất lớn, tốc độ cập nhật thông tin cao, vì vậy vi chọn lọc thông tin để tính toán CPI gặp nhiều khó khăn và thách thức Các phương pháp nghiên c ứng dụng để tính CPI cần nghiên cứu kỹ và đư quốc tế công nhận Dưới đây là một số khó khăn
và thách thức, cũng như kinh nghiệm xử lý c ABS trong quá trình biên soạn CPI
1
Nguồn: Australia report 2016, Making greater use
of transactions data to compile the Consumer price Index, Australia
2017
c lá và
ng có ống
ng có
c trong quá trình khai
biên soạn
liệu giá tiêu
a các
i Tuy nhiên,
i lượng
y việc
u khó
c Các phương pháp nghiên cứu
và được khó khăn
lý của
n: Australia report 2016, Making greater use
of transactions data to compile the Consumer price
Trang 3SỐ 03 – 2017 33
(1) Đảm bảo tính an toàn của dữ liệu
Một trong những thách thức lớn nhất của
ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ
liệu giao dịch phải được liên tục và kịp thời Để
giải quyết vấn đề này, nhiều cơ quan thống kê
quốc gia phải mua dữ liệu từ các công ty nghiên
cứu thị trường Ở một số nước, pháp luật cho
phép các cơ quan thống kê quốc gia có quyền
thu thập các thông tin từ các doanh nghiệp để
phục vụ cho mục đích thống kê Ở Australia, theo
quy định của pháp luật, ABS là cơ quan thống kê
quốc gia có quyền truy cập vào các dữ liệu giao
dịch để thu thập và khai thác thông tin từ các
doanh nghiệp Tuy nhiên, để đảm bảo an toàn,
ABS luôn phải chứng minh mục đích khai thác dữ
liệu phục vụ công tác thống kê và đàm phán với
nhà cung cấp về các điều khoản, nguyên tắc khai
thác và cung cấp dữ liệu
Việc đảm bảo an toàn của dữ liệu bao gồm:
Dữ liệu không bị phá hủy hay bị truy cập trái phép;
dữ liệu phải được bảo mật; dữ liệu luôn được kiểm
soát trong cả quá trình sử dụng Để đảm bảo quá
trình quản lý dữ liệu được an toàn, tùy từng đặc
tính của dữ liệu, ABS chia dữ liệu thành các nhóm:
- Dữ liệu được cất giữ trong các thiết bị lưu
trữ chuyên dụng (DAR: Data At-Rest), nhưng có
thể được trích xuất ra bộ nhớ tạm thời bất cứ khi
nào có yêu cầu
- Dữ liệu đang được xử lý (DIM: Data
In-Motion)
- Dữ liệu đang được sử dụng (DIU: Data
In-Use);
Bất cứ người sử dụng nào muốn truy cập
vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU,
đều phải được cấp quyền truy cập Đồng thời, ABS
đã xây dựng các quy định về chính sách đảm bảo
an toàn dữ liệu, trong đó quy định quyền cho phép truy cập và quyền bảo vệ dữ liệu; quyền cập nhật, hiệu đính và sửa chữa dữ liệu,
(2) Quản lý và phân loại dữ liệu
Quá trình tiếp nhận và quản lý các dữ liệu giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ thuật ABS đã nhìn thấy được các cơ hội để xây dựng và phát triển các cơ sở lưu trữ dữ liệu để có thể dễ dàng sử dụng và quản lý nhiều nguồn dữ liệu Big data với quan điểm “một lần thu thập, sử dụng nhiều lần” Tuy nhiên, việc này đồng nghĩa với việc chi phí đầu tư ban đầu lớn, chi phí cho quá trình vận hành để lưu trữ và duy trì và đảm bảo sự an toàn của các files dữ liệu cũng tương đối cao
Mã hóa và phân loại dữ liệu: Thông thường,
để quản lý các sản phẩm, doanh nghiệp thường
sử dụng mã vạch để nhận dạng và phân biệt các loại sản phẩm phục vụ công tác quản lý của doanh nghiệp Tuy nhiên, mã vạch lại quá chi tiết đối với mục đích thống kê Một thay đổi rất nhỏ của một số bản ghi hoặc một số thông tin mặc dù không ảnh hưởng đến lợi ích của người tiêu dùng, nhưng cũng dẫn đến làm thay đổi mã vạch Ví dụ, nếu một nguồn cung cấp dữ liệu của một cơ sở nào đó có sự thay đổi từ nước này sang nước khác sẽ dẫn đến việc thay đổi mã vạch của hàng hóa Hay một số nhà bán lẻ cung cấp các sản phẩm có cùng các thông số kỹ thuật từ các nhà sản xuất khác nhau, cũng có thể dẫn đến các mã vạch khác nhau Do đó, ABS không sử dụng mã vạch của sản phẩm để phân loại thông tin đối với
dữ liệu giao dịch Thay vào đó, ABS sử dụng mã quản lý nội bộ riêng, gọi là mã SKUs (Stock Keeping Units) Các mã SKUs nhóm các sản phẩm giống nhau lại thành một nhóm, mặc dù chúng có các mã vạch (barcode) khác nhau
Trang 434 SỐ 03 – 2017
Một trở ngại chính đối với mã hóa dữ liệu là
sắp xếp các nhóm sản phẩm theo mã SKUs để
phù hợp với các danh mục hàng hóa đã được
phân loại trong rổ hàng hóa CPI Mã SKUs không
phù hợp với các phân ngành thống kê Đây là một
quy trình đặc biệt, cần có chuyên môn sâu rộng
để sắp xếp và duy trì dữ liệu do khối lượng các mã
SKUs rất lớn và thường xuyên thay đổi Ví dụ: Dữ
liệu giao dịch được cung cấp cho ABS từ các nhà
bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với
250 mục hàng hóa cơ sở trong rổ hàng hóa CPI
Hiệu chỉnh và làm sạch dữ liệu, việc xác
định các dữ liệu sai để giải quyết và làm sạch dữ
liệu là rất khó, ngay cả khi đã phát hiện ra và trao
đổi với nhà cung cấp Đây là một trong những hạn
chế lớn của dữ liệu giao dịch ABS nhận thấy cần
phải giảm thiểu các rủi ro về sai sót của dữ liệu
thông qua các phương pháp hiệu đính hệ thống và
các thủ tục đảm bảo chất lượng dữ liệu Các files
dữ liệu phải được kiểm tra tự động và thủ công
một cách chặt chẽ trước khi bắt đầu quy trình sản
xuất số liệu thống kê Chẳng hạn, kiểm tra kích
thước các files dữ liệu và sự thay đổi định dạng
của dữ liệu để phát hiện những bất thường ở từng
file khi nhận được
(3) Đầu tư ban đầu cho quá trình vận hành
và quản lý dữ liệu giao dịch
Việc sử dụng dữ liệu giao dịch trong quá
trình biên soạn và tính toán CPI đã được cơ quan
thống kê quốc gia lựa chọn vì tiết kiệm được chi
phí do không phải tiến hành điều tra thu thập số
liệu tại địa bàn Tuy nhiên, việc đầu tư ban đầu và
các chi phí liên quan đến quá trình vận hành và
quản lý dữ liệu cần phải cân nhắc Để thực hiện
được việc này cần phải nỗ lực rất lớn từ nhiều yếu
tố, trong đó có vấn đề đầu tư chi phí ban đầu để
xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá trình xử lý và vận hành, khai thác dữ liệu ABS không chỉ đầu tư đơn thuần về hạ tầng công nghệ thông tin để đáp ứng yêu cầu khai thác và sử dụng
dữ liệu lớn phục vụ công tác thống kê, mà còn đầu
tư các chi phí liên quan đến cơ sở hạ tầng thống
kê nhằm xây dựng và phát triển hệ thống để tính toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm soát hệ thống đáp ứng được yêu cầu của các kết quả đầu ra một cách kịp thời hơn, chất lượng cao hơn và đặc biệt là dữ liệu an toàn hơn Dự kiến, trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu
tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ tầng, hệ thống và quy trình sản xuất số liệu thống
kê của ABS2 Việc sử dụng dữ liệu giao dịch để tính toán CPI có thể sẽ tiết kiệm chi phí hơn so với các nguồn dữ liệu truyền thống, do giảm thiểu được các chi phí cho hoạt động thu thập thông tin tại địa bàn và có thể bù đắp được các chi phí quản lý và đảm bảo chất lượng thông tin dữ liệu giao dịch ABS cũng hy vọng chi phí tiết kiệm được do sử dụng dữ liệu giao dịch sẽ bù đắp được cả các khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa xác định được chính xác
(4) Phương pháp tính toán
Kết hợp giữa dữ liệu giao dịch với điều tra thu thập thông tin tại địa bàn, nghiên cứu năm
2010 của ABS chỉ ra rằng thông tin dữ liệu giao dịch có thể được sử dụng đến 50% trong rổ hàng hóa tính CPI của nước này Tuy nhiên, đối với các
dữ liệu giao dịch đã thu thập được, hiện có sẵn không thể sử dụng được hoàn toàn 100% Vì vậy
2
Nguồn: http://www.abs.gov.au/websitedbs/Corporate.nsf /Home/government+investment+in+the+ABS
Trang 5SỐ 03 – 2017 35
cần phải tiến hành và kết hợp với điều tra thu thập
số liệu tại địa bàn để biên soạn CPI
Vấn đề đặt ra là làm sao kết hợp giữa dữ
liệu giao dịch với dữ liệu thu thập được thông qua
điều tra tại địa bàn Thông tin từ dữ liệu giao dịch
bao gồm cả thông tin về số lượng và doanh thu
của từng loại mặt hàng, thông tin này cho phép
tính toán được các chỉ số cao nhất Số liệu thông
tin từ điều tra tại địa bàn không bao gồm những
thông tin về số lượng và doanh thu của các mặt
hàng, do đó yêu cầu phải sử dụng công thức tính
truyền thống để tính toán sự thay đổi, biến động về
giá Nếu những dữ liệu này kết hợp tại thời điểm
quan sát hoặc thu thập thông tin thì việc cần làm
chỉ đơn giản là loại bỏ thông tin về số lượng của
các mặt hàng thu thập được trong dữ liệu giao dịch
và áp dụng các công thức truyền thống
Xử lý vấn đề mẫu thu thập tại địa bàn, việc
thu thập các thông tin để tính toán và biên soạn
CPI theo phương pháp điều tra tại điện bàn tương
đối tốn kém về kinh phí và nhân lực Việc khai thác
dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm
thiểu được các chi phí trên Trong một số trường
hợp, dữ liệu giao dịch có thể cung cấp thông tin tin
cậy và phù hợp với một số nhóm sản phẩm thì
chúng ta có thể giảm bớt hoặc thậm chí loại bỏ
những phương pháp thu thập số liệu thủ công đối
với các mặt hàng này Tuy nhiên, cần phải có một
phương pháp để đánh giá xem các thông tin về giá
và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ
liệu này tương đồng với nhau hay không Từ đó
mới có thể quyết định được duy trì hay giảm bớt
các mẫu điều trong dàn mẫu của CPI để giảm
thiểu công tác thu thập thông tin tại địa bàn
Khắc phục sự thay đổi về chất lượng hàng
hóa và hàng hóa thay thế, trên thị trường hàng tiêu
dùng, hàng hóa luôn luôn thay đổi về chất lượng, hình dáng, kích thước và chủng loại Việc điều tra thu thập thông tin về giá tại địa bàn thường không phản ánh hết và không theo kịp những thay đổi của hàng hóa Do đó, những loại hàng hóa có giá mới, vẫn bị tính vào nhóm hàng hóa cũ Ngược lại,
có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ hàng hóa trong CPI Việc sử dụng dữ liệu giao dịch
để tính toán và biên soạn CPI cho thấy khắc phục rất tốt những nhược điểm này của phương pháp thu thập dữ liệu giá truyền thống do tính liên tục cập nhật thông tin của dữ liệu giao dịch
(5) Đối với cộng đồng người sử dụng
CPI được sử dụng cho nhiều mục đích, như: Phân tích và xây dựng các chính sách kinh tế, làm
cơ sở để tính và điều chỉnh tiền lương, lương hưu
và căn cứ để xây dựng các hợp đồng cá nhân,
Do đó, người sử dụng CPI luôn quan tâm đến các phương pháp tính toán và biên soạn CPI, đặc biệt những thay đổi trong phương pháp tính Việc áp dụng các phương pháp tính toán CPI phải có kế hoạch kỹ lưỡng và được thông báo rộng rãi Các
cơ quan thống kê quốc gia phải có đủ thời gian để chuẩn bị, thử nghiệm và kiểm tra các phương pháp mới và thông báo cho cộng đồng người sử dụng CPI về những thay đổi trong phương pháp tính Các cơ quan thống kê phải thông báo rộng rãi và giải thích cho người sử dụng và các bên liên quan hiểu rõ phương pháp tính toán CPI để người
sử dụng hiểu được giá trị và ý nghĩa thống kê đối với phương pháp mới; có được phản hồi của người
sử dụng về phương pháp xây dựng chỉ số giá Qua
đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao dịch vào biên soạn CPI
Trang 636 SỐ 03 – 2017
3 Phương pháp tính toán chỉ số giá tiêu dùng
Tổng quan về phương pháp tính toán CPI
của ABS
Dữ liệu giao dịch thu thập được từ các nhà
bán lẻ chủ yếu, được ABS sử dụng để tính toán
CPI theo quý bắt đầu từ tháng 1 năm 2014 ABS
sử dụng phương pháp lấy mẫu trực tiếp thu được
từ dữ liệu giao dịch để thay thế cho phương pháp
lấy mẫu thu thập dữ liệu từ địa bàn Khoảng
20.000 mặt hàng được lấy giá từ dữ liệu giao dịch
và thay thế cho các nhóm trong rổ hàng hóa để
tính toán CPI
Giá của mỗi mặt hàng từ dữ liệu giao dịch
được tính bằng cách lấy tổng doanh thu của từng
mặt hàng chia cho tổng số lượng mặt hàng đó đã
được bán Giá này được gọi là giá trị đơn vị (giá
đơn vị) của hàng hóa/sản phẩm và đại diện cho
giá thanh toán (giao dịch) của người mua trong 1
tuần hoặc 1 tháng Như vậy, giá đơn vị của hàng
hóa/sản phẩm là giá bình quân của hàng hóa
hoặc sản phẩm đó được người mua thanh toán
cho một thời kỳ (thường là tuần, tháng), không
phải là giá tại thời điểm mua Giá đơn vị hàng hóa
được thu thập từ một lượng lớn các cửa hàng kinh
doanh ở từng tỉnh, thành phố Giá đơn vị hàng hóa
thu được từ dữ liệu giao dịch được sử dụng để tính
toán và biên soạn chỉ số CPI theo danh mục chi
tiêu hàng hóa
Chọn và duy trì mẫu đại diện từ dữ liệu
giao dịch
Dữ liệu thu thập được từ bộ dữ liệu giao dịch
có chất lượng rất đa dạng và khác nhau tùy thuộc
vào các nhà cung cấp dữ liệu Các files dữ liệu có
chất lượng kém (đặc biệt là danh sách các sản
phẩm) rất khó xác định được chính xác các sản
phẩm phù hợp hoặc giống với các sản phẩm có sẵn trong danh mục hàng hóa để tính CPI Ví dụ, các hàng hóa bị trùng nhau do khác mã SKUs hoặc do mã SKUs của hàng bị loại không được loại ra mà vẫn tính vào danh mục hàng hóa để tính CPI Nhìn chung, ABS xác định được chính xác 80% các mặt hàng trong mẫu hàng hóa để tính toán CPI
Thành phần của rổ hàng hóa trong CPI phản ánh sự ưa thích tiêu dùng của hộ gia đình
Dữ liệu giao dịch cung cấp số lượng hàng hóa đã được bán của doanh nghiệp theo thời gian thực Thông tin về số lượng hàng đã bán của doanh nghiệp trước đây không được ABS thu thập trong quá trình tính toán CPI Tiếp cận được các thông tin này, cho phép ABS nâng cao được tính phù hợp/phổ biến của các sản phẩm để tính CPI Mỗi sản phẩm hoặc hàng hóa được lựa chọn trong mẫu để tính CPI đều được kiểm tra và đánh giá rất chặt chẽ theo từng quý về doanh thu và tính nhất quán Với những hàng hóa này, nếu quá trình kiểm tra phát hiện không đạt thì sẽ bị thay thế bằng các sản phẩm khác phù hợp từ một nhóm các hàng tương tự
Tính giá đơn vị
Một trong những ưu điểm của việc sử dụng
dữ liệu giao dịch là có nhiều lựa chọn về giá linh hoạt hơn so với phương pháp truyền thống điều tra tại địa bàn Lý tưởng nhất là lấy tối đa số lượng dữ liệu giao dịch để tính giá đơn vị Tuy nhiên, trong thực tế phương pháp này có nhược điểm là cần phải có thời gian để tính toán
Đối với các sản phẩm trước đây được xác định giá theo quý Giá đơn vị có thể được tính theo
5 cách sau:
Trang 7SỐ 03 – 2017 37
(1) Xác định giá đơn vị dựa trên tháng giữa
của quý (thời gian này giống như phương pháp thu
thập số liệu tại địa bàn);
(2) Xác định giá đơn vị dựa trên 2 tháng đầu
tiên của quý;
(3) Xác định giá đơn vị dựa trên 2 tháng đầu
tiên của quý cộng với 2 tuần đầu của tháng thứ ba;
(4) Xác định giá đơn vị dựa trên 3 tháng
của quý;
(5) Xác định giá đơn vị dựa trên mức di
chuyển giá trung bình của 3 tháng (tính giá trung
bình từ giá của tháng cuối cùng của quý trước và
giá của 2 tháng đầu tiên của quý hiện tại)
Để đánh giá sự khác nhau giữa các phương
pháp tính giá, ABS quan sát mức độ chênh lệch
tuyệt đối của giá đơn vị của 5 phương pháp trên
Độ lệch của phần lớn các sản phẩm là rất nhỏ và
những thay đổi tương đối về giá của hàng hóa có
thể giải thích do chiết khấu sản phẩm Cách thứ ba
được lựa chọn vì điều này cho phép sử dụng tối đa
thời gian thu thập dữ liệu mà không làm ảnh hưởng
đến thời gian biên soạn số liệu
Xử lý vấn đề thay đổi về chất lượng hàng
hóa và sản phẩm mới xuất hiện
Đối với phương pháp điều tra truyền thống,
thu thập dữ liệu tại địa bàn, các điều tra viên có thể
dễ dàng phát hiện được sự thay đổi của hàng hóa
do mẫu điều tra nhỏ Tuy nhiên, đối với hình thức
thu thập thông tin sử dụng dữ liệu giao dịch, việc
phát hiện ra những thay đổi của từng loại hàng
hóa trong quá trình tính toán và biên soạn CPI là
không khả thi, do dữ liệu rất lớn Sự thay đổi về
hàng hóa chủ yếu là do: (1) Hàng hóa mới được
đưa vào mẫu tính giá (xuất hiện hàng hóa mới
thay thế cho hàng hóa cũ); (2) Hàng hóa có sự
thay đổi về lượng (như thay đổi về kích thước) và thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay đổi về lượng, nhưng không thay đổi mã hàng hóa Trường hợp thứ nhất là đơn giản nhất, chỉ cần tính giá hàng hóa của kỳ trước Trường hợp thứ hai và ba, do có yếu tố điều chỉnh về chất lượng hàng hóa dẫn đến sự thay đổi về số lượng hàng hóa ABS đã nghiên cứu phương pháp kết nối giữa những sản phẩm mới với sản phẩm bị biến mất trên thị trường Ví dụ, có một lô hàng thay đổi về kích thước thường sẽ dẫn đến thay đổi
về mã SKUs Quy trình kết nối sẽ sử dụng các thông tin về mô tả sản phẩm như: Giá, doanh thu, thời gian (xuất hiện và biến mất trên thị trường) và
số lượng hàng bán ra trên thị trường Quy trình này
sẽ giúp tìm được sản phẩm mới giống hoặc gần giống với sản phẩm cũ (nhưng khác về mã sản phẩm) và điều chỉnh sự thay đổi về số lượng Hàng hóa theo mùa vụ sẽ có sự biến động
về số lượng hàng hóa trên thị trường tùy theo từng mùa, vụ của hàng hóa đó trong năm Những thay đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng
và giá cả hàng hóa, do đó dẫn đến sự thay đổi về nhu cầu của người tiêu dùng trên thị thường Đối với các loại hàng hóa này, ABS quyết định lấy doanh thu lớn nhất (hoặc thời điểm bán tốt nhất) của hàng hóa của mỗi thời kỳ Phương pháp này
sẽ lựa chọn những hàng hóa đại diện nhất cho mỗi chu kỳ tính giá, đồng thời tránh được việc chọn hàng thanh lý (hàng loại) hoặc hàng không phù hợp, tùy theo ngưỡng doanh thu tối thiểu hàng tháng
Chọn giá cơ sở
Khi chuyển phương pháp tính CPI từ thu thập thông tin tại địa bàn sang phương pháp tính giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở
Trang 838 SỐ 03 – 2017
tính giá và sẽ ảnh hưởng tới mức giá của mẫu
điều tra Sự biến động về giá trong tháng 3 năm
2014 của hàng hóa trong dàn mẫu để tính CPI sẽ
được sử dụng để tính giá cơ sở khi áp dụng dữ
liệu giao dịch vào tính CPI Việc thay đổi cách tính
giá từ phương pháp lấy giá tại thời điểm điều tra
theo phương pháp truyền thống sang phương
pháp tính giá đơn vị sản phẩm không ảnh hưởng
đến sự thay đổi kết quả tính toán giá hàng hóa
Những cơ hội khác khi sử dụng dữ liệu
giao dịch
Việc sử dụng dữ liệu giao dịch cho phép
ABS kiểm tra và tính toán CPI thường xuyên và kịp
thời hơn trong tương lai Những người sử dụng CPI
có thể yêu cầu tính toán và cung cấp CPI hàng
tháng ở các vùng trong cả nước Dữ liệu giao dịch
sẵn có và cập nhật ở tần suất cao sẽ cho phép
các cơ quan thống kê dễ dàng thực hiện được các
mục tiêu tính toán CPI Dữ liệu giao dịch cũng có
thể giúp việc so sánh sự thay đổi về giá giữa các
khu vực thành thị và nông thôn, từ đó có thể cung
cấp thông tin quan trọng về việc CPI có cần thiết
phải tính toán trên phạm vi tất cả các khu vực trên
cả nước hay không? Hay chỉ cần tính cho các khu
vực thành thị?
ABS đã tiến hành các công việc để tiến
hành ứng dụng rộng rãi dữ liệu giao dịch đối với
thống kê nhà nước Các thông tin về doanh thu, số
lượng, giá cả hàng hóa là nguồn thông tin rất tiềm
năng phục vụ cho các mục đích thống kê kinh tế,
như: Điều tra bán lẻ hàng hóa, đo lường và xác
định các yêu tố chi tiêu dùng cuối cùng của hộ gia
đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ
sở dữ liệu điều tra chi tiêu hộ gia đình
4 Kết luận và khuyến nghị
Tiềm năng của dữ liệu giao dịch là nguồn
dữ liệu đầu vào quan trọng không thể bỏ qua đối với các cơ quan thống kê quốc gia, trong đó có Việt Nam Nguồn dữ liệu này có thể thay thế cho các nguồn dữ liệu truyền thống và có ảnh hưởng rất lớn đến phương thức sản xuất số liệu thống kê nhà nước trong tương lai Vì vậy, cần khuyến khích
và tiếp tục nghiên cứu, triển khai các biện pháp để tăng cường khả năng tiếp cận, truy cập, sử dụng
và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung
và dữ liệu giao dịch nói riêng vào công tác sản xuất số liệu thống kê một cách hiệu quả
Để thực hiện được vấn đề này, trước hết, cơ quan thống kê cần thí điểm sử dụng dữ liệu giao dịch để tính toán và biên soạn CPI Tuy nhiên, để khai thác được hết tính phong phú và đa dạng của
cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về phương pháp luận thống kê Mặc dù việc nghiên cứu phương pháp luận là rất quan trọng, nhưng đó mới là những thách thức ban đầu trong quá trình
sử dụng và khai thác dữ liệu này Việc trích xuất dữ liệu và thông tin từ dữ liệu giao dịch phục vụ cho sản xuất số liệu thống kê là việc làm không hề đơn giản Bài viết này đã đưa ra một số những khó khăn trong quá trình sử dụng dữ liệu giao dịch để biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác vẫn chưa được giải quyết một cách thỏa đáng cần tiếp tục nghiên cứu thêm
Đối với Thống kê Việt Nam, một trong những nhiệm vụ trọng tâm của Tổng cục Thống kê trong giai đoạn 2016-2021 là: Ứng dụng phương pháp thống kê tiên tiến, công nghệ thông tin và truyền thông Cụ thể là nghiên cứu, triển khai thí điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong sản xuất số liệu thống kê chính thức ở một số lĩnh
Trang 9SỐ 03 – 2017 39
vực khả thi Nghiên cứu, khai thác và sử dụng dữ
liệu lớn nói chung, dữ liệu giao dịch nói riêng phục
vụ sản xuất số liệu thống kê nhà nước một cách có
hiệu quả, Tổng cục Thống kê cần thực hiện một số
nhiệm vụ sau:
Thứ nhất, Tiến hành nghiên cứu một cách
hệ thống về Big data, trong đó có dữ liệu giao dịch
Trước hết, thí điểm khai thác nguồn dữ liệu giao
dịch phục vụ sản xuất số liệu thống kê nhà nước
trong các lĩnh vực như: Thống kê giá, thống kê
thương mại,
Thứ hai, Nghiên cứu kinh nghiệm quốc tế về
phương pháp khai thác nguồn dữ liệu giao dịch
phục vụ thống kê nhà nước;
Thứ ba, Rà soát, đánh giá thực trạng các
văn bản pháp lý về sản xuất số liệu thống kê nhà
nước hiện nay; các văn bản pháp lý về ứng dụng,
khai thác dữ liệu giao dịch phục vụ sản xuất số liệu
thống kê nhà nước;
Thứ tư, Xây dựng và trình cấp có thẩm
quyền phê duyệt các văn bản pháp lý về khai thác
nguồn dữ liệu giao dịch phục vụ sản xuất số liệu
thống kê nhà nước;
Thứ năm, Khảo sát, đánh giá hạ tầng công
nghệ thông tin và đào tạo nguồn nhân lực về
phương pháp thống kê mới, về ứng dụng công nghệ thông tin trong khai thác dữ liệu giao dịch để sản xuất chỉ số giá tiêu dùng
Tài liệu tham khảo:
1 Khanh Moore (2014), Dữ liệu giao dịch:
Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc
gia Úc;
2 Tổng cục Thống kê (2017), Báo cáo
những nhiệm vụ trọng tâm của Tổng cục Thống kê
và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021;
3 Tổ chức Lao động quốc tế, Quỹ Tiền tệ quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ quan Thống kê châu Âu, Tổ chức Liên hợp quốc và
Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu
dùng: Từ lý thuyết đến thực tế;
4 Van der Grient, H.A (2010), Phương
pháp phân tích sự thay đổi của chỉ số giá khi áp dụng công thức tính giá RYGEKS, Cơ quan Thống
kê Hà Lan;
5 Van der Grient, H.A và de Haan, J
(2010), Sử dụng dữ liệu scanner từ siêu thị để tính
toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo
về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10 tháng 5 năm 2010
-Tiếp theo trang 48
Các quy trình lưu trữ quá nhiều, cả những
tài liệu có thành phần thống kê, và những quy tắc
chung, có thể áp dụng cho bất kỳ loại tổ chức nào,
được đề cập trong GSBPM, nhưng không bao gồm
trong Sản xuất liên quan đến các bộ phận khác
của GAMSO
Xem thêm Phụ lục tại địa chỉ:
https://statswiki.unece.org/pages/viewpage.action
?pageId=129172757
Anh Tuấn (dịch) Nguồn: https://statswiki.unece.org/pages/viewpage action?pageId=129171865, truy cập ngày
20/6/2017.