1. Trang chủ
  2. » Giáo án - Bài giảng

Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng - Kinh nghiệm của Cơ quan Thống kê quốc gia Úc

9 44 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 276,77 KB

Nội dung

Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.

Trang 1

THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP

SỐ 03 – 2017 31

KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG

KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC

ThS Nguyễn Văn Thụy*

Tóm tắt:

Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước Thực

tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn

và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI) Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI

1 Lời giới thiệu

Big data có nhiều loại và hình thức khác

nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu

truyền thông xã hội, dữ liệu giao dịch, Dữ liệu

giao dịch được khai thác để biên soạn các thông

tin thống kê kinh tế, trong đó có chỉ số giá tiêu

dùng Thông tin của dữ liệu giao dịch thu thập

được từ các nhà bán lẻ chủ yếu thông qua các

giao dịch điện tử về mua bán hàng hóa tại thời

điểm giao dịch (mua bán) Dữ liệu giao dịch bao

gồm các thông tin chi tiết về doanh nghiệp như:

Tên doanh nghiệp, địa điểm giao dịch, ngày tháng,

số lượng, giá cả và doanh thu của hàng hóa được

giao dịch Dữ liệu này được dùng để ước lượng

giá trị đơn vị (giá đơn vị) và sự biến động về giá

của từng sản phẩm hàng hóa, đồng thời ước lượng

mức độ chi tiêu dùng đối với từng mặt hàng của

* Phó Viện trưởng Viện Khoa học Thống kê

doanh nghiệp Vì vậy dữ liệu giao dịch là một nguồn thông tin rất đa dạng và phong phú đối với công tác thống kê, đặc biệt là thống kê nhà nước Tiếp cận và truy cập được các files (tập tin) dữ liệu điện tử sẽ giúp các cơ quan thống kê giảm thiểu được chi phí thu thập thông tin cũng như giảm bớt được gánh nặng cho người cung cấp thông tin trong quá trình thu thập thông tin thống kê

Điều này đặc biệt có ý nghĩa trong việc nâng cao tính đại diện của mẫu trong rổ hàng hóa tính CPI Dữ liệu giao dịch sẽ cho phép khắc phục được những nhược điểm về khái niệm cũng như sự thay đổi về giá trong quá trình xác định giá của hàng hóa được giao dịch Về mặt lý thuyết, để xây dựng và tính toán được chỉ số giá tiêu dùng một cách chính xác và hiệu quả, các nhà thống kê giá phải ghi chép tất cả các mức giá của từng loại

Trang 2

32

hàng hóa và dịch vụ tại thời điểm mà ngườ

dùng mua Do đó, việc sử dụng dữ liệu giao d

sẽ thu thập được thông tin của nhiều hàng hóa c

nhiều nhà bán lẻ hơn so với dữ liệu thu thập đư

từ phương pháp truyền thống điều tra tại địa bàn

Hơn nữa, dữ liệu giao dịch chứa nhiều thông tin v

số lượng và doanh thu của hàng hóa được giao

dịch, nên có thể được sử dụng để tính toán m

chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ, m

lưu chuyển hàng hóa bán lẻ,

ABS bắt đầu thu thập các dữ liệu giao d

của các nhà cung cấp từ tháng 12 năm 2011 và

thực hiện nhiều công việc liên quan để tính ch

giá thông qua việc sử dụng các thông tin về giá và

mức chi tiêu của hàng hóa ABS đã sử

phương pháp lấy mẫu trực tiếp từ dữ liệu giao d

để thay thế cho việc lấy mẫu điều tra tại địa bàn

Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫu đ

thập thông tin về giá của khoảng 20.000 mặt hàng

hóa thay thế cho các mặt hàng trong rổ hàng hóa

của CPI Đồng thời, ABS đã phân tích và ch

minh được các thông tin về giá thu thập được t

liệu giao dịch hoàn toàn phù hợp với việc thông tin

phân tích thu thập được từ điều tra tại địa bàn

dụ, Hình 1 cho thấy chỉ số giá của nhóm hàng

thuốc lá và đồ uống có cồn được thu thập và tính

toán từ tháng 9/2012 đến tháng 3/2016

Phân tích số liệu trong giai đoạn từ

9/2012 đến tháng 3/2016 cho thấy, hai phương

pháp thu thập dữ liệu (truyền thống và dữ liệu giao

dịch) cho kết quả tương đối giống nhau: Chỉ s

của nhóm hàng thuốc lá và đồ uống có cồn tăng

của 2 phương pháp này tăng lần lượt là 23,6% và

23,9% (chênh lệch không đáng kể 0,3% trong giai

đoạn 3 năm) Đồng thời, xu hướng chỉ số giá c

nhóm hàng này cũng tăng cùng với xu hướng c

chỉ số giá chung CPI (22,5%)

SỐ 03 – 201

ời tiêu

u giao dịch

u hàng hóa của

p được

a bàn

u thông tin về

c giao tính toán một số

, mức

u giao dịch tháng 12 năm 2011 và

tính chỉ số giá và dụng

u giao dịch

a bàn

u để thu

t hàng hàng hóa

i, ABS đã phân tích và chứng

c từ dữ

c thông tin

a bàn Ví

a nhóm hàng

p và tính

tháng

y, hai phương

u giao

số giá

n tăng

t là 23,6% và 0,3% trong giai giá của

ng của

Hình 1: Chỉ số giá của nhóm hàng thuốc lá và

đồ uống có cồn1

Ghi chú:

Chỉ số giá chung (CPI) Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ phương pháp truyền thố Chỉ số giá của nhóm thuốc lá và đồ uống có cồn thu thập từ dữ liệu giao dịch

2 Những thách thức trong quá trình khai thác và ứng dụng dữ liệu giao dịch để biên so chỉ số giá tiêu dùng

Như đã trình bày ở trên, sử dụng dữ giao dịch để tổng hợp và biên soạn chỉ số giá tiêu dùng đã nhận được sự quan tâm đáng kể của các

cơ quan thống kê quốc gia trên thế giới Tuy nhiên,

do đặc điểm của dữ liệu giao dịch có khối lư rất lớn, tốc độ cập nhật thông tin cao, vì vậy vi chọn lọc thông tin để tính toán CPI gặp nhiều khó khăn và thách thức Các phương pháp nghiên c ứng dụng để tính CPI cần nghiên cứu kỹ và đư quốc tế công nhận Dưới đây là một số khó khăn

và thách thức, cũng như kinh nghiệm xử lý c ABS trong quá trình biên soạn CPI

1

Nguồn: Australia report 2016, Making greater use

of transactions data to compile the Consumer price Index, Australia

2017

c lá và

ng có ống

ng có

c trong quá trình khai

biên soạn

liệu giá tiêu

a các

i Tuy nhiên,

i lượng

y việc

u khó

c Các phương pháp nghiên cứu

và được khó khăn

lý của

n: Australia report 2016, Making greater use

of transactions data to compile the Consumer price

Trang 3

SỐ 03 – 2017 33

(1) Đảm bảo tính an toàn của dữ liệu

Một trong những thách thức lớn nhất của

ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ

liệu giao dịch phải được liên tục và kịp thời Để

giải quyết vấn đề này, nhiều cơ quan thống kê

quốc gia phải mua dữ liệu từ các công ty nghiên

cứu thị trường Ở một số nước, pháp luật cho

phép các cơ quan thống kê quốc gia có quyền

thu thập các thông tin từ các doanh nghiệp để

phục vụ cho mục đích thống kê Ở Australia, theo

quy định của pháp luật, ABS là cơ quan thống kê

quốc gia có quyền truy cập vào các dữ liệu giao

dịch để thu thập và khai thác thông tin từ các

doanh nghiệp Tuy nhiên, để đảm bảo an toàn,

ABS luôn phải chứng minh mục đích khai thác dữ

liệu phục vụ công tác thống kê và đàm phán với

nhà cung cấp về các điều khoản, nguyên tắc khai

thác và cung cấp dữ liệu

Việc đảm bảo an toàn của dữ liệu bao gồm:

Dữ liệu không bị phá hủy hay bị truy cập trái phép;

dữ liệu phải được bảo mật; dữ liệu luôn được kiểm

soát trong cả quá trình sử dụng Để đảm bảo quá

trình quản lý dữ liệu được an toàn, tùy từng đặc

tính của dữ liệu, ABS chia dữ liệu thành các nhóm:

- Dữ liệu được cất giữ trong các thiết bị lưu

trữ chuyên dụng (DAR: Data At-Rest), nhưng có

thể được trích xuất ra bộ nhớ tạm thời bất cứ khi

nào có yêu cầu

- Dữ liệu đang được xử lý (DIM: Data

In-Motion)

- Dữ liệu đang được sử dụng (DIU: Data

In-Use);

Bất cứ người sử dụng nào muốn truy cập

vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU,

đều phải được cấp quyền truy cập Đồng thời, ABS

đã xây dựng các quy định về chính sách đảm bảo

an toàn dữ liệu, trong đó quy định quyền cho phép truy cập và quyền bảo vệ dữ liệu; quyền cập nhật, hiệu đính và sửa chữa dữ liệu,

(2) Quản lý và phân loại dữ liệu

Quá trình tiếp nhận và quản lý các dữ liệu giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ thuật ABS đã nhìn thấy được các cơ hội để xây dựng và phát triển các cơ sở lưu trữ dữ liệu để có thể dễ dàng sử dụng và quản lý nhiều nguồn dữ liệu Big data với quan điểm “một lần thu thập, sử dụng nhiều lần” Tuy nhiên, việc này đồng nghĩa với việc chi phí đầu tư ban đầu lớn, chi phí cho quá trình vận hành để lưu trữ và duy trì và đảm bảo sự an toàn của các files dữ liệu cũng tương đối cao

Mã hóa và phân loại dữ liệu: Thông thường,

để quản lý các sản phẩm, doanh nghiệp thường

sử dụng mã vạch để nhận dạng và phân biệt các loại sản phẩm phục vụ công tác quản lý của doanh nghiệp Tuy nhiên, mã vạch lại quá chi tiết đối với mục đích thống kê Một thay đổi rất nhỏ của một số bản ghi hoặc một số thông tin mặc dù không ảnh hưởng đến lợi ích của người tiêu dùng, nhưng cũng dẫn đến làm thay đổi mã vạch Ví dụ, nếu một nguồn cung cấp dữ liệu của một cơ sở nào đó có sự thay đổi từ nước này sang nước khác sẽ dẫn đến việc thay đổi mã vạch của hàng hóa Hay một số nhà bán lẻ cung cấp các sản phẩm có cùng các thông số kỹ thuật từ các nhà sản xuất khác nhau, cũng có thể dẫn đến các mã vạch khác nhau Do đó, ABS không sử dụng mã vạch của sản phẩm để phân loại thông tin đối với

dữ liệu giao dịch Thay vào đó, ABS sử dụng mã quản lý nội bộ riêng, gọi là mã SKUs (Stock Keeping Units) Các mã SKUs nhóm các sản phẩm giống nhau lại thành một nhóm, mặc dù chúng có các mã vạch (barcode) khác nhau

Trang 4

34 SỐ 03 – 2017

Một trở ngại chính đối với mã hóa dữ liệu là

sắp xếp các nhóm sản phẩm theo mã SKUs để

phù hợp với các danh mục hàng hóa đã được

phân loại trong rổ hàng hóa CPI Mã SKUs không

phù hợp với các phân ngành thống kê Đây là một

quy trình đặc biệt, cần có chuyên môn sâu rộng

để sắp xếp và duy trì dữ liệu do khối lượng các mã

SKUs rất lớn và thường xuyên thay đổi Ví dụ: Dữ

liệu giao dịch được cung cấp cho ABS từ các nhà

bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với

250 mục hàng hóa cơ sở trong rổ hàng hóa CPI

Hiệu chỉnh và làm sạch dữ liệu, việc xác

định các dữ liệu sai để giải quyết và làm sạch dữ

liệu là rất khó, ngay cả khi đã phát hiện ra và trao

đổi với nhà cung cấp Đây là một trong những hạn

chế lớn của dữ liệu giao dịch ABS nhận thấy cần

phải giảm thiểu các rủi ro về sai sót của dữ liệu

thông qua các phương pháp hiệu đính hệ thống và

các thủ tục đảm bảo chất lượng dữ liệu Các files

dữ liệu phải được kiểm tra tự động và thủ công

một cách chặt chẽ trước khi bắt đầu quy trình sản

xuất số liệu thống kê Chẳng hạn, kiểm tra kích

thước các files dữ liệu và sự thay đổi định dạng

của dữ liệu để phát hiện những bất thường ở từng

file khi nhận được

(3) Đầu tư ban đầu cho quá trình vận hành

và quản lý dữ liệu giao dịch

Việc sử dụng dữ liệu giao dịch trong quá

trình biên soạn và tính toán CPI đã được cơ quan

thống kê quốc gia lựa chọn vì tiết kiệm được chi

phí do không phải tiến hành điều tra thu thập số

liệu tại địa bàn Tuy nhiên, việc đầu tư ban đầu và

các chi phí liên quan đến quá trình vận hành và

quản lý dữ liệu cần phải cân nhắc Để thực hiện

được việc này cần phải nỗ lực rất lớn từ nhiều yếu

tố, trong đó có vấn đề đầu tư chi phí ban đầu để

xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá trình xử lý và vận hành, khai thác dữ liệu ABS không chỉ đầu tư đơn thuần về hạ tầng công nghệ thông tin để đáp ứng yêu cầu khai thác và sử dụng

dữ liệu lớn phục vụ công tác thống kê, mà còn đầu

tư các chi phí liên quan đến cơ sở hạ tầng thống

kê nhằm xây dựng và phát triển hệ thống để tính toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm soát hệ thống đáp ứng được yêu cầu của các kết quả đầu ra một cách kịp thời hơn, chất lượng cao hơn và đặc biệt là dữ liệu an toàn hơn Dự kiến, trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu

tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ tầng, hệ thống và quy trình sản xuất số liệu thống

kê của ABS2 Việc sử dụng dữ liệu giao dịch để tính toán CPI có thể sẽ tiết kiệm chi phí hơn so với các nguồn dữ liệu truyền thống, do giảm thiểu được các chi phí cho hoạt động thu thập thông tin tại địa bàn và có thể bù đắp được các chi phí quản lý và đảm bảo chất lượng thông tin dữ liệu giao dịch ABS cũng hy vọng chi phí tiết kiệm được do sử dụng dữ liệu giao dịch sẽ bù đắp được cả các khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa xác định được chính xác

(4) Phương pháp tính toán

Kết hợp giữa dữ liệu giao dịch với điều tra thu thập thông tin tại địa bàn, nghiên cứu năm

2010 của ABS chỉ ra rằng thông tin dữ liệu giao dịch có thể được sử dụng đến 50% trong rổ hàng hóa tính CPI của nước này Tuy nhiên, đối với các

dữ liệu giao dịch đã thu thập được, hiện có sẵn không thể sử dụng được hoàn toàn 100% Vì vậy

2

Nguồn: http://www.abs.gov.au/websitedbs/Corporate.nsf /Home/government+investment+in+the+ABS

Trang 5

SỐ 03 – 2017 35

cần phải tiến hành và kết hợp với điều tra thu thập

số liệu tại địa bàn để biên soạn CPI

Vấn đề đặt ra là làm sao kết hợp giữa dữ

liệu giao dịch với dữ liệu thu thập được thông qua

điều tra tại địa bàn Thông tin từ dữ liệu giao dịch

bao gồm cả thông tin về số lượng và doanh thu

của từng loại mặt hàng, thông tin này cho phép

tính toán được các chỉ số cao nhất Số liệu thông

tin từ điều tra tại địa bàn không bao gồm những

thông tin về số lượng và doanh thu của các mặt

hàng, do đó yêu cầu phải sử dụng công thức tính

truyền thống để tính toán sự thay đổi, biến động về

giá Nếu những dữ liệu này kết hợp tại thời điểm

quan sát hoặc thu thập thông tin thì việc cần làm

chỉ đơn giản là loại bỏ thông tin về số lượng của

các mặt hàng thu thập được trong dữ liệu giao dịch

và áp dụng các công thức truyền thống

Xử lý vấn đề mẫu thu thập tại địa bàn, việc

thu thập các thông tin để tính toán và biên soạn

CPI theo phương pháp điều tra tại điện bàn tương

đối tốn kém về kinh phí và nhân lực Việc khai thác

dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm

thiểu được các chi phí trên Trong một số trường

hợp, dữ liệu giao dịch có thể cung cấp thông tin tin

cậy và phù hợp với một số nhóm sản phẩm thì

chúng ta có thể giảm bớt hoặc thậm chí loại bỏ

những phương pháp thu thập số liệu thủ công đối

với các mặt hàng này Tuy nhiên, cần phải có một

phương pháp để đánh giá xem các thông tin về giá

và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ

liệu này tương đồng với nhau hay không Từ đó

mới có thể quyết định được duy trì hay giảm bớt

các mẫu điều trong dàn mẫu của CPI để giảm

thiểu công tác thu thập thông tin tại địa bàn

Khắc phục sự thay đổi về chất lượng hàng

hóa và hàng hóa thay thế, trên thị trường hàng tiêu

dùng, hàng hóa luôn luôn thay đổi về chất lượng, hình dáng, kích thước và chủng loại Việc điều tra thu thập thông tin về giá tại địa bàn thường không phản ánh hết và không theo kịp những thay đổi của hàng hóa Do đó, những loại hàng hóa có giá mới, vẫn bị tính vào nhóm hàng hóa cũ Ngược lại,

có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ hàng hóa trong CPI Việc sử dụng dữ liệu giao dịch

để tính toán và biên soạn CPI cho thấy khắc phục rất tốt những nhược điểm này của phương pháp thu thập dữ liệu giá truyền thống do tính liên tục cập nhật thông tin của dữ liệu giao dịch

(5) Đối với cộng đồng người sử dụng

CPI được sử dụng cho nhiều mục đích, như: Phân tích và xây dựng các chính sách kinh tế, làm

cơ sở để tính và điều chỉnh tiền lương, lương hưu

và căn cứ để xây dựng các hợp đồng cá nhân,

Do đó, người sử dụng CPI luôn quan tâm đến các phương pháp tính toán và biên soạn CPI, đặc biệt những thay đổi trong phương pháp tính Việc áp dụng các phương pháp tính toán CPI phải có kế hoạch kỹ lưỡng và được thông báo rộng rãi Các

cơ quan thống kê quốc gia phải có đủ thời gian để chuẩn bị, thử nghiệm và kiểm tra các phương pháp mới và thông báo cho cộng đồng người sử dụng CPI về những thay đổi trong phương pháp tính Các cơ quan thống kê phải thông báo rộng rãi và giải thích cho người sử dụng và các bên liên quan hiểu rõ phương pháp tính toán CPI để người

sử dụng hiểu được giá trị và ý nghĩa thống kê đối với phương pháp mới; có được phản hồi của người

sử dụng về phương pháp xây dựng chỉ số giá Qua

đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao dịch vào biên soạn CPI

Trang 6

36 SỐ 03 – 2017

3 Phương pháp tính toán chỉ số giá tiêu dùng

Tổng quan về phương pháp tính toán CPI

của ABS

Dữ liệu giao dịch thu thập được từ các nhà

bán lẻ chủ yếu, được ABS sử dụng để tính toán

CPI theo quý bắt đầu từ tháng 1 năm 2014 ABS

sử dụng phương pháp lấy mẫu trực tiếp thu được

từ dữ liệu giao dịch để thay thế cho phương pháp

lấy mẫu thu thập dữ liệu từ địa bàn Khoảng

20.000 mặt hàng được lấy giá từ dữ liệu giao dịch

và thay thế cho các nhóm trong rổ hàng hóa để

tính toán CPI

Giá của mỗi mặt hàng từ dữ liệu giao dịch

được tính bằng cách lấy tổng doanh thu của từng

mặt hàng chia cho tổng số lượng mặt hàng đó đã

được bán Giá này được gọi là giá trị đơn vị (giá

đơn vị) của hàng hóa/sản phẩm và đại diện cho

giá thanh toán (giao dịch) của người mua trong 1

tuần hoặc 1 tháng Như vậy, giá đơn vị của hàng

hóa/sản phẩm là giá bình quân của hàng hóa

hoặc sản phẩm đó được người mua thanh toán

cho một thời kỳ (thường là tuần, tháng), không

phải là giá tại thời điểm mua Giá đơn vị hàng hóa

được thu thập từ một lượng lớn các cửa hàng kinh

doanh ở từng tỉnh, thành phố Giá đơn vị hàng hóa

thu được từ dữ liệu giao dịch được sử dụng để tính

toán và biên soạn chỉ số CPI theo danh mục chi

tiêu hàng hóa

Chọn và duy trì mẫu đại diện từ dữ liệu

giao dịch

Dữ liệu thu thập được từ bộ dữ liệu giao dịch

có chất lượng rất đa dạng và khác nhau tùy thuộc

vào các nhà cung cấp dữ liệu Các files dữ liệu có

chất lượng kém (đặc biệt là danh sách các sản

phẩm) rất khó xác định được chính xác các sản

phẩm phù hợp hoặc giống với các sản phẩm có sẵn trong danh mục hàng hóa để tính CPI Ví dụ, các hàng hóa bị trùng nhau do khác mã SKUs hoặc do mã SKUs của hàng bị loại không được loại ra mà vẫn tính vào danh mục hàng hóa để tính CPI Nhìn chung, ABS xác định được chính xác 80% các mặt hàng trong mẫu hàng hóa để tính toán CPI

Thành phần của rổ hàng hóa trong CPI phản ánh sự ưa thích tiêu dùng của hộ gia đình

Dữ liệu giao dịch cung cấp số lượng hàng hóa đã được bán của doanh nghiệp theo thời gian thực Thông tin về số lượng hàng đã bán của doanh nghiệp trước đây không được ABS thu thập trong quá trình tính toán CPI Tiếp cận được các thông tin này, cho phép ABS nâng cao được tính phù hợp/phổ biến của các sản phẩm để tính CPI Mỗi sản phẩm hoặc hàng hóa được lựa chọn trong mẫu để tính CPI đều được kiểm tra và đánh giá rất chặt chẽ theo từng quý về doanh thu và tính nhất quán Với những hàng hóa này, nếu quá trình kiểm tra phát hiện không đạt thì sẽ bị thay thế bằng các sản phẩm khác phù hợp từ một nhóm các hàng tương tự

Tính giá đơn vị

Một trong những ưu điểm của việc sử dụng

dữ liệu giao dịch là có nhiều lựa chọn về giá linh hoạt hơn so với phương pháp truyền thống điều tra tại địa bàn Lý tưởng nhất là lấy tối đa số lượng dữ liệu giao dịch để tính giá đơn vị Tuy nhiên, trong thực tế phương pháp này có nhược điểm là cần phải có thời gian để tính toán

Đối với các sản phẩm trước đây được xác định giá theo quý Giá đơn vị có thể được tính theo

5 cách sau:

Trang 7

SỐ 03 – 2017 37

(1) Xác định giá đơn vị dựa trên tháng giữa

của quý (thời gian này giống như phương pháp thu

thập số liệu tại địa bàn);

(2) Xác định giá đơn vị dựa trên 2 tháng đầu

tiên của quý;

(3) Xác định giá đơn vị dựa trên 2 tháng đầu

tiên của quý cộng với 2 tuần đầu của tháng thứ ba;

(4) Xác định giá đơn vị dựa trên 3 tháng

của quý;

(5) Xác định giá đơn vị dựa trên mức di

chuyển giá trung bình của 3 tháng (tính giá trung

bình từ giá của tháng cuối cùng của quý trước và

giá của 2 tháng đầu tiên của quý hiện tại)

Để đánh giá sự khác nhau giữa các phương

pháp tính giá, ABS quan sát mức độ chênh lệch

tuyệt đối của giá đơn vị của 5 phương pháp trên

Độ lệch của phần lớn các sản phẩm là rất nhỏ và

những thay đổi tương đối về giá của hàng hóa có

thể giải thích do chiết khấu sản phẩm Cách thứ ba

được lựa chọn vì điều này cho phép sử dụng tối đa

thời gian thu thập dữ liệu mà không làm ảnh hưởng

đến thời gian biên soạn số liệu

Xử lý vấn đề thay đổi về chất lượng hàng

hóa và sản phẩm mới xuất hiện

Đối với phương pháp điều tra truyền thống,

thu thập dữ liệu tại địa bàn, các điều tra viên có thể

dễ dàng phát hiện được sự thay đổi của hàng hóa

do mẫu điều tra nhỏ Tuy nhiên, đối với hình thức

thu thập thông tin sử dụng dữ liệu giao dịch, việc

phát hiện ra những thay đổi của từng loại hàng

hóa trong quá trình tính toán và biên soạn CPI là

không khả thi, do dữ liệu rất lớn Sự thay đổi về

hàng hóa chủ yếu là do: (1) Hàng hóa mới được

đưa vào mẫu tính giá (xuất hiện hàng hóa mới

thay thế cho hàng hóa cũ); (2) Hàng hóa có sự

thay đổi về lượng (như thay đổi về kích thước) và thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay đổi về lượng, nhưng không thay đổi mã hàng hóa Trường hợp thứ nhất là đơn giản nhất, chỉ cần tính giá hàng hóa của kỳ trước Trường hợp thứ hai và ba, do có yếu tố điều chỉnh về chất lượng hàng hóa dẫn đến sự thay đổi về số lượng hàng hóa ABS đã nghiên cứu phương pháp kết nối giữa những sản phẩm mới với sản phẩm bị biến mất trên thị trường Ví dụ, có một lô hàng thay đổi về kích thước thường sẽ dẫn đến thay đổi

về mã SKUs Quy trình kết nối sẽ sử dụng các thông tin về mô tả sản phẩm như: Giá, doanh thu, thời gian (xuất hiện và biến mất trên thị trường) và

số lượng hàng bán ra trên thị trường Quy trình này

sẽ giúp tìm được sản phẩm mới giống hoặc gần giống với sản phẩm cũ (nhưng khác về mã sản phẩm) và điều chỉnh sự thay đổi về số lượng Hàng hóa theo mùa vụ sẽ có sự biến động

về số lượng hàng hóa trên thị trường tùy theo từng mùa, vụ của hàng hóa đó trong năm Những thay đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng

và giá cả hàng hóa, do đó dẫn đến sự thay đổi về nhu cầu của người tiêu dùng trên thị thường Đối với các loại hàng hóa này, ABS quyết định lấy doanh thu lớn nhất (hoặc thời điểm bán tốt nhất) của hàng hóa của mỗi thời kỳ Phương pháp này

sẽ lựa chọn những hàng hóa đại diện nhất cho mỗi chu kỳ tính giá, đồng thời tránh được việc chọn hàng thanh lý (hàng loại) hoặc hàng không phù hợp, tùy theo ngưỡng doanh thu tối thiểu hàng tháng

Chọn giá cơ sở

Khi chuyển phương pháp tính CPI từ thu thập thông tin tại địa bàn sang phương pháp tính giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở

Trang 8

38 SỐ 03 – 2017

tính giá và sẽ ảnh hưởng tới mức giá của mẫu

điều tra Sự biến động về giá trong tháng 3 năm

2014 của hàng hóa trong dàn mẫu để tính CPI sẽ

được sử dụng để tính giá cơ sở khi áp dụng dữ

liệu giao dịch vào tính CPI Việc thay đổi cách tính

giá từ phương pháp lấy giá tại thời điểm điều tra

theo phương pháp truyền thống sang phương

pháp tính giá đơn vị sản phẩm không ảnh hưởng

đến sự thay đổi kết quả tính toán giá hàng hóa

Những cơ hội khác khi sử dụng dữ liệu

giao dịch

Việc sử dụng dữ liệu giao dịch cho phép

ABS kiểm tra và tính toán CPI thường xuyên và kịp

thời hơn trong tương lai Những người sử dụng CPI

có thể yêu cầu tính toán và cung cấp CPI hàng

tháng ở các vùng trong cả nước Dữ liệu giao dịch

sẵn có và cập nhật ở tần suất cao sẽ cho phép

các cơ quan thống kê dễ dàng thực hiện được các

mục tiêu tính toán CPI Dữ liệu giao dịch cũng có

thể giúp việc so sánh sự thay đổi về giá giữa các

khu vực thành thị và nông thôn, từ đó có thể cung

cấp thông tin quan trọng về việc CPI có cần thiết

phải tính toán trên phạm vi tất cả các khu vực trên

cả nước hay không? Hay chỉ cần tính cho các khu

vực thành thị?

ABS đã tiến hành các công việc để tiến

hành ứng dụng rộng rãi dữ liệu giao dịch đối với

thống kê nhà nước Các thông tin về doanh thu, số

lượng, giá cả hàng hóa là nguồn thông tin rất tiềm

năng phục vụ cho các mục đích thống kê kinh tế,

như: Điều tra bán lẻ hàng hóa, đo lường và xác

định các yêu tố chi tiêu dùng cuối cùng của hộ gia

đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ

sở dữ liệu điều tra chi tiêu hộ gia đình

4 Kết luận và khuyến nghị

Tiềm năng của dữ liệu giao dịch là nguồn

dữ liệu đầu vào quan trọng không thể bỏ qua đối với các cơ quan thống kê quốc gia, trong đó có Việt Nam Nguồn dữ liệu này có thể thay thế cho các nguồn dữ liệu truyền thống và có ảnh hưởng rất lớn đến phương thức sản xuất số liệu thống kê nhà nước trong tương lai Vì vậy, cần khuyến khích

và tiếp tục nghiên cứu, triển khai các biện pháp để tăng cường khả năng tiếp cận, truy cập, sử dụng

và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung

và dữ liệu giao dịch nói riêng vào công tác sản xuất số liệu thống kê một cách hiệu quả

Để thực hiện được vấn đề này, trước hết, cơ quan thống kê cần thí điểm sử dụng dữ liệu giao dịch để tính toán và biên soạn CPI Tuy nhiên, để khai thác được hết tính phong phú và đa dạng của

cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về phương pháp luận thống kê Mặc dù việc nghiên cứu phương pháp luận là rất quan trọng, nhưng đó mới là những thách thức ban đầu trong quá trình

sử dụng và khai thác dữ liệu này Việc trích xuất dữ liệu và thông tin từ dữ liệu giao dịch phục vụ cho sản xuất số liệu thống kê là việc làm không hề đơn giản Bài viết này đã đưa ra một số những khó khăn trong quá trình sử dụng dữ liệu giao dịch để biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác vẫn chưa được giải quyết một cách thỏa đáng cần tiếp tục nghiên cứu thêm

Đối với Thống kê Việt Nam, một trong những nhiệm vụ trọng tâm của Tổng cục Thống kê trong giai đoạn 2016-2021 là: Ứng dụng phương pháp thống kê tiên tiến, công nghệ thông tin và truyền thông Cụ thể là nghiên cứu, triển khai thí điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong sản xuất số liệu thống kê chính thức ở một số lĩnh

Trang 9

SỐ 03 – 2017 39

vực khả thi Nghiên cứu, khai thác và sử dụng dữ

liệu lớn nói chung, dữ liệu giao dịch nói riêng phục

vụ sản xuất số liệu thống kê nhà nước một cách có

hiệu quả, Tổng cục Thống kê cần thực hiện một số

nhiệm vụ sau:

Thứ nhất, Tiến hành nghiên cứu một cách

hệ thống về Big data, trong đó có dữ liệu giao dịch

Trước hết, thí điểm khai thác nguồn dữ liệu giao

dịch phục vụ sản xuất số liệu thống kê nhà nước

trong các lĩnh vực như: Thống kê giá, thống kê

thương mại,

Thứ hai, Nghiên cứu kinh nghiệm quốc tế về

phương pháp khai thác nguồn dữ liệu giao dịch

phục vụ thống kê nhà nước;

Thứ ba, Rà soát, đánh giá thực trạng các

văn bản pháp lý về sản xuất số liệu thống kê nhà

nước hiện nay; các văn bản pháp lý về ứng dụng,

khai thác dữ liệu giao dịch phục vụ sản xuất số liệu

thống kê nhà nước;

Thứ tư, Xây dựng và trình cấp có thẩm

quyền phê duyệt các văn bản pháp lý về khai thác

nguồn dữ liệu giao dịch phục vụ sản xuất số liệu

thống kê nhà nước;

Thứ năm, Khảo sát, đánh giá hạ tầng công

nghệ thông tin và đào tạo nguồn nhân lực về

phương pháp thống kê mới, về ứng dụng công nghệ thông tin trong khai thác dữ liệu giao dịch để sản xuất chỉ số giá tiêu dùng

Tài liệu tham khảo:

1 Khanh Moore (2014), Dữ liệu giao dịch:

Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc

gia Úc;

2 Tổng cục Thống kê (2017), Báo cáo

những nhiệm vụ trọng tâm của Tổng cục Thống kê

và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021;

3 Tổ chức Lao động quốc tế, Quỹ Tiền tệ quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ quan Thống kê châu Âu, Tổ chức Liên hợp quốc và

Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu

dùng: Từ lý thuyết đến thực tế;

4 Van der Grient, H.A (2010), Phương

pháp phân tích sự thay đổi của chỉ số giá khi áp dụng công thức tính giá RYGEKS, Cơ quan Thống

kê Hà Lan;

5 Van der Grient, H.A và de Haan, J

(2010), Sử dụng dữ liệu scanner từ siêu thị để tính

toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo

về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10 tháng 5 năm 2010

-Tiếp theo trang 48

Các quy trình lưu trữ quá nhiều, cả những

tài liệu có thành phần thống kê, và những quy tắc

chung, có thể áp dụng cho bất kỳ loại tổ chức nào,

được đề cập trong GSBPM, nhưng không bao gồm

trong Sản xuất liên quan đến các bộ phận khác

của GAMSO

Xem thêm Phụ lục tại địa chỉ:

https://statswiki.unece.org/pages/viewpage.action

?pageId=129172757

Anh Tuấn (dịch) Nguồn: https://statswiki.unece.org/pages/viewpage action?pageId=129171865, truy cập ngày

20/6/2017.

Ngày đăng: 13/01/2020, 11:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w