Một nghiên cứu cho thấy việc tiến hành chọn giá trị thay thế giá hiện hành là phương pháp tốt nhất nhằm tối thiểu hóa sai số. Có hai tác động của phương pháp thay thế giá đối với chỉ số giá GEKSJ được tính toán từ giá mặt hàng thu thập thông qua công cụ Web scrapper, đó là khác biệt nhỏ trong chỉ số và giảm sự biến động bất thường do tác động của việc mất giá.
THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP PHƯƠNG PHÁP THAY THẾ GIÁ ĐƯỢC TRÍCH XUẤT TỪ TRANG WEB Matthew Mayhew Tóm tắt: Mất giá vấn đề tiêu giá, tiêu tính tốn từ nguồn liệu giá thu thập nhờ cơng cụ trích xuất liệu (Web scraper), tìm cách giải hiệu vấn đề điều cần thiết Imputation phương pháp giúp khắc phục tình trạng giá, có nhiều kỹ thuật khác lựa chọn Một nghiên cứu cho thấy việc tiến hành chọn giá trị thay giá hành phương pháp tốt nhằm tối thiểu hóa sai số Có hai tác động phương pháp thay giá số giá GEKSJ tính tốn từ giá mặt hàng thu thập thông qua công cụ Web scrapper, khác biệt nhỏ số giảm biến động bất thường tác động việc giá Giới thiệu Cơ quan Thống kê Anh (ONS) tiến hành thử nghiệm tính tốn số giá dựa thông tin giá hàng thu thập từ trang web bán hàng công cụ Web scraper ngày, số tính tốn đặn phương pháp tính số giá tiêu dùng (CPI) truyền thống Một số loại giá thu thập, nguyên nhân sản phẩm bị hết hàng, khơng thể trích xuất liệu giá mặt hàng đó, tương tự với trường hợp bất thường tính tốn CPI truyền thống Những giá bị gây ảnh hưởng tới số việc tính tốn các số khơng Có hai cách giải vấn đề trên, bỏ mặt hàng bị giá khỏi mẫu điều tra kể với ngày có liệu giá để tính tốn tiêu, cách hiểu việc làm phù hợp mẫu, cách khác thay giá bị Bài viết tập trung vào phương pháp thay giá bị (Imputation) để giải vấn đề giá, đồng thời khai thác nhiều phương pháp thay khác nhau, đánh giá ảnh hưởng phương pháp thay đến số giá đưa khuyến nghị Các phƣơng pháp thay giá (Imputation methods) Có nhiều phương pháp thay giá khác nhau, nhiên số có phương pháp kiểm định, là: (1) Thay giá hành giá thời điểm liền trước thời điểm hành (2) Phân loại giá trị trung bình theo cửa hàng theo loại mặt hàng, sử dụng: (a)Trung bình cộng 18 (b) Trung bình nhân 0,1 bảng nghiêm trọng so với mặt hàng có giá 50 bảng, cần tính sai số tương đối phương pháp thay giá, công thức tính: (c) Trung bình điều hòa Trong đó: C phân loại, chẳng hạn cửa hàng mặt hàng (3) Gán tỷ lệ: Lấy bình quân tốc độ phát triển mặt hàng nhân với giá mặt hàng thời điểm liền trước: (a)Trung bình cộng (b) Trung bình nhân Sai số tương đối sử dụng để xác định phương pháp thay giá tối ưu Ví dụ: Giả sử sai số mặt hàng có giá 0,5 bảng 0,2 mặt hàng 50 bảng 0,002, phương pháp thay giá ảnh hưởng tới số giá mặt hàng thứ nhiều số giá mặt hàng thứ hai Hướng sai số quan trọng sai số nghiêng hẳn nhóm mặt hàng hồn tồn khơng tốt Ví dụ giá thay rộng so với giá thu thập số tính từ giá thu thập có khả cao so với số tính từ giá thay Mục tiêu tìm phương pháp thay tối thiểu hóa sai số tương đối, cho kết ước lượng tốt giá bị Giá trị tuyệt đối sai số tương đối, tức lấy giá trị tuyệt đối sai số tương đối cần kiểm tra Nghiên cứu mô (c) Trung bình điều hòa Nhược điểm phương pháp xuất sai số kết quả, sai số giá mặt hàng i thời điểm t tính theo cơng thức: Ví dụ sai số giá 0,5 bảng, ảnh hưởng sai số đến mặt hàng có giá Để tìm phương pháp tối thiểu hóa sai số tương đối, phương pháp sau sử dụng: (1) Tìm kiếm vùng trích xuất liệu khơng có giá bị mất; (2) Bỏ mẫu giá; (3) Thay giá; (4) Tính bình qn sai số tương đối Lấy hai tập liệu chuỗi liệu giá theo thời gian, với điều kiện chuỗi thời gian khơng có giá bị Thời gian hai tập liệu chuỗi liệu giá bao gồm ba tuần tiến hành thu thập tập liệu đầu tiên, từ ngày 01/6/2014 đến ngày 22/6/2014, tuần tiến hành thu thập tập 19 liệu thứ hai từ thời điểm thời kỳ trích xuất liệu, từ ngày 12/02/2015 đến ngày 12/3/2015 Tập liệu gồm 3.989 sản phẩm, tập liệu thứ gồm 3.599 sản phẩm Vì tập liệu có khoảng 100.000 giá nên mẫu chọn 10% tương ứng 10.000 giá Số giá bị loại mặt hàng nhóm cửa hàng tính dựa theo phương pháp phân bổ mẫu theo tỷ lệ, trì cấu trúc giá bị liệu sở Điều có ý nghĩa mặt hàng có nhiều loại giá nhiều chủng loại thường dễ mua, nhiên mặt hàng hết hàng nhanh số lượng hàng dự trữ thường nhằm đa dạng chủng loại sản phẩm Sau thực thay thế, sai số tương đối việc thay tính tốn Tiếp theo tính tốn hai giá trị bình quân, bình quân trị tuyệt đối sai số tương đối |̅̅̅̅| RB , hai bình quân sai sai số tương phương pháp thay hai tập liệu Phương pháp thay có |̅̅̅̅| bình qn trị tuyệt đối sai số tương đối nhỏ giá với số sử dụng Phương pháp thay tốt thứ hai phụ thuộc vào công thức số, chuỗi ngày phương pháp tốc độ phát triển bình quân, với số GEKS phương pháp thay trung bình lớp, lớp tốt phụ thuộc vào thời gian Tuy nhiên, xu hướng chệch ảnh hưởng đến tốc độ tăng số rõ, đó, thơng qua quan sát hướng chệch, kết hợp sử dụng bình quân sai số tương đối, hỗ trợ tốt cho việc định lựa chọn phương pháp Hình điều Các kết tương tự bình quân sai số tương đối bình quân trị tuyệt đối sai số tương đối, độ lớn số tương đối ̅̅̅̅ Hai giá trị tính sai số tương đối khẳng định việc thay cho phương pháp thay giá, chuỗi ngày (Daily chain) số GEKS Hình cho thấy |̅̅̅̅| bình qn trị tuyệt đối khơng ảnh hưởng đến tốc độ tăng số giá trị làm tròn giống Hình 1: Bình qn trị tuyệt đối sai số tương đối Dữ liệu 1, chuỗi ngày 20 Dữ liệu 1, GEKS Dữ liệu 1, giá Dữ liệu 2, chuỗi ngày Dữ liệu 2, GEKS Dữ liệu 2, giá Hình 2: Bình quân sai số tương đối Dữ liệu 1, chuỗi ngày Dữ liệu 1, GEKS Dữ liệu 1, giá Dữ liệu 2, chuỗi ngày Dữ liệu 2, GEKS Dữ liệu 2, giá Trong Hình Hình 2: Phương pháp Inputation Bình quân tốc độ phát triển - cộng Trung bình phân lớp theo mặt hàng - nhân Bình quân tốc độ phát triển - nhân Trung bình phân lớp theo mặt hàng - điều hòa Bình qn tốc độ phát triển - điều hòa Trung bình phân lớp theo cửa hàng - cộng Tính chuyển Trung bình phân lớp theo cửa hàng - nhân Trung bình phân lớp theo mặt hàng - cộng Trung bình phân lớp theo cửa hàng - điều hòa Giải thích cho giá thay Hình cho thấy phân bổ thời gian trung bình thay đổi giá tập liệu trích xuất Thời gian bình qn thay đổi giá tính tổng mục giá hàng ngày/ số lượng giá thay đổi Hình khơng bao gồm mặt hàng xuất tập liệu 30 ngày Hình 3: Phân bố thời gian trung bình thay đổi giá, tồn mặt hàng, liệu thô từ tháng 6/2014 đến tháng 2/2016 Trung vị 120 ngày (màu xanh nước biển); trung bình 181 ngày (xanh cây) Hình cho thấy đa số loại giá không thay đổi thường xun, thực tế nhiều giá hồn tồn khơng thay đổi tập liệu Điều hỗ trợ thêm cho khuyến nghị thay giá trước Các khuyến nghị Với kỹ thuật thay giá tối ưu tìm tương ứng chức khác nhau, số khuyến nghị áp dụng tùy thuộc vào việc liệu giá thu thập từ hoạt động trích xuất liệu từ trang web có dùng để hỗ trợ cho 21 việc tính tốn số giá CPI tương lai hay khơng, tính tốn CPI phải tn theo quy tắc mà Cơ quan Thống kê châu Âu Eurostat Tổ chức lao động quốc tế ILO đưa Bảng cho thấy khuyến nghị với việc thay giai đoạn sở Bảng 1: Các khuyến nghị cho việc thay giá Thay Dữ liệu sử dụng để Chỉ dùng thống hỗ trợ tính tốn CPI kê thực nghiệm Giá Trung bình nhân tốc độ phát triển Thay Chuỗi hàng ngày Trung bình nhân tốc độ phát triển Thay GEKS Trung bình nhân phân lớp theo cửa hàng Thay Thay bao lâu? Thay giá cách tốt để giải vấn đề giá, giúp tăng tính ổn định cho cỡ mẫu suốt thời kỳ quan sát, thực tế sản phẩm đồng thời hết hàng thời kỳ cụ thể bổ sung thêm biến khỏi thị trường Vì thế, thiếu khơn ngoan tiếp tục thay giá trường hợp này, làm cho số cố định khiến cho số khơng đại diện cho biến động giá thực tế Để định số ngày phù hợp việc thay giá, số ngày giá quan sát tính tốn, đồng thời tính phân phối Gaussian - ước lượng hàm mật độ Kernel (KDE) phân bổ cho tất mặt hàng cho mặt hàng Hình cho thấy ước lượng mật độ Kernel KDE (Kernel density estimation) cho mặt hàng Hình cho thấy KDE tất mặt hàng tập liệu làm Quan sát phân bổ hình nhận thấy khác biệt, mật độ ngày cao ngày thấp ngày thứ Sự khác biệt ngày có nghĩa giá liên tục quan sát qua ngày Sau loại bỏ liệu giá quan sát liên tục hàng ngày trung bình số ngày giá quan sát 2,7 ngày, khuyến nghị nên thay giá ngày sau mặt hàng bị loại bỏ Nếu gián đoạn trích xuất liệu nhiều ngày liên tiếp tiếp tục thay việc trích xuất thực lại, trừ việc gián đoạn nhiều tuần dừng thay giá Hình cho thấy giá trị ngày ngày ngẫu nhiên, ngày tỷ lệ sản phẩm có giá bị 89% ngày 99%, việc tính cho tuần không bao gồm hầu hết biến Hình 4: Sự sai khác ngày KDE tất mặt hàng Mật độ Số ngày quan sát thực tế 22 Sự thay có ảnh Hình 5: Phần trăm sản phẩm theo số ngày giá hƣởng tới số? % Phần xem xét số GEKSJ, đóng vai trò tiêu bị ảnh hưởng việc thay thế, mà việc thay thực toàn thời gian thu thập Quan sát kết cho thấy, có hai loại ảnh hưởng khác nhau, bao gồm: Số ngày thiếu Quy tắc thay ngày khoảng trống trích xuất xác định cách quan sát số ngày xuất khoảng trống trích xuất liệu Ở Bảng ta thấy, phần lớn khoảng trống liệu tuần, việc thay tối đa ngày chấm dứt bất thường chuỗi số, nguyên nhân bất thường xuất phát từ giá bị Bảng 2: Độ dài khoảng trống trích xuất theo siêu thị từ tháng 6/2014 đến 04/2016 1 Các số tính tốn từ việc sử dụng liệu thay gần giống với số tính tốn liệu khơng phải liệu thay Các số tính tốn sử dụng liệu xử lý cách loại bỏ giá trị bất thường Độ dài khoảng trống (ngày) Siêu thị Sainsbury Tesco Waitrose Lab Failure 22 15 16 12 2 1 2 21 0 GEKSJ tính từ 1 0 làm sạch, việc 1 0 thay không làm thay đổi 26 0 34 1 1 Số lớn số liệu ba ngày khơng trích xuất liệu từ siêu thị Sainsbury khoảng trống thử nghiệm ba ngày phần khoảng trống dài trường hợp trích xuất liệu từ siêu thị Sainsbury làm trơn chuỗi Hình hai trường hợp2 mặt hàng đồ uống có cồn, số GEKSJ tính từ liệu thay gần giống với số liệu số Mặt khác, số mặt hàng thực phẩm đồ uống không cồn minh Khoảng trống chuỗi khoảng trống trích xuất lớn dẫn đến quy tắc thay có liệu thiếu 23 chứng cho trường hợp thứ hai, số tính từ khắp quốc gia, việc thay liệu không thay thường xuyên xuất đổi sản phẩm sẵn có bất thường Nguyên nhân số thực phẩm trang web phụ thuộc vào số tổng hợp bao gồm số cấp thấp hơn, sử dụng sản phẩm sẵn có địa quyền số từ Điều tra thực phẩm mức sống, quyền phương nơi người tiêu dùng số có tổng 1, khoảng ngắt quãng sinh sống nguyên nhân giá dẫn đến số, hậu tổng quyền số Việc thay giá giúp số không bị đi, tổng quyền số tốc độ tăng số hồn tồn thay đổi giá, khơng phải thay đổi mặt quyền số Từ việc thay giá người tiêu dùng hiểu lạm phát, có khoảng trống trích xuất họ mua sản phẩm từ trang web Đối với trường hợp tạm thời hết hàng, người tiêu dùng vùng khác mua sản phẩm siêu thị trích xuất liệu siêu thị có chuỗi cửa hàng Hình 6: Chỉ số GEKSJ thực phẩm, đồ uống có cồn Kết luận Tóm lại, sử dụng phương pháp thay giá phương pháp tốt việc giải vấn đề giá mặt hàng khơng sẵn có giỏ hàng hóa khoảng trống trích xuất liệu Điều có tác động thuận lợi tới số ngăn chặn biến động bất thường nguyên nhân quyền số thay đổi Phương pháp thay tốt tiến hành thay giá cho bình quân sai số tương đối nhỏ Bước thay giá dùng việc cập nhật nghiên cứu việc sử dụng liệu trích xuất từ trang web để tính số giá Minh Ánh (lược dịch) Nguồn: Imputing Web Scraped Prices, https://www.ons.gov.uk/econo my/inflationandpriceindices/met hodologies/imputingwebscrape dprices 24 ... tính từ giá thu thập có khả cao so với số tính từ giá thay Mục tiêu tìm phương pháp thay tối thiểu hóa sai số tương đối, cho kết ước lượng tốt giá bị Giá trị tuyệt đối sai số tương đối, tức lấy giá. .. Giải thích cho giá thay Hình cho thấy phân bổ thời gian trung bình thay đổi giá tập liệu trích xuất Thời gian bình quân thay đổi giá tính tổng mục giá hàng ngày/ số lượng giá thay đổi Hình khơng... số tốc độ tăng số hoàn toàn thay đổi giá, thay đổi mặt quyền số Từ việc thay giá người tiêu dùng hiểu lạm phát, có khoảng trống trích xuất họ mua sản phẩm từ trang web Đối với trường hợp tạm thời