Dữ liệu lớn (Big data) là chủ đề đang thu hút được sự quan tâm tại nhiều quốc gia trên thế giới với những lĩnh vực ứng dụng cụ thể như: chính trị, kinh tế, giao thông vận tải, y học, thống kê… Để hiểu rõ hơn về những ứng dụng Big data vào công tác thống kê của các cơ quan và tổ chức thống kê thế giới, bài viết sau giới thiệu về hai dự án thực tế khai thác loại dữ liệu này trong lĩnh vực thống kê giá mà Cơ quan thống kê quốc gia Anh (ONS) và Viện Thống kê và nghiên cứu Kinh tế quốc gia Pháp (INSEE) đã thực hiện thành công.
07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” ỨNG DỤNG BIG DATA TRONG THỐNG KÊ GIÁ CN.Nguyễn Thị Minh Ánh Phòng Nghiên cứu khoa học Chiến lược PTTK, Viện KHTK Dữ liệu lớn (Big data) chủ đề thu hút quan tâm nhiều quốc gia giới với lĩnh vực ứng dụng cụ thể như: trị, kinh tế, giao thông vận tải, y học, thống kê… Để hiểu rõ ứng dụng Big data vào công tác thống kê quan tổ chức thống kê giới, viết sau giới thiệu hai dự án thực tế khai thác loại liệu lĩnh vực thống kê Cơ quan thống kê quốc gia Anh (ONS) Viện Thống kê nghiên cứu Kinh tế quốc gia Pháp (INSEE) thực thành công Sử dụng công nghệ Web Scraper để khai thác nguồn liệu Big data phục vụ tính số CPI Sự tăng trưởng bán hàng trực tuyến năm gần đồng nghĩa với việc dịch vụ hàng hóa thơng tin giá liên quan tìm thấy thơng qua mạng Thơng tin số giá tiêu dùng CPI số giá bán lẻ RPI tiêu kinh tế quan trọng mà ONS đặc biệt quan tâm Với hỗ trợ công nghệ Web Scraper (cơng cụ phần mềm giúp trích xuất liệu từ trang web) với kỹ thuật trích xuất nội dung từ trang web (Web scraping) mang lại hội cho ONS thu thập liệu số mặt hàng dịch vụ cách tự động thay việc điều tra viên phải điều tra cửa hàng để thu thập số liệu Điều mang lại loạt lợi ích tiềm giảm bớt chi phí thu thập thơng tin, mở rộng phạm vi (ví dụ: nhiều danh mục hàng hóa sản phẩm hơn) tăng tính đặn Cơ quan thống kê quốc gia Anh (ONS) tiến hành dự án Big data cho thống kê Nhà nước, có dự án “Sử dụng công nghệ Web Scraper để khai thác nguồn liệu Big data phục vụ tính số CPI” Dự án kéo dài vòng 15 tháng kết thúc vào tháng 3/2015 Mục tiêu dự án nhằm khai thác nguồn liệu Big data thông qua công nghệ Web Scraper để ứng dụng vào lĩnh vực thống kê giá Đồng thời phát triển phương pháp phân tích, xử lý nguồn liệu Big data thu thập Trên sở kết so sánh với kết có từ việc thu thập liệu theo phương pháp truyền thống, giúp cho người khai thác thấy ưu điểm, hạn chế tính tốn chi phí, lợi ích việc ứng dụng nguồn Big data thống kê Nhà nước Quy trình thực dự án tiến hành theo bước: 23 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Bước 1: Xác định nguồn liệu thu thập Dữ liệu cần thu thập liệu liên quan đến giá như: mức giá, lượng bán, doanh thu mặt hàng… mặt hàng tiêu dùng Nguồn liệu lấy từ hệ thống thông tin siêu thị hàng hóa bán lẻ trực tuyến Việc lựa chọn siêu thị cụ thể số lượng siêu thị dựa việc xem xét tiêu chí như: doanh thu, thị phần siêu thị thị trường, mặt hàng mà siêu thị cung cấp, khả cung cấp thơng tin siêu thị, kinh phí thực dự án Số lượng mặt hàng tiêu dùng mà dự án thu thập theo rổ hàng hóa phục vụ cho việc tính CPI Trên thực tế, dự án “Sử dụng công nghệ Web Scraper để khai thác nguồn liệu Big data phục vụ tính số CPI” ONS tiến hành thu thập thông tin liên quan đến giá 35 mặt hàng tiêu dùng thuộc rổ hàng hóa CPI siêu thị bán hàng trực tuyến Bước 2: Lắp đặt, vận hành công cụ Web Scraper phục vụ việc thu thập liệu Các thông tin liên quan tới giá sản phẩm tiêu dùng có thơng qua việc truy cập vào kho liệu siêu thị tiến hành thử nghiệm Tuy nhiên, thực tế liệu liệu thơ gồm liệu có cấu trúc phi cấu trúc (như báo giá, đơn đặt hàng, phiếu tốn, hóa đơn… gồm liệu hình ảnh, số liệu, kí tự…) Đây thơng tin cần thiết phục vụ cho việc tính CPI (như giá cả, hay lượng bán nằm liệu thơ này) Vì để có thơng tin đáp ứng nhu cầu người dùng tin cần phải lắp đặt cơng cụ có khả trích xuất liệu từ nguồn liệu thơ Đó cơng cụ Web Scraper Ví dụ việc trích xuất liệu cơng cụ Web Scraper: Dưới hóa đơn bán hàng online mặt hàng bánh mì nướng nhãn hiệu Warburton thu thập kho liệu siêu thị dự án Nội dung hóa đơn bao gồm liệu có cấu trúc liệu phi cấu trúc như: liệu hình ảnh (logo nhãn hàng), liệu kí tự (tên sản phẩm, tên nhãn hàng, hiệu bán hàng…), liệu dạng số (giá sản phẩm, lượng mua, thời hạn…) Thông qua công cụ phần mềm Web Scraper, tất liệu hóa đơn mã hóa lại thành liệu có cấu trúc Tuy nhiên khối liệu mã hóa có số liệu phù hợp với mục đích tính CPI (như tên sản phẩm, giá sản phẩm) Công cụ Web scraper tiếp tục trích xuất liệu để cung cấp cho người dùng tin (xem hình đây) 24 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Hình 1: Hình ảnh minh họa việc trích xuất liệu thu thập nhờ cơng cụ Web Scraper Hóa đơn bán hàng sản phẩm bánh mì nướng Warburton Các thơng tin hóa đơn mã hóa thành dạng liệu có cấu trúc Kết quả: Dự án ONS tiến hành lắp đặt vận hành công cụ Web Scraper để phục vụ cho việc thu thập liệu Mỗi ngày hệ thống phần mềm thu thập 6.500 thông tin chi tiết sản phẩm siêu thị bán hàng online, thuộc 35 mặt hàng Bước đầu, trình thu thập tiến hành liên tục vòng tháng Một hệ thống quản lý chất lượng thiết lập nhằm kiểm sốt chất lượng thơng tin có nhờ việc trích xuất liệu thu thập xem liệu chúng có đảm bảo hay khơng Sau q trình thu thập liệu tiến hành liên tục suốt khoảng thời gian dự án Kết thông tin thu thập lưu trữ sở liệu phi cấu trúc NoSQL Bước 3: Phân tích liệu Các liệu có ích thu thập sau q trình trích xuất liệu phần mềm Web Scraper tiến hành phân tích liệu có cấu trúc nhờ cơng cụ phân tích thống kê như: SPSS, STATA, R, EVIEWS… Dưới số kết thu được: Tháng 10 tháng 11 năm 2014 ước tính có khoảng 23% mặt hàng giảm giá, nửa giảm giá mặt hàng dự tính giảm giá mua nhiều sản phẩm (khuyến mại) Như việc giảm giá mua nhiều sản phẩm phổ biến 25 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Sự giảm giá mặt hàng hiểu cách chi tiết thơng qua việc phân tích liệu trích xuất từ phần mềm Web Scraper Điều làm với liệu thu thập phương pháp truyền thống Nguyên nhân giảm giá thơng thường tính trong số, giảm giá khuyến mại mua nhiều lại khơng Tuy nhiên, liệu trích xuất từ phần mềm Web Scraper chưa giúp người dùng tin nắm bắt việc giảm giá có ngun nhân từ khách hàng (sự mặc giá) Vì kết phân tích chưa phản ánh tồn vấn đề giảm giá hàng hóa Sự phân bổ mơ hình giá kép đa mơ hình (bi-modal and multi-modal price) thường xuất mục phân loại CPI/RPI Biểu đồ 1: Chỉ số giá Jevon 35 mặt hàng thu thập từ tháng 5/2014 đến tháng 2/2015 100.5 Jevons 35 Grocery Item Index 100 99.5 99 98.5 98 97.5 Total (all days) 97 96.5 201405 201406 201407 201408 201409 201410 201411 201412 201501 201502 Nguồn: Big data ONS project - Progress report: Qtr Octorber to Dec 2014 (ONS) Biểu đồ 2: Biểu đồ hộp ria mèo giá 35 mặt hàng thu thập từ tháng 5/2014 đến tháng 11/2014 Nguồn: Big data ONS project - Progress report: Qtr Octorber to Dec 2014 (ONS) 26 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Một ví dụ khác việc vận dụng phần mềm thống kê SPSS, R…, tiến hành phân tích liệu cơng cụ Web Scraper trích xuất mặt hàng rượu Whisky: Biểu đồ 3: Biểu đồ biến động giá rượu Whisky tháng 9, 10,11 năm 2014 Nguồn: Bigdata ONS project - Progress report: Qtr Octorber to Dec 2014 (ONS) Như dự án bắt đầu đưa tiêu sở có sử dụng liệu Web Scraper Các liệu thu thập liệu có dung lượng tần suất lớn cho phép xác định rõ số Điều thực cách thu thập thông thường Công việc dự án triển khai theo hướng nghiên cứu chuyên sâu vấn đề xoay quanh việc khai thác phân tích nguồn liệu trích xuất từ cơng cụ Web scraper, phục vụ cơng tác tính số CPI Đó là: Nâng cao chất lượng Web Scraper Quá trình làm liệu (các kỹ thuật, phương pháp lọc, làm thông tin thu thập) Nghiên cứu phương pháp phân tích liệu (liệu phương pháp truyền thống áp dụng cho việc phân tích nguồn liệu hay phải tìm phương pháp phân tích khác?) II Khai thác nguồn liệu quét19 từ máy quét mã vạch sản phẩm để tính số giá CPI Pháp Dữ liệu quét liệu ghi nhớ từ máy quét mã vạch loại liệu đặc trưng thương mại điện tử, chúng không ngừng gia tăng tốc độ, dung lượng lẫn loại hình Về chất liệu quét liệu lớn Big data mà tìm kiếm khai thác 19 27 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Hiện nay, số giá tiêu dùng Pháp tính theo số giá tổng hợp Laspeyres dựa liệu giá mặt hàng rổ hàng hóa đại diện, thống kê viên thu thập hàng tháng Tuy nhiên với việc gia tăng không ngừng số lượng sản phẩm bán lẻ loại hình tiêu dùng đặc biệt (hình thức bán hàng giảm giá, bán sản phẩm có hàng tặng kèm…) khiến cho việc trì mẫu mặt hàng đại diện điều khó khăn Bất bạn mua sản phẩm siêu thị, kết tốn gói hàng tiêu dùng bạn máy quét mã vạch sản phẩm lưu lại thông qua việc quét mã vạch Trên mã vạch có số quốc tế để phân biệt với Mỗi ghi nhớ bao gồm giá trị, lượng bán, nhãn hàng… mã quốc tế (EAN số mã hàng hóa châu Âu) Những thơng tin giúp ích cho thống kê việc tính tốn số Như sở liệu thống kê số giá có liên quan phần đến liệu giá Chính lý này, năm 2009 INSEE (Viện Thống kê nghiên cứu Kinh tế quốc gia Pháp) tiến hành dự án khai thác liệu bán hàng thu thập từ máy quét mã vạch (gọi liệu quét) Tháng năm 2012, chuyên gia dự án công nghệ thông tin INSEE tiến hành truy cập đặn hàng ngày vào nguồn liệu bán hàng lưu trữ nhờ máy quét mã vạch chuỗi siêu thị Thông qua việc sử dụng liệu quét, dự án nghiên cứu khả nguồn liệu việc: Tăng kích thước rổ hàng hóa đại diện chất lượng số giá hàng tháng; Chọn mẫu ngẫu nhiên không chệch mặt hàng rổ hàng đại diện; Ước lượng xác số giá Quy trình thực dự án tiến hành theo bước cụ thể sau: Bước 1: Xác định loại liệu khai thác chọn mẫu Căn vào mục tiêu cụ thể dự án (khai thác nguồn liệu từ máy quét mã vạch sản phẩm để tính số giá CPI), liệu mà dự án cần thu thập liệu liên quan tới giá sản phẩm hàng hóa giá cả, lượng bán Danh mục mặt hàng điều tra mặt hàng gia dụng thuộc rổ hàng hóa tính CPI Dưới danh mục mặt hàng INSEE lựa chọn tiến hành thu thập liệu trình thực dự án: 28 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Bảng 1: Danh mục số lượng mặt hàng EAN20 thu thập Mặt hàng Số lượng EAN trung bình siêu thị Cà phê 186.3 Dầu ăn 66.3 Gạo 74.9 Yoghurt 224.1 Trứng 24.5 Sô cô la 201.5 Nước ép trái 151.6 Phô mai 121.2 Tổng 1050.4 Nguồn: would scanner data improve the French CPI? – INSEE, Consumer Price Statistics Division Mẫu liệu quét bao gồm liệu giá lượng bán hàng tuần siêu thị suốt năm (2007, 2008, 2009) tất mặt hàng gia dụng Tổng số mặt hàng khoảng 1050 mục, thuộc loại mặt hàng Mẫu liệu quét gồm khoảng 130.000.000 quan sát, xấp xỉ mức tổng hợp liệu lớn hệ thống phần mềm thông thường Việc chọn mẫu siêu thị thu thập thông tin dựa việc xem xét nhiều tiêu chí doanh thu, thị phần siêu thị, khả truy cập thơng tin, thương hiệu… Bắt đầu q trình nghiên cứu, INSEE chọn chuỗi siêu thị lớn (chiếm khoảng 30% thị phần thị trường) cho phép chuyên gia truy cập vào nguồn liệu quét máy quét mã vạch sản phẩm siêu thị Số mặt hàng rút hệ thống siêu thị tỷ lệ thuận với thị phần hệ thống siêu thị thị trường Để làm điều này, ta giả định diễn biến giá sản phẩm phản ánh phần lớn việc đàm phán người bán (các chuỗi siêu thị) người sản xuất (được xác định thông qua thương hiệu sản phẩm) Đơn vị rổ hàng hóa theo phương pháp thu thập truyền thống bao gồm có loại mặt hàng cửa hàng, phương pháp thu thập liệu máy quét mã vạch, đơn vị kết hợp mã EAN với cửa hàng (chẳng hạn chai Cocacola có mã EAN A cửa hàng B) 20 EAN (European Article Number): hệ thống mã số hàng hóa châu Âu 29 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Trên nguyên tắc chọn mẫu trình thực dự án Tuy nhiên thực tế, q trình chọn mẫu gặp khơng khó khăn như: Doanh thu bán hàng chuỗi siêu thị không đồng Chẳng hạn với riêng mặt hàng sô cô la, tiến hành kiểm tra tất 1388 mã EAN khác mặt hàng này, ta thấy cần 100 mã EAN tập trung tới 56% doanh thu bán hàng Mặt khác, xét toàn loại giá kho liệu thu thập từ máy quét mã sản phẩm siêu thị, rổ hàng lựa chọn bao gồm khoảng 30.000 đơn vị Số lượng đơn vị lớn Vậy mặt hàng thu thập đủ liệu thỏa mãn yêu cầu đơn vị cần phải giải nào? Điều dẫn tới ý tưởng Một là: việc lựa chọn chuỗi siêu thị có doanh thu bán hàng hàng năm phải tương đương Hai là: hàng tháng đơn vị khuyết thuyết (biến missing) thay đơn vị khác “gần” với đơn vị khuyết thiếu (đơn vị thay phải có nhiều điểm tương đồng với đơn vị cũ) Để làm điều này, tỷ lệ đơn vị chọn thay đơn vị tương đồng năm rơi vào khoảng từ 45-18% số đơn vị bản, tùy theo liệu kiểm tra (thực tế, mẫu kiểm định 45% đơn vị có tháng 12 năm 2008 biến thời điểm tháng 12 năm 2009 Như 13.500.000 đơn vị thay phải lựa chọn) Trong tỷ lệ thay sản phẩm tương đồng điều tra viên theo phương pháp thu thập giá truyền thống 17% Điều có nghĩa tỷ lệ thay sản phẩm tương đồng liệu điều tra viên với liệu thu thập từ máy quét mã vạch hàng năm rổ hàng cố định khác Mức độ khác biệt 11% Một phần khác biệt chương trình khuyến mại, giảm giá (chẳng hạn mua tặng 1) Nguyên nhân việc liệu giảm giá lưu lại máy quét, với hình thức thu thập truyền thống điều khó để nhận biết Ngồi với hình thức thu thập truyền thống, người hỏi thường tập trung vào mặt hàng phổ biến, mặt hàng mua nhiều liệu quét lưu trữ tất liệu, bao gồm liệu sản phẩm phổ biến, mua cách chi tiết Vì EAN phần đơn vị bản, nên để chọn đơn vị thay cho đơn vị bị ta phải chọn mã EAN tương đồng thay cho mã EAN cũ Cơ sở việc lựa chọn thay sau: 30 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Mã EAN phần mã vạch sản phẩm Cấu trúc mã vạch sản phẩm hình đây: Nguồn: Would scanner data improve the French CPI? – INSEE, Consumer Price Statistics Division Từ mã vạch ta tìm sản phẩm thay từ nhãn hàng tương đồng cửa hàng tương tự Khi mã EAN cửa hàng biến mất, ta tìm mã EAN cửa hàng tương tự khác Nhờ ta lựa chọn sản phẩm thay với 11 chữ số mã vạch giống nhau, khơng, 10 số số… Nếu mặt hàng có số mã vạch tương tự khơng chọn ta tiến hành gán biến động giá trung bình cửa hàng cho sản phẩm gia dụng Bước 2: Phân tích liệu Dữ liệu quét thu thập từ máy quét mã vạch loại liệu mã hóa Kho liệu quét siêu thị bao gồm hàng loạt thông tin liên quan đến sản phẩm Chuyên gia dự án truy cập vào nguồn liệu để lấy thông tin cần thiết phục vụ cho việc tính tốn CPI Q trình phân tích tính tốn thực phương pháp công cụ thống kê phù hợp Mô số lạm phát năm 2009 sản phẩm gia dụng thu thập với kích thước khác rổ hàng hóa (tỷ lệ mẫu chọn 1%, 2% 5% tổng số mặt hàng), 500 mẫu độc lập rút Kết cho phép ta đánh giá độ xác số giá tính từ liệu quét cách chi tiết Cụ thể là: Đối với mẫu tỷ lệ 2%, ta thấy độ dài 95% khoảng tin cậy số giá, nhỏ độ dài 95% khoảng tin cậy số giá mẫu tỷ lệ 1% (điều có nghĩa biến động số giá trung bình 500 mẫu tỷ lệ chọn 3%, độ dài 95% khoảng tin cậy 500 tiêu tính từ 500 mẫu loại dài 95% khoảng tin cậy 500 tiêu với mẫu tỷ lệ 2% ngắn 95% khoảng tin cậy 500 tiêu với mẫu tỷ lệ 4%) Dưới kết tính tốn phân tích cụ thể tỷ lệ lạm phát giá trung bình 2009 Kết nằm phần báo cáo Vụ Thống kê giá INSEE thực dự án khai thác liệu quét để cải thiện số giá CPI Pháp: Tỷ lệ lạm phát trung bình năm 2009 với số mặt hàng 31 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Kết tính tỷ lệ lạm phát trung bình năm với mặt hàng: mặt hàng quan trọng (yohurt) mặt hàng quan trọng danh mục mặt hàng chọn (gạo) Bảng 2: Tỷ lệ lạm phát trung bình gạo năm 2009 Tỷ lệ mẫu (%) Số lượng quan sát rút Tỷ lệ lạm phát trung bình năm 2009 (%) STD (%) Min (%) Q1 (%) Q5 (%) Q95 (%) Q99 Max (%) (%) 350 -2.1 0.58 -3.4 -3.4 -3.0 -1.1 -0.6 -0.3 700 1750 -2.1 -2.1 0.40 0.23 -2.9 -2.8 -2.9 -2.6 -2.7 -2.4 -1.4 -1.7 -1.2 -1.5 -1.0 -1.3 Kết cho thấy tỷ lệ lạm phát năm 2009 gạo -2.1% với tỷ lệ mẫu 2% 98% 500 tiêu khơng khác 1% so với tỷ lệ lạm phát năm trung bình (Q1= -2.9% Q99= -1.2%) Bảng 3: Tỷ lệ lạm phát trung bình yohurt năm 2009 Tỷ lệ mẫu (%) Số lượng quan sát rút Tỷ lệ lạm phát trung bình năm 2009 (%) STD (%) Min (%) Q1 (%) Q5 (%) Q95 (%) Q99 Max (%) (%) 1795 3590 -4.4 -4.4 0.23 0.16 -5.6 -4.8 -5.0 -4.8 -4.8 -4.7 -4.0 -4.1 -3.9 -4.0 -3.7 -3.9 8980 -4.4 0.10 -4.7 -4.7 -4.6 -4.2 -4.2 -4.1 Kết cho thấy tỷ lệ lạm phát năm 2009 Yohurt -4.4% với tỷ lệ mẫu 1% 98% 500 tiêu khơng khác 1% so với tỷ lệ lạm phát năm trung bình (Q1= -5% Q99=-3.9%) Bảng 4: So sánh số giá sản phẩm liệu quét với liệu điều tra viên thu thập Tỷ lệ lạm phát 2009 Chỉ số CPI chung Chỉ số CPI từ liệu điều tra viên thu thập Chỉ số CPI tính từ liệu qt Sơcơla (%) Nước ép (%) Dầu ăn (%) +0.2 +2.6 -5.3 +2.4 -0.7 -4.0 -4 -3 -0.8 +2.1 -4.7 +2.5 -1.7 -4.3 -4.3 -2.8 -0.1 +1.7 -5.9 +2.1 -1.0 -4.4 -4.4 -2.4 Cà phê Trứng (%) (%) 32 Gạo Yohurt (%) (%) Phô mai (%) 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Ở so sánh số giá sản phẩm gia dụng tính liệu quét với tỷ lệ lạm phát 2009 (toàn liệu tỷ lệ lạm phát CPI bao gồm tất loại cửa hàng), số CPI siêu thị điều tra viên tính theo phương pháp truyền thống Ta thấy số tính từ liệu quét gần với số CPI siêu thị, khác biệt không 1% cho tất sản phẩm Tỷ lệ lạm phát năm 2009 sản phẩm Chúng ta tính tỷ lệ lạm phát năm 2009 cho mặt hàng gia dụng, liệu kiểm tra tất siêu thị cung cấp, dựa số liệu quét Quyền số sản phẩm gia dụng tính thơng qua doanh số bán năm 2008 với liệu quét Ta ước lượng thông qua mô mẫu sở liệu quét mức 95% khoảng tin cậy số giá, tỷ lệ mẫu phụ thuộc vào việc thu thập thực tế người thu thập Kết thu sau: 95% khoảng Chỉ số tính Chỉ số tính 95% khoảng tin cậy với theo theo tin cậy với Mặt hàng tiêu Quyền số tính liệu quét liệu số tính dùng số theo 2009 điều tra theo liệu điều tra viên (%) viên (%) quét 2009 2009 Cà phê 15.6 2.1 1.1 0.5 3.7 Sôcôla 11.8 -0.1 1.7 -1.8 1.6 Dầu 8.5 -5.9 -5.1 -8.2 -3.6 Gạo 3.8 -2.1 1.3 -5.8 1.6 Yohurt 21.1 -5.4 -5.7 -5.9 -2.9 Phô mai 15.6 -2.4 -3.6 -3.7 -1.1 Trứng 9.9 -1.0 -2.6 -2.8 0.8 Nước ép 13.6 1.7 0.2 0.2 3.2 Tổng mặt 100.0 -1.4 -2.0 -2.0 -1.1 hàng Như ta thấy mức độ lạm phát năm 2009 sản phẩm ước lượng từ liệu quét (-1.4%) xấp xỉ với ước lượng mức lạm phát sản phẩm ước lượng từ liệu điều tra viên (-2%) Tỷ lệ lạm phát 2009 với tất hệ thống siêu thị Tính số giá tiêu dùng 2009 tất chuỗi siêu thị Sau so sánh số giá tính dựa vào nguồn liệu điều tra viên với số kết hợp liệu quét người bán cung cấp liệu thu thập điều tra viên 33 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” 07/10/2015 Quyền số dựa doanh số bán hàng 2008 lấy từ tài khoản quốc gia từ mẫu liệu quét Kết sau: Mặt hàng tiêu dùng Quyền số Chỉ số tính theo liệu kết Chỉ số tính hồn tồn theo liệu hợp liệu quét liệu điều tra viên (%) điều tra viên (%) Cà phê 27.4 2.5 2.8 Sôcôla 29.7 -0.8 -1.4 Dầu 26.6 -4.7 -4.9 Gạo 28.4 -2.4 -2.0 Yohurts 24.4 -4.0 -3.9 Phô mai 27.5 -2.8 -2.5 Trứng 28.7 -1.7 -1.3 Nước ép 28.9 2.1 2.4 Tổng mặt hàng 27.3 -1.5 -1.3 Ta thấy số kết hợp (mixed index) toàn sản phẩm (-1.3%) gần với số liệu hoàn toàn thu thập (-1.5%) Những công việc dự án Với kết mà dự án khai thác liệu quét lĩnh vực giá INSEE thực hiện, kết luận liệu quét thực nguồn liệu đầy tiềm việc cải tiến chất lượng số giá Cho đến dự án tiếp tục triển theo hướng nghiên cứu sau: Nghiên cứu sâu kích thước phù hợp với rổ hàng hóa đại diện Thiết kế mẫu rổ hàng hóa đại diện (nghiên cứu kỹ tỷ lệ tương ứng mẫu rút với doanh số bán hàng) Cách thay mặt hàng khuyết thiếu bị dựa đặc điểm tương đồng sản phẩm (liệu q trình thay xây dựng thành quy trình tự động?) Nghiên cứu sâu chất lượng số giá tiêu dùng tính từ liệu quét So sánh cụ thể hai loại số giá tiêu dùng: loại tính từ liệu quét, loại tính từ liệu thu thập thống kê viên 34 07/10/2015 Kỷ yếu Hội thảo khoa học “Thống kê Nhà nước với Dữ liệu lớn” Liệu chuyển đổi phương pháp phân tích liệu truyền thống sang dạng phân tích phù hợp áp dụng nguồn liệu thu thập không Kết luận Trên kết ứng dụng thực tế việc thu thập, khai thác sử dụng nguồn liệu Big data công tác thống kê giá Rõ ràng Big data nguồn liệu đầy tiềm đem lại nhiều giá trị thiết thực Nếu Việt Nam nắm bắt điều chắn Big data mở nhiều hội tốt cho Việt Nam nói chung ngành Thống kê nói riêng Trước mắt, ứng dụng vào lĩnh vực điều tra giá tiêu dùng số điểm lấy giá siêu thị thuộc khu vực thành phố lớn Một số điểm cần lưu ý áp dụng là: Thực trao đổi, thỏa thuận quyền thu thập, truy cập thông tin đơn vị cung cấp; Thông tin thu dạng có cấu trúc phi cấu trúc (hình ảnh, âm thanh…) nên cần hỗ trợ công nghệ thông tin trình xử lý làm sạch; Hiệu chi phí; Quản lý liệu, hạ tầng Cơng nghệ thơng tin… Hy vọng tương lai không xa, Việt Nam nói chung Tổng cục Thống kê nói riêng nắm bắt khai thác thành công nguồn liệu Tài liệu tham khảo: ONS Big data Project-Progress report: Qtr October to Dec 2014 Jane Naynor, Nigel Swier, Susan William, Karegass, Rob Breton Offical for National Statistics Would scanner data improve the French CPI? –INSEE, Sesbastien FAIVREConsumer Price Statistics Division http://searchdatamanagement.techtarget.com/essentialguide/Big-dataapplications-Real-world-strategies-for-managing-big-data https://www.acquia.com/examples-big-data-projects http://www.informationweek.com/big-data/big-data-analytics/8-reasons-bigdata-projects-fail/a/d-id/1297842 6.https://vi.wikipedia.org/wiki/H%E1%BB%99i_%C4%91%E1%BB%93ng_m %C3%A3_s%E1%BA%A3n_ph%E1%BA%A9m_th%E1%BB%91ng_nh%E1%BA %A5t_ch%C3%A2u_%C3%82u 35 ... thống sang dạng phân tích phù hợp áp dụng nguồn liệu thu thập không Kết luận Trên kết ứng dụng thực tế việc thu thập, khai thác sử dụng nguồn liệu Big data công tác thống kê giá Rõ ràng Big data. .. http://searchdatamanagement.techtarget.com/essentialguide /Big- dataapplications-Real-world-strategies-for-managing -big- data https://www.acquia.com/examples -big- data- projects http://www.informationweek.com /big- data /big- data- analytics/8-reasons-bigdata-projects-fail/a/d-id/1297842... đem lại nhiều giá trị thiết thực Nếu Việt Nam nắm bắt điều chắn Big data mở nhiều hội tốt cho Việt Nam nói chung ngành Thống kê nói riêng Trước mắt, ứng dụng vào lĩnh vực điều tra giá tiêu dùng