1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác giá bán lẻ hàng hóa và dịch vụ tiêu dùng từ dữ liệu lớn

33 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 1,36 MB

Nội dung

BỘ KẾ HOẠCH VÀ ĐẦU TƯ TỔNG CỤC THỐNG KÊ CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc Hà Nội, ngày tháng năm 2018 BÁO CÁO TỔNG QUAN VỀ KHAI THÁC, THU THẬP GIÁ BÁN LẺ HÀNG HÓA VÀ DỊCH VỤ TIÊU DÙNG TỪ NGUỒN DỮ LIỆU LỚN ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG CỦA CÁC NƯỚC TRÊN THẾ GIỚI Cùng với phát triển Cách mạng công nghiệp lần Thứ (Cách mạng 4.0), việc ứng dụng khai thác nguồn liệu lớn vào hoạt động thống kê nhà nước xu hướng tất yếu khoa học thống kê đại Thực tế cho thấy, liệu lớn đem lại nhiều tiềm to lớn thống kê nhà nước.Việc ứng dụng khai thác nguồn liệu lớn để sản xuất số liệu thống kê kịp thời giải nhiều vấn đề liên quan so với nguồn liệu truyền thống, như: giảm thiểu gánh nặng thu thập thông tin, đặc biệt gánh nặng điều tra thu thập thông tin người trả lời, khả đáp ứng nhu cầu thông tin người sử dụng Năm 2014, Ủy ban Thống kê Liên hợp quốc (UNSC) thành lập GWG để khám phá lợi ích thách thức việc sử dụng nguồn liệu công nghệ cho thống kê thức số SDGs (Các mục tiêu phát triển bền vững) GWG nghiên cứu giải vấn đề liên quan đến phương pháp, chất lượng, công nghệ, truy cập liệu, pháp lý, quyền riêng tư, quản lý, tài phân tích chi phí lợi ích việc khai thác sử dụng liệu lớn để sản xuất số liệu thống kê nhà nước GWG thành lập nhóm nhiệm vụ về: liệu hình ảnh vệ tinh; liệu di động; liệu truyền thông xã hội; liệu quét; đào tạo kỹ xây dựng lực Đến nay, có nhiều nước triển khai dự án nghiên cứu khai thác, sử dụng nguồn liệu lớn để sản xuất số liệu thống kê nhà nước như: Thống kê giá, di cư, du lịch, nông nghiệp,…Đặc biệt, lĩnh vực thống kê giá có nhiều nước thực tiến hành thu thập giá bán lẻ mặt hàng tiêu dùng tư mạng trực tuyến để phục vụ tính tốn biên soạn số giá tiêu dùng như: Anh, Hàn Quốc, Australia, Hà Lan, Trung Quốc, Dự án The Billionprices trường Đại học MIT Harvard (Mỹ), Báo cáo tổng quan khai thác nguồn liệu lớn để sản xuất số liệu thống kê nhà nước tổ chức nước giới gồm 03 nội dung https://unstats.un.org/bigdata/ chính: (1) Tổng quan khai thác nguồn liệu lớn để sản xuất số liệu thống kê nhà nước; (2) Tình hình khai thác nguồn liệu lớn phục vụ công tác thống kê nhà nước số quốc gia giới, đó báo cáo giới thiệu chi tiết kinh nghiệm khai thác liệu lớn phục vụ công tác thống kê giá Hàn Quốc (KOSTAT) quan Thống kê quốc gia Anh (ONS), (3) Chiến lược khai thác liệu lớn Thống kê Việt Nam I TỔNG QUAN VỀ KHAI THÁC NGUỒN DỮ LIỆU LỚN ĐỂ SẢN XUẤT SỐ LIỆU THỐNG KÊ NHÀ NƯỚC Khái niệm, đặc trưng, ý nghĩa liệu lớn - Khái niệm liệu lớn: Hiện nay, có nhiều định nghĩa liệu lớn (Bigdata): Theo UNECE, Bigdata định nghĩa nguồn liệu có khối lượng lớn, tốc độ cao, đa dạng mặt loại hình Bigdata có khả mang lại hiệu cao mặt kinh tế, nhiên việc xử lý Bigdata yêu cầu nhiều hình thức xử lý cải tiến, Bigdata có thể giúp tăng cường hiểu biết định hiệu quả.2 Một định nghĩa khác công ty nghiên cứu tư vấn công nghệ tiên tiến Mỹ có trụ sở Stamford, Gartner, liệu lớn (Bigdata) nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, đó muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình.3 Theo wikipedia, Big data thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu - Đặc trưng liệu lớn: Bigdata có đặc trưng: Khối lượng liệu (Volume), Tốc độ (Velocity, Đa dạng (Variety), Độ tin cậy/chính xác (Veracity), Giá trị (Value) Cụ thể sau5: (1) Khối lượng liệu (Volume) Đây đặc điểm tiêu biểu liệu lớn, khối lượng liệu lớn Kích cỡ Big Data tưng ngày tăng lên, tính đến năm 2012 nó có thể nằm khoảng vài chục terabyte nhiều petabyte (1 petabyte = 1024 terabyte) cho tập hợp liệu Dữ liệu truyền thống có thể lưu trữ thiết bị đĩa mềm, đĩa cứng Nhưng với liệu lớn sử dụng công nghệ “đám mây” đáp ứng khả lưu trữ liệu lớn Nguồn Global Conference on Big Data for Official Statistics 20-22 October 2015, Abu Dhabi, UAE, Classification of Big Data Peter Struijs Statistics Netherlands p.struijs@cbs.nl Nguồn: https://www.gartner.com/it-glossary/big-data/ Nguồn: https://en.wikipedia.org/wiki/Big_data Nguồn: Bài viết, Tổng quan Bigdata, CN Nguyễn Công Hoan, nghiên cứu viên Viện KHTK (2) Tốc độ (Velocity) Tốc độ có thể hiểu theo khía cạnh: (a) Khối lượng liệu gia tăng nhanh (mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm web bán hàng Amazon); (b) Xử lý liệu nhanh mức thời gian thực (real-time), có nghĩa liệu xử lý tức thời sau chúng phát sinh (tính đến mili giây) Các ứng dụng phổ biến lĩnh vực Internet, Tài chính, Ngân hàng, Hàng khơng, Qn sự, Y tế – Sức khỏe phần lớn liệu lớn xử lý real-time Công nghệ xử lý liệu lớn ngày cho phép xử lý tức trước chúng lưu trữ vào sở liệu (3) Đa dạng (Variety) Đối với liệu truyền thống hay nói đến liệu có cấu trúc, ngày 80% liệu sinh phi cấu trúc (tài liệu, blog, hình ảnh, video, hát, liệu tư thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big Data cho phép liên kết phân tích nhiều dạng liệu khác Ví dụ, với bình luận nhóm người dùng đó Facebook với thông tin video chia sẻ tư Youtube Twitter (4) Độ tin cậy/chính xác (Veracity) Một tính chất phức tạp Dữ liệu lớn độ tin cậy/chính xác liệu Với xu hướng phương tiện truyền thông xã hội (Social Media) mạng xã hội (Social Network) ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho tranh xác định độ tin cậy & xác liệu ngày khó khăn Bài tốn phân tích loại bỏ liệu thiếu xác nhiễu tính chất quan trọng BigData (5) Giá trị (Value) Giá trị đặc điểm quan trọng liệu lớn, bắt đầu triển khai xây dựng liệu lớn việc cần phải làm đó xác định giá trị thông tin mang lại nào, đó có định có nên triển khai liệu lớn hay không Nếu có liệu lớn mà nhận 1% lợi ích tư nó, khơng nên đầu tư phát triển liệu lớn Kết dự báo xác thể rõ nét giá trị liệu lớn mang lại Ví dụ, tư khối liệu phát sinh trình khám, chữa bệnh giúp dự báo sức khỏe xác hơn, giảm chi phí điều trị chi phí liên quan đến y tế - Ý nghĩa liệu lớn Bigdata mang lại nhiều ý nghĩa thực tiễn Thực tế cho thấy, liệu lớn ứng dụng nhiều lĩnh vực như: hoạt động trị; giao thơng; y tế; thể thao; tài chính; thương mại; thống kê… Năm 2013, Cơ quan Thống kê Liên hợp quốc (UNSD) Ủy ban Kinh tế châu Âu Liên hợp quốc (UNECE) tiến hành khảo sát nhu cầu sử dụng liệu lớn lĩnh vực thống kê quốc gia giới Kết điều tra cho thấy có 10 lĩnh vực thống kê thức sản xuất tư nguồn Big data Tỷ lệ sử dụng bigdata cho lĩnh vực là: thống kê kinh tế tài (48,1%); thống kê xã hội nhân học (44,2%); thống kê giá (38,5%); …Sơ đồ sau thể tỷ lệ sử dụng Bigdata cho tưng lĩnh vực thống kê theo kết điều tra UNSD/ UNECE6 Hình Tỷ lệ sử dụng Bigdata lĩnh vực thống kê quốc gia Nguồn: Results of the UNSD/UNECE Survey of Big data Hiện Thống kê Liên hợp quốc xây dựng kho lưu trữ dự án thống kê, bao gồm 181 dự án Bigdata quốc gia tổ chức thống kê giới Kho lưu trữ công bố trực tiếp website UN7 Nguồn hình thành, loại liệu lớn Nhìn chung nguồn liệu lớn hình thành chủ yếu tư nguồn: (1) Dữ liệu hành (phát sinh tư chương trình tổ chức, có thể phủ hay phi phủ); (2) Dữ liệu tư hoạt động thương mại (phát sinh tư giao dịch hai thực thể); (3) Dữ liệu tư thiết bị định vị; (4) Dữ liệu tư thiết bị cảm biến (5) Dữ liệu tư hoạt động tiêu dùng trực tuyến; (6) Dữ liệu tư hành vi trực tuyến, (7) Dữ liệu tư thông tin ý kiến, quan điểm cá nhân, tổ chức, phương tiện thông tin xã hội Mỗi loại liệu khai thác ứng dụng vào tưng lĩnh vực thống kê cụ thể Dưới bảng mô tả nguồn hình thành, loại liệu Bigdata Bảng đưa tên quan sử dụng loại liệu lĩnh vực thống kê tương ứng áp dụng Nguồn: Bài viết “Thống kê thức với bigdata: Kinh nghiệm quốc tế định hướng Tổng cục Thống kê”, tác giả Ths Nguyễn Văn Đoàn, Viện trưởng Viện KHTK; UNSD/UNECE, 2015, Results of the UNSD/ UNECE Survey on organizational context and individual projects of Big Data Xem chi tiết tại: https://unstats.un.org/bigdata/inventory/ Bảng Nguồn hình thành liệu lớn Nguồn hình thành Loại liệu Cơ quan sử dụng Lĩnh vực sử dụng Dữ liệu hành Dữ liệu thuế, liệu hành thuộc Cơ quan Thống kê lĩnh vực y tế, bảo Úc, Đan Mạch,… hiểm xã hội… Thống kê dân số lao động (thống kê vấn đề liên quan đến dân số, tình trạng thất nghiệp…) Dữ liệu giao dịch Các giao dịch tài qua thẻ tín dụng; Dữ liệu máy quét mã vạch Cơ quan Thống kê Hà Lan, New Zeland, Anh, Hàn Quốc, Úc, Thống kê giá (thống kê giá tiêu dùng) Dữ liệu định vị Dữ liệu định vụ du động, liệu định vị GPS, liệu giao thông… Cơ quan Thống kê Hà Lan, New Zeland; Ủy ban Thống kê Châu Âu Dữ liệu cảm biến Dữ liệu hình ảnh vệ tinh, liệu cảm biến thời tiết, liệu cảm biến công tơ điện, liệu cảm biến đường Cơ quan Thống kê Hà Lan, New Zeland, Anh, Ireland, Úc, Dữ liệu tư hoạt động trực tuyến Dữ liệu giá tiêu dùng trực tuyến Cơ quan Thống kê Hà Lan, Anh, Hàn Quốc, Úc, Dữ liệu đăng ký trực tuyến, liệu kết nối trực tuyến… Dữ liệu Dữ liệu trang quan điểm mạng xã hội (ví dụ người dùng tin Facebook Twitter ) Dữ liệu hành vi trực tuyến Thống kê dân số (thống kê di cư); Thống kê thương mại, dịch vụ (thống kê du lịch) Thống kê nơng nghiệp (thống kê diện tích trồng, tình hình thời tiết…), thống kê công nghiệp (mức tiêu dùng lượng) Thống kê Giá (giá tiêu dùng), Thống kê thương mại dịch vụ (thống kê kinh doanh) Cơ quan Thống kê Hà Lan, Ý; Ủy ban Thống kê châu Âu Thống kê thương mại dịch vụ Cơ quan Thống kê Hà Lan, UN Thống kê lao động, Thống kê tâm lý xã hội Dữ liệu lớn liệu truyền thống Dữ liệu lớn khác với liệu truyền thống điểm bản: Dữ liệu đa dạng hơn; lưu trữ liệu lớn hơn; truy vấn nhanh hơn; độ xác cao (1) Dữ liệu đa dạng hơn: Khi khai thác liệu truyền thống (Dữ liệu có cấu trúc), thường phải trả lời câu hỏi: Dữ liệu lấy kiểu gì? Định dạng liệu nào? Đối với liệu lớn, trả lời câu hỏi Hay nói khác, khai thác, phân tích liệu lớn không cần quan tâm đến kiểu liệu định dạng chúng; điều quan tâm giá trị mà liệu mang lại có đáp ứng cho công việc tương lai hay không (2) Lưu trữ liệu lớn hơn: Lưu trữ liệu truyền thống vô phức tạp đặt câu hỏi lưu nào? Dung lượng kho lưu trữ đủ? gắn kèm với câu hỏi đó chi phí đầu tư tương ứng Công nghệ lưu trữ liệu lớn phần có thể giải vấn đề nhờ công nghệ lưu trữ đám mây, phân phối lưu trữ liệu phân tán có thể kết hợp liệu phân tán lại với cách xác xử lý nhanh thời gian thực (3) Truy vấn liệu nhanh hơn: Dữ liệu lớn cập nhật liên tục, đó kho liệu truyền thống cập nhật tình trạng khơng theo dõi thường xuyên gây tình trạng lỗi cấu trúc truy vấn dẫn đến khơng tìm kiếm thơng tin đáp ứng theo yêu cầu (4) Độ xác cao hơn: Dữ liệu lớn đưa vào sử dụng thường kiểm định lại liệu với điều kiện chặt chẽ, số lượng thông tin kiểm tra thông thường lớn, đảm bảo nguồn lấy liệu không có tác động người vào thay đổi số liệu thu thập Xu hướng thống kê giới liệu lớn 4.1 Xu hướng công nghệ Hiện có hai công nghệ khai thác Bigdata quan trọng nhiều quốc gia và, doanh nghiệp tổ chức giới sử dụng Đó công nghệ nguồn liệu mở công nghệ học máy Về công nghệ nguồn liệu mở, có thể kể đến Apache Hadoop, Spark Apache Hadoop tảng công nghệ hỗ trợ ứng dụng phân tích liệu chuyên sâu Apache Hadoop cho phép ứng dụng làm việc với hàng ngàn máy tính tính tốn độc lập với khối lượng liệu lên tới hàng ngàn petabyte Theo Forrester, công ty nghiên cứu thị trường hàng đầu Mỹ, số lượng người sử dụng nguồn liệu mở Apache Hadoop bình quân tăng 32.9%/năm Trong đó, Spark cơng nghệ cho phép xây dựng phân tích nhanh mơ hình dự đốn đồng thời cung cấp khả truy xuất toàn liệu lúc, nhờ người dùng không cần phải lấy mẫu liệu Về công nghệ học máy, phần trí tuệ nhân tạo Nói cách khác, cơng nghệ học máy giúp giải vấn đề liên quan đến phân tích kho liệu bigdata cách hữu ích mà công nghệ truyền thống không thực Theo nghiên cứu Gartner (công ty nghiên cứu tư vấn công nghệ tiên tiến Mỹ có trụ sở Stamford), năm 2017 công nghệ học máy 10 xu hướng công nghệ chiến lược hàng đầu giới Hiện nay, cộng đồng thống kê nói chung, có nhiều quan thống kê giới sử dụng hai loại công nghệ việc khai thác liệu lớn phụ, đó có thể kể đến: quan thống kê Anh vận dụng với dự án trích xuất liệu giá tiêu dùng online, quan thống kê Bỉ áp dụng dự án sử dụng liệu máy quét cho thống kê giá tiêu dùng), quan Thống kê Canada sử dụng cho dự án Bigdata-dữ liệu công tơ điện nghiên cứu hàng vi tiêu dùng lượng điện người dân), Ủy ban Thống kê châu Âu với dự án sử dụng Google trends dự đoán tỷ lệ thất nghiệp)… 4.2 Xu hướng khai thác liệu lớn quan Thống kê - Thống kê Liên hợp quốc: Cơ quan Thống kê Liên hợp quốc (UNSD) khẳng định: Sử dụng liệu lớn cho thống kê thức nghĩa vụ cộng đồng thống kê quốc tế Thông qua việc sử dụng liệu lớn, quan thống kê có thể đáp ứng tốt nhu cầu xã hội sản phẩm thống kê, cải thiện hoạt động thống kê nay, đồng thời đem lại hiệu cao cho công tác thống kê (trích tuyên bố phiên làm việc Nhóm làm việc quốc tế Bigdata UN (GWG) Ngày 31/10/2014) Phiên họp lần thứ 49 Ủy ban Thống kê Liên hợp quốc vào tháng 3/2018 liệu lớn thống kê nhà nước khẳng định: sử dụng nguồn liệu lớn nguồn liệu khác cần thiết q trình thực hiện đại hóa cơng tác thống kê nhà nước; sử dụng liệu lớn mang lại hội lấp đầy khoảng trống liệu công tác thống kê nhà nước, nâng cao hiệu chi phí, có thể thay cho điều tra truyền thống Bên cạnh đó, sử dụng liệu lớn giúp cung cấp số liệu đầu cách chi tiết, kịp thời Để triển khai công tác khai thác liệu lớn, UNSD thành lập môt nhóm công tác chuyên trách Bigdata với tên gọi Nhóm làm việc quốc tế Bigdata GWG GWG UNSC thành lập tháng 3/2014 tại New York (Mỹ) Phiên họp lần thứ 45 Ủy ban Thống kê Liên hợp quốc (UNSC) với 28 thành viên (18 quốc gia 10 tổ chức quốc tế, tổ chức đào tạo, khu vực tư nhân8) Hiện GWG phận chịu trách nhiệm điều phối thực dự án liên quan đến Bigdata Liên hợp quốc Ban đầu, nhiệm vụ GWG nghiên cứu giải vấn đề phương pháp luận; chất lượng; công nghệ; truy cập liệu; pháp luật; bảo mật; quản lý tài chính; phân tích chi phí-lợi ích liệu lớn Ngày 31/10/2014 nhiệm vụ nhóm chuyên môn hóa thông qua việc hình thành 08 tổ 818 quốc gia (Australia, Bangladesh, Cameroon, China, Colombia, Denmark, Egypt, Indonesia, Italy, Mexico, Morocco, Netherlands, Oman, Pakistan, Philippines, United Arab Emirates, United Republic of Tanzania, United States of America) 10 tổ chức quốc tế, đào tạo, khu vực tư nhân (Economic and Social Commission for Asia and the Pacific/Statistical Institute for Asia and the Pacific, Economic Commission for Europe, Eurostat, International Telecommunication Union, Organization for Economic Cooperation and Development, Statistical Centre for the Cooperation Council for the Arab Countries of the Gulf, Statistics Division of the Department of Economic and Social Affairs of the, United Nations, United Nations Global Pulse, Universal Postal Union, World Bank công tác (task teams) theo chủ đề: Vận động truyền thông; liên kết Dữ liệu lớn Mục tiêu Phát triển bền vững; tiếp cận quan hệ đối tác; đào tạo, xây dựng kỹ lực thống kê; liệu tư điện thoại di động; ảnh vệ tinh; liệu tư phương tiện truyền thông xã hội Các kết hoạt động GWG báo cáo đặn hàng năm phiên họp thường niên UNSD tổ chức Về chất, GWG mạng lưới quan thống kê khai thác Bigdata giới Nền tảng làm việc nhóm GWG xác định tiền thân mạng lưới khai thác liệu lớn toàn cầu (tuyên bố hội nghị thống kê Liên hợp quốc lần thứ 49 vào tháng 3/2018) Cũng phiên họp này, UNSD khuyến khích GWG cung cấp sản phẩm dịch vụ mà nhóm thực thành công cho hệ thống thống kê toàn cầu nhằm hỗ trợ quốc gia tiến hành sản xuất thông tin thống kê tiêu thống kê phục vụ mục tiêu phát triển bền vững Khung chiến lược định hướng công tác GWG tuyên bố Bogota Tuyên bố Bogota với chủ đề “Chung tay xây dựng cách mạng liệu cho phát triển bền vững” UNSD thông qua vào tháng 11/2017 thủ đô Bogota Colombia Có thể coi tuyên bố xu hướng khai thác liệu lớn Liên hợp quốc Tuyên bố bao gồm chủ đề: (i) Công nghệ, đổi phân tích để thiết lập mạng lưới đổi liệu nhằm tận dụng, chia sẻ nghiên cứu liệu; (ii) Xây dựng lực nguồn lực liên quan đến việc chuyển giao công nghệ chuyển giao lực, huy động nguồn lực liệu thơng qua chế tài sáng tạo quan hệ đối tác với khu vực tư nhân; (iii) Vấn đề quản lý, quan hệ đối tác khu vực phủ khu vực tư nhân, tổ chức phi phủ, viện nghiên cứu nhằm tăng cường việc thực nguyên tắc liên quan đến việc chia sẻ liệu, quyền khai thác sử dụng liệu Tuyên bố Bogota đề xuất: - Thúc đẩy hợp tác liệu tồn cầu thơng qua việc truy cập sử dụng liệu, vây dựng phát triển phương pháp luận thống kê, phần mềm ứng dụng tăng cường lực sản xuất số liệu thống kê Đẩy mạnh đổi đại hóa công tác thống kê, tăng cường sử dụng nguồn liệu mới, đó có liệu lớn; - Tưng bước đầu tư vào nghiên cứu phát triển nhằm mục tiêu đổi quy trình sản xuất thơng tin thống kê tạo cách thức để biên soạn tiêu Mục tiêu phát triển bền vững; - Tưng bước xây dựng, hồn thiện tảng cơng nghệ liệu thông qua nhu cầu người sử dụng doanh nghiệp; - Xây dựng ứng dụng, liệu dịch vụ tin cậy giám sát UNSC nhằm hỗ trợ cho hệ thống thống kê quốc gia toàn cầu - Thúc đẩy hợp tác toàn cầu dựa phối hợp tốt nhà nước tư nhân liệu lớn Xây dựng tảng công nghệ mạng lưới liệu nhằm đổi công tác thống kê nhà nước Cụ thể: Trao đổi ý tưởng phương pháp xử lý, phân tích ảo hóa liệu lớn chuyên gia thống kê, nhà khoa học liệu chuyên gia hệ thống mạng tư khu vực công tư nhân với trọng tâm xây dựng nghiên cứu phát triển theo hướng sản xuất thống kê đại - Một số quan thống kê quốc gia Hiện nay, số quốc gia xác định tầm nhìn dài hạn cho việc sử dụng Big Data số quốc gia bắt đầu xây dựng chiến lược Big Data Ở nhiều quốc gia thành lập phịng thí nghiệm/ nhóm công tác/nhóm làm việc nội để thực dự án thí điểm để xác định xem liệu liệu lớn có thể sử dụng nguồn thống kê thức hay khơng Đối với nhiều quốc gia, vấn đề xây dựng quan hệ đối tác để tận dụng hội mà Big Data đem lại Để giảm thiểu rủi ro tài khai thác cơng nghệ này, nước định tích cực tham gia vào hợp tác khu vực, chẳng hạn dự án Sandbox UNECE nhóm chuyên môn liệu lớn Eurostat Các quốc gia khác thiết lập quan hệ đối tác chiến lược với quan phủ khác với doanh nghiệp thương mại Một số quan quốc gia đưa nội dung Bigdata vào chiến lược phát triển cụ thể họ Đan Mạch, Úc, Phần Lan, Thống kê Châu Âu… Dưới xu hướng cụ thể số quan thống kê quốc gia: + Thống kê Đan Mạch: Thống kê Đan Mạch có truyền thống việc sử dụng liệu tư hồ sơ đăng kí hành việc đưa số liệu thống kê Họ quan tâm tới nguồn Big Data khả sử dụng chúng thống kê hành Đan Mạch xây dựng chiến lược thống kê (chiến lược 2020” ) gồm chủ đề (Dịch vụ; Quy trình liệu; Nguồn liệu; Tính bảo mật liệu; Hợp tác thống kê), đó, khai thác Bigdata nội dung quan trọng nằm chiến lược lồng ghép chủ đề Nguồn liệu Cụ thể bigdata xác định nguồn liệu quan trọng để sản xuất số liệu thống kê Việc hợp tác chặt chẽ thống kê nhà nước với khối doanh nghiệp có thể sở cần thiết để thiết lập khuôn khổ pháp lý cho việc khai thác nguồn liệu cách hiệu Hiện nay, Thống kê Đan Mạch phối hợp với chuỗi siêu thị lớn để sử dụng liệu máy quét (scanning data) để biên soạn số giá tiêu dùng Trong tương lai Thống kê Đan Mạch có hoạt động tương tự để khai phá tiềm sử dụng nguồn liệu khác + Thống kê Úc: Chính phủ Úc xây dựng chiến lược phát triển hoạt động khai thác nguồn liệu lớn Nội dung chi tiết chiến lược Bigdata cụ thể hóa chiến lược APS ICT Strategy 2012-2015 Phòng quản lý Thơng tin Chính phủ Úc (AGIMO), thuộc Bộ Tài chủ trì soạn thảo Ngày 15 tháng năm 2013, lần AGIMO công bố Tài liệu vấn đề lớn Chiến lược liệu trang web AGIMO 9.Chiến lược liệu lớn xây dựng với hỗ trợ nhóm làm việc liên ngành với tên gọi Nhóm công tác liệu lớn thành lập vào tháng năm 2013 Song song với phát triển Chiến lược này, Trung tâm Dữ liệu (DACoE) Chính phủ thành lập trực thuộc quan Thuế phủ Úc DACoE xây dựng khả phân tích tồn phủ cách thiết lập khung lực chung cho phân tích, chia sẻ kiến thức kỹ thuật, kỹ năng, công cụ xây dựng thỏa thuận hợp tác với tổ chức đại học để định hình phát triển cho chuyên gia phân tích DACoE làm việc theo hướng dẫn đưa Chiến lược liệu lớn phối hợp Nhóm làm việc liệu lớn Quan điểm Chính phủ Úc là: Dữ liệu lớn có thể đóng góp quan trọng công tác thống kê Bigdata kênh phương tiện thơng báo cho Chính phủ công chúng vấn đề kinh tế, xã hội môi trường Theo truyền thống, số liệu thống kê thức dựa liệu hành thu thập chương trình Chính phủ khảo sát.Trong nguồn liệu kết hợp với liệu Bigdata bán phi cấu trúc trở thành nguồn thống kê kịp thời hữu ích Chính phủ + Hệ thống thống kê châu Âu ESS: Khai thác bigdata để phục vụ công tác thống kê hành mục tiêu cụ thể tầm nhìn ESS tới năm 2020 Để tiến hành khai thác thành công liệu Bigdata, Ủy ban Thống kê châu Âu xây dựng hẳn lộ trình khai thác liệu lớn bigdata bao gồm chương trình hành động lộ trình thực cụ thể Lộ trình nhóm cơng tác chun mơn Ủy ban đưa sở kinh nghiệm thực tiễn tư dự án bigdata thống kê hành cấp quốc gia cấp châu Âu Khung hướng dẫn thực hoạt động cụ thể lộ trình khai thác xác định buổi thảo luận chi tiết nhóm công tác chuyên môn tham vọng ESS nguồn liệu Bigdata Mục tiêu chương trình hành động lộ trình thực khai thác Bigdata nhằm đưa việc khai thác loại liệu vào quy trình sản xuất sản phẩm thống kê Bigdata nguồn liệu linh hoạt, xác, kịp thời + Thống kê Phần Lan: Quan điểm chiến lược Phần Lan tận dụng thành công nguồn liệu thống kê hành giúp tăng tính kịp thời cho số liệu thống kê Phần Lan thành viên hệ thống Thống kê châu Âu, chiến lược Phần Lan thiết kế theo chiến lược hệ thống thống kê châu Âu Phần Lan có nhóm làm việc Big Data nội bộ, nhóm chịu trách nhiệm xây dựng chiến lược Big Data cho Thống kê Phần Lan Nhưng thời điểm này, Phần Lan chưa xác định trình kinh Tháng năm 2011: dự thảo Tầm nhìn Chiến lược ICT phát hành; Tháng năm 2011: Triển khai báo cáo Tầm nhìn Chiến lược ICT Tiến sĩ Ian Reinecke cung cấp; Tháng năm 2012: dự thảo Chiến lược ICT lần thứ hai phát hành 10 Sau kết thúc bước 5, thông qua công cụ API (Application Program Interface), kết liên kết hệ thống hệ thống xử lý, kho lưu trữ RDB KOSTAT hệ thống lưu trữ xử lý liệu phân tán HDFS/Hive liệu lớn Vể phía KOSTAT, liệu giá bán lẻ hàng tiêu dùng nhân viên KOSTAT thu thập xử lý theo phương pháp truyền thống cho kết số giá tiêu dùng lưu trữ kho lưu trữ liệu RDB Tại đây, thông qua công cụ API, liệu giá sản phẩm, số giá tiêu dùng đồng hóa với hệ thống xử lý liệu phân tán HDFS/Hive Ngược lại, công cụ API hỗ trợ hệ thống liệu lớn liên kết ngược lại với hệ thống KOSTAT việc cung cấp kết phân tích cho hệ thống KOSTAT Hình Liên kết hệ thống thông qua công cụ API Nguồn: A practice on Producing Daily online Price Index with a BPP, Ms.Jungim AHN, KOSTAT Trên hình minh họa quy trình liên kết hệ thống: Hệ thống thống xử lý, kho lưu trữ RDB KOSTAT hệ thống lưu trữ xử lý liệu phân tán HDFS/Hive liệu lớn Bước 7: Phổ biến kết Kết hiển thị thông qua bảng biểu, đồ thị, báo cáo công bố trực tiếp trang web quan thống kê KOSTAT, hay báo cáo hội thảo Hình Đồ thị bảng biểu thị kết tính toán 19 Nguồn: The KOSTAT Bigdata System, 황황황,28.11.2015 Kết Dự án Giá tiêu dùng trực tuyến thực tư tháng 9/2013 thu thập giá tư tháng 9-12/2013 để tính tốn thí điểm Dự án chương trình thử nghiệm KOSTAT việc sử dụng liệu lớn phục vụ công tác thống kê giá tiêu dùng Cho đến nay, việc tiến hàng thu thập giá tiêu dùng trực tuyến tiếp tục KOSTAT trì tiến hành song song với điều tra truyền thống Bên cạnh báo cáo hàng tháng số giá tiêu dùng theo phương pháp truyền thống, KOSTAT phổ biến báo cáo số giá tiêu dùng trực tuyến website thức để người dùng tham khảo Các kết tính toán số giá tiêu dùng trực tuyến KOSTAT thức phổ biến websites tư năm 2014 Ban đầu, kết báo cáo công bố hàng quý Tư quý II/2015 đến nay, kết tính tốn số giá tiêu dùng trực tuyến (online shopping) KOSTAT phổ biến bố dạng báo cáo hàng tháng Bảng bảng kết báo cáo số giá tiêu dùng trực tuyến tháng 03/2018, đăng websites thức KOSTAT để người dùng tham khảo Dưới hình ảnh minh họa cho kết tính tốn số giá tiêu dùng trực tuyến tháng 3/2018 KOSTAT công bố wesite http://KOSTAT.go.kr/ Bảng Báo cáo kết tính toán số giá tiêu dùng trực tuyến tháng 3/2018 quan Thống kê Hàn Quốc 20 Nguồn: http://KOSTAT.go.kr/portal/eng/pressReleases/3/1/index.board Kinh nghiệm quan Thống kê quốc gia Anh Tư năm 2014, Cơ quan Thống kê quốc gia Anh (ONS) tiến hành dự án liệu lớn cho thống kê nhà nước, đó có dự án “Sử dụng công nghệ Web Scraper để khai thác nguồn liệu liệu lớn phục vụ tính số CPI” Dự án “Sử dụng công nghệ Web Scraper để khai thác nguồn liệu liệu lớn phục vụ tính số CPI” ONS tiến hành 15 tháng (tư tháng 01 năm 2014 đến tháng năm 2015) Mục tiêu dự án nhằm khai thác nguồn liệu liệu lớn thông qua công nghệ Web Scraper để ứng dụng vào lĩnh vực thống kê giá Đồng thời phát triển phương pháp phân tích, xử lý nguồn liệu liệu lớn thu thập Trên sở kết đó so sánh với kết có tư việc thu thập truyền thống, giúp cho người khai thác thấy ưu điểm, hạn chế tính tốn chi phí, lợi ích việc ứng dụng nguồn liệu lớn thống kê nhà nước Dưới quy trình khai thác liệu giá tiêu dùng trực tuyến ONS: Hình Quy trình khai thác liệu giá tiêu dùng trực tuyến ONS 21 Bước 1: Thu thập trích xuất Dự án thử nghiệm liệu lớn lĩnh vực thống kê giá tiến hành xây dựng hệ thống web scrapers (cơng cụ trích xuất liệu tư mạng), thử nghiệm thu thập thông tin giá tiêu dùng mặt hàng ba chuỗi siêu thị lớn Tesco, Sainsbury and Waitrose Ba chuỗi siêu thị chiếm gần 50% thị phần thị trường hàng hóa tiêu dùng Việc trích xuất liệu viết dựa ngơn ngữ chương trình Python, cơng cụ Scrapy Mỗi ngày, hệ thống web scrapers tự động trích xuất liệu giá 33 nhóm mặt hàng rổ hàng CPI (tương ứng với 11.155 mặt hàng chi tiết) vào lúc 5h sáng Số lượng mặt hàng mục trích xuất liệu phụ thuộc vào số lượng sản phẩm kho siêu thị Bình quân, kỳ, có khoảng 7.000 mục giá trích xuất ngày (tương đương khoảng 21.0000 mục tháng), lớn hẳn số mục giá thu thập theo phương pháp truyền thống (khoảng 6.800 mục) Bên cạnh giá sản phẩm, tên sản phẩm thơng tin giảm giá trích xuất Tuy nhiên thông tin giảm giá mua nhiều không trích xuất Dưới bảng so sánh kết thu thập giá tiêu dùng hai phương pháp: Phương pháp truyền thống thông qua điều tra phương pháp thu thập việc trích xuất liệu (dữ liệu lớn) dự án ONS thực Bảng So sánh phương pháp truyền thống phương pháp thu thập trực tuyền 22 Phương pháp thu thập truyền thống Phương pháp thu thập trực tuyến 105.000 mặt hàng cấp thu thập 33 mặt hàng cấp chuỗi cửa hàng (11.155 mặt hàng chi tiết nhóm thực phẩm, nước uống, đồ uống có cồn (mặt hàng cấp 2)* Phạm vi 150 điểm toàn quốc 03 chuỗi cửa hàng trực tuyến lớn (Sainsbury’s, Tesco, Waitrose), chuỗi 33 mặt hàng Kết 6.800 giá/tháng (33 mặt hàng) Khoảng 7.000 giá/ngày Tần suất Hàng tháng Hàng ngày Phương pháp thu thập Phỏng vấn trực tiếp cửa hàng qua điện thoại báo cáo qua email Trích xuất liệu (web scraped data) Số lượng Hoạt động trích xuất tiến hành theo quy trình hoạt động lặp lại liên tục Do yêu cầu trích xuất liệu cách đặn hàng ngày nên để chuyên gia kỹ thuật thực thao tác trích xuất liệu với hàng ngàn phép lặp giống hàng ngàn mặt hàng tiêu dùng thời gian Chính vậy, để giải vấn đề ONS sử dụng công cụ tự động Selenium tự động kết nối với trình duyệt lặp lại thao tác trích xuất liệu Dữ liệu sau trích xuất tiến hành lưu trữ thơng qua công cụ AWS cung cấp Amazon Bước 2: Phân loại liệu Việc phân loại giá cách hiệu thách thức dự án Cấu trúc tích hợp CPI dựa hệ thống phân loại quốc tế cho tiêu dùng gia đình gọi COICOP (Bảng phân loại theo mục đích sử dụng cuối hộ gia đình) Dưới cấp COICOP, chọn mặt hàng tiêu biểu để thu thập giá Khi tiến hành trích xuất liệu, khơng có đồ hướng dẫn mục liên quan tới sản phẩm mơ tả Vì vậy, cần áp dụng kỹ thuật máy giám sát để tiến hành phân loại liệu Mỗi siêu thị mà dự án trích xuất liệu có cấu trúc phân loại sản phẩm riêng cập nhật thường xuyên Thực tế, với sản phẩm có thể có nhiều sản phẩm khác liên quan, tương tự với sản phẩm mô tả Do đó, 23 cần hệ thống để phân loại sản phẩm vào COICOP loại bỏ sản phẩm không phù hợp với mặt hàng mô tả Vấn đề gặp phải là, ta tìm kiếm danh mục sản phẩm thường xuất hạng mục liên quan Chẳng hạn tìm kiếm giá mặt hàng táo với tư khóa “táo” có thêm mục liên quan “nước ép táo”,“táo sấy”,… Sự xuất thông tin liên quan gây nhiễu cho thông tin mà ta muốn tìm kiếm Vậy để giải tình trạng này? Thực tế, kỹ thuật máy giám sát đưa hàm toán học cho phép ta lọc liệu cách tự động Hàm có tên gọi máy hỗ trợ vector SVM (Support vector machine Model) SVM giúp phân loại sản phẩm tư khóa sản phẩm tư khóa kết hợp có tên sản phẩm thông qua việc dán nhãn mặt hàng thuộc danh mục 33 mặt hàng thu thập thông qua trích xuất liệu Kết việc trích xuất, phân loại liệu cho liệu thô Tiếp theo liệu thô kiểm tra Đây bước bắt buộc có khả thuật toán phân loại liệu có số liệu bị phân loại nhầm, điều dẫn tới chệch kết Bước 3: Kiểm tra liệu Kiểm tra liệu nhằm phát bất thường nhóm khơng kiểm sốt) Quy trình giúp xác định liệu bất thường khối liệu thô Thực tế, thông qua việc quan sát trực tiếp kiểm tra có thể dễ dàng phát lỗi bất thường Tuy nhiên, việc kiểm tra thời gian không hiệu quả, đặc biệt với tập liệu lớn liệu lớn Vì vậy, dự án xây dựng phương pháp tự động phát lỗi sử dụng kỹ thuật máy không giám sát Dựa giả định lỗi bất thường xuất phân bổ khác nhau, ảnh hưởng tới phân loại cách xác Vì phân bổ xác định xác ta có thể dễ dàng đánh dấu liệu bị phân loại sai liệu bất thường Kỹ thuật máy không giám sát nhằm xác định phân bổ liệu gọi kỹ thuật phân tích cụm liệu Nguyên tắc kỹ thuật phân cụm liệu phân chia sản phẩm vào tưng cụm vào giá sản phẩm (các sản phẩm có giá tương tự phân chia vào cụm tương đồng) Hình Ví dụ hình thành phân cụm mặt hàng táo (món tráng miệng), đv:kg 24 Hình cho thấy, việc phân cụm mặt hàng táo dựa theo tiêu chí số lượng sản phẩm khoảng biến thiên giá sản phẩm Chẳng hạn, với điểm quan sát có số lượng sản phẩm lớn khoảng biến thiên giá nhỏ 0.10 có thể phân thành cụm Hình Kết phân cụm giá mặt hàng táo Bước 4: Gán liệu Trong trình thu thập liệu xảy tình có thể giá mặt hàng thu thập bị biến hết hàng mặt hàng thu đó bị thay mặt hàng khác Dữ liệu mặt hàng loại gọi liệu bị thiếu Để xử lý liệu bị thiếu (missing prices) (do hết hàng thay mặt hàng), ONS tiến hành công việc gán liệu Việc gán liệu tiến hành dựa nguyên tắc sau: Nếu liệu bị thiếu sản phẩm khơng có sẵn (hết hàng), giá sản phẩm chuyển thu thập tối đa ba ngày tiếp theo; 25 Nếu liệu thiếu lỗi thu thập q trình trích xuất giá chuyển sang thu thập thời gian tối đa bảy ngày tiếp theo; Nếu khơng tính đến giá, thay hiển thị bình thường, liệu hiển thị dạng dấu ba chấm “…” Bước 5: Tính tốn số giá tiêu dùng Cho đến ONS xây dựng phát triển số giá tiêu dùng sử dụng liệu liệu lớn Các số gồm: Chỉ số giá chuỗi ngày Chỉ số chuỗi ngày xây dựng tư số song phương hàng ngày Các số nối liền với để tạo thành số liên tục Chỉ số giá Jevon chuỗi ngày kỳ t với kỳ sở kỳ tính cơng thức: Trong đó P0,tDC số giá chuỗi ngày kỳ t, kỳ sở kỳ P0,t-1DC số giá chuỗi ngày kỳ liền trước kỳ t (kỳ t-1), kỳ sở kỳ Pt-1,tJ số giá Jevon kỳ t, kỳ sở kỳ t-1 Pi-1,iJ số giá Jevon hàng ngày (chỉ số giá Jevon ngày thứ i, ngày sở i-1) Chỉ số giá Jevon chuỗi ngày tính cho hàng tháng, hàng tuần, trung bình nhân số giá Jevon chuỗi ngày tháng, tuần Chỉ số giá đơn vị Chỉ số giá đơn vị giá bình quân kỳ (hàng tuần hàng tháng), sử dụng để tính số giá rổ hàng cố định Chỉ số giá đơn vị hàng ngày tương tự số giá Jevon cho rổ hàng cố định, tính theo cơng thức sau: Trong đó: PUP0,t giá đơn vị kỳ t, kỳ sở kỳ Pj0,t số giá Jevon kỳ t, kỳ sở kỳ 26 Pjt giá mặt hàng j, kỳ t Pj0 giá mặt hàng j, kỳ sở (kỳ 0) j số thứ tự mặt hàng S* tập sản phẩm tất kỳ n* số lượng sản phẩm tập S* Trên thực tế, số giá đơn vị hàng ngày thường nhỏ nên ta thường không công bố số giá đơn vị theo ngày Thay vào đó, số giá đơn vị hàng tuần, hàng tháng sử dụng, cơng thức tính sau: Trong đó: PUP0,t giá đơn vị kỳ t, kỳ sở kỳ Pj0,t số giá Jevon kỳ t, kỳ sở kỳ Pj-t trung bình nhân nt giá sản phẩm theo ngày (k=1,2,…,nt) sản phẩm thứ j kỳ t Cụ thể: Về bản, số giá đơn vị hàng tuần, hàng tháng…được tính tương tự số giá đơn vị hàng ngày Tuy nhiên giá sử dụng công thức tính số giá đơn vị hàng tuần, tháng…là giá trung bình nhân kỳ nghiên cứu Dưới biểu đồ minh họa kết tính tốn 02 loại số giá chuỗi ngày số giá đơn vị cho 02 nhóm mặt hàng đồ uống có cồn thực phẩm, đồ uống không cồn Kết nằm dự án ứng dụng liệu lớn tính số giá tiêu dùng ONS thực Hình 10 So sánh số chuỗi ngày số giá đơn vị 02 nhóm mặt hàng đồ uống có cồn thực phẩm, đồ uống không cồn 27 Chỉ số giá GEKSJ GEKS – loại số giá đề xuất Gini, Eltetö, Kưves Szulc Phương pháp GEKS lấy trung bình số song phương thời kỳ sở giai đoạn Chỉ số GEKS độc lập với số chuỗi ngày sử dụng nhiều liệu so với số chuỗi ngày Ở đây, ONS sử dụng nhân tố số giá Jevon để tính số giá tương đối Cách tiếp cận dẫn tới việc tính tốn số giá GEKS Jevon hay ký số giá GEKSJ, Chỉ số giá GEKSJ hàng ngày tính theo cơng thức sau: Trong đó PGEKS,J0,t số giá GEKSJ kỳ t, kỳ sở PJ0,i số giá Jevon kỳ i, kỳ sở PJi,t số giá Jevon kỳ t, i kỳ sở PJ0,i PJi,t ký hiệu chung PJs,t với s kỳ sở, t kỳ nghiên cứu Cơng thức tính PJs,t sau: Trong đó 28 Pjt giá sản phẩm j kỳ t S(s,t) tập hợp sản phẩm chung cho kỳ sở (s) nghiên cứu (t) n(s,t) số lượng sản phẩm S(s,t) Chỉ số giá GEKSJ hàng tuần, hàng tháng… tính tương tự cách tính số giá GEKSJ hàng ngày; nhiên, công thức cụ thể viết sau: Trong đó PJ0,i PJi,t ký hiệu chung PJs,t với s kỳ sở, t kỳ nghiên cứu với: Trong đó S(s,t) tập hợp sản phẩm chung cho kỳ sở (s) nghiên cứu (t) n(s,t) số lượng sản phẩm S(s,t) Pj-t trung bình nhân nt giá sản phẩm theo ngày (k=1,2,…,nt) sản phẩm thứ j kỳ t Cơng thức tính: Hiện nay, ONS tiếp tục sử dụng liệu giá trích xuất tư websites loại liệu thức hỗ trợ cho công tác thống kê giá truyền thống Bên cạnh báo cáo tiêu dùng theo phương pháp điều tra truyền thống công bố ấn phẩm số giá tiêu dùng hàng tháng có báo cáo tình hình tiêu dùng trực tuyến Dưới bảng số liệu minh họa kết báo cáo hàng tháng tình hình tiêu dùng ONS cơng bố websites thức: https://www.ons.gov.uk/search?q=consumer+price Bảng 7.Tóm tắt số liệu thống kê giá tiêu dùng từ internet: tháng năm 2018 29 Kết nghiên cứu cho thấy, số giá tiêu dùng loại mặt hàng tính tư hai loại liệu (dữ liệu thu thập theo phương pháp truyền thống liệu thu thập theo phương pháp trích xuất) xảy hai khả Hoặc hai loại số giá tương đồng nhau, có khác biệt, khác biệt không đáng kể Chẳng hạn trường hợp ONS Trong khoảng thời gian 10 tháng (tư tháng 6/2014 đến tháng 4/2015), số giá tiêu dùng CPI truyền thống (CPI Publish) cho 33 mặt hàng thực phẩm đồ uống giảm 2.5% số giá tiêu dùng tính tư liệu trích xuất (CPI Web Scraped) giảm 6.7%, mức chênh lệch không lớn (4.2%) Tuy nhiên xu biến động 02 loại số (CPI truyền thống CPI Web scraped) nhìn chung tương đồng với Dưới hình ảnh minh họa kết tính tốn số giá tiêu dùng CPI tính tư liệu giá truyền thống với số giá tiêu dùng tính tư liệu giá trích xuất ONS, trường hợp mặt hàng thực phẩm đồ uống có cồn (kỳ gốc tháng 6/2014) Hình 11 So sánh số giá tiêu dùng truyền thống số giá tiêu dùng Web scraped ONS (6/2014-4/2015) Nguồn: Cơ quan Thống kê Anh Đối với quan Thống kê Ba Lan (GUS) việc ứng dụng liệu lớn hoạt động thống kê tổ chức thực tư sớm Dự án thử nghiệm thu thập giá mặt hàng tiêu dùng tư mạng trực tuyến tổ chức thực 30 tư tháng 8/2015- tháng 4/2016) Kết cho thấy độ lệch số giá tiêu dùng 02 phương pháp thu thập (thu thập truyền thống thu thập trực tuyến) không 0.3 điểm phần trăm Đây kết tốt Mặc dù kết có khác biệt có thời điểm trùng đặc biệt phản ánh xu hướng tiêu dùng tưng giai đoạn Hình sau minh họa rõ xu số giá tiêu dùng theo thời gian 02 phương pháp: Hình 12 So sánh số giá tiêu dùng truyền thống số giá tiêu dùng Web scraped GUS (6/2014-4/2015) Nguồn:http://www.carmaconf.org/wp-content/uploads/pdfs/3133.pdf Ghi chú: CASE: đường số giá tính theo liệu lớn; GUS: đường số giá tính theo phương pháp truyền thống Một ví dụ đưa tư kết nghiên cứu Dự án tỷ giá (The Billion Prices Project)14 Dưới đồ thị so sánh mức độ lạm phát đo lường theo giá tiêu dùng trực tuyến mức độ lạm phát đo lường theo giá truyền thống số quốc gia, khu vực phân theo tưng lĩnh vực Điều đáng ý mức độ tương đồng mà hai số phản ánh Biến động số có thể khác biệt theo tháng, nhiên biến động giai đoạn khơng thay đổi Hình 13 So sánh số giá tiêu dùng hàng năm số quốc gia theo lĩnh vực 14 Dự án tỷ giá (BPP) khởi xướng hai trường đại học danh tiếng MIT Sloan Harvard Ý tưởng dự án sử dụng giá bán trực tuyến hàng ngày tư hàng trăm nhà bán lẻ trực tuyến toàn hế giới để tiến hành nghiên cứu kinh tế vĩ mô Dự án bắt đầu vào năm 2008 giáo sư Alberto Cavallo Roberto Rigobon 31 Nguồn:The Billion Prices Project: Using OnlinePrices for Measurement and Research, Alberto Cavallo Roberto Rigobon Như việc sử dụng liệu lớn phục vụ công tác thống kê nói chung, cụ thể thống kê giá hoàn toàn khả thi Chỉ số giá tiêu dùng trực tuyến có thể kênh thông tin bổ sung hữu ích số giá truyền thống Các quốc gia có thể sử dụng số giá tiêu dùng trực tuyến làm kênh kiểm định xu hướng biến động số giá tiêu dùng nhằm đảm bảo tính xác kịp thời 32 Tài liệu tham khảo: Research indices using web scraped data: May 2016 update, Robert Breton, Tanya Flower, Matthew Mayhew, Elizabeth Metcalfe, Natasha Milliken, Christopher Payne, Thomas Smith, Joe Winton and Ainslie Woods; Alberto Cavallo, MIT, “The Billion Prices Project: Research and Inflation Measurement Applications; The KOSTAT Bigdata System, 황황황, 2015; A practice on Producing Daily online Price Index with a BPP, Ms.Jungim AHN, KOSTAT; Tài liệu Báo cáo kết công tác Tổng cục Thống kê quan Thống kê Hàn Quốc năm 2015, TS Đinh Thị Thúy Phương; http://KOSTAT.go.kr/portal/eng/pressReleases/3/1/index.board https://www.ons.gov.uk/ 33 ... nghiệm khai thác liệu lớn phục vụ công tác thống kê giá Hàn Quốc (KOSTAT) quan Thống kê quốc gia Anh (ONS), (3) Chiến lược khai thác liệu lớn Thống kê Việt Nam I TỔNG QUAN VỀ KHAI THÁC NGUỒN DỮ LIỆU... liệu lớn liệu truyền thống Dữ liệu lớn khác với liệu truyền thống điểm bản: Dữ liệu đa dạng hơn; lưu trữ liệu lớn hơn; truy vấn nhanh hơn; độ xác cao (1) Dữ liệu đa dạng hơn: Khi khai thác liệu truyền... thập, tiến hành trích xuất liệu Mục tiêu thu thập dự án có giá mặt hàng tiêu dùng danh mục hàng hóa tiêu dùng, tư đó theo dõi biến động giá mặt hàng tính toán số giá tiêu dùng Việc lựa chọn danh

Ngày đăng: 14/05/2021, 10:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w