1. Trang chủ
  2. » Giáo án - Bài giảng

Việc sử dụng các bằng chứng hoạt động web nhằm tăng tính kịp thời các chỉ tiêu thống kê chính thức

16 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 708,78 KB

Nội dung

Cộng đồng thống kê chính thức phản ứng với những cơ hội và thách thức được cung cấp bởi dữ liệu lớn. Ở châu Âu, Thủ trưởng các Viện thống kê quốc gia và Ủy ban Thống kê châu Âu (Eurostat) đã nhất trí về biên bản ghi nhớ giải quyết các vấn đề về nguồn dữ liệu lớn. Một trong những nguồn dữ liệu lớn sẵn có của thống kê chính thức là các dấu vết điện tử để lại khi người sử dụng truy cập vào các dịch vụ web. Nhiều dịch vụ cung cấp dữ liệu dựa trên các dấu vết để lại ở thời gian thực hoặc khoảng thời gian ngắn. Nhiều hoạt động của con người được đo lường bằng số liệu thống kê chính thức có liên quan chặt chẽ đến hành vi của người dùng trực tuyến, dữ liệu hoạt động web cung cấp tiềm năng để báo các chỉ tiêu kinh tế-xã hội với mục đích tăng tính kịp thời của số liệu thống kê. Nhiều thí nghiệm được tiến hành gần đây cho thấy những dự báo này có thể thực hiện được. Tuy nhiên, có mô hình dự báo tốt là chưa đủ để sản xuất ra số liệu thống kê chính thức. Nếu muốn đánh giá khả năng sử dụng nguồn dữ liệu lớn thì chúng ta cần phải suy nghĩ về tính minh bạch, tính liên tục, chất lượng và tiềm năng được tích hợp với các phương pháp thống kê truyền thống, cũng nghiên cứu chi tiết hơn về mối quan hệ giữa hoạt động web với các hiện tượng được dự báo.

IAOS 2014 Việc sử dụng chứng … VIỆC SỬ DỤNG CÁC BẰNG CHỨNG HOẠT ĐỘNG WEB NHẰM TĂNG TÍNH KỊP THỜI CÁC CHỈ TIÊU THỐNG KÊ CHÍNH THỨC Fernando Reis, Pedro Ferreira Vittorio Perduca, Ủy ban Thống kê châu Âu Tóm tắt Cộng đồng thống kê thức phản ứng với hội thách thức cung cấp liệu lớn Ở châu Âu, Thủ trưởng Viện thống kê quốc gia Ủy ban Thống kê châu Âu (Eurostat) trí biên ghi nhớ giải vấn đề nguồn liệu lớn Một nguồn liệu lớn sẵn có thống kê thức dấu vết điện tử để lại người sử dụng truy cập vào dịch vụ web Nhiều dịch vụ cung cấp liệu dựa dấu vết để lại thời gian thực khoảng thời gian ngắn Nhiều hoạt động người đo lường số liệu thống kê thức có liên quan chặt chẽ đến hành vi người dùng trực tuyến, liệu hoạt động web cung cấp tiềm để báo tiêu kinh tế-xã hội với mục đích tăng tính kịp thời số liệu thống kê Nhiều thí nghiệm tiến hành gần cho thấy dự báo thực Tuy nhiên, có mơ hình dự báo tốt chưa đủ để sản xuất số liệu thống kê thức Nếu muốn đánh giá khả sử dụng nguồn liệu lớn cần phải suy nghĩ tính minh bạch, tính liên tục, chất lượng tiềm tích hợp với phương pháp thống kê truyền thống, nghiên cứu chi tiết mối quan hệ hoạt động web với tượng dự báo Từ khóa: Dữ liệu lớn, đại hóa, web, dự báo, ước tính nhanh Giới thiệu Dữ liệu lớn làm cho cộng đồng thống kê thức ý đến tồn nhiều nguồn liệu có khả sử dụng sản xuất số liệu thống kê Một nguồn dấu vết để lại người sử dụng dịch vụ web, liên quan đến khía cạnh khác đời sống xã hội người sử dụng đo số liệu thống kê thức Ví dụ, đối mặt với thất bại Người dùng sử dụng liệu web có khả cung cấp nhanh dịch vụ web dịch vụ điện tử hỗ trợ hoàn toàn hệ thống IT mức độ tự động hóa cao Những liệu tự động lưu trữ sở liệu hỗ trợ dịch vụ web ghi máy chủ Một số liệu cơng cộng (ví dụ Twitter) mẩu tin quảng cáo (dưới dạng tổng hợp) dịch vụ web (ví dụ Google) cơng việc, người dùng tìm kiếm thơng tin Hiện có số kinh nghiệm việc sử việc làm mạng, tham khảo trang web dụng liệu hoạt động web để dự báo tiêu liên quan đến việc làm đăng viết thống kê kinh tế-xã hội, tỷ lệ mắc bệnh cúm, Facebook hay Twitter thất nghiệp, du lịch luồng di cư Một số quan thống kê tiến hành nghiên cứu CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 83 83 Việc sử dụng chứng … IAOS 2014 Trong viết này, thấy cách tương đối dễ dàng để tích hợp số liệu hoạt động tìm kiếm web người sử dụng nhằm tăng độ xác mơ hình dự báo đơn giản, trường hợp thất nghiệp Tuy nhiên, thống kê thức sử dụng liệu hoạt động web để ước tính nhanh tiêu kinh tế-xã hội khơng nên làm điều cách tái tạo người khác làm, thay làm điều làm cho việc sử dụng lợi so sánh cụ thể Để tích hợp loại nguồn tính tốn ước tính nhanh tiêu kinh tế-xã hội thức, quan thống kê cần phải giải số thách thức Những kinh nghiệm cung cấp học quan trọng giúp giải thách thức Phần viết tóm tắt hội thách thức liệu lớn thống kê thức mơ tả hành động thực hệ thống thống kê châu Âu; Phần mô tả công việc trước nhà nghiên cứu nhà thống kê thức dự báo tiêu kinh tế-xã hội dựa hoạt động web; Phần ví dụ mơ hình đơn giản nhằm cải thiện tính kịp thời số liệu thống kê thất nghiệp dựa liệu thức liệu Google Trends; Phần minh họa kinh nghiệm Eurostat ước tính nhanh dựa liệu thứ cấp làm để phát triển sản phẩm thống kê dựa liệu lớn; Phần giới thiệu liệu hoạt động web việc tính tốn ước tính nhanh Đối phó với thách thức liệu lớn Hệ thống thống kê châu Âu14 2.1 Dữ liệu lớn, liệu Sau nhiều kỷ, người thu thập liệu kinh tế xã hội vượt qua độc quyền quan thống kê Bây giờ, liệu tất xung quanh Những khan phải thu thập cách đắt đỏ trở thành tài ngun dồi sẵn có Dữ liệu lớn nghĩa trước tiên liệu hết mức tối đa để số liệu thống kê thức bao gồm liệu loại có đặc điểm khác với nguồn liệu truyền thống Thêm vào phép đo định lượng truyền thống đặc điểm định tính cá nhân doanh nghiệp, liệu lớn mang lại thừa nhận tìm thấy giá trị loại liệu Điều bao gồm liệu mạng (ví dụ mạng xã hội truyền thơng điện thoại di động), văn (ví dụ Twitter), hình ảnh, âm video Bằng chứng hoạt động web bao gồm dấu vết để lại người sử dụng dịch vụ web đăng ký tập tin ghi nhận kiện (log file) Web server (đôi biên soạn dạng tổng hợp cung cấp nhà cung cấp) thông tin (thường văn bản) nhập vào người sử dụng sẵn có trang web Các nguồn liệu đưa thách thức đặc biệt cho số liệu thống kê thức Thứ nhất, tổ chức nắm giữ liệu nằm thẩm quyền nhà chức trách thống kê (ví dụ họ cơng ty nước ngoài, chẳng hạn Google, Facebook) Thứ hai, thứ tự tầm quan trọng liệu thu thập Viện thống kê quốc gia (NSI) từ chủ sở liệu cao nhiều so với sưu tập liệu truyền thống Điều gây hai 14 Các nội dung chương trích từ phần báo (Reis, Demunter, "Công việc Eurostat liệu lớn Biên ghi nhớ Scheveningen") gửi Tạp chí quốc tế Thơng tin khoa học địa lý, vấn đề đặc biệt 84 hậu Một mặt, điều khơng hợp lý để mang tên "Địa lý Mobility: ứng dụng liệu Location Based" CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 84 IAOS 2014 Việc sử dụng chứng … lại gánh nặng cho việc biên soạn truyền dẫn liệu đến nhà cung cấp liệu Mặt khác, tỷ lệ thơng tin khơng có ý nghĩa tăng đáng kể Thứ ba, số trường hợp, quan thống kê quan tâm đến liệu có giá trị thương mại cho nhà cung cấp liệu chúng có giá trị cốt lõi mơ hình kinh doanh (ví dụ Google, Facebook) 2.3 Tác động đến sản xuất số liệu thống kê thức Các hành động chủ yếu từ thiết kế ban đầu để tái sử dụng nguồn thứ cấp chắn đòi hỏi biến đổi NSI Thứ nhất, trình sản xuất số liệu thống kê thay đổi kỹ nhà thống kê thức Từ người 1.2 Cơ hội liệu lớn thiết kế với mục đích sản xuất hệ thống Các nguồn liệu cung cấp nhiều hội thống kê nguyên tử cho sản phẩm thống kê cụ cho số liệu thống kê thức Nhiều nguồn liệu lớn bao gồm liệu lớn NSI sử dụng để cung cấp số liệu thống kê chi tiết nhiều so với phương pháp sản xuất thống kê truyền thống Sự chi tiết mức độ địa phương, mà để sản xuất số liệu thống kê cho nhóm dân số nhỏ mà chưa thống kê thức đáp ứng Cơ hội khác khả sử dụng liệu có sẵn, chi phí thấp so với phương pháp truyền thống Đây để nói nguồn liệu lớn miễn phí Như đề cập trước đó, số tập liệu lớn khơng hợp lý để rời khỏi trách nhiệm cung cấp liệu thống kê đến vài nhà cung cấp liệu Cơ hội liên quan viết khả truy cập đến liệu sau kiện xảy Do nguồn liệu lớn thông thường bắt nguồn từ hệ thống tự động thể, nhà thống kê cần trở thành nhà thiết kế sản phẩm thống kê nhằm mục tiêu đáp ứng nhu cầu xã hội hay nhà hoạch định sách dựa vơ số nguồn liệu Đây thay đổi xảy nhiều lý khác Việc sử dụng nguồn liệu hành tăng lên thập kỷ qua, việc sử dụng nguồn thứ cấp với NSI Sự cần thiết phải đại hóa hệ thống sản xuất thống kê (để tăng tính hiệu linh hoạt) khởi xướng phong trào hướng tới việc hội nhập sản xuất số liệu thống kê lĩnh vực khác Thứ hai, liệu lớn cuối mang lại nhiệm vụ trách nhiệm cho NSI Cụ thể, thống kê thức đảm nhận vai trò đảm bảo chất lượng số liệu thống kê sản xuất từ nguồn liệu lớn, tự tổ chức khác, thơng qua chế kiểm định chứng nhận chất lượng [2] hóa nên khơng có độ trễ thời gian tập hợp 2.4 Phân tích thách thức liệu Trong trường hợp hoạt động dịch vụ Tuy nhiên, liệu lớn đầy đủ liệu web người sử dụng trang web tự Nó thể thay đổi quan điểm liệu động đăng ký sở liệu Trong số công ty tư nhân xây dựng mơ hình file log web server Trong trường hợp dịch vụ kinh doanh hoàn chỉnh dựa thăm dò liệu web cung cấp liệu có nguồn gốc từ hoạt thương mại (ví dụ Google, Facebook), có động người dùng, họ làm điều nhanh người lại tìm cách kiếm tiền từ liệu (một (xem thêm ví dụ Google) số trường hợp làm việc công ty thời CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 85 85 Việc sử dụng chứng … IAOS 2014 gian) Năng động việc tìm kiếm cách (Nhóm cấp cao UNECE đại hoá sản xuất thức sáng tạo để khám phá liệu qua phương dịch vụ thống kê, 2011) pháp, cơng cụ phân tích liệu gia tăng Nhận thấy tầm quan trọng chiến lược ngoạn mục liệu sẵn có (hoặc khả liệu lớn cho Eurostat, Giám đốc Viện Thống kê để thu thập liệu), điều dẫn đến diện quốc gia châu Âu trí ghi nhớ địa mạo sản phẩm liệu dựa nhiều liệu lớn thức thơng qua ESSC vài phân tích phức tạp, đặc biệt phân Scheveningen tháng 9/2013 tích dự báo trước Biên ghi nhớ Scheveningen ghi nhận Trong giới liệu lớn để thử nghiệm mức độ gia tăng số hóa xã hội, để lại dấu vết số hóa phân tích, thống kê thức khơng thể tránh người rời đi, cung cấp hội cho việc biên khỏi thiếu hụt phân tích Do đó, liệu lớn soạn số liệu thống kê dựa khái niệm đại diện cho thống kê thức với thống kê thức Đặc biệt, cung cấp giải pháp thách thức người sử dụng thống kê thay để đối phó với thách thức phải sản phảm thống kê mà họ mặt nay, chẳng hạn tỷ lệ đáp ứng cần quen với việc sử dụng nơi khác Loại sản phẩm thống kê nêu viết ví dụ sản phẩm phân tích Dựa tính kịp thời cao số nguồn dựa hoạt động web cá nhân, có khả sử dụng mơ hình dự báo để cung cấp cho người dùng ước tính nhanh tiêu kinh tế-xã hội truyền thống thời gian ngắn thiết phải nâng cao hiệu tổng thể hệ thống sản xuất thống kê Tuy nhiên, Biên ghi nhớ Scheveningen công nhận việc sử dụng liệu lớn đặt thách thức cho Eurostat Do đó, kiểm tra khả chiến lược phát triển thống kê thức từ liệu lớn Để đưa chiến lược lộ trình vậy, Eurostat hình thành lực lượng đặc nhiệm gồm nhiều người từ Eurostat, NSI, tổ chức 2.5 Biên ghi nhớ Scheveningen công việc quốc tế khác học viện Mặc dù dễ nhận liệu lớn có khả Nhận thấy thay đổi điều kiện môi gây tác động lớn, giai đoạn không dễ trường hoạt động thống kê thức, cộng dàng xem xét liệu lớn có ý nghĩa đối đồng quốc tế nhà thống kê thức phản với thống kê thức Các nguồn liệu có ứng lại thể sẵn sàng cho việc sản xuất số liệu thống kê, Nhóm cấp cao UNECE đại hố sản xuất dịch vụ thống kê đưa tầm nhìn chiến lược (UNECE, 2010), việc tạo sản phẩm thống kê dựa thăm dò hoạt động nguồn liệu yếu tố then chốt đại hóa số liệu thống kê thức 86 nhiều khả nguồn liệu có đặc thù riêng Chiến lược dự kiến lực lượng đặc nhiệm Eurostat thành lập đặc trưng ba yếu tố Thứ nhất, bắt đầu việc thử nghiệm ứng dụng cụ thể nguồn liệu lớn để sản xuất số liệu thống CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 86 IAOS 2014 Việc sử dụng chứng … kê truyền thống phạm vi NSI Các chương trình nghĩa điều khoản theo ln ln gia tăng số tìm thử nghiệm chứng minh tiềm liệu lớn kiếm theo dõi Tuy nhiên, tính kịp thời cao cung cấp kinh nghiệm để thấy ý nghĩa Google Trends thúc đẩy đáng kể số lượng liệu lớn số liệu thống kê thức Thứ hai, nghiên cứu dành riêng cho việc sử dụng nguồn việc thơng qua lộ trình qua ba tầng nhận thức để tổ để dự báo số kinh tế-xã hội với mục đích đạt chức kế hoạch hành động: ngắn hạn, trung hạn kết nhanh so với công bố dài hạn Các chương trình thử nghiệm sau quan thống kê thức phần chiến lược ngắn hạn Thứ ba, xem xét lộ trình dựa học kinh nghiệm từ chương trình thử nghiệm phát triển phương pháp luận, kỹ thuật liệu lớn Việc sử dụng liệu hoạt động web để dự báo tiêu kinh tế-xã hội đề xuất từ đầu năm 2005 [7] cho tỷ lệ thất nghiệp Dựa ý tưởng phần lớn việc thu thập thông tin liên quan đến công việc thực thông qua Internet, tác giả nghiên cứu mối quan hệ Mỹ từ Báo cáo liệu khóa tiên dự báo tiêu kinh tế-xã hội dựa để dự báo số tiêu ngắn hạn như: doanh số bán xe, doanh số bán lẻ, doanh số bán nhà số liệu thống kê thức từ nghiên cứu mạng nỗ lực đầu liệu Google Trends Bài viết sử dụng liệu tìm kiếm Kinh nghiệm nay, bao gồm số 500 Google công bố năm 2009 nhật ký WordTracker (truy cập http://www.top-keywords.com/longterm.html tháng 9/2014) tỷ lệ thất nghiệp hàng tháng Cục lượng khách truy cập Kết cho thấy mơ hình chuỗi thời gian tự động thối lui đơn giản, giới thiệu liệu tìm kiếm dự báo độ xác qua dự báo ngắn hạn họ Ngoài yếu tố dự báo trễ, liệu tìm kiếm sử dụng để dự báo tiêu Khi liệu tìm kiếm qua Google Trends phát hành với tính kịp thời cao, sau tham khảo vài ngày, mô cho phép đưa dự báo thực tế cho thời điểm Thống kê lao động công bố Kết nghiên cứu Một số nghiên cứu khác sử dụng cho thấy có liên kết quan trọng tích cực liệu Google Trends để đưa dự báo số cơng cụ tìm kiếm sử dụng từ khóa liệu số liệu tiêu giống số tiêu khác Giữa thất nghiệp thức Tuy nhiên nghiên cứu số khác, tìm thấy dịch bệnh cúm khơng dự báo tỷ lệ thất nghiệp qua việc sử [14], thất nghiệp ([10], [9], [25]), tiêu dùng cá dụng liệu tìm kiếm web mà đơn giản mức nhân ([15], [13],[22]) thiết lập mối tương quan hai nguồn liệu 3.1 Google Trends 3.2 Những học từ nghiên cứu dịch cúm Google Trends Năm 2006, Google tung sản phẩm "Google Dựa nghiên cứu tập trung vào việc sử Trends" (xem [16] ví dụ thông báo phương dụng hoạt động web để giám sát dịch cúm, Google tiện truyền thông trực tuyến), dịch vụ cung đưa năm 2008, xu hướng dịch cúm Google cấp liệu cách nhập vào cơng cụ tìm kiếm Trends, sử dụng cách tổng hợp liệu tìm điều kiện cụ thể thời gian định Công cụ kiếm Google để dự đoán diễn biến dịch cúm ban đầu dùng để nhận biết xu hướng điều khoản, Hoa Kỳ, đem lại tính kịp thời cao so với CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 87 87 Việc sử dụng chứng … IAOS 2014 số công bố từ Trung tâm Kiểm sốt Phòng chống ngun tắc thống kê thức dịch bệnh (CDC) [23], điều cần thiết để giải thích tính xác Kinh nghiệm từ dịch cúm Google Trends (GFT) cung cấp học việc sử dụng liệu tìm kiếm để ước tính nhanh lĩnh vực thống kê thức Giữa năm 2009 năm 2013 GFT hoạt động tốt Tuy nhiên, năm 2009, GFT số liệu thống kê thức người sử dụng, bao gồm nhà nghiên cứu muốn đánh giá số liệu thống kê tiến hành nghiên cứu Khả nhân rộng quan trọng giai đoạn này, nơi học hỏi kinh nghiệm NSI thất bại việc ước lượng xác số liệu GFT ví dụ khác ứng dụng đề thức từ CDC theo ước tính tỷ lệ mắc cập phần trước dựa Google Trends (GT), bệnh cúm, thay đổi hành vi tìm kiếm số tính tốn từ câu hỏi tìm kiếm cá người dân dẫn đến thay đổi thuật toán GFT nhân người sử dụng Google không cung cấp Năm 2013, theo quy luật tự nhiên, dự báo mùa quyền truy cập vào liệu câu hỏi tìm kiếm cúm cao điểm năm 2012/2013, GFT ước tính tăng cá nhân Nhiều số tính dựa mẫu gần gấp đôi số CDC đưa Nguyên nhân câu hỏi tìm kiếm thay đổi hàng ngày [19] Như tin tức từ phương tiện thơng tin đại hệ quả, GT trình bày kết khác chúng dịch cúm tàn khốc năm tùy thuộc vào ngày liệu thu thập đưa Điều tạo phản ứng dội liệu lớn Những phóng đại tiềm ứng dụng dựa liệu lớn trở thành thảo luận hạn chế liệu lớn Tuy nhiên, có cải tiến tốt để mơ hình dự báo GFT hạn chế sai sót xảy Đây phần trình xây dựng sản phẩm thống kê đáng tin cậy GFT có lẽ chưa sẵn sàng "để sản xuất" Bài học rút phát hành sản phẩm trước trưởng thành dẫn đến phá hủy danh tiếng Bài học khác “tham vọng mức liệu lớn”, tin liệu lớn thay tất sưu tập liệu truyền thống Chìa khóa để khai thác liệu lớn cho số liệu thống kê thức tích hợp hệ thống sản xuất thống kê đa nguồn nguồn bổ sung không chắn, sai số mẫu (những người khác tỷ lệ phần trăm người sử dụng tìm kiếm web, tỷ lệ phần trăm người sử dụng dịch vụ Google mối quan hệ hành vi tìm kiếm phân tích tượng) Một đặc điểm khơng mong muốn GT phương pháp lấy mẫu không Google tiết lộ, mà thực tế tạo hộp đen 3.3 Các nguồn khác liệu hoạt động web Web tìm kiếm liệu, đặc biệt Google Trends, nguồn hoạt động trực tuyến sử dụng để dự báo tiêu kinh tế-xã hội Các lượt truy cập Twitter Wikipedia sử dụng để dự báo tiêu kinh Một học khác rút từ kinh nghiệm GFT cần thiết tính minh bạch khả nhân rộng Google khơng tung tất ứng dụng GFT Ví dụ, khơng biết đến thuật ngữ tìm kiếm sử dụng Tính minh bạch 88 tế-xã hội Số lượt truy cập Wikipedia sử dụng [5] để dự đoán bệnh giống cúm Mỹ So với GFT, mơ hình dự báo phát triển tốt số tình Mơ hình dự báo dựa quan điểm CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 88 IAOS 2014 Việc sử dụng chứng … Wikipedia xác định tuần cao điểm mùa Chúng tơi trình bày ví dụ việc áp dụng cúm xác so với GFT Tuy nhiên, kết chuỗi thời gian GT nhằm cải thiện dự báo thống kê dự đoán mùa cúm GFT sát thực tế thất nghiệp Pháp Italy Ở dự báo đề cập đến Wikipedia (dự báo tức thời) [11] Thật vậy, mơ hình Ví dụ sử dụng Twitter để dự báo số liệu thống kê thức [7] Trong nghiên cứu này, mơ hình di cư quốc tế nội địa ước lượng từ liệu định thảo luận việc dựa [12], [10] [11], liệu GT sử dụng để cải thiện mơ hình dự báo đơn giản 4.1 Mơ hình vị địa lý từ 500.000 người sử dụng Twitter Kết cho thấy sử dụng phương pháp để dự báo Chúng ta xem xét hai mơ hình: bước ngoặt xu hướng di cư tăng hiểu biết mối quan hệ di cư nội địa quốc tế 3.4 Kinh nghiệm số liệu thống kê thức 1) Cơ sở mơ hình tự hồi quy giản đơn, tỷ lệ thất nghiệp tháng t dự báo cách sử dụng số liệu tỷ lệ thất nghiệp tháng t-1: yt = a + b*log yt-1 + et NSI bắt đầu khám phá việc sử dụng dấu vết hoạt động web để dự báo tiêu kinh tế-xã hội CBS nghiên cứu mối quan hệ niềm tin tiêu dùng hàng tháng ý kiến tin nhắn Trong đó: yt tỷ lệ thất nghiệp tháng t, a b hệ số ước lượng, et tổng giá trị phần dư 2) Mơ hình thay mơ hình sở điều chỉnh câu hỏi điều kiện qi: Facebook Twitter [20] Kết cho thấy, yt = a + b0*yt-1 + sumi (bi * qi,t) tính kịp thời phương tiện truyền thơng xã Trong đó: a bi hệ số; qi,t số lượng tìm hội liệu xử lý nhanh gọn, dự báo tự tin người tiêu dùng thức cơng bố trước số liệu thức tần số cao ISTAT sử dụng liệu Google Trends để dự báo trước tháng số lượng người tìm kiếm cơng việc theo ước tính Điều tra lực lượng lao kiếm câu hỏi qi thời điểm t Tiếp theo, lựa chọn thuật ngữ truy vấn mà người sử dụng tìm kiếm Google thất nghiệp Đối với Pháp, đưa câu hỏi điều kiện sau đây: - “pole employ” quan phủ Pháp để động [8] Một ví dụ đơn giản ứng dụng với Google Trends người thất nghiệp đăng kí, giúp họ tìm việc làm đề nghị viện trợ tài chính; - “Indemnité” đề cập đến việc phân bổ; Trong phần cố gắng hiển thị đơn giản để tích hợp Google Trends (GT) - “etre au chomage” câu hỏi, chúng vào mơ hình dự báo nhận cải tiến tin người thất nghiệp truy cập nhằm đáng kể độ xác dự báo tìm nguồn thơng tin hữu ích để cải thiện tình trạng CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 89 89 Việc sử dụng chứng … IAOS 2014 Đối với Italy, đưa câu hỏi điều kiện: www.google.fr/trends/explore#cat=0-95860&q=%27offerte%20lavoro%27&geo=IT&cmpt=q www.google.fr/trends/explore#cat=0-958- - “Impiego” công việc; 60&q=curriculum&geo=IT&cmpt=q - “Offerte Lavoro” tuyển dụng việc làm; - “Curriculum” thời hạn cho người tìm kiếm việc làm nhằm tìm gợi ý hữu ích để cải thiện hội giữ ý nhà www.google.fr/trends/explore#cat=0-95860&q=infojobs&geo=IT&cmpt=q Sau vài tháng, liệu có sẵn tồn bốn liệu lưu giữ để phân tích thêm, gồm tuyển dụng; - “Infojobs” trang web phổ biến để tham khảo tìm 77 tháng kể từ tháng 1/2008 đến tháng 5/2014 4.3 Kết Pháp kiếm công việc Italy 4.2 Dữ liệu Ở kết tiếp theo, tất tính tốn Thời gian tải ngày 16/7/2014 Số liệu thức điều chỉnh liệu thất nghiệp hàng tháng thực phần mềm R Ở tháng t sau tháng 8/2011 chúng tơi gán hai mơ hình tất tháng trước (tức từ khơng theo mùa vụ từ sở liệu Eurostat Ở Pháp, liệu GT cho ba thuật ngữ tải từ đường dẫn: www.google.fr/trends/explore#q=pole%20e mploi&geo=FR&cmpt=q tháng 8/2011 t-1) dự đốn tỷ lệ thất nghiệp tháng t Hình 1: Giá trị dự báo tháng t hai mơ hình dựa liệu tháng trước www.google.fr/trends/explore#q=%27indem nit%C3%A9%20chomage%27&geo=FR&cmpt=q www.google.fr/trends/explore#q=%27etre% 20au%20chomage%27&geo=FR&cmpt=q Dữ liệu hàng tuần với điều kiện "pole emploi" "indemnité” tổng hợp sở hàng tháng Chỉ sau vài tháng, liệu có sẵn toàn bốn liệu lưu giữ để phân tích thêm, gồm 63 tháng kể từ tháng 3/2009 đến tháng 5/2014 Ở Italy, liệu cho bốn thuật ngữ tải từ đường dẫn: www.google.fr/trends/explore#cat=0-95860&q=impiego&geo=IT&cmpt=q Hình cho thấy mơ hình điều chỉnh phù hợp với liệu thực tế so với mơ hình AR đơn giản, thể mức trung bình giá trị tuyệt đối 90 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 90 IAOS 2014 Việc sử dụng chứng … sai số dự đoán tương đối (còn gọi sai số bình qn): MAEAR = 2.5% MAEAR điều chỉnh = 2.4% Hệ số tương quan Pearson r AR = 0.88 rAR điều chỉnh = 0.9 Hình 2: Tỷ lệ sai số theo % (thực tế giá trị - giá trị dự đoán) / giá trị thực tế; mơ hình xây dựng dựa liệu tháng trước Điều xác nhận sai số tương đối thể Hình Hình 4: Tỷ lệ sai số theo % (thực tế giá trị giá trị dự đoán) / giá trị thực tế; mơ hình xây dựng dựa liệu tháng trước Hình cho thấy sai số tương đối hai mơ hình: rõ ràng mơ hình điều chỉnh tốt mơ hình đơn giản sau vài tháng Điều thực tế, mơ hình điều chỉnh có nhiều hệ số ước lượng có nhiều quan sát (tháng) Sai số theo mùa vụ (con số không hiển thị), cho biết hai mơ hình cần cải tiến mạnh mẽ 4.4 Kết Italy Kinh nghiệm tiêu nhanh Trong trường hợp Italy, khả giải thích câu hỏi điều kiện nhằm nâng cao hiệu mơ Eurostat hình dự báo sở Sai số bình quân MAEAR = 6.3% (rAR = 0.93) MAEAR điều chỉnh = 4.7% (rAR điều chỉnh = 0.97), xem Hình Hình 3: Giá trị dự báo tháng t hai mơ hình dựa liệu tháng trước CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 5.1 Ước tính nhanh HICP khu vực đồng Euro gì? Ước tính nhanh HICP khu vực đồng Euro (hài hòa số giá tiêu dùng) từ xuống cho phần sản phẩm thống kê sản xuất hàng tháng số đáng ý 91 91 Việc sử dụng chứng … IAOS 2014 Eurostat tạo Vào ngày cuối tháng (nếu ngày sơ dựa giá thu thập phần liệu cuối tháng rơi vào ngày cuối tuần, cơng bố HICP cuối đưa vào q trình sản xuất vào ngày làm việc tiếp theo), giá trị lạm phát ước từ sớm, ví dụ: liệu khơng hồn tồn hợp lệ, tính tháng cơng bố Kể từ tháng 9/2012 không điều chỉnh chất lượng thực hiện, vv… Từ Eurostat thường xuyên công bố ước tính liệu sơ giá thu thập nhanh không cho tất mặt hàng, mà số HICP cuối cùng, khơng phải điều bất cho thành phần Tháng 9/2014, thành ngờ, xác Thực tế chứng minh phần bổ sung vào giỏ hàng cho liệu sơ xác nhiều so với mơ ước tính nhanh, giỏ hàng bao gồm: “tất mặt hình dự báo sở Do đó, liệu sơ hàng”, “thức ăn”, “thực phẩm qua chế biến”, ln ưa thích “thực phẩm chưa qua chế biến”, “hàng hóa cơng nghiệp phi lượng”, “năng lượng”, “dịch vụ”, “tất mặt hàng trừ lượng”, “tất mặt hàng trừ lượng thực phẩm” “tất mặt hàng trừ lượng thực phẩm chưa qua chế biến” Ước tính nhanh giá trị lạm phát số quan trọng cho cơng chúng, thị trường tài nói chung quan trọng Ngân hàng Trung ương châu Âu (ECB) Trên thực tế, ước tính nhanh yêu cầu từ ECB, cập nhật giá trị lạm phát họp Hội đồng quản trị ECB, chịu trách nhiệm xây dựng sách tiền tệ khu vực đồng Euro Khi tính tốn số quan trọng vậy, ý thêm chất lượng cách bao quát cần thiết Độ xác phần phản ánh chất lượng tính kịp thời có liên quan Ngồi việc cơng bố ước tính ngày định trước, quan trọng để khơng bị nhỡ ấn phẩm Khi sản xuất bắt đầu khơng thể dừng lại Dữ liệu sơ trọng thủ tục ước tính nhanh phát triển Eurostat sửa chữa với quy trình định cỡ phát triển cho mục đích cụ thể Thật khơng may, khơng phải tất nước cung cấp liệu sơ thời gian: quốc gia cần phải dự báo liệu bị Các thành phần khác lạm phát có hành vi ngẫu nhiên khác biệt, số khơng ổn định khó dự đốn Như vậy, thành phần xử lý riêng liệu phụ cải thiện dự báo tính đến Các liệu phụ sử dụng ước tính nhanh giá lượng mục Bản tin Dầu hàng tuần, sản xuất Tổng cục Năng lượng Ủy ban Châu Âu (DG ENER), nguồn liệu hành Do thời gian ngắn, ước tính nhanh thường không giờ, công cụ dự báo tự động Eurostat phát triển 5.3 Các ước tính nhanh ví dụ tồn diện 5.2 Làm để tính tốn Ước tính nhanh HICP khu vực đồng Euro kết hợp thông tin ban đầu gửi từ số nước thành viên với liệu dự báo từ nước lại Trong hầu hết trường hợp, "thơng tin ban đầu” ước tính 92 việc sử dụng liệu lớn thống kê thức Ước tính nhanh HICP khu vực đồng Euro khơng sử dụng liệu lớn Tuy nhiên, cần phải sử dụng nguồn liệu hành để khắc phục vấn CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 92 IAOS 2014 Việc sử dụng chứng … đề tin tức (khu vực đồng Euro hồn tồn khơng khơng có sẵn, kế hoạch dự phòng, ví dụ: Giá dầu thô bao phủ liệu sơ bộ), cung cấp Brent châu Âu; ví dụ cho thấy khả sử dụng liệu lớn sản xuất số liệu thống kê thức thường xuyên Dữ liệu phụ sử dụng ước tính nhanh hữu ích số yếu tố: - Chi phí rẻ: khơng phải nguồn liệu Eurostat cần thu thập, biên soạn, vv… Eurostat cần lấy về; - Thường xuyên: hàng tuần DG ENER công bố cập nhật giá lượng; - Dễ dàng có sẵn: liệu có sẵn miễn phí web cho muốn sử dụng - Điều chắn, có tương quan ổn định quan trọng số thành phần HICP nguồn liệu hành Đây khía cạnh quan trọng Eurostat khơng thể đủ khả để sản xuất số liệu thống kê với độ xác đáng tin cậy, sau vài tháng tính xác giảm gây nguy hiểm phát hành Một khía cạnh khác nguồn liệu hành quan trọng, việc sử dụng thành cơng ước tính nhanh Bản tin Dầu hàng tuần giá tham khảo sản phẩm lượng, liên quan nhiều đến mức giá trung bình mà người tiêu dùng trả Vì vậy, sử dụng nguồn liệu hành Một khía cạnh quan trọng khác Bản tin Dầu khơng có nguy gây nhầm lẫn với hàng tuần dự định có mục đích khác so với ước tính liệu gây nhiễu khác, dường liên quan nhanh HICP khu vực đồng Euro: Mục đích để với số HICP Đây khơng phải trường cải thiện tính minh bạch giá dầu củng cố thị hợp nói nguồn liệu lớn và/hoặc trường nội địa Tuy nhiên, liệu sử dụng kết nối hai nguồn liệu không rõ ràng để cải tiến tính tốn số lạm phát, ứng Thực song song việc sử dụng liệu dụng không lường trước DG ENER triển khai hành sản xuất số liệu thống kê tập hợp liệu thức khả sử dụng liệu lớn, kết luận Tuy nhiên, việc sử dụng nguồn liệu hành hai kiện quan trọng: - Dữ liệu có sẵn cách thường xun, khơng bị gián đoạn Đây khía cạnh quan trọng ước tính nhanh "một bắt đầu khơng thể dừng lại" Eurostat đủ khả cung cấp người sử dụng số quan trọng sau: - Có thể có nhiều liệu tạo cho nhiều mục đích khác số liệu thống kê thức, thực chất lại phận quan trọng quy trình sản xuất số liệu thống kê thức Chúng tơi, nhà thống kê thức, khuyến khích thúc đẩy để tìm chúng; khoảng thời gian dài khơng có sẵn nguồn liệu - Đồng thời chúng tôi, nhà thống kê thay Hơn nữa, có tính hiệu lực cơng thức phải biết chọn lọc kết hợp nguồn nhận DG ENER (có hành động pháp lý bắt buộc liệu không theo quy ước sản xuất số liệu thống nước thành viên phải báo cáo giá lượng: Hội kê thức Trước kết hợp thêm nguồn liệu, đồng định ngày 22/4/1999) số lý cần phải trả lời hai câu hỏi quan trọng: CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 93 93 Việc sử dụng chứng … IAOS 2014 + Nguồn liệu lớn có sẵn tương lai Tìm kiếm kết khả quan nên tơi đảm bảo tơi cơng bố số liệu thông tin liên quan mời nghiên cứu vấn đề thống kê thức mà khơng bị buộc phải dừng lại Tuy nhiên, để có ý tưởng xác tiềm sau vài lần phát hành? loại liệu này, tác động đầu tư + Những tơi chiết xuất từ liệu khổng lồ có sẵn thực dấu hiệu hay liệu vơ nghĩa? Và dấu hiệu, liệu đo lường tượng mà tơi muốn? Chương trình giới thiệu liệu hoạt động web tính tốn ước tính nhanh vào Viện Thống kê Quốc gia, nghiên cứu cân bắt buộc Một số nghiên cứu giống giới thiệu [3] [19] cung cấp nhìn tổng quan cân bằng cách bao gồm nhiều quốc gia nhiều tiêu Bước nghiên cứu cân quy mô lớn bao gồm số tiêu kinh tế-xã hội số quốc gia theo cách tiếp Sử dụng liệu hoạt động web nêu cận tương tự, đưa kết tích viết (Google Trends) cực tiêu cực, đánh giá cách khó khăn để cải thiện dự báo mơ hình tổng thể chuỗi thời gian đơn giản Bài viết có nhiều tài liệu cho thấy trường hợp mơ hình sở cải thiện cách sử dụng nguồn liệu lớn này, tài liệu không thống Tuy nhiên, việc sử dụng nguồn Google Trends để tính tốn thường xuyên ước tính nhanh số liệu thống kê thức đặt thách thức mà cần phải giải Tiếp đó, bước cần làm để tích hợp nguồn liệu hoạt động web tính tốn ước tính nhanh thức? 6.2 Sự đa dạng hố đánh giá nguồn liệu hoạt động web Các nguồn liệu lớn, đặc biệt nguồn liệu hoạt động web, đưa nhiều thách thức số nguyên tắc hướng dẫn số liệu thống kê thức (ở chúng tơi làm theo Luật Thống kê châu Âu thực hành - CoP) Như nguồn thứ cấp bên ngồi, chúng khỏi kiểm soát NSI Trong trường hợp nguồn truyền thống, NSI có kiểm sốt đầy đủ trường hợp khảo sát có mức độ ảnh hưởng định tùy quốc gia, 6.1 Nghiên cứu cân sử dụng nguồn liệu hoạt động web cho dự báo trường hợp hồ sơ hành Sự thiếu kiểm sốt đưa số rủi ro Như [3], kết nghiên cứu Thứ nhất, nguy nguồn liệu hộp thường trình bày việc sử dụng liệu đen NSI cố gắng làm cho tài liệu đầy đủ hoạt động web cải thiện thành cơng q trình ước tốt cho quy trình sản xuất số liệu thống kê tính giá trị biến thời điểm tại, dự báo thức Sự minh bạch cần thiết để giữ mức độ tức thời, kết nghiên cứu thành công tin tưởng xã hội bên liên quan đến khơng phổ biến Vì vậy, đọc tài liệu trị số liệu thống kê thức Tuy nhiên, chủ đề cung cấp nhìn tổng quan khơng trường hợp nguồn liệu lớn công cân tiềm nói chung loại liệu để ty tư nhân nắm giữ không đảm bảo dự báo tiêu kinh tế - xã hội mức độ minh bạch Đây yêu cầu số 94 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 94 IAOS 2014 Việc sử dụng chứng … trường hợp việc tiết lộ xử lý liệu dịch vụ web có hiện, chưa kể nguồn đề cập thể đẩy nhà cung cấp liệu đến bất lợi cạnh tranh viết này, truy cập trang web liên quan đến thị trường việc làm Thứ hai, trừ NSI kiểm toán triệt để việc xử Chúng ta cần đánh giá lại cách lý liệu dịch vụ web, khơng thể đảm bảo thường xun mơ hình dự báo để thích ứng với nguồn khơng phải đối tượng để thao tác, bất gián đoạn chuỗi series kể thao tác diễn hay khơng Một kiểm tốn q kỹ khơng thực (nếu nhà cung cấp liệu nằm thẩm quyền quan quản lý thống kê) tốn Thứ ba, nguồn liệu thường xuyên bịu ngắt chuỗi series Thủ tục xử lý liệu dịch vụ web thiết kế theo nhu cầu doanh nghiệp thay đổi theo thời gian Như [4], trường hợp Google, kể từ tung Google Trends năm 2006, Google điều chỉnh số thuật toán làm ảnh hưởng đến liệu có sẵn thơng qua Google Trends Thứ tư, nguy thiếu tính liên tục NSI khơng thể đảm bảo nguồn có sẵn lâu dài cần thiết Tính hữu ích liệu từ dịch vụ web cụ thể, chẳng hạn cơng cụ tìm kiếm phụ thuộc trực tiếp vào tiếng mà thay đổi theo thời gian Sự sẵn có nguồn bị phá vỡ thay đổi cơng nghệ khơng nằm kiểm sốt NSI Một số rủi ro giảm bớt cách sử dụng kết hợp nhiều nguồn liệu hoạt động web mơ hình dự báo Điều làm giảm ảnh hưởng nguồn liệu cá nhân, NSI khơng kiểm sốt, giá trị dự báo cung cấp đảm bảo ước tính nhanh thức khơng bị can thiệp vào Sự đa dạng nguồn cho phép xây dựng kế hoạch dự phòng cho thiếu liên tục số nguồn Ví dụ, trường hợp ước tính nhanh tỷ lệ việc làm, nguồn thực CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC Cuối cùng, thành lập thủ tục cho việc kiểm định chứng nhận nguồn liệu lớn cho số liệu thống kê thức [2], nên thiết lập để đảm bảo tính minh bạch chất lượng nguồn 6.3 Tích hợp liệu hoạt động web với nguồn liệu thống kê thức truyền thống Một số ví dụ dự báo tiêu kinh tế-xã hội nêu viết hầu hết số khơng văn phòng thức thống kê (Viện thống kê quốc gia quan thống kê châu Âu quốc tế) thực Câu hỏi đáng đặt lý quan thống kê thức khơng tự làm người khác làm điều Trong viết này, không cố gắng trả lời câu hỏi Những lập luận thống kê thức cung cấp ước tính nhanh tiêu kinh tế-xã hội cách sử dụng mô hình dự báo dựa liệu hoạt động web, mơ hình khơng nên sử dụng đơn giản tái sử dụng thứ mà mơ hình khác làm, thay vào tận dụng ưu điểm tương đối đặc trưng Ưu tương đối rõ quan thống kê thức thể chỗ họ người sản xuất tiêu thống kê thức, vị trí tốt để biết đặc trưng riêng tiêu, số trường hợp có liệu tạm thời (như trường hợp ước tính nhanh giá trị lạm phát) mà 95 95 Việc sử dụng chứng … IAOS 2014 đưa mơ hình Ưu tương đối kinh nghiệm qua khảo sát, trường hợp cụ thể NSIs, thực tế họ có hệ thống thu thập liệu lớn 6.5 Nỗ lực chung phát triển mơ hình dự báo thích hợp Mặc dù viết này, tập trung vào thách thức việc sử dụng liệu hoạt Do đó, quan thống kê thức nên động web dự báo tiêu kinh tế-xã hội, tích hợp tính tốn ước tính nhanh hệ thống phát triển mơ hình dự báo thích hợp sản xuất thống kê thường xuyên Nghĩa quan trọng Những mơ hình chúng tơi trình bày sử dụng thơng tin chi tiết tiêu viết đơn giản phục vụ cho so với cơng bố Các khảo sát mục đích minh họa, dùng để cải thiện tính điều chỉnh để họ cung cấp thơng tin giúp việc xác giá trị dự báo với liệu tìm kiếm sử dụng chứng hoạt động web hay xác web từ Google Trends Việc sử dụng trong nguồn liệu lớn ước tính nhanh đòi hỏi mơ hình phức tạp hơn, 6.4 Nghiên cứu mối quan hệ hoạt động web tượng dự báo bao gồm nhiều biến khác Để đảm bảo tính minh bạch, “mơ hình sản Tính thiết thực giá trị dự báo dựa mô hình dự báo từ liệu hoạt động web thực đảm bảo có hiểu biết tốt mối quan hệ tượng dự báo với hoạt động web cá nhân Vì vậy, chương trình việc đưa loại nguồn tính tốn các ước tính nhanh cần phải kèm với nghiên cứu chủ đề xuất” cần thảo luận cách cởi mở bên liên quan, nhà hoạch định sách Ủy ban châu Âu Ngân hàng Trung ương châu Âu trường hợp châu Âu, quan thống kê với nhà nghiên cứu, học gi, nhằm thống mơ hình chung để đánh giá so sánh quốc tế từ học kinh nghiệm Tài liệu tham khảo: [1] D Butler, When Google got flu wrong., Nature Vol 494 N 7436 (2013), 155, http://www.nature.com/news/when-google-got-flu-wrong-1.12413, last accessed on 30 September 2014; [2] D Florescu and M Karlberg and F Reis and P.R Del Castillo and M Skaliotis and A Wirthmann, Will ―big data‖transform official statistics? (2014), http://www.q2014.at/fileadmin/user_upload/ESTAT-Q2014-BigDataOS-v1a.pdf, last accessed on 30 September 2014; [3] D Gayo-Avello, I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper" A Balanced Survey on Election Prediction using Twitter Data", arXiv preprint arXiv:1204.6441 (2012), http://arxiv.org/abs/1204.6441, last accessed on 30 September 2014; [4] D Lazer and R Kennedy and G King and A Vespignani, The Parable of Google Flu: Traps in Big Data Analysis, Science Vol 343 N 41712 (2014), http://dash.harvard.edu/bitstream/handle/1/12016836/The%20Parable%20of%20Google%20Flu%20%28 WP-Final%29.pdf, last accessed on 30 September 2014; 96 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 96 IAOS 2014 Việc sử dụng chứng … [5] D.J McIver and J.S Brownstein, Wikipedia Usage Estimates Prevalence of Influenza-Like Illness in the United States in Near Real-Time, PLoS computational biology Vol 10 N (2014), e1003581, http://www.ploscompbiol.org/article/fetchObject.action?uri=info%3Adoi%2F10.1371%2Fjournal.pcbi.100358 1&representation=PDF, last accessed on 30 September 2014 [6] D.R Olson and K.J Konty and M Paladini and C Viboud and L Simonsen, Reassessing google flu trends data for detection of seasonal and pandemic influenza: a comparative epidemiological study at three geographic scales, PLoS computational biology Vol N 10 (2013), e1003256, http://www.ploscompbiol.org/article/fetchObject.action?uri=info%3Adoi%2F10.1371%2Fjournal.pcbi.100325 6&representation=PDF, last accessed on 30 September 2014 [7] E Zagheni and V.R.K Garimella and I Weber and B State, Inferring international and internal migration patterns from Twitter data (2014), 439 444, http://ingmarweber.de/wpcontent/uploads/2014/02/Inferring-International-and-Internal-Migration-Patterns-from-Twitter-Data.pdf, last accessed on 30 September 2014; [8] F Bacchini and M D‖Alò and S Falorsi and A Fasulo and C Pappalardo, Does Google index improve the forecast of Italian labour market? (2014), http://www.sis2014.it/proceedings/allpapers/3019.pdf, last accessed on 30 September 2014; [9] F D'Amuri and J Marcucci, Google it!" Forecasting the US unemployment rate with a Google job search index", ISER Working Paper Series (2009), http://www.luiss.edu/dptea/files/Paper_Juri_Marcucci.pdf, last accessed on 30 September 2014; [10] H Choi and H.R Varian, Predicting initial claims for unemployment benefits, Google Inc (2009), http://static.googleusercontent.com/media/research.google.com/fr//archive/papers/initialclaimsUS.pdf, last accessed on 30 September 2014 [11] H Choi and H.R Varian, Predicting the present with google trends, Economic Record Vol 88 N s1 (2012), 9, http://onlinelibrary.wiley.com/doi/10.1111/j.1475-4932.2012.00809.x/pdf, last accessed on 30 September 2014 [12] H Choi and H.R Varian, Predicting the present with Google Trends, Google Research Blog (2009), http://static.googleusercontent.com/media/www.google.com/fr//googleblogs/pdfs/google_predicting_the_pre sent.pdf, last accessed on 30 September 2014 [13] I.J Toth and M Hajdu, Google as a tool for nowcasting household consumption: estimations on Hungarian data Vol (2013), http://m.gvi.hu/data/research/ciret_2012_tij_hm_paper_120415.pdf, last accessed on 30 September 2014 [14] J Ginsberg and M.H Mohebbi and R.S Patel and L Brammer and M.S Smolinski and L Brilliant, Detecting influenza epidemics using search engine query data, Nature Vol 457 N 7232 (2009), 1012 1014, http://www.nature.com/nature/journal/v457/n7232/pdf/nature07634.pdf, last accessed on 30 September 2014; [15] K.A Kholodilin and M Podstawski and B Siliverstovs, Do Google searches help in nowcasting private consumption? A real-time evidence for the US (2010), CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 97 97 Việc sử dụng chứng … IAOS 2014 https://www.econstor.eu/dspace/bitstream/10419/36734/1/625127439.pdf, September 2014; last accessed on 30 [16] M Arrington, Google Trends Launches (2006), http://techcrunch.com/2006/05/10/google-trendslaunches/, last accessed on 30 September 2014; [17] M Ettredge and J Gerdes and G Karuga, Using web-based search data to predict macroeconomic statistics, Communications of the ACM Vol 48 N 11 (2005), 87-92, http://www.dsi.unive.it/~orlando/Topic-WSE-Queries/p87-ettredge.pdf, last accessed on 30 September 2014; [18] M Ojala, Searching for Business Trends and Trending Topics, Online Vol Vol 33 N No (2009), http://www.questia.com/magazine/1G1-211794596/searching-for-business-trends-and-trending-topics, last accessed on 30 September 2014; [19] N Barreira and P Godinho and P Melo, Nowcasting unemployment rate and new car sales in southwestern Europe with Google Trends, NETNOMICS: Economic Research and Electronic Networking Vol 14 N (2013), 129-165, http://link.springer.com/content/pdf/10.1007%2Fs11066-013-9082-8.pdf, September 2014 last accessed on 30 [20] P.J.H Daas and M.J.H Puts, Social media sentiment and consumer confidence, ECB Statistics Paper Series (2014), http://www.pietdaas.nl/beta/pubs/pubs/Daas_Puts_Sociale_media_cons_conf_Stat_Neth.pdf, accessed on 30 September 2014 last [21] S Cook and C Conrad and A.L Fowlkes and M.H Mohebbi, Assessing Google flu trends performance in the United States during the 2009 influenza virus A (H1N1) pandemic, PloS one Vol N (2011), e23610, http://www.plosone.org/article/fetchObject.action?uri=info%3Adoi%2F10.1371%2Fjournal.pone.002361 0&representation=PDF, last accessed on 30 September 2014 [22] S Vosen and T Schmidt, Forecasting private consumption: survey-based indicators vs Google trends, Journal of Forecasting Vol 30 N (2011), 565 578, http://www.econstor.eu/bitstream/10419/29900/1/614061253.pdf, last accessed on 30 September 2014; [23] Statistical Commission of the United Nations, Fundamental Principles of Official Statistics (2013), http://unstats.un.org/unsd/dnss/gp/FP-New-E.pdf, last accessed on 30 September 2014; [24] T Harford, Big Data: are We Making a Big Mistake, Financial Times Magazine (2014), http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html#axzz2xlNF6IjV, last accessed on 30 September 2014; [25] Y Fondeur and F Karamé, Can Google data help predict French youth unemployment?, Economic Modelling Vol 30 (2013), 117-125, http://site.univ-evry.fr/modules/resources/download/default/Recherche/ Les%20laboratoires/epee/wp/12-03.pdf, last accessed on 30 September 2014; 98 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 98 ... thức liệu lớn thống kê thức mô tả hành động thực hệ thống thống kê châu Âu; Phần mô tả công việc trước nhà nghiên cứu nhà thống kê thức dự báo tiêu kinh tế-xã hội dựa hoạt động web; Phần ví dụ... liệu hoạt động web với nguồn liệu thống kê thức truyền thống Một số ví dụ dự báo tiêu kinh tế-xã hội nêu viết hầu hết số khơng văn phòng thức thống kê (Viện thống kê quốc gia quan thống kê châu... đầu việc thử nghiệm ứng dụng cụ thể nguồn liệu lớn để sản xuất số liệu thống CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 86 IAOS 2014 Việc sử dụng chứng … kê truyền thống phạm vi NSI Các

Ngày đăng: 11/02/2020, 19:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w