Bài báo cáo thảo luận về các cách tiếp cận chất lượng và những thách thức có thể gặp phải để sản xuất thống kê nhà nước khi thực hiện với Big Data, ví dụ: . Những cách tiếp cận này có thể dẫn đến thông tin nhanh chóng với mức độ liên quan cao từ góc nhìn của người dùng. Tuy nhiên, việc giới thiệu các phương pháp như vậy đòi hỏi phải đánh giá vai trò của các Viện Thống kê Quốc gia mong muốn được làm việc trong thời đại Dữ liệu lớn.
Tiếp cận chất lượng cho liệu lớn Thống kê Nhà nước Các vấn đề phương pháp luận chất lượng quan trọng liên kết với Big Data Các vấn đề chọn lọc đặc biệt trở nên bật cố gắng áp dụng phương pháp thống kê xây dựng Sử dụng lý thuyết lấy mẫu làm khung để tạo ước tính dựa Dữ liệu lớn khơng hiệu quả, đặc biệt liệu liên kết với đơn vị dân số biết Câu hỏi đặt mức độ mà cách tiếp cận ban đầu xây dựng cho số liệu thống kê dựa khảo sát áp dụng cho Big Data Bài báo cáo thảo luận cách tiếp cận chất lượng thách thức gặp phải để sản xuất thống kê nhà nước thực với Big Data, ví dụ: Những cách tiếp cận dẫn đến thơng tin nhanh chóng với mức độ liên quan cao từ góc nhìn người dùng Tuy nhiên, việc giới thiệu phương pháp đòi hỏi phải đánh giá vai trò Viện Thống kê Quốc gia mong muốn làm việc thời đại Dữ liệu lớn Giới thiệu Theo nhóm cơng tác Tập đồn cao cấp UNECE cho việc đại hóa sản xuất dịch vụ thống kê, liệu lớn (BD) định nghĩa "nguồn liệu miêu tả quy mô, vận tốc nhiều liệu yêu cầu hình thức xử lý sáng tạo, hiệu chi phí để cải thiện nhìn sâu sắc đưa định " [1] Chúng ta biết, chất lượng phương pháp luận có liên quan chặt chẽ với Chất lượng thống kê phụ thuộc vào phương pháp áp dụng phương pháp thường chọn để đáp ứng mục tiêu chất lượng Phần lớn phương pháp thiết lập liên quan đến lý thuyết lấy mẫu, cốt lõi đề cập đến số lượng đơn vị biến số mục tiêu, để lấy mẫu, thu thập liệu, xử lý liệu ước tính Bài viết tổng hợp từ 03 viết: (1) Phương pháp tiếp cận chất lượng cho Thống kê Nhà nước Peter Struijs Piet Daas thuộc Cơ quan thống kê Hà Lan (Quality Approaches to Big Data in Official Statistics); (2) Đánh giá nguy việc dụng nguồn liệu lớn Albrecht Wirthmann trình bày Hội nghị Thống kê Châu Âu (Assessment of risks in the use of big data sources for producing official statistics – Results of a stakeholder survey); (3) Khung Thống kê cho phân tích liệu lớn Dr Siu-Ming Tam, Cục Thống kê Úc (A Statistical Framework for analysing big data) để trả lời ba câu hỏi : - Những hạn chế khung phương pháp chất lượng xây dựng cho thống kê thức dựa khảo sát thống kê nguồn liệu quản trị, BD sử dụng cho dù nguồn liệu hay vai trò hỗ trợ nhiều hơn? - Xem xét hạn chế giải pháp thay để giải với thách thức gì? - Xem xét hạn chế giải pháp thay để xử lý chúng, cần phải lựa chọn để đưa vào môi trường tương lai NSIs? Các phương pháp tiếp cận thách thức chất lượng 2.1 Xây dựng phương pháp Với trường hợp ngoại lệ, chương trình thống kê NSIs dựa yếu tố đầu vào từ điều tra thống kê nguồn liệu hành Đối với số liệu thống kê có khung phức tạp phương pháp thống kê kiểm chứng Nhiều phương pháp số định hướng để điều tra thực tế, hầu hết số liệu thống kê khảo sát sử dụng khung dân số/khung tổng thể lấy từ nguồn liệu quản trị Các phương pháp khảo sát khơng có khung tồn ví dụ phương pháp lấy mẫu, ngày chí tổng điều tra (của cá nhân hộ gia đình, doanh nghiệp tổ chức) có xu hướng sử dụng liệu hành Và nguồn liệu quản trị, tất nhiên, sử dụng làm nguồn liệu cho kết đầu thống kê Các điều tra thống kê ngày sử dụng để bổ sung tăng cường thơng tin nguồn tin hành thay theo cách khác Đây kết mục tiêu theo đuổi rộng rãi giảm gánh nặng hiệu trả lời gọi thống kê độc lập (stovepipe), biên soạn quy trình chạy nhiều hay độc lập với nhau, có số liệu thống kê tích hợp dựa vơ số nguồn Tài khoản quốc gia (NA) ví dụ điển hình thống kê Các phương pháp thống kê để tập trung vào nguồn khác cho lĩnh vực khác biến quan tâm kết hợp Vì nguồn dựa khái niệm tổng thể khác nhau, khung mơ hình xây dựng để phù hợp với nguồn Những khung mơ hình bao gồm, ví dụ, phương trình kinh tế vĩ mô Điều thú vị là, kết đầu NA thường không bao gồm ước tính dân số kinh doanh Điều phản ánh thực tế việc sản xuất NA bao gồm số giả định chuyên gia mơ hình, khơng phải ước tính dựa dân số Đặc điểm phương pháp thống kê, tất nhiên, khơng đầy đủ Có số phương pháp hướng đến vào loại cụ thể số liệu thống kê, cho mơ hình ví dụ cơng suất để ước lượng tiến quần thể động vật hoang dã, mơ hình chuỗi thời gian Đặc biệt phương pháp bên lý thuyết lấy mẫu truyền thống thú vị thực với BD 2.2 Xây dựng phương pháp tiếp cận chất lượng Những chất lượng đóng vai trị số liệu thống kê nhà nước? Có thể phân biệt hai cấp độ Đầu tiên, chất lượng số liệu thống kê kết phương pháp áp dụng - tham số chúng Phương pháp đánh giá tham số lựa chọn dựa kết chúng chất lượng chủ yếu tập trung vào độ xác Thứ hai, khung chất lượng xây dựng áp dụng cho tất chương trình thống kê, cung cấp tiêu chuẩn để đánh giá chương trình Ví dụ Quy tắc thực hành Thống kê Châu Âu (CoP) [4] khung đánh giá chất lượng (QAF) [5] mà thông số kỹ thuật tồn cho số lĩnh vực bao gồm NA CoP xác định có năm khía cạnh chất lượng đầu thống kê: • Sự phù hợp • Độ xác độ tin cậy • Tính kịp thời hạn • Tính rõ ràng so sánh • Khả việc tiếp cận rõ ràng Trong viết này, chúng tơi tập trung vào bốn khía cạnh bỏ qua khía cạnh so sánh theo thời gian báo liên quan thảo luận thảo luận sau [6] xem xét thêm thách thức, nguy việc xử dụng nguồn liệm lớn để sản xuất số liệu thống kê thức 2.3 Thách thức lớn liệu giải pháp Bây chuyển sang BD xem xét ví dụ dụ từ nghiên cứu phương pháp luận Thống kê Hà Lan Và nghiên cứu nguy cơ, thách thức việc sử dụng nguồn liệu lớn để sản xuất số liệu thống kê thức Những vấn đề phương pháp chất lượng gặp phải đòi hỏi ần đưa giải pháp sáng tạo? 2.3.1 Ví dụ từ nghiên cứu phương pháp luận Thống kê Hà Lan Chúng ta tìm hiểu ba ví dụ từ nghiên cứu phương pháp luận Hà Lan để tìm hiểu rõ thách thức lớn liệu Ví dụ liên quan đến việc sử dụng thông tin từ khoảng 20.000 thiết bị cảm ứng đường Hà Lan, từ số lượng xe qua đường có chiều dài khác có sẵn theo phút [7] Nguồn có khả sử dụng thống kê số lưu lượng giao thông hàng tuần, bao gồm thông số cho lưu lượng truy cập lớn với phân tích chi tiết theo vùng Các vấn đề gặp phải bao gồm: - Phân bổ thiết bị cảm ứng đường Areal không đồng đều, có vịng lặp khoảng thời gian thấp khơng phải tất liệu có sẵn cho tất thiết bị cảm ứng - Mối quan hệ phương tiện dân cư liệu thiết bị cảm ứng đường đến cấp vi mô Các phương tiện cá nhân khơng thể tìm theo thời gian - Siêu liệu thiết bị cảm ứng đường có chất lượng Ví dụ thứ hai sử dụng tin nhắn truyền thông xã hội công cộng, chẳng hạn Twitter Facebook có tiềm sử dụng cho tiêu tình cảm hàng tuần, bao gồm số niềm tin người tiêu dùng [8] Các vấn đề gặp phải bao gồm: - Dân số đằng sau tin nhắn đến, khơng phải mối quan hệ với dân số nói chung - Có thể đưa hệ thống để phân bổ tình cảm cho tin nhắn văn bản, không rõ ràng làm diễn giải tình cảm từ tiến hành đo lường Ví dụ thứ ba việc sử dụng liệu vị trí điện thoại di động [9] Điều có khả sử dụng để thống kê nơi người thời điểm nào, gọi thống kê dân số vào ban ngày áp dụng cho thống kê di cư thống kê vận tải Thống kê du lịch sử dụng nguồn liệu Các vấn đề gặp phải bao gồm: - Dữ liệu có sẵn tùy thuộc vào việc đo lường mạng lưới nhà cung cấp điện thoại di động độ mạnh - Ngay liệu có sẵn chủ sở hữu thiết bị di động, điện thoại khơng sử dụng, bị tắt sử dụng người khác Nói tóm lại, ba ví dụ chưa đủ để xác định tất thách thức BD liên quan đến phương pháp chất lượng Nhưng cần phải giải thách thức xuất thời điểm nghiên cứu Lý tưởng nhất, người ta xem xét tất loại BD xảy xem xét trở ngại phương pháp chất lượng tồn để sử dụng cho thống kê thức Một cách phân loại nguồn BD xem xét dự án BD UNECE đề cập trước [10] Thống kê Hà Lan xây dựng đồ đường BD ước tính IBM [11] Đánh giá dựa kiểu phân loại IBM nguồn BD liên kết với lĩnh vực thống kê Những loại hình thân đánh giá cho thấy rõ ràng có nhiều nguồn BD - loại nguồn BD - thực tế xem xét để sử dụng số liệu thống kê thức Vì cịn q sớm để liệt kê tất thách thức BD Chúng ta tóm tắt thách thức hướng giải qua bảng sau Thách thức Cách giải Thiếu thông tin dân số: - Tìm số thơng tin dân số đằng sau BD Ví dụ, tin nhắn truyền thông xã hội, ước tính biến Thơng tin dân số đằng sau số dựa mối tương quan nội dung tin nhắn độ tuổi, giới báo cáo sử dụng bị tính nhóm xã hội tin nhắn Thơng tin biến số sau thiếu Điều xảy cấp cho phép áp dụng phương thức xây dựng vi mô (làm cho cấp vi mơ khơng - BD có mối liên hệ mức độ trung bình vĩ mô đến liên kết với nhau) mức vĩ thông tin khác, cho phép phương pháp tiếp cận mơ hình hóa mơ (thiếu thơng tin chọn lọc) Ví dụ, dân số - người sử dụng điện thoại không biết, mối quan hệ với sổ đăng ký dân số hành nghiên cứu mức tổng hợp Chuyển động điện thoại di động liên quan đến lưu lượng thống kê giao thông truy cập có, v.v Mạng lưới đo lường cho Các vấn đề việc đo lường mạng lưới mức độ bao phủ: thấy phân bố không cân - Điều chỉnh phương pháp theo nhu cầu khơng có cấu trúc, chứa - Trường hợp khác kêu gọi phương pháp mô hình hóa khơng thuộc khoảng trống bị loại công cụ thống kê tiêu chuẩn (mô hình xác, mơ hình cư trú) khác mức mức Cũng - Kiến thức kinh nghiệm NA truyền cảm hứng cho có vấn đề phạm vi phủ giải pháp cho vấn đề độ bao phủ sóng theo khía cạnh thời gian 3 Có thể khó đánh giá ý nghĩa Các vấn đề mức độ ý nghĩa tính phù hợp: mức độ phù hợp liệu Thông - Nghiên cứu mối quan hệ với liệu từ nguồn khác mà tin thực chuyển tải mối tương quan ổn định Các số dựa BD sau tin nhắn văn bản, tình cảm, điều chỉnh phù hợp với liệu khác mục nhập vào máy tìm kiếm Ví dụ, số tình cảm dựa liệu truyền thông xã hội cách ảnh? áp dụng khai thác văn phù hợp cho số niềm tin tiêu dùng dựa khảo sát tồn [8] Nguồn BD sau sử dụng để sản xuất nhanh - để trì khía cạnh an tồn, số liệu niềm tin người tiêu dùng tạm thời -Khi khơng có phù hợp, độ tương quan với tượng khác biết tạo ra; Tính ổn định mối tương quan chứng minh BD cho phép dự báo thành công -Tạo thông tin dựa BD “độc lập”, để việc giải thích hồn tồn cho người người dùng Ví dụ, có nhu cầu khơng qn liệu cảm xúc Twitter [14] Nếu thông tin trình bày dạng "phiên beta", có hội gợi phản hồi có giá trị từ người dùng Một số “người khổng lồ” internet quảng bá mạnh mẽ phương pháp tiếp cận - Sử dụng phương pháp thay đổi cài đặt vấn đề, kết hợp với dân số không xác định cách thúc đẩy khảo sát để thu thập đặc điểm dân số Ví dụ người dùng Facebook Sau phương pháp ước tính khảo sát sử dụng dễ dàng [15] Điều gợi nhớ đến việc sử dụng điều tra để đo lường chất lượng nguồn liệu quản trị Một cách tiếp cận khác, đơn giản giảm yêu cầu chất lượng, khơng mong muốn, BD sử dụng cho số liệu ước tính, điều chấp nhận 2.3.2 Những nguy việc sư dụng nguồn liệu lớn để sản xuất số liệu thống kê thức Đây kết luận rút từ điều tra trực tuyến nguy liệu lớn đưa công thông tin điện tử CROS (http://ec.europa.eu/eurostat/cros/content/stakeholder-survey-big-data-risks) Các lời mời trả lời điều tra gửi đến bên liên quan khác nhau, bao gồm người tham gia kiện ESS tổ chức gần liên quan đến liệu lớn Họ phản hồi khả xảy nguy cơ, ảnh hưởng nguy cơ, cách phòng ngừa giảm thiểu ảnh hưởng nguy nguồn liệu lớn Thơng tin định lượng (tính tốn khả xảy ảnh hưởng nguy cơ) trình bày Hình cho tất nguồn liệu lớn Trong phân tích thơng tin định lượng này, phân tích nguồn liệu lớn: Nguồn liệu điện thoại di động; Nguỗn liệu từ phương tiện truyền thông xã hội; liệu web liệu máy quét giá Hình 1: Trung bình cộng ước lượng nguy cung cấp điều tra cho nguồn liệu khác Khả xảy Ảnh hưởng Nguy - Thiếu truy cập liệu (giai đoạn xây dựng) Nguy - Mất truy cập liệu (giai đoạn sản xuất) Nguy - Không tuân thủ quy định liên quan pháp luật (giai đoạn xây dựng) Nguy - Những thay đổi bất lợi môi trường pháp lý (giai đoạn sản xuất) Nguy - Vi phạm tính bảo mật liệu (giai đoạn sản xuất) Nguy - Vi phạm bảo mật liệu (giai đoạn sản xuất) Nhóm nguy Nguy cụ thể Khả xảy Mức độ ảnh hưởng Nguy liên quan đến truy cập Thiếu liệu quyền truy cập vào liệu - Có thể xảy với liệu - Điện thoại di động điện thoại di động “hệ máy quét giá: 3.7 -3.9 (rất thống pháp luật quốc gia quan trọng) khác nhau” - Dữ liệu truyền thông xã - Nguồn liệu truyền thông hội liệu web – xã hội, liệu web- scrapable scraped 3.0-3.3 liệu quét giá: 3,2-3.4 (không thường xuyên) Do liệu lưu trữ cơng khai liệu máy quét Cơ quan Thống kê quốc gia thiết lập mối quan đối tac với nhà cung cấp liệu Mất quyền truy cập vào liệu - Nằm khoảng 2.7-3.1 - Ảnh hưởng không không tất nguồn liệu cao nguy thiếu truy cập liệu; (thấp so với nguy thiếu truy cập liệu) do: “Khi truy cập vào liệu MNO (Nhà (Mất nguồn Phòng ngừa - Các đề xuất phổ biến liên quan đến pháp luật (Ví dụ :” EU luật quốc gia buộc nhà cung cấp chia sẻ liệu với NSI” - Giải pháp hai bên có lợi: người chia sẻ kết phân tích liệu hưởng lợi Cơ quan thống kê nên: - Thiết lập quan hệ tốt việc truy cập liệu đa dạng hóa mối quan hệ với chủ sở hữu liệu lớn sản xuất số liệu thống kê liệu lớn.) Nguy liên quan đến môi Không trường tuân thủ pháp lý pháp luật Những thay đổi không thuận lợi môi trường pháp lý khai thác mạng di động) bảo mật, xác suất bị thấp” - Từ 2.4 (cách xa) đến 3.4 (thỉnh thoảng) từ 2.8 (lớn) đến 3.6 (quan trọng) bởi: Các quan Thống kê cẩn trọng việc xác minh pháp luật nhà cung cấp liệu thường xác minh cẩn thấn tuân thủ pháp lý sản phẩm trước cung cấp liệu cho Cơ quan Thống kê liệu - Theo kịp phát triển công nghệ; xác định trang web thay từ có danh sách web cập nhập kịp thời - Ảnh hưởng tiêu cực đến -Xem xét cẩn thận pháp luật danh tiếng Cơ quan hành Thống kê -Các quan bảo vệ liệu luật sư từ bắt đầu dự án, chuẩn bị chiến lược truyền thông tốt để hạn chế sử dụng liệu cho thông tin công cộng - Dữ liệu máy quét giá 1.6 - Việc tìm kiếm web Chủ động theo dõi sáng (thấp) 2.8 (khá lớn) kiến pháp lý cố gắng ảnh - Dữ liệu truyền thông xã hội - Dữ liệu truyền thông xã hội hưởng đến sáng kiến pháp lý nhấn mạnh lợi ích 3.2 (thỉnh thoảng) 3.6 (khá quan trọng) công cộng việc sử dụng - Có thể dẫn đến thay cụ thể nguồn liệu lớn đổi hệ thống sản xuất, cho thống kê tác động đến phương pháp thức loại trừ nguồn liệu tương ứng khỏi trình sản xuất Nguy liên quan đến bảo mật an toàn liệu Vi phạm an toàn liệu (truy cập trái phép liệu quan thống kê nắm dữ) - Hầu hết người trả lời khơng nghĩ nguy xảy (do họ tin tưởng vào thủ tục kinh nghiệm bảo mật thiết lập việc xử lý liệu) - Đánh giá cao cho liệu khơng thu thập từ nguồn có sẵn công khai - Xử lý thông tin cách xác Vi phạm Trung bình từ đến 2.6 - Được đánh giá giá cao cho bảo mật khác biệt nguồn nguồn liệu di động liệu liệu Ví dụ: phương tiện truyền thông (cơ sở - Dữ liệu web-scraped liệu bị ảnh hưởng mức thấp, cơng liệu thu theo biện cách khác dễ dàng pháp kiểm - Dữ liệu phương tiện truyền sốt chưa thơng xã hội cao đầy đủ) liên quan đến chất nguồn liệu - Cải thiện hệ thống CNTT - Cải thiện biện pháp kỹ thuật bảo hộ - Tăng cường phương pháp đảm bảo giảm nguy tiết lộ - Kiểm tra nguy tiết lộ nguồn liệu khác - Đảm bảo tính độc lập Cơ quan Thống kê Thao tác nguồn liệu - Đối với hầu hết liệu khả xảy mức trung bình cao chút với nguồn liệu truyền thông - Cao liệu điện thoại di động liệu máy quét (do tin tưởng công chúng với liệu này) Nhận thức ngược lại việc sử dụng liệu lớn cho thống kê thức - Dữ liệu máy quét giá khoảng 2.0 - Dữ liệu truyền thông xã hội 3.7 - Dữ liệu điện thoại di động: không thường xuyên - Dữ liệu quét web-scrapde: - Cơ quan Thống kê nên 2.6 chuẩn bị chiến lược - Máy quyets giá liệu truyền thông phù hợp, nhấn truyền thơng: 3.4 mạnh lợi ích cơng dân - Làm uy tín Cơ sử dụng BD Mất uy tín- khơng cịn dựa quan sát - Các nguồn liệu điện thoại di động liệu máy quét giá: khoảng 2.0 - Xảy nguy tương ứng (đối với liệu cung cấp từ bên thứ ba) - nguồn webscraping phương tiện truyền thông xã hội: khoảng 3.0 quan Thống kê - - Bổ sung nguồn liệu từ điều tra so sánh với kết từ nguồn truyền thống - Cơ quan thống kê đầu tư vào truyền thông, xây dựng công bố phương pháp luận công nhận cộng đồng Nguy liên quan đến kỹ Các nguy khác người trả lời đề xuất Thiếu chuyên gia Mất chuyên gia cho tổ chức khác - Đánh giá mức từ 2.6 đến 3.7, thấp với liệu máy quét giá - Ảnh hưởng từ mức 2.9 đến 3.5 - Khả xảy từ 3.1-3.3 - Đào tạo tuyển dụng nhân viên - Hợp tác với học viện quan thống kê khác - Thường xuyên đào tạo nhân viên - Cung cấp hội học tập, mở rộng cho dự án ý tưởng với liệu lớn Có thêm 13 nguy đề xuất, tổng hợp thành 04 nhóm: - Sự biến động nguồn liệu - Cơ sở hạ tầng công nghệ thông tin - Sự cạnh tranh: cạnh tranh Cơ quan Thống kê nhà thu thập liệu khác - Sự yếu phương pháp luận 2.3.3 Thách thức cách tiếp cận sử dụng việc lựa chọn mơ hình Ngồi theo Dr.Siu-Ming Tâm (Cục Thống kê Úc):”trước sử dụng nguồn Bigdata để sản xuất số liệu thống kê thức, phải giải thách thức lựa chọn sử dụng mơ hình thống kê, tính hợp lệ suy rộng thống kê” Dưới trình bày cách tiếp cận sử dụng liệu lớn cho thống kê thức Đây cách tiếp cận ABS (Tam Clarke, 2015b) việc sử dụng liệu vệ tinh sản xuất số liệu thống kê để xem xét N x vectơ phép đo quan tâm đến thống kê thức, ví dụ: vùng trồng trọt sản lượng, thời điểm t thực mơ hình tổng thể với Dữ liệu lớn bổ sung với nguồn liệu Bigdata, , coi ma trận (thiết kế) biến số mơ hình, tức vectơ tham số hồi quy, , thay đổi theo thời gian, tức (2) Ở N kích cỡ tổng thể hữu hạn, ví dụ: tổng số đất Phương trình (1) (2) tạo thành mơ hình khơng gian trạng thái Theo cơng thức này, xem xét mẫu đơn vị chọn, ví dụ: mẫu đơn vị quan sát thời điểm t, quan sát giá trị điều kiện ‘o’ biểu thị quan sát (hoặc đáp ứng) đơn vị, thu Biểu thị ‘m’ đơn vị mà không quan sát được, tức thiếu liệu ‘r’, đơn vị khơng chọn mẫu Do vector phân vùng thành Mơ hình khơng gian trạng thái sử dụng Tam (1987) để dự đoán tham số tổng thể hữu hạn việc lấy mẫu tổng thể hữu hạn Giả sử so sánh đơn vị quan sát với đơn vị tương ứng nguồn Dữ liệu lớn nguồn liệu lớn có sẵn cho thống kê, ví dụ: vị trí địa lý (trong khảo sát, liên kết tự động thông qua bảng câu hỏi công cụ thu thập), thấy từ sơ đồ 5.1 đây, cho đơn vị mẫu s t hai điều kiện sau áp dụng, cụ thể là, có tập liệu tương ứng từ Big Data cho đơn vị biểu thị ‘B’, khơng có đơn vị có thơng tin Big Data biểu thị ‘’ Do đó, (1) viết lại thành: = + (3) Chú ý mơ hình (3) mở rộng thành Mơ hình tuyến tính tổng qt Mơ hình tuyến tính tổng qt hỗn hợp - xem phần cuối báo Đặt It , Rt Rt biến ngẫu nhiên cho lấy mẫu đại diện, tham chiếu Big đata theo quy trình đảm bảo tương ứng Khi đó, , vectơ cột có i-th phần tử tương ứng, ‘một’ đơn vị thứ i mẫu, trả lời đề cập Dữ liệu lớn tương ứng; ‘0’ ngược lại Vấn đề suy luận theo mơ hình (2) (3) sau viết sau: (1) Dữ liệu suy luận cho tổng thể hữu hạn, tổng tổng thể mẫu, 1’Y, thời điểm t (2) Có thể áp dụng phương pháp mơ hình hỗ trợ (Särndal cộng sự, 1992) phương pháp dựa mơ hình (Chambers and Clark, 2012), bao gồm phương pháp Bayesian (Puza, 2013), để đưa suy luận thống kê (3) Bất kỳ phương pháp suy luận sử dụng, cần phải hiểu, đưa giả định, trình dẫn đến liệu bị thiếu khơng phải liệu mẫu, tức cách thức đánh dấu màu đen phương trình (3); Trường hợp thiếu điều kiện ngẫu nhiên khơng đáp ứng, việc lựa chọn mơ hình cho q trình lựa chọn thiếu mẫu thực Đối với nguồn liệu lớn, điều khó khăn, vượt qua NSI cần đưa lựa chọn môi trường thay đổi Khi xem xét khả sử dụng nguồn BD xem vấn đề, NSI nên sử dụng phương pháp nào? Có nhiều lý người ta thận trọng chí cảnh giác với việc chấp nhận BD Một tài sản NSI tin tưởng cơng chúng, việc đánh điều phải mạo hiểm trường hợp Cung cấp thông tin tương quan giả tượng mô tả BD không hiểu rõ nhiệm vụ NSI Thống kê thức phải tổ chức theo tiêu chuẩn chuyên môn cao Hơn nữa, BD phóng đại khơng theo dõi cách ngẫu nhiên, tốt để chờ xem Thông tin BD cung cấp mà bắt tiêu đề tất thuyết phục, biết từ thảo luận Google Xu hướng Dịch cúm [16] The information yielded by BD that catches headlines is anyway not all that convincing, as we know from the discussion about Google Flu Trends [16].Và chúng tơi chí khơng coi vấn đề phi phương pháp quyền riêng tư hình ảnh cơng khai NSI thách thức CNTT Không phải trường hợp kinh doanh để sử dụng BD cho thống kê thức rõ ràng số âm? Khơng, khơng phải Hãy xem xét điều sau Môi trường mà số liệu thống kê thức sản xuất thay đổi Theo truyền thống, việc sản xuất thống kê thức độc quyền Nó cịn, đâu khứ số liệu thống kê tượng xã hội có sẵn cho cơng chúng thống kê thức, số liệu thống kê khơng thức nhanh chóng trở nên phổ biến rộng rãi [17] Chất lượng khách quan họ bị cạnh tranh, họ đó, chúng sản xuất phổ biến nhanh nhiều so với số liệu thống kê thức chúng sử dụng Có rủi ro thực điều làm giảm dần vị trí NSI, đặc biệt quỹ họ Đúng số liệu thống kê thức giữ vai trò quan trọng xã hội NSIs có thể, xác, thực tế xã hội nhiều lựa chọn thông tin cung cấp loạt nhà cung cấp, thống kê thức - quan trọng Nhưng khơng có đảm bảo cho tồn NSIs thời gian dài Có lý để NSIs quay trở lại nguyên tắc xem họ mong muốn đóng vai trị thời đại BD Sự sẵn có cho xã hội thông tin khách quan chất lượng tốt theo nhu cầu phải đảm bảo, Nhưng khơng có cần thiết thực chất cho thơng tin NSIs tạo Những người khác sản xuất thông tin, điều xác nhận NSIs Có thể tập hợp thống kê cốt lõi mà người khác NSIs không sản xuất NSI cần trì vị trí tri thức họ để thực vai trò họ Bằng cách này, niềm tin vào NSIs sử dụng tài sản tăng cường Điều có ý nghĩa việc sử dụng BD NSIs? Người ta nghĩ điều sau đây: -Các NSI bắt buộc phải có kiến thức kinh nghiệm cách sử dụng BD sử dụng Kiến thức cần thiết cách BD sử dụng bên NSI Nguyên tắc “số lượng vượt chất lượng”, người dùng BD chấp nhận Google không loại bỏ - Ngay BD không sử dụng cho đầu thống kê mới, BD sử dụng chương trình thống kê thức điều dẫn đến giảm hiệu giảm gánh nặng, miễn khó khăn khắc phục - Việc sử dụng BD để biên soạn số ban đầu cho thống kê quan trọng, chẳng hạn thống kê giá thống kê chu kỳ kinh doanh lựa chọn quan trọng Việc sử dụng BD cho việc dự báo tức thời xem xét - Cách truyền thống để thiết kế quy trình thống kê xác định kết mong muốn, chọn nguồn liệu phù hợp tối ưu hóa quy trình Các thử nghiệm với BD thực phương pháp quay lại: lấy nguồn BD thông minh, bắt đầu biên soạn thông tin có liên quan sau cố gắng liên kết thơng tin với thơng tin có sẵn, cách thiết lập mối tương quan -Cần tạo môi trường thể chế thí nghiệm với BD thực Điều liên quan đến CNTT, với HRM, với ủng hộ chiến lược sáng kiến BD kết hợp với giải pháp phi truyền thống dự báo Một tư yêu cầu nguồn liệu khơng xem xét “tính đại diện” chúng Lấy BD theo mệnh giá (face value) nghiên cứu mối quan hệ với tượng khác khơng q xa lạ Khi nguồn liệu quản trị NSI sử dụng, chúng đơi tính theo giá trị mặt, thay sử dụng nguồn để đo khái niệm thống kê xác định trước Ví dụ, người dùng quan tâm đến xuất tội phạm, có NSIs sản xuất số liệu thống kê tội phạm báo cáo thay vào đó, dựa sổ đăng ký cảnh sát Trên thực tế, việc lấy liệu từ nguồn có mệnh giá chi phí tương đối thấp, liệu quản trị BD Mối liên hệ tương quan, kết dự báo Đây lĩnh vực mà nhà kinh tế học kinh nghiệm nhiều[18] Nếu điều trở thành khu vực làm việc quan trọng NSI, có lý để xem xét lại ranh giới thể chế NSI INSEE, NSI Pháp ví dụ, có nhiệm vụ liên quan đến nghiên cứu kinh tế Người ta tự hỏi liệu khác biệt truyền thống thống kê thức kinh tế thức viện dự báo khác tồn nhiều nước cần phải trì Theo ý tưởng trình bày dẫn đến cách tiếp cận khác chất lượng Thống kê có chất lượng tốt, theo nghĩa phù hợp với mục đích sản xuất theo tiêu chuẩn chuyên nghiệp cao Các yếu tố cốt lõi chất lượng mối liên hệ, độ tin cậy, kịp thời rõ ràng, yếu tố quan trọng kỷ nguyên BD Nhưng nội dung chúng phát triển, với vai trò NSI Điều với tiêu chuẩn chuyên môn Trên thực tế, cách tiếp cận chất lượng BD thống kê thức mơ tả dẫn đến thay đổi mơ hình Tài liệu tham khảo [1] UNECE (2013), Dữ liệu lớn có ý nghĩa thống kê thức ? Báo cáo Nhóm cơng tác sản xuất theo u cầu Nhóm cấp cao đại hóa sản xuất dịch vụ thống kê [2] UNECE (2013), Vai trò Big Data việc đại hóa sản xuất thống kê, kế hoạch dự án cho năm 2014 theo chấp thuận Tập đoàn cao cấp đại hóa sản xuất dịch vụ thống kê [3] DGINS (2013), Bản ghi nhớ Scheveningen Dữ liệu lớn Thống kê thức [4] ESSC (2011), Nguyên tắc Thực hành Thống kê Châu Âu [5] ESSC (2012), Khung đánh giá chất lượng, phiên 1.1 [6] Booleman, M et al (2014), Thống kê Dữ liệu lớn: Chất lượng với đầu vào khơng kiểm sốt được, báo cáo chuẩn bị cho hội nghị Q2014 [7] Daas, P.J.H., Puts, M.J., Buelens, B., Van den Hurk, P.A.M (2013), Dữ liệu lớn Thống kê thức, báo cáo cho hội nghị NTTS 2013, Brussels, Bỉ [8] Daas, P.J.H., Puts, M.J.H (2014), Cảm nhận truyền thông xã hội niềm tin người tiêu dùng Tài liệu cho Hội thảo việc sử dụng Dữ liệu lớn cho Dự báo Thống kê, Frankfurt, Đức [9] De Jonge, E., Van Pelt, M., Roos, M (2012), Các mẫu thời gian, phân cụm địa lý thống kê di động dựa liệu mạng điện thoại di động, thảo luận 201214, Thống kê Hà Lan [10] UNECE (2014), Big Data lớn nào, vai trò Big Data Thống kê thức, phiên 0.1, dự thảo để xem xét, UNECE Task Force Big Data chuẩn bị [11] IBM (2014), đánh giá lộ trình Big Data, thực thay mặt cho Thống kê Hà Lan [13] Struijs, P., Daas, P.J.H (2013), Big Data, tác động lớn?, báo trình bày Hội thảo Thu thập số liệu thống kê Hội nghị Thống kê châu Âu, Geneva, Thụy Sĩ [14] Bollen, J., Mao, H., Zeng, X-J (2011), Twitter tâm trạng dự đoán [15] Peter Struijs, Piet Daas, Quality Approaches to Big Data in Official Statistics, [16] Albrecht Wirthmann, Assessment of risks in the use of big data sources for producing official statistics – Results of a stakeholder survey, Conference of european statisticians [17] Dr Siu-Ming Tam, ABS_A Statistical Framework for analysing big data ... thống thú vị thực với BD 2.2 Xây dựng phương pháp tiếp cận chất lượng Những chất lượng đóng vai trị số liệu thống kê nhà nước? Có thể phân biệt hai cấp độ Đầu tiên, chất lượng số liệu thống kê. .. số liệu thống kê thức, phải giải thách thức lựa chọn sử dụng mơ hình thống kê, tính hợp lệ suy rộng thống kê? ?? Dưới trình bày cách tiếp cận sử dụng liệu lớn cho thống kê thức Đây cách tiếp cận. .. Scheveningen Dữ liệu lớn Thống kê thức [4] ESSC (2011), Nguyên tắc Thực hành Thống kê Châu Âu [5] ESSC (2012), Khung đánh giá chất lượng, phiên 1.1 [6] Booleman, M et al (2014), Thống kê Dữ liệu lớn: Chất