Phương pháp tiếp cận chất lượng cho liệu lớn Thống kê Nhà nước Peter Struijs Piet Daas, Cơ quan thống kê Hà Lan1 Nó thừa nhận rộng rãi vấn đề phương pháp luận chất lượng quan trọng liên kết với Big Data Các vấn đề chọn lọc đặc biệt trở nên bật cố gắng áp dụng phương pháp thống kê xây dựng Sử dụng lý thuyết lấy mẫu làm khung để tạo ước tính dựa Dữ liệu lớn khơng hiệu quả, đặc biệt liệu liên kết với đơn vị dân số biết Câu hỏi đặt mức độ mà cách tiếp cận ban đầu xây dựng cho số liệu thống kê dựa khảo sát áp dụng cho Big Data Bài báo cáo thảo luận cách tiếp cận chất lượng để sản xuất thống kê nhà nước thực với Big Data, ví dụ: Những cách tiếp cận dẫn đến thơng tin nhanh chóng với mức độ liên quan cao từ góc nhìn người dùng Tuy nhiên, việc giới thiệu phương pháp đòi hỏi phải đánh giá vai trò Viện Thống kê Quốc gia mong muốn làm việc thời đại Dữ liệu lớn Giới thiệu Theo nhóm cơng tác Tập đồn cao cấp UNECE cho việc đại hóa sản xuất dịch vụ thống kê, liệu lớn (BD) định nghĩa "nguồn liệu miêu tả quy mô, vận tốc nhiều liệu yêu cầu hình thức xử lý sáng tạo, hiệu chi phí để cải thiện nhìn sâu sắc đưa định " [1] Bài viết khám phá việc sử dụng nguồn liệu chất lượng phương pháp thống kê Chất lượng phương pháp luận có liên quan chặt chẽ Chất lượng thống kê phụ thuộc vào phương pháp áp dụng phương pháp thường chọn để đáp ứng mục tiêu chất lượng Phần lớn phương pháp thiết lập liên quan đến lý thuyết lấy mẫu, cốt lõi đề cập đến số lượng đơn vị biến số mục tiêu, để lấy mẫu, thu thập liệu, xử lý liệu ước tính Trên thực tế, có số vấn đề phương pháp liên quan đến việc sử dụng BD, ghi nhận miêu tả dự án BD diễn UNECE [2] DGINS gọi Bản ghi nhớ Scheveningen [3] Điều dẫn đến ba câu hỏi thảo luận báo này: • Những hạn chế khung phương pháp chất lượng xây dựng cho thống kê thức dựa khảo sát thống kê nguồn liệu quản trị, BD sử dụng cho dù nguồn liệu hay vai trị hỗ trợ nhiều hơn? • Xem xét hạn chế giải pháp thay để giải với thách thức gì? • Xem xét hạn chế giải pháp thay để xử lý chúng, cần phải lựa chọn để đưa vào môi trường tương lai NSIs? 1The views expressed in this paper are those of the authors and not necessarily reflect the position of Statistics Netherlands The e-mail addresses of the authors are p.struijs@cbs.nl and pjh.daas@cbs.nl, respectively Vì câu hỏi "lớn" để trả lời sâu báo ngắn, chúng tơi mong muốn trình bày dòng suy nghĩ để xem xét Các phương pháp tiếp cận thách thức chất lượng 2.1 Xây dựng phương pháp Với trường hợp ngoại lệ, chương trình thống kê NSIs dựa yếu tố đầu vào từ điều tra thống kê nguồn liệu hành Đối với số liệu thống kê có khung phức tạp phương pháp thống kê kiểm chứng Nhiều phương pháp số định hướng để điều tra thực tế, hầu hết số liệu thống kê khảo sát sử dụng khung dân số lấy từ nguồn liệu quản trị Các phương pháp khảo sát khung tồn ví dụ phương pháp lấy mẫu, ngày chí tổng điều tra (của cá nhân hộ gia đình, doanh nghiệp tổ chức) có xu hướng sử dụng liệu hành Và nguồn liệu quản trị, tất nhiên, sử dụng làm nguồn liệu cho kết đầu thống kê Các điều tra thống kê ngày sử dụng để bổ sung tăng cường thơng tin nguồn tin hành Đây kết mục tiêu theo đuổi rộng rãi giảm gánh nặng hiệu trả lời gọi thống kê độc lập (stovepipe), biên soạn quy trình chạy nhiều hay độc lập với nhau, có số liệu thống kê tích hợp dựa vô số nguồn Tài khoản quốc gia (NA) ví dụ điển hình thống kê Các phương pháp thống kê để tập trung vào nguồn khác cho lĩnh vực khác biến quan tâm kết hợp Vì nguồn dựa khái niệm tổng thể (populations) khác nhau, khung mô hình xây dựng để phù hợp với nguồn Những khung mơ hình bao gồm, ví dụ, phương trình kinh tế vĩ mơ Điều thú vị là, kết đầu NA thường không bao gồm ước tính dân số kinh doanh Điều phản ánh thực tế việc sản xuất NA bao gồm số giả định chun gia mơ hình, khơng phải ước tính dựa dân số Đặc điểm phương pháp thống kê, tất nhiên, không đầy đủ Có số phương pháp hướng đến vào loại cụ thể số liệu thống kê, cho mơ hình ví dụ công suất để ước lượng tiến quần thể động vật hoang dã, mơ hình chuỗi thời gian Đặc biệt phương pháp bên lý thuyết lấy mẫu truyền thống thú vị thực với BD 2.2 Xây dựng phương pháp tiếp cận chất lượng Những chất lượng đóng vai trị số liệu thống kê nhà nước? Có thể phân biệt hai cấp độ Đầu tiên, chất lượng số liệu thống kê kết phương pháp áp dụng - tham số chúng Phương pháp đánh giá tham số lựa chọn dựa kết chúng chất lượng chủ yếu tập trung vào độ xác Thứ hai, khung chất lượng xây dựng áp dụng cho tất chương trình thống kê, cung cấp tiêu chuẩn để đánh giá chương trình Ví dụ Quy tắc thực hành Thống kê Châu Âu (CoP) [4] khung đánh giá chất lượng (QAF) [5] mà thông số kỹ thuật tồn cho số lĩnh vực bao gồm NA CoP xác định có năm khía cạnh chất lượng đầu thống kê: • Sự phù hợp • Tính xác độ tin cậy • Tính kịp thời hạn • Tính rõ ràng so sánh •Khả việc tiếp cận rõ ràng Trong báo này, chúng tơi tập trung vào bốn khía cạnh bỏ qua khía cạnh so sánh theo thời gian báo liên quan thảo luận thảo luận sau [6] 2.3 Thách thức lớn liệu: ví dụ Bây chuyển sang BD xem xét ba ví dụ từ nghiên cứu phương pháp luận Thống kê Hà Lan Những vấn đề phương pháp chất lượng gặp phải đòi hỏi ần đưa giải pháp sáng tạo? Ví dụ liên quan đến việc sử dụng thông tin từ khoảng 20.000 thiết bị cảm ứng đường Hà Lan, từ số lượng xe qua đường có chiều dài khác có sẵn theo phút [7] Nguồn có khả sử dụng thống kê số lưu lượng giao thông hàng tuần, bao gồm thông số cho lưu lượng truy cập lớn với phân tích chi tiết theo vùng Các vấn đề gặp phải bao gồm: • Phân bổ thiết bị cảm ứng đường Areal khơng đồng đều, có vịng lặp khoảng thời gian thấp tất liệu có sẵn cho tất thiết bị cảm ứng • Mối quan hệ phương tiện dân cư liệu thiết bị cảm ứng đường đến cấp vi mô Các phương tiện cá nhân khơng thể tìm theo thời gian • Siêu liệu thiết bị cảm ứng đường có chất lượng Ví dụ thứ hai sử dụng tin nhắn truyền thông xã hội cơng cộng, chẳng hạn Twitter Facebook có tiềm sử dụng cho tiêu tình cảm hàng tuần, bao gồm số niềm tin người tiêu dùng [8] Các vấn đề gặp phải bao gồm: • Dân số đằng sau tin nhắn đến, mối quan hệ với dân số nói chung • Có thể đưa hệ thống để phân bổ tình cảm cho tin nhắn văn bản, không rõ ràng làm diễn giải tình cảm từ tiến hành đo lường Ví dụ thứ ba việc sử dụng liệu vị trí điện thoại di động [9] Điều có khả sử dụng để thống kê nơi người thời điểm nào, gọi thống kê dân số vào ban ngày, cho thống kê di cư thống kê vận tải Thống kê du lịch sử dụng nguồn liệu Các vấn đề gặp phải bao gồm: - Dữ liệu có sẵn tùy thuộc vào việc đo lường mạng lưới nhà cung cấp điện thoại di động độ mạnh - Ngay liệu có sẵn chủ sở hữu thiết bị di động, điện thoại khơng sử dụng, bị tắt sử dụng người khác 2.4 Thách thức liệu lớn: Tổng quan vấn đề Ba ví dụ khơng đủ để xác định tất thách thức BD liên quan đến phương pháp chất lượng Tuy nhiên, nên nhớ rằng, nghiên cứu khả sử dụng BD cho số liệu thống kê thức diễn chưa có số liệu thống kê thức nguồn BD Vì vậy, thời gian này, cần giải thách thức xuất nghiên cứu Lý tưởng nhất, người ta xem xét tất loại BD xảy xem xét trở ngại phương pháp chất lượng tồn để sử dụng cho thống kê thức Một cách phân loại nguồn BD xem xét dự án BD UNECE đề cập trước [10] Thống kê Hà Lan xây dựng đồ đường BD ước tính IBM [11] Đánh giá dựa kiểu phân loại IBM nguồn BD liên kết với lĩnh vực thống kê Những loại hình thân đánh giá cho thấy rõ ràng có nhiều nguồn BD - loại nguồn BD - thực tế xem xét để sử dụng số liệu thống kê thức Vì cịn q sớm để liệt kê tất thách thức Của BD Tuy nhiên, hữu ích để đề cập đến loại vấn đề phương pháp chất lượng gặp Chúng bao gồm: Thông tin dân số đằng sau báo cáo sử dụng bị thiếu Điều xảy cấp vi mơ (làm cho cấp vi mô không liên kết với nhau) mức vĩ mô (thiếu thông tin chọn lọc) Mạng lưới đo lường cho thấy phân phối vật lý khơng cân khơng có cấu trúc, chứa khoảng trống bị loại khác mức mức Cũng có vấn đề phạm vi phủ sóng theo khía cạnh thời gian Có thể khó đánh giá ý nghĩa mức độ liên quan liệu Thông tin thực chuyển tải tin nhắn văn bản, tình cảm, mục nhập vào máy tìm kiếm ảnh? Ngồi ra, cịn có loại vấn đề phương pháp chất lượng khác không thảo luận báo kết hạn chế kỹ thuật chi phí liên quan đến việc xử lý quy mô tốc độ BD [12] Tuy nhiên, phương pháp thống kê truyền thống chưa đạt tới, điều khơng có nghĩa khung chất lượng cao khơng thể áp dụng Tính phù hợp, độ tin cậy, kịp thời rõ ràng yêu cầu chất lượng áp dụng giải với BD 3 Cách giải với thách thức Các khóa học thực hành xem xét đối mặt với vấn đề mà khơng có phương pháp thiết lập? Cần lưu ý mặt lý thuyết, BD sử dụng nguồn cho kết thống kê nguồn BD kết hợp với điều tra thống kê nguồn liệu quản trị Những khó khăn phụ thuộc vào loại sử dụng dự kiến, tất nhiên, họ giải chúng việc sử dụng phương pháp truyền thống phương án sau xem xét (xem thêm 13,14): Thiếu thông tin dân số: - Trong số trường hợp, có nhiều cách để tìm số thơng tin dân số đằng sau BD Ví dụ, tin nhắn truyền thơng xã hội, ước tính biến số dựa mối tương quan nội dung tin nhắn độ tuổi, giới tính nhóm xã hội tin nhắn Thơng tin biến số sau cho phép áp dụng phương thức xây dựng - Trong trường hợp khác, BD có mối liên hệ mức độ trung bình vĩ mơ đến thông tin khác, cho phép phương pháp tiếp cận mơ hình hóa Ví dụ, dân số - người sử dụng điện thoại không biết, mối quan hệ với sổ đăng ký dân số hành nghiên cứu mức tổng hợp Chuyển động điện thoại di động liên quan đến lưu lượng thống kê giao thông truy cập có, v.v - Các phương pháp tiếp cận đề cập (3 Các vấn đề có ý nghĩa phù hợp) xem xét Các vấn đề việc đo lường mạng lưới mức độ bao phủ: - Đối với nhiều vấn đề liên quan đến mạng lưới đo lường mức độ bao phủ, phương pháp thiết lập điều chỉnh theo nhu cầu, có trường hợp kêu gọi phương pháp mơ hình hóa khơng thuộc cơng cụ thống kê tiêu chuẩn, chẳng hạn mơ hình xác suất sử dụng mơ hình cư trú Kiến thức kinh nghiệm NA truyền cảm hứng cho giải pháp cho vấn đề độ bao phủ Các vấn đề mức độ ý nghĩa tính phù hợp: - Nếu có khó khăn việc hiểu ý nghĩa số BD định, nghiên cứu mối quan hệ với liệu từ nguồn khác mà mối tương quan ổn định hợp lý Các số dựa BD sau điều chỉnh phù hợp với liệu khác Ví dụ, số tình cảm dựa liệu truyền thơng xã hội cách áp dụng khai thác văn phù hợp cho số niềm tin tiêu dùng dựa khảo sát tồn [8] Nguồn BD sau sử dụng để sản xuất nhanh để trì khía cạnh an toàn, số liệu niềm tin người tiêu dùng tạm thời - -Ngay khơng có phù hợp, độ tương quan với tượng khác biết tạo Tính ổn định mối tương quan chứng minh BD cho phép dự báo thành cơng Thậm chí mối tương quan ổn định không ngụ ý mối quan hệ nhân quả, tất nhiên cách tạo thông tin độ tương quan, vấn đề ý nghĩa không thực giải quyết, cho phép người dùng thông tin tự đánh giá Cách tiếp cận tạo thông tin dựa BD “độc lập”, để việc giải thích hồn toàn cho người người dùng Ngay từ ban đầu điều giống đề xuất đơn giản NSI, có nhu cầu loại thơng tin khơng có giải thích rõ ràng Ví dụ, có nhu cầu khơng qn liệu cảm xúc Twitter [14] Nếu thông tin trình bày dạng "phiên beta", có hội gợi phản hồi có giá trị từ người dùng Một số “người khổng lồ” internet quảng bá mạnh mẽ phương pháp tiếp cận Người ta nghĩ đến phương pháp thay đổi cài đặt vấn đề Người ta giải vấn đề chọn lọc kết hợp với dân số không xác định cách thúc đẩy khảo sát để thu thập đặc điểm dân số vậy, ví dụ người dùng Facebook Sau phương pháp ước tính khảo sát sử dụng dễ dàng [15] Điều gợi nhớ đến việc sử dụng điều tra để đo lường chất lượng nguồn liệu quản trị Một cách tiếp cận khác, đơn giản giảm yêu cầu chất lượng, khơng mong muốn, BD sử dụng cho số liệu ước tính, điều chấp nhận Đưa lựa chọn môi trường thay đổi Khi xem xét khả sử dụng nguồn BD xem vấn đề, NSI nên sử dụng phương pháp nào? Có nhiều lý người ta thận trọng chí cảnh giác với việc chấp nhận BD Một tài sản NSI tin tưởng công chúng, việc đánh điều phải mạo hiểm trường hợp Cung cấp thông tin tương quan giả tượng mô tả BD không hiểu rõ nhiệm vụ NSI Thống kê thức phải tổ chức theo tiêu chuẩn chuyên môn cao Hơn nữa, BD phóng đại khơng theo dõi cách ngẫu nhiên, tốt để chờ xem Thông tin BD cung cấp mà bắt tiêu đề tất thuyết phục, biết từ thảo luận Google Xu hướng Dịch cúm [16] The information yielded by BD that catches headlines is anyway not all that convincing, as we know from the discussion about Google Flu Trends [16].Và chí khơng coi vấn đề phi phương pháp quyền riêng tư hình ảnh cơng khai NSI thách thức CNTT Không phải trường hợp kinh doanh để sử dụng BD cho thống kê thức rõ ràng số âm? Khơng, khơng phải Hãy xem xét điều sau Môi trường mà số liệu thống kê thức sản xuất thay đổi Theo truyền thống, việc sản xuất thống kê thức độc quyền Nó cịn, đâu q khứ số liệu thống kê tượng xã hội có sẵn cho cơng chúng thống kê thức, số liệu thống kê khơng thức nhanh chóng trở nên phổ biến rộng rãi [17] Chất lượng khách quan họ bị cạnh tranh, họ đó, chúng sản xuất phổ biến nhanh nhiều so với số liệu thống kê thức chúng sử dụng Có rủi ro thực điều làm giảm dần vị trí NSI, đặc biệt quỹ họ Đúng số liệu thống kê thức giữ vai trị quan trọng xã hội NSIs có thể, xác, thực tế xã hội nhiều lựa chọn thông tin cung cấp loạt nhà cung cấp, thống kê thức - quan trọng Nhưng khơng có đảm bảo cho tồn NSIs thời gian dài Có lý để NSIs quay trở lại nguyên tắc xem họ mong muốn đóng vai trị thời đại BD Sự sẵn có cho xã hội thơng tin khách quan chất lượng tốt theo nhu cầu phải đảm bảo, Nhưng khơng có cần thiết thực chất cho thông tin NSIs tạo Những người khác sản xuất thơng tin, điều xác nhận NSIs Có thể tập hợp thống kê cốt lõi mà người khác NSIs không sản xuất NSI cần trì vị trí tri thức họ để thực vai trò họ Bằng cách này, niềm tin vào NSIs sử dụng tài sản tăng cường Điều có ý nghĩa việc sử dụng BD NSIs? Người ta nghĩ điều sau đây: -Các NSI bắt buộc phải có kiến thức kinh nghiệm cách sử dụng BD sử dụng Kiến thức cần thiết cách BD sử dụng bên NSI Nguyên tắc “số lượng vượt chất lượng”, người dùng BD chấp nhận Google không loại bỏ - Ngay BD không sử dụng cho đầu thống kê mới, BD sử dụng chương trình thống kê thức điều dẫn đến giảm hiệu giảm gánh nặng, miễn khó khăn khắc phục - Việc sử dụng BD để biên soạn số ban đầu cho thống kê quan trọng, chẳng hạn thống kê giá thống kê chu kỳ kinh doanh lựa chọn quan trọng Việc sử dụng BD cho việc dự báo tức thời xem xét - Cách truyền thống để thiết kế quy trình thống kê xác định kết mong muốn, chọn nguồn liệu phù hợp tối ưu hóa quy trình Các thử nghiệm với BD thực phương pháp quay lại: lấy nguồn BD thông minh, bắt đầu biên soạn thơng tin có liên quan sau cố gắng liên kết thơng tin với thơng tin có sẵn, cách thiết lập mối tương quan -Cần tạo mơi trường thể chế thí nghiệm với BD thực Điều liên quan đến CNTT, với HRM, với ủng hộ chiến lược sáng kiến BD kết hợp với giải pháp phi truyền thống dự báo Một tư yêu cầu nguồn liệu khơng xem xét “tính đại diện” chúng Lấy BD theo mệnh giá (face value) nghiên cứu mối quan hệ với tượng khác khơng q xa lạ Khi nguồn liệu quản trị NSI sử dụng, chúng đơi tính theo giá trị mặt, thay sử dụng nguồn để đo khái niệm thống kê xác định trước Ví dụ, người dùng quan tâm đến xuất tội phạm, có NSIs sản xuất số liệu thống kê tội phạm báo cáo thay vào đó, dựa sổ đăng ký cảnh sát Trên thực tế, việc lấy liệu từ nguồn có mệnh giá chi phí tương đối thấp, liệu quản trị BD Mối liên hệ tương quan, kết dự báo Đây lĩnh vực mà nhà kinh tế học kinh nghiệm nhiều[18] Nếu điều trở thành khu vực làm việc quan trọng NSI, có lý để xem xét lại ranh giới thể chế NSI INSEE, NSI Pháp ví dụ, có nhiệm vụ liên quan đến nghiên cứu kinh tế Người ta tự hỏi liệu khác biệt truyền thống thống kê thức kinh tế thức viện dự báo khác tồn nhiều nước cần phải trì Theo ý tưởng trình bày dẫn đến cách tiếp cận khác chất lượng Thống kê có chất lượng tốt, theo nghĩa phù hợp với mục đích sản xuất theo tiêu chuẩn chuyên nghiệp cao Các yếu tố cốt lõi chất lượng mối liên hệ, độ tin cậy, kịp thời rõ ràng, yếu tố quan trọng kỷ nguyên BD Nhưng nội dung chúng phát triển, với vai trò NSI Điều với tiêu chuẩn chuyên môn Trên thực tế, cách tiếp cận chất lượng BD thống kê thức mô tả dẫn đến thay đổi mơ hình Tài liệu tham khảo [1] UNECE (2013), Dữ liệu lớn có ý nghĩa thống kê thức ? Báo cáo Nhóm cơng tác sản xuất theo yêu cầu Nhóm cấp cao đại hóa sản xuất dịch vụ thống kê [2] UNECE (2013), Vai trò Big Data việc đại hóa sản xuất thống kê, kế hoạch dự án cho năm 2014 theo chấp thuận Tập đồn cao cấp đại hóa sản xuất dịch vụ thống kê [3] DGINS (2013), Bản ghi nhớ Scheveningen Dữ liệu lớn Thống kê thức [4] ESSC (2011), Nguyên tắc Thực hành Thống kê Châu Âu [5] ESSC (2012), Khung đánh giá chất lượng, phiên 1.1 [6] Booleman, M et al (2014), Thống kê Dữ liệu lớn: Chất lượng với đầu vào không kiểm soát được, báo cáo chuẩn bị cho hội nghị Q2014 [7] Daas, P.J.H., Puts, M.J., Buelens, B., Van den Hurk, P.A.M (2013), Dữ liệu lớn Thống kê thức, báo cáo cho hội nghị NTTS 2013, Brussels, Bỉ [8] Daas, P.J.H., Puts, M.J.H (2014), Cảm nhận truyền thông xã hội niềm tin người tiêu dùng Tài liệu cho Hội thảo việc sử dụng Dữ liệu lớn cho Dự báo Thống kê, Frankfurt, Đức [9] De Jonge, E., Van Pelt, M., Roos, M (2012), Các mẫu thời gian, phân cụm địa lý thống kê di động dựa liệu mạng điện thoại di động, thảo luận 201214, Thống kê Hà Lan [10] UNECE (2014), Big Data lớn nào, vai trò Big Data Thống kê thức, phiên 0.1, dự thảo để xem xét, UNECE Task Force Big Data chuẩn bị [11] IBM (2014), đánh giá lộ trình Big Data, thực thay mặt cho Thống kê Hà Lan [12] Daas, P.J.H., Puts, M.J (2014), Dữ liệu lớn nguồn thông tin thống kê Điều tra số 69, trang 22-31 [13] Struijs, P., Daas, P.J.H (2013), Big Data, tác động lớn ?, báo trình bày Hội thảo Thu thập số liệu thống kê Hội nghị Thống kê châu Âu, Geneva, Thụy Sĩ [14] Bollen, J., Mao, H., Zeng, X-J (2011), Twitter tâm trạng dự đoán ... chuỗi thời gian Đặc biệt phương pháp bên ngồi lý thuyết lấy mẫu truyền thống thú vị thực với BD 2.2 Xây dựng phương pháp tiếp cận chất lượng Những chất lượng đóng vai trị số liệu thống kê nhà nước?... tiên, chất lượng số liệu thống kê kết phương pháp áp dụng - tham số chúng Phương pháp đánh giá tham số lựa chọn dựa kết chúng chất lượng chủ yếu tập trung vào độ xác Thứ hai, khung chất lượng. ..Vì câu hỏi "lớn" để trả lời sâu báo ngắn, mong muốn trình bày dịng suy nghĩ để xem xét Các phương pháp tiếp cận thách thức chất lượng 2.1 Xây dựng phương pháp Với trường hợp ngoại