1. Trang chủ
  2. » Giáo án - Bài giảng

Dữ liệu lớn làm thay đổi kiểu mô hình trong thống kê nhà nước

12 36 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 562,72 KB

Nội dung

Các cơ quan thống kê quốc gia (NSI) vẫn luôn do dự khi sử dụng các mô hình, ngoại trừ một số trường hợp cụ thể như ước lượng diện tích nhỏ. Chúng ta đang tranh luận rằng NSI không nên e ngại sử dụng các mô hình, nên công khai sử dụng các mô hình trong tài liệu và minh bạch công khai trước người dùng. Ngoài ra, mục đích chính của NSI là mô phỏng xã hội; chúng ta nên kìm hãm các hoạt động dự báo. Do đó, những mô hình được chọn sử dụng nên phụ thuộc vào những dữ liệu quan sát thực tế và mang giá trị quan trọng.

Dữ liệu lớn làm thay đổi … IAOS 2014 DỮ LIỆU LỚN LÀM THAY ĐỔI KIỂU MƠ HÌNH TRONG THỐNG KÊ NHÀ NƯỚC Barteld Braaksma Kees Zeelenberg, Cơ quan Thống kê Hà Lan Tóm tắt Dữ liệu lớn đem đến nhiều hội hoạt động thống kê nhà nước như: đưa nhiều giải pháp tăng cường, lúc kịp thời cho sản phẩm thống kê Tuy nhiên, liệu lớn mang lại nhiều thách thức như: tình trạng khơng kiểm soát thay đổi nguồn liệu ảnh hưởng đến tính liên tục, khó định hình để kết nối với khung tổng thể, liệu gián tiếp ngụ ý tượng hấp dẫn ngành Thống kê Dưới hai giải pháp tương ứng với thách thức hội Trước hết, xem liệu lớn điều khơng hồn hảo, nhiên lúc, kịp thời, tiêu tượng xã hội Những liệu tồn lý tò mò chúng Thứ hai, nghiên cứu sâu giải pháp phổ biến mơ hình Một số phương pháp sử dụng kỹ học máy móc có lẽ ưu phương pháp truyền thống Bayes Các quan thống kê quốc gia (NSI) dự sử dụng mơ hình, ngoại trừ số trường hợp cụ thể ước lượng diện tích nhỏ Chúng ta tranh luận NSI không nên e ngại sử dụng mơ hình, nên cơng khai sử dụng mơ hình tài liệu minh bạch cơng khai trước người dùng Ngồi ra, mục đích NSI mơ xã hội; nên kìm hãm hoạt động dự báo Do đó, mơ hình chọn sử dụng nên phụ thuộc vào liệu quan sát thực tế mang giá trị quan trọng Từ khóa: liệu lớn, thống kê sử dụng mơ hình “Re-Make/Re-Model” hát Bryan Ferry sáng tác album tiếng Roxy Music Bài hát mở đầu lời giới thiệu cụ thể, chút âm tiệc cocktail, trước mắt thức năm 1950 Trong phần hòa nhạc guitar, piano acoustic, guitar bass, kèn saxophone trống chơi theo lối tương đối đơn giản truyền thống hòa tấu yếu tố khác lại độc, lạ mang hướng tương lai Eno liên tục quật giọng hồi gió với âm điệu bất định Studio điện tử VCS3 phong cách xướng âm Ferry bật quẫn đau khổ phiêu giai điệu (trích Wikipedia) CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 71 71 Dữ liệu lớn làm thay đổi … IAOS 2014 tồn lý Giới thiệu Dữ liệu lớn xuất với khối lượng lớn, vận tốc nhanh, đa thể loại; ví dụ như: lướt web, tin nhắn Twitter, chi tiết gọi qua di động, liệu giao thông, giao dịch ngân hàng Điều đem đến nhiều hội cho ngành Thống kê tái cấu trúc hoạt động thống kê hành Sự xuất với khối lượng lớn giúp cơng tác thấy chúng thật thú vị Thứ hai, thức phát triển phương pháp cách trực tiếp mơ hình hóa liệu Trong năm gần đây, nhiều nhà thống kê toán ứng dụng phát triển phương pháp giải tình trạng liệu lớn thống kê xác hơn, chi tiết cụ thể hơn; xuất Trong chương 2, lược tả liệu với vận tốc nhanh giúp ước lượng thống kê kịp lớn khả sử dụng số ví thời hơn, với tần suất cao hơn; xuất đa thể loại dụ thực tế Trong chương 3, trước hết, chúng tơi đề hướng thống kê đến lĩnh vực cập đến cách liệu lớn sử dụng: thu Trong đó, liệu lớn linh hoạt thay đổi có tính lựa chọn: bao quát tổng thể mà chúng ngụ ý, thay đổi từ ngày sang ngày khác, dẫn đến bước nhảy khơng thể giải thích chuỗi thời gian Thông thường, quan sát đơn lẻ liệu lớn thiếu biến liên kết khơng thể kết nối với liệu khác khung tổng thể Điều rõ ràng hạn chế khả thay đổi lựa chọn hạn chế thay đổi thập, lắp ráp, ví dụ thống kê nghĩa Trong chương 4, chúng tơi thảo luận cách sử dụng mơ hình để hình thành thơng tin từ nguồn liệu lớn với điều kiện NSI sử dụng mơ hình hoạt động thống kê nhà nước Dữ liệu lớn Dữ liệu lớn xuất với khối lượng lớn, vận tốc nhanh đa hình thức Trong chương này, xem xét số ví dụ chương trình nghiên Do đó, sử dụng liệu lớn hoạt động cứu cải tiến Cơ quan Thống kê Hà Lan: thống kê nhà nước đòi hỏi nhiều phương pháp tin nhắn qua mạng xã hội, liệu vòng lặp giao tương ứng khác Chúng xin thảo luận hai thông, liệu điện thoại di động Đặc biệt, giải pháp sau: thảo luận cách sử dụng thực tế có Trước hết, xem liệu lớn điều: khơng hồn hảo, kịp thời, tiêu tượng xã hội Với tư đó, NSI thường làm: thu thập liệu hoàn thành đối tượng điều tra lại vậy, chí thật chúng hoàn thành với lý do: chúng lại trở nên thú vị xã hội, NSO Hay nói ngắn gọn, nói rằng: liệu thể thống kê nhà nước số vấn đề phát sinh phân tích nguồn liệu góc nhìn thống kê nhà nước Một số ví dụ khác không đề cập đến như: lướt web, liệu quét qua máy scan, hình ảnh vệ tinh giao dịch ngân hàng 2.1 Dữ liệu vòng lặp giao thơng Ở Hà Lan, theo ghi chép, gần 100 triệu lượt kiểm tra giao thông thực ngày Đặc CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 72 72 IAOS 2014 Dữ liệu lớn làm thay đổi … Chủ đề: Nguồn liệu cho thống kê nhà nước Thống kê nhà nước phải tiến hành dựa quan sát được: thông thường liệu thô sau thu thập cần xử lý để đưa thông tin xác, tin cậy, kịp thời Từ nhiều năm nay, người sản xuất liệu thống kê nhà nước thường phụ thuộc vào liệu họ thu thập được, sử dụng bảng hỏi giấy, vấn trực tiếp qua điện thoại vài phương thức khác mang tính truyền thống điều tra trực tuyến qua trang web Phương pháp truyền thống bắt nguồn từ thời kỳ liệu khan hiếm, quan thống kê nhà nước số quan có khả thu thập liệu phổ biến thông tin Ưu điểm lớn phương pháp điều tra khả bao quát tất câu hỏi hỏi tổng thể cần nghiên cứu Gần đây, quan thống kê bắt đầu sử dụng liệu hành (chủ yếu quan phủ) nguồn liệu thứ cấp Sử dụng nguồn liệu thứ cấp làm giảm tính kiểm sốt liệu sẵn có tổng thể hành thường khơng phù hợp hồn tồn với tổng thể thống kê Tuy nhiên, chi phí thu thập liệu rẻ nhiều so với tiến hành điều tra thường làm Ở số quốc gia, truy cập sử dụng nguồn liệu thứ cấp quy định rõ ràng pháp luật Nguồn liệu lớn chí bị kiểm soát nhiều Chúng vốn liệu “hữu cơ”[1] thu thập người khác- người khơng có mục đích thống kê Ví dụ, quan thống kê muốn sử dụng liệu giao dịch bán lẻ, lấy thông tin giá phục vụ thống kê số giá tiêu dùng người tạo liệu thấy chúng cơng cụ để kiểm tra hàng tồn kho doanh số biệt, 12 nghìn lượt kiểm tra tuyến đường ngụ ý thay đổi hoạt động Hà Lan, số lưu lượng xe ô tô cập nhật phút kinh tế Dữ liệu thu thập lưu trữ Kho lưu trữ dài loại từ cho thấy khác biệt Một vấn đề đặt nguồn liệu khơng có tính bao qt lại có tính chất chọn lựa Số phương tiện kiểm tra không lưu trữ phút lỗi hệ thống tất đường Hà Lan có vòng lặp kiểm tra chúng ví dụ xe ô tô xe tải Những liệu Thật may xử lý điều cách cho thấy khác biệt rõ ràng điều khiển điền liệu thiếu liệu ghi lại vòng lặp khoảng thời gian phút liệu thông tin giao thông quốc gia - quan cung cấp liệu miễn phí cho Thống kê Hà Lan Điểm đáng ý vòng lặp phân biệt chiều hành vi Thu thập lượng lớn liệu vô lớn thách thức lớn ngành Thống kê; cho kết nhanh hơn, chứa nhiều thông tin chi tiết cấp vùng nhiều giải pháp tăng cường bối cảnh Suy rộng ra, CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC trước sau (xem hình 1) Theo thời gian, tính bao qt dần cải thiện Dần dần, ngày nhiều đường có vòng lặp kiểm tra, bao phủ tồn diện đường quan trọng Hà Lan đồng thời giảm tính lựa chọn Trong vòng năm, có thêm nghìn vòng lặp 73 73 Dữ liệu lớn làm thay đổi … IAOS 2014 2.2 Tin nhắn qua phương tiện xã hội Phương tiện xã hội nguồn liệu mà người sẵn sàng chia sẻ thông tin, thảo luận chủ đề thích mối quan hệ gia đình, bạn bè Hàng ngày, Hà Lan, triệu tin nhắn công khai phương tiện xã hội Đối với truy cập mạng internet, tin nhắn ln sẵn có thu thập tất chúng rõ ràng vấn đề vô lớn Công ty Coosto thực nhiệm vụ thu thập tất tin nhắn phương tiện xã hội cung cấp cho Cơ quan Thống kê Hà Lan phân tích Ngồi ra, họ cung cấp thêm số thông tin, chấm điểm theo cảm tính cho tin nhắn cá nhân thêm thông tin xuất xứ tin nhắn Để tìm liệu phương tiện xã hội có phải nguồn liệu hấp dẫn với thống kê hay không, ta tiến hành nghiên cứu tin nhắn qua phương tiện xã hội hai góc độ: nội dung cảm tính Theo nghiên cứu nội dung tin nhắn qua mạng Twitter người dân Hà Lan (tin nhắn đáng ý phương tiện xã hội thời điểm đó) gần 50% tin nhắn điều “nhảm nhí vơ định” (xem hình 2) Nội dung thảo luận phần lại hoạt động rảnh rỗi (10%), công việc (7%), phương tiện truyền thông (5%) trị (3%) Về việc sử dụng tin nhắn nghiêm trọng tin nhắn bị hãm lại tin nhắn nhảm nhí thiếu nghiêm túc Cuối gây tác động xấu đến hoạt động nghiên cứu khai thác sử dụng nội dung tin nhắn Yếu tố cảm tính tin nhắn qua phương tiện xã hội cho thấy mối tương quan lớn với niềm tin người tiêu dùng [2] Facebook cho thấy nhìn tồn diện Yếu tố cảm tính theo quan sát hiển thị sở liệu đặn hàng tuần, hàng tháng số liệu hàng ngày lại thể hành vi bất ổn định Do đó, ta sản xuất tiêu cảm tính hàng tuần, chí ngày làm việc sau tuần tiến hành nghiên cứu 2.3 Dữ liệu qua mạng di động Ngày nay, người mang điện thoại di động khắp nơi sử dụng chúng ngày Để quản lý lưu lượng điện thoại, nhiều liệu cần xử lý thông qua công ty điện thoại di động Dữ liệu liên quan chặt chẽ đến hành vi người; mà hành vi người lại đối tượng quan tâm thống kê nhà nước Ví dụ, lưu lượng điện thoại chuyển tiếp thông qua hệ thống cột ăng ten phân bố theo địa lý - hệ thống xác định vị trí người sử dụng điện thoại Một vài liệu sử dụng thống kê nhà nước dễ dàng thấy tổng lượng khách du lịch đến tổng thể thời gian ban ngày Xác định địa điểm vào ban ngày chủ đề mà trước biết thiếu nguồn hỗ trợ; trái lại “tổng thể thời gian ban đêm” lại phụ thuộc vào phần đăng ký thức 2.4 Diễn giải liệu Trích dẫn ý nghĩa thống kê nguồn liệu lớn khơng phải chuyện đơn giản, ví dụ diễn liệu điện thoại di động bị chặn vài lý Các điện thoại thường xuyên có liên quan đến người cách để giải thích điều hiển nhiên Con người mang nhiều điện thoại không, trẻ sử dụng điện thoại cha mẹ đăng ký, điện thoại bị tắt máy, Ngoài ra, cách người sử dụng điện thoại thay đổi theo thời gian, phụ thuộc vào thay đổi hóa đơn, hỗ trợ kỹ thuật yêu thích cơng cụ truyền thơng so với công cụ khác Đối với tin nhắn qua phương tiện truyền thông, CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 74 74 Dữ liệu lớn làm thay đổi … vấn đề tương tự phát sinh cố gắng xác định tính cách người soạn tin nhắn Rất nhiều nguồn liệu lớn soạn thảo gồm liệu quan sát khơng thiết kế mục đích phân tích liệu Chúng bị thiếu tổng thể mục tiêu, cấu trúc liệu đảm bảo chất lượng Điều gây khó khăn định áp dụng phương pháp thống kê truyền thống chủ yếu dựa lý thuyết mẫu Ví dụ, đánh gia vấn đề có tính chọn lựa chứng minh vấn đề Do đó, nhiều nguồn liệu soạn thảo dạng tin nhắn, nhu cầu trích dẫn thông tin từ văn tăng theo Đây gọi lỗi khả khai thác tin nhắn kỹ học hỏi máy móc, chưa thể quen thuộc với thống kê viên nhà nước Dữ liệu lớn số liệu thống kê Dữ liệu lớn đem đến nhiều hội cho ngành Thống kê tái cấu trúc ngành Thống kê hành Khối lượng liệu lớn cho kết xác hơn, chi tiết cụ thể hơn; vận tốc nhanh đem lại ước lượng thống kê thường xuyên kịp thời; đa dạng thơng tin đem đến nhiều hội cho thống kê lĩnh vực Trong đó, liệu lớn có tính lựa chọn tính bất ổn định: tính bao trùm tổng thể mà chúng đại diện thay đổi hàng ngày, dẫn đến bước nhảy giải thích chuỗi thời gian Thơng thường, quan sát cá nhân liệu lớn thiếu biến liên kết khơng thể kết nối với liệu khác khung tổng thể Điều hạn chế tính bất ổn định khả điều chỉnh chọn lựa sử dụng phương pháp truyền thống Trong chương này, thảo luận NSI xử lý vấn đề thống kê nào, liệu CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC IAOS 2014 coi việc tăng cường liệu lớn hoạt động thống kê theo luật Chúng ta chấp nhận coi liệu lớn tiêu phát triển xã hội :chưa hoàn hảo nhiên phản ánh kịp thời Nhìn chung, việc mà NSI thường làm sau: thu thập liệu thu thập từ đối tượng điều tra lý sao, chí thật chúng lắp ráp lại với lý chúng hấp dẫn với xã hội, với NSI Tóm lại, câu hỏi tranh luận là: liệu tồn chúng lại trở nên hấp dẫn Có lẽ điều hiển nhiên tin nhắn qua phương tiện xã hội, tiêu suy từ Các ý kiến thể qua Twitter Facebook đóng vai trò đơi vai trò quan trọng tranh luận cơng khai Ví dụ, web hệ thống đài ti vi Hà Lan thường có mục tin nhắn Twitter gửi cơng khai tin nhắn trở thành phần tin mục thảo luận công chúng Tuy nhiên, tiêu cảm tính dựa tin nhắn phương tiện xã hội, thảo luận phần trước ví dụ Điều cho thấy, tiêu có mối tương quan chặt chẽ với ước lượng truyền thống niềm tin người tiêu dùng Do đó, kết luận tiêu có mối tương quan Tuy nhiên, tiêu cảm tính dựa phương tiện xã hội khơng theo sát tiêu truyền thống Nói cách khác, phương pháp truyền thống thống kê niềm tin người tiêu dùng mở điều tra điện thoại, thống kê chứa nhiều sai số mẫu, có lẽ tệ hơn, có khơng có sai số mẫu Điều quan trọng là: tiêu niềm tin người tiêu dùng truyền thống khơng phải phương pháp phản ánh xác niềm tin người tiêu dùng có nhiều sai số mẫu, chí có tượng chệch khơng có 75 75 Dữ liệu lớn làm thay đổi … IAOS 2014 sai số mẫu Do đó, nói cách hợp lý tiêu tình cảm qua phương tiện xã hội tiêu truyền thống phương pháp ước lượng “tâm trạng quốc gia” không nên xem xét hai phương pháp đâu phương án xác tối ưu ước lượng không bị chệch đưa thiết kế vào tính tốn Một điều khơng thể bỏ qua ngồi tính đắn chất lượng: tính liên quan, tính kịp thời, dễ dàng truy cập, tính tương quan so sánh tính liên kết Do tiêu phương tiện xã hội rõ ràng Các phương pháp dựa mơ hình phụ thuộc vào tính khơng xác mơ hình: ước lượng bị chệch mơ hình khơng Như ví dụ đề cập, muốn ước lượng tổng doanh thu doanh nghiệp giai đoạn định ví dụ doanh nghiệp mà doanh thu - quan sát theo khái niệm thống kê kê khai cho tất tạo thường xuyên kịp thời hơn, ghi điểm phương diện tính kịp thời Vì vậy, dù tiêu tình cảm qua phương tiện xã hội liên quan tính xác hữu ích với xã hội NSI sản xuất chúng hoạt động thống kê nhà nước doanh nghiệp tổng thể với lượng thuế trả doanh thu tuân theo Luật Thuế - Doanh thu (ví dụ: doanh thu không bao gồm: doanh thu miễn giảm thuế doanh thu không ghi chép lại lỗi) Các số liệu thống kê thức từ mơ Phương pháp hỗ trợ mơ hình phương pháp sử dụng liệu doanh thu cá nhân- thuế biến giả ước lượng hồi quy Thậm chí mơ hình khơng tương thích với doanh thu bị đánh thuế ước lượng kết xấp xỉ mức hình sử dụng liệu lớn Trong chương này, thảo luận cách sử dụng mơ hình để hình thành thơng tin từ nguồn liệu lớn, với điều kiện NSI sử dụng mơ hình phục vụ cơng tác thống kê nhà nước 4.1 Thiết kế mơ hình, phương pháp hỗ trợ mơ hình phương pháp dựa mơ hình Chúng ta bàn việc phân biệt giữa: phương pháp dựa thiết kế, phương pháp hỗ trợ mơ hình phương pháp dựa mơ hình Các phương pháp dựa thiết kế phương pháp phù hợp với mơ hình mà đối tượng điều tra lấy mẫu theo xác suất biết, thống kê viên sử dụng xác suất để tính ước lượng chệch số đặc tính tổng thể như: thu nhập trung bình Các phương pháp hỗ trợ mơ hình sử dụng mơ hình để nắm bắt trước thơng tin tổng thể nhằm tăng tính xác ước lượng Tuy nhiên, mơ hình khơng sau khơng chệch thiết kế mẫu Một ví dụ đơn giản ước lượng dựa mơ hình minh chứng thêm tất liệu doanh thu cá nhân kê khai doanh thu - thuế, sử dụng chúng ước lượng tổng doanh thu Mơ hình ngụ ý rằng: doanh thu kê khai doanh thu - thuế với khái niệm doanh thu thống kê Nếu khơng dựng mơ hình ước lượng kết bị chệch Tất nhiên, thực tế có hai loại liệu này, mẫu kê khai khơng hữu ích sử dụng kê khai ước lượng dựa mơ hình Tuy nhiên, chi phí sử dụng liệu kê khai rẻ không cần phải lấy mẫu tất Ở số quốc gia có vấn đề trị bất ổn, gánh nặng hành doanh nghiệp rào cản lấy mẫu CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 76 76 IAOS 2014 Dữ liệu lớn làm thay đổi … Các NSI e ngại sử dụng phương pháp dựa mơ hình thống kê nhà nước Họ thường phụ thuộc vào cá tổng điều tra điều tra, sử dụng phương pháp dựa thiết kế phương pháp hỗ trợ mơ hình Tuy nhiên, số lĩnh vực thống kê cụ thể, NSI sử dụng phương pháp dựa mơ hình, ví dụ ước lượng khu vực nhỏ, việc xử lý liệu trống chọn lựa, tính tốn điều chỉnh mùa vụ chuỗi thời gian ước lượng kinh tế vĩ mô Thực tế, kỹ thông thường điền liệu thiếu thường phụ thuộc vào số giả định mô hình Do đó, ta noi, mơ hình sử dụng thống kê nhà nước Tuy nhiên, mơ hình thường xun ngụ ý mà không nhấn mạnh tài liệu cơng bố, phổ biến 4.2 Tính bao phủ chọn lựa Dữ liệu lớn linh hoạt thay đổi có tính lựa chọn: liệu lớn gồm tổng thể mà chúng ngụ ý, thay đổi từ ngày sang ngày khác, dẫn đến bước nhảy khó giải thích chuỗi thời gian Thông thường, quan sát đơn lẻ liệu lớn thiếu biến lien kết kết nối với liệu khác khung tổng thể Điều rõ ràng hạn chế khả thay đổi lựa chọn hạn chế thay đổi Hay nói cách khác, nhiều tượng có liệu lớn, có thơng tin khác liệu điều tra cho phần tổng thể thơng tin ưu tiên từ nguồn khác Do có phương pháp thực khác sử dụng liệu lớn song song với thông tin phụ trợ xem xét liệu dựng mơ hình tượng mà muốn mơ tả Trong năm gần đây, có đại phẫu ngành thống kê toán: phát triển phương pháp sử dụng liệu lớn Chúng diễn nhiều lĩnh vực: CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC hồi quy đa biến, kỹ học qua máy, dựng mơ hình đồ họa, khoa học liệu, mạng lưới người theo trường phái học thuyết Bayes [3,4,5] Tuy nhiên, phương pháp truyền thống như: kỹ Bayes, thuật toán chọn lọc mơ hình đa cấp (phân cấp) sử dụng nhiều [6] Một chiến lược khác lấy cảm hứng từ tài khoản quốc gia soạn thảo Rất nhiều nguồn tự chúng chưa hoàn thiện, chưa hoàn hảo và/ phần chồng chéo lên tổng hợp, sử dụng khung khái niệm liên quan để có tranh tồn diện tổng thể kinh tế, áp dụng nhiều phương pháp kiểm tra cân đối Cũng theo cách đó, liệu lớn nguồn khác tự chúng khơng hồn thiện, bị chệch kết nối để tạo nên tranh hồn thiện, khơng chệch, từ phản ánh thực chắn Nhìn chung, nói liệu lớn trường hợp mà thiếu thơng tin q trình hình thành liệu Do đó, mơ hình hữu ích ước lượng liệu thiếu 4.3 Chất lượng, tính khách quan độ tin cậy Với tư cách nhà sản xuất số liệu thống kê nhà nước, NSI phải cẩn trọng áp dụng phương pháp dựa mơ hình Cơng chúng khơng nên lo lắng chất lượng thống kê nhà nước quy định tuyên ngôn sứ mệnh hệ thống Thống kê Châu Âu “Chúng cung cấp cho Cộng đồng châu Âu, giới công chúng nguồn thông tin độc lập chất lượng cao kinh tế xã hội châu Âu, cấp quốc gia khu vực đồng thời phổ biến thông tin rộng rãi để người dễ dàng truy cập mục đích hoạch định sách, nghiên cứu tranh luận” 77 77 Dữ liệu lớn làm thay đổi … IAOS 2014 Tính khách quan độ tin cậy hai số nguyên tắc thực thống kê nhà nước quy định Luật Thống kê châu Âu (7) “ có nghĩa rằng: thống kê phải phát triển, sản xuất phân tán theo hệ thống, theo cách tin tưởng không chệch” Và quan Thực thống kê châu Âu cho “Thống kê châu Âu phác họa thực tế cách xác tin cậy” Ngồi ra, nhiều tuyên ngôn quốc tế đề ISI [9] UN [10], tất Luật Thống kê quốc gia Hà Lan có chung nguyên tắc Khi sử dụng mơ hình, diễn giải hai nguyên tắc sau Nguyên tắc tính khách quan nghĩa liệu sử dụng để ước lượng mơ hình nên phản ánh tượng mà mơ tả; hay nói cách khác, mục đích tổng thể mẫu phải tương ứng với tượng thống kê Dữ liệu khứ sử dụng để ước lượng mơ hình ước lượng dựa mơ hình chưa vượt xa quãng thời gian tại; nay, tổng hợp phép khơng dự báo phân tích sách Nguyên tắc độ tin cậy hiểu phải tránh sửa đổi liệu thống kê thay đổi mơ hình, vd: sập mơ hình (lỗi mơ hình) Đặc biệt, mơ hình chuỗi thời gian, phải bảo vệ cẩn thận, sụp mơ hình dẫn đến xác định sai điểm thay đổi chuỗi thời gian Tuy nhiên, nên hạn chế sử dụng mơ hình dựa hành vi, mơ hình ngun nhân dẫn đến sụp đổ mơ hình: gần chắn có lúc tương lai, mơ hình hành vi trở nên khơng hành vi kinh tế hành vi đơn vị xã hội thay đổi Một lý khác, để tránh mơ hình hành vi, chung ta phải ngăn tình mà nghiên cứu viên đầu vào thấy kết tốt khớp mơ hình, lại khơng biết mơ hình NSO sử dụng để tạo liệu khác nghiên cứu bên sử dụng Nguyên tắc khách quan độ tin cậy dẫn đến số nguyên tắc phương pháp dựa mơ hình Đặc biệt, mơ hình dựng nên thực kèm với kiểm định thông số chun sâu để đảm bảo tính khách quan mơ hình Căn vào nguyên tắc này, Cơ quan Thống kê Hà Lan vừa phát triển hướng dẫn [11] việc sử dụng mơ hình thống kê nhà nước Rất nhiều, khơng muốn nói hầu hết ví dụ mơ hình sử dụng thống kê nhà nước, trước hướng dẫn Do đó, cảnh cáo, tin có chỗ để sử dụng mơ hình cơng tác sản xuất liệu thống kê từ liệu lớn 4.4 Ví dụ Dưới vài ví dụ phương pháp dựa mơ hình sử dụng liệu lớn Lưu ý tất ví dụ giai đoạn nghiên cứu Tác giả viết trường hợp phương pháp tương tự sử dụng hoạt động sản xuất thống kê nhà nước thường xun Phân tích vòng lặp giao thơng cá nhân: Ở cấp độ vòng lặp cá nhân, số lượng phương tiện giao thông hiển thị hành vi thay đổi Điều phần nhiều tính khó dự đốn giao thơng mức độ phương tiện cá nhân Các kỹ phức tạp khác cần thiết để xác định rõ mẫu sản xuất số liệu thống kê có ý nghĩa Một phương pháp thực Cơ quan Thống kê Hà Lan coi công thức Bayes lọc đệ quy, giả sử thực liệu vòng giao thơng thơ tn theo phân phối Poisson (xem hình 3) CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 78 78 IAOS 2014 Dữ liệu lớn làm thay đổi … Dữ liệu vòng lặp giao thông hoạt động kinh tế vùng: Liệu tăng cường giao thơng có liên quan đến thơng tin hoạt động kinh tế vùng hay không? Đây câu hỏi thú vị, kiểm định cách sử dụng liệu vòng lặp giao thông vùng Eindhoven, khu sản xuất quan trọng Hà Lan [12] Dữ liệu từ điều tra tâm lý khu sản xuất) sử dụng làm khung chuẩn, biết đến tiêu có tính chu kỳ tình hình kinh doanh tốt có mối tương quan Xu hướng tra Google (Google Trends) để dự báo tức thời Trong mục (13), tác giả cách sử dụng liệu động nghiên cứu từ Google Trends để “dự báo tại” hay gọi “dự báo tức thời” Chúng cho thấy nhiều ví dụ khác tiêu kinh tế gồm doanh thu tự động hóa, khiếu nại thất nghiệp, kế hoạch điểm đến du lịch, niềm tin khách hàng mạnh mẽ chứng minh giai đoạn phát triển kinh tế ngắn hạn Kết điều tra công bố đến tỉnh, Eindhoven khu vực thuộc vùng Noord-Brabant Điều có nghĩa liệu từ điều tra nên có tính liên kết chặt chẽ với hoạt động kinh tế vùng Eindhoven kiếm thuật ngữ giống thiết bị dự đoán Để dự báo thức thời niềm tin người tiêu dùng, họ sử dụng mơ hình hồi quy Bayes, trường hợp này, rõ ràng khơng biết phải tìm thuật ngữ nghiên cứu chuyên sâu để sử dụng Hoạt động phân tích thực kỹ khác nhau: lựa chọn tổng hợp liệu trực tiếp, thuật phân tích thành phần phụ thuộc (ICA) thuật phân rã chế độ dựa theo kinh nghiệm Cả kỹ cho kết giống thuật thứ (EMD) cho kết biểu diễn chung tốt (xem hình 4) Sự phát triển tiêu tăng cường giao thông thật ngạc nhiên theo sát phát triển sản xuất kỳ vọng Điểm cao thấp trùng khớp với có nghĩa số tăng cường giao thơng điểm ngoặt quan trọng hoạt động kinh tế Tính liên quan hai chuỗi cải thiện chí nâng cao xử lý thêm vài thủ thuật, đặc biệt điều chỉnh mùa vụ Một lựa chọn quan trọng khác thực phân rã chu kỳ theo xu hướng, giúp tập trung vào yếu tố chu kỳ kinh tế loại bỏ số yếu tố khác Thật không may, chuỗi tăng cường giao thông ngắn thời điểm hai loại lọc CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC Trong hầu hết trường hợp, họ áp dụng mơ hình tự hồi quy đơn kết hợp với Google Trends tìm Họ thấy mơ hình đơn giản gồm biến Google Trends liên quan thường có xu hướng hình thành mơ hình khơng chứa thuật ngữ dự báo từ 5% đến 20% Mặt khác, nên cẩn trọng diễn giải, đọc kết dựa thuật ngữ nghiên cứu Hai năm trước, có nhiều nhiều mối quan tâm đến Google Flu, gần biểu dự báo tức thời Goodle Flu có xu hướng giảm nghiêm trọng (14) Google trích khơng minh bạch này: họ không tiết lộ thuật ngữ nghiên cứu sử dụng Google Flu, theo thường lệ tranh luận nhà khoa học nổ có xác nhận chéo người cấp, ngang hàng với Kết luận Có kết luận Thứ nhất, liệu lớn xuất với khối lượng lớn, vận tốc nhanh đa chủng loại Điều đem đến nhiều hội để ngành Thống kê đổi tái cấu trúc hệ thống thống kê tại: 79 79 Dữ liệu lớn làm thay đổi … IAOS 2014 - Khối lượng lớn cung cấp xác hơn, chi tiết cụ thể hơn; Đặc biệt phương pháp Bayes mơ hình đa phân cấp đầy triển vọng - Vận tốc lớn đem đến ước lượng thống kê thường xuyên kịp thời hơn; Mặt khác, nên công khai sử dụng mô hình Chúng nên đưa vào tài liệu minh bạch công khai trước người dùng Tuy nhiên, mơ hình khơng sử dụng bừa bãi: khơng nên qn mục đích NSI mô tả không lệnh kết tội Do khơng nên hạn chế việc đưa dự đoán thực mơ hình hành vi sáng - Sự đa dạng liệu lớn đem lại nhiều hội cho thống kê lĩnh vực Thứ hai, số trường hợp, thống kê dựa liệu lớn hữu dụng mặt quyền lợi ví dụ chúng sử dụng hoạch định sách đóng vai trò thảo luận cơng chúng Thứ ba, NSI nói chung khơng nên e ngại sử dụng mơ hình sản xuất thống kê nhà nước chúng sử dụng thêm vào trước đây, nên nghiên cứu kỹ cách sử dụng mơ hình để sản xuất liệu thống kê nhà nước sử dụng liệu lớn Tuy nhiên, nên cẩn trọng tránh chọn sai mơ hình giả định sụp đổ Do đó, mơ hình nên xây dựng dựa liệu thực tế quan sát sau thời gian quan sát, có liên quan đến tình hình kinh tế tượng xã hội mà cố gắng mô tả ước lượng thống kê; xây dựng mơ hình nên thực song song với kiểm định thông số chuyên sâu Tài liệu tham khảo [1] Robert M Groves, Three eras of survey research, Public Opinion Quarterly 75, 861–871, 2011, doi: 10.1093/poq/nfr057 [2] Piet J.H Daas and Marco J.H Puts, Social media sentiment and consumer confidence, Paper presented at the Workshop on using Big Data for Forecasting and Statistics, Frankfurt, 2014 [3] Alexandre Belloni, Victor Chernozhukov, and Christian Hansen, High-dimensional methods and inference on structural and treatment effects Journal of Economic Perspectives, 28(2) (2014), 29-50, doi: 10.1257/jep.28.2.29 [4] David W Nickerson and Todd Rogers, Political campaigns and big data, Journal of Economic Perspectives, 28(2) (2014), 51-74, doi: 10.1257/jep.28.2.51 [5] Hal R Varian, Big data: new tricks for econometrics Journal of Economic Perspectives, 28(2) (2014), 3-28, doi: 10.1257/jep.28.2.3 [6] Andrew Gelman, John B Carlin, Hal S Stern, David B Dunson, Aki Vehtari, and Donald B Rubin, Bayesian Data Analysis, 3e, Chapman and Hall/CRC, 2013 [7] European Union, Regulation on European statistics, Official Journal of the European Union, L 87 (31 March 2009), 164–173, [8] European Union, Code of Practice for European Statistics, revised edition, Eurostat, Luxembourg,http://epp.eurostat.ec.europa.eu/portal/page/portal/quality/code_of_practice, 2005/2011 80 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 80 Dữ liệu lớn làm thay đổi … IAOS 2014 http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32009R0223:EN:NOT [9] International Statistical Institute, Declaration on Professional Ethics, revised edition, http://www.isiweb.org/about-isi/professional-ethics, 1985/2010 [10] Statistical Commission of the United Nations, Fundamental Principles of Official Statistics http://unstats.un.org/unsd/dnss/gp/fundprinciples.aspx, 1991/2014 [11] Bart Buelens, Peter-Paul de Wolf, and Kees Zeelenberg, Model-based estimation at Statistics Netherlands Discussion Paper, Statistics Netherlands, The Hague, 2014 [12] Floris J van Ruth Traffic intensity as indicator of regional economic activity, Internal discussion paper, Statistics Netherlands, 2014 [13] Hyunyoung Choi and Hal R Varian, Predicting the present with Google trends, http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf, 2011 [14] David Lazer, Ryan Kennedy, Gary King and Alessandro Vespignani, The parable of Google flu: traps in big data analysis, Science 343(14) (2014), 1203-1205, doi: 10.1126/science.1248506 Phụ lục hình Hình Mơ hình phân phối giao thơng ngày (thứ 4, 01/09/2011) tổng hợp tất vòng lặp giao thơng phút Hình 1a thể liệu thơ ghi lại; Hình 1b thể liệu sau xử lý liệu trống Hình 2: Phân phối tin nhắn qua Twitter người Hà Lan theo chủ đề thống kê Chủ đề thống kê vấn đề xác định chương trình làm việc hàng năm Thống kê Hà Lan; chủ đề khác thêm vào “Phương tiện truyền thông” mức độ liên quan chủ đề Loại “chủ đề khác” gồm nội dung không liên quan đến chủ đề CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 81 81 Dữ liệu lớn làm thay đổi … IAOS 2014 Hình Kết (đường màu xám) ứng dụng lọc đệ quy Bayes liệu thô (các chấm đen) từ vòng đơn kiểm tra giao thơng, giả định chúng tuân theo phân phối Poison Hình Chỉ tiêu hàng tháng lọc EMD lưu lượng giao thơng trung bình cao điểm khu vực Eindhoven so với tốc độ phát triển sản xuất kỳ vọng ngành công nghiệp sản xuất thuộc tỉnh Noord Brahant Hệ số tương quan 0,523 82 CHUYÊN SAN HỘI NGHỊ QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 82 ... mơ hình để hình thành thơng tin từ nguồn liệu lớn với điều kiện NSI sử dụng mơ hình hoạt động thống kê nhà nước Dữ liệu lớn Dữ liệu lớn xuất với khối lượng lớn, vận tốc nhanh đa hình thức Trong. .. QUỐC TẾ VỀ THỐNG KÊ CHÍNH THỨC 72 72 IAOS 2014 Dữ liệu lớn làm thay đổi … Chủ đề: Nguồn liệu cho thống kê nhà nước Thống kê nhà nước phải tiến hành dựa quan sát được: thơng thường liệu thô sau... tranh luận” 77 77 Dữ liệu lớn làm thay đổi … IAOS 2014 Tính khách quan độ tin cậy hai số nguyên tắc thực thống kê nhà nước quy định Luật Thống kê châu Âu (7) “ có nghĩa rằng: thống kê phải phát triển,

Ngày đăng: 11/02/2020, 19:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w