1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dữ liệu lớn và các chỉ tiêu xã hội, xu hướng thực tế và những triển vọng mới

17 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 60,69 KB

Nội dung

Dữ liệu lớn là một chủ đề hàng đầu trong các bài báo nghiên cứu quốc tế và một cuộc tranh luận lớn đang diễn ra về khả năng dữ liệu lớn được sử dụng trong thực tế để bổ sung hoặc thậm chí là thay thế các cuộc điều tra thống kê truyền thống nói chung và các chỉ số xã hội nói riêng.

Dữ liệu lớn tiêu xã hội: Xu hướng thực tế triển vọng Enrico di Bella1 • Lucia Leporatti2 • Filomena Maggino3 Tóm tắt: Dữ liệu lớn chủ đề hàng đầu báo nghiên cứu quốc tế tranh luận lớn diễn khả liệu lớn sử dụng thực tế để bổ sung chí thay điều tra thống kê truyền thống nói chung số xã hội nói riêng Trong viết này, chúng tơi phân tích siêu liệu Scopus viết học thuật nói liệu lớn thấy hầu hết tài liệu nghiên cứu có (đang tăng lên mạnh mẽ) tập trung chủ yếu vào phần mềm vấn đề tính tốn máy tính, viết tập trung nghiên cứu vấn đề thống kê quy trình để xây dựng tiêu xã hội từ liệu lớn lại chiếm số lượng nhỏ Tuy vậy, cơng trình nghiên cứu chủ đề cho thấy kết đầy triển vọng nước phát triển, liệu lớn dường nguồn thông tin tốt để xây dựng tiêu xã hội đáng tin cậy, nước phát triển việc sử dụng liệu lớn (ví dụ sử dụng ảnh vệ tinh) để thay điều tra truyền thống Tuy nhiên, tiêu xã hội dựa liệu lớn lại chịu ảnh hưởng sâu sắc số vấn đề mở có tác động đến việc sử dụng chúng thực tế: liệu lớn không phù hợp với cách thức chọn mẫu chúng thường đại diện cho phần cụ thể tổng thể; liệu lớn nói chung liệu sản xuất theo quy trình riêng quan thống kê quốc gia tiếp cận, sử dụng giá trị nội thông tin chứa đựng liệu lớn có ý nghĩa quan trọng mặt xã hội cần chia sẻ với toàn cộng đồng; liệu lớn thiếu tảng kinh tế - xã hội tiêu xã hội thiết lập giúp đỡ chúng nhà hoạch định sách q trình định điểm hồn tồn mở Vì vậy, lớn hội lớn cho việc xác định tiêu xã hội hay truyền thống độ tin cậy thống kê chúng cần nghiên cứu thêm tính sẵn có việc sử dụng chúng cần phối hợp bình diện quốc tế  Enrico di Bella edibella@unige.it Filomena Maggino filomena.maggino@unifi.it Khoa Nghiên cứu Kinh tế Kinh doanh, Đại học Genoa, Via Vivaldi 5, 16123 Genoa, Italy Khoa Khoa học Chính trị, Đại học Genoa, Via Vivaldi 5, 16123 Genoa, Italy Khoa Thống kê, Khoa học máy tính Ứng dụng “G Parenti”, Đại học Florence, Florence, Italy Từ khóa: Dữ liệu lớn • Độ phức tạp • Các tiêu xã hội • Dự báo tức thời • Các mục tiêu phát triển bền vững Giới thiệu Năm mươi năm trôi qua kể từ “Phong trào số xã hội” thập niên năm 1960 1070 bắt đầu miêu tả tượng xã hội Cơng trình Land Michalos (2015) xem xét lại cách thức mà học giả quốc tế tranh luận trị đưa đến việc giới thiệu khái niệm số mà ngày trở lên phổ biến cấp độ, thật sự lạ chúng giới thiệu, chẳng hạn khái niệm chất lượng sống, tiến bộ, phát triển bền vững, thịnh vượng đo lường tương ứng chúng Trong cơng trình mình, tác giả kết luận Phong trào số xã hội nhận hầu hết chương trình nghị nó, cịn nhiều việc phải làm, không nhằm cải thiện số xã hội có, mà cịn giới thiệu số phát triển hình thái xã hội khác xa so với xã hội mà “Phong trao số xã hội” sinh Bài viết lấy cảm hứng/xuất phát từ kết luận cuối này, đặc biệt mà liên quan đến phát triển số hóa hệ thống máy tính giới đương đại Theo IBM, năm 2012, 2,5 tỷ gigabyte liệu tạo ngày khoảng 90% liệu giới tạo vòng hai năm qua Khoảng 75% liệu khơng có cấu trúc, đến từ nguồn văn bản, giọng nói video Đống liệu khổng lồ khơng có cấu trúc thường gọi “Dữ liệu lớn” để ám liệu phức tạp Nhìn chung, người thừa nhận liệu lớn giải thích theo ba cách đối lập / khác : tốc độ (cao) (tốc độ tạo liệu sử dụng liệu), tính đa dạng (cao) (loại liệu nguồn liệu) khối lượng (cao) (số lượng liệu) Mặc dù ngành khoa học xã hội, liệu lớn coi liệu sản xuất theo quy trình để thu thập, theo dõi hoạt động người dân môi trường thực ảo khác nhau, chúng phân biệt với “tập liệu lớn” thực tế liệu trước có phức tạp tính đa chiều mức động cao sau đơn tập liệu với nhiều ghi Sự phức tạp liệu lớn thuộc vào loại / chịu ảnh hưởng tập trung học giả nhà chuyên môn nhiều người số họ thấy bao gồm mối tương quan phức tạp tiềm ẩn biến số khó quan sát sử dụng điều tra truyền thống Vì vậy, khơng có đáng ngạc nhiên năm gần liệu lớn trở thành chủ đề thịnh hành nghiên cứu quốc tế nguồn thông tin sáng tạo cho tượng phức tạp Một báo tiếng việc sử dụng liệu lớn để mô hình hóa tượng xã hội xuất Ginsberg cộng (2009), Ở đó, dịch cúm phát với độ xác cao sử dụng số lượng lớn truy vấn tìm kiếm Google thu thập phân tích để phát có xuất / diện bệnh giống bênh cúm dân cư Mặc dù viết khác (ví dụ: (ví dụ: Lazer cộng 2014) chứng minh mơ hình thực viết Ginsberg cộng (2009) xác so với nhận định ban đầu nêu, phổ biến rộng rãi viết hội mở cho việc phân tích tượng phức tạp dẫn đến tranh luận rộng rãi (ví dụ: Boyd Crawford 2012) tính hữu dụng thực việc phân tích liệu lớn rõ ràng sử dụng liệu lớn, có sẵn thời gian thực, để nghiên cứu tượng mà không cần quan sát trực tiếp điều tra thống kê Dữ liệu lớn có số ưu điểm có liên quan khiến chúng thú vị khái niệm số xã hội để tích hợp / thay số có Trước hết, liệu sản xuất theo quy trình, chi phí chúng lý thuyết không, thu thập mục đích thống kê mà mục đích khác Thứ hai, liệu điện tử nói chung, chúng “dữ liệu nóng” sử dụng thời gian thực để theo dõi tượng quan tâm mà khơng có độ trễ việc quan sát phân tích (điều mà vấn đề điển hình điều tra thống kê truyền thống) Một ví dụ tốt để hiểu rõ khả / tiềm đưa “dự báo tức thời” (ví dụ: Giannone cộng 2008), tập hợp kỹ thuật kết hợp liệu từ nhiềm nguồn để cung cấp số liệu thống kê có liên quan (chủ yếu kinh tế tiền tệ) sử dụng tất thông tin cung cấp thời điểm định cập nhật ước tính với điều kiện thông tin trở lên sẵn có Mục tiêu dự báo tức thời cung cấp ước tính thống kê sớm nhiều so với số liệu cuối cơng bố thức, việc định thực “thời gian thực” đăng cũ Dừ nữa, nghiên cứu ngày tăng liệu lớn, có phần nhỏ viết học thuật đề cập trực tiếp đến phức tạp tượng xã hội đặc biệt việc đo lường chất lượng sống phức tạp (qolexity) Mặc dù nỗ lực để cung cấp đánh giá đầy đủ việc sản xuất / viết báo học thuật liệu lớn số xã hội khơng có kết / vơ ích số lượng viết ngày tăng nhanh, báo cố gắng xem xét / đánh giá việc sản xuất số xã hội – số tạo sử dụng liệu lớn để bối cảnh mà việc sản xuất ngày phong phú đầy đủ Đặc biệt, sử dụng sở liệu Scopus viết học thuật đánh giá chéo Elsevier để tìm xu hướng thực tế viết nghiên cứu học thuật Phân tích sở liệu siêu liệu viết liệu lớn Sự quan tâm ngày tăng cộng đồng khoa học phân tích liệu lớn dễ dàng nhận thức / hiểu được; nhiên, nhiên ứng dụng liệu lớn không phân bổ đồng lĩnh vực nghiên cứu khác nhau, với kỹ thuật khoa học máy tính đối tượng tham gia nhiều vào cách mạng “dữ liệu lớn” ứng dụng khoa học xã hội có phần hạn chế nghiên cứu “dữ liệu lớn” (Taylor cộng 2014; Gonza´lez-Bailo´n 2013) Chụp ảnh nghiên cứu dựa “dữ liệu lớn” nói chung để phân tích tượng xã hội nhiệm vụ đặc biệt khó khăn biến động lớn nghiên cứu chủ đề có nguy làm tổn hại nghiêm trọng đến khả cung cấp cập nhật việc xem xét / đánh giá mang tính học thuật chủ đề nghiên cứu Như hệ / kết là, cách tiếp cận để mô tả cách học thuật liệu lớn sử dụng sở liệu Scopus kết hợp đan xen với từ khóa hữu ích lựa chọn để phát xu đặc thù nghiên cứu liệu lớn Vào ngày tháng năm 2016, số lượng báo báo cáo “Tiêu đề, Tóm tắt Từ khóa” thuật ngữ “dữ liệu lớn” 21.691 (Bảng 1); 13.802 số báo (63%) xuất hai năm qua (2015 2016) Trong số báo này, báo phân loại lĩnh vực “Khoa học xã hội” chiếm 10% (tổng số 2192 viết; Bảng 2) Phân tích sâu từ khóa phổ biến sử dụng viết “dữ liệu lớn” nêu bật mối liên quan nhỏ quan tâm nghiên cứu khoa học xã hội Trong số 21,691 báo lựa chọn, 10 từ khóa phổ biến chủ yếu liên quan đến ngành khoa học kỹ thuật khoa học máy tính Hiển nhiên từ khóa phổ biến “dữ liệu lớn (72% số viết); thuật ngữ phổ biến khác gồm có “khai thác liệu” (11%), “xử lý liệu” (9%), “thuật toán” (9%), “điện toán đám mây” (8%), “lưu trữ kỹ thuật số” (8%), “quản lý thơng tin” (7%), “trí tuệ nhân tạo” (7%), “internet” (6%), “hệ thống máy tính phân tán” (6%) Các từ khóa phù hợp với khoa học xã hội bao gồm phần nhỏ số nghiên cứu / báo rộng lớn này: “con người” hay “loài người” (1513 viết, 7% số viết lựa chọn) “giáo dục” (373, 2%) “Thương mại”, “chăm sóc sức khỏe”, “chi phí”, “hiệu lượng”, “sử dụng lượng”, “vận tải”, “y tế” “kinh tế học” từ khóa chiếm khoảng 1% số viết lựa chọn Bảng Số lượng viết xuất sở liệu Scopus chứa cụm từ “dữ liệu lớn” tiêu đề viết, tóm tắt từ khóa giai đoạn 1957-2017 lựa chọn viết thuộc lĩnh vực “khoa học xã hội” Các trường kiếm tìm Năm Tổng số Trước 201 2009 ‘‘Dữ liệu lớn’’ ‘‘Dữ liệu lớn’’ tạp chí chuyên ngành khoa học xã hội 201 201 201 201 201 201 201 122 30 88 648 238 461 810 569 21,69 43 169 378 559 102 2192 Bảng Số lượng viết xuất sở liệu Scopus chứa cụm từ “dữ liệu lớn” tiêu đề, tóm tắt từ khóa chia theo lĩnh vực quan tâm Lĩnh vực nghiên cứu sở liệu Scopus Số lượng viết % tổng số Khoa học máy tính 15,68 72 Kỹ thuật 4924 23 Toán học 3452 16 Khoa học xã hội 2192 10 Dược phẩm 1848 Khoa học định 1392 Kinh doanh, Quản lý Kế tốn 1126 Sinh hóa, Di truyền Sinh học phân tử 572 Khoa học vật liệu 550 Vật lý thiên văn học 514 Khoa học trái đất hành tinh 399 Năng lượng 332 Giá trị ‘‘% tổng số’’ không 100% viết phân loại nhiều lĩnh vực nghiên cứu Một tìm kiếm khác sở liệu Scopus có liên quan đến kiểu liệu nguồn liệu liệu lớn số báo sử dụng liệu thu thập từ phương tiện truyền thơng xã hội (Bảng 3) Các trị truyện truyền thơng xã hội thực trở thành nguồn thông tin quý báu ý kiến công chúng xu hướng gắn kết xã hội Twitter dường mạng xã hội đặc biệt có liên quan bối cảnh Các nguồn liệu phổ biến khác cảm biến, tìm kiếm trực tuyến liệu thu từ điện thoại di động từ vệ tinh Bảng Số lượng bài viết sử dụng nguồn liệu khác sở liệu Scopus Nguồn liệu Số Số báo báo khoa học xã hội Trường truy vấn “Tiêu đề, tóm tắt từ khóa” sở liệu Scopus Hình ảnh vệ tinh 195 28 “satellite” “satellite image” “bigdata” Điện thoại di động 197 33 “mobilephone” “cellphone” “bigdata” “websearch” “onlinesearch” “bigdata” Truyền thông xã 2037 hội 301 “socialmedia” “social network” “twitter” “facebook” “instagram” “bigdata” Twitter 512 87 “Twitter” “bigdata” Facebook 251 46 “Facebook” “bigdata” Tìm kiếm trực 373 tuyến mở rộng 57 “onlinesearch” “websearch” “blogs” “news” “bigdata” Cảm biến 1445 88 “sensors” “bigdata” Khai thác văn 222 22 “textmining” “bigdata” Tìm kiếm tuyến trực 65 2.1 Dữ liệu lớn mục tiêu phát triển bền vững Những xem xét sơ mở đường cho phân tích sâu việc sử dụng liệu lớn cách phổ biến khoa học xã hội, đặc biệt liên quan tới mục tiêu phát triển bền vững (SDGs) Sự ý ngày tăng hai chủ đề nóng (tức “dữ liệu lớn” “SDGs”) thực trở thành hội để khai thác tiềm phân tích “dữ liệu lớn” nhằm hỗ trợ tiến trình thực SDGs (Liên hợp quốc 2015) Chúng thực theo hai bước sau: Chúng tơi xác định số lượng từ khóa định nắm bắt vấn đề kết nối với SDG (Bảng 4); Sử dụng sở liệu Scopus, SDG, chọn viết thỏa mãn hai điều kiện: a Có chứa cụm từ “Dữ liệu lớn” “Tiêu đề, từ khóa tóm tắt”; b Chứa từ khóa chọn xác định cho SDG “Tiêu đề, từ khóa tóm tắt Tất nhiên, quy trình có số hạn chế khơng cho phép phát viết không đề cập đến cụm từ “dữ liệu lớn”, dù cung cấp gần tốt mức độ liên quan chủ đề khác nghiên cứu liệu lớn Như trình bày Bảng 4, số SDG dường liên quan nhiều so với số khác ứng dụng liệu lớn Công nghiệp, sáng tạo sở hạ tầng (SDG9), sức khỏe hạnh phúc (SDG3), chủ đề có mối quan hệ chặt chẽ với thành phố thông minh bền vững (SDG11) chất lượng giáo dục (SDG4) chủ đề có liên quan với liệu lớn Chúng đại diện cho lĩnh vực nghiên cứu bùng nổ, 60% viết có xuất vòng hai năm qua “Chất lượng giáo dục” (SDG4), “Hịa bình, cơng lý thể chế mạnh mẽ” (SDG16), “Nước vệ sinh” (SDG6), “Cuộc sống mặt đất” (SDG15), “Việc làm thỏa đáng tăng trưởng kinh tế” (SDG8) đại diện cho lĩnh vực nghiên cứu mà viết phân loại “khoa học xã hội” đại diện cho tỷ lệ phần trăm liên quan tổng số (từ 26% đến 19%) Nói chung, liệu lớn có xu hướng sử dụng để theo dõi tượng có liên quan đến việc sản xuất liệu lớn số loại để cung cấp đo lường thay lĩnh vực mà số liệu thống kê truyền thống khác có sẵn Một phân tích sâu liệu lớn dựa viết tập trung vào SGDs giới xã hội đưa chứng đa dạng ứng dụng nghiên cứu nay, xu hướng khác biệt việc sử dụng nguồn liệu việc ứng dụng khu vực địa lý Table Số lượng viết xuất sở liệu Scopus chứa cụm từ “dữ liệu lớn” “Tiêu đề, tóm tắt hay từ khóa” SDGs dựa từ khóa bổ sung SDG Số viết % số viết % số Trường truy vấn “Tiêu đề, tóm tắt và từ khóa” thuộc khoa viết giai sở liệu Scopus có bổ sung thêm “dữ liệu lớn” học xã hội đoạn 2015– 2017 Xóa nghèo 14 14 57 “Poverty” OR “socio-economic level” Xóa đói 132 11 67 “Food security” OR “hunger” OR “malnutrition” OR “agriculture” Sức khỏe tốt hạnh phúc 1799 64 “Health”OR”influenza”OR”epidemics”OR”vaccine”OR”wellb eing”OR”wellbein” Giáo dục chất lượng 839 26 73 “Education” OR “literacy” Bình đẳng giới 110 11 64 “Gender gap” OR “gender disparities” OR “gender” OR “women” Nước vệ 29 sinh 21 62 “Clean water” OR “water quality” OR “water pollution” OR “drinking water” Năng lượng 346 giá hợp lý 73 “energy consumption” OR “renewable” OR “clean energy” OR “sustainable energy” Việc làm thảo đáng tăng trưởng kinh tế 19 71 “Working conditions” OR “unemployment” OR “GDP” OR “economic growth” OR “employment” OR “tourism” 183 SDG Số viết % số viết % số Trường truy vấn “Tiêu đề, tóm tắt và từ khóa” thuộc khoa viết giai sở liệu Scopus có bổ sung thêm “dữ liệu lớn” học xã hội đoạn 2015– 2017 Công nghiệp, sáng tạo sở hạ tầng 3308 10 59 “Innovation” OR “industry” OR “infrastructure” 10 Giảm bất bình đẳng 254 15 64 “inequality” OR “migration” OR “economic inequality” 11 Thành phố cộng đồng bền vững 1428 14 61 “Sustainable cities” OR “smart cities” OR “communities” 12 Tiêu dùng sản xuất có trách nhiệm 50 75 “Responsible Consumption” OR “Responsible production” OR “social cost” OR “green production” 13 Hành động bảo vệ khí hậu 169 12 72 “Climate Action” OR “emissions” OR “climate change” 14 Cuộc sống nước 332 13 69 “Waters” OR “sea” OR “ocean” 15 Cuộc sống mặt đất 137 20 72 “Land” OR “terrestrial ecosystem” 16 Hịa bình, cơng lý thể chế mạnh mẽ 423 26 61 “Peace” OR “justice” OR “institutions” 10 Cần lưu ý ứng dụng Dữ liệu lớn có mục tiêu chung khác nước phát triển nước phát triển Một mặt, nước phát triển Dữ liệu lớn dường thực sở thông tin tốt để tạo ủy nhiệm/đại diện đáng tin cậy số xã hội hoàn thành việc phân tích thống kê thức Một số nghiên cứu nước phát triển dựa số lượng lớn liệu truyền thông xã hội sử dụng để kiểm tra diện mối tương quan với đặc điểm kinh tế xã hội dự đoán loạt xu hướng xã hội Trong số người khác/quan điểm khác, Yazdani Manovich (2015) sử dụng hình ảnh Tweeted năm qua 20 thành phố Mỹ để dự đoán số đặc điểm kinh tế xã hội tìm mối tương quan với phúc lợi xã hội, giá nhà trung bình, thu nhập trình độ học vấn Việc sử dụng liệu truyền thông xã hội tìm thấy hữu ích việc dự đốn xu hướng trị Đức thơng qua tweets (Rill et al 2014) phát sở thích du lịch (Chang Chu 2013) Ngồi liệu GPS bắt đầu ngày ý nhiều Marchetti et al (2015) sử dụng liệu GPS từ phương tiện cá nhân để tìm mối tương quan tốt tính di động mức nghèo khu vực người Ý Cord et al (2015) sử dụng liệu GPS để khám phá sở thích người nơi giải trí để ghé thăm Một số ứng dụng đề xuất lĩnh vực lượng (Zhou Yang 2016) Mặt khác, nước phát triển, việc sử dụng Dữ liệu lớn giải pháp thay khả thi cho khảo sát truyền thống để có thơng tin kịp thời địa hóa (ví dụ sử dụng hình ảnh vệ tinh hồ sơ/các ghi liệu điện thoại di động) để ước tính tác động cú sốc (ví dụ: khủng hoảng lương thực, thiên tai) theo dõi (ví dụ: Liên Hợp Quốc Tồn cầu 2014) Các tài liệu sử dụng Dữ liệu lớn bối cảnh tập trung vào nghèo đói tình hình kinh tế xã hội (Mao et al 2015; Blumenstock et al 2015; Smith-Clarke cộng 2014), sản xuất trồng, hạn hán tác động an ninh lương thực ( Dutta cộng 2014) Hồ sơ/các ghi liệu điện thoại di động dường nguồn thông tin áp dụng nhiều nước phát triển, chúng sử dụng hàng ngày để chuyển tiền, mua bán hàng hóa giao tiếp (Liên Hợp Quốc Tồn cầu 2013) Trong số người khác, Mao cộng (2015) Blumenstock et al (2015) sử dụng liệu nhật ký gọi di động để dự đoán mức thu nhập vùng khác tương ứng Coˆte d’Ivoire Rwanda cho thấy tiềm họ việc theo dõi vùng xa xôi tiếp cận Elvidge et al (2009) sử dụng hình ảnh vệ tinh thay ban đêm đồ toàn cầu để xây dựng số nghèo tính 11 tốn tỷ lệ số dân độ sáng ánh sáng quan sát vệ tinh (đèn ban đêm DMSP) Ngoài ra, ghi liệu/hồ sơ điện thoại di động phương tiện hữu ích để theo dõi dự đốn tiến hóa dịch bệnh cúm nước phát triển Wesolowski et al (2012) sử dụng ghi liệu gọi điện thoại di động để xây dựng đồ nguy sốt rét, ước tính cách thức ký sinh trùng sốt rét di chuyển khắp Kenya Ngoài ra, phổ biến có liên quan internet truyền thơng xã hội nước phát triển dẫn đến gia tăng luồng thông tin thời gian thực liệu truyền thơng xã hội sử dụng cho nghiên cứu xã hội Trong số người khác, Yuan et al (2013) sử dụng liệu truy vấn tìm kiếm trực tuyến từ Baidu để lập mơ hình giám sát lây lan cúm Trung Quốc Các tìm kiếm trực tuyến (được đo qua số xu hướng Google) sử dụng để dự đốn tình trạng bất ổn xã hội Nam Mỹ (Manrique et al 2013) Thảo luận kết luận Một phân tích trực tiếp sở liệu siêu liệu Scopus viết Dữ liệu lớn cho thấy hầu hết tài liệu nghiên cứu có tập trung chủ yếu vào phần mềm vấn đề tính tốn máy tính, viết tập trung nghiên cứu vấn đề thống kê quy trình để xây dựng tiêu xã hội từ liệu lớn lại chiếm số lượng nhỏ Tuy vậy, cơng trình nghiên cứu chủ đề cho thấy kết đầy triển vọng nước phát triển, liệu lớn dường nguồn thông tin tốt để xây dựng tiêu xã hội đáng tin cậy, nước phát triển việc sử dụng liệu để thay điều tra truyền thống Tuy nhiên, điều tra thống kê truyền thống liệu lớn có khác biệt mà đáng phải quan tâm Trong năm qua, quan thống kê quốc gia xác định số tiêu chuẩn chất lượng liệu (ví dụ: độc lập chuyên môn, công khách quan, xác tin cậy, ) nhằm cung cấp cho bên có liên quan thơng tin có chất lượng cao độc lập tình hình kinh tế xã hội Bộ Quy tắc thức hành thống kê Châu Âu (Eurostat 2012) kết có liên quan q trình Nó dựa 15 ngun tắc gồm khía cạnh: mơi trường thể chế, quy trình sản xuất thống kê đầu thống kê Các quan thống kê, gồm Ủy ban Châu âu (Eurostat), quan thống kê quốc gia quan quốc gia khác có trách nhiệm phát triển, xây dựng phổ biến số liệu thống kê Châu Âu, với phủ, Hội đồng Châu Âu cam kết thực Bộ Quy tắc Các tiêu chuẩn cao tồn q trình thống kê khơng đảm bảo 12 hầu hết tổ chức thu thập sử dụng liệu lớn thân chất lượng thống kê liệu lớn chủ đề chưa khám phá nghiên cứu học thuật quốc tế Cũng cần lưu ý yếu tố then chốt cho phép 'Phong trào số xã hội' đạt nhiều kết chương trình nghị ban đầu nó hoạt động khó cấu trúc Hiểu chế tác động gây khuôn khổ xã hội (hoặc, ví dụ, độ co giãn mơ hình kinh tế) điều nhà định lựa chọn thông tin có sẵn Một số cơng trình cho thấy Dữ liệu lớn ước tính tốt số số xã hội nhưng, đề cập trước đó, Dữ liệu lớn liệu xử lý chồng chéo trình tạo thông tin cấu trúc mặt lý thuyết Dữ liệu gần ngoại lệ thay quy tắc Do đó, có khả sử dụng Dữ liệu lớn, chúng tơi có ước tính rẻ nhanh số xã hội có liên quan (ví dụ: thất nghiệp) chúng tơi khơng có tất thơng tin bổ sung giúp người định giải vấn đề nghề nghiệp Đồng thời, Dữ liệu lớn có sẵn loại liên tục họ cung cấp thông tin kịp thời Việc ủy quyền cho biến không truy cập cách sử dụng tìm kiếm mạng internet (ví dụ: sử dụng Xu hướng Google) cung cấp ước tính số tổng hợp trước so với thống kê thức (trong logic tại) tính sẵn có phép đo bao phủ việc xây dựng số hàm Dữ liệu số lớn nhắc đến thảo luận thực tế để giải thích chất lượng thông tin cung cấp Dữ liệu mở rộng số xây dựng Tất chủ đề khi/ít thảo luận viết xử lý liệu lớn Lời trích phổ biến liệu sản xuất theo quy trình, Dữ liệu số lớn khơng thể coi đại diện cho tồn dân số chiến lược giải vấn đề bí mật bị cần thiết kế Tuy nhiên, chúng tơi nghĩ chí cịn có nhiều vấn đề liên quan cần thảo luận thêm Trước hết, Dữ liệu số lớn liệu xây dựng theo quy trình riêng mà truy cập quan thống kê quốc gia, giá trị nội thơng tin mang tầm quan trọng xã hội cần chia sẻ với toàn thể cộng đồng Thứ hai, Dữ liệu số lớn giới thiệu số thời gian thực (một ý tưởng số liệu thống kê kịp thời), họ hoàn toàn thiếu loại tiêu chuẩn chất lượng Hơn nữa, Dữ liệu số lớn có cấu trúc thực phức tạp, chúng thể quan sát phần khung xã hội chúng cung cấp phần thông tin tượng quan tâm cụ thể Cơ chế tác dụng gây trích dẫn đo lường rõ ràng khảo 13 sát truyền thống nhỏ (nhưng hoàn chỉnh hơn) tập liệu lớn lớn không đầy đủ Nếu số liệu lớn cho để đo lường tượng xã hội, chồng chéo chúng thân tượng phải đo theo dõi thêm Cuối cùng, cách mạng liệu lớn đưa loạt vấn đề đạo đức có liên quan đến quyền riêng tư, danh tính, tính bảo mật minh bạch cịn mở (như Richards Kings 2014; King 2011) quy định luồng thông tin cá nhân xã hội cần thiết: mặt chúng tơi có hầu hết liệu lớn thu thập phân tích mà khơng có kiến thức đồng ý thực người thu thập thông tin mặt khác, văn phịng thống kê thức phải xử lý quy trình tiêu chuẩn nghiêm ngặt ẩn danh liệu (đặc biệt cho liệu y tế) ảnh hưởng đến việc sử dụng phân tích liệu Ví dụ, hiệu ứng thu thập phân tích liệu lớn Quy định bảo vệ liệu chung EU (EU) 2016/679 phê duyệt gần bảo vệ người liên quan đến việc xử lý liệu cá nhân chuyển động tự liệu đó'' chưa thảo luận đánh giá Kết luận lại, nghĩ ảnh hưởng cách mạng liệu lớn lên số xã hội cách xa kể từ xác định / phát cơng trình nghiên cứu thống kê nghiêm túc thực thảo luận cách sử dụng liệu lớn để cải thiện phân tích thống kê tượng xã hội (ví dụ: Marchetti cộng 2015), đóng góp lớn cơng trình nghiên cứu có điều nhiều ví dụ đồ chơi để khám phá khả liệu lớn nhằm ước tính số xã hội, khơng nói (thậm chí khơng hơn) số mà chúng cố gắng để mô Kết tối thiểu mà mong đợi từ việc sử dụng liệu lớn để xây dựng số xã hội nhàm giảm tần suất thực điều tra thống kê thức với ước tính dựa liệu lớn cho giai đoạn mà ước tính khơng thực Nhưng để có số xã hội đáng tin cậy tính tốn từ liệu lớn, tiêu bổ sung thêm số điều / thứ mẻ vào lý thuyết khoa học xã hội, cộng đồng thống kê quốc tế nên bắt đầu thảo luận ba vấn đề sau đây: i) làm để có có phổ biến rộng rãi liệu lớn (đặc biệt quan thống kê nhà nước); ii) làm để đo lường / xác định chất lượng liệu lớn; iii) quy định quyền riêng tư tính minh bạch nên thay đổi thời đại liệu lớn Tài liệu tham khảo Blumenstock, J., Cadamuro, G., & On, R (2015) Predicting poverty and wealth from mobile phone metadata Science, 350(6264), 1073–1076 14 Boyd, D., & Crawford, K (2012) Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon Information Communication and Society, 15(5), 662–679 Chang C.C & Chu K.H (2013) A recommender system combining social networks for tourist attractions In 5th International IEEE Conference on Computational Intelligence, Communication Systems and Networks (CICSyN) (pp 42–47) Cord, A F., Roeßiger, F., & Schwarz, N (2015) Geocaching data as an indicator for recreational ecosystem services in urban areas: Exploring spatial gradients, preferences and motivations Landscape and Urban Planning, 144, 151–162 Dutta, R., Morshed, A., Aryal, J., D’este, C., & Das, A (2014) Development of an intelligent environmental knowledge system for sustainable agricultural decision support Environmental Modelling and Software, 52, 264–272 Elvidge, C D., Sutton, P C., Ghosh, T., Tuttle, B T., Baugh, K E., Bhaduri, B., et al (2009) A global poverty map derived from satellite data Computers & Geosciences, 35(8), 1652–1660 Eurostat (2012) European statistics code of practice - Revised edition 2011 Product Code: KS-32-11-955, release date: Jan 01, 2012 doi:10.2785/18474 Giannone, D., Reichlin, L., & Small, D (2008) Nowcasting: The real-time informational content of macroeconomic data Journal of Monetary Economics, 55(4), 665–676 Ginsberg, J., Mohebbi, M H., Patel, R S., Brammer, L., Smolinski, M S., & Brilliant, L (2009) Detecting influenza epidemics using search engine query data Nature, 457(7232), 1012–1014 Gonza´lez-Bailo´n, S (2013) Social science in the era of big data Policy and Internet, 5(2), 147–160 King, G (2011) Ensuring the data-rich future of the social sciences Science, 331(6018), 719–721 Land K.C & Michalos A.C (2015) Fifty years after the social indicators movement: has the promise been fulfilled? An Assessment and an Agenda for the Future, forthcoming in Social Indicators Research Pre-print available at: http://www.miqols.org/howb/wp-content/uploads/2016/06/LandAndMichalos50YearsPaper-Draft7.pdf 15 Laney, D (2001) 3D data management: Controlling data volume, velocity and variety META Group Research Note, 6, 70 Lazer, D., Kennedy, R., King, G., & Vespignani, A (2014) The parable of google flu: Traps in big data analysis Science, 343(6176), 1203–1205 Manrique P., Qi H., Morgenstern A., Velasquez N., Lu T C & Johnson N (2013) Context matters: improving the uses of big data for forecasting civil unrest: emerging phenomena and big data In IEEE International Conference on Intelligence and Security Informatics (ISI) (pp 169–172) Mao, H., Shuai, X., Ahn, Y Y., & Bollen, J (2015) Quantifying socio-economic indicators in developing countries from mobile phone communication data: applications to Coˆte d’Ivoire EPJ Data Science, 4(1), 1–16 Marchetti, S., Giusti, C., Pratesi, M., Salvati, N., Giannotti, F., Pedreschi, D., et al (2015) Small area model-based estimators using big data sources Journal of Official Statistics, 31(2), 263–281 Richards, N M., & King, J H (2014) Big data ethics Wake Forest Law Review, 49, 393–432 Rill, S., Reinel, D., Scheidt, J., & Zicari, R V (2014) Politwi: Early detection of emerging political topics on twitter and the impact on concept-level sentiment analysis Knowledge-Based Systems, 69, 24–33 Smith-Clarke C., Mashhadi A & Capra L (2014,) Poverty on the cheap: Estimating poverty maps using aggregated mobile communication networks In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp 511–520) Taylor, L., Schroeder, R., & Meyer, E (2014) Emerging practices and perspectives on Big Data analysis in economics: Bigger and better or more of the same? Big Data and Society, 1(2), 1–10 United Nations (2015) Global sustainable development report Available at: https:// sustainabledevelopment.un.org/globalsdreport Accessed September 01, 2016 United Nations Global Pulse (2013) Big Data for Development: A primer http://www.unglobalpulse.org/sites/default/files/Primer%202013_FINAL%20FOR %20PRINT.pdf Accessed September 01, 2016 16 United Nations Global Pulse (2014) Mining indonesian tweets to understand food price crises Jakarta http://www.unglobalpulse.org/projects/social-media-socialprotection-indonesia Accessed September 01, 2016 Wesolowski, A., Eagle, N., Tatem, A J., Smith, D L., Noor, A M., Snow, R W., et al (2012) Quantifying the impact of human mobility on malaria Science, 338(6104), 267–270 Yazdani M & Manovich L (2015) Predicting social trends from nonphotographic images on Twitter In IEEE International Conference on Big Data (pp.1653–1660) Yuan, Q., Nsoesie, E O., Lv, B., Peng, G., Chunara, R., & Brownstein, J S (2013) Monitoring influenza epidemics in China with search query from Baidu PLoS ONE, 8(5), e64323 Zhou, K., & Yang, S (2016) Understanding household energy consumption behavior: The contribution of energy big data analytics Renewable and Sustainable Energy Reviews, 56, 810–819 17 ... trực 65 2.1 Dữ liệu lớn mục tiêu phát triển bền vững Những xem xét sơ mở đường cho phân tích sâu việc sử dụng liệu lớn cách phổ biến khoa học xã hội, đặc biệt liên quan tới mục tiêu phát triển bền... gia nhiều vào cách mạng ? ?dữ liệu lớn? ?? ứng dụng khoa học xã hội có phần hạn chế nghiên cứu ? ?dữ liệu lớn? ?? (Taylor cộng 2014; Gonza´lez-Bailo´n 2013) Chụp ảnh nghiên cứu dựa ? ?dữ liệu lớn? ?? nói chung... ứng dụng Dữ liệu lớn có mục tiêu chung khác nước phát triển nước phát triển Một mặt, nước phát triển Dữ liệu lớn dường thực sở thông tin tốt để tạo ủy nhiệm/đại diện đáng tin cậy số xã hội hồn

Ngày đăng: 14/05/2021, 11:11

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w