Bài viết trình bày chiến lược và các dự án về các nguồn dữ liệu mới ở Cơ quan Thống kê Hàn Quốc (KOSTAT) kể từ khi ra mắt một bộ phận mới về dữ liệu lớn vào tháng 10/2015. Chiến lược này tập trung vào liên kết dữ liệu giữa dữ liệu khu vực công (tức là dữ liệu của KOSTAT như dữ liệu hành chính và điều tra dân số) và dữ liệu lớn khu vực tư nhân (ví dụ: Dữ liệu điện thoại di động, dữ liệu mạng xã hội) cũng như tạo lập khung thể chế và hợp tác.
KINH NGHIỆM VÀ THÁCH THỨC VỀ VIỆC SỬ DỤNG CÁC NGUỒN DỮ LIỆU MỚI Ở CƠ QUAN THỐNG KÊ HÀN QUỐC Tóm tắt: Bài viết trình bày chiến lược dự án nguồn liệu Cơ quan Thống kê Hàn Quốc (KOSTAT) kể từ mắt phận liệu lớn vào tháng 10/2015 Chiến lược tập trung vào liên kết liệu liệu khu vực công (tức liệu KOSTAT liệu hành điều tra dân số) liệu lớn khu vực tư nhân (ví dụ: Dữ liệu điện thoại di động, liệu mạng xã hội) tạo lập khung thể chế hợp tác KOSTAT thực thành công dự án liên kết liệu đánh giá tín dụng cá nhân liệu điện thoại di động với liệu KOSTAT, tổ chức diễn đàn liệu lớn thiết lập hợp tác quốc tế Tuy nhiên, KOSTAT phải đối mặt với thách thức cần khắc phục: Tiếp cận hạn chế thông tin cá nhân liệu khu vực tư nhân luật bảo vệ quyền riêng tư mạnh mẽ, thiếu hợp tác từ nhà cung cấp liệu khu vực tư nhân, thiếu chuyên gia nhà khoa học liệu, chất lượng thấp liệu lớn khu vực tư nhân Trước thách thức, KOSTAT nên tiếp tục trao đổi nhiều với bên liên quan từ trị, nhà hoạch định sách, doanh nghiệp, học thuật tổ chức phi phủ (NGO) để họ hiểu tầm quan trọng nguồn liệu cho thống kê nhà nước, nâng cao lực nội sở hạ tầng liệu lớn Ngoài ra, việc liên lạc với tổ chức quốc tế để giải vấn đề liệu lớn quan trọng Bài viết trình bày Hội nghị nhà thống kê châu Âu 2019 I Tổng quan Để thay đổi mơ hình sản xuất thống kê từ điều tra truyền thống sang phương pháp thu thập liệu mới, KOSTAT tiếp tục nỗ lực sử dụng liệu hành để tổng hợp số liệu thống kê nhà nước Do đó, điều tra dân số dựa đăng ký tiến hành lần vào năm 2015 12 biến dân số tên, tuổi, giới tính đặc điểm hộ gia đình thu thập cách sử dụng 24 nguồn liệu hành từ 13 quan phủ 52 biến khơng thu từ liệu hành thu thập phương pháp điều tra mẫu - 20% tổng thể Ngoài ra, KOSTAT thực dự án sở liệu đăng ký thống kê toàn diện để thiết lập sở liệu lĩnh vực sử dụng liệu hành chính: Dân số/hộ gia đình, nhà ở/xây dựng, kinh doanh/doanh nghiệp hoạt động kinh tế 32 Gần đây, liệu lớn nhận quan tâm lớn nguồn liệu thống kê kinh doanh Về khía cạnh thống kê, liệu lớn cung cấp liệu phù hợp kịp thời cho việc định thông qua việc liên kết liệu khác giảm chi phí sản xuất thống kê mà khơng cần điều tra để thu thập liệu Về khía cạnh kinh doanh, liệu lớn tạo động tăng trưởng cốt lõi cách mạng cơng nghiệp lần thứ phân tích liệu lớn cho công nghệ vạn vật kết nối internet (IoT) trí tuệ nhân tạo (AI) Trong bối cảnh này, KOSTAT thành lập phận liệu lớn vào tháng 10/2015 thực nhiều dự án để phát triển số liệu thống kê nhà nước theo chiến lược liệu lớn Tuy nhiên, nhiều hạn chế để sử dụng liệu lớn cho thống kê nhà nước Do đó, viết nghiên cứu kinh nghiệm KOSTAT việc tạo điều kiện sử dụng liệu lớn thách thức liên quan Cấu trúc viết sau: Phần II trình bày chiến lược KOSTAT liệu lớn dự án Phần III trình bày thách thức phải đối mặt việc sử dụng liệu lớn thống kê nhà nước Phần cuối trình bày tóm tắt kết luận II Kinh nghiệm KOSTAT nguồn liệu A Chiến lược liệu lớn Mặc dù khơng có định nghĩa thống liệu lớn, thường đề cập đến nguồn liệu mơ tả có khối lượng, vận tốc đa dạng, đòi hỏi hình thức xử lý hiệu chi phí, sáng tạo để tăng cường nhận thức định (UNECE, 2013) KOSTAT mắt phận liệu lớn vào tháng 10/2015 để tạo điều kiện sử dụng nguồn liệu mới, tức liệu lớn cho thống kê nhà nước Sau xác định liệu lớn “thông tin thống kê”, liên quan đến liệu hữu ích thơng qua liên kết phân tích liệu, KOSTAT lập chiến lược liệu lớn bao gồm hai cách tiếp cận: Tạo thông tin thống kê khác tạo lập khung thể chế hợp tác Chiến lược gồm nhiệm vụ: (1) Liên kết liệu lớn khu vực công tư nhân; (2) Cung cấp số liệu thống kê bổ sung số liệu thống kê có; (3) Xây dựng khung pháp lý thể chế; (4) Tăng cường hợp tác bên Theo chiến lược này, nhiều dự án thực B Các dự án Liên kết liệu lớn khu vực cơng tư nhân KOSTAT có nhiều liệu hành (khoảng 89 loại) thu thập từ quan phủ khác liệu điều tra (khoảng 42 loại) bao gồm điều tra dân số kinh doanh Để sử dụng liên kết liệu hành với liệu khác, đăng ký thường trú (RRN) liệu hành chuyển đổi thành mã định danh thống kê (SIN) Mã định danh bị xóa khỏi sở liệu đăng ký KOSTAT để bảo vệ quyền riêng tư Vì người có SIN riêng, đó, liệu sở liệu đăng ký sử dụng để tạo liệu cải thiện số liệu thống kê nhà nước thông qua liên kết với liệu lớn khu vực tư nhân liệu điện thoại di động, liệu thẻ tín dụng, liệu nợ cá nhân,… Tuy nhiên, khơng dễ để có liệu khu vực tư nhân cơng ty tư nhân khơng bắt buộc phải cung cấp liệu cho KOSTAT cho mục đích khác ngồi việc sản xuất số liệu thống kê nhà nước Trong trường hợp sản xuất số liệu thống kê nhà nước, KOSTAT lấy liệu khu vực tư nhân theo Luật Thống kê Vì nghiên cứu thí điểm dự án liệu lớn khơng nhằm mục đích đưa số liệu thống kê nhà nước phê duyệt theo quy trình thức, khó để có liệu từ khu vực tư nhân Về vấn đề này, KOSTAT thiết lập khung hợp tác thông qua việc ký biên ghi nhớ (MOU) với nhà cung cấp liệu khu vực tư nhân thực dự án liên kết liệu với họ Cách tiếp cận có lợi cho hai bên khu vực tư nhân đóng góp cho lợi ích cơng cải thiện phương pháp tổng hợp liệu lớn họ Để bảo vệ quyền riêng tư trình liên kết liệu, phương pháp khử nhận dạng thông tin cá nhân phát triển Mô-đun khử nhận dạng (DI) tương tự sử dụng KOSTAT để tạo SIN áp dụng cho liệu lớn khu vực tư nhân để tạo khóa liên kết (Hình 1) 33 Hình1: Quá trình khử nhận dạng Phương pháp biến đổi đặc biệt Cube one + KOSTAT Mã hóa mơ-đun DI Danh sách mẫu (DI) (64 chữ số) KOSTAT Môđun DI cung cấp Tổ chức tư nhân Mã hóa mơ-đun DI Mã hóa phụ (10 chữ số) Liên kết liệu máy chủ Danh sách mẫu tải máy chủ Vùng giới hạn KOSTAT Trích xuất danh sách mẫu Các dự án liên kết bao gồm xây dựng số liệu thống kê nợ hộ gia đình sử dụng liệu đánh giá tín dụng cá nhân từ Cục Tín dụng Hàn Quốc (KCB) đo lường thời gian nhàn rỗi làm việc thông qua sử dụng liệu định vị điện thoại di động từ Cục Viễn thông Hàn Quốc (KT) 10 Mục tiêu dự án nợ hộ gia đình cung cấp số liệu thống kê nợ xác theo đặc điểm hộ gia đình (ví dụ: Hộ gia đình độc thân, tự làm chủ,…) cho nhà hoạch định sách nợ hộ gia đình Hàn Quốc gia tăng Có số liệu thống kê nợ hộ gia đình vĩ mơ vi mô Hàn Quốc Các số liệu thống kê vĩ mơ thu thập từ ngành tài phản ánh tồn khối lượng nợ hộ gia đình chúng không cung cấp thông tin loại hộ gia đình khác Mặt khác, số liệu thống kê vi mơ từ khảo sát hộ gia đình cung cấp tình hình nợ theo đặc điểm hộ gia đình ước lượng thấp tổng số nợ Do đó, hữu ích kết hợp liệu nợ hộ gia đình vĩ mơ với liệu KOSTAT, chẳng hạn điều tra dân số để lấy thông tin hộ gia đình Bước 34 Mã hóa (10 chữ số) Làm khớp bảng B Danh sách cung cấp Tất liệu mã hóa (DI) Làm khớp bảng A đầu tiên, sở liệu nợ 5.000 hộ cưới (được xác định chưa đủ năm sau kết hôn) từ tháng 10/2010 đến tháng 11/2014 xây dựng phân tích thơng qua liên kết liệu KCB với liệu KOSTAT 11 Trong số nguồn liệu lớn khác, liệu điện thoại di động có quan tâm cao từ cộng đồng thống kê tỷ lệ thâm nhập cao đặc tính thời gian thực chúng Sự sẵn có chúng khu vực địa lý nhỏ với tính kịp thời tạo hội thu thập số liệu thống kê phân tách dòng dân số, du lịch, quản lý thảm họa, Trong bối cảnh này, KOSTAT triển khai dự án điện thoại di động để kiểm tra khả tính hữu ích việc sử dụng liệu điện thoại di động để lập số liệu thống kê đo lường chất lượng sống thời gian nhãn rỗi, thời gian lại, nghèo thời gian thông qua liên kết liệu KOSTAT liệu điện thoại di động Có nhà khai thác mạng di động (MNO) Hàn Quốc SKT, KT LGU+ Trong số đó, KT có thị phần khoảng 31% tham gia dự án KOSTAT Trong dự án này, có hai quận Seoul (là Gangnam- gu Dobong-gu) theo Tổng sản phẩm nội địa khu vực chọn để so sánh mức độ hạnh phúc khu vực giàu nghèo Do khối lượng lớn liệu điện thoại di động, liệu KOSTAT lưu trữ hệ thống phân tích liệu lớn KT sau khử nhận dạng liên kết với liệu điện thoại di động Các liệu liên kết nhân viên KOSTAT truy cập phân tích địa điểm định văn phòng KT Các kết ước lượng khơng đại diện cho tồn dân số hai quận liệu KT chiếm khoảng 30% tổng dân số Do đó, bảng tổng hợp tổng hợp phương pháp “Trọng số theo hạng”, xem xét bốn biến số (vùng, giới tính, tuổi, tình trạng hôn nhân, loại nhà) thông qua đặt liệu KT với dân số dựa đăng ký Cung cấp số liệu thống kê bổ sung số liệu thống kê có 12 Các nhà hoạch định sách có nhu cầu cao liệu kinh tế kịp thời hầu hết liệu kinh tế phát hành hàng tháng hàng quý Để đáp ứng nhu cầu, KOSTAT phát triển 14 “chỉ số kinh tế kịp thời” sử dụng nhiều nguồn liệu khác nhau: Chỉ số giá, phí điện hạn… Các số phát hành tuần 13 Để bổ sung số liệu thống kê có, số giá trực tuyến hàng ngày hàng tháng dựa 284 mặt hàng sản phẩm tính từ liệu giá từ trang web trung tâm mua sắm trực tuyến không bao gồm giá dịch vụ Tuy nhiên, có số hạn chế: i) Khơng thể thu thập liệu liên kết web bị thay đổi sửa đổi trang web, danh mục bị thay đổi mà khơng có thơng báo, ii) Cắt bỏ tập hợp trường hợp sản phẩm theo mùa, iii) Không thực điều chỉnh chất lượng CPI giá điện tử, quần áo, giảm 14 Ngồi ra, số kinh tế truyền thơng xã hội tính liệu truyền thơng xã hội (ví dụ: Tin tức, blog, bảng thơng báo Twitter) liên quan đến tình hình kinh tế bốn lĩnh vực: Điều kiện sống, tình hình kinh tế, thu nhập hộ gia đình chi tiêu tiêu dùng Sau thu thập tài liệu có chứa từ khóa (138) từ blog, quán cà phê Internet, tin tức Twitter cách thu thập liệu web hàng ngày, đếm tài liệu tích cực tiêu cực, tính tốn số tiêu chuẩn cho tên miền Cuối cùng, số tổng hợp đưa Xây dựng khung pháp lý thể chế 15 KOSTAT liên tục cố gắng sửa đổi “Luật Thống kê” để có sở pháp lý truy cập liệu lớn khu vực tư nhân Luật hành cho phép quan thống kê thu thập liệu khu vực tư nhân để sản xuất số liệu thống kê nhà nước Do đó, việc sửa đổi bao gồm quyền hợp pháp để thu thập liệu từ khu vực tư nhân trường hợp thí điểm dự án liệu lớn để kiểm tra khả tổng hợp số liệu thống kê nhà nước KOSTAT xây dựng sở hạ tầng liệu mở chia sẻ gọi “Trung tâm liệu lớn thống kê (SBDC)”, với mục đích hỗ trợ liên kết liệu lớn khu vực công tư nhân, cung cấp dịch vụ khử nhận dạng Chức thực kiểm tra chất lượng liệu hành chính; để cung cấp sở liệu đăng ký theo đối tượng (dân số, nhà ở, hoạt động kinh tế,…) sở liệu điều tra thống kê; để cung cấp dịch vụ liên kết theo yêu cầu khử nhận dạng Khách hàng liên kết liệu họ với liệu KOSTAT nơi định, trích xuất liệu dạng bảng tổng hợp Hiện tại, trung tâm đặt thành phố: Seoul, Busan Daejeon Quá trình xử lý liệu trình bày Hình 35 Hình 2: Lưu đồ xử lý liệu SBDC Chia sẻ Dữ liệu Xử lý khử nhận dạng cụ thể thống kê (tạo khóa liên kết) Dịch vụ CSDL tích hợp Cung cấp liệu tinh chỉnh chẳng hạn chuẩn hóa liệu, kiểm tra chất lượng, v.v Cung cấp CSDL theo đề tài chủ đề Liên kết hợp liệu Cung cấp mạng truy cập hạn chế Tạo phân tích liệu thơng qua ủy quyền truy cập Xuất liệu dạng bảng tổng hợp CSDL thống kê CSDL liên kết CSDL hành Dữ liệu riêng tư Tăng cường hợp tác bên 16 Trao đổi thảo luận với bên liên quan từ giới học thuật, doanh nghiệp phủ quan trọng để giải vấn đề liên quan đến việc tạo điều kiện sử dụng liệu lớn Trong bối cảnh này, KOSTAT tổ chức “Diễn đàn Thống kê - chiến lược” hàng quý kể từ năm 2015 Ngoài ra, KOSTAT đồng tổ chức “Diễn đàn liệu lớn” với Bộ liên quan đến liệu lớn: Bộ Nội An Bộ Khoa học công nghệ thông tin truyền thông 17 KOSTAT tham gia hợp tác quốc tế liên quan đến liệu lớn: Nhóm làm việc tồn cầu Liên hợp quốc liệu lớn với Cơ quan Thống kê Hà Lan Cơ quan Thống kê Hà Lan (CBS) KOSTAT xây dựng hợp tác song phương kể từ thỏa thuận liệu lớn ký kết Hội nghị thượng đỉnh thương mại Hà Lan- Hàn Quốc vào tháng 9/2016 Trong thỏa thuận đó, hoạt động chung lĩnh vực: i) Thu thập nguồn liệu lớn, ii) Phát triển kỹ thuật để khám phá liệu lớn, chẳng hạn kỹ thuật dựa trí tuệ nhân tạo kỹ thuật khai thác liệu văn bản, iii) Chun mơn phương pháp/phân tích 36 việc chọn lọc liệu lớn xử lý liệu, iv) Học trực tuyến, v) Trao đổi nhân viên, vi) Chia sẻ kinh nghiệm liên kết liệu lớn khu vực công tư nhân, vii) Dữ liệu lớn quyền riêng tư III Các thách thức 18 Bất chấp nhiều câu chuyện thành công việc tạo điều kiện sử dụng nguồn liệu mới, KOSTAT phải đối mặt với nhiều thách thức, bên bên 19 Thứ nhất, khó tiếp cận thơng tin cá nhân khu vực tư nhân Luật bảo vệ quyền riêng tư mạnh mẽ Hàn Quốc Luật Bảo vệ thông tin cá nhân (PPIA) Luật Bảo vệ liệu chung chi phối việc thu thập xử lý liệu cá nhân Có luật cụ thể theo ngành: Luật Mạng, Luật Thơng tin tín dụng Luật Thơng tin địa điểm Trong PPIA, định nghĩa liệu cá nhân rộng Việc sử dụng liệu cá nhân cần có đồng ý trước, tức phương pháp chọn tham gia Dữ liệu cá nhân định nghĩa liệu người sống xác định cá nhân liệu xác định nhận dạng cách dễ dàng kết hợp với thơng tin khác Do đó, luật gây khó khăn cho việc sử dụng liệu lớn để liên kết sử dụng thông tin cá nhân 20 Thứ hai, nhà cung cấp liệu khu vực tư nhân có nhận thức thấp hợp tác liệu Họ khơng sẵn lòng chia sẻ liệu Luật bảo vệ quyền riêng tư mạnh mẽ cách tiếp cận thụ động họ chia sẻ liệu 21 Thứ ba, liệu lớn có chất lượng thấp chúng khơng thu thập phương pháp điều tra truyền thống theo hướng dẫn thống kê nhà nước khung chất lượng mà phương pháp dựa công nghệ thông tin kiểm duyệt từ điện thoại di động, nhà cung cấp liệu,… Do đó, thiếu yếu tố chất lượng như: Tính đại diện, tính quán tính đầy đủ 22 Cuối cùng, thiếu chuyên gia nhà khoa học liệu sở hạ tầng công nghệ thông tin để xử lý liệu lớn KOSTAT Để phân tích liệu lớn đòi hỏi kỹ sở hạ tầng công nghệ thơng tin khác so với phân tích thống kê xử lý liệu truyền thống Các nhà khoa học liệu cần có kiến thức nhiều lĩnh vực như: Hadoop, NoQuery, trực quan hóa liệu, học máy khai thác văn bản,… KOSTAT có khả hạn chế tuyển dụng nhân viên có kỹ phân tích cao theo hệ thống tuyển dụng phủ tại, tức hạn chế ngân sách quy trình tuyển dụng khơng linh hoạt Đào tạo nhân viên để phát triển kỹ họ nhiều thời gian Về sở hạ tầng công nghệ thông tin, yêu cầu khoản đầu tư lớn vào kho liệu phần mềm để thu thập liệu, lưu trữ liệu, phân tích liệu trực quan hóa liệu Do đó, KOSTAT khơng thể xây dựng hệ thống phân tích liệu lớn riêng ngân sách hạn chế IV Kết luận 23 Theo chiến lược liệu lớn từ năm 2016, KOSTAT triển khai dự án để kiểm tra khả tạo điều kiện sử dụng liệu lớn cho thống kê nhà nước tập trung vào liên kết liệu khu vực cơng (ví dụ: Dữ liệu KOSTAT liệu hành điều tra dân số) liệu lớn khu vực tư nhân (ví dụ: Dữ liệu điện thoại di động, liệu truyền thơng xã hội) Ngồi ra, KOSTAT nỗ lực việc xây dựng khung pháp lý thể chế để hợp tác với bên liên quan nước quốc tế 24 KOSTAT thực thành công dự án liên kết liệu đánh giá tín dụng cá nhân liệu điện thoại di động với liệu KOSTAT, phát triển khuôn khổ hợp tác tổ chức diễn đàn liệu lớn để tăng cường liên lạc với bên liên quan, thiết lập hợp tác quốc tế với Liên hợp quốc Hà Lan Tuy nhiên, KOSTAT phải đối mặt với thách thức sau: Tiếp cận hạn chế thông tin cá nhân liệu khu vực tư nhân Luật bảo vệ quyền riêng tư mạnh mẽ, thiếu hợp tác từ nhà cung cấp liệu khu vực tư nhân, thiếu chuyên gia nhà khoa học liệu, chất lượng liệu lớn khu vực tư nhân thấp Trước tất thách thức trên, KOSTAT dự định trao đổi nhiều với bên liên quan từ trị, nhà hoạch định sách, doanh nghiệp, tổ chức học thuật tổ chức phi phủ (NGO) để giải thích tầm quan trọng nguồn liệu cho thống kê nhà nước, nâng cao lực nội sở hạ tầng liệu lớn Ngoài ra, việc liên lạc với tổ chức quốc tế để giải vấn đề liệu lớn quan trọng Thái Học (dịch) Nguồn: http://www.unece.org/fileadmin/DAM/stats/do cuments/ece/ces/2019/CES_30_Sem1_Ses1_K oreaE.pdf 37 ... gắng sửa đổi “Luật Thống kê để có sở pháp lý truy cập liệu lớn khu vực tư nhân Luật hành cho phép quan thống kê thu thập liệu khu vực tư nhân để sản xuất số liệu thống kê nhà nước Do đó, việc sửa... riêng, đó, liệu sở liệu đăng ký sử dụng để tạo liệu cải thiện số liệu thống kê nhà nước thông qua liên kết với liệu lớn khu vực tư nhân liệu điện thoại di động, liệu thẻ tín dụng, liệu nợ cá... qua đặt liệu KT với dân số dựa đăng ký Cung cấp số liệu thống kê bổ sung số liệu thống kê có 12 Các nhà hoạch định sách có nhu cầu cao liệu kinh tế kịp thời hầu hết liệu kinh tế phát hành hàng tháng