Quản trị Quy trình thu thập và khai thác thông tin thống kê

Một phần của tài liệu (LUẬN văn THẠC sĩ) QUẢN TRỊ QUY TRÌNH THU THẬP và KHAI THÁC THÔNG TIN THỐNG kê tại TRUNG tâm tư vấn và DỊCH vụ THỐNG kê TỔNG cục THỐNG kê (Trang 28)

Theo nghiên cứu của Hoàng Tuấn Long và Phạm Thu Thủy (2020) kế thừa của các nghiên cứu Ainsworth (2020); Dallemand (2019) và Rouse (2020) thì xây dựng quy trình cho việc xử lý, làm sạch, lưu trữ, bảo mật và chia sẻ dữ liệu thống kê gồm 5 bước cơ bản: (i) xác định số liệu cần thu thập; (ii) xây dựng phương pháp thu thập số liệu; (iii) xây dựng khung nhập liệu; (iv) đào tạo và thống nhất giữa người thu thập số liệu, người nhập số liệu và người thiết lập khung nhập số liệu và (v) quy trình làm sạch số liệu.

Hình 1.4 Quy trình quản lý số liệu/thông tin thống kê

Nguồn: Hoàng Tuấn Long và Phạm Thu Thủy (2020)

Nghiên cứu của Hoàng Tuấn Long và Phạm Thu Thủy (2020) tập trung đề xuất quy trình thu thập số liệu/thông tin thống kê còn nghiên cứu của Trần Tuấn Hưng và cộng sự (2019) thì tập trung đến quản trị quy trình khai thác thông tin thống kê. Nghiên cứu chỉ ra 4 bước liên qua đến quá trình khai thác số liệu/thông tin thống kê là: (i) Trích xuất, chuyển đổi và tải dữ liệu vào kho dữ liệu; (ii) Lưu trữ và quản lý dữ liệu trong cơ sở dữ liệu đa chiều; (iii) Xác định các giá trị chính từ tập dữ liệu được trích xuất và (iv) Phân tích dữ liệu hiện tại dưới dạng dễ hiểu, chẳng hạn như biểu đồ.

Tuy nhiên đề tài mà tác giả thực hiện trong Luận văn nghiên cứu của mình lại có những nét đặc trưng riêng của ngành cũng như tuân thủ những quy định riêng của Chinh phủ nên việc quản trị quy trình thu thập và khai thác thông tin thống kê cũng có những nét tương đồng và khác biệt. Tác giả xin đưa ra quy trình tiêu chuẩn của ngành trong việc thu thập và khai thác thông tin thống kê tiêu chuẩn căn cứ theo Quyết định 945/QĐ-TCTK ngày

24 tháng 9 năm 2013 của Tổng cục trưởng Tổng cục Thống kê (TCTK) về quy trình sản xuất thông tin thống kê cấp cao của Tổng cục Thống kê, trong đó đã quy định quy trình thu thập và khai thác thông tin thống kê theo 7 bước: (1) Xác định nhu cầu thông tin; (2) Chuẩn bị thu thập thông tin; (3) Thu thập thông tin; (4) Xử lý thông tin; (5) Phân tích thông tin; (6) Phổ biến thông tin và (7) Lưu trữ thông tin.

Hình 1.5 Quy trình sản xuất thông tin thống kê

Nguồn: Quyết định 945/QĐ-TCTK ngày 24/9/2013

1.2.1 Thu thập thông tin thống kê

Nguồn thu thập thông tin thống kê

Như đã đề cập trên mục khái niệm về quy trình ở mục 1.1.1.3 thì quy trình là sự đơn giản hóa hiện thực một cách có chủ đích nhằm thể hiện một sự vật, hiện tượng hoặc quá trình nào đó một cách đơn giản, hợp lý và khách quan. Theo Luật Thống kê (2015) và trên thực tế, số liệu thống kê có thể thu thập từ các nguồn chủ yếu sau: (1) Số liệu từ các cuộc điều tra thống kê; (2) Dữ liệu hành chính (từ hoạt động thống kê nhà nước); (3) Số liệu từ Báo cáo thống kê.

Thông tin thống kê được sử dụng phải từ các nguồn số liệu chính thức do hệ thống tổ chức thống kê trực tiếp thực hiện hoặc tổng hợp từ thông tin thống kê do các Bộ, cơ quan ngang Bộ, Cơ quan thuộc Chính phủ, Toà án nhân dân tối cao, Viện Kiểm sát Nhân dân tối cao… thực hiện, nhằm đáp ứng yêu cầu quản lý chung của Nhà nước. Số liệu của các chỉ tiêu thống kê được lựa chọn trên cơ sở các các nguồn số liệu thống kê sau:

B1: Xác định nhu cầu thông tin B2: Chuẩn bị thu thập thông tin B3: Thu thập thông tin B4: Xử lý thông tin B5: Phân tích thông tin B6: Phổ biến thông tin B7: Lưu trữ thông tin

 Niên giám thống kê của Tổng cục Thống kê; Niên giám thống kê của tỉnh, thành phố trực thuộc Trung ương; Niên giám thống kê của bộ, ngành (như Bộ Y tế; Bộ Giáo dục và Đào tạo; Bộ Lao động-Thương binh và Xã hội; Bộ Công an…);

 Kết quả của các cuộc điều tra trong chương trình điều tra thống kê quốc gia như Tổng điều tra dân số và nhà ở năm 2019, Khảo sát mức sống dân cư Việt Nam, Điều tra lao động, việc làm,…);

 Báo cáo tình hình kinh tế xã hội hàng năm (Tổng cục Thống kê);

 Các Báo cáo và Thông tin thống kê tại Việt Nam tại website chính thức của Tổng cục Thống kê (www.gso.gov.vn);

 Cổng thông tin điện tử chính thức của các Bộ, ngành, các cơ quan trực thuộc chính phủ, UBND tỉnh/thành phố trực thuộc Trung ương, UBND xã phường, thị trấn…

 Các ấn phẩm số liệu thống kê chính thức của TCTK như Báo cáo Chỉ số hài lòng về sự phục vụ hành chính (SIPAS); Báo cáo “Nghèo đa chiều của trẻ em Việt Nam vùng dân tộc thiểu số: Thực trạng, biến động và những thách thức...

 Dữ liệu hành chính của các Bộ, ngành và địa phương…được các bộ ngành, địa phương gửi chính thức cho Tổng cục Thống kê qua báo cáo thống kê hoặc theo yêu cầu chính thức của Tổng cục Thống kê.

Xác định nhu cầu thông tin:

Mỗi tổ chức, cá nhân có nhu cầu thông tin khác nhau cho những mục đích và công việc khác nhau. Vì thông tin rất đa dạng, việc xác định đúng nhu cầu thông tin sẽ giúp cho việc thu thập thông tin có trọng tâm, bảo đảm thu thập các thông tin cần thiết, khắc phục tình trạng thu thập thông tin dàn trải, vừa thừa lại vừa thiếu các thông tin cần thiết theo yêu cầu công việc cần giải quyết. Để xác định đúng nhu cầu thông tin cần căn cứ vào chức năng, nhiệm vụ và nội dung mục đích của thông tin cần thu thập. Việc xác định đúng nhu cầu thông tin đối với chủ thể sử dụng thông tin sẽ giúp định hướng xác định thu thập thông tin cần thiết, tránh việc ôm đồm, thu thập những thông tin ngoài lề, không liên quan trực tiếp đến vị trí, công việc cần giải quyết. Việc

xác định nhu cầu thông tin phải theo nguyên tắc mở, có nghĩa là thông tin phải được tiếp cận theo cách tiếp cận mở, khai thác nhiều nguồn thông tin, không bó hẹp ở một nguồn thông tin nhằm tạo ra nguồn thông tin đa dạng, đa chiều giúp tiếp cận vấn đề toàn diện hơn. Riêng đối với xác định thông tin thống kê cần thu thập gắn liền với việc xây dựng hệ thống chỉ tiêu thống kê nhằmphản ánh các mặt, các tính chất quan trọng nhất, các mối liên hệ cơ bản giữa các mặt trong tổng thể và giữa các hiện tượng nghiên cứu với các hiện tượng có liên quan.

Để xây dựng nhu cầu thu thập thông tin thống kê cần căn cứ vào mục đích nghiên cứu, tính chất và đặc điểm của đối tượng nghiên cứu cũng như khả năng nhân lực và tài chính để nêu được đặc điểm và mối liên hệ cơ bản của hiện tượng nghiên cứu; Phải có các chỉ tiêu mang tính chất chung, các chỉ tiêu mang tính chất bộ phận và các chỉ tiêu nhân tố; Phải đảm bảo tính thống nhất về nội dung, phương pháp và phạm vi tính toán của các chỉ tiêu cùng loại.

Chuẩn bị thu thập thông tin

Sau khi xác định nhu cầu thông tin, Bên tiến hành thu thập thông tin (TCTK, các Cục Thống kê, Trung tâm tư vấn và dịch vụ thống kê, Bộ ngành hay các tổ chức) sẽ tiến hành các bước chuẩn bị thu thập thông tin gồm một số nội dung công việc sau:

 Khi được chấp nhận phê duyệt Phương án thu thập thông tin, cơ quan/đơn vị thực hiện thu thập thông tin sẽ gửi thông báo chính thức tới các đối tượng điều tra qua văn thư chính thức (Công văn/Thông báo…) hoặc qua các phương tiện thông tin đại chúng.

 Bên tiến hành thu thập thông tin tổ chức sắp đặt cuộc phỏng vấn bằng việc báo trước (gọi điện, viết thư...) cho đối tượng được phỏng vấn (đề nghị) được phỏng vấn (trò chuyện, trao đổi...). Bên tiến hành thu thập thông tin phải giới thiệu đầy đủ, chính xác và rõ ràng tư cách của người phỏng vấn, mục đích và nội dung cuộc phỏng vấn, địa điểm, thời gian phỏng vấn; các quyền lợi và nghĩa vụ của người tham gia phỏng vấn…  Bên tiến hành thu thập thông tin phải chuẩn bị tốt các công việc hậu cầu

khác như chuẩn bị phương tiện di chuyển đến nơi phỏng vấn (fieldwork), trang phục phù hợp (nhiều cuộc điều tra yêu cầu Điều tra viên mặc đồng phục, đeo thẻ và xuất trình Quyết định tổ chức Điều tra/Khảo sát trước khi phỏng vấn…)

 Đối với việc thu thập thông tin từ văn bản tài liệu thì phải sao chụp một phần hoặc toàn bộ văn bản, tài liệu. Việc sao chụp văn bản, tài liệu cần được lựa chọn khoa học, xác định đúng nội dung cần sao chụp để thuận lợi trong quá trình xử lý, tránh sự quá tải về khối lượng tài liệu sao chụp. Các văn bản pháp luật và tài liệu khác có liên quan phải được sưu tập, thu thập, tổng hợp và lưu trữ. Các văn bản phải được quản lý, sắp xếp một cách khoa học và sắp xếp theo một thứ tự nhất định để dễ tra cứu; Tổng hợp các tin, bài theo từng vấn đề;

Thu thập thông tin.

Sau khi đã xác định nhu cầu thông tin và chuẩn bị thu thập, việc xác định kênh và nguồn thu thập thông tin là bước tiếp theo của quá trình thu thập thông tin. Thu thập thông tin là một khâu trong quá trình thông tin của một cơ quan/tổ chức. Thu thập thông tin gắn với yếu tố đầu vào của tổ chức. Thu thập thông tin không tách rời quá trình xử lý thông tin, nhằm đảm bảo thông tin cho hoạt động của tổ chức. Thu thập thông tin có tính đa dạng về phương pháp, cách thức. Tùy theo yêu cầu về thông tin, nguồn lực mà có thể áp dụng các phương pháp, cách thức thu thập thông tin cho phù hợp; Thu thập thông tin có thể tìm kiếm từ các nguồn, kênh thông tin khác nhau. Mỗi kênh thông tin có những ưu điểm và nhược điểm riêng, phù hợp với mỗi loại thông tin cần thu thập. Việc lựa chọn nguồn thông tin thích hợp bảo đảm hiệu quả quá trình thu thập thông tin và chất lượng của thông tin;

Thu thập thông tin là một quá trình liên tục, nhằm bổ sung, hoàn chỉnh thông tin cần thiết; Thu thập thông tin chịu tác động của nhiều nhân tố về kỹ năng thu thập thông tin, kỹ năng sử dụng các phương pháp, cách thức thu thập thông tin

Yêu cầu với thông tin thu thập

hợp với công việc cần giải quyết, có tính hợp pháp, có giá trị sử dụng. Thông tin phải chính xác: Thông tin phải phản ánh đúng bản chất của đối tượng, được cung cấp bởi những chủ thể đáng tin cậy, đã được kiểm chứng hoặc có cơ sở để tiến hành kiểm chứng.

 Thông tin phải đầy đủ: Thông tin phải phản ánh được các mặt, các phương diện của đối tượng, giúp nhận diện đúng vấn đề.

 Thông tin phải kịp thời: Thông tin có tính mới, phản ánh đối tượng ở thời điểm hiện tại, không phải là những thông tin cũ, thông tin đã lạc hậu.

 Thông tin phải có tính hệ thống và tổng hợp: Thông tin phải phản ánh được đúng về đối tượng, sự vật, sự việc liên quan.

 Thông tin đơn giản dễ hiểu: Thông tin có thể dễ dàng sử dụng, phục vụ cho yêu cầu công việc.

 Thông tin phải đảm bảo yêu cầu bí mật: Trong một số trường hợp thông tin thu thập được phải bảo đảm tính bí mật, sử dụng trong phạm vi quy định ví dụ như các thông tin về bí quyết công nghệ, các thông tin chưa được phép công bố trên diện rộng, các thông tin theo quy định là bí mật nhà nước…

Nguồn thu thập thông tin

Cần xác định rõ nguồn thu thập thông tin. Nguồn thông tin trên thực tế có thể phân loại theo những cách tiếp cận khác nhau nhưng tổng thể có thể được chia thành thông tin thứ cấp và sơ cấp.

 Thông tin thứ cấp là nguồn thông tin sẵn có từ các chủ thể khác cung cấp. Thông tin sơ cấp là thông tin mới, được thu thập thông qua các phương pháp, kỹ thuật nhất định (thông tin từ các hồ sơ, tài liệu và văn bản hay thông tin từ sách báo, tạp chí, đài phát thanh, truyền hình, internet và các phương tiện thông tin đại chúng khác

 Thu thập thông tin qua nguồn sơ cấp (thông tin bằng bảng hỏi định lượng, quan sát tại chỗ, lấy ý kiến chuyên gia qua thảo luận nhóm/hội thảo chuyên đề, thu thập thông tin gián tiếp...)

1.2.2 Khai thác thông tin thống kê

Khai thác dữ liệu là hoạt động thu lấy những dữ liệu cần thiết từ tập các dữ liệu hay CSDL; là tập hợp các kỹ thuật, các quy trình xử lý dữ liệu để tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu và các mẫu tiềm ẩn trong tập dữ liệu đó; để có được các dữ liệu theo cấu trúc mong muốn với mục tiêu đầu ra là dạng mẫu hoặc mối liên hệ hoặc xác định các giá trị còn thiếu, các giá trị trong tương lai của dữ liệu. Khai thác dữ liệu là một tiến trình sử dụng các công cụ phân tích dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong CSDL, kết quả của việc khai thác là xác định các mẫu hay các quy trình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các CSDL. Để từ đó rút trích ra được các mẫu, các quy trình hay các thông tin và tri thức từ các CSDL.

Quy trình khai thác dữ liệu trong đề tài nay được hiểu là một hệ thống các cách thức, các bước, các phương pháp thu thập, khai thác dữ liệu một cách đầy đủ, khoa học khách quan theo một trình tự chặt chẽ và có chủ đích.

Xây dựng quy trình khai thác dữ liệu phục công tác thống kê nhà nước là quá trình nghiên cứu, đề xuất và xây dựng các phương pháp, các cách thức, các bộ công cụ một cách khái quá hóa để có thể khai thác được các dữ liệu nhằm phục vụ công tác thống kê.

Quy trình tiêu chuẩn khai thác thông tin thống kê

Quy trình khai thác thông tin thống kê gồm 7 bước cơ bản:

 Bước 1: Làm sạch dữ liệu: loại bỏ nhiễu và các dữ liệu không cần thiết  Bước 2: Tích hợp dữ liệu: quá trình hợp nhất dữ liệu thành những kho dữ

liệu sau khi đã làm sạch và tiền xử lý;

 Bước 3: Trích chọn dữ liệu: trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu, dữ liệu không đầy đủ;

 Bước 4: Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý;

 Bước 5: Khai phá dữ liệu: Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.

 Bước 6: Ước lượng mẫu: quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó;

 Bước 7: Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng.

Các phương pháp khai thác thông tin thống kê, dịch vụ thống kê

Trong phạm vi nghiên cứu của Luận văn, tác giả chỉ đưa ra hai phương pháp khai thác thông tin, dữ liệu thống kê thường được đề cập và sử dụng phổ biến tại Việt Nam và trên thế giới, gồm:

Phương pháp kết hợp đa nguồn

Theo phương pháp này các bản ghi dữ liệu thống kế chính như là công cụ để kết hợp, đối chiếu các bộ dữ liệu từ các nguồn khác nhau. Các nguồn dữ liệu khác nhau này được coi như các nguồn vệ tinh.

Các nguồn vệ tinh có thể được sử dụng gồm: Các thông tin từ các khu vực có hồ sơ đăng ký hành chính, Các thông tin từ các doanh nghiệp; Các thông tin từ điều tra; Hệ thống thông tin từ các khu vực địa lý…

Phương pháp sử dụng dữ liệu đăng ký hành chính:

Dữ liệu hành chính là dữ liệu được thu thập đầu tiên phục vụ mục đích quản lý hành chính nên đối với mục đích thống kê, dữ liệu hành chính là dữ

Một phần của tài liệu (LUẬN văn THẠC sĩ) QUẢN TRỊ QUY TRÌNH THU THẬP và KHAI THÁC THÔNG TIN THỐNG kê tại TRUNG tâm tư vấn và DỊCH vụ THỐNG kê TỔNG cục THỐNG kê (Trang 28)