1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thử nghiệm phần mềm quản lý dữ liệu vi mô vào lưu trữ và quản lý dữ liệu của khảo sát mức sống hộ gia đình năm 2006

20 454 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 501,42 KB

Nội dung

Thử nghiệm phần mềm quản lý dữ liệu vi mô vào lưu trữ và quản lý dữ liệu của khảo sát mức sống hộ gia đình năm 2006. Thử nghiệm phần mềm quản lý dữ liệu vi mô vào lưu trữ và quản lý dữ liệu của khảo sát mức sống hộ gia đình năm 2006

Trang 1

BỘ KẾ HOẠCH VÀ ĐẦU TƯ

TỔNG CỤC THỐNG KÊ

CHUYÊN ĐỀ KHOA HỌC

THỬ NGHIỆM PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ VÀO LƯU TRỮ VÀ QUẢN LÝ DỮ LIỆU CỦA KHẢO SÁT MỨC SỐNG HỘ

GIA ĐÌNH NĂM 2006

Người thực hiện: CN Nguyễn Phương Anh Đơn vị công tác: Vụ TK Xã hội và Môi trường

Hà Nội, tháng 11 năm 2008

Trang 2

Đặt vấn đề

Việt Nam là một nước đang phát triển và đang trong quá trình hội nhập mạnh

mẽ với thế giới Cùng với sự phát triển mạnh mẽ của nền kinh tế thị trường,

sự bùng nổ thông tin trên toàn cầu, nền kinh tế hiện đại mà trong đó bao gồm kinh tế Việt Nam đã và đang có xu hướng chuyển sang nền kinh tế tri thức với nhiều đặc điểm mới và yêu cầu khắt khe hơn Chất lượng thông tin được đặt lên hàng đầu và đã trở thành yếu tố tiên phong thúc đẩy xã hội phát triển mạnh mẽ Hệ thống thông tin thống kê của Việt Nam cũng không nằm ngoài quy luật đó, trước đây nó đã có 1 vị trí quan trọng thì trong giai đoạn hiện nay

nó lại càng có thêm vị thế hơn nữa trong nền kinh tế tri thức, vì vậy nó luôn luôn đòi hỏi được hoàn thiện hơn Với mục đích nâng cao chất lượng thông tin, phục vụ tốt hơn yêu cầu của các đối tượng dùng tin, thông tin thống kê cần được bổ sung những công cụ mới, mạnh mẽ hơn để hoàn thành tốt nhiệm

vụ được giao

Trong chuyên đề này, chúng tôi xin giới thiệu một công cụ mới dành cho thống kê đó là Microdata Managerment Đây là phần mềm giúp lưu trữ, quản

lý và công bố số liệu thống kê, đặc biệt phù hợp với kết quả các cuộc điều tra

vi mô Công tác lưu trữ và quản lý số liệu thống kê là một hoạt động khá quan trọng của công tác thống kê, kết quả của các cuộc điều tra thống kê rất cần được lưu trữ theo thời gian để giúp cho việc thiết kế các cuộc điều tra khác tốt hơn đồng thời cũng cho phép so sánh kết quả thu được của các cuộc điều tra ở các thời điểm khác nhau

Hiện nay, cơ sở dữ liệu vi mô của Tổng cục thống kê có rất nhiều, từ các cuộc tổng điều tra như: Tổng điều tra dân số và nhà ở tiến hành theo chu kỳ 10 năm

1 lần; 2 cuộc Tổng điều tra nông thôn, nông nghiệp và thủy sản và Tổng điều tra các cơ sở kinh tế được tiến hành theo chu kỳ 5 năm 1 lần đến các cuộc điều tra mẫu như Điều tra Khảo sát Mức sống hô gia đình được tiến hành 2 năm 1 lần; Điều tra Doanh nghiệp tiến hành hàng năm; v.v… Với số lượng lớn các cuộc điều tra, cùng rất nhiều các chỉ tiêu thống kê của mỗi cuộc điều tra như vậy thì công tác xử lý, lưu trữ và quản lý số liệu là đặc biệt quan trọng, đòi hỏi phải có các phần mềm chuyên dụng cũng như chương trình quản trị dữ liệu thống nhất giữa các cuộc điều tra để giúp cho người dùng tin

dễ dàng truy cập, khai thác, sử dụng số liệu ở cấp vĩ mô cũng như vi mô

Trang 3

Thử nghiệm Microdata Managerment để lưu trữ và quản lý

cơ sở dữ liệu của các cuộc điều tra của Tổng cục Thống kê

Phần I Giới thiệu sơ lược về phần mềm Microdata Managerment:

Microdata Managerment là một bộ công cụ bao gồm 4 module chính sau:

Metadata Editor được sử dụng để chuẩn hóa các tài liệu có liên quan theo

tiêu chuẩn quốc tế về dữ liệu vi mô (DDI và Dublin Core), công cụ này cho phép người dùng có thể dưa vào số liệu vi mô của cuộc điều tra cùng các hướng dẫn, giải thích qui trình, quá trình điều tra; giải thích các chỉ tiêu trong phiếu điều tra cùng những tài liệu có liên quan khác

Nesstar Explorer hướng tới người sử dụng cơ sở dữ liệu, được dùng để đọc

các file do Metadata Editor tạo ra, công cụ này có thể cho phép người sử dụng

có thể xem được số liệu vi mô và các tài liệu liên quan đến hệ thống số liệu đồng thời nó cũng có thể chiết xuất dữ liệu ra các định dạng file phổ biến như Stata, SPSS…

CD-ROM Builder là công cụ được sử dụng để tạo ra các sản phẩm số liệu đầu

ra thân thiện với người sử dụng như là đĩa CD-Rom, đĩa DVD, … người sử dụng có thể khai thác trực tiếp trên đĩa mà không cần cài đặt phần mềm Metadata Editor hoặc Nesstar Explorer

Cũng có nhiệm vụ tạo ra sản phẩm đầu ra giống như CD-Rom Builer, phần

mềm NADA là công cụ tạo nên sản phẩm hướng tới người sử dụng một cách

thuận tiện ở mọi lúc mọi nơi đó là tạo ra các trang Web dùng để công bố số liệu rộng rãi

Trong khuôn khổ chuyên đề này chúng tôi sẽ chủ yếu tập trung vào công cụ Metadata Editor dùng để tạo lập và quản lý cơ sở dữ liệu vi mô KSMS 2006, các công cụ còn lại sẽ được giới thiệu những nét chủ yếu, bởi vì với vai trò là người cung cấp số liệu thống kê, chúng ta là những người tạo ra các sản phẩm

mà Metadata Editor là nguồn gốc giúp chúng ta làm ra sản phẩm

2 Sử dụng Metadata Editor để tạo lập và quản lý cơ sở dữ liệu vi mô Khảo sát mức sống 2006

2.1 Tạo lập Project

Trang 4

Phần mềm Microdata Managerment cung cấp một công cụ gọi là Metadata Editor để tập hợp và quản lý toàn bộ cơ sở dữ liệu vi mô và các tài liệu liên quan khác của một cuộc điều tra Toàn bộ cơ sở dữ liệu và các siêu dữ liệu sẽ được ghi lại trong một file có phần mở rộng *.nesstar Metadata Editor gọi đây là một Project, hay 1 nghiên cứu

Phía dưới “My Project” bạn có thể tạo các nhóm, dưới nhóm là các nghiên cứu của từng nhóm Để tạo một nhóm mới ta có thể kích chuột vào biểu tượng add group khi đó một nhóm mới sẽ được tạo ra, bạn có thể vào label để đổi tên nhóm Khi đã tạo được một nhóm mới, dưới mỗi nhóm ta có thể tạo một hoặc nhiều các nghiên cứu, mỗi nghiên cứu sẽ là một cuộc điều tra mẫu hoặc tổng điều tra trong lĩnh vực của nhóm

Một project/nghiên cứu có thể được tạo ra bằng 2 cách, nếu ta chưa có data

file, để tạo một nghiên cứu mới ta có thể vào File > Add new study hoặc kích

chuột vào biểu tượng ta sẽ tạo được một nghiên cứu mới

Nếu ta đã có data files, ta có thể tạo một nghiên cứu mới bằng cách kích chuột vào biểu tượng import dataset , Metadata hỗ trợ một số định dạng file như: SPSS (.sav,.por), Stata 7 and Stata 8 (.dta), Statistica (.sta), SAS (.sp1), ASCII delimited (.txt, csv), and others (.dbf, dif, nsf)

Cơ sở dữ liệu vi mô của KSMS 2006 được lưu trữ dưới dạng SPSS, STATA,

và các files này có thể chiết xuất trực tiếp vào Metadata Editor

Trang 5

Chọn File > Import Study từ thanh công cụ chính hoặc kích và biểu tượng

tương tự phần trên Khi cửa sổ chứa file dữ liệu dạng Stata hiện ra, chọn các file cần đưa vào project, ta có thể chọn tất cả hoặc chọn từng file

2.2 Khai báo về cuộc điều tra:

Trong mỗi Project/nghiên cứu, đều có chuẩn các mục cần khai báo cho mỗi cuộc điều tra, phần này sẽ giúp người dùng hiểu được nội dung cuộc điều tra Để khai báo các tài liệu của một cuộc điều tra, trước hết ta phải chuẩn bị hết các tài liệu

có liên quan đến cuộc điều tra như: bộ cơ sở dữ liệu thô, quyết định điều tra, phương án, bảng câu hỏi điều tra, sổ tay hướng dẫn điều tra viên, các chỉ tiêu điều tra, qui trình thực hiện điều tra và các tài liệu khác có liên quan… Khi đã

có đầy đủ các thông tin liên quan đến cuộc điều tra ta sẽ thực hiện các bước khai báo theo chuẩn của phần mềm theo các chủ đề với nội dung như sau:

2.2.1 Mô tả tài liệu - Document description: Phần này dùng để khai báo các

thông tin liên quan đến bộ cơ sở dữ liệu vi mô như:

- Tên của cuộc điều tra (bộ dữ liệu):

- Người hoặc tổ chức sản xuất ra bộ dữ liệu: GENERAL STATISTICS OFFICE, địa chỉ mail

Trang 6

- Ngày, tháng, năm sản xuất ra sản phẩm: Ghi ngày, tháng, năm sản phẩm hoàn thành, công bố cho người sử dụng

- Phiên bản của tài liệu theo chuẩn quốc tế DDI: Version 1.04 (study)

- Mã số nhận dạng của tài liệu theo chuẩn DDI: DDI-VNM

2.2.2 Mô tả nghiên cứu - Study description gồm các nhóm:

- Nhận dạng (Identification): Nhóm này gồm các thông tin cần khai báo như: tên cuộc điều tra, tên khác của cuộc điều tra, thông tin về tần suất thực hiện điều tra, tên tiếng Việt của cuộc điều tra, mã nhận dạng

- Phiên bản (Version): mô tả ngắn gọn về phiên bản như số cùng nhãn phiên bản, ngày ra sản phẩm theo định dạng chuẩn ISO (yyyy-mm-dd) cho ngày xuất bản hiện tại và cuối cùng

- Tổng quan (Overview) gồm: Tóm tắt mục đích, nội dung của cuộc điều tra, loại số liệu, hệ thống phiếu điều tra, các nhóm chỉ tiêu điều tra

- Phạm vi (Scope): Mô tả phạm vi điều tra là mô tả các chủ đề bao phủ toàn

bộ cuộc điều tra Có thể đưa ra cái nhìn tổng quát của các loại phiếu, từng chủ đề của từng loại phiếu Phạm vi không liên quan đến mức độ bao phủ

về mặt địa lý; phân lớp chủ đề nên theo từ điển chuyên đề chuẩn quốc tế;

từ then chốt của cuộc điều tra cần được đưa ra để cho người sử dụng có thể

dễ dàng tìm kiếm qua mạng các thông tin về cuộc điều tra qua bảng danh mục

- Mức độ bao phủ (Coverage): Nhập vào tên nước, thậm chí cả trường hợp nơi cuộc điều tra không bao phủ toàn bộ đất nước Trong phần

"Abbreviation" (chữ viết tắt) chúng ta được khuyến cáo vào 3 ký tự theo

mã chuẩn ISO của đất nước (Như Việt Nam ký hiệu theo chuẩn ISO là VNM) Nếu như bộ số liệu được dẫn chứng bằng tài liệu bao phủ ngoài một quốc gia (ở nhiều đất nước) thì ta có thể vào bằng nhiều dòng riêng biệt; Mức độ bao phủ về mặt địa lý; phạm vi điều tra về dân số như đối tượng ở độ tuổi nào thì điều tra, độ tuổi nào không điều tra…

- Nhà sản xuất và người bảo đảm (Producers and sponsors) bao gồm: người chịu trách nhiệm điều tra chính của cuộc điều tra; nhà đồng tổ chức hoặc chịu trách nhiệm hoặc có các công việc liên quan; chi phí cho cuộc điều

Trang 7

tra, nguồn chi phí lấy từ đâu trong nước hay quốc tế; các đơn vị khác có liên quan

- Chọn mẫu (Sampling): Phần này cần đưa vào các thông tin về cách chọn mẫu, cỡ mẫu; sai số của thiết kế mẫu; xác định số lượng mẫu theo lý thuyết chọn mẫu; quyền số suy rộng của từng chỉ tiêu

- Thu thập số liệu (Data collection): Mô tả các thông tin cơ bản về cuộc điều tra về ngày bắt đầu, ngày kết thúc, chu trình điều tra; kỳ lấy số liệu; phương pháp thu thập số liệu; quá trình tổ chức thực hiện thu thập số liệu

từ khâu chuẩn bị địa bàn điều tra, tập huấn điều tra viên các cấp, tổ chức điều tra, kiểm tra, thanh tra quá trình thực hiện điều tra ở cơ sở…; các loại phiếu dùng trong điều tra, nêu rõ các loại dùng cho từng đối tượng, phạm

vi điều tra; đơn vị tổ chức thực hiện điều tra; giám sát viên các cấp được tổ chức thế nào…

- Xử lý số liệu (Data processing): làm sạch số liệu được tổ chức theo một qui trình gồm nhiều bước xử lý từ đầu đến khi có được bộ số liệu chính thức, bao gồm:

a) Làm sạch thô, bằng tay và mã hóa

b) Làm sạch trong suốt quá trình vào số liệu

c) Kiểm tra cấu trúc tập tin và sự đầy đủ của thông tin

- Đánh giá số liệu (Data appraisal): Các cuộc điều tra mẫu cần có tính toán, ước lượng, công bố sai số chọn mẫu

- Truy cập số liệu (Data access): Phần này cần cung cấp một loạt những thông tin, địa chỉ của người có trách nhiệm về số liệu cũng như những quyền được truy cập số liệu bao gồm tên, người hoặc tổ chức có trách nhiệm, email, chuỗi định danh tài nguyên trên Internet (URI); bảo mật số liệu, cung cấp những điều kiện của người sử dụng được truy cập vào sử dụng số liệu, còn số liệu không cần bảo mật thì phần này có thể để trống; truy cập số liệu, mỗi bộ số liệu nên có một chính sách truy cập đính kèm

nó, IHSN khuyến nghị nên có 3 mức độ truy cập số liệu gồm: (1) Mức độ thứ nhất là loại số liệu có thể truy cập rộng rãi với mọi người sử dụng, (2) Mức độ thứ hai là bộ số liệu có bản quyền, nếu muốn truy cập phải được

Trang 8

phép của người quản lý số liệu, (3) Mức độ thứ ba là những bộ số liệu chỉ

có thể truy cập ở số liệu thứ cấp, dùng cho những loại số liệu mật và số liệu không công bố; yêu cầu trích dẫn cần được được ra đối với người sử dụng số liệu, mỗi người dùng số liệu cần trích dẫn số liệu được điều tra từ

cơ quan, tổ chức nào là người chịu trách nhiệm về số liệu

- Quyền lợi và bản quyền (Disclaimer and copyright): Phần này người thiết

kế phần mềm muốn khuyến nghị các nhà cung cấp dữ liệu chỉ chịu trách nhiệm về dữ liệu chứ không chịu trách nhiệm với những báo cáo phân tích

dữ liệu của người sử dụng và bản quyền của các báo cáo phân tích số liệu

đó

- Thông tin liên hệ (Contacts): Người sử dụng dữ liệu nhiều khi cần các giải thích chi tiết và các thông tin khác Phần này có thể đưa ra tên, email, điện thoại, trang web của cá nhân, tổ chức xuất bản dữ liệu

2.3 Quản lý các biến:

Khi thay đổi nội dung và cấu trúc bộ số liệu, chúng ta thường sửa lại file gốc rồi nhập lại bộ số liệu Tuy nhiên trong một số trường hợp sử dụng Metadata Editor sẽ thuận tiện hơn

Chương trình Metadata Editor có nhiều công cụ quản lý biến để có thể sắp xếp lại, chèn thêm, sao chép, nhân đôi, tính toán, mã hóa lại và xóa biến

2.3.1 Cách sắp xếp lại bộ số liệu:

1) Chọn biến (Variables) từ cửa sổ Project

2) Kiểm tra tất cả các biến trong danh sách biến để chắc chắn rằng độ rộng của biến đã được xác định Nếu biến chưa được gán độ rộng, thì chúng

ta không sử dụng được chức năng sắp xếp lại

3) Chọn biến (Variables) > chọn Resequence từ thanh Menu chính Chương trình Metadata Editor sẽ tính toán lại vị trí cột Start và End của

tất cả các biến trong bộ số liệu đang dùng

2.3.2 Thêm và chèn các biến:

Thêm biến mới vào một bộ số liệu qua 2 mục: đó là Add Variable và Insert Variable, biến được chọn phải từ cửa sổ project thì 2 mục trên mới xuất hiện

Trang 9

Cách thêm hoặc chèn 1 biến mới:

1) Chọn Variables ở thanh phía trên cửa sổ project

2) Chọn Variables > Add variable để thêm biến mới ở cuối của danh sách biến hoặc chọn Variables > Insert Variables để chèn thêm biến mới lên

phía trên dòng đã được chọn trong danh sách biến

3) Chọn các định dạng của biến mới: Kiểu số (numeric), ký tự chuỗi cố định (fixed string), ký tự chuỗi động (dynamic string) hoặc kiểu ngày tháng (date)

4) Nhập dự liệu cho biến mới

5) Có 2 cách đưa dữ liệu vào biến vừa mới tạo, thông tin có thể được đưa vào bằng cách sử dụng màn hình Data Entry, đánh dấu Data Entry trong ô điều hướng (dưới tên của dữ liệu được thiết lập) Màn hình Data Entry làm việc giống như một worksheet, dữ liệu từ các ô, cũng như là các dòng, cột và các sắp xếp khác có thể sao chép và di chuyển tới một vị trí mới

6) Sắp xếp và lưu lại file dữ liệu

2.3.3 Sao chép và nhân bản các biến:

Chúng ta có 2 mục dùng để tạo biến mới dựa trên cơ sở dữ liệu biến đang tồn

tại: Duplicate Variables và Copy Variables

Không phải Duplicate Variables mà cũng không phải Copy Variables sao

chép dữ liệu Cả 2 mục chỉ xuất hiện khi biến phân tử trong bộ số liệu được đánh dấu (highlighted)

Cách Sao chép hoặc nhân bản 1 biến:

1) Chọn Variables ở thanh phía trên cửa sổ project

2) Đánh dấu biến để copy hoặc duplicate

3) Chọn Variables > Duplicate Variable để chèn thêm biến mới ở cuối danh sách biến hoặc lựa chọn Variables > Copy Variable, đánh dấu vị trí sẽ đặt mục mới trong danh sách biến, và chọn Variables > Insert

Trang 10

Copied Variables để chèn biến được sao chép vào dòng phía trên dòng

được chọn trong danh sách biến

4) Nhập tên biến, nhãn biến và xem lại/sửa tất cả các dữ liệu khác của biến mới

5) Nhập dữ liệu cho biến mới

6) Sắp xếp và lưu lại file dữ liệu

Trong hình biến V16 vừa được tạo ra ở cuối danh sách biến, do sao chép

dữ liệu từ biến m5a2c10

2.3.4 Tính toán các biến mới:

Chương trình Metadata Editor gồm một tiện ích đơn giản cho việc tính toán các biến mới Tính năng này giới hạn về chức năng và chỉ nên sử dụng khi yêu tính toán các biến mới không thể thực hiện được ở ngoài

Tính toán các biến mới:

Ngày đăng: 25/12/2014, 14:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w