1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Nghiên Cứu Ứng Dụng Công Nghệ Nhận Dạng Ký Tự Thông Minh (Icr) Trong Xử Lý Số Liệu Tổng Điều Tra Dân Số Và Nhà Ở Năm 2009.Pdf

134 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 134
Dung lượng 1,43 MB

Nội dung

Microsoft Word Bia doc TỔNG CỤC THỐNG KÊ BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU T[.]

TỔNG CỤC THỐNG KÊ BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009 Đơn vị chủ trì: Trung tâm Tin học Thống kê Chủ nhiệm: TS Thiều Văn Tiến Thư ký: CN Nguyễn Thị Huyền Thanh 7873 21/4/2010 HÀ NỘI, NĂM 2008 Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 LỜI NÓI ĐẦU Ngày nay, nhiều nước giới khu vực áp dụng công nghệ quét, nhận dạng ký tự thông minh (ICR) việc xử lý số liệu điều tra thống kê nói chung xử lý số liệu điều tra dân số nói riêng Trong đó, nước ta, việc xử lý số liệu điều tra thống kê thực cơng nghệ nhập tin truyền thống Vì vậy, công nghệ nhận dạng ký tự thơng minh áp dụng xử lý điều tra thống kê nước ta hay khơng Trong trường hợp áp dụng yếu tố ảnh hưởng đến thành công hay thất bại việc áp dụng công nghệ xử lý? v.v Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông minh điều tra để chuẩn bị cho việc áp dụng công nghệ xử lý Tổng điều tra dân số nhà 1/4/2009 cần thiết Những kinh nghiệm có q trình nghiên cứu, thử nghiệm góp phần đảm bảo cho thành cơng việc áp dụng công nghệ ICR xử lý điều tra thống kê nói chung xử lý Tổng điều tra dân số nhà nói riêng Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh xử lý số liệu Tổng điều tra dân số nhà năm 2009”, mã số 2.1.10-TC07-08 nhằm giải vấn đề nêu Đề tài tiến hành nghiên cứu công nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) công ty ReadSoft với điều tra biến động dân số năm 2006, năm 2007 điều tra thử nghiệm Tổng điều tra dân số nhà năm 2009 Báo cáo kết nghiên cứu đề tài gồm phần: Phần I Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng ký tự xử lý số liệu điều tra thống kê số nước; Phần II Nghiên cứu áp dụng công nghệ nhận dạng công ty ReadSoft; Phần III Nghiên cứu vấn đề thiết kế, in, ghi phiếu áp dụng công nghệ quét, nhận dạng xử lý điều tra; Phần IV Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) xử lý điều tra thống kê dân số năm 2006, 2007, 2008; Phần V Nghiên cứu, đề xuất quy trình xử lý, nguồn lực vật chất, nguồn nhân lực mơ hình tổ chức xử lý Tổng điều tra dân số nhà 1/4/2009 Trong đó, nội dung Phần “Thử nghiệm cơng nghệ nhận dạng ký tự thông minh (ICR) xử lý điều tra thống kê dân số năm 2006, 2007, 2008” trình bày chi tiết kết thử nghiệm công nghệ ICR xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm Tổng điều tra dân số nhà Trên sở kinh nghiệm có từ lần thử nghiệm, phần cuối báo cáo kết nghiên cứu đưa kết luận kiến nghị cho xử lý Tổng điều tra dân số nhà 1/4/2009 Để biết việc áp dụng công nghệ ICR xử lý điều tra thống kê nào, trước hết người ta phải hiểu khác việc xử lý liệu phương pháp nhập tin truyền thống việc xử lý áp dụng công nghệ ICR -1- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 Nói chung, xử lý số liệu điều tra thống kê người ta phải thực công việc nhập liệu từ phiếu điều tra (trên giấy) vào máy tính Cho đến thời nay, công việc thường thực với giải pháp: nhập tin bàn phím; nhập tin cơng nghệ qt Nhập tin bàn phím phương pháp đơn giản Để nhập tin, người ta thường phát triển chương trình ứng dụng theo phiếu điều tra Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng hình máy tính Chương trình ứng dụng ghi thông tin nhập vào tệp (file) sở liệu Các bước xử lý hiệu chỉnh, tổng hợp, phân tích số liệu đọc thông tin từ tệp sở liệu, nơi lưu giữ liệu nhập Phương pháp nhập tin bàn phím phương pháp thường sử dụng từ trước đến tiếp tục sử dụng sau đơn giản, chi phí đầu tư thấp Tuy nhiên, áp dụng phương pháp xử lý số liệu điều tra có khối lượng lớn thường nhiều thời gian tốc độ nhập tin người có hạn Mặt khác chất lượng thông tin nhập phụ thuộc vào kỹ người nhập tin Nhập tin quét (scanning) công nghệ phát triển vào năm 80 kỷ trước Để nhập tin công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính tính tốn Hiện công nghệ áp dụng nhiều nước giới Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào áp dụng công nghệ xử lý liệu điều tra thống kê Việt Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra Tuy nhiên, ưu việt công nghệ quét tốc độ xử lý nhanh, độ xác cao nên Tổng cục Thống kê chuẩn bị áp dụng công nghệ xử lý số liệu tổng điều tra dân số nhà năm 2009 Trong thời gian qua, với giúp đỡ Quỹ dân số Liên hợp quốc việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê kết hợp với Vụ thống kê Dân số Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR Kết nghiên cứu, thử nghiệm gần năm qua nội dung Đề tài Tham gia nghiên cứu đề tài có cán Trung tâm Tin học thống kê Vụ thống kê Dân số Lao động Danh sách người thực sau: Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng sở liệu Trung tâm Tin học Thống kê, thư ký đề tài Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số Lao động -2- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 Cử nhân Cao Quang Thành, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê Cử nhân Nguyễn Thị Yến, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê 10 Cử nhân Vũ Huy Thường, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê 11 Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng sở liệu Trung tâm Tin học Thống kê 12 Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số Lao động 13 Kỹ sư Nguyễn Hữu Hồn, chun viên Phịng sở liệu Trung tâm Tin học Thống kê -3- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 PHẦN I KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC Công nghệ quét, nhận dạng Công nghệ nhận dạng quan thống kê nhiều nước áp dụng xử lý điều tra để đọc liệu tự động từ bảng hỏi thay cho việc nhập tin từ bàn phím Cơng nghệ qt, nhận dạng công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) công nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition) 1.1 Công nghệ đọc đánh dấu quang học (OMR) Cách vài thập kỷ, nhiều nước tiên tiến sử dụng công nghệ nhận dạng ký tự đánh dấu thiết bị quang học (OMR) để xử lý phiếu điều tra Đây bước tiến quan trọng việc xử lý phiếu tự động việc áp dụng rộng rãi gặp nhiều khó khăn có nhiều địi hỏi cao như: phải có thiết bị đọc riêng, yêu cầu cao chất lượng giấy in phiếu, không nhận dạng chữ chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v Cơng nghệ OMR địi hỏi có thiết bị đọc riêng phải đánh dấu phiếu hỏi Chính vậy, thiết kế form OMR phức tạp nhiều thiết kế form thơng thường Form thiết kế phải có rãnh dọc theo mép form, rõ cho máy Scanner đọc nhận dạng điểm Thêm vào đường cắt form OMR phải xác, bao gồm hình văng “bubbles” nhỏ Để thiết kế chỗ khoanh câu trả lời cho câu hỏi phải tốn nhiều chỗ vẽ hình văng cho phương án trả lời Sau điều tra viên làm kín có phương án trả lời máy Scan nhận dạng OMR nhận dạng chữ viết tay chữ in Về độ xác cơng nghệ nhận dạng OMR so với công nghệ OCR ICR hẳn Tuy nhiên tốn cơng sức chi phí cơng nghệ ICR OCR 1.2 Cơng nghệ nhận dạng ký tự quang học (OCR) Công nghệ OCR bước tiến so với công nghệ OMR nhận dạng ký tự in giấy Tuy nhiên, tỷ lệ nhận dạng xác khơng cơng nghệ OMR, đỡ tốn cơng nghệ OMR Cơng nghệ chuyển hình ảnh chữ thành mã tương ứng mà máy tính đọc (ASCII text file) Cơng nghệ OCR nhận dạng chữ in nhận dạng chữ viết tay Đối với chữ in, nhận dạng số loại fonts chuẩn Times Roman Arial -4- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 1.3 Công nghệ nhận dạng ký tự thông minh (ICR) Từ năm 90 kỷ trước, công nghệ nhận dạng ký tự thông minh (ICR) bắt đầu dần thay công nghệ OMR Những loại ký tự đọc nhận dạng cơng nghệ bao gồm: chữ in, chữ viết tay, ký tự đánh dấu hay khoanh, mã vạch, Các phiếu điều tra nhập vào máy tính thay cách nhập tin từ bàn phím máy qt (scanner) chuyển thành hình ảnh sau nhận dạng chuyển đổi thành chữ chữ số mà máy tính xử lý So với OMR, công nghệ ICR bước tiến dài nhận dạng khơng ký tự đánh dấu, mã vạch, mà nhận dạng chữ viết tay Công nghệ ICR công nghệ tiên tiến công nghệ OMR, OCR, ICR Công nghệ ICR không đặt yêu cầu cao chất lượng giấy, khơng địi hỏi thiết bị chun biệt Ngày ICR sử dụng rộng rãi nhiều nước nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, tổng điều tra, công nghệ ICR dần chiếm lĩnh thay cách thức nhập tin truyền thống Tuy tỷ lệ nhận dạng không cao công nghệ OCR OMR (thường đạt tỷ lệ lớn 95%), gần với thực tế hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng Kinh nghiệm áp dụng công nghệ quét, nhận dạng xử lý điều tra thống kê số nước 2.1 Kinh nghiệm Thái Lan Trước năm 2000, Thái Lan thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) lần áp dụng công nghệ xử lý số liệu tổng điều tra dân số năm 2000 Sau xử lý tổng điều tra dân số năm 2000, Thái Lan tiếp tục sử dụng công nghệ xử lý điều tra Lao động (Labour Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey), Tổng điều tra nông nghiệp năm 2003, v.v Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu phiếu ngắn phiếu dài Tất nhân thường trú ghi vào phiếu ngắn, có 20% nhân thường trú ghi vào phiếu dài Phiếu ngắn (gồm 16 tiêu) thu thập tiêu tuổi, giới tính, quan hệ với chủ hộ, tơn giáo, dân tộc, tình trạng học, biết đọc/viết, tình trạng nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị việc làm (hỏi cho 12 tháng trước điều tra) Ngoài tiêu phiếu ngắn, phiếu dài bao gồm tiêu (thêm 10 tiêu): công việc làm tuần trước điều tra, tìm việc làm, lý không làm việc, số sinh số chết, số trẻ sinh năm qua, nơi sinh, độ dài thời gian cư trú, nơi trước, lý di chuyển Về nhà ở, bao gồm tiêu sau: loại nhà, sở hữu đất, diện tích (tổng điều tra); nhiên -5- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước, thiết bị sử dụng lâu bền Số lượng phiếu xử lý tổng điều tra dân số năm 2000 Thái Lan 16 triệu phiếu Nếu nhập tin bàn phím, thời gian nhập tin kéo dài 12 tháng, sử dụng công nghệ quét nhận dạng ký tự ICR tháng (bằng 2/3 thời gian nhập tin bàn phím) Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra dân số 2000 theo mơ hình tập trung Cơ quan Thống kê tỉnh có trách nhiệm tiến hành điều tra, kiểm tra phiếu, hiệu đính ghi mã trước gửi NSO Băng Cốc Việc quét xử lý tiến hành tập trung Băng Cốc Hệ thống máy móc, thiết bị phần mềm sử dụng công nghệ ICR gồm hệ thống: - Hệ thống TELEform sử dụng phần mềm TELEform TELEform Cardiff Software, inc USA cho ICR TELEform 6.2 Elite Enterprise Edition (gồm Module: TELEform Designer; TELEform Reader; TELEform Verifier) Các thiết bị sử dụng hệ thống TELEform bao gồm: Số lượng (cái) Tên thiết bị NetServer for TELEform Server NetServer for DataBase Server Reader Modules Workstatons 21 Verifier Modules Workstations 30 Scanner Control Workstations Sanner Fujitsu M4099D (*) Ghi - Hệ thống ABBYY sử dụng phần mềm ABBYY Cộng hòa liên bang Nga cho ICR Phần mềm ABBYY 6.0 Enterprise Edition (gồm Module sau: Form Designer; Administration Station; Recognition Station; Correction Station) Các thiết bị sử dụng hệ thống ABBYY bao gồm: Tên thiết bị Số lượng (cái) IBM Server X Series 225 Correction Station -6- Ghi Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 Verifier Modules Workstations 25 Scanner Control Workstations Sanner Fujitsu M4099D (*) Storage Flex LT707 (*): Máy quét khổ A3, mặt (Duplex) Giá máy năm 2000 khoảng 20.000 USD Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan mua phần mềm công nghệ ICR (gồm môdule: thiết kế, đọc hiệu chỉnh số liệu) Công ty Phần mềm TELEform Cardiff Mỹ Trong thời gian sử dụng, có vài trục trặc nhận thấy mua trọn gói đắt, NSO chuyển qua thuê phần mềm ABBYY Nga có trụ sở Băng Cốc Một số kinh nghiệm Thái Lan áp dụng ICR xử lý điều tra: - Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR Tuy nhiên độ dai giấy cần tốt loại giấy thông thường; - Không thiết phiếu phải in số định danh, kể trường hợp phiếu nhiều trang, trang không cần in số định danh để phân biệt trang tập phiếu khác Khi có tờ phiếu có vấn đề, máy tính kiểm sốt máy qt đưa thơng báo Người vận hành lấy tờ từ ngăn “đầu ra” cho lại vào ngăn “đầu vào” để quét lại, phần mềm qt đủ thơng minh để biết tờ phiếu quét được, tờ có trục trặc; - Cơng việc vận hành qt khơng phải hồn tồn tự động, mà nửa tự động, nửa thủ công; - Tốc độ quét khác nhau, tùy thuộc vào số lượng trang phải nhận dạng Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 Thái Lan 20 tờ/1 phút (2 mặt) Song với phiếu Tổng điều tra nông nghiệp năm 2003 Thái Lan, tốc độ qt giảm cịn nửa (10 tờ/1 phút); - Để nâng cao khả nhận dạng thời gian hiệu chỉnh số liệu, tất ký tự nhận dạng dùng để tổng hợp phải số Như có nghĩa là, câu trả lời khơng phải số, cần ghi mã trước quét; - Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương đối chuẩn số vào ô mã dành sẵn theo quy định Không viết cách cẩu thả, tuỳ tiện; - Việc xác minh số liệu phải tiến hành ký tự mà phần mềm nhận dạng phân vân không khẳng định chắn ký tự gì, khơng cần phải kiểm tra tất ký tự Vì vậy, việc ghi chép phiếu chuẩn mực, giảm công việc xác minh số liệu; -7- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 - Phiếu thiết kế theo dạng danh sách giấy 80 gram/m2 Các ô mã phiếu in màu xanh để dễ nhận dạng Ghi phiếu bút chì kim HB2 Nhật Bản sản xuất Khi viết sai dùng tẩy, tẩy để viết lại; - Tập huấn cán điều kỹ Tập huấn lần, lần tuần; -Việc bảo quản phiếu để dùng cho ICR không phức tạp Cụ thể là, phiếu khổ giấy A3 gập đôi lại cách bình thường (khơng cần gập theo đường quy định trước) Một tập phiếu cho vào túi giấy vỏ bao xi măng Nhiều túi phiếu cho vào hộp cát tơng (như loại hộp cát tơng bình thường dùng đóng hàng hố); 2.2 Kinh nghiệm Philipin Trước năm 2000, việc xử lý điều tra, tổng điều tra Cơ quan thống kê Quốc gia Philipin (NSO) sử dụng cơng nghệ nhập tin bàn phím Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR việc xử lý tổng điều tra dân số nhà sau tiếp tục sử dụng cơng nghệ xử lý tổng điều tra nông nghiệp thủy sản 2002 Sau số kinh nghiệm NSO việc áp dụng công nghệ ICR xử lý tổng điều tra dân số 2000 a) Kinh nghiệm thiết kế, in phiếu điều tra, điều tra mã hóa +)Thiết kế phiếu điều tra Trong tổng điều tra dân số nhà năm 2000, NSO thiết kế phiếu điều tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu phiếu tình trạng hộ Để áp dụng cơng nghệ ICR, thông tin cần nhập thiết kế ô hình trịn hình chữ nhật đủ để ghi ký tự chữ số ( 0, ,9), chữ in (A, B, ,Z, N ngã) Số định dạng phiếu (ID phiếu) sử dụng mã vạch không cần sử dụng tổng điều tra nông nghiệp, thủy sản 2002 Kích thước phiếu: 11inch x 17 inch 11inch x 12 inch 11inch x 8,5 inch +) In phiếu điều tra Phiếu điều tra in màu cải tiến cách in đen trắng để tránh lãng phí Để tỷ lệ nhận dạng cao, phiếu in giấy tốt, tiêu chuẩn tối thiểu 80gram/m2 +)Viết phiếu điều tra Phiếu điều tra đánh dấu (mark) vào khoanh trịn dùng câu hỏi lựa chọn điền (fill) ký tự viết tay bút chì chuẩn vào hình chữ nhật Lý không dùng bút bi nhận dạng ký tự bị gạch xóa b) Xử lý điều tra sử dụng công nghệ ICR -8- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 +) Tổ chức xử lý NSO tổ chức xử lý tổng điều tra dân số nhà trung tâm (Data Capture Center – DCC) Số lượng phiếu xử lý phải xử lý 15,5 triệu Số lượng phiếu Trung tâm sau: -Trung tâm Pampanga: 3,5 triệu phiếu -Trung tâm Manila: triệu phiếu -Trung tâm Cebu: 3,5 triệu phiếu -Trung tâm Davao: 3,5 triệu phiếu Thời gian xử lý thực theo ca, ca / ngày, ngày/tuần Thời gian xử lý tháng Tổng số người dùng xử lý tổng điều tra dân số nhà năm 2000 146 người +) Các thiết bị phần cứng Tại Trung tâm xử lý, lập mạng LAN chạy hệ điều hành Windows NT 4.0 với thiết bị sau: • 01 máy chủ với cấu hình CPU 500 MHZ, HDD 90GB • 15 máy trạm (PC) • 01 máy in mạng • 03 ổ quang (MO) dùng để lưu trữ • 03 ổ ghi CD-ROM • 05 máy quét KODAK 3510 3590 tốc độ 75 trang/phút Riêng Trung tâm Manila số máy quét nhiều Trung tâm lại Tổng số máy quét dùng xử lý 22 máy +) Phần mềm dùng xử lý Để xử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài liệu KODAK MVCS dùng để quét phiếu điều tra máy quét phần mềm nhận dạng ký tự thông minh EYES & HANDS for FORMS Phần mềm ICR mà NSO mua có module dùng để nhận dạng (Interpretation/Recognition), hiệu chỉnh (Data Verification) chuyển đổi (Data Transfer/Generation) Sau thực quét, nhận dạng thông tin từ phiếu điều tra chuyển tệp định dạng text Từ dạng file chuyên gia NSO Philipin chuyển đổi vào sở liệu khác để lập biểu thống kê Phần mềm dùng để tổng hợp kết module CENT phần mềm IMPS phần mềm SPSS c) Kinh nghiệm sử dụng công nghệ ICR Philipin - Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng trường đánh dấu (mark) trường viết tay (handwritten) Trong thiết kế, hạn chế trường ký tự chữ để tăng tỷ lệ nhận dạng đúng; -9- Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 3.9 Nghiên cứu, đề xuất bút ghi thông tin phiếu 01/10/2008 tuần TTTHTK - Vụ DSLD 3.10 Nghiên cứu phương án bảo quản phiếu 15/10/2008 tuần TTTHTK - Vụ DSLD 4.1 Đề xuất thiết bị, phần mềm 20/03/2008 tuần TTTHTK - Dự án HĐH 4.2 Đề xuất mạng máy tính đường truyền 01/10/2008 tuần TTTHTK - Dự án HĐH 4.3 Đề xuất mặt lắp đặt thiết bị 01/10/2008 tuần TTTHTK - Dự án HĐH 4.4 Đề xuất kho chứa phiếu bảo quản phiếu 20/11/2008 tuần TTTHTK - VP 4.1 Xây dựng hệ thống kế hoạch 01/11/2008 tuần Văn phòng BCĐTĐTTW, TTTHTK 4.2 Tiếp nhận hệ thống thiết bị phần mềm lắp đặt 05/03/2009 tuần Dự án HĐH, TTTH 5.1 Quy trình bảo quản phiếu ĐT khâu điều tra 01/01/2009 tuần TTTHTK - Vụ DSLD 5.2 Quy trình tiếp nhận phiếu TTTH 01/01/2009 tuần TTTHTK - Vụ DSLD 5.3 Qui trình chuẩn bị số liệu 01/04/2009 tuần TTTHTK - Vụ DSLD 5.4 Quy trình cắt phiếu để đưa vào máy quét 01/04/2009 tuần TTTHTK - Vụ DSLD 5.5 Quy trình quét phiếu 01/04/2009 tuần TTTHTK - Vụ DSLD 5.6 Quy trình kiểm sửa thủ công 01/04/2009 tuần TTTHTK - Vụ DSLD 5.7 Quy trình nhập liệu bàn phím 01/04/2009 tuần TTTHTK - Vụ DSLD Các qui tắc hiệu chỉnh tự động 01/04/2009 tuần TTTHTK - Vụ DSLD 5.9 Thiết lập hệ thống truyền liệu B/C tiến độ 01/04/2009 tuần TTTHTK - Vụ DSLD 6.1 Xây dựng hệ thống chương trình ứng dụng cho hệ thống scanning phiếu TĐT 01/10/2008 20 tuần TTTHTK 6.2 Xây dựng chương trình nhập, sửa tin, kiểm tra phiếu nhập tin bàn phím 01/10/2008 tuần TTTHTK Đề xuất thiết bị, phần mềm sở vật chất Xây dựng hệ thống, KH xử lý Xây dựng quy trình xử lý Soạn thảo hệ chương trình - 119 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 6.3 Xây dựng chương trình quản lý liệu, quản lý luồng công việc chung cho hệ thống (nhập tin đọc tin) 01/11/2008 12 tuần TTTHTK 6.4 Xây dựng chương trình kiểm tra, sửa liệu sau hệ thống scanning 15/10/2008 tuần TTTHTK 6.5 Xây dựng chương trình hiệu chỉnh làm liệu 01/11/2008 12 tuần TTTHTK 6.6 Xây dựng hệ thống chương trình tổng hợp số liệu điều tra mẫu 01/03/2009 30 tuần TTTHTK 6.6 Xây dựng hệ thống chương trình tổng hợp số liệu toàn 01/05/2009 40 tuần TTTHTK 7.1 Đào tạo cho cán Vụ DSLĐ ICR (các yêu cầu bảo quản, xếp phiếu, ghi phiếu, ký mã, kiểm tra giám sát xử lý TTTH, kiểm tra số liệu) 01/01/2009 tuần TTTHTK 7.2 Đào tạo cán kỹ thuật Quy trình, thiết lập vận hành hệ thống cho TTTH 01/04/2009 tuần TTTHTK 7.3 Chuyển giao công nghệ cho TTTH khu vực 01/06/2009 tuần TTTHTK 7.4 Đào tạo cán công nhân tham gia xử lý TTTH (giao nhận chuẩn bị phiếu, cắt phiếu, nhập tin bàn phím sửa tin, quét phiếu, bảo dưỡng vệ sinh máy, kiểm tra xác thực liệu hệ thống ICR, kiểm tra sửa số liệu sau hệ thống ICR, làm số liệu, kiểm tra kết quả) 01/05/2009 tuần TTTH 8.1 Khuyến cáo nhân lực TTTH 01/02/2009 tuần TTTHTK 8.2 Tổ chức nhân lực TTTTTK 01/03/2009 tuần TTTHTK 8.3 Tuyển nhân lực 01/04/2009 tuần TTTH Đào tạo Chuẩn bị nhân lực Xử lý số liệu TĐT, tổng hợp kết 9.1 Tiếp nhận trước phần phiếu số tỉnh xung quanh khu vực Hà Nội 01/05/2009 9.2 Chạy kiểm tra hệ thống, điều chỉnh hệ thống chương trình 01/05/2009 tuần TTTHTK 9.3 Xử lý phiếu mẫu 10% (quét/nhập, kiểm tra, sửa số liệu) 01/06/2009 14 tuần TTTH 9.4 Xử lý phiếu toàn 90% (quét/nhập, kiểm tra, sửa số liệu) 01/08/2009 22 tuần TTTH 9.5 Hiệu đính số liệu mẫu 01/07/2009 20 tuần TTTHTK 9.6 Hiệu đính số liệu tồn 01/09/2009 40 tuần TTTHTK 9.7 Tổng hợp kết mẫu, kiểm tra công bố kết theo phần 01/11/2009 12 tuần TTTHTK - 120 - TTTHTK Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 9.8 Tổng hợp kết tồn bộ, kiểm tra cơng bố kết theo phần 01/01/2010 40 tuần TTTHTK 9.9 Quét sơ đồ, bảng kê địa bàn điều tra, tổ chức lưu trữ quản lý 01/01/2010 12 tuần TTTHTK 9.10 Phát triển SP điện tử, sở liệu 01/12/2009 40 tuần TTTHTK - 121 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 Phụ lục số 3: Bảng thống kê số lỗi phiếu điều tra thử nghiệm lần Tổng điều tra dân số nhà Bảng tổng kết lỗi loại phiếu ngắn (A3) STT Mô tả lỗi Số lỗi Sai/không ghi mã tỉnh, huyện, xã, địa bàn Không ghi mã hộ số Không ghi tập phiếu số/TS tập phiếu Tổng số hộ/cá nhân Tỷ lệ lỗi (%) 21 744 2.82 744 0.27 20 744 2.69 Tập phiếu số 1/TS tập phiếu 744 0.13 Tập phiếu số 2/TS tập phiếu 744 0.40 Tổng số Nam +TS nữ TS 744 1.08 C47=1 (khơng có nhà ở) C48=1/2 744 0.40 C47=3/4 bỏ trắng câu C48 28 744 3.76 C48a=1 (khơng chung nhà) có khai Hộ đại diên 744 0.27 10 C48a=2 (ở chung nhà) không khai Hộ đại diên Trường hợp không xác định Hộ đại diên hay không 744 1.08 11 Hộ chung nhà hộ đại diện khai tiếp câu 49-56, có trường hợp khai đầy đủ tất câu 744 0.54 12 Hộ không chung nhà chung phải hộ đại diện không ghi câu 49-56, có 12 trường hợp khơng khai tất câu (bỏ hoàn toàn chi ghi câu 49/56) 58 744 7.80 13 C47 đánh dấu 744 0.27 14 Hộ có tờ phiếu không ghi C47 13 744 1.75 15 C53 đánh dấu ô 744 0.13 16 C54 đánh dấu ô 744 0.27 17 C56a=blank mà ghi năm vào câu C56b 34 744 4.57 18 STT cá nhân ghi trang STT ghi trang (do bỏ trắng không ghi STT ghi dồn cột trang sau) 83 2805 2.96 19 C2 (quan hệ) đánh dấu ô 2805 0.11 20 Không ghi C2 (quan hệ) 42 2805 1.50 21 C3 (giới tính) đánh dấu 2805 0.04 22 Khơng ghi C3 (Giới tính) 84 2805 2.99 23 Chủ hộ Vợ/chồng giới tính (trong trường hợp quan hệ phải con) 12 2805 0.43 - 122 - Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) xử lý Tổng điều tra dân số nhà 1/4/2009 24 Tuổi tính từ tháng năm sinh tuổi nhập câu C5 (trong hầu hết trường hợp sinh tháng 12 tính sai tuổi phải trừ tuổI: 80 trường hợp) 140 2805 4.99 25 Quan hệ = Bố/mẹ chênh lệch tuổi với tuổi chủ hộ

Ngày đăng: 22/06/2023, 17:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN