Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (icr) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009

134 815 0
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (icr) trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỔNG CỤC THỐNG KÊ BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC ĐỀ TÀI CẤP TỔNG CỤC NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG TỰ THÔNG MINH (ICR) TRONG XỬ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ NHÀ NĂM 2009 Đơn vị chủ trì: Trung tâm Tin học Thống kê Chủ nhiệm: TS. Thiều Văn Tiến Thư ký: CN. Nguyễn Thị Huyền Thanh 7873 21/4/2010 HÀ NỘI, NĂM 2008 Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 1 - LỜI NÓI ĐẦU Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công nghệ quét, nhận dạng tự thông minh (ICR) trong việc xử số liệu điều tra thống kê nói chung xử số liệu điều tra dân số nói riêng. Trong khi đó, nước ta, việc xử số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công nghệ nhập tin truyền thống. Vì v ậy, chúng ta không biết được công nghệ nhận dạng tự thông minh là gì có thể áp dụng trong xử điều tra thống nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng tự thông minh trong các điều tra để chuẩn bị cho việc áp d ụng công nghệ này trong xử Tổng điều tra dân số nhà 1/4/2009 là rất cần thiết. Những kinh nghiệm có được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự thành công của việc áp dụng công nghệ ICR trong xử điều tra thống kê nói chung trong xử Tổng điều tra dân số nhà nói riêng. Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh trong xử số li ệu Tổng điều tra dân số nhà năm 2009”, mã số 2.1.10-TC07-08 nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công nghệ nhận dạng tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng tự thông minh (ICR) của công ty ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 điều tra thử nghiệm của Tổng điều tra dân s nhà năm 2009. Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng tự trong xử số liệu điều tra thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu khi áp dụng công nghệ quét, nhận dạng trong xử điều tra; Phần IV. Thử nghiệm công nghệ nhận dạng tự thông minh (ICR) trong xử điều tra thống kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình xử lý, nguồn lực vật chất, nguồn nhân lực mô hình tổ chức xử Tổng điều tra dân số nhà 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công nghệ nhận dạng tự thông minh (ICR) trong xử điều tra thống kê v ề dân số các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ ICR trong xử điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm của Tổng điều tra dân số nhà ở. Trên cơ sở những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử Tổng điều tra dân số nhà 1/4/2009. Để biết được việc áp dụng công nghệ ICR trong xử điều tra thống kê như thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử dữ liệu bằng phương pháp nhập tin truyền thống việc xử áp dụng công nghệ ICR. Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 2 - Nói chung, trong xử số liệu điều tra thống kê người ta đều phải thực hiện công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo từng phi ếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp hoặc cơ sở dữ liệu, nơi lư u giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn phím là phương pháp thường được sử dụng từ trước đến nay còn tiếp tục sử dụng sau này do sự đơn giản, chi phí đầu thấp. Tuy nhiên, nếu áp dụng phương pháp này trong xử số liệu điều tra có khối lượng lớn thường mất nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác ch ất lượng thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin. Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành tự (chữ, số) để máy tính có thể tính toán được. Hiện nay công nghệ này đã được áp dụng nhiều nước trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào đều đã áp dụng công nghệ này trong xử dữ liệu điều tra thống kê. Việt Nam chưa áp dụng công nghệ quét để xử số liệu điều tra. Tuy nhiên, do những ưu việt của công nghệ quét như tốc độ xử nhanh, độ chính xác cao nên Tổ ng cục Thốngđang chuẩn bị áp dụng công nghệ này trong xử số liệu tổng điều tra dân số nhà năm 2009. Trong thời gian qua, với sự giúp đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thốngDân số Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứ u, thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài. Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống Vụ thốngDân số Lao động. Danh sách những người thực hiện như sau: 1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài 2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê, thư đề tài 3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê 4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê 5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ ThốngDân số Lao động Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 3 - 6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê 12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ ThốngDân số Lao động 13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học ThốngNghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 4 - PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG TỰ TRONG XỬ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC 1. Công nghệ quét, nhận dạng Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong xử điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công ngh ệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng tự quang học (OCR- Optical Character Recognition) công nghệ nhận dạng tự thông minh (ICR-Intelligent Character Recognition). 1.1. Công nghệ đọc đánh dấu quang học (OMR) Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận dạng tự đánh dấu bằng thiết bị quang học (OMR) để xử phiếu điều tra. Đây là một b ước tiến quan trọng trong việc xử phiếu tự động nhưng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có thiết bị đọc riêng, yêu cầu cao về chất lượng giấy in phiếu, không nhận dạng được các chữ cái các chữ số phải chuyển đổi thành nhiều tự đánh dấu v.v. Công nghệ OMR đòi hỏi có thiết bị đọc riêng phả i đánh dấu trên phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc nhận dạng điểm nào. Thêm vào đó đường cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ viết tay chữ in. Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức chi phí hơn công nghệ ICR OCR. 1.2. Công nghệ nhận dạng tự quang học (OCR) Công ngh ệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có thể nhận dạng tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể nhận dạng được chữ viết tay. Đối với ch ữ in, nó cũng chỉ có thể nhận dạng một số loại fonts chuẩn như Times Roman Arial Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 5 - 1.3. Công nghệ nhận dạng tự thông minh (ICR) Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng tự thông minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại tự có thể đọc nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các tự đánh dấu hay được khoanh, mã vạch, Các phiếu điều tra được nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay đượ c máy quét (scanner) chuyển thành hình ảnh sau đó được nhận dạng chuyển đổi thành các chữ cái chữ số mà máy tính có thể xử được. So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được không chỉ các tự đánh dấu, mã vạch, mà còn nhận dạng chữ viết tay. Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR, ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy, không đòi hỏi thiế t bị chuyên biệt. Ngày nay ICR được sử dụng rộng rãi rất nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử điều tra thống kê, nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh thay thế cách thức nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với th ực tế hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn. 2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử điều tra thống kê của một số nước 2.1. Kinh nghiệm của Thái Lan Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng tự thông minh (ICR) lần đầu tiên áp dụng công nghệ này trong xử số liệu tổng điề u tra dân số năm 2000. Sau khi xử tổng điều tra dân số năm 2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử điều tra Lao động (Labour Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey), Tổng điều tra nông nghiệp năm 2003, v.v. Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là phiếu ngắn phiếu dài. Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn, trong đó có 20% nhân kh ẩu thường trú được ghi vào phiếu dài. Phiếu ngắn (gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12 tháng trước điều tra). Ngoài các chỉ tiêu phiếu ngắn, phiếu dài còn bao gồm các chỉ tiêu (thêm 10 chỉ tiêu): công vi ệc làm trong tuần trước điều tra, tìm việc làm, do không làm việc, số con sinh số con chết, số trẻ sinh trong năm qua, nơi sinh, độ dài thời gian cư trú, nơi trước, do di chuyển. Về nhà ở, bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích (tổng điều tra); nhiên Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 6 - liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước, các thiết bị sử dụng lâu bền. Số lượng phiếu đã xử trong tổng điều tra dân số năm 2000 của Thái Lan là 16 triệu phiếu. Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12 tháng, trong khi sử dụng công nghệ quét nhận dạng tự ICR chỉ mất 8 tháng (bằng 2/3 thời gian nhập tin bằ ng bàn phím). Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử số liệu tổng điều tra dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm tiến hành điều tra, kiểm tra phiếu, hiệu đính ghi mã trước khi gửi về NSO tại Băng Cốc. Việc quét xử tiến hành tập trung tại Băng Cốc. Hệ thống máy móc, thiết bị phần mềm sử dụng công nghệ ICR gồm 2 hệ thống: - Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition (gồm các Module: TELEform Designer; TELEform Reader; TELEform Verifier) Các thiết bị sử dụng trong hệ thống TELEform bao gồm: Tên thiết bị Số lượng (cái) Ghi chú NetServer for TELEform Server 1 NetServer for DataBase Server 1 Reader Modules Workstatons 21 Verifier Modules Workstations 30 Scanner Control Workstations 6 Sanner Fujitsu M4099D (*) 6 - Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau: Form Designer; Administration Station; Recognition Station; Correction Station). Các thiết bị sử dụng trong hệ thống ABBYY bao gồm: Tên thiết bị Số lượng (cái) Ghi chú IBM Server X Series 225 1 Correction Station 1 Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 7 - Verifier Modules Workstations 25 Scanner Control Workstations 4 Sanner Fujitsu M4099D (*) 4 Storage Flex LT707 1 (*): Máy quét khổ A3, 2 mặt (Duplex). Giá mỗi máy năm 2000 khoảng 20.000 USD Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan đã mua phần mềm công nghệ ICR (gồm 3 môdule: thiết kế, đọc hiệu chỉnh số liệu) của Công ty Phần mềm TELEform Cardiff của Mỹ. Trong thời gian sử dụng, có một vài trục trặc nhận thấy nếu mua trọn gói thì đắt, NSO đã chuyển qua thuê phần mềm ABBYY của Nga có trụ sở tại Băng Cốc. Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử điều tra: - Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy nhiên độ dai của giấy cần tốt hơn loại giấy thông thường; - Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt trang c ủa các tập phiếu khác nhau. Khi có một tờ phiếu nào có vấn đề, máy tính kiểm soát máy quét đưa ra thông báo ngay. Người vận hành lấy tờ đó từ ngăn “đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc; - Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động, nửa thủ công; - Tốc độ quét rấ t khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là 20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút); - Để nâng cao khả năng nhận dạng thời gian hiệu chỉnh số liệu, tất cả các tự nhậ n dạng dùng để tổng hợp đều phải bằng số. Như vậy có nghĩa là, nếu câu trả lời nào đó không phải bằng số, cần ghi mã trước khi quét; - Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không được viết một cách cẩu thả, tuỳ tiện; - Việc xác minh số liệu chỉ ph ải tiến hành đối với các tự mà phần mềm nhận dạng phân vân không khẳng định chắc chắn đó là tự gì, chứ không cần phải kiểm tra tất cả các tự. Vì vậy, việc ghi chép phiếu càng đúng chuẩn mực, càng giảm công việc xác minh số liệu; Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 8 - - Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã trên phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2 của Nhật Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại; - Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần; -Việc bảo quản phiếu để dùng cho ICR không quá phức tạp. Cụ th ể là, phiếu khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một đường nào đó quy định trước). Một tập phiếu được cho vào trong một túi giấy như vỏ bao xi măng. Nhiều túi phiếu được cho vào trong một hộp cát tông (như loại hộp cát tông bình thường dùng đóng hàng hoá); 2.2. Kinh nghiệm của Philipin Trước năm 2000, việc xử các điều tra, tổng điều tra của C ơ quan thống kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím. Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử tổng điều tra dân số nhà sau đó tiếp tục sử dụng công nghệ này trong xử tổng điều tra nông nghiệp thủy sản 2002. Sau đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong xử tổng điều tra dân số 2000. a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra mã hóa +)Thiết kế phiếu điều tra Trong tổng điều tra dân số nhà năm 2000, NSO thiết kế 4 phiếu điều tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu phiếu tình trạng hộ. Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô hình tròn hoặc ô hình chữ nhật đủ để ghi các tự chữ số ( 0, ,9), chữ in (A, B, ,Z, N ngã). Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002. Kích thước phiếu: 11inch x 17 inch 11inch x 12 inch 11inch x 8,5 inch +) In phiếu điều tra Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt, tiêu chuẩn tối thiểu 80gram/m2 +)Viết phiếu điều tra Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill) tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật. do không dùng bút bi là không thể nhận dạng được tự đã bị gạch xóa. b) Xử đi ều tra sử dụng công nghệ ICR Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4/2009 - 9 - +) Tổ chức xử NSO tổ chức xử tổng điều tra dân số nhà tại 4 trung tâm (Data Capture Center – DCC). Số lượng phiếu xử phải xử là 15,5 triệu. Số lượng phiếu của từng Trung tâm như sau: -Trung tâm Pampanga: 3,5 triệu phiếu -Trung tâm Manila: 5 triệu phiếu -Trung tâm Cebu: 3,5 triệu phiếu -Trung tâm Davao: 3,5 triệu phiếu Thời gian xử thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần. Thời gian xử 6 tháng. Tổng số người dùng trong xử tổng điều tra dân số nhà năm 2000 là 146 người +) Các thiết bị phần cứng Tại mỗi Trung tâm xử lý, lập mạng LAN chạy trên hệ điều hành Windows NT 4.0 với các thiết bị sau: • 01 máy chủ với cấu hình cơ bản CPU 500 MHZ, HDD 90GB • 15 máy trạm (PC) • 01 máy in mạng • 03 quang (MO) dùng để lưu trữ • 03 ghi CD-ROM • 05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút Riêng Trung tâm tại Manila số máy quét nhi ều hơn các Trung tâm còn lại. Tổng số máy quét dùng trong xử là 22 máy. +) Phần mềm dùng trong xử Để xử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét phần mềm nhận dạng tự thông minh EYES & HANDS for FORMS. Phần mềm ICR mà NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu chỉnh (Data Verification) chuyển đổi (Data Transfer/Generation). Sau khi thực hiện quét, nhận dạng thông tin từ phiếu điều tra được chuyể n ra tệp định dạng text. Từ dạng file này các chuyên gia NSO Philipin chuyển đổi vào các cơ sở dữ liệu khác nhau để lập các biểu thống kê. Phần mềm dùng để tổng hợp kết quả là module CENT trong phần mềm IMPS phần mềm SPSS. c) Kinh nghiệm sử dụng công nghệ ICR của Philipin - Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trường đánh dấu (mark) trường viết tay (handwritten). Trong thiết kế , hạn chế trường tự chữ để tăng tỷ lệ nhận dạng đúng; [...]... tự thông minh ICR là công nghệ tiên tiến nhất, được sử dụng nhiều nhất trong việc xử điều tra thống kê Do vậy, nghiên cứu áp dụng công nghệ quét, nhận dạng tự thông minh ICR trong xử số liệu điều tra nói chung trong xử số liệu tổng điều tra dân số nhà năm 2009 của Việt Nam là sự lựa chọn phù hợp 3.2 Ưu điểm của công nghệ nhận dạng tự thông minh Sử dụng công nghệ quét, nhận dạng. .. trong xử số liệu điều tra thống kê đã được thực hiện từ những năm 90 của thế kỷ trước Năm 1990 sử dụng công nghệ quét để xử số liệu điều tra của 19 triệu dân hai tỉnh Quý Dương Trùng Khánh Năm 1992 sử dụng công nghệ này cho xử điều tra nông nghiệp Năm 2000 áp dụng công nghệ quét để xử số liệu tổng điều tra dân số tổng điều tra nông nghiệp Năm 2006 sử dụng công nghệ quét để xử số liệu. .. lượng tốt - 16 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 PHẦN II NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR CỦA CÔNG TY READSOFT Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu công nghệ nhận dạng tự thông minh qua các tài liệu nước ngoài, thông tin trên mạng Internet Trong thời gian này trước đó, một số cán bộ của... thể ghi được 40 hộ với 400 người) Dân số Lào năm 2005 khoảng 5.600.000 người - 11 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 b) Xử điều tra sử dụng công nghệ ICR +) Tổ chức xử - Trung tâm Thống kê Lào tổ chức xử điều tra tập trung Có 35 người làm xử điều tra với 4 bước cơ bản: • Kiểm tra, mã hoá, làm bảng kê (tick off)... 13 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 3.1 Lựa chọn công nghệ Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều tra, máy fax với tốc độ nhanh tốn ít nhân lực Hệ thống này sử dụng máy quét để đọc phiếu điều tra hoặc tài liệu, một phần mềm ứng dụng sẽ đọc hoặc định dạng tự động dữ liệu hoặc chữ số ghi... cũng đa dạng số lượng lỗi tăng nhanh khi công việc nhiều Đối với các cuộc điều tra quy mô lớn, càng ít can thiệp của con người hoặc hoạt động thủ công sẽ giảm được đáng kể sai sót trong giai đoạn nhập số liệu - 14 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 c) Hiệu suất cao Khi áp dụng công nghệ ICR trong xử điều tra, số lượng... - 26 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 +) Lưu trữ phiếu vào cơ sở dữ liệu Lưu trữ phiếu vào cơ sở dữ liệu phù hợp với hầu hết các phiếu điều tra nếu máy quét nhanh, có cấu hình cao Sau khi quét phiếu, các ô dùng để điền thông tin điều tra được tách ra ghi vào cơ sở dữ liệu ảnh của phần mềm Khi đó, cơ sở dữ liệu này... kê tự (Show character statistics): Lựa chọn này được ngầm định chọn sẵn, do đó một hộp hiển thị các thông tin thốngtổng số tự đã kiểm tra, số tự nhận dạng được chắc chắn, số tự nhận dạng được nhưng không chắc chắn, số tự không nhận dạng được, tỷ lệ nhận dạng được luôn xuất hiện ngay khi vào module Interpret - 30 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong. .. vấn đề quan trọng trong khi ghi phiếu điều tra là phải kiểm soát được chữ viết tay của điều tra viên Viết - 15 - Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 xấu ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều lỗi khi quét Đặc biệt là trong tổng điều tra, một lực lượng lớn điều tra viên sẽ tham gia, thường khó kiểm soát.. .Nghiên cứu ứng dụng công nghệ nhận dạng tự thông minh (ICR) trong xử Tổng điều tra dân số nhà 1/4 /2009 - Chất lượng in phiếu điều tra cần đảm bảo; - Trung bình 1 máy quét được 30 trang (phiếu) trong một phút; -Tỷ lệ nhận dạng của các trường đánh dấu (mark) là cao Tỷ lệ nhận dạng của các trường viết tay là thấp Tỷ lệ nhận dạng chung là 90-95%; - Những vùng dữ liệu dạng text (tên . Times Roman và Arial Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở 1/4 /2009 - 5 - 1.3. Công nghệ nhận dạng ký tự thông minh (ICR) Từ. thể nhận dạng được ký tự đã bị gạch xóa. b) Xử lý đi ều tra sử dụng công nghệ ICR Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều tra dân số và nhà ở. thống kê. Do vậy, nghiên cứu áp dụng công nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu điều tra nói chung và trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009 của Việt

Ngày đăng: 23/05/2014, 16:51

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan