Một số vấn đề rút ra từ kinh nghiệm của các nước đã sử dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu thống kê Từ thông tin trong mục 2, có thể lập bảng so sánh thời gian, côn
Trang 1TỔNG CỤC THỐNG KÊ
BÁO CÁO TỔNG HỢP KẾT QUẢ NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI CẤP TỔNG CỤC
NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ
TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG
ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009
Trang 2LỜI NÓI ĐẦU
Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra thống kê nói chung và xử lý số liệu điều tra dân số nói riêng Trong khi đó, ở nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công nghệ nhập tin truyền thống Vì vậy, chúng ta không biết được công nghệ nhận dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở nước ta hay không Trong trường hợp áp dụng được thì những yếu tố nào ảnh hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử lý? v.v Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông minh trong các điều tra để chuẩn bị cho việc áp dụng công nghệ này trong xử lý Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết Những kinh nghiệm có được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng Đề tài nghiên cứu khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong
xử lý số liệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08 nhằm giải quyết những vấn đề nêu trên Đề tài đã tiến hành nghiên cứu công nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS 5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử nghiệm của Tổng điều tra dân số và nhà ở năm 2009
Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I Nghiên cứu kinh nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra thống kê của một số nước; Phần II Nghiên cứu áp dụng công nghệ nhận dạng của công ty ReadSoft; Phần III Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu khi áp dụng công nghệ quét, nhận dạng trong xử lý điều tra; Phần IV Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống
kê về dân số các năm 2006, 2007, 2008; Phần V Nghiên cứu, đề xuất quy trình
xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều tra dân số và nhà ở 1/4/2009 Trong đó, nội dung Phần 4 “Thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê về dân số các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở Trên cơ sở những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết quả nghiên cứu đưa ra những kết luận cũng như những kiến nghị cho xử lý Tổng điều tra dân số và nhà ở 1/4/2009
Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR
Trang 3Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính Cho đến thời nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn phím; nhập tin bằng công nghệ quét Nhập tin bằng bàn phím là phương pháp đơn giản Để nhập tin, người ta thường phát triển chương trình ứng dụng theo từng phiếu điều tra Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra vào vị trí tương ứng trên màn hình máy tính Chương trình ứng dụng sẽ ghi những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu Các bước xử lý tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp hoặc cơ sở dữ liệu, nơi lưu giữ dữ liệu đã nhập Phương pháp nhập tin bằng bàn phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử dụng sau này do sự đơn giản, chi phí đầu tư thấp Tuy nhiên, nếu áp dụng phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất nhiều thời gian do tốc độ nhập tin của con người có hạn Mặt khác chất lượng thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin
Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào những năm 80 của thế kỷ trước Để nhập tin bằng công nghệ quét người ta phải trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính
có thể tính toán được Hiện nay công nghệ này đã được áp dụng ở nhiều nước trên thế giới Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan, Lào đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê Việt Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra Tuy nhiên, do những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao nên Tổng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009 Trong thời gian qua, với sự giúp
đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR Kết quả nghiên cứu, thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài
Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và
Vụ thống kê Dân số và Lao động Danh sách những người thực hiện như sau:
1 Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ nhiệm đề tài
2 Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê, thư ký đề tài
3 Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê
4 Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê
5 Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao động
Trang 46 Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
7 Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
8 Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
9 Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
10 Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
11 Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
12 Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao động
13 Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm Tin học Thống kê
Trang 5PHẦN I KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG
KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC
1 Công nghệ quét, nhận dạng
Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong
xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ
nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition)
1.1 Công nghệ đọc đánh dấu quang học (OMR)
Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra Đây là một bước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v
Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu hỏi Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thường Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào Thêm vào đó đường cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ Để thiết
kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ hình ô văng đó cho từng phương án trả lời một Sau đó điều tra viên sẽ làm kín ô có phương án trả lời đúng thì máy Scan mới nhận dạng được OMR không thể nhận dạng chữ viết tay và chữ in
Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và ICR là hơn hẳn Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR
và OCR
1.2 Công nghệ nhận dạng ký tự quang học (OCR)
Công nghệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có thể nhận dạng ký tự in trên giấy Tuy nhiên, tỷ lệ nhận dạng chính xác không bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR Công nghệ này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được (ASCII text file) Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể nhận dạng được chữ viết tay Đối với chữ in, nó cũng chỉ có thể nhận dạng một
số loại fonts chuẩn như Times Roman và Arial
Trang 61.3 Công nghệ nhận dạng ký tự thông minh (ICR)
Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng ký tự thông minh (ICR) bắt đầu dần thay thế công nghệ OMR Những loại ký tự có thể đọc
và nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các ký
tự đánh dấu hay được khoanh, mã vạch, Các phiếu điều tra được nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay được máy quét (scanner) chuyển thành hình ảnh và sau đó được nhận dạng chuyển đổi thành các chữ cái chữ số mà máy tính có thể xử lý được
So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được không chỉ các ký tự đánh dấu, mã vạch, mà còn nhận dạng chữ viết tay Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR, ICR Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy, không đòi hỏi thiết bị chuyên biệt Ngày nay ICR được sử dụng rộng rãi ở rất nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế cách thức nhập tin truyền thống Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR và OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với thực tế hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn
2 Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra thống kê của một số nước
2.1 Kinh nghiệm của Thái Lan
Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu tổng điều tra dân số năm 2000 Sau khi xử lý tổng điều tra dân số năm 2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động (Labour Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey), Tổng điều tra nông nghiệp năm 2003, v.v
Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là phiếu ngắn và phiếu dài Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn, trong đó có 20% nhân khẩu thường trú được ghi vào phiếu dài Phiếu ngắn (gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12 tháng trước điều tra) Ngoài các chỉ tiêu ở phiếu ngắn, phiếu dài còn bao gồm các chỉ tiêu (thêm 10 chỉ tiêu): công việc làm trong tuần trước điều tra, tìm việc làm, lý do không làm việc, số con sinh và số con chết, số trẻ sinh trong năm qua, nơi sinh, độ dài thời gian cư trú, nơi ở trước, lý do di chuyển Về nhà ở, bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích ở (tổng điều tra); nhiên
Trang 7liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước, các thiết bị sử dụng lâu bền
Số lượng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái Lan
là 16 triệu phiếu Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12 tháng, trong khi sử dụng công nghệ quét nhận dạng ký tự ICR chỉ mất 8 tháng (bằng 2/3 thời gian nhập tin bằng bàn phím)
Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra dân số 2000 theo mô hình tập trung Cơ quan Thống kê tỉnh có trách nhiệm tiến hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trước khi gửi về NSO tại Băng Cốc Việc quét và xử lý tiến hành tập trung tại Băng Cốc
Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2
hệ thống:
- Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff Software, inc USA cho ICR TELEform 6.2 Elite Enterprise Edition (gồm các Module: TELEform Designer; TELEform Reader; TELEform Verifier)
Các thiết bị sử dụng trong hệ thống TELEform bao gồm:
- Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga cho ICR Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau: Form Designer; Administration Station; Recognition Station; Correction Station)
Các thiết bị sử dụng trong hệ thống ABBYY bao gồm:
(cái)
Ghi chú
Trang 8Verifier Modules Workstations 25
Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra:
- Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR Tuy nhiên
độ dai của giấy cần tốt hơn loại giấy thông thường;
- Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt trang của các tập phiếu khác nhau Khi có một tờ phiếu nào có vấn đề, máy tính kiểm soát máy quét đưa ra thông báo ngay Người vận hành lấy tờ đó từ ngăn
“đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc;
- Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động, nửa thủ công;
- Tốc độ quét rất khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận dạng Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là
20 tờ/1 phút (2 mặt) Song với phiếu Tổng điều tra nông nghiệp năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút);
- Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả các ký
tự nhận dạng dùng để tổng hợp đều phải bằng số Như vậy có nghĩa là, nếu câu trả lời nào đó không phải bằng số, cần ghi mã trước khi quét;
- Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương đối chuẩn các số vào trong ô mã dành sẵn theo quy định Không được viết một cách cẩu thả, tuỳ tiện;
- Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần mềm nhận dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ không cần phải kiểm tra tất cả các ký tự Vì vậy, việc ghi chép phiếu càng đúng và chuẩn mực, càng giảm công việc xác minh số liệu;
Trang 9- Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2 Các ô mã trên phiếu in màu xanh để dễ nhận dạng Ghi phiếu bằng bút chì kim HB2 của Nhật Bản sản xuất Khi viết sai có thể dùng tẩy, tẩy đi để viết lại;
- Tập huấn cán bộ điều ra rất kỹ Tập huấn 2 lần, mỗi lần một tuần;
-Việc bảo quản phiếu để dùng cho ICR không quá phức tạp Cụ thể là, phiếu khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một đường nào đó quy định trước) Một tập phiếu được cho vào trong một túi giấy như vỏ bao xi măng Nhiều túi phiếu được cho vào trong một hộp cát tông (như loại hộp cát tông bình thường dùng đóng hàng hoá);
2.2 Kinh nghiệm của Philipin
Trước năm 2000, việc xử lý các điều tra, tổng điều tra của Cơ quan thống
kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím
Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử lý tổng điều tra dân số và nhà ở và sau đó tiếp tục sử dụng công nghệ này trong xử lý tổng điều tra nông nghiệp và thủy sản 2002 Sau đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong xử lý tổng điều tra dân số 2000
a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa
+)Thiết kế phiếu điều tra
Trong tổng điều tra dân số và nhà ở năm 2000, NSO thiết kế 4 phiếu điều tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu và phiếu tình trạng hộ
Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô hình tròn hoặc ô hình chữ nhật đủ để ghi các ký tự chữ số ( 0, ,9), chữ in (A, B, ,Z, N ngã) Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002
Kích thước phiếu: 11inch x 17 inch
11inch x 12 inch
11inch x 8,5 inch
+) In phiếu điều tra
Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in đen trắng để tránh lãng phí Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt, tiêu chuẩn tối thiểu 80gram/m2
+)Viết phiếu điều tra
Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill) ký tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật Lý do không dùng bút bi là không thể nhận dạng được ký tự đã
bị gạch xóa
b) Xử lý điều tra sử dụng công nghệ ICR
Trang 10+) Tổ chức xử lý
NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data Capture Center – DCC) Số lượng phiếu xử lý phải xử lý là 15,5 triệu Số lượng phiếu của từng Trung tâm như sau:
-Trung tâm Pampanga: 3,5 triệu phiếu
-Trung tâm Manila: 5 triệu phiếu
-Trung tâm Cebu: 3,5 triệu phiếu
-Trung tâm Davao: 3,5 triệu phiếu
Thời gian xử lý thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần Thời gian xử lý 6 tháng Tổng số người dùng trong xử lý tổng điều tra dân số nhà ở năm 2000 là
• 05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút
Riêng Trung tâm tại Manila số máy quét nhiều hơn các Trung tâm còn lại Tổng số máy quét dùng trong xử lý là 22 máy
+) Phần mềm dùng trong xử lý
Để xử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét và phần mềm nhận dạng ký tự thông minh EYES & HANDS for FORMS Phần mềm ICR mà NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu chỉnh (Data Verification) và chuyển đổi (Data Transfer/Generation) Sau khi thực hiện quét, nhận dạng thông tin từ phiếu điều tra được chuyển ra tệp định dạng text Từ dạng file này các chuyên gia NSO Philipin chuyển đổi vào các cơ
sở dữ liệu khác nhau để lập các biểu thống kê Phần mềm dùng để tổng hợp kết quả là module CENT trong phần mềm IMPS và phần mềm SPSS
c) Kinh nghiệm sử dụng công nghệ ICR của Philipin
- Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trường đánh dấu (mark) và trường viết tay (handwritten) Trong thiết kế, hạn chế trường ký tự
Trang 11- Chất lượng in phiếu điều tra cần đảm bảo;
- Trung bình 1 máy quét được 30 trang (phiếu) trong một phút;
-Tỷ lệ nhận dạng của các trường đánh dấu (mark) là cao Tỷ lệ nhận dạng của các trường viết tay là thấp Tỷ lệ nhận dạng chung là 90-95%;
- Những vùng dữ liệu dạng text (tên chủ hộ, địa chỉ hộ) thì kết quả chưa chắc khả quan Trong mẫu ký tự tiếng Philipin có một ký tự nằm ngoài bảng chữ cái Latinh hiện nay – ký tự ñ Việc nhận dạng ký tự này cho kết quả chưa cao lắm;
- Tốc độ nhận dạng 3400-3500 phiếu/giờ, hiệu chỉnh 270-320 phiếu/giờ Do vậy số lượng bản quyền module hiệu chỉnh của mỗi Trung tâm năm 2000 chỉ
có 4 là không đủ mà cần khoảng 9-10
2.3 Kinh nghiệm của Trung Quốc
Ở Trung Quốc, việc áp dụng công nghệ quét trong xử lý số liệu điều tra thống kê đã được thực hiện từ những năm 90 của thế kỷ trước Năm 1990 sử dụng công nghệ quét để xử lý số liệu điều tra của 19 triệu dân ở hai tỉnh Quý Dương và Trùng Khánh Năm 1992 sử dụng công nghệ này cho xử lý điều tra nông nghiệp Năm 2000 áp dụng công nghệ quét để xử lý số liệu tổng điều tra dân số và tổng điều tra nông nghiệp Năm 2006 sử dụng công nghệ quét để xử
lý số liệu tổng điều tra nông nghiệp lần thứ 2
Trong tổng điều tra dân số năm 2000, số lượng xử lý gấp 2 lần số lượng năm 1990 nhưng số lượng cán bộ và thời gian xử lý chỉ bằng 1/2 so với năm
1990 (năm 2000 sử dụng 5.000 cán bộ; xử lý trong 6 tháng)
- Bút viết chất lượng tốt (bút chì kim 2B do Thượng Hải sản xuất);
- Máy quét đã sử dụng là Kodak, Fujitsu M4097D tốc độ 40-80 tờ phút, quét 2 mặt Giá máy scanner khoảng 60.000 tệ/máy Sử dụng 500 máy scanner, phân cho các tỉnh theo tỷ trọng dân số Riêng Bắc Kinh, Cục Thống kê nhà nước chỉ cấp 01 Scanner nhưng UBND thành phố đã mua thêm 17 scanner;
- Giấy chất lượng tốt (90-100 gram/m2) Không cần in màu;
- Không cần đánh số phiếu (ID);
- Chữ Hán phải phiên thành mã số mới nhận biết được;
- Phiếu khổ A3 gấp làm đôi, ghim giữa trang A3 nên phải bóc ghim trước khi quét;
- Phầm mềm xử lý do công ty Tử Quang (Trung Quốc) thiết kế nên không phải mua phần mềm bên ngoài;
- Ghi phiếu còn khá nhiều lỗi vì vậy phải verify khá nhiều Công tác kiểm tra phiếu ở Trung tâm máy tính rất chặt chẽ Mỗi lô phiếu có sai sót > 5% phải kiểm tra lại toàn bộ phiếu gốc;
Trang 12- Huyện thu thập và ghi mã sau đó chuyển lên tỉnh Tỉnh thực hiện quét, nhận dạng, verify, hiệu đính và tổng hợp cho cấp tỉnh, cấp huyện, cấp xã Sau đó chuyển lên Trung tâm máy tính (Trung ương) Trung tâm máy tính gia quyền, tổng hợp cho vùng và cả nước;
- Để xử lý tổng điều tra nông nghiệp 2006, Trung Quốc mua máy sanner
và phần mềm mới;
Về sử dụng công nghệ quét trong xử lý điều tra thống kê, Trung Quốc chủ yếu vẫn sử dụng công nghệ OCR và OMR Công nghệ OMR đòi hỏi tiêu chuẩn giấy phải tốt hơn, kỹ thuật in phải cao hơn vì vậy Trung Quốc chủ yếu sử dụng công nghệ OCR Trung Quốc chưa sử dụng công nghệ ICR Trung Quốc không
có phần mềm riêng cho khâu thiết kế phiếu
2.4 Kinh nghiệm của Lào
Trung tâm Thống kê Quốc gia Lào đã sử dụng công nghệ ICR trong xử
lý số liệu tổng điều tra dân số năm 2005 Sau đây là kinh nghiệm của Lào trong việc sử dụng công nghệ ICR để xử lý tổng điều tra dân số năm 2005:
a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa
+)Thiết kế phiếu điều tra
Phiếu điều tra của tổng điều tra dân số Lào năm 2005 gồm 35 câu hỏi Các câu hỏi từ 1 đến 10 dành cho tất cả các thành viên của hộ Các câu từ 11 đến 14 hỏi thông tin về đi học đối với thành viên từ 6 tuổi trở lên Câu 15-17 hỏi công việc cho các thành viên từ 10 tuổi trở lên Câu 18-20 hỏi cho phụ nữ 15-49 Câu hỏi 21 hỏi về người chết của hộ Câu hỏi 22-23 hỏi những thành viên chuyển đến và chuyển đi trong 12 tháng qua Câu 24 hỏi thông tin về người tàn tật của hộ Câu 25-34 hỏi về nhà ở của hộ Câu 35 hỏi về tổng số người chia theo giới tính của hộ
Trung tâm Thống kê Lào thiết kế bảng hỏi bằng phần mềm PageMaker +) In phiếu điều tra
- Về giấy in: Giấy in phiếu hỏi không được bóng, trơn, giấy quá mỏng, giấy bị bẩn; nên sử dụng giấy 80gram/m2 Không sử dụng giấy có carbon vì sẽ gặp vấn đề khi quét
- Chất lượng in: Tất cả các bảng hỏi đều phải sử dụng 1 loại máy in để
in Chọn font chữ in là Arial hoặc OCR-B tối thiểu là size 10-12pt Không chọn chữ đậm và nghiêng Không tạo đường bao quanh các trường là nét mỏng Nên chọn đường bao có nét 1 hoặc 1.5 pt là tốt nhất Những câu hỏi mở phải có đường kẻ ngăn cách giữa các ký tự Đối với số có phần thập phân phải có dấu phẩy để ngăn cách
- Phiếu điều tra được đóng thành quyển Tổng số có khoảng 25.000 quyển phiếu (mỗi quyển có thể ghi được 40 hộ với 400 người) Dân số Lào năm 2005 khoảng 5.600.000 người
Trang 13b) Xử lý điều tra sử dụng công nghệ ICR
+) Tổ chức xử lý
- Trung tâm Thống kê Lào tổ chức xử lý điều tra tập trung Có 35 người làm
xử lý điều tra với 4 bước cơ bản:
• Kiểm tra, mã hoá, làm bảng kê (tick off)
- Sử dụng 01 người chuyên đánh số thứ tự (mã Serial Number) cho tất cả các phiếu (mã này được in trước chỉ việc dán vào quyển phiếu)
- Sử dụng 01 người điều khiển máy cắt gáy quyển phiếu trước khi đưa vào scan (1 lần cắt được 5 quyển phiếu hỏi)
- Sử dụng 01 người điều khiển máy đọc mã serial number của quyển phiếu bằng thiết bị đọc và phần mềm của ReadSoft Phần mềm ghi lại ngày đọc
và trạng thái của phiếu Sau đó ghi ra 1 tờ Tick off prepaced Bookets tờ này ghi lại số serial number của quyển phiếu và số tờ phiếu đã sử dụng, số tờ phiếu chưa sử dụng của quyển phiếu Sau đó bỏ tờ bìa của quyển phiếu và thay vào
đó là Tick off
- Sử dụng 02 người điều khiển 2 máy quét Trước khi quét nhập vào số của hộp bìa sẽ đựng phiếu sau khi quét Tốc độ quét 56 tờ/1 phút Một lần có thể đưa vào máy scanner 500 tờ Trong quá trình quét chương trình sẽ thống kê
số tick off và số hộ đã quét được Quét 2 mặt một lúc
- Thỉnh thoảng máy có bị giắt giấy và máy tự động dừng Sau đó phải cho máy nghỉ và vệ sinh làm sạch máy
- Phải làm sạch máy hàng ngày bằng chất rửa và giấy lau riêng
- Sử dụng Tape để back up số liệu hàng ngày
- Trên máy chủ có cài phần mềm Eyes & Hands Sau khi quét xong, phần mềm Eyes &Hands trên máy chủ tự động chuyển Interpret và Tranfer để bộ phận Verify có thể sửa được số liệu
- Vào verify sau đó chọn số của hộp đựng tài liệu, chương trình sẽ liệt kê các số theo thứ tự từ 0-9 những số mà chương trình nghi ngờ, người sửa sẽ chọn những số phải xem lại và nhập lại Sử dụng 20 người sửa trong 3 tháng
- Trên máy chủ, thiết kế CSDL bằng SQL Server để chuyển số liệu từ dạng text vào SQL Và thủ tục được chạy hàng ngày Những file text đã chuyển được sẽ ghi sang một thư mục khác Tên file text thể hiện ngày chuyển
Trang 14- Sau khi chuyển vào SQL, dùng SPSS để phân tích số liệu
Trong quá trình làm có 1 chuyên gia của công ty ReadSoft đến hỗ trợ
3 Một số vấn đề rút ra từ kinh nghiệm của các nước đã sử dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu thống kê
Từ thông tin trong mục 2, có thể lập bảng so sánh thời gian, công nghệ và số thiết bị của một số nước xử lý Tổng điều tra dân số áp dụng công nghệ quét như sau:
áp dụng
Quy mô dân số (triệu người)
Thời gian
xử lý (tháng)
Số lượng máy quét
Công nghệ
Phần mềm
Fujitsu M4099D
ICR Teleform
và ABBYY
Kodak 3510/3590
ICR ReadSoft
độ 56 tờ/phút
ICR ReadSoft
Kodak, Fujitsu M4097D
Quang- TQuốc
Ghi chú: Phiếu điều tra của các nước được thiết kế khác nhau
Trang 153.1 Lựa chọn công nghệ
Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều tra, máy fax với tốc độ nhanh và tốn ít nhân lực Hệ thống này sử dụng máy quét để đọc phiếu điều tra hoặc tài liệu, và một phần mềm ứng dụng sẽ đọc hoặc định dạng tự động dữ liệu hoặc chữ số ghi trên phiếu/tài liệu, sau đó chuyển thông tin thành file dữ liệu mã ASCII (American Standard Code for Information Interchange) để xử lý tiếp theo Công nghệ quét, nhận dạng có thể chia thành công nghệ quét, nhận dạng ký tự quang học (OCR), công nghệ đọc đánh dấu quang học (OMR), công nghệ quét, nhận dạng ký tự thông minh (ICR) Cho đến thời điểm hiện nay, trong các công nghệ nói trên, công nghệ quét nhận dạng ký tự thông minh ICR là công nghệ tiên tiến nhất, được sử dụng nhiều nhất trong việc xử lý điều tra thống kê Do vậy, nghiên cứu áp dụng công nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu điều tra nói chung và trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009 của Việt Nam là sự lựa chọn phù hợp
3.2 Ưu điểm của công nghệ nhận dạng ký tự thông minh
Sử dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý số liệu điều tra có những ưu điểm như:
a) Rút ngắn thời gian xử lý
Ở các nước đã áp dụng công nghệ quét, nhận dạng ký tự thông minh trong
xử lý điều tra đều cho rằng công nghệ này đã làm giảm đáng kể thời gian xử lý
so với phương nhập nhập tin truyền thống bằng bàn phím (keyboard) Thời gian nhập dữ liệu rút ngắn do máy quét đọc tốc độ nhanh, tốc độ nhận dạng, tốc
độ chuyển đổi kết quả nhận dạng ra file text/cơ sở dữ liệu và tốc độ hiệu đính (verify) nhanh hơn so với phương pháp nhập tin truyền thống Công nghệ này phù hợp đối với các cuộc điều tra lớn và tổng điều tra, trong đó phiếu điều tra không quá phức tạp, nhưng số lượng phiếu rất lớn Do vậy công nghệ ICR có thể giúp cho cơ quan thống kê nhà nước công bố kết quả điều tra sớm hơn nhiều so với công nghệ truyền thống nhập tin từ bàn phím máy tính
b) Tăng độ chính xác
Khi áp dụng công nghệ ICR trong xử lý điều tra, khâu nhập liệu được thực hiện bởi hệ thống máy móc, thiết bị và phần mềm Sự can thiệp của con người vào trong quá trình quét, nhận dạng là rất ít nên đã tránh được những lỗi do con người gây ra khi nhập tin bằng bàn phím như nhập nhầm ký tự, nhập sai vị trí, nhập đúp ký tự v.v Đặc biệt trong xử lý tổng điều tra, do khối lượng dữ liệu lớn phải sử dụng nhiều người nhập tin nên các loại lỗi cũng đa dạng và số lượng lỗi tăng nhanh khi công việc nhiều Đối với các cuộc điều tra quy mô lớn, càng ít can thiệp của con người hoặc hoạt động thủ công sẽ giảm được đáng kể sai sót trong giai đoạn nhập số liệu
Trang 16c) Hiệu suất cao
Khi áp dụng công nghệ ICR trong xử lý điều tra, số lượng người tham gia vào khâu xử lý đã giảm rất nhiều so với nhập dữ liệu thủ công Máy quét làm việc rất nhanh và đọc thông tin tự động, chỉ đến giai đoạn kiểm tra nhận biết thông tin mới cần người hiệu chỉnh
d) Giảm giá thành
Chi phí nhập số liệu bằng công nghệ ICR cao ở giai đoạn đầu khi lắp đặt
hệ thống, nhưng về lâu dài chỉ cần kinh phí bảo dưỡng và phát triển Hơn nữa
sử dụng ít nhân công và thời gian nhập số liệu ngắn làm giảm khá nhiều chi phí Kinh nghiệm quốc tế cho thấy rằng, khối lượng công việc càng lớn thì chi phí nhập số liệu bằng công nghệ ICR càng rẻ so với phương pháp nhập thủ công Điều này càng khẳng định ưu thế của công nghệ ICR khi xử lý các cuộc điều tra quy mô lớn
Mặc dù công nghệ ICR có nhiều ưu điểm đặc biệt khi xử lý các cuộc điều tra quy mô lớn, nhưng công nghệ này có những yêu cầu nhất định về phiếu và ghi phiếu điều tra:
• Về phiếu điều tra
- Thiết kế phiếu điều tra áp dụng công nghệ ICR trong xử lý phải đảm bảo những yêu cầu nhất định để quét và nhận dạng đạt độ chính xác cao Độ cao, độ rộng của từng ô, khoảng cách giữa các ô phải đảm bảo để điều tra viên có đủ khoảng trống để điền thông tin Độ đậm, nhạt của đường bao ô cũng ảnh hưởng đến kết quả nhận dạng Tỷ lệ nhận dạng đúng ô điền ký tự và ô đánh dấu là khác nhau, do vậy lựa chọn kiểu ô trong thiết kế cũng ảnh hưởng đến kết quả nhận dạng
- Chất lượng in phiếu cũng ảnh hưởng rất nhiều đến quá trình quét, nhận dạng Trước hết, kích thước phiếu in phải đảm bảo chính xác Việc in phiếu điều tra ở những nhà in khác nhau có thể làm lệch vị trí của các ô, lệch kích thước của các
ô, lệch kích thước của phiếu dẫn đến việc nhận dạng sai
Độ dày, mỏng của phiếu điều tra cũng ảnh hướng rất nhiều đến kết quả Yêu cầu giấy in phiếu điều tra phải đảm bảo tối thiểu 80 gram/m2 Việc bảo quản phiếu điều tra cũng đòi hỏi khắt khe hơn Phiếu điều tra cần phải giữ khô, không quăn, không nhàu nát Những phiếu bị quăn, nhàu nát hoặc bị ẩm làm chậm quá trình quét phiếu
• Về ghi phiếu điều tra:
- Chất lượng ghi phiếu ảnh hưởng rất nhiều đến kết quả áp dụng công nghệ ICR trong xử lý Để chất lượng ghi phiếu tốt, một vấn đề quan trọng trong khi ghi phiếu điều tra là phải kiểm soát được chữ viết tay của điều tra viên Viết
Trang 17xấu và ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều lỗi khi quét Đặc biệt là trong tổng điều tra, một lực lượng lớn điều tra viên sẽ tham gia, thường khó kiểm soát được cách viết của họ Do vậy, việc đào tạo ghi phiếu điều tra phải đặc biệt quan tâm Cần có mẫu ký tự chuẩn để đảm bảo tỷ lệ nhận dạng cao Khi lựa chọn điều tra viên, phải kiểm tra và loại bỏ những điều tra viên ghi không đúng mẫu ký tự đã quy định
- Để đảm bảo tỷ lệ nhận dạng cao, nét chữ khi điền phiếu phải đảm bảo rõ ràng, không tẩy xóa Độ rộng của nét chữ cũng ảnh hưởng đến chất lượng, do vậy, ở các nước đã áp dụng công nghệ ICR thường sử dụng bút chì kim chất lượng tốt
Trang 18PHẦN II NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR CỦA CÔNG
TY READSOFT
Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu công nghệ nhận dạng ký tự thông minh qua các tài liệu nước ngoài, thông tin trên mạng Internet Trong thời gian này và trước đó, một số cán bộ của TTTHTK tham gia các đoàn khảo sát các cơ quan thống kê nước ngoài (Lào, Hồng Kông, Thái Lan, Philippin) cũng thu thập được một số thông tin, kinh nghiệm, có những hiểu biết nhất định về công nghệ này Một số phần mềm nhận dạng phiếu loại này đã được tìm hiểu như: hệ thống IFP (Intelligent Form Procesing – Xử lý mẫu phiếu thông minh) của IBM, giải pháp của Pearson do công ty FPT giới thiệu, ABBYY của Nga, Document for FORMS của ReadSoft, TIS (Top Image System) của Israel,
Việc lựa chọn phần mềm là rất khó khăn do thông tin các công ty cung cấp phần lớn chỉ mang tính giới thiệu chung về giải pháp và do chúng ta chưa có kinh nghiệm gì và cũng không thể tìm kiếm chuyên gia tư vấn ở Việt Nam Việc lựa chọn Document for FORMS của ReadSoft dựa trên việc ReadSoft – Eyes & Hands đã có tiếng trên lĩnh vực này, nhiều cơ quan thống kê các nước bạn đã sử dụng ReadSoft cung cấp đầy đủ và nhanh chóng những thông tin cần thiết và giá phần mềm là chấp nhận được cho việc thử nghiệm
1 Công nghệ nhận dạng ICR của ReadSoft
ReadSoft FORMS 5.2 là phần mềm xử lý tự động phiếu (Form Automation) của công ty ReadSoft (những phiên bản cũ của phần mềm này được gọi là “Eyes & Hands for FORMS”) ReadSoft là một trong những công
ty hàng đầu trong lĩnh vực nhận dạng ReadSoft bắt đầu đưa ra thị trường công nghệ ICR từ năm 1991 và cho đến nay có rất nhiều khách hàng Riêng trong xử
lý Tổng điều tra dân số, nhiều nước trong khu vực đã sử dụng phần mềm của ReadSoft như: Malaysia, Lào, Bangladesh, Philipin,
ReadSoft FORMS 5.2 là phần mềm tích hợp tất cả các chức năng để xử lý phiếu: định dạng FORM, quét (scan) phiếu, nhận dạng, kiểm tra số liệu, chuyển đối dữ liệu, quản lý các lô phiếu và dữ liệu Phần mềm có những khả năng sau:
- Nhận dạng được các loại ký tự ICR (chữ viết tay), OCR (chữ in/đánh máy), OMR (ký tự đánh dấu), mã vạch, (ngoài nhận dạng các ô đánh dấu
có thể lựa chọn ký tự khoanh tròn);
- Định dạng nhiều loại mẫu phiếu và xử lý đồng thời không cần phân loại;
- Nhiều lựa chọn khác nhau cho việc kiểm tra số liệu;
- Kiểm tra số liệu theo khối (mass verify);
- Một số kiểm tra có thể thiết lập ngay trong phần mềm (không cần lập trình) như: kiểm tra giá trị hợp lệ theo các khoảng xác định hoặc so sánh
Trang 19với các bảng tham chiếu, cộng tổng số, một số dạng kiểm tra logic giữa các trường liên quan;
- Khả năng quản lý, kiểm soát lô tương đối mềm dẻo;
- Mềm dẻo trong xác định tệp dữ liệu đầu ra;
- Quản lý người dùng và có khả năng đưa ra thống kê ở mức người dùng, thống kê về đầu ra cho người quản trị;
- Cho phép lập trình nhúng (built-in) trong các chức năng của FORMS 5.2 bằng ngôn ngữ VBA;
- Cho phép tích hợp gắn kết với các chương trình khác qua DDE, DLL, ODBC, OLE, ActiveX;
- Quét màu, nhận dạng và lọc các ảnh;
- Nhập dữ liệu từ máy FAX hoặc Internet
Phần mềm ReadSoft FORMS 5.2 có các module sau:
- Quản lý (Manager): thực hiện các chức năng như định dạng mẫu phiếu, thiết lập thuộc tính cho các lô, cho các công đoạn trong quá trình xử lý, thiết lập Job;
- Quét (Scan): thực hiện việc quét các lô phiếu thành dạng hình ảnh;
- Nhận dạng (Interpret): thực hiện việc nhận dạng dữ liệu từ các hình ảnh;
- Hiệu chỉnh (Verify): thực hiện việc nhập những dữ liệu không nhận dạng được và kiểm tra dữ liệu;
- Chuyển đổi (Transfer): thực hiện chuyển đổi dữ liệu nhận dạng và kiểm tra xong ra các tệp dữ liệu dạng Text
2 Quản lý và định dạng Form trong phần mềm ReadSoft Form 5.2
Một trong những phần quan trọng trước khi tiến hành quét phiếu điều tra
là vấn đề định dạng form cho phiếu điều tra Trong phần mềm ReadSoft Form 5.2, form là một tài liệu có cấu trúc bao gồm những khoảng trống để chứa thông tin: Những câu hỏi, những ô để ghi dữ liệu, những ô đánh dấu (checks) Phiếu hỏi của một cuộc điều tra có thể nhiều tập phiếu (có thể là một tờ hay nhiều tờ), mỗi form thể hiện 1 tờ phiếu trong một tập phiếu điều tra đó, tờ phiếu có thể là 1 mặt hay 2 mặt
2.1 Định dạng Form trong phần mềm ReadSoft Form 5.2
Trước khi định dạng form, chúng ta phải tạo form definition (định nghĩa form) Đó là một bản mô tả dựa trên 1 khuôn mẫu của một tờ phiếu Để tạo ra một định dạng form, vào module Manager chọn quét một tờ phiếu mẫu (phiếu mẫu không bao gồm thông tin) Sau đó định nghĩa các điểm định vị trên form (adjustment), các trường và thiết lập một số trạng thái, tiếp theo lưu vào trong
cơ sơ dữ liệu Khi đó mỗi lần quét phiếu, phần mềm sẽ so sánh những tờ phiếu
Trang 20đã được quét với định dạng form để nhận dạng được các tờ phiếu và các trường định nghĩa
Định dạng Form bao gồm việc định dạng các trường định vị (Adjustment fields) và định dạng các ô chứa thông tin trên phiếu
+) Định dạng các trường định vị
Để phân biệt các tờ phiếu khác nhau, người ta xác định các điểm làm mốc trên mỗi tờ phiếu Các điểm mốc này được gọi là điểm định vị (adjustment) Điểm định vị có thể là một ký tự, một biểu tượng hay đường giao nhau trên tờ phiếu nhưng phải là điểm duy nhất có trên tất cả các tờ phiếu Sau khi xác định điểm định vị trên phiếu, điểm này sẽ xuất hiện trên phiếu có dạng hình vuông
và được lưu vào cơ sở dữ liệu là một trường Nếu như trong một tập phiếu điều tra có nhiều tờ phiếu khác nhau thì các điểm định vị được sử dụng trên từng tờ phiếu phải có các vị trí khác nhau để tránh nhầm lẫn giữa các tờ phiếu với nhau trong quá trình nhận dạng Có 2 kiểu xác định vị trí mốc trên form (adjustment field) là chọn các điểm làm mốc và chọn các đường kẻ làm mốc Khi tiến hành quét phiếu, phần mềm sẽ kiểm tra kích cỡ, vị trí và hình dạng của các trường định vị trên form
Trong quá trình đặt phiếu để tiến hành quét, với số lượng phiếu rất lớn trong một lần quét thì việc để đúng phiếu không lệch là một điều cực kỳ khó, vì vậy các điểm định vị sẽ cho phép độ lệch của tờ phiếu không quá 10 độ - có nghĩa trong quá trình đặt phiếu vào máy scan nếu phiếu được quét vào nằm trong khoảng 10 độ so với phương thẳng đứng thì các điểm định vị sẽ đưa phiếu về đúng vị trí và phiếu được nhận dạng được nếu như form định vị đúng các điểm định vị
Trong một số trường hợp phiếu có tình trạng xoay 90 độ, 180 độ hay 270
độ hoặc khi chọn các trường định vị đối xứng nhau, khi đó cần phải chọn thuộc tính cho phép phiếu xoay chiều (Identify rotated forms) trong thuộc tính của Scan Lúc đó, mỗi khi gặp các tờ phiếu xoay chiều, các điểm định vị sẽ đưa các
tờ phiếu xoay chiều đó về đúng chiều của phiếu
+) Định dạng các ô chứa thông tin trong phiếu
Để thu được thông tin trong phiếu, những trường chứa các thông tin này phải được định nghĩa: tên trường, kiểu thông tin:
- Đối với những ô số hay ô chữ:
Kiểu Character field có thể được dùng cho cả ô số hay ô chữ viết tay (chữ in hoa, chữ in thường, các ký tự đặc biệt – có thể là dấu phẩy hoặc dấu chấm, các ký tự trắng - dấu cách và các ký tự được viết cho nhiều dòng - bảng) hoặc đánh máy Nhưng thông tin này phải nằm trọn trong các đường viền bao quanh của trường
Trang 21Ô đánh dấu là ô nhỏ chứa các dấu tích lựa chọn để ghi nhận thông tin Yêu cầu những ô này phải là hình vuông và các cạnh của nó ít nhất phải là 1.5mm nhưng để nhận dạng được tốt nhất, phần mềm khuyến cáo hình vuông nên có cạnh là 3mm Chuyên gia Readsoft có khuyến cáo rằng: Khoảng cách giữa các
ô đánh dấu nên bằng đúng chiều cao của ô đánh dấu
VD:
Với ví dụ trên rất khó để lấy thông tin trong phiếu, vì vậy cần phải mã hoá các câu trả lời bằng các con số và các giá trị đó được nằm trong mục value Với các phiếu điều tra, mỗi câu trả lời người viết phiếu chỉ được đánh dấu điểm duy nhất vào câu trả lời đó (không thể có từ 2 ô đánh dấu trở lên trong một câu hỏi loại chọn lựa) thì việc chọn Max 1 để phục vụ cho vấn đề trên Mỗi khi verify phiếu mà xuất hiện nhiều hơn 1 ô được đánh dấu, chương trình sẽ hiện lên câu thông báo nhắc nhở người verify, nếu họ chấp nhận chương trình bỏ qua câu thông báo đó
- Trường ảnh (Image field):
Trường ảnh là một phần của form được dùng để xử lý nhưng không được dịch (Interpretation) Ứng dụng lớn nhất của việc định nghĩa các trường này nhằm giúp người verify có những thông tin cần thiết khi không nhận dạng được hoặc trong phiếu không điền đủ những thông tin mà có thể điền hay sửa chữa các thông tin đó thông qua ảnh Ví dụ: Khi vefify ô mã của các ngành nghề, nếu ô mã này không nhận được, người verify có thể kiểm tra ảnh chứa thông tin của người trả lời về ngành nghề đang làm và căn cứ vào thông tin đó để có thể sửa lại mã và điền vào ô mã ngành nghề
- Trường do người sử dụng định nghĩa (User_ defined field type):
Công việc định nghĩa các trường chứa thông tin tốn rất nhiều thời gian và công sức Vì khi định nghĩa một trường xong, nếu các trường tiếp theo có cùng loại với trường trên thì chỉ việc nhấn F6 và chỉnh sửa lại một số thông tin trên
đó Nhưng nếu trường tiếp theo không cùng loại với trường trước thì khi đó lại
Trang 22bắt đầu định nghĩa lại từ đầu Trường do người sử dụng định nghĩa giải quyết điều hạn chế trên bằng cách: Sau khi định nghĩa xong một trường, hãy lưu các trường đó lại, nếu như gặp bất cứ một trường khác mà cần định nghĩa, bạn có thể lấy một trong số các trường được lưu với cùng loại và chỉnh sửa lại một chút thông tin trên đó mà không cần phải định nghĩa lại từ đầu
2.2 Quản lý Form trong phần mềm ReadSoft 5.2
Sau khi định dạng các form definition có trong tập phiếu, vấn đề đặt ra là làm thế nào giải quyết những tập phiếu gồm nhiều phiếu và quản lý chúng như thế nào mới đạt hiệu quả nhất trong quá trình scan, interpret, verify và transfer
+) Định nghĩa tập (Set difinition)
Định nghĩa tập (set defintion) là việc thiết lập nhằm xử lý 2 hay nhiều form tạo thành một nhóm hợp lôgic Cần phải chọn các định nghĩa form để làm thành một định nghĩa tập (set definition) Thông thường, tất cả các tờ phiếu trong một tập phiếu sẽ nằm trong định nghĩa tập, hay một tập (set) bao gồm toàn bộ một phiếu Ví dụ, với phiếu Lao động việc làm: Một hộ có thể gồm nhiều phiếu, mỗi phiếu gồm 6 tờ phiếu khác nhau Khi đó 1 tập (set) là 1 phiếu gồm có 6 form – 6 tờ phiếu Sau đó cần phải thiết lập set logic Mỗi set logic được chọn khác nhau sẽ quyết định thứ tự sắp xếp việc xử lý các form trong tập phiếu khi thực hiện các quá trình quét (scan), nhận dạng (interpret), kiểm tra xác thực (verify) và chuyển đổi dữ liệu (transfer)
Set logic là một phần của định nghĩa tập, nó định rõ form definition nào, bao nhiêu form và trong đó trình tự các form xuất hiện trong set sẽ được xử lý như thế nào? Từ đó đưa ra thứ tự đúng cho các tờ phiếu trong 1 tập phiếu trong quá trình quét? Ngoài ra set logic còn quyết định đến việc khi nào một set mới được bắt đầu (gọi là set break)
Quy trình quét sử dụng đến định nghĩa tập nhằm:
- Kiểm tra xem các form trong phạm vi một set được quét theo đúng trình tự (nếu trong khay của máy scan có 1 hay nhiều tờ phiếu trong một tập phiếu sắp xếp không đúng trình tự trong định nghĩa tập thì khi phiếu được quét các
tờ phiếu để sai đó sẽ không nhận dạng đúng);
- Kiểm tra xem một set có chứa đủ số lượng của form đã được đưa vào;
- Kiểm tra xem khi nào kết thúc một tập (set) và bắt đầu một tập mới;
- Nhận dạng (Interpret) sử dụng định nghĩa tập để nhận dạng từng tập (công việc này tốt hơn là việc nhận dạng cho từng form) Việc thống kê quá trình cũng được đưa ra một cách trung thực hơn;
- Trong verify sử dụng định nghĩa tập để kiểm tra logic giữa các trường trong các form khác nhau của một set;
Trang 23- Transfer sử dụng định nghĩa tập để lấy tất cả các dữ liệu đầu ra trên các form trong set, nếu không chỉ có thể lấy dữ liệu đầu ra của từng form khác nhau
Có 3 loại set logic:
- Default set logic: Thuộc tính mặc định cho set logic;
- Sum up notes: (Áp dụng khi trong 1 tập phiếu gồm nhiều tờ phiếu) Form đầu tiên trong set (thường là tờ phiếu đầu của tập phiếu) phải có một dấu hiệu chỉ định quan hệ với các form tiếp theo Để làm được việc này cần phải xác định dấu hiệu giữa các form trong tập thông qua mục set sum validation Phần mềm kiểm tra các trường trên các form khác nhau trong phạm vi 1 tập
để chắc chắn rằng tổng của chúng phải bằng giá trị của trường được làm dấu hiệu trong form đầu tiên Nếu như không đúng, verify sẽ hiện những trường
có liên quan để có thể chỉnh sửa số liệu của chúng Chú ý rằng chỉ có những trường có dữ liệu mới thực hiện được, sẽ xẩy ra lỗi nếu như trường không
có số liệu Vì vậy hãy chọn thuộc tính Must be fill in (phải có dữ liệu bên trong trường, được chọn trong phần Field validation khi định nghĩa trường
số liệu đó) cho các trường được chọn trong mục set sum validation Tuy nhiên, phần mềm chỉ đưa ra các cảnh báo, do đó rất khó cho người sử dụng khi họ không may chấp nhận những lời cảnh báo đó và cũng rất khó khi xác định các dấu hiệu quan hệ không đúng trên các form;
- Questionnaire: Dùng để xử lý nhiều tờ phiếu trong một tập phiếu
+) Quản lý Form trong quá trình Scan, Interpret, Verify và Transfer
Sau khi xác định được định nghĩa tập, cần xác định job decription để quản lý các công việc trong quá trình scan, verify, interpret và transfer Job decription: Quản lý tất cả các module scan, verify, interpret và transfer Batch
là một nhóm các phiếu điều tra/bảng hỏi được chia theo một tiêu chí nào đó, phụ thuộc vào thực tế của cuộc điều tra để xác định một batch cho phù hợp, ví
dụ phiếu điều tra được sắp xếp theo từng địa bàn thì có thể chọn batch là một
hoặc nhiều hơn một địa bàn (batch bao gồm nhiều set)
- Sau công đoạn Scan, số lượng form sẽ thống kê vào mục Identified trong Processed form Nếu như bạn chọn thuộc tính chấp nhận cả những form không nhận được trong khi scan thì form nào không nhận dạng được chương trình sẽ thống kê vào mục Unidentified
- Sau khi Interpret số lượng các form trong mục indentified sẽ di chuyển
và được thống kê vào mục Complete, Incomplete, Retype, Interpretation error, Mass verify và Validation error có trong Processed form
- Sau khi Verify số lượng các form trong các mục trên sẽ di chuyển và được thống kê vào mục Complete có trong Processed form
- Sau khi Transfer, tất cả các form trong mục complete có trong Processed form sẽ di chuyển và được thống kê vào mục transfer
Trang 243 Quét phiếu trong phần mềm ReadSoft Form 5.2
3.1 Thiết lập thuộc tính máy quét
Các thuộc tính của máy quét sẽ được áp dụng đối với tất cả những form definition được tạo ra sau thời điểm thiết lập máy quét, cho đến khi các thuộc tính này được thiết lập lại Chỉ những form definition có cùng thuộc tính về máy quét mới có thể thực hiện trong cùng một Job của công đoạn quét phiếu (khi định nghĩa các form definition của bảng hỏi có nhiều trang phiếu thì cần lưu ý chọn thuộc tính của máy quét trước khi bắt đầu định nghĩa form để đảm bảo các form definition có cùng thuộc tính máy quét)
+) Kích cỡ của phiếu điều tra
Có thể chọn cỡ giấy lớn hơn phiếu thực tế, và không nên chọn cỡ giấy nhỏ hơn vì những thông tin ngoài khoảng cỡ giấy đó có thể sẽ bị mất Có thể chọn kích cỡ của phiếu theo danh sách sẵn có hoặc cũng có thể tạo ra một kích thước mới bằng cách chọn * trong danh sách cỡ giấy sẵn có và đưa thông tin về tên, chiều dài, chiều rộng của kích cỡ giấy mới Cần lưu ý, kích cỡ giấy mới phải thuộc khoảng tối thiểu và tối đa của kích cỡ giấy đã qui định
+) Màu của ảnh sau khi quét
- Ảnh đen trắng (Black and white)
Đây là lựa chọn ngầm định, phù hợp với hầu hết các phiếu điều tra vì phần mềm luôn chuyển đổi các ảnh quét được về ảnh đen trắng để phục vụ cho công đoạn tiếp theo sau quét, công đoạn biên dịch nhận dạng (Interpret) Ảnh đen trắng luôn phù hợp với các phiếu được in đen trắng, in màu hoặc in ở hai tông màu khác đen trắng như xanh và trắng Lựa chọn này làm tốc độ quét nhanh hơn, tệp lưu ảnh kết quả sẽ nhỏ hơn so với lựa chọn ảnh màu
- Ảnh màu (Grayscale, Color)
Lựa chọn này chỉ có thể sử dụng được nếu phiếu được in màu và máy quét
có hỗ trợ quét ảnh màu Lựa chọn này nên dùng trong những trường hợp:
Muốn xem những thông tin được in màu trên phiếu, ví dụ, trong một số trường hợp, ảnh màu giúp người thực hiện Verify làm tốt công việc kiểm tra logic và nhận dạng lại những ký tự còn nghi ngờ sau khi biên dịch nhận dạng
Mặc dù phần mềm luôn chuyển đổi ảnh quét màu về ảnh đen trắng để phục vụ công đoạn biên dịch nhận dạng nhưng vẫn có thể điều chỉnh việc
chuyển đổi đó qua hộp thoại Color Conversion
Nếu lựa chọn quét ảnh màu thì có thể chỉnh sửa được chất lượng quét phiếu Tuy nhiên, chất lượng ảnh càng tốt thì kích cỡ tệp ảnh càng lớn Việc chỉnh sửa chất lượng ảnh quét này chỉ có tác dụng nếu xuất ảnh quét ra tệp Nếu chất lượng ảnh tốt thì tỷ lệ biên dịch nhận dạng (Interpret) sẽ cao
Trang 25Cũng cần lưu ý rằng, nếu tệp ảnh xuất ra quá lớn thì cũng có thể làm giảm chất lượng ảnh
+) Độ phân giải của ảnh
Độ phân giải được tính bằng số điểm trên 1 inch (DPI) Thông thường, giá trị được chọn từ 100 đến 400 DPI Tuy nhiên, chỉ có những độ phân giải phù hợp với máy quét hiện tại được liệt kê trong danh sách để chọn Ảnh có độ phân giải thấp hơn thì sẽ được xử lý nhanh hơn Nếu chọn phiếu quét trong chế
độ ảnh đen trắng thì nên chọn độ phân giải là 200 DPI, còn ảnh màu thì nên là
100 DPI
+) Ánh sáng và độ tương phản (Light and Contrast)
Giá trị ánh sáng tối ưu cho những phiếu có màu nền trên các ô thông tin là trắng hoặc màu nhạt là 25 Chỉ thay đổi giá trị này khi màu nền trên ô thông tin làm giảm chất lượng ảnh Giá trị của độ tương phản tối ưu cho những phiếu có màu nền trên các ô thông tin là trắng hoặc màu nhạt là 60 Phụ thuộc vào loại máy quét mà hai thuộc tính này có được phép thay đổi hay không Chỉ có những form definition có cùng giá trị về ánh sáng và độ tương phản mới được thực hiện trong cùng một Job của công đoạn quét phiếu
3.2 Thiết lập thuộc tính quét phiếu
Trước khi thực hiện quét phiếu, cần xác định các thông tin để quét phiếu trong cửa sổ Job descriptions của chức năng Manager hoặc Scan
+) Các thuộc tính quét phiếu
Các thuộc tính này được thiết lập trong hộp thoại Scan job options của tab Scan
- Các lựa chọn nhận dạng phiếu Identification
Nếu cho phép nhận dạng các phiếu ngược chiều thì Identify rotated forms
phải được đánh dấu chọn Chú ý, các phiếu ngược chiều này được hiểu là phiếu quay ngược 180o trên cùng một mặt
Identify upside–down form phải được đánh dấu chọn nếu muốn phiếu
được nhận dạng cả hai mặt
Nếu cả hai lựa chọn Identify rotated forms và Identify upside–down form
đều được chọn thì sẽ làm chậm quá trình nhận dạng, đặc biệt nếu có nhiều phiếu được quét hai mặt và ngược chiều
Lựa chọn Low image quality được đánh dấu chọn cho phép chấp nhận
những phiếu có chất lượng ảnh thấp
Trong quá trình quét, chương trình cũng có khi không nhận dạng được phiếu Thông thường, phiếu đó sẽ bị bỏ qua hoặc quét lại Tuy nhiên, chương
trình có thể ghi lại phiếu đó để nhận dạng sau nếu lựa chọn Accept unidentified
forms – Identify manually in scan được đánh dấu chọn
Trang 26- Lựa chọn các thuộc tính xác nhận chất lượng quét Endorser options:
Manual endorser: Nếu máy quét có phần xác thực và muốn kiểm soát
toàn bộ thông tin được in trên phiếu thì đánh dấu chọn Manual endorser Tuy
nhiên, việc lựa chọn chức năng Manual endorser sẽ làm tốc độ quét phiếu thông thường chậm đi một nửa Khi lựa chọn Manual endorser được đánh dấu chọn,
hộp thoại Select string to imprint sẽ cho phép chọn các thông tin sẵn có để gán
lên ảnh của các phiếu khi quét Thứ tự chọn các thông tin này không quan trọng, nếu nhiều thông tin được chọn thì thứ tự in ra sẽ giống thứ tự chúng xuất
hiện trong hộp thoại Select string to imprint và được phân cách nhau bằng một
dấu cách (space) Độ dài tối đa của xâu ký tự là 80
Auto endorser: Nếu máy quét có chức năng xác thực và có hỗ trợ xác
thực tự động, đồng thời, không cần kiểm soát toàn bộ các thông tin trên phiếu
thì đánh dấu chọn Auto endorser Nếu muốn xác nhận hoặc xác định xâu ký tự
bao gồm giá trị bắt đầu đếm mỗi lần thực hiện quét phiếu thì đánh dấu chọn
Confirm start value Việc lựa chọn này rất thuận lợi, ví dụ trong trường hợp
phiếu đang quét thì bị kẹt trong máy quét, khi đó, chỉ cần nhìn số trên form bị
kẹt và gõ số tiếp theo vào hộp thoại Confirm start value khi đã sẵn sàng quét
tiếp phiếu
Khi chọn Confirm start value, cần xác định một số thông tin:
Prefix string: Đây là phần đầu tiên của chuỗi do chức năng xác thực của
máy quét đưa ra, thường đứng trước số đếm Với hầu hết các máy quét thì lựa
chọn Prefix string là tuỳ chọn khi chức năng Auto endorser được chọn Độ dài
tối đa của chuỗi xác thực phụ thuộc vào máy quét, thông thường là 70 ký tự bao gồm cả số đếm (nếu có)
Start value: Đây là giá trị số đầu tiên được đếm Giá trị này được in sau
giá trị Prefix (nếu có) trên trang đầu tiên được quét
Increament: Đây là giá trị số được dùng để tự động tăng thêm sau mỗi
phiếu được quét, thông thường là 1
Length: Số lượng ký tự lưu giữ số phiếu đã quét được Giá trị ngầm định
là 4, nghĩa là sau khi đã quét xong 9999 trang phiếu thì số đếm sẽ được khởi tạo lại bằng 1
- Lựa chọn xem ảnh trong khi quét View Image
Nếu đánh dấu chọn View scanned forms trong quá trình quét, những
phiếu đã được quét sẽ xuất hiện trong một cửa sổ riêng biệt Lựa chọn này rất hữu ích nếu muốn theo dõi chất lượng ảnh trong quá trình quét phiếu Ngoài ra,
có thể xác định tần xuất số trang phiếu sẽ được hiện lên Nếu tần xuất này càng thường xuyên thì tốc độ quét sẽ giảm Có thể thay đổi kích thước của cửa sổ hiện ảnh, hoặc cũng có thể thay đổi tỉ lệ ảnh
+) Xác định thư mục lưu ảnh khi quét
Trang 27Thư mục lưu ảnh được xác định trong hộp thoại Directories của tab Scan Nếu muốn thay đổi đường dẫn ngầm định lưu file ảnh sau khi scan thì Browse
để chọn Thư mục được chọn này chỉ áp dụng đối với Job description hiện tại
Những thay đổi trong hộp thoại Directories chỉ thay đổi vị trí lưu giữ ảnh
của phiếu chứ không thay đổi vị trí lưu giữ ảnh của từng trường số liệu (ô thông tin)
Nếu Alway ask for default directory được đánh dấu chọn thì chương trình
sẽ luôn yêu cầu xác định thư mục lưu giữ ảnh mỗi lần tạo một Job mới
Nếu thư mục được xác định không tồn tại thì chương trình sẽ tự tạo (chương trình chỉ tạo được thư mục một cấp)
Nếu không muốn lưu giữ tất cả các ảnh quét được vào thư mục ngầm định thì có thể:
- Đánh dấu chọn Every day để tạo ra thư mục mới trong thư mục ngầm
định theo ngày làm việc
- Đánh dấu chọn Every job để tạo ra thư mục mới trong thư mục ngầm
định theo từng job
- Xác định số batch(es), set(s), form(s) để tạo thư mục mới trong thư mục
ngầm định theo số batches, sets, forms được nhập vào ô New subdirectory
every
Khi đó, thư mục mới được tạo ra có tên là MDHmmiii, trong đó:
M = tháng (1-9 sau đó là A, B, C)
D = ngày (1-9, sau đó là A- -V)
H = giờ (1-9, sau đó là A- -N)
mm = phút iii là số tiếp theo của phút sau mỗi batch, set, form
Mặc dù đã thiết lập xong các thuộc tính quét, nhưng nếu thuộc tính Expot form
to image files trong hộp thoại Form definition setting (Phần định nghĩa Form
definition) không được đánh dấu chọn, hoặc thuộc tính Export form images
when scanned (cho phép lưu ảnh khi hoàn thành quét phiếu, ảnh được lưu dưới
dạng file có định dạng là TIFF) trong Field images của Tab Export không
được đánh dấu chọn thì việc thiết lập thư mục lưu giữ ảnh sẽ không còn ý nghĩa, việc tạo file ảnh sẽ không thành công
3.3 Tốc độ quét phiếu
Tốc độ quét phiếu phụ thuộc rất lớn vào chất lượng giấy dùng để in phiếu Giấy in phiếu càng tốt thì tốc độ quét phiếu càng cao Nếu giấy in quá mỏng, không đảm bảo chất lượng thì rất dễ bị kéo kép phiếu hoặc kẹt giấy khi quét, gây ảnh hưởng rất nhiều đến tốc độ quét phiếu
3.4 Các hình thức lưu trữ thông tin của phiếu điều tra
Có thể lựa chọn các hình thức này thông qua hộp thoại Storage của tab Scan
Trang 28+) Lưu trữ phiếu vào cơ sở dữ liệu
Lưu trữ phiếu vào cơ sở dữ liệu phù hợp với hầu hết các phiếu điều tra nếu máy quét nhanh, có cấu hình cao Sau khi quét phiếu, các ô dùng để điền thông tin điều tra được tách ra và ghi vào cơ sở dữ liệu ảnh của phần mềm Khi đó, cơ
sở dữ liệu này sẽ được dùng để nhận dạng Ngoài ra, thông tin của toàn bộ phiếu cũng được ghi vào cơ sở dữ liệu Lựa chọn này yêu cầu dung lượng đĩa trống ít nhất vì chỉ lưu trữ những ô thông tin của phiếu Tuy nhiên, kích cỡ của
cơ sở dữ liệu ảnh của phần mềm tăng rất nhanh nếu phiếu có nhiều ô thông tin, dẫn đến làm chậm quá trình quét phiếu Do đó, khi có máy quét cấu hình cao thì nên sử dụng cùng với máy tính có cấu hình cao để đạt hiệu quả tốt nhất
+) Lưu trữ phiếu vào tệp sau khi quét phiếu
Sau khi quét phiếu, ảnh của mỗi form sẽ được lưu vào từng tệp riêng biệt Sau đó, phần mềm sẽ sử dụng những tệp ảnh này thay vì sử dụng cơ sở dữ liệu ảnh Sau khi biên dịch nhận dạng (Interpret), các tệp chứa ảnh sẽ được xoá, ngoại trừ trường hợp ảnh đã được xuất ra tệp trong quá trình quét phiếu Các tệp ảnh này được lưu trong thư mục được chỉ ra bởi đường dẫn trong hộp thoại
Directories của tab Scan Thông thường, các tệp ảnh đen trắng sẽ có định dạng
là TIFF, tệp ảnh màu thường có định dạng PNG Tuy nhiên, định dạng của tệp được chọn trong tab Export sẽ được áp dụng nếu có chọn xuất ảnh
Hình thức lưu trữ này sẽ làm tăng tốc độ quét phiếu nhưng làm giảm tốc
độ nhận dạng phiếu Tuy nhiên, quá trình quét phiếu cần đến nhân lực để thực hiện, trong khi nhận dạng lại không cần và lại có thể thực hiện ngoài giờ làm việc Vì vậy, với số lượng phiếu lớn phải xử lý thì việc giảm thời gian quét phiếu rất có lợi trong quá trình xử lý Đồng thời, hình thức lưu trữ này cũng yêu cầu dung lượng đĩa trống lớn hơn khi lưu vào cơ sở dữ liệu vì phần mềm lưu trữ toàn bộ ảnh của phiếu vào tệp chứ không phải là từng ô thông tin Ngoài những đặc điểm trên, hình thức này còn có những hạn chế sau:
- Không thể xuất các ảnh của ô thông tin trong quá trình quét phiếu, nhưng có thể xuất chúng trong quá trình nhận dạng;
- Trong quá trình quét sẽ không thực hiện được nhận dạng (Nếu chức năng Nhận dạng trong quá trình quét được lựa chọn trong phần Form definition) Hình thức lưu trữ này rất thích hợp đối với những phiếu có nhiều ô thông tin
+) Lưu trữ phiếu quét chưa được nhận dạng vào tệp
Hình thức này phù hợp với những phiếu điều tra có số lượng ít ô thông tin cần xử lý Không chọn cách lưu trữ này nếu muốn xuất ảnh của phiếu Theo lựa chọn này, phần mềm sẽ lưu trữ các phiếu đã được quét nhưng chưa nhận dạng vào tệp ảnh Do đó, đối với những phiếu có thể nhận dạng được thì phần mềm cũng sẽ bỏ qua, coi như không nhận dạng Lựa chọn này dùng để tạo ra các file ảnh mà không muốn phần mềm xử lý tiếp Tuy nhiên, nếu muốn phần mềm xử
lý tiếp những ảnh được lưu trữ theo cách này thì cần lưu ý những vấn đề sau:
Trang 29Phải chọn các tệp ảnh để thực hiện quá trình biên dịch nhận dạng vì không có thông tin liên kết giữa các ảnh được lưu trong cơ sở dữ liệu form của phần mềm với các tệp ảnh được tạo ra theo hình thức này Khi đó, quá trình biên dịch sẽ
sử dụng những tệp ảnh này chứ không phải ảnh trong cơ sở dữ liệu
Đối với lựa chọn này, thời gian quét phiếu là nhanh nhất nhưng thời gian biên dịch nhận dạng lại lâu nhất Do đó, có thể dùng lựa chọn này đối với tất cả các loại phiếu (thậm chí đối với cả những phiếu chưa được tạo form definition)
vì phần mềm không nhận dạng khi quét phiếu
Sau khi biên dịch nhận dạng, các tệp ảnh này sẽ không bị xoá mà tuỳ thuộc vào cách quản lý tệp của người sử dụng.Tuy nhiên, việc thực hiện biên dịch nhận dạng phiếu không thể thực hiện được trong quá trình quét phiếu
3.5 Một số vấn đề xảy ra trong quá trình quét phiếu
Khi phần mềm không nhận ra được form quét vào thuộc form definition nào trong quá trình quét phiếu thì có thể do các lý do sau:
- Thiếu định nghĩa của form đó (form definition) trong Job description;
- Phiếu đã đặt lệch khi đưa vào quét hoặc bị bẩn, rách;
- Thứ tự các tờ phiếu trong 1 bảng hỏi/phiếu điều tra đưa vào quét không đúng với thứ tự các form đã được thiết lập trong set;
- Phiếu điền thông tin điều tra không dùng phiếu in chuẩn mà lại dùng phiếu photocopy;
- Phiếu ghi sai thông tin nhưng không tẩy sửa cẩn thận mà lại dán 1 mảnh giấy vừa với ô ghi thông tin rồi ghi thông tin lên đó;
- Phiếu không nhẵn (trên phiếu có gợn của nguyên liệu làm giấy)
Khi gặp phải các vấn đề trên, chương trình không thể xác định phiếu lỗi đó ngay lập tức Do đó, người thực hiện quét phải tìm lại phiếu lỗi đó, rồi quét lại phiếu đó đến khi chương trình nhận được mới thôi
4 Nhận dạng ký tự trong phần mềm ReadSoft Form 5.2
4.1 Mô đun nhận dạng(Interpret )
Phần mềm ReadSoft FORM 5.2 có thể nhận dạng được các ký tự in/đánh máy (machine-printed characters), ký tự viết tay (handwritten characters), ký tự đánh dấu (mark), các ký tự được khoanh tròn (circled), các ký tự bị gạch ngang (crossed) hoặc các mã vạch (barcode) Phần mềm này cũng nhận dạng được các ký tự đặc biệt của 25 ngôn ngữ trên thế giới Tuy nhiên đối với ngôn ngữ tiếng Việt, phần mềm này hiện chưa thể nhận dạng được
Tốc độ nhận dạng của các phiên bản khác nhau thì khác nhau, cả đối với nhận dạng ký tự in lẫn ký tự viết tay Phiên bản Interpret trong FORM 5.2 là Interpret 150 với tốc độ nhận dạng 150 ký tự/1 giây
Trang 30Để bắt đầu một quá trình nhận dạng, việc đầu tiên là phải mở một job nhận dạng nếu đã có hoặc tạo ra một job nhận dạng mới để chỉ rõ những form nào sẽ được nhận dạng và nơi đặt các form đó ở đâu Sau đó bắt đầu quá trình nhận
dạng bằng cách chọn nút Start trong menu Job Thời gian thực hiện nhận dạng
ít hay nhiều phụ thuộc vào độ lớn các form được xử lý Khi bắt đầu nhận dạng, một hộp thông tin về tình trạng, ngày, giờ hiện tại xuất hiện
Khi bắt đầu một job nhận dạng, các thông tin về tình trạng, ngày, thời gian hiện tại, ngày và thời gian bắt đầu, thời gian thực hiện được xuất hiện trong hộp
Run Control Biểu đồ thống kê hình cột cũng chỉ ra số lượng form mỗi loại đã
được nhận dạng Một hộp Character Statistics cũng chỉ ra tổng số các ký tự
được kiểm tra, số lượng ký tự nhận dạng được chắc chắn, số lượng ký tự không chắc chắn nhận dạng được, số lượng ký tự không nhận dạng được, mức độ nhận dạng thành công (tỷ lệ phần trăm)
Khi kết thúc nhận dạng một form, thông tin về tình trạng kết quả nhận dạng của form và các trường của form được lưu giữ trong cơ sở dữ liệu Thông thường module nhận dạng được chạy tự động trên máy chủ Có thể nhận dạng ngay (cùng lúc với quét), hoặc chạy riêng sau khi quét
4.2 Các lựa chọn trong mô đun nhận dạng
Các lựa chọn trong module Interpret có thể được cài đặt bằng cách chọn
thẻ Interpret trong menu Interpret description Settings
+) Nguồn dữ liệu (Form source)
Nguồn dữ liệu nội bộ (Internal): lựa chọn này cho phép nhận dạng các
form đã được quét và lưu giữ trong cơ sở dữ liệu của ReadSoft FORM 5.2 thông qua module Scan trước đó
File hình ảnh nhập khẩu (Import images files): lựa chọn này cho phép
nhận dạng các file hình ảnh ReadSoft FORM 5.2 hỗ trợ người dùng trong khả năng nhận dạng được nhiều định dạng file hình ảnh như các file TIFF, JPEG, BMP, CALS, PBM, PCD, PCX/DCX, PGM, PNM, PPM, PSD, RAS, RLE, SGI và một số loại khác
Nguồn dữ liệu bên ngoài (External): Lựa chọn này cho phép nhận dạng
các file hình ảnh do người dùng tạo ra bằng ngôn ngữ lập trình API (Application Programming Interface)
Các hình ảnh nhập khẩu (Import images): Lựa chọn này cho phép nhận
dạng các file hình ảnh nhị phân nguyên thuỷ chưa được nén do người dùng tạo
ra bằng ngôn ngữ lập trình API
Các file XML nhập khẩu (Import XML files): Lựa chọn này cho phép
nhận dạng các file XML trong trường hợp người dùng sử dụng phần mềm WEB FORM của ReadSoft
Trang 31Nguồn dữ liệu mở (Data source extension): Lựa chọn này cho phép nhận dạng các file nhận được thông qua kết nối Ví dụ lựa chọn Data source
extension khi người dùng sử dụng phần mềm EMAIL của ReadSoft để xử lý
các form nhận được thông qua email
- Định dạng các form bị lật ngược (Identify upside-down forms): Tùy chọn
này cho phép nhận dạng các form đã bị đặt ngược trong quá trình quét, nghĩa là mặt không cần quét úp xuống Tùy chọn này chỉ có thể được chọn khi có ít nhất một form có hai mặt dữ liệu Tùy chọn này cũng có thể được
sử dụng trong một số trường hợp khi một form có 2 mặt nhưng một mặt của form không thể hoặc không cần định dạng hoặc bị trống
Nếu cả hai tùy chọn Identify rotated forms và Identify upside-down forms
được chọn, trước tiên ReadSoft FORM 5.2 kiểm tra xem liệu form đó có định dạng được khi nó bị xoay 180 độ hay không, rồi kiểm tra và cố gắng xoay chiều đáy của form đi 180 độ Các tùy chọn này làm chậm tốc độ nhận dạng cho nên không nên chọn các tùy chọn này nếu không thật cần thiết
- Chấp nhận các form không định dạng được (Accept unidentified forms):
Trong quá trình nhận dạng các file hình ảnh nhập khẩu, thỉnh thoảng ReadSoft FORM 5.2 không thể định dạng được một form Form này sẽ được lưu giữ trong một thư mục dành riêng cho những form không định dạng được Tuy nhiên, các form này vẫn có thể được định dạng thủ công trong công đoạn kiểm
tra bằng module Verify Để làm được việc này, tùy chọn Accept unidentified
forms phải được lựa chọn
- Đưa ra bảng thống kê ký tự (Show character statistics): Lựa chọn này được
ngầm định chọn sẵn, do đó một hộp hiển thị các thông tin thống kê tổng số ký
tự đã kiểm tra, số ký tự nhận dạng được chắc chắn, số ký tự nhận dạng được nhưng không chắc chắn, số ký tự không nhận dạng được, tỷ lệ nhận dạng được luôn xuất hiện ngay khi vào module Interpret
Trang 32- Chất lượng hình ảnh (Image quality): Khi sử dụng module Interpret để nhận
dạng một file hình ảnh nhập từ ngoài vào, có 2 lựa chọn về chất lượng hình ảnh
mà người dùng có thể chọn:
• Bình thường (Normal): đây là lựa chọn khi file ảnh được quét từ bản in gốc
vào máy Phần mềm ngầm định sẵn lựa chọn này
• Chất lượng thấp (Low quality): chọn lựa chọn này khi nhận dạng file ảnh
được quét từ bản photocopy hoặc bản fax
- Thời gian chờ (Wait): Nếu thực hiện từng module một lúc thì mỗi module sẽ thực hiện cho đến khi hết form thì dừng Lựa chọn Wait có tác dụng khi người
dùng thực hiện nhiều module cùng một lúc và muốn các form được xử lý ngay
khi vừa kết thúc module trước Trong trường hợp có lựa chọn Wait, khi một
module xử lý hết các form thì sẽ ngừng và kiểm tra xem có form nữa không trong khoảng thời gian 30 giây
- Kiểu Snippet (Snippet Mode): Tuỳ chọn này chỉ được sử dụng khi người
dùng viết một chương trình bên ngoài để chuyển một file hình ảnh có chứa ảnh của duy nhất 1 trường vào để nhận dạng bằng ReadSoft FORM 5.2 nhưng không verify trong phần mềm này
+) Khoảng thời gian (Time range):
Thiết lập khoảng thời gian cho phép chỉ làm việc (nhận dạng) đối với những form được quét vào trong khoảng thời gian nhất định nào đó Tuỳ chọn này chỉ được áp dụng đối với những form thuộc cơ sở dữ liệu trong ReadSoft FORM
mà thôi
+) Phân loại (Sorting):
Chức năng này cho phép phân loại các form theo thứ tự để xử lý Có các cách phân loại như sau:
- Thứ tự tìm kiếm thông thường (Normal search order): Các form được sắp
xếp theo thứ tự tên định nghĩa form, tình trạng, thứ tự và thời gian
- Ngày giờ quét (Scan time and date): Các form được sắp xếp theo thứ tự
ngày và giờ quét mà không tính đến loại
- Tên định nghĩa và thời gian (Definition name and time): Các form được sắp
xếp theo thứ tự tên định nghĩa và sau đó là thời gian
- Tình trạng và thời gian (Status and time): Các form được sắp xếp theo thứ
tự tình trạng và thời gian
- Theo hàng và thời gian (Queue and time): Các form được sắp xếp theo thứ
tự hàng mà form thuộc về đó và thời gian
+) Lọc hình ảnh (Image Filters):
Chức năng lọc hình ảnh là hành động thực hiện trên một hình ảnh nhằm làm biến đổi hình ảnh đó Khi được sử dụng đúng cách, chức năng lọc hình ảnh có
Trang 33thể làm tăng chất lượng ảnh và do đó làm tăng khả năng đọc được form, làm tăng tỷ lệ nhận dạng được của ReadSoft FORM 5.2 và làm giảm kích cỡ ảnh nén
Chức năng Image Filters có thể được áp dụng trong module Scan hoặc
module Interpret Nếu các form được quét vào hệ thống thì chức năng lọc nên được dùng trong module Scan Nếu các form để xử lý được đưa vào từ một file
ảnh bên ngoài thì chức năng Image Filters được dùng trong module Interpret
Việc lọc hình ảnh được thực hiện trước khi nhận dạng nếu chức năng Image
Filters được chọn
Mỗi một điểm trên ảnh được bao quanh bởi 8 điểm liền kề và các điểm liền
kề này được coi là điểm “hàng xóm” ReadSoft FORM 5.2 sử dụng các điểm này để tính toán hiệu quả cho mỗi kiểu lọc áp dụng cho nhận dạng ảnh Có sẵn nhiều kiểu lọc để áp dụng, ví dụ như kiểu Deskew, Despeckle4, Despeckle8, Erode4, Erode8, Invert, Life, Median4, Median8, Merge4, Merge8, SmoothAndClean, …
5 Hiệu chỉnh dữ liệu trong phần mềm ReadSoft Form 5.2
5.1 Mô đun hiệu chỉnh dữ liệu (Verify) trong phần mềm ReadSoft Form 5.2
Verify là công đoạn được thực hiện sau công đoạn nhận dạng dữ liệu từ các hình ảnh (Interpret) Đây là công đoạn thực hiện việc nhập dữ liệu không nhận dạng được, nhận dạng chưa chắc chắn và kiểm tra dữ liệu Đây cũng là công đoạn tốn nhiều thời gian và nhân công nhất khi xử lý phiếu điều tra bằng công nghệ Scanning
Người thực hiện Verify làm việc với từng Batch một (một Batch có thể là một địa bàn tuỳ thuộc vào người thực hiện công đoạn Scan qui định) Người Verify có thể gọi thực hiện, tạm dừng, kết thúc một Batch Một Batch được gọi
là hoàn thành khi tất cả các ký tự cần nhận dạng trên Batch đó đã được người thực hiện Verify chấp nhận
Những ký tự (bao gồm cả chữ số và chữ cái) mà phần mềm không nhận dạng được sẽ được chuyển thành dấu (*) để người thực hiện Verify nhập lại Những ký tự phần mềm nhận dạng không chắc chắn thì phần mềm tự gán một giá trị tạm thời nào đó, người thực hiện Verify phải kiểm tra và sửa lại giá trị này Người thực hiện verify phải căn cứ vào file ảnh và giá trị nhận dạng hoặc bảng hỏi (trường hợp chữ viết quá mờ không thể nhìn rõ trên ảnh thì dùng bảng hỏi giấy) để nhập lại giá trị chính xác Phần mềm ReadSoft Form 5.2 cung cấp
2 chế độ verify: verify nhanh và verify thông thường
• Verify thông thường (Normal verify mode)
Phần mềm ReadSoft Form 5.2 hiển thị hình ảnh từng trang của bảng hỏi (bất
kể trang đó có kí tự không nhận dạng được hay nhận dạng được tất cả), người thực hiện verify có thể dùng con trỏ để xem giá trị thực sự phần mềm nhận
Trang 34dạng được của bất kỳ câu hỏi nào trên trang phiếu Trong một số trường hợp trên hình ảnh là một giá trị nhưng giá trị thực sự phần mềm nhận dạng được lại
là một giá trị khác
Thông báo những ký tự phần mềm không nhận dạng được và đã tự động chuyển thành dấu (*):
Thông báo những ký tự phần mềm nhận dạng chưa chắc chắn đúng:
Trong trường hợp định nghĩa trường của Form có qui định khoảng giá trị cụ thể cho trường, hoặc giá trị của trường phải nằm trong một bảng danh mục mà giá trị nhận dạng được nằm ngoài khoảng cho phép thì chương trình đưa ra thông báo số liệu sai so với định dạng (format error):
Khi định nghĩa giá trị của trường phải nằm trong một bảng danh mục mà người định nghĩa chọn thuộc tính hiển thị bảng danh mục khi Verify (“Show candidates in Verify”), nếu giá trị nhận dạng nằm ngoài bảng danh mục thì phần mềm sẽ hiển thị bảng danh mục theo dạng danh sách (List box) để người
sử dụng chọn giá trị phù hợp từ bảng danh mục
Trang 35Khi cần thiết phải xem giá trị của một trường nào đó trong một trang bất
kỳ của bảng hỏi, người thực hiện Verify có thể chuyển đến trang đó (“Go to Form”) để xem Tuy nhiên, chức năng này của phần mềm ReadSoft Form 5.2 thực hiện chưa được ổn định (lúc thực hiện được lúc không)
Tất cả các thông báo trên người thực hiện Verify có thể gõ Enter hoặc chọn OK để bỏ qua mà không cần sửa giá trị Vấn đề này rất nguy hiểm cho số liệu vì sau công đoạn Verify có thể vẫn còn những kí tự không nhận dạng được, như vậy dữ liệu đầu ra sẽ không thể tổng hợp được
• Verify nhanh (Fast verify mode)
Khác với Verify thông thường, Verify nhanh không cho phép thực hiện một số chức năng:
- Chỉ đưa ra thông báo đối với những kí tự phần mềm không nhận dạng được (những kí tự chuyển thành dấu (*)) để người thực hiện Verify sửa lại
- Không xem được giá trị của những trường mà phần mềm công nhận là đã nhận dạng được
- Không cho phép chuyển đến một trang bất kỳ của bảng hỏi
Đối với những điều tra của Việt Nam thì không nên chọn Verify nhanh, vì người thực hiện Verify trong nhiều trường hợp phải sửa lỗi ngay trong quá trình Verify Ví dụ, giữa câu hỏi ngày tháng năm sinh và câu hỏi về tuổi, tính theo ngày tháng năm sinh thì được giá trị tuổi khác với giá trị tuổi mà điều tra viên ghi trên phiếu, khi đó người thực hiện Verify phải căn cứ vào nhiều câu hỏi khác như có phải đối tượng 15 tuổi trở lên hay không, có phải phụ nữ trong khoảng 15-49 tuổi hay không, để quyết định sửa số liệu theo một giá trị đúng là ngày tháng năm sinh hay tuổi
5.2 Kiểm tra số liệu theo lô (Mass verify)
Sau khi người thực hiện Verify sửa xong tất cả các lỗi không nhận dạng được và nhận dạng không chắc chắn, phần mềm cung cấp chức năng kiểm tra
số liệu theo từng lô Phần mềm cho phép chọn bao nhiêu Form (thông thường một Form là 2 trang của một tờ phiếu) cho 1 lần kiểm tra Những kí tự phần mềm nhận dạng được (trừ những ký tự không nhận dạng được và nhận dạng không chắc chắn đã được người thực hiện Verify sửa) của các Form trong lượt Mass verify sẽ hiển thị ở đây để người thực hiện Verify kiểm tra lại Mass verify hiển thị số liệu theo dãy số từ 0 đến 9 và theo thứ tự từ a đến z
Việc đặt bao nhiêu Form cho 1 lần kiểm tra số liệu theo lô tuỳ thuộc vào từng cuộc điều tra Nhưng nếu đặt số Form ít thì số kí tự hiển thị trên màn hình cũng sẽ ít, nhiều khi không đủ trải theo dãy số từ 0 đến 9, người thực hiện Verify sẽ khó phát hiện ra kí tự nhận dạng sai
Trong trường hợp phiếu ghi quá mờ, nhìn hình ảnh người thực hiện Verify không thể khẳng định được giá trị đúng, phải tìm lại phiếu giấy để nhập mà đặt
Trang 36số Form cho 1 lô quá nhiều thì việc tìm đi tìm lại một tờ phiếu là có xảy ra, dẫn đến rất tốn thời gian và công sức
Những kí tự phần mềm nhận dạng sai, người thực hiện Verify dùng con trỏ đánh dấu kí tự đó (đánh dấu nhầm có để đánh dấu lại), phần mềm sẽ chuyển con trỏ đến đúng vị trí của kí tự nhận dạng sai để người thực hiệnVerify sửa lại Phần kiểm tra số liệu theo lô đòi hỏi người thực hiện phải quan sát thật kỹ, không bỏ sót những kí tự nhận dạng sai Hiện tại nhóm nghiên cứu chưa tìm thấy chức năng của phần mềm cho phép quay lại Mass verify khi phát hiện ra còn kí tự nhận dạng sai chưa được đánh dấu
Ví dụ, hình trên thể hiện phần mềm đã nhận dạng sai số 9 thành số 4
Như vậy, phần mềm ReadSoft Form 5.2 đã cho phép người thực hiện verify kiểm tra và sửa chữa tất cả các giá trị theo thứ tự từ không nhận dạng được, nhận dạng không chắc chắn, sai định dạng so với định nghĩa trường đến giá trị được coi là nhận dạng chuẩn của từng lô phiếu Cụ thể qua các bước sau:
- Kiểm tra và sửa các giá trị không nhận dạng được, nhận dạng chưa chắc chắn;
- Kiểm tra và sửa các giá trị sai so với định nghĩa trường;
- Kiểm tra và sửa các giá trị phần mềm công nhận là nhận dạng được (Mass verify)
5.3 Một số chức năng khác của mô đun hiệu chỉnh (Verify)
Phần mềm có chức năng cung cấp tài khoản cho từng người thực hiện Verify Chức năng này giúp cho việc quản lý và thống kê khối lượng của từng
Trang 37người thực hiện được đơn giản Phần mềm cũng cho phép ghi lại tên người sửa cuối cùng của một Form
Phần mềm cho phép thực hiện Verify lại những Batch đã hoàn thành Điều này rất hữu ích khi có những yêu cầu kiểm tra logic mới hoặc có thể chọn Verify một số trường trước để tổng hợp nhanh số liệu cơ bản Đặc biệt, từ việc cho phép định nghĩa các trường ảnh (Image field), chúng ta có thể thực hiện việc đánh mã sau cho một số câu hỏi, ví dụ như câu hỏi về ngành đào tạo, nghề nghiệp, ngành kinh tế Những dòng mô tả thông tin do điều tra viên ghi lại từ câu trả lời của người được phỏng vấn sẽ được định nghĩa là những trường ảnh Khi thực hiện Verify xong các trường khác có thể thực hiện công đoạn Transfer lấy số liệu làm báo cáo công bố một phần kết quả của cuộc điều tra, sau đó quay lại đánh mã Khi đó người đánh mã chỉ cần nhìn vào hình ảnh đọc mô tả
để đánh mã cho các trường này
Người thực hiện Verify có thể phóng to, thu nhỏ ảnh, có thể bỏ qua tạm thời không Verify một form (Skip to Form), có thể tạm dừng công việc Verify Nếu trong quá trình thực hiện Verify có chọn chức năng Skip to Form, để hoàn thành công đoạn Verify của Batch này thì người thực hiện Verify phải chọn lại chức năng Verify Batch này một lần nữa để thực hiện Verify Form đã bỏ qua Trong module Verify, người sử dụng có thể thêm Form trắng để nhập dữ liệu, có thể xoá Form, xoá Batch
Chức năng hiển thị file ảnh (“Show image from file”) Nếu sau khi Scan,
các ảnh của phiếu hỏi được lưu trong một thư mục thì trong quá trình verify, người thực hiện verify có thể sử dụng chức năng này Trong trường hợp nét viết mờ, người thực hiện verify nên sử dụng chức năng này trước khi phải tìm lại phiếu giấy
5.4 Những lỗi lôgic còn lại sau hiệu chỉnh
Nếu xử lý phiếu điều tra chỉ dựa trên các công cụ mà phần mềm ReadSoft Form 5.2 cung cấp, sẽ có một số lỗi logic còn lại sau xử lý
• Logic giữa các trường trong các Form khác nhau của bảng hỏi
Phần mềm ReadSoft Form 5.2 có chức năng chọn khoảng giá trị cho một trường và viết một số kiểm tra logic đơn giản Việc kiểm tra logic giữa các câu hỏi trên các Form khác nhau của cùng một tập phiếu là không thể hoặc có viết được cũng rất khó khăn mất nhiều thời gian, câu lệnh phức tạp
• Thừa, thiếu thông tin
Lỗi này phần lớn do điều tra viên không ghi đầy đủ thông tin theo đúng qui định điều tra, không tuân thủ theo bước nhảy của phiếu hỏi
• Kiểm soát thông tin của cùng một đối tượng điều tra được ghi trên các tập
phiếu khác nhau
Trang 38Hiện tại, việc kiểm soát thông tin của cùng một đối tượng được ghi trên các tập phiếu khác nhau là không thể Ví dụ như, thông tin sức khoẻ sinh sản và
kế hoạch hoá gia đình của phụ nữ từ 15 đến 49 tuổi trong điều tra biến động dân số ghi không cùng tờ phiếu với phần thông tin chung thì việc kiểm tra xem thành viên đó có đúng là phụ nữ, có đúng trong độ tuổi 15-49 không là chưa thể kiểm tra được trong quá trình Verify Tất cả các lỗi logic trên một phần có thể kiểm soát được bằng chương trình kiểm tra logic “nhúng” vào quá trình Verify, một phần phải kiểm tra sau công đoạn Transfer số liệu
5.5 Nhúng các chương trình kiểm tra lôgic bằng ngôn ngữ lập trình khác
Một ứng dụng được xây dựng với chỉ các công cụ của phần mềm ReadSoft Form 5.2 là cũng đã có thể thực hiện việc xử lý phiếu điều tra Tuy nhiên, trong phần lớn trường hợp, những ứng dụng như vậy bị hạn chế rất nhiều Hạn chế nhất là việc kiểm tra số liệu nhận dạng được Công cụ của ReadSoft Form 5.2 chỉ cho phép thiết lập những kiểm tra đơn giản như loại trường, khoảng giá trị, cộng tổng Việc thiết lập những kiểm tra đơn giản trong ReadSoft Form 5.2 là không đáp ứng được đối với các cuộc điều tra thống kê có những giá trị đặc biệt như không nhớ, không biết, không xác định Do vậy việc lập trình bằng các ngôn ngữ lập trình khác để kiểm tra logic, chỉnh sửa số liệu là cần thiết Để khắc phục các hạn chế nêu trên cần phải nhúng các ngôn ngữ lập trình vào bên trong phần mềm ReadSoft FORMS 5.2 Trong giai đoạn thử nghiệm, chỉ áp dụng nhúng các ngôn ngữ lập trình vào hai module đó là module Scan và module Verify Ngoài ra, có thể can thiệp trực tiếp vào hệ thống menu của ReadSoft FORMS 5.2 như ẩn, hiện các chức năng của hệ thống
Việc nhúng các ngôn ngữ lập trình trong chức năng Scan có thể giúp cập nhật các nhật ký công việc khi quét phiếu và chuyển dữ liệu này vào cơ sở dữ liệu quản lý, thay cho công việc phải ghi nhận nhật ký thủ công vào sổ ghi chép Và như vậy, người ta có thể dùng chương trình quản lý để thống kê, tổng hợp số liệu lên quan đến Scan như: BatchName, BatchPrefix, BatchNo, BatchSize, BatchDate, BatchTime, MaTinh, DiaBan, TTNN,…
Nhúng các ngôn ngữ lập trình trong chức năng Verify: Phần mềm ReadSoft Form 5.2 có chức năng chọn khoảng giá trị cho một trường và viết một số kiểm tra logic đơn giản Việc kiểm tra logic giữa các câu hỏi trên các Form khác nhau của cùng một tập phiếu là không thể hoặc có viết được cũng rất khó khăn mất nhiều thời gian, câu lệnh phức tạp Lỗi này phần lớn do điều tra viên không ghi đầy đủ thông tin theo đúng qui định điều tra, không tuân thủ theo bước nhảy của phiếu hỏi Tất cả các lỗi logic trên một phần có thể kiểm soát được bằng chương trình kiểm tra logic “nhúng” vào quá trình Verify, một phần phải kiểm tra sau công đoạn Transfer số liệu Chương trình kiểm tra logic viết bằng ngôn ngữ lập trình bên ngoài phải đưa vào tất cả các tình huống kiểm tra cần thiết tương đương với những qui định khi viết trong chương nhập tin bằng bàn phím Chương trình phải kiểm tra để đảm bảo cấu trúc dữ liệu và các bước chuyển câu hỏi của phiếu Đối với điều tra thống kê của Việt Nam, do lỗi
Trang 39logic để khá lớn, việc hiệu chỉnh tự động sẽ không đảm bảo chất lượng, có thể làm sai lệch số liệu Do vậy việc kiểm tra và sửa chữa trực tiếp là rất cần thiết Ngoài ra khi gặp các lỗi không thể verify tiếp tục được chúng ta phải loại bỏ phiếu điều tra đó ra để verify các phiếu tiếp theo, chương trình nhúng vào phải
có trách nhiệm ghi nhận lại các phiếu bị loại bỏ, các phiếu hoàn thành để người quản lý thống kê biết được địa bàn đó thiếu hay đủ, đã hoàn thành được bao nhiêu phiếu, bao nhiêu phiếu không hoàn thành phải đưa sang nhập số liệu bằng bàn phím hay ghi lại số liệu để quét lại Các chương trình viết kiểu
“nhúng” này làm cho trong qui trình xử lý chỉ có một công đoạn kiểm tra, mỗi
tờ phiếu cùng một lúc được kiểm tra mọi khía cạnh: những ký tự không nhận dạng được, nhận dạng không chắc đúng, sai các thuộc định khi định nghĩa Form, những ký tự được phần mềm công nhận là nhận dạng chuẩn và những kiểm tra logic viết bằng ngôn ngữ lập trình bên ngoài
Chương trình nhúng trong phần mềm ReadSoft FORMS 5.2 phải viết dưới
dạng ActiveX DLL và được dịch sang file DLL Ví dụ, người lập trình tạo ActiveX DLL có tên là template và dịch thành template.dll Để phần mềm ReadSoft FORMS 5.2 khi chạy gọi được file “template.dll” chúng ta phải thực hiện qua hai bước:
Bước 1: Đăng ký file template.dll giả dụ như vào thư mục
“c:\Windows\system”
Bước 2: Trong file “Ehlocal.ini” tại thư mục ”C:\WINDOWS” khai báo
thêm dòng kết nối tới file “template.dll”
Sau khi thực hiện xong cả hai bước này thì khi chạy các module của ReadSoft FORMS 5.2 nó sẽ khởi động file nhúng template.dll, các lệnh viết trong module template.dll sẽ được thực hiện trong khi ReadSoft FORMS 5.2 gọi đến
+) Kiểm tra lôgic trong quá trình hiệu chỉnh
Đối với điều tra thống kê của Việt Nam, do lỗi logic để khá lớn, việc hiệu chỉnh tự động sẽ không đảm bảo chất lượng, có thể làm sai lệch số liệu Do vậy việc kiểm tra và sửa chữa trực tiếp là rất cần thiết Nếu chương trình kiểm tra logic được viết sau công đoạn Transfer thì sẽ là một chương trình viết theo kiểu truyền thống và việc lập trình khá đơn giản Nếu làm như vậy sẽ phát sinh thêm một công đoạn kiểm tra trực tiếp các tờ phiếu (dạng hình ảnh), tốn kém thời gian và nhân công Đó là lý do tại sao phải viết các chương trình kiểm tra logic
“nhúng” vào bên trong và chạy đồng thời với module verify của phần mềm ReadSoft Form 5.2 Các chương trình viết kiểu “nhúng” này làm cho trong qui trình xử lý chỉ có một công đoạn kiểm tra, mỗi tờ phiếu cùng một lúc được kiểm tra mọi khía cạnh: những kí tự không nhận dạng được, nhận dạng không chắc đúng, sai các thuộc định khi định nghĩa Form, những kí tự được phần mềm công nhận là nhận dạng chuẩn và những kiểm tra logic viết bằng ngôn ngữ lập trình bên ngoài
Trang 40Chương trình kiểm tra logic viết bằng ngôn ngữ lập trình bên ngoài phải đưa vào tất cả các kiểm tra cần thiết tương đương với những qui định khi viết trong chương nhập tin bằng bàn phím Chương trình phải kiểm tra để đảm bảo cấu trúc dữ liệu và các bước chuyển câu hỏi của phiếu
Dưới đây là một ví dụ minh hoạ thông báo của chương trình kiểm tra logic viết bằng ngôn ngữ lập trình bên ngoài và được “nhúng” vào quá trình Verify:
Đây là thông báo kiểm tra mã định danh của một tập phiếu khi điều tra viên ghi mã định danh trên mỗi trang của một tập phiếu khác nhau (theo qui định phải cùng một mã)
Các thông báo của chương trình “nhúng” bắt buộc người thực hiện Verify phải sửa số liệu, không thể gõ Enter hoặc bấm OK để bỏ qua như thông báo của phần mềm ReadSoft Form 5.2
+) Kiểm tra và hiệu chỉnh số liệu sau khi chuyển đổi (Transfer)
Việc viết chương trình “nhúng” trong công đoạn Verify để kiểm soát số liệu khi một hộ điều tra có nhiều tập phiếu là rất khó khăn, hiện tại nhóm nghiên cứu chưa thể viết chương trình kiểm soát thông tin giữa các tập phiếu với nhau Như trong điều tra Biến động dân số, nhiều hộ có 2 tờ phiếu trở lên, việc kiểm soát một số thông tin phần sức khoẻ sinh sản và kế hoạch hoá gia đình của phụ nữ từ 15 đến 49 tuổi là chưa thể kiểm tra được nếu các thông tin
về ngày tháng năm sinh, giới tính, tình trạng hôn nhân của thành viên đó được ghi ở một tờ phiếu khác
6 Chuyển đổi dữ liệu trong phần mềm ReadSoft Form 5.2
6.1 Mô đun chuyển đổi (Transfer)
Quy trình Transfer hay còn gọi là quy trình chuyển đổi dữ liệu từ những
dữ liệu đã được mã hoá trong cơ sở dữ liệu của phần mềm Readsoft Form 5.2 thành những file dữ liệu phẳng có cấu trúc dễ khai thác hơn Trong quy trình này, chúng ta có thể chuyển đổi ra file đầu ra theo các dạng khác nhau như : Text, Doc, Excel, … Tuỳ người quản lý, tuỳ từng bài toán, tuỳ từng cách thức
mà người chuyển đổi có thể đưa ra cấu trúc, dạng của file đầu ra hợp lý để khi khai thác được dễ dàng thuận lợi
Một số yêu cầu cần chuẩn bị trước khi thực hiện quy trình Transfer: