1. Thử nghiệm công nghệ ICR với phiếu điều tra BĐDS năm 2006 của tỉnh
1.2. Thực hiện việc chạy thử nghiệm với phiếu điều tra BĐDS, nguồn lao
và KHHGĐ 2006
Số phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc Ninh thực sự được chạy hồn chỉnh quy trình qt và nhận dạng, kiểm tra khơng lớn, chỉ có 8 địa bàn. Tuy vậy trong quá trình thử nghiệm, phiếu được thực hiện rất nhiều lần để thử nghiệm các phương án lựa chọn, bổ sung dần chương trình kiểm tra cho đến lúc hoàn thiện.
Phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 được thiết kế khi TCTK chưa có phần mềm, chưa có bất cứ kinh nghiệm nào nên chưa thực sự phù hợp. Các khâu in phiếu, chất lượng giấy, nhất là vấn đề điền phiếu của tỉnh Bắc Ninh đều không đạt yêu cầu, do vậy việc thực hiện đặc biệt khó khăn.
Trong cơng đoạn qt phiếu, việc chuẩn bị đưa phiếu vào máy quét mất thời gian do phải dở từng tờ phiếu ra và xếp lại (các tờ phiếu đều bị gấp đôi do khi hướng dẫn cho điều tra viên TCTK chưa có máy và cả chưa thu xếp được tiền mua máy scanner, phải tính đến khả năng dùng các máy scanner thông thường cỡ A4). Các phiếu để trong hộp cứng riêng từng địa bàn nên các góc khơng bị quăn/rách nhưng do phải dở ra vuốt lại nên việc dỗ thẳng đều tập phiếu cũng mất thời gian. Nhưng khó khăn nhất là việc phiếu dễ bị kẹt / bị rách do giấy mỏng, và có thể do phiếu để khá lâu nên bị ẩm. Các phiếu bị rách phải gỡ ra chép lại và trong một số trường hợp chỗ rách làm mất thông tin không thể khôi phục lại được.
Một vấn đề thường xuyên gặp phải khi quét phiếu năm 2006 là rất nhiều tờ phiếu hệ thống không định dạng ra được (dựa trên các trường điều chỉnh xác
định các góc phiếu, xác định đúng từ phiếu, trang nào của phiếu). Lý do có thể là:
- Do các trường điều chỉnh xác định góc làm khn mỗi trang phiếu năm 2006 được thiết kế là đường không liền nét và chất lượng in không được tốt, hoặc/và;
- Phiếu bị ẩm, bề mặt cong/lồi lõm, hoặc nếp gấp đã lâu làm nhăn giấy nên các trường điều chỉnh định vị bị xô lệch đi.
Khi gặp một tờ phiếu không định dạng được, phải lấy lại địa bàn đã quét, đếm phiếu và quét lại tập phiếu bắt đầu từ phiếu định dạng hỏng trở đi.
Khâu trục trặc, tốn kém thời gian nhất là việc kiểm tra (VERIFY) phiếu đã quét và nhận dạng. Chất lượng ghi phiếu năm 2006 của Bắc Ninh đặc biệt kém (so với yêu cầu của công nghệ) nên tỷ lệ nhận dạng được và trong các trường hệ thống coi là đã nhận dạng được thì nhận dạng sai rất nhiều phải sửa lại trong q trình kiểm tra. Ngồi thiếu sót do ghi chữ số không gọn đúng trong ô quy định, viết số khơng đúng theo mẫu chuẩn, tẩy xóa sửa chữa phiếu chưa tốt, còn một nguyên nhân gây ra sai sót cho nhận dạng nữa là nét viết bút chì rất mờ nhạt, ảnh chữ số khi quét vào hệ thống không đọc được hoặc các đường nét bị đứt đoạn. Rất nhiều tờ phiếu khi thực hiện kiểm tra đối chiếu lại với ảnh khơng thể nhìn thấy nét viết nào, thậm chí khi lục tìm phiếu giấy thì cũng đọc rất khó khăn, chỉ cố gắng phỏng đốn các chữ số. Vì những nguyên nhân trên, thời gian để người thực hiện kiểm tra số liệu cho một địa bàn khoảng trên 100 tờ phiếu lên đến 1-2 ngày.
Tóm lại việc thực hiện đầy đủ qui trình quét và nhận dạng phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc Ninh tuy gặp rất nhiều khó khăn, khơng thực hiện được với số lượng lớn nhưng đã đạt được kết quả kiểm tra được tồn bộ hệ thống, ứng dụng, chương trình đã thiết lập và xây dựng, xác định quy trình áp dụng công nghệ và rút ra những kinh nghiệm quý báu cho việc tiếp tục mở rộng thử nghiệm cho điều tra BĐDS 2007.
Dữ liệu của những địa bàn phiếu Bắc Ninh đã hoàn chỉnh khâu quét, nhận dạng, kiểm tra được chuyển đối thành tệp dữ liệu dạng text sử dụng các công cụ chức năng của phần mềm ReadSoft FORMS.
Tiếp theo, một chương trình được viết để kiểm tra sơ bộ và đưa dữ liệu về dạng có cấu trúc trùng khít với dữ liệu nhập tin điều tra BĐDS 2006. Sau đó, dữ liệu được dùng đúng chương trình kiểm tra logic viết cho hệ thống xử lý điều tra BĐDS 2006 chạy kiểm tra. Việc kiểm tra này để xác định rằng dữ liệu đầu ra của hệ thống ICR đảm bảo các yêu cầu về cấu trúc, logic,... giống như trong hệ thống xử lý cũ.
Tệp dữ liệu này được chạy chương trình so sánh với số liệu đã nhập tin in ra các khác biệt giữa hai loại số liệu và sau đó được đem so sánh với phiếu gốc để xác định. Qua cơng việc so sánh này, có thể khẳng định chất lượng số liệu