5. Hiệu chỉnh dữ liệu trong phần mềm ReadSoft Form 2
5.1. Mô đun hiệu chỉnh dữ liệu (Verify) trong phần mềm ReadSoft Form 5
Verify là công đoạn được thực hiện sau công đoạn nhận dạng dữ liệu từ các hình ảnh (Interpret). Đây là công đoạn thực hiện việc nhập dữ liệu không nhận dạng được, nhận dạng chưa chắc chắn và kiểm tra dữ liệu. Đây cũng là công đoạn tốn nhiều thời gian và nhân công nhất khi xử lý phiếu điều tra bằng công nghệ Scanning.
Người thực hiện Verify làm việc với từng Batch một (một Batch có thể là
một địa bàn tuỳ thuộc vào người thực hiện cơng đoạn Scan qui định). Người
Verify có thể gọi thực hiện, tạm dừng, kết thúc một Batch. Một Batch được gọi là hoàn thành khi tất cả các ký tự cần nhận dạng trên Batch đó đã được người thực hiện Verify chấp nhận.
Những ký tự (bao gồm cả chữ số và chữ cái) mà phần mềm không nhận dạng được sẽ được chuyển thành dấu (*) để người thực hiện Verify nhập lại. Những ký tự phần mềm nhận dạng khơng chắc chắn thì phần mềm tự gán một giá trị tạm thời nào đó, người thực hiện Verify phải kiểm tra và sửa lại giá trị này. Người thực hiện verify phải căn cứ vào file ảnh và giá trị nhận dạng hoặc bảng hỏi (trường hợp chữ viết q mờ khơng thể nhìn rõ trên ảnh thì dùng bảng hỏi giấy) để nhập lại giá trị chính xác. Phần mềm ReadSoft Form 5.2 cung cấp 2 chế độ verify: verify nhanh và verify thơng thường.
• Verify thơng thường (Normal verify mode)
Phần mềm ReadSoft Form 5.2 hiển thị hình ảnh từng trang của bảng hỏi (bất kể trang đó có kí tự khơng nhận dạng được hay nhận dạng được tất cả), người thực hiện verify có thể dùng con trỏ để xem giá trị thực sự phần mềm nhận
dạng được của bất kỳ câu hỏi nào trên trang phiếu. Trong một số trường hợp trên hình ảnh là một giá trị nhưng giá trị thực sự phần mềm nhận dạng được lại là một giá trị khác.
Thông báo những ký tự phần mềm không nhận dạng được và đã tự động chuyển thành dấu (*):
Thông báo những ký tự phần mềm nhận dạng chưa chắc chắn đúng:
Trong trường hợp định nghĩa trường của Form có qui định khoảng giá trị cụ thể cho trường, hoặc giá trị của trường phải nằm trong một bảng danh mục mà giá trị nhận dạng được nằm ngồi khoảng cho phép thì chương trình đưa ra thông báo số liệu sai so với định dạng (format error):
Khi định nghĩa giá trị của trường phải nằm trong một bảng danh mục mà người định nghĩa chọn thuộc tính hiển thị bảng danh mục khi Verify (“Show candidates in Verify”), nếu giá trị nhận dạng nằm ngồi bảng danh mục thì phần mềm sẽ hiển thị bảng danh mục theo dạng danh sách (List box) để người sử dụng chọn giá trị phù hợp từ bảng danh mục.
Khi cần thiết phải xem giá trị của một trường nào đó trong một trang bất kỳ của bảng hỏi, người thực hiện Verify có thể chuyển đến trang đó (“Go to Form”) để xem. Tuy nhiên, chức năng này của phần mềm ReadSoft Form 5.2 thực hiện chưa được ổn định (lúc thực hiện được lúc không).
Tất cả các thông báo trên người thực hiện Verify có thể gõ Enter hoặc chọn OK để bỏ qua mà không cần sửa giá trị. Vấn đề này rất nguy hiểm cho số liệu vì sau cơng đoạn Verify có thể vẫn cịn những kí tự không nhận dạng được, như vậy dữ liệu đầu ra sẽ khơng thể tổng hợp được.
• Verify nhanh (Fast verify mode)
Khác với Verify thông thường, Verify nhanh không cho phép thực hiện một số chức năng:
- Chỉ đưa ra thông báo đối với những kí tự phần mềm khơng nhận dạng được (những kí tự chuyển thành dấu (*)) để người thực hiện Verify sửa lại.
- Không xem được giá trị của những trường mà phần mềm công nhận là đã nhận dạng được.
- Không cho phép chuyển đến một trang bất kỳ của bảng hỏi.
Đối với những điều tra của Việt Nam thì khơng nên chọn Verify nhanh, vì người thực hiện Verify trong nhiều trường hợp phải sửa lỗi ngay trong q trình Verify. Ví dụ, giữa câu hỏi ngày tháng năm sinh và câu hỏi về tuổi, tính theo ngày tháng năm sinh thì được giá trị tuổi khác với giá trị tuổi mà điều tra viên ghi trên phiếu, khi đó người thực hiện Verify phải căn cứ vào nhiều câu hỏi khác như có phải đối tượng 15 tuổi trở lên hay khơng, có phải phụ nữ trong khoảng 15-49 tuổi hay không, để quyết định sửa số liệu theo một giá trị đúng là ngày tháng năm sinh hay tuổi.
5.2. Kiểm tra số liệu theo lô (Mass verify)
Sau khi người thực hiện Verify sửa xong tất cả các lỗi không nhận dạng được và nhận dạng không chắc chắn, phần mềm cung cấp chức năng kiểm tra số liệu theo từng lô. Phần mềm cho phép chọn bao nhiêu Form (thông thường một Form là 2 trang của một tờ phiếu) cho 1 lần kiểm tra. Những kí tự phần mềm nhận dạng được (trừ những ký tự không nhận dạng được và nhận dạng không chắc chắn đã được người thực hiện Verify sửa) của các Form trong lượt Mass verify sẽ hiển thị ở đây để người thực hiện Verify kiểm tra lại. Mass verify hiển thị số liệu theo dãy số từ 0 đến 9 và theo thứ tự từ a đến z.
Việc đặt bao nhiêu Form cho 1 lần kiểm tra số liệu theo lô tuỳ thuộc vào từng cuộc điều tra. Nhưng nếu đặt số Form ít thì số kí tự hiển thị trên màn hình cũng sẽ ít, nhiều khi không đủ trải theo dãy số từ 0 đến 9, người thực hiện Verify sẽ khó phát hiện ra kí tự nhận dạng sai.
Trong trường hợp phiếu ghi quá mờ, nhìn hình ảnh người thực hiện Verify không thể khẳng định được giá trị đúng, phải tìm lại phiếu giấy để nhập mà đặt
số Form cho 1 lơ q nhiều thì việc tìm đi tìm lại một tờ phiếu là có xảy ra, dẫn đến rất tốn thời gian và công sức.
Những kí tự phần mềm nhận dạng sai, người thực hiện Verify dùng con trỏ đánh dấu kí tự đó (đánh dấu nhầm có để đánh dấu lại), phần mềm sẽ chuyển con trỏ đến đúng vị trí của kí tự nhận dạng sai để người thực hiệnVerify sửa lại. Phần kiểm tra số liệu theo lơ địi hỏi người thực hiện phải quan sát thật kỹ, không bỏ sót những kí tự nhận dạng sai. Hiện tại nhóm nghiên cứu chưa tìm thấy chức năng của phần mềm cho phép quay lại Mass verify khi phát hiện ra cịn kí tự nhận dạng sai chưa được đánh dấu.
Ví dụ, hình trên thể hiện phần mềm đã nhận dạng sai số 9 thành số 4.
Như vậy, phần mềm ReadSoft Form 5.2 đã cho phép người thực hiện verify kiểm tra và sửa chữa tất cả các giá trị theo thứ tự từ không nhận dạng được, nhận dạng không chắc chắn, sai định dạng so với định nghĩa trường đến giá trị được coi là nhận dạng chuẩn của từng lô phiếu. Cụ thể qua các bước sau:
- Kiểm tra và sửa các giá trị không nhận dạng được, nhận dạng chưa chắc chắn;
- Kiểm tra và sửa các giá trị sai so với định nghĩa trường;
- Kiểm tra và sửa các giá trị phần mềm công nhận là nhận dạng được (Mass verify).