Mặt khác, phần mềm chấm thi trắc nghiệm xuất dữ liệu dạng *.doc, *.xls, *.txt, *.rtf trong khi đó nội dung của các bảng hỏi/khảo sát đều có câu hỏi mở đòi hỏi người làm công tác chuyên m
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NĂM 2009
Tên đề tài:
“NGHIÊN CỨU QUY TRÌNH NHẬN DẠNG VÀ CHUYỂN ĐỔI DỮ LIỆU PHỤC VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG TÁC ĐẢM BẢO CHẤT LƯỢNG: TRIỂN VỌNG CỦA VIỆC ỨNG DỤNG QUY TRÌNH TẠI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN, ĐẠI HỌC QUỐC GIA TP HỒ
CHÍ MINH”
Chủ nhiệm đề tài: CN Lê Thị Hà Giang Thành viên tham gia đề tài:
CN Nguyễn Thị Thi Thu
CN Huỳnh Tuấn Khanh
CN Nguyễn Vũ Hoàng Anh
Thành phố Hồ Chí Minh, tháng 4 năm 2010
Trang 2MỤC LỤC
DẪN LUẬN 1
CHƯƠNG 1 5
NHỮNG TIỀN ĐỀ LÝ LUẬN VÀ TỔNG QUAN 5
TÌNH HÌNH NGHIÊN CỨU 5
1.1 Các thuật ngữ và khái niệm làm cơ sở lý luận cho đề tài nghiên cứu 5
1.2 Tổng quan các phần mềm liên quan đến đề tài nghiên cứu 7
CHƯƠNG 2 10
QUY TRÌNH KẾT HỢP 10
PHẦN MỀM MCSCANNER VÀ PHẦN MỀM SPSS 10
2.1 Giới thiệu phần mềm McScanner và phần mềm SPSS được sử dụng trong quy trình nhận dạng và chuyển đổi dữ liệu 10
2.2 Quy trình kết hợp giữa chương trình nhận dạng của McScanner và chương trình xử lý số liệu SPSS để nhận dạng và chuyển đổi dữ liệu: 15
2.3 Ứng dụng phần mềm McScanner vào việc nhận dạng bảng điểm của Trường đại học Khoa học xã hội và Nhân văn 45
2.4 Triển vọng của việc ứng dụng quy trình nhận dạng tại Trường đại học Khoa học xã hội và Nhân văn 51
PHẦN KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 56
PHỤ LỤC 57
Trang 3DẪN LUẬN
1 Lý do – mục đích nghiên cứu:
Thực hiện công tác đảm bảo chất lượng tại Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia thành phố Hồ Chí Minh (ĐH KHXH&NV, ĐHQG-HCM), hàng năm Phòng Khảo thí và Đảm bảo chất lượng (KT&ĐBCL) phải nhập và xử lý số liệu với số lượng trên 20.000 phiếu cho nhiều mẫu phiếu khảo sát khác nhau như phiếu khảo sát môn học, phiếu đánh giá toàn khóa học, phiếu nhận xét giờ giảng, phiếu khảo sát cựu sinh viên, hầu như các phiếu này đều có hơn 2/3 số câu hỏi đóng có thể sử dụng phần mềm quét, nhận dạng thay thế cho phương pháp nhập liệu thủ công Số lượng phiếu lớn, nếu nhập liệu theo phương pháp thủ công sẽ tốn nhiều thời gian và dễ sai sót, do đó đòi hỏi Trường phải có phần mềm thay thế công đoạn nhập liệu thủ công giúp nhập liệu nhanh chóng và chính xác hơn
Phòng KT&ĐBCL đã tìm hiểu thông tin và đề xuất Trường cho phép mua phần mềm chấm thi trắc nghiệm để ứng dụng vào việc thay thế quá trình nhập liệu thủ công nói trên Tuy nhiên, để ứng dụng được phần mềm chấm thi trắc nghiệm thay thế cho công đoạn nhập liệu nói trên cần có quá trình tìm hiểu, nghiên cứu kỹ mới ứng dụng được, đây là lý do thứ nhất để Nhóm nghiên cứu thực hiện đề tài này Mặt khác, phần mềm chấm thi trắc nghiệm xuất dữ liệu dạng *.doc, *.xls, *.txt, *.rtf trong khi đó nội dung của các bảng hỏi/khảo sát đều có câu hỏi mở đòi hỏi người làm công tác chuyên môn phải tìm kiếm phương thức kết hợp các phần mềm để xử lý được cả câu hỏi mở và câu hỏi đóng, đây là lý do thứ hai để Nhóm nghiên cứu thực hiện đề tài Lý do thứ ba để Nhóm nghiên cứu thực hiện đề tài này là việc nhập điểm của Trường hiện nay vẫn thực hiện theo phương pháp thủ công, trong khi đó nếu phần mềm này có thể ứng dụng được vào việc nhận dạng bảng điểm và xuất dữ liệu để thay thế công việc nói trên và sẽ mang lại lợi ích cho Nhà trường Trên đây là ba lý do mà Nhóm nghiên cứu chúng tôi thực hiện đề tài “Nghiên cứu quy trình nhận dạng và chuyển đổi dữ liệu phục vụ nghiên cứu khoa học và công tác đảm bảo chất lượng: Triển vọng của việc ứng dụng quy trình tại Trường Đại học Khoa học Xã hội và Nhân văn, đại học Quốc gia thành phố Hồ Chí Minh ”
Trang 42 Mục tiêu của đề tài:
Trước hết nhóm nghiên cứu khẳng định đây là công trình mang tính nghiên cứu ứng dụng, trên cơ sở tìm hiểu hai phần mềm có sẵn McScanner và SPSS để tìm ra những lợi ích khi kết hợp hai phần mềm này nhằm phục vụ công tác nghiên cứu khoa học và công tác đảm bảo chất lượng, cụ thể là:
- Dựa trên quy trình kết hợp này để xác lập cơ sở của việc nhập dữ liệu và xử lý số liệu một cách nhanh chóng, chính xác, với độ tin cậy cao cho: (1) công tác khảo sát ý kiến của người học đối với tất cả các môn học trong chương trình đào tạo theo định kỳ hàng năm; (2) các loại bảng hỏi sử dụng trong các luận văn, luận án, đề tài nghiên cứu khoa học, dự án …
- Ứng dụng máy móc và thiết bị phần mềm nhận dạng sẵn có để thực nghiệm việc thiết
kế mẫu bảng điểm, nhận dạng và xuất dữ liệu nhằm hướng tới việc thay thế công việc nhập điểm thủ công vốn mất nhiều thời gian và dễ sai sót tại Trường ĐH KHXH&NV, ĐHQG-HCM
- Triển vọng của việc ứng dụng kết quả nghiên cứu này tại Trường ĐH KHXH&NV, ĐHQG-HCM
3 Ý nghĩa khoa học và thực tiễn:
- Thực hiện đề tài nghiên cứu nhằm công bố cơ sở khoa học và hiệu quả của quy trình nhận dạng và chuyển đổi dữ liệu đến cán bộ, giảng viên, học viên, sinh viên Trường ĐH KHXH&NV, ĐHQG-HCM
- Kết quả này, trước hết phục vụ công tác đảm bản chất lượng của Trường đặc biệt là công tác lấy ý kiến phản hồi của các bên có liê quan và hướng đến thành lập bộ phận dịch vụ nhập liệu và xử lý số liệu cho công tác nghiên cứu khoa học, công tác đảm bảo chất lượng, công tác nghiên cứu thị trường, công tác điều tra thăm dò dư luận xã hội, … nhằm cung ứng cho nhu cầu xã hội
4 Phương pháp nghiên cứu:
Có 3 phương pháp được sử dụng trong công trình này là phương pháp luận thống
kê, phương pháp ước lượng mô hình và phương pháp nghiên cứu định tính
Phương pháp luận thống kê trong công trình nghiên cứu này được hiểu là việc
sử dụng các công cụ toán học để tính toán so sánh sự chênh lệch giữa dữ liệu nhập thủ
Trang 5công và dữ liệu được xuất từ phần mềm nhận dạng, và chứng minh tính khả thi của phần mềm nhận dạng
Phương pháp ước lượng mô hình được hiểu là mô hình được thiết lập với dữ liệu phù hợp đã được thu thập, nhiệm vụ chủ yếu của Nhóm nghiên cứu là ước lượng những thông số chưa biết của mô hình Trong nghiên cứu này là thay đổi một vài thông số kỹ thuật trong thiết kế mẫu và ước lượng các thông số như độ tương phản, độ phân biệt để tìm được mô hình thích hợp với sai số của trị trung bình và phương sai là nhỏ nhất của phân bố xác suất Phương trình ước lượng sau đó sẽ được sử dụng để kiểm định các giả thuyết, khi các biến số được xác định và chúng ta đánh giá được tác động cụ thể của mô hình Tuy nhiên, các phương trình, công thức của mô hình trong công trình nghiên cứu này, đã được viết sẵn trong phần mềm do đó Nhóm nghiên cứu chỉ cần hiểu mô hình, tìm và điều chỉnh các thông số kỹ thuật trong thiết kế mẫu và chỉnh được các thông số thích hợp để đạt mục đích là nhận dạng mẫu phiếu và xuất được dữ liệu sao cho độ tin cậy cao nhất
Phương pháp nghiên cứu định tính được sử dụng trong nghiên cứu này với công
cụ phỏng vấn sâu bán cơ cấu được sử dụng để xem xét tính khả thi của việc ứng dụng kết quả của đề tài
5 Mô tả các bước thực hiện nghiên cứu:
Thiết kế mẫu phiếu và bảng điểm theo yêu cầu (thiết kế trên file word); quét mẫu phiếu (quét bằng máy scaner theo các thông số kỹ thuật mà phần mềm McScanner yêu cầu); định nghĩa mẫu (định nghĩa dựa trên công cụ của phần mềm McScanner); thực hiện quét nhận dạng; phân tích kết quả nhận dạng (thay đổi độ tương phản, độ phân biệt); so sánh kết quả nhận dạng với kết quả nhập thủ công; chuyển đổi dữ liệu vào SPSS; lặp lại quy trình thực hiện với số lượng phiếu lớn; phân tích rút ra kết luận cho từng công đoạn; lặp lại quy trình cho nhiều mẫu phiếu khác nhau; tính toán hiệu quả so với phương pháp nhập liệu thủ công; ứng dụng thực tế; thăm dò dư luận để tìm hiểu triển vọng của việc ứng dụng (thăm dò dư luận bằng cách chọn thuận tiện 9 cán
bộ/giảng viên và chia thành 3 nhóm đối tượng để thực hiện phỏng vấn, nhóm thứ nhất chọn 5 cán bộ/giảng viên, gồm 3 người ở trong Trường ĐH KHXH&NV, ĐHQG-HCM
và 2 cán bộ ở ngoài trường đã từng tham gia nghiên cứu khoa học có khảo sát bằng bảng hỏi, nhóm thứ hai chọn 2 giảng viên thường xuyên chấm và vào điểm với số lượng
Trang 6lớn, nhóm thứ ba chọn 1 chuyên viên của Phòng KT&ĐBCL và 1 chuyên viên của Phòng Đào tạo để hỏi về tiện ích cũng như những khó khăn khi thực hiện chức năng quét và nhận dạng bảng điểm)
Trang 7CHƯƠNG 1: NHỮNG TIỀN ĐỀ LÝ LUẬN VÀ TỔNG QUAN
TÌNH HÌNH NGHIÊN CỨU
1.1 Các thuật ngữ và khái niệm làm cơ sở lý luận cho đề tài nghiên cứu
Nhận dạng mẫu:1 (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning) Nói cách khác, nó có thể được xem là việc "cần thực hiện một tác
động vào dữ liệu thô mà tác động cụ thể là gì sẽ tùy vào loại của dữ liệu đó" Như vậy
nó là một tập các phương pháp học có giám sát (supervised learning)
Nhận dạng mẫu nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori) hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp Đó là không gian của các đặc tính để dựa vào đó ta có thể phân loại
Một hệ thống nhận dạng mẫu hoàn thiện gồm một thiết bị cảm nhận (sensor) để thu thập các quan sát cần cho việc phân loại hay mô tả; một cơ chế trích rút đặc trưng
(feature extraction) để tính toán các thông tin dưới dạng số hay dạng tượng trưng (symbolic) từ các dữ liệu quan sát được; và một bộ phân loại (hay lược đồ mô tả) nhằm
thực hiện công việc phân loại thực sự (hay mô tả các quan sát đó) dựa vào các đặc tính
đã được trích rút
Việc phân loại (hay lược đồ mô tả) thường dựa vào sự có sẵn của một tập các mẫu đã được phân loại (hay mô tả) sẵn Tập các mẫu này được gọi là tập huấn luyện và chiến lược học nhằm phân loại mẫu vào một trong các lớp có sẵn được gọi là học có giám sát Việc học cũng có thể là không có giám sát, theo nghĩa là hệ thống không được
cung cấp các mẫu được đánh nhãn (phân loại) tiên nghiệm, mà nó phải tự đưa ra các lớp
để phân loại dựa vào tính ổn định trong thống kê của các mẫu
Việc phân loại (hay lược đồ mô tả) thường dùng một trong các hướng tiếp cận sau: thống kê (hay lí thuyết quyết định), cú pháp (hay cấu trúc) Nhận dạng mẫu dùng thống kê là dựa vào các đặc tính thống kê của các mẫu, chẳng hạn rằng các mẫu được
Trang 8
tạo bởi một hệ thống xác suất Nhận dạng dùng cấu trúc là dựa vào tương quan cấu trúc giữa các mẫu
Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người
Chương trình nhận dạng2: là chương trình dùng để đọc các file ảnh – xuất ra từ máy scanner (máy quét) và chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt,
*.rtf giúp người sử dụng không phải gõ/nhập lại tài liệu , vào máy
Quét ảnh3: là khâu ảnh hưởng nhiều tới độ chính xác trong quá trình nhận dạng Một văn bản rõ ràng được quét với độ sáng tối không thích hợp, như cho sáng quá thì chữ sẽ mất nét, tối quá thì chữ sẽ đậm, dễ dính nhau, dễ bị chương trình nhận dạng hiểu lầm là ảnh; hoặc đặt nghiêng trang văn bản khi quét sẽ ảnh hưởng tới độ chính xác của quá trình nhận dạng Đối với các trang văn bản chất lượng kém, nếu được quét với độ sáng tối thích hợp, cùng với sự hỗ trợ xử lý ảnh như: xóa nhiễu, làm dày hoặc mảnh nét, xác định độ nghiêng , chất lượng nhận dạng sẽ được cải thiện rất nhiều
Độ tương phản4: (contrast) là tỉ lệ giữa điểm tối và sáng nhất tại một thời điểm xác định
Độ phân biệt5: phần trăm (%) phân biệt giữa ô tô đậm nhất và ô tô đậm thứ hai trong cùng một đối tượng Nếu độ phân biệt của một ô lớn hơn giá trị này thì được xem
là có phân biệt và ngược lại là không phân biệt (double)
Mean (trung bình) 6: là một đại lượng mô tả thống kê, được tính bằng cách lấy tổng giá trị của toàn bộ các quan sát trong tổng thể chia cho số lượng các quan sát trong tổng thể đó
Std Error (SE)7: là sai số chuẩn khi dùng trung bình mẫu để ước lượng trung bình tổng thể
Trang 9Std Deviation (SD)8: độ lệch chuẩn – cho biết mức độ phân tán của các giá trị của biến quanh giá trị trung bình
Vùng dữ liệu9: còn gọi là field, là khu vực cần lấy dữ liệu trên mẫu phiếu, nếu sử dụng chấm trắc nghiệm thì các field số báo danh, field mã đề, field bài làm 1, field bài làm 2,…nếu sử dụng để nhận dạng bảng hỏi thì một vùng dữ liệu là một dòng giá trị trả lời
Định nghĩa mẫu10: là việc định nghĩa một form phiếu và lưu thành tập tin chuẩn
để so sánh với các mẫu phiếu khác khi nhận dạng Thư mục mẫu chứa thông tin về các field cần lấy dữ liệu
1.2 Tổng quan các phần mềm liên quan đến đề tài nghiên cứu
Trong xu hướng hiện nay, việc nghiên cứu ứng dụng các phần mềm thuộc lĩnh vực công nghệ thông tin để thay thế công đoạn nhập liệu thủ công phục vụ cho các công trình nghiên cứu thuộc lĩnh vực khoa học xã hội còn hạn chế, các đề tài liên quan chủ yếu nghiên cứu tạo ra các phần mềm mà không đi sâu nghiên cứu các ứng dụng của nó hoặc chỉ dừng lại ở dạng ứng dụng thống kê mà ít có nghiên cứu dạng kết hợp
1.2.1 Sơ lược các phần mềm nhận dạng có thể ứng dụng cho việc thay thế công đoạn nhập liệu thủ công cho các loại bảng hỏi và phiếu điểm
Các công trình nghiên cứu công bố phần mềm có liên quan đến đề tài là:
- Phần mềm MRTEST:
Phần mềm MRTEST của nhóm nghiên cứu do ông Đào Tiến Quốc chủ trì thuộc Trung tâm phát triển công nghệ phần mềm, Trường đại học Công Nghệ, Đại học Quốc gia Hà Nội đã đạt giải nhất tại cuộc thi “Nhân Tài Đất Việt” Đây là phần mềm tự động hoá rất cao ở toàn bộ các khâu: Quản trị ngân hàng câu hỏi; Quản trị thí sinh; Làm đề tự động (bao gồm ra đề với nhiều chế độ khác nhau và barem); Làm phiếu thi; Lập danh sách thí sinh và phòng thi; Quét và nhận dạng bài thi; Chấm thi; Xử lý các bài thi có sự cố; Xuất kết quả; Phân tích, đánh giá, … so với nhu cầu sử dụng của Trường ĐH
7
Phân Tích Dữ Liệu Nghiên Cứu Với SPSS, Tập 1, tác giả , Hoàng Trọng - Chu Nguyễn Mộng Ngọc , 9/2008, NXB, Hồng Đức
Trang 10KHXH&NV, ĐHQG-HCM, phần mềm này chưa đáp ứng được vì chỉ dừng lại ở chỗ nhận dạng form giấy trên một mặt
- Phần mềm EMR (Easy Mark Reading):
Vào tháng 6 năm 2007 công ty Pyramid đã công bố chương trình chấm bài thi trắc nghiệm bằng phương pháp nhận dạng, đặc biệt, phần mềm này có thể lưu lại vết chấm với tốc độ 90.000 bài/giờ trên máy tính có cấu hình bình thường, có tốc độ xử lý làm kinh ngạc tất cả các chuyên gia về xử lý ảnh và nhận dạng bài thi trắc nghiệm Tuy nhiên, tương tự như hạn chế của phần mềm MRTEST phần mềm này cũng nhận dạng trên một mặt giấy
- Phần mềm MarkREAD:
Phần mềm MarkREAD của nhóm nghiên cứu do Tiến sĩ Đỗ Năng Toàn chủ trì thuộc Viện Công nghệ thông tin Hà Nội, đây là phần mềm đã đạt giải thưởng kỹ thuật thanh niên năm 2002 do Trung tâm Khoa học tự nhiên và Công nghệ quốc gia và Trung Ương Đoàn tổ chức Phần mềm này hỗ trợ nhập và xử lý dữ liệu tự động bằng cách nhận dạng và xử lý các phiếu điều tra, bài thi, chứa các ô đánh dấu trong hình chữ nhật, hình tròn hoặc hình e-lip, được quét bằng máy quét (scanner) và lưu dưới dạng file ảnh (ở hầu hết các định dạng thông thường như TIF, GIF, PCX, BMP, JPG ) nhiều trang, tương ứng mỗi trang là một phiếu Bên cạnh đó, MarkREAD còn cung cấp một công cụ đi kèm cho phép người dùng có thể kết xuất dữ liệu trực tiếp ra các dạng thông tin cần thiết Chẳng hạn như đầu vào là các bài thi trắc nghiệm bằng giấy, đầu ra là bảng điểm; hay đầu vào là các phiếu bầu cử, đầu ra là danh sách và số phiếu bầu cử của từng cá nhân tốc độ xử lý của phần mềm là 1.000 bài/1giờ Xét thấy, phần mềm này vẫn chưa thể đáp ứng được nhu cầu của Trường ĐHKHXH&NV, ĐHQG-HCM là nhận dạng phiếu khảo sát có nhiều tờ và mỗi tờ có hai mặt giấy, nhưng phần mềm nhận này tuy nhận dạng được nhiều trang và mỗi trang tương ứng với một phiếu
Những hạn chế của các phần mềm nêu trên cũng là lý do để Nhà trường chọn phần mềm McScanner Tiện ích của McScanner vượt trội hơn nhưng cũng chỉ đáp ứng được phần thay thế quá trình nhập liệu thủ công của các câu hỏi đóng, phần xử lý cho câu hỏi mở lại cần một phần mềm hỗ trợ khác
1.2.2 Sơ lược các phần mềm phục vụ việc xử lý số liệu trong nghiên cứu các lĩnh vực khoa học xã hội
Trang 11Có nhiều công trình nghiên cứu để tạo ra các phần mềm khác nhau được ứng dụng rộng rãi trong xã hội chủ yếu liên quan đến khoa học kỹ thuật, khoa học công nghệ và các ngành khoa học tự nhiên; trên thế giới hiện có 3 phần mềm có thể sử dụng trong nghiên cứu các lĩnh vực khoa học xã hội, đó là SPSS, Eviews và Nvivo, trong đó Eviews phục vụ việc xử lý số liệu trong nghiên cứu định lượng cụ thể là : phân tích dữ liệu trong kinh tế lượng và trong thống kê dự báo, cho phép nhập liệu dạng số; Nvivo phục vụ chủ yếu trong nghiên cứu định tính nhập liệu dạng chuỗi, câu, dạng ký tự; và SPSS ứng dụng được cho cả nghiên cứu định tính và định lượng nhập liệu được cả dạng
số và chuỗi, câu, ký tự Theo phạm trù của đề tài, Nhóm nghiên cứu chỉ giới thiệu sơ lược 3 phần mềm này Phần lý giải vì sao Nhóm nghiên cứu chọn 2 phần mềm
McScanner và SPSS để nghiên cứu quy trình nhận dạng và chuyển đổi dữ liệu phục vụ nghiên cứu khoa học và công tác đảm bảo chất lượng tại Trường ĐH KHXH&NV sẽ được trình bày cụ thể trong chương 2
Trang 12CHƯƠNG 2 : QUY TRÌNH KẾT HỢP PHẦN MỀM MCSCANNER
VÀ PHẦN MỀM SPSS
2.1 Giới thiệu phần mềm McScanner và phần mềm SPSS được sử dụng trong quy trình nhận dạng và chuyển đổi dữ liệu
2.1.1 Giới thiệu phần mềm McScanner
Vào tháng 3 năm 2006 công ty phần mềm Anh Quân đã công bố nghiên cứu thành công phần mềm McScanner
McScanner là phần mềm nằm trong hệ thống phần mềm “Quản lý, xử lý và đánh giá” quá trình thi trắc nghiệm khách quan (gọi tắt là McTEST) được cài đặt độc lập
McTEST gồm 4 sản phẩm liên quan nhau có thể cài đặt độc lập được sử dụng để giúp cho việc quản lý, xử lý và đánh giá toàn bộ quá trình của một kỳ thi trắc nghiệm đạt được các mục đích quan trọng như: tăng tính khách quan, giảm thiểu sai sót do chấm thi thủ công, an toàn dữ liệu, chính xác, kịp thời và hiệu quả,…
McBANK Quản lý ngân hàng câu hỏi trắc nghiệm
McScanner Nhận dạng bài thi trắc nghiệm
McEXAM Xử lý bài thi trắc nghiệm
McSCORE Chấm bài thi trắc nghiệm
Trong đó McScanner là phần mềm nhận dạng bài thi trắc nghiệm dùng để đọc các file bài thi của thí sinh (file ảnh – xuất ra từ máy scanner) và xuất ra file text, mỗi bài thi của thí sinh sẽ được dịch ra một dòng trên file text
McScanner còn có khả năng:
Trang 13- “Tự học” một form tuỳ ý tự định nghĩa (không nhất thiết phải là bài thi);
- Xử lý phiếu khảo sát có nhiều trang (thay vì một trang)
McScanner còn có thể dùng cho nhiều ứng dụng khác có tính chất tương tự Ví dụ như:
- Scan các phiếu đăng ký môn học;
- Scan các bảng điểm thi học kỳ (nếu điểm thi được tô thay vì ghi số);
- Scan hồ sơ sinh viên (nếu hồ sơ được tô thay vì ghi);
- Scan các bảng điều tra, phỏng vấn dạng điền vào các ô tròn;
-…
Hiện nay, phần mềm McScanner được sử dụng trong toàn quốc với gần 100 đơn vị từ cấp Bộ, cấp Sở đến cấp Trường học
2.1.2 Giới thiệu phần mềm SPSS
Vào năm 1968 ba tác giả Norman H Nie, C Hadlai (Tex) Hull and Dale H Bent
đã nghiên cứu thành công chương trình xử lý số liệu SPSS dựa trên ý tưởng của việc sử dụng thống kê, đưa số liệu thành những thông tin cần thiết, cho phép phân tích dữ liệu với phần mềm thống kê toàn diện giải pháp kinh doanh và nghiên cứu SPSS (Statistical Package for Social Sciences) là phần mềm xử lý thống kê dùng trong các ngành khoa học xã hội, được phát triển dựa trên phần mềm của Apache Software Foundation11 Phần mềm này được thiết kế để quản lý các file định dạng khác nhau, bao gồm:
Các bảng tính worksheet được lập trong Excel hoặc Lotus
Cơ sở dữ liệu được lập dưới định dạng dBASE và SQL
Các file dạng text ASCII với kiểu Tab-deliminated
Các file trong định dạng SPSS được lập trong các hệ điều hành khác
Các file dữ liệu SYSTAT
SPSS for Windows cung cấp một hệ thống quản lý dữ liệu và phân tích thống kê trong một môi trường đồ hoạ, sử dụng các trình đơn mô tả {menu} và các hộp thoại {dialogue box} đơn giản Bên cạnh các file được lưu dưới định dạng của SPSS, chúng
ta có thể mở các file có định dạng của Excel, Lotus, dBASE, tab-deliminated mà không
Trang 14cần phải chuyển đổi chúng sang một định dạng trung gian hoặc nhập các thông tin định nghĩa dữ liệu
SPSS for Windows cung cấp:
Data Editor (cửa sổ hiệu đính dữ liệu): Một hệ thống dạng bảng tính (worksheet) uyển chuyển để định nghĩa, nhập, hiệu đính, và thể hiện dữ liệu
Viewer (cửa sổ Viewer): Cửa sổ Viewer cho phép dễ dàng duyệt các kết quả, thể hiện và che giấu có thể chọn lọc các kết xuất (output), thay đổi trật tự của các kết quả,
và di chuyển các bảng và đồ thị giữa SPSS for Windows và các chương trình ứng dụng khác
Multidimemtion pivot table (Bảng trụ đa chiều): Các kết quả từ các bảng biểu sẽ sinh động với các bảng trụ đa chiều; khám phá các bảng của bạn bằng cách bố trí lại các hàng, các cột, và các trang/lớp (layer); bộc lộ các phát hiện quan trọng có thể bị mất trong các báo cáo tiêu chuẩn; so sánh các nhóm dễ dàng bằng cách chia tách bảng của bạn sao cho mỗi lần chỉ có một nhóm được thể hiện
High-revolution graphics (đồ thị có độ phân giải/độ nét cao): Các biểu đồ hình tròn, đồ thị cột, biểu đồ tần suất, đồ thị phân tán có độ phân giải cao, màu sắc sống động, các đồ thị ba chiều, và hơn thế nữa được bao gồm như là các tính năng chuẩn trong SPSS
Database access (truy cập dữ liệu): Truy cập dữ liệu từ các cơ sở dữ liệu bằng cách sử dụng chương trình chỉ dẫn Database Wizard thay vì các truy vấn SQL phức tạp
Data transformation (biến đổi dữ liệu): Tính năng biến đổi dữ liệu giúp bạn có được dữ liệu sẵn sàng cho các bước phân tích Bạn có thể dễ dàng nhóm, bổ sung, tổng hợp, trộn, chia và chuyển đổi file, và còn hơn thế nữa
Một số loại cửa sổ trong SPSS cung cấp các chức năng khác nhau như:
Trang 15Data Editor: Cửa sổ này thể hiện nội dung của file dữ liệu Bạn có thể lập một file dữ liệu mới hoặc hiệu chỉnh thay đổi một file đã có sẵn với cửa sổ Data Editor Cửa
sổ Data Editor tự động mở ra khi bạn kích hoạt/khởi động SPSS
Viewer: Mọi kết quả thống kê, bảng, biểu đồ được thể hiện trong cửa sổ Viewer Bạn có thể hiệu đính kết xuất và lưu nó để sử dụng sau này Một cửa sổ Viewer tự động
mở ra khi bạn chạy một thủ tục đầu tiên tạo nên kết xuất
Draft Viewer: Bạn có thể trình bày kết xuất như là các văn bản bình thường (thay
vì các bảng trụ) trong cửa sổ Draft Viewer
Pivot Table Editor: Kết xuất được trình bày trong các bảng trụ có thể được chỉnh sửa bằng nhiều cách với cửa sổ Pivot Table Editor Bạn có thể hiệu đính đoạn văn bản, chuyển đổi dữ liệu giữa hàng và cột, bổ sung màu, tạo các bảng đa chiều và ẩn hoặc hiển thị một cách có chọn lọc các kết quả
Chart Editor: Bạn có thể chỉnh sửa các đồ thị chất lượng cao trong các cửa sổ chart editor Bạn có thể thay đổi màu, chọn loại phông hoặc cỡ chữ, chuyển đổi trục tung với trục hoành, xoay các đồ thị ba chiều, và thậm chí thay cả loại đồ thị
Text Output Editor: Các kết xuất dạng văn bản không được thể hiện trong các bảng trụ có thể được chỉnh sửa với cửa sổ Text Output Editor Bạn có thể hiệu đính kết xuất và thay các thuộc tính của phông chữ (dạng, loại, màu, cỡ)
Syntax Editor: Bạn có thể dán các lựa chọn trong các hộp thoại vào một cửa sổ syntax, nơi mà các lựa chọn của bạn xuất hiện dưới dạng các cú pháp lệnh Bạn có thể
hiệu đính các cú pháp lệnh để tận dụng các đặc tính đặc biệt của SPSS không có sẵn
trong các hộp thoại Bạn cũng có thể lưu các mã lệnh này trong một file để sử dụng cho
những công việc tiếp theo của SPSS
Script Editor: Kỹ thuật tự động OLE cho phép bạn tuỳ biến và tự động hoá nhiều
nhiệm vụ trong SPSS Sử dụng cửa sổ Script Editor để lập và hiệu đính các trình nhỏ cơ
Trang 16là có sẵn đối với mọi loại cửa sổ, làm cho việc tạo các kết xuất mới rất nhanh chóng mà không phải chuyển đổi giữa các cửa sổ
Thanh công cụ (toolbars): Từng cửa sổ SPSS có các thanh công cụ riêng của nó cho phép truy cập nhanh đến các nhiệm vụ thông dụng Có một số cửa sổ có hơn một thanh công cụ
Thanh tình trạng (status Bar): Nằm ở đáy của từng cửa sổ SPSS cung cấp các thông tin dưới đây:
Command status (tình trạng lệnh): Đối với từng lệnh hoặc thủ tục mà bạn chạy, một số đếm các đối tượng/trường hợp {case} chỉ ra số lượng các đối tượng được xử lý Đối với các thủ tục đòi hỏi phải xử lý lặp, số lần lặp được thể hiện
Filter status (tình trạng lọc): Nếu bạn chọn một mẫu ngẫu nhiên hoặc một tập hợp phụ các đối tượng để phân tích, thông tin Filter on chỉ ra rằng một vài nhóm đối tượng nào đó đang được lọc và không phải mọi đối tượng trong tệp tin dữ liệu được đưa vào phân tích
Weight status (tình trạng gia quyền): Thông tin Weight on chỉ ra rằng một biến gia quyền đang được sử dụng để gia quyền các đối tượng cho phân tích
Split status (tình trạng chia tách): Thông tin Split on chỉ ra rằng file dữ liệu đang được chia tách thành một số nhóm để phân tích, được dựa vào các trị số của một hoặc một số biến lập nhóm/phân tổ
Dialogue box (Hộp thoại): Hầu hết các lựa chọn menu mở ra các hộp thoại Bạn
sử dụng hộp thoại để lựa chọn các biến và các tuỳ chọn cho phân tích Từng hộp thoại chính cho các thủ tục thống kê và đồ thị có một số các bộ phận cơ bản
Danh sách biến nguồn: Một danh sách các biến trong file dữ liệu làm việc, chỉ có các loại biến được phép bởi các thủ tục được chọn mới được thể hiện trong danh sách nguồn Việc định dạng các biến chuỗi dạng ngắn hay dài bị hạn chế bởi rất nhiều thủ tục
Danh sách (hoặc các danh sách) biến đích: Một hoặc một vài danh sách thể hiện các biến bạn vừa chọn cho phân tích, chẳng hạn như danh sách biến độc lập và phụ thuộc
Trang 17Nút ấn điều khiển (Command pushbutton): Các nút chỉ dẫn chương trình thực hiện một tác vụ, chẳng hạn như chạy một thủ tục, thể hiện phần thông tin trợ giúp, hoặc
mở ra một hộp thoại con để tiến hành các lựa chọn cụ thể bổ sung
Như vậy SPSS cung cấp một quy trình phân tích toàn diện, khả năng rõ ràng, với SPSS chúng ta có thể đưa ra thông tin về việc thực hiện quyết định một cách nhanh chóng bằng việc sử dụng thống kê có tác động hiểu và hiển thị những kết quả một cách
có hiệu quả, kết quả được xếp thành bảng biểu và hệ giao tiếp đồ họa chất lượng cao Chúng ta có thể sử dụng SPSS trong nhiều lĩnh vực khác nhau bao gồm: nghiên cứu thị trường và hướng vào việc tiếp thị, nghiên cứu các lĩnh vực thuộc về hành chính, nguồn lực con người và hoạch định nguồn tài nguyên, nghiên cứu lĩnh vực khoa học xã hội và
y học, hoạch định những kế hoạch và dự báo, cải thiện chất lượng phát triển những công trình phân tích ứng dụng Từ phiên bản đầu tiên tính đến nay trên thị trường đã có phiên bản SPSS 17.0
2.2 Quy trình kết hợp giữa chương trình nhận dạng của McScanner và chương trình xử lý số liệu SPSS để nhận dạng và chuyển đổi dữ liệu:
2.2.1 Quy trình nhận dạng McScanner đối với việc nhận dạng các loại bảng hỏi, phiếu khảo sát 12
Công đoạn nhập liệu cho các loại phiếu được thực hiện trên giấy của các cuộc khảo sát thị trường, khảo sát chất lượng giảng dạy, điều tra xã hội, tiêu tốn khá nhiều thời gian và công sức Làm thế nào để bớt được gánh nặng này, đồng thời hạn chế sự can thiệp của con người để đảm bảo được độ chính xác, tính khách quan và nhanh chóng? Phần mềm nhận dạng McScanner giúp thay thế công việc thủ công nói trên bằng cách → Scan phiếu mẫu bằng máy quét ảnh chuyên dùng → Lưu file phiếu mẫu vào một thư mục lưu các phiếu mẫu → Scan các phiếu bằng máy quét ảnh chuyên dùng
→ Lưu các file phiếu vào một hoặc nhiều thư mục trên máy tính → Tạo thư mục chuẩn
bị lưu kết quả → Dùng McScanner định nghĩa tập tin mẫu → Dùng McScanner tiến hành chuyển các phiếu dạng ảnh sang file Excel
12
Các loại bảng hỏi, phiếu khảo sát là cách gọi khác nhau phục vụ yêu cầu khác nhau, tuy nhiên để tạo thuận lợi
Trang 182.2.1.1 Các lần thử nghiệm
Công tác khảo sát môn học, thực chất là công việc chuyên môn của Phòng KT&ĐBCL vốn tốn rất nhiều thời gian và công sức, để hạn chế khối lượng công việc Phòng đã thử nghiệm ứng dụng phần mềm chuyên dụng dùng chấm thi trắc nghiệm vào công tác này Hiện nay, Nhóm nghiên cứu đã trải qua 3 đợt thực nghiệm lớn với số phiếu tương đương là 40.000
Đợt thực nghiệm lần thứ nhất với 9.669 phiếu khảo sát môn học dành cho SV trong học kỳ II, năm học 2007- 2008, phiếu được quét bằng máy quét hiệu Fujitsu loại Fi-5120C, mỗi một môn học được quét vào một thư mục, tổng cộng có 248 thư mục file ảnh Các thông số được giữ nguyên trong quá trình quét như: format file ảnh dạng JDEG (*jpg), độ phân giải tối thiểu là 300 dpi, khổ giấy A4 (210x297mm), thuộc tính ảnh màu trắng đen (Black&White)
Khi nhận dạng, Nhóm nghiên cứu nhận dạng lần lượt từng thư mục ảnh và xuất thành 248 file kết quả lưu chung vào một thư mục lớn Mỗi một lần thực hiện lệnh nhận dạng, Nhóm nghiên cứu đều áp dụng phương pháp ước lượng mô hình để điều chỉnh độ tương phản và độ phân biệt dựa trên nguyên tắc phần trăm tương phản của ô không được tô so với ô được tô đậm, nếu độ tương phản của một ô lớn hơn giá trị này thì được xem là có tô và ngược lại là không tô; phần trăm phân biệt giữa ô tô đậm nhất và ô tô đậm thứ hai trong cùng một đối tượng Nếu độ phân biệt của một ô lớn hơn giá trị này thì được xem là có phân biệt và ngược lại là không phân biệt Từ đó chỉnh định giá trị này sao cho phù hợp với hình ảnh túi phiếu được quét để máy nhận dạng được số ô có
tô và số ô không tô và xuất ra kết quả dạng file excel
Nhóm nghiên cứu chọn ra 7 túi phiếu có số lượng khác nhau nhưng phô tô cùng một thời điểm Kết quả cho thấy cùng một túi phiếu nếu thay đổi độ tương phản và độ phân biệt cho ra kết quả khác nhau xem Bảng 1:
Trang 19Bảng 1: Kết quả nhận dạng thử nghiệm lần thứ nhất trên 7 túi phiếu khảo sát môn học
STT TÚI PHIẾU
(%) ĐỘ TƯƠNG PHẢN
(%) ĐỘ PHÂN BIỆT
(%) KẾT QUẢ NHẬN
Trang 20kế phiếu không có dấu nhận dạng xem Hình 1:
Hình 1: Mẫu phiếu khảo sát không có dấu nhận dạng
Trang 21Sau khi xem xét các nguyên nhân trên, để khắc phục cho các túi phiếu còn lại, kết quả có 35 thư mục không phải nhập lại, phần mềm nhận dạng tương đối chính xác,
số thư mục còn lại hầu hết đều phải nhập lại khoảng 1/3 trên tổng phiếu chứa trong thư mục tương đương 2.890 phiếu
Như vậy lẽ ra phải có dấu nhận dạng giúp tịnh tiến hình phiếu bị lệch Đây là lý
do không khắc phục được vì phiếu được thiết kế trước khi mua phần mềm Cả 3 nguyên nhân trên đều được nhóm nghiên cứu ghi vào nhật ký và rút kinh nghiệm cho các đợt sau
Đợt thực nghiệm lần hai với 15.300 phiếu khảo sát môn học dành cho SV trong học kỳ I, năm học 2008- 2009, phiếu được quét vào 305 thư mục chứa file ảnh khi nhận dạng từng thư mục cho 305 file kết quả lưu chung vào một thư mục lớn Thực hiện tương tự với lần thử nghiệm thứ nhất, Nhóm nghiên cứu giữ nguyên các thông số kỹ thuật khi quét và lần lượt thay đổi độ tương phản, độ phân biệt Khác với lần thứ nhất, mẫu phiếu thiết kế đã có dấu nhận dạng, và được thiết kế 32 câu trên một trang giấy, sử dụng chỉ một loại giấy để phô tô Kết quả lần thử nghiệm thứ hai như sau:
Bảng 2: Kết quả nhận dạng thử nghiệm lần thứ hai trên 7 túi phiếu khảo sát môn học
STT TÚI PHIẾU
(%) ĐỘ TƯƠNG PHẢN
(%) ĐỘ PHÂN BIỆT
(%) KẾT QUẢ NHẬN
Trang 23Hình 2 : Kết quả nhận dạng thư mục có phiếu được máy nhận dạng đúng một mặt, những ô trống là ô chứa mặt phiếu mà máy không nhận dạng được
Kết quả lần thực nghiệm lần thứ 2 có đến 150 thư mục không phải nhập lại, số thư mục còn lại hầu hết đều phải nhập lại khoảng 10% tương đương với 1.500 phiếu trên tổng phiếu chứa trong thư mục Tuy nhiên, để có được 150 thư mục không phải nhập lại người thực hiện nhận dạng phải thay đổi mẫu nhận dạng nhiều lần
Đợt thực nghiệm lần ba với 15.300 phiếu khảo sát môn học dành cho SV trong học kỳ I, năm học 2008- 2009, phiếu được quét vào 1 thư mục lớn chứa 289 thư mục nhỏ để lưu file ảnh quét, khi nhận dạng từng thư mục cho 289 file kết quả lưu chung vào một thư mục lớn Vận dụng những kinh nghiệm từ hai lần thử nghiệm trước, mẫu phiếu khảo sát được thiết kế có dấu nhận dạng, có khoảng cách giữa giá trị trả lời là khung chứa giá trị trả lời là 3pt, phiếu được phô tô trên một loại giấy có cùng thông số
kỹ thuật và sử dụng một loại máy photocopy để nhân bản Cũng thực hiện cách áp dụng phương pháp ước lượng mô hình để điều chỉnh độ tương phản, độ phân biệt sao cho phù hợp với từng thư mục ảnh Kết quả lần thử nghiệm thứ 3 với 7 túi phiếu như sau:
Trang 24Bảng 3: Kết quả nhận dạng thử nghiệm lần thứ hai trên 7 túi phiếu khảo sát môn học
STT TÚI PHIẾU
(%) ĐỘ TƯƠNG PHẢN
(%) ĐỘ PHÂN BIỆT
(%) KẾT QUẢ NHẬN
Trang 25Khi máy nhận dạng chuẩn chúng ta sẽ có từng bảng thể hiện kết quả dữ liệu xuất cho từng thư mục, nếu phiếu đã kiểm soát chặc chẽ, thì dấu hiệu (-) là máy báo không
có trả lời ở vị trí đó như Hình 3
Hình 3: Kết quả file dữ liệu được nhận dạng chính xác có một câu không có thông tin trả lời
Trang 26Kết quả của 3 lần thực nghiệm cho thấy, khi Nhóm nghiên cứu giảm độ phân biệt và độ tương phản xuống bằng giới hạn phần mềm cho phép thì cho ra kết quả nhận dạng chính xác cao Việc điều chỉnh form phiếu như thiết kế dấu nhận dạng cho mỗi mặt phiếu, điều chỉnh khoảng cách của các khung chứa câu trả lời và khoảng cách giữa các ô trả lời (thấp nhất là 3pt) đều có ảnh hưởng lớn đến kết quả nhận dạng Các công đoạn khác như soát phiếu, chọn cùng một loại giấy để phô tô phiếu, phô tô trên một máy và cùng một lần là những điều kiện cần thiết góp phần đem lại kết quả nhận dạng chính xác cao
2.2.1.2 Kết luận rút ra từ các lần thử nghiệm và xây dựng quy trình chuẩn
Trải qua nhiều lần thực nghiệm, Nhóm nghiên cứu nhận thấy rằng để nhận dạng được tốt và xuất dữ liệu chính xác cần phải giải quyết những vấn đề sau:
a Thiết kế form (hình thức) của phiếu:
Ngoài nội dung phiếu, thì việc thiết kế form phiếu cũng rất quan trọng vì điều này có ảnh hưởng lớn đến quá trình nhận dạng Dựa vào nội dung của phiếu mà thiết kế hình thức, thông thường có 2 dạng câu hỏi được sử dụng trong nghiên cứu, khảo sát đó
là dạng câu hỏi mở và câu hỏi đóng Câu hỏi mở là loại không chứa sẵn nội dung trả lời
để người trả lời lựa chọn, loại câu hỏi này không thể thực hiện nhận dạng Câu hỏi đóng chia thành 2 loại, câu hỏi có một lựa chọn và loại câu hỏi có nhiều lựa chọn, ví dụ nội dung hỏi là Giới tính của bạn: 1 Nam; 2 Nữ thì ta thiết kế form theo dạng
Chúng ta chọn 1 trong 2 cách có thiết kế form để nhận dạng như sau:
Trang 27Cách 1
1 Tìm kiếm tài liệu phục vụ học tập
2 Tìm kiếm tài liệu phục vụ nghiên cứu khoa học
5 Tham gia các forum, mạng xã hội (facebook, yume, )
1 Tìm kiếm thông tin phục vụ học tập
2 Tìm kiếm thông tin phục vụ nghiên cứu khoa học
5 Tham gia các forum, mạng xã hội (facebook, yume, )
Trang 28Phần mềm nhận dạng có thể nhận dạng theo hai mẫu thiết kế nêu trên và cho ra kết quả như nhau, mỗi cách có một ưu điểm khác nhau, tùy theo ý đồ của người hỏi Nhiều khảo sát cho thấy cách thiết kế thứ hai được chọn sử dụng nhiều hơn, do ưu điểm của
nó là có thể kết hợp được với các nội dung của câu hỏi khác có liên quan xem Bảng 4 Bảng 4:
Các mục đích sử dụng
Internet
Việc sử dụng
2 Tìm kiếm thông tin phục
vụ nghiên cứu khoa học
Trang 29Một chú ý lớn của kết quả nghiên cứu được rút ra khi thực hiện công đoạn này là:
Khoảng cách mỗi dòng giá trị trả lời phải đủ rộng để khi nhận dạng mẫu phiếu
và hình phiếu có bị lệch thì vùng được định dạng không bị chồng lên nhau xem Hình 4:
Hình 4: Ảnh phiếu lệch lên so với mẫu được định nghĩa, vẫn nhận dạng đúng
Các ô trả lời trong phiếu cần phải có khoảng cách vừa phải với khung chứa nó để tránh tình trạng, người trả lời tô nhòe sang ô bên cạnh, xem Hình 5
Hình 5: Các ô dùng để tô trả lời quá gần nhau, dẫn đến nhận dạng sai
Trang 30Khoảng cách giữa các ô trả lời phải đều nhau thì quá trình định nghĩa mới được chính xác, xem Hình 6
Hình 6: Các ô chứa giá trị không đều nhau, gây khó khăn cho việc định nghĩa và dẫn đến nhận dạng sai
Phải thiết kế dấu nhận dạng ở mỗi trang phiếu, sở dĩ phải sử dụng dấu nhận dạng
là vì cho dù mẫu được phô tô chuẩn xác đến đâu thì vẫn có độ lệch (ví dụ: nghiêng), độ dịch chuyển (dịch lên hoặc dịch xuống) Do đó chức năng của dấu nhận dạng là tịnh tiến các vùng nhận dạng để nhận dạng, kết quả nghiên cứu cho thấy phiếu được thiết kế
có 3 dấu nhận dạng sẽ cho kết quả chính xác hơn xem Hình 7
Trang 31Hình 7: Ảnh phiếu lệch xuống so với dấu nhận dạng nhưng vẫn nhận dạng đúng
Dấu nhận dạng
Kết Luận: đối với việc thiết kế form (hình thức) của phiếu: trước hết, chúng ta phải định dạng ở mỗi góc phiếu một dấu nhận dạng, tiếp đến là lựa chọn hình thức phù hợp theo nội dung và chúng ta nên sử dụng các thông số quy định khoảng cách giữa các
ô trả lời với các lề của khung chứa các ô giá trị, tối thiểu là 3 pt, font size của các ô giá trị tối thiểu là 13, khoảng cách giữa các ô chứa giá trị trả lời là đều nhau
b Soát phiếu
Soát phiếu là công việc thủ công, không liên quan đến máy móc nhưng có ảnh hưởng trực tiếp đến kết quả nhận dạng
- Soát phiếu gồm những khâu:
Chọn phiếu hợp lệ và loại bỏ những phiếu không hợp lệ: Phiếu hợp lệ là phiếu được trả lời từ 2/3 câu hỏi trong phiếu trở lên, câu hỏi trong phiếu được trả lời hợp logic Kiểm tra cách tô phiếu:
Ô trả lời được tô bằng mực đỏ, ô trả lời được tô không rõ hoặc tô không kín, phải
tô lại vì phần mềm chỉ phân biệt được điểm tối nhất và điểm sáng nhất để nhận dạng
Một câu hỏi chứa 2 ô giá trị trả lời trở lên, phải xóa bớt chỉ để lại 1 ô giá trị theo
ý đồ của người trả lời, nếu có 2 ô giá trị máy sẽ báo nhiều trả lời và không nhận dạng câu đó
Trang 32Đánh số thứ tự cho phiếu từ 1 cho đến hết: mục đích của việc đánh số thứ tự cho phiếu là để kiểm soát vị trí, số lượng phiếu so với vị trí, số lượng hình quét và kết quả nhận dạng
Như vậy, nếu chúng ta bỏ qua 1 trong 3 khâu của công đoạn soát phiếu thì kết quả nhận dạng sẽ báo lỗi, xem hình 8
Hình 8 : Có hai giá trị trả lời trong một câu hỏi dẫn đến kết quả nhận dạng sai
Để hạn chế những chỉnh sửa trong kết quả nhận dạng, chúng ta cần thực hiện tốt theo các công đoạn soát phiếu
c Ảnh quét
Chất lượng ảnh quét phụ thuộc vào các yếu tố sau: chất lượng giấy, chất lượng máy photocopy, kỹ thuật phô tô và kỹ thuật quét phiếu
iệc nhận dạng đòi hỏi cao nhất là phiếu phải đồng dạng về hình thức và thông số
kỹ thuật, nghĩa là mỗi phiếu chứa nội dung trả lời khác nhau nhưng hình thức phải giống y hệt nhau Tuy nhiên, bản thân việc in phiếu, giấy in, máy photocopy, máy quét,
… đều ẩn chứa các nguyên nhân kỹ thuật khiến ảnh thu được từ các phiếu khác nhau có
độ lệch (ví dụ: nghiêng), độ dịch chuyển (dịch lên hoặc dịch xuống) khác nhau mà ta cần loại bỏ Một lưu ý ở đây là không có nhà lập trình nào chấp nhận khó khăn về kỹ thuật để thiết kế phần mềm chuyên dụng đáp ứng các khó khăn nêu trên, điều này có
Trang 33nghĩa là người sử dụng phải tự ý thức được những khó khăn này để thực hiện công việc tốt hơn Do đó các yêu cầu được đặt ra là:
- Yêu cầu về giấy photo: để tiết kiệm, không cần phải sử dụng giấy photocopy loại tốt nhất, đắt nhất Sử dụng giấy A4 (210 x 297 mm), định lượng giấy tối thiểu là 70g/m2 cho các loại phiếu và định lượng giấy tối thiểu là 80g/m2 cho loại bảng điểm Nếu giấy
có định lượng thấp hơn 70g/m2 (mỏng hơn) thì rất khó photo bằng máy siêu tốc và khi quét phiếu bằng máy scan, phiếu sẽ dính vào nhau
- Yêu cầu về máy photo và kỹ thuật photo:
Sử dụng máy photo siêu tốc, khay chứa giấy sẽ lớn, lượng giấy đưa vào một lần được nhiều (khoảng 2 reams giấy = 1.000 tờ), khi đó phiếu in ra sẽ ít bị lệch Nếu sử dụng máy photo bình thường, khay chứa giấy nhỏ hơn, cùng một lượng phiếu cần in, nhưng đưa giấy vào nhiều lần sẽ tăng độ lệch khi phiếu in ra,
Khi tiến hành phô tô, giấy phải khô, giũ giấy thật kỹ để giấy không bị dính vào nhau, và so giấy thật bằng mới đưa vào khay chứa giấy
Chỉnh khay chứa giấy và chỉnh độ rút giấy thật chuẩn để phiếu in ra ít bị lệch
Một lần phô tô với số lượng lớn hoặc phô tô hết toàn bộ phiếu cần in, như vậy sẽ hạn chế được độ lệch của phiếu in ra Bởi vì khi muốn phô tô bằng máy siêu tốc, mẫu cần phô tô sẽ được chụp vào một tờ giấy in gọi là master, sau đó master sẽ in lên giấy trắng Phô tô một lần với một tờ master, thì phiếu in ra sẽ ít bị lệch hơn là in nhiều lần với nhiều master
- Yêu cầu về kỹ thuật quét phiếu và kiểm tra phiếu:
Hiện nay trên thị trường có nhiều loại máy quét chuyên dụng như Fujitsu,
Canon, Kodak … mỗi máy đều có những thông số kỹ thuật khác nhau, tốc độ quét, độ sắc nét của ảnh, độ bền, … vì vậy mà giá thành của chúng khác nhau nhưng dù sử dụng máy nào thì chúng ta phải tuân thủ: (1) so bằng phiếu trước khi quét; (2) đặt giấy vào học quét đúng như đã so, nếu đã so giấy bằng nhau nhưng đặt vào học quét phiếu không chuẩn thì vẫn cho ra ảnh quét bị lệch; (3) ngoài việc chọn nơi lưu file quét, chúng ta phải chọn các thông số kỹ thuật khi quét gồm: file ảnh theo format dạng JDEG (*jpg),
độ phân giải tối thiểu là 300 dpi, khổ giấy A4 (210x297mm), thuộc tính ảnh màu trắng đen (Black&White)
Trang 34Kiểm tra hình phiếu quét là khâu cuối cùng của công đoạn quét phiếu, khi máy báo kết thúc công đoạn quét, phải xem hình phiếu đã được quét có bằng số lượng phiếu chúng ta đã quét hay không? Nếu chúng ta quét phiếu có 1 tờ và nội dung ở một mặt (front side) thì số file ảnh sẽ bằng số phiếu đã quét, nếu phiếu có 1 tờ và nội dung ở hai mặt, chúng ta chọn dạng quét (duplex) thì số file ảnh sẽ gấp đôi số phiếu được quét Nếu không kiểm tra hình phiếu, thì một vài trường hợp kết quả nhận dạng có thể thiếu hoặc thừa so với số phiếu muốn xử lý và lúc đó phải kiểm tra từng dòng kết quả mới biết sai sót ở vị trí nào, sẽ mất nhiều thời gian
Như vậy, muốn có kết quả nhận dạng tốt thì chúng ta phải đảm bảo các yêu cầu về: chất lượng giấy; máy photocopy; kỹ thuật phô tô; kỹ thuật quét phiếu và kiểm tra phiếu nhằm cho ra hình phiếu đẹp nhất, đồng dạng và không bị lệch, không ít hoặc nhiều hơn số phiếu muốn xử lý
Ở công đoạn này chúng ta cần chú ý:
- Khi vẽ vùng dữ liệu thì không được vẽ dạng khối, nếu chúng ta vẽ dạng khối thì dữ liệu xuất ra là một khối gây ra khó khăn trong quá trình chuyển dữ liệu qua phần mềm SPSS, cũng như không phù hợp với form phiếu đã thiết kế và kết quả không chính xác, xem hình 9
Trang 35Hình 9: Độ dài của các câu hỏi không giống nhau, khi vẽ vùng định dạng là một khối dẫn đến thao tác định nghĩa mẫu sai
- Vùng dữ liệu phải vẽ từng vùng một, mỗi một vùng tương đương với một lựa chọn trả lời của một câu hỏi, ví dụ phiếu có 10 câu hỏi có giá trị thang đo trả lời giống nhau thì tương đương với 10 vùng được định nghĩa
- Chọn kiểu dữ liệu xuất, phần mềm McScanner cho phép xuất dữ liệu dạng: ký tự; số Dạng số có 3 loại, dạng số bắt đầu từ số 0 phục vụ cho công tác chấm điểm, dạng số bắt đầu từ số 1, và dạng số có 2 chữ số bắt đầu từ 01 Tùy theo form trả lời mà chúng ta chọn lựa hợp lý, đối với các bảng hỏi, phiếu khảo sát thông thường dùng dạng số bắt đầu từ số 1, xem Hình 10
Trang 36Hình 10: Các kiểu xuất dữ liệu
Chọn chiều lấy dữ liệu:
Đối với phiếu khảo sát, bảng hỏi khi thiết kế form chúng ta chỉ cần quan tâm đến chiều lấy, có hai chiều lấy dữ liệu là chiều ngang (ver) hay chiều dọc (hor) Đối với câu hỏi một lựa chọn chúng ta chỉ lấy chiều ngang, không lấy chiều dọc, dữ liệu được lấy chiều dọc khi chúng ta thiết kế form cho câu hỏi có nhiều lựa chọn
Như vậy, so với việc thiết kế form, soát phiếu và quét phiếu thì việc định nghĩa mẫu phiếu cũng là một công đoạn cực kỳ quan trọng, quyết định độ chính xác và kiểu
dữ liệu xuất ra Do đó chúng ta phải lưu ý tất cả công đoạn từ vẽ vùng nhận dạng, chọn
Trang 37kiểu dữ liệu, chọn chiều lấy và đặc biệt là chọn dấu hiệu nhận dạng trước khi lưu mẫu theo hướng dẫn của phần mềm
e Thực hiện nhận dạng và xem kết quả nhận dạng
Đây là công đoạn cuối cùng trong quy trình nhận dạng, công việc này như là việc “lệnh” cho máy tách chính xác các đối tượng được trả lời trong từng câu hỏi của phiếu và xuất ra một dòng là kết quả của mỗi phiếu Trong các thao tác được thực hiện lần lượt như chọn file thư mục hình ảnh cần quét → lệnh cho máy lưu kết quả vào thư mục đã tạo sẵn → chọn mẫu đã được định nghĩa → chọn độ tương phản → chọn độ phân biệt → chọn kiểu dữ liệu cần xuất và thực hiện lệnh đồng ý.13
Đối với việc thực hiện nhận dạng, cần chú ý rằng kết quả 3 lần thực nghiệm trên đều cho thấy với phiếu khảo sát luôn luôn điều chỉnh độ tương phản là 10% và độ phân biệt là 110% tức là ở giới hạn nhỏ nhất cho phép của phần mềm McScanner đều cho kết quả nhận dạng chính xác cao nhất
Đối với việc xem kết quả nhận dạng, đây là công đoạn giúp chúng ta kiểm soát được việc máy nhận dạng có đúng như ảnh file quét hay không? Khi xem kết quả nhận dạng cần chú ý đến 2 ký hiệu sau: ký hiệu (-) thể hiện câu hỏi đó không có câu trả lời và
ký hiệu (*) có nghĩa là câu hỏi đó có nhiều chọn lựa, nếu kết quả có nhiều ký hiệu (-) hoặc (*) chúng ta đều phải kiểm tra để tìm hiểu nguyên nhân Nếu nguyên nhân là một trong các công đoạn trên thì phải tìm cách khắc phục và nên ghi lại nhật ký để không phạm lại lỗi nào khi lặp lại quy trình cho các mẫu phiếu khác
Kết luận: từ phần mềm chuyên dụng dùng để chấm thi trắc nghiệm, Nhóm nghiên cứu đã thử nghiệm thành công việc ứng dụng để nhận dạng các loại phiếu phục
vụ trong nghiên cứu khoa học và công tác đảm bảo chất lượng Qua những công đoạn thực nghiệm cũng như việc đúc kết kinh nghiệm thành tài liệu hướng dẫn tỉ mỉ từng công đoạn từ thiết kế form, chọn giấy để phô tô, kỹ thuật phô tô, soát phiếu, kỹ thuật quét ảnh, định nghĩa mẫu, thực hiện nhận dạng là một thành quả lớn, trước hết phục vụ cho hoạt động lấy ý kiến phản hồi của người học và về lâu dài, Trường có thể ứng dụng
để hình thành bộ phận dịch vụ nhu cầu của cán bộ giảng viên, sinh viên, học viên của trường cũng như hướng đến phục vụ rộng rãi cộng đồng
Trang 38
2.2.2 Quy trình chuyển đổi dữ liệu được xuất từ kết quả nhận dạng của phần mềm McScanner qua phần mềm SPSS
Như đã giới thiệu SPSS là phần mềm xử lý thống kê dùng trong các ngành khoa học xã hội, được phát triển dựa trên phần mềm của Apache Software Foundation Với phần mềm này chúng ta có thể mở các file có định dạng của excel mà không cần phải chuyển đổi chúng sang một định dạng trung gian hoặc nhập các thông tin định nghĩa dữ liệu Ứng dụng chức năng này, Nhóm nghiên cứu lấy dữ liệu sẵn có được xuất từ phần mềm McScanner để thay thế công tác nhập liệu thủ công, theo nguyên tắc, 1 dòng kết quả được xuất ra từ dạng file excel tương đương 1 dòng trong SPSS và cũng là kết quả của từng câu trả lời Thứ tự từ trái qua phải của mỗi dòng trong excel hay SPSS bằng thứ tự nội dung câu hỏi trong phiếu khảo sát từ đầu cho đến cuối Thứ tự vị trí dòng đầu tiên đến dòng cuối trong Excel và SPSS là giống nhau và tương đương với vị trí phiếu đầu tiên đến phiếu cuối cùng của file ảnh quét Dựa vào nguyên tắc trên để chuyển đổi
dữ liệu Excel từ các file kết quả được xuất ra từ phần mềm McScanner sang làm dữ liệu trong phần mềm SPSS
Trước hết, Nhóm nghiên cứu kiểm tra dữ liệu Excel đã được phần mềm
McScanner nhận dạng xuất ra Nếu chúng ta nhận dạng nhiều thư mục chứa ảnh khác nhau, chúng ta có các file dữ liệu như Hình 11
Hình 11: Các file kết quả được phần mềm nhận dạng xuất ra
Trang 39Mỗi thư mục được nhận dạng phần mềm sẽ trả 3 file kết quả, trong đó có 2 file text và 1 file excel Mở file excel chúng ta nhận thấy, dòng kết quả phiếu cuối cùng trong một file sẽ nằm ở vị trí đầu tiên và ngược lại xem hình 12
Hình 12: Bảng excel của file kết quả được phần mềm nhận dạng xuất ra
Như vậy, chúng ta phải sử dụng chức năng sort trong excel để đảo vị trí của các dòng trong file kết quả Sau khi đảo vị trí chúng ta thực hiện chức năng chuyển đổi dữ liệu như sau: khởi động phần mềm SPSS → chọn File, chọn open, chọn data, máy sẽ hiện thị cửa sổ để ta chọn file (nguồn) → chọn Excel (*xls) ở mục files of type sau đó chọn file nguồn cần chuyển → open, xem Hình 13
Hình 13: Cửa sổ SPSS khi chúng ta thực hiện việc chuyển đổi dữ liệu
Trang 40Sau khi thực hiện lệnh open, máy sẽ hiện một trong hai cửa sổ như Hình 14 và Hình 15
Hình 14: Biểu thị thao tác máy sẵn sàng chuyển đổi dữ liệu
Hình 15 Biểu thị thao tác chuyển đổi dữ liệu không thành công do tên file có dạng ký hiệu đặc biệt
Nguyên nhân là do sheet trong excel có dạng ký hiệu đặc biệt dạng $ nên khi chuyển đổi qua SPSS không phù hợp Với trường hợp này chúng ta chỉ cần xóa dạng ký
tự đặc biệt trong sheet của dữ liệu Excel là thực hiện được
Khi có kết quả của việc chuyển đổi dữ liệu thành công, chúng ta thực hiện các thao tác mã hóa dữ liệu, nhập dữ liệu của câu hỏi mở, hoặc ghép dữ liệu của câu hỏi mở