Nhận dạng và sửa lỗi văn bản ocr sử dụng các mẫu ký tự sửa lỗi và thuật toán tối ưu

ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN SỞ KHOA HỌC VÀ CÔNG NGHỆ KHOA HỌC VÀ CÔNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ NHẬN DẠNG VÀ SỬA LỖI VĂN BẢN OCR SỬ DỤNG CÁC MẪU KÝ TỰ SỬA LỖI VÀ THUẬT TOÁN TỐI ƯU Cơ quan chủ trì nhiệm vụ: TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CƠNG NGHỆ TRẺ Chủ nhiệm nhiệm vụ: ThS PHẠM TỒN ĐỊNH Thành phố Hồ Chí Minh - 2021 ỦY BAN NHÂN DÂN THÀNH ĐỒN TP HỒ CHÍ MINH THÀNH PHỐ HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN SỞ KHOA HỌC VÀ CÔNG NGHỆ KHOA HỌC VÀ CÔNG NGHỆ TRẺ CHƯƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ NHẬN DẠNG VÀ SỬA LỖI VĂN BẢN OCR SỬ DỤNG CÁC MẪU KÝ TỰ SỬA LỖI VÀ THUẬT TOÁN TỐI ƯU (Đã chỉnh sửa theo kết luận Hội đồng nghiệm thu ngày …/…/20…) Chủ nhiệm nhiệm vụ: (ký tên) Chủ tịch Hội đồng nghiệm thu (Ký ghi rõ họ tên) Phạm Toàn Định Cơ quan chủ trì nhiệm vụ Đồn Kim Thành Thành phố Hồ Chí Minh - 2021 THÀNH ĐỒN TP HỒ CHÍ MINH TRUNG TÂM PHÁT TRIỂN KHOA HỌC VÀ CƠNG NGHỆ TRẺ CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc TP.HCM, ngày tháng năm 2021 BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN NHIỆM VỤ NGHIÊN CỨU KH&CN I THÔNG TIN CHUNG Tên nhiệm vụ: Thuộc: Chương trình/lĩnh vực (tên chương trình/lĩnh vực): Vườn ươm Sáng tạo Khoa học Công nghệ trẻ Chủ nhiệm nhiệm vụ: Họ tên: Phạm Toàn Định Ngày, tháng, năm sinh: 06/07/1993 Nam/ Nữ: Nam Học hàm, học vị: Thạc sĩ Chức danh khoa học: .Chức vụ: Giảng viên, Nghiên cứu sinh Điện thoại: Tổ chức: (028) 71099244 Nhà riêng: Mobile: 0376697608 Fax: E-mail: dinh.pt@vlu.edu.vn Tên tổ chức công tác: Trường Đại học Văn Lang Địa tổ chức: 45 Nguyễn Khắc Nhu, phường Cơ Giang, Q.1, Tp Hồ Chí Minh Địa nhà riêng: 50/15/10A Dương Quảng Hàm, Phường 5, Quận Gị Vấp Tổ chức chủ trì nhiệm vụ: Tên tổ chức chủ trì nhiệm vụ: Trung tâm Phát triển Khoa học Công nghệ Trẻ Điện thoại: 028.38.230.780 Fax: E-mail: khoahoctre@gmail.com Website: khoahoctre.com.vn Địa chỉ: Số 01 Phạm Ngọc Thạch, Phường Bến Nghé, Quận Họ tên thủ trưởng tổ chức: Đoàn Kim Thành Số tài khoản: 3713.0.1083277.00000 Kho bạc: Kho bạc Nhà nước Quận Tên quan chủ quản đề tài: Trung tâm Phát triển Khoa học Công nghệ Trẻ II TÌNH HÌNH THỰC HIỆN Thời gian thực nhiệm vụ: - Theo Hợp đồng ký kết: từ tháng 12/2020 đến tháng 11/2021 - Thực tế thực hiện: từ tháng 12/2020 đến tháng 11/2021 - Được gia hạn (nếu có): - Lần từ tháng… năm… đến tháng… năm… - Lần … Kinh phí sử dụng kinh phí: a) Tổng số kinh phí thực hiện: 90 tr.đ, đó: + Kính phí hỗ trợ từ ngân sách khoa học: 90 tr.đ + Kinh phí từ nguồn khác: ……………….tr.đ b) Tình hình cấp sử dụng kinh phí từ nguồn ngân sách khoa học: Số TT Theo kế hoạch Thời gian Kinh phí (Tháng, năm) (Tr.đ) Thực tế đạt Thời gian Kinh phí (Tháng, năm) (Tr.đ) Ghi (Số đề nghị toán) … c) Kết sử dụng kinh phí theo khoản chi: Đối với đề tài: Đơn vị tính: Triệu đồng Số TT Nội dung khoản chi Trả công lao động (khoa học, phổ thông) Nguyên, vật liệu, lượng Thiết bị, máy móc Xây dựng, sửa chữa nhỏ Chi khác Tổng cộng Theo kế hoạch Tổng NSKH Nguồn khác Thực tế đạt Tổng NSKH 83,565 83,565 83,565 83,565 6,435 90 6,435 90 6,435 90 6,435 90 Nguồn khác - Lý thay đổi (nếu có): Đối với dự án: Đơn vị tính: Triệu đồng Số TT Nội dung khoản chi Thiết bị, máy móc mua Nhà xưởng xây dựng mới, cải tạo Kinh phí hỗ trợ cơng nghệ Chi phí lao động Ngun vật liệu, lượng Theo kế hoạch Tổng NSKH Nguồn khác Thực tế đạt Tổng NSKH Nguồn khác Thuê thiết bị, nhà xưởng Khác Tổng cộng - Lý thay đổi (nếu có): Các văn hành q trình thực đề tài/dự án: (Liệt kê định, văn quan quản lý từ công đoạn xét duyệt, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực có); văn tổ chức chủ trì nhiệm vụ (đơn, kiến nghị điều chỉnh có) Số TT Số, thời gian ban hành văn 34x-QĐ/KHCNT, ngày 25/11/2020 64-TB/KHCNT, ngày 29/12/2020 Tên văn Ghi V/v thành lập Hội đồng xét duyệt đề tài NCKH thuộc chương trình Vườn ươm sáng tạo KH CNT V/v phê duyệt cấp kinh phí NCKH cơng nghệ thuộc chương trình Vườn ươm sáng tạo KH CNT Tổ chức phối hợp thực nhiệm vụ: Số TT Tên tổ chức Tên tổ chức đăng ký theo tham gia thực Thuyết minh Trường Đại học Trường Đại học Cơng nghệ Sài Gịn thơng tin, ĐHQG TPHCM Nội dung tham gia chủ yếu - Nghiên cứu xây dựng mơ hình postprocessing bao gồm bước xử lý cần thiết Viện Kỹ thuật Công nghệ cao NTT, Đại học Nguyễn Tất Thành - Đề xuất mơ hình áp dụng thuật tốn tối ưu việc phát tạo từ sửa lỗi - Tổng hợp, xử lý số liệu viết báo khoa học Viện Kỹ thuật Công nghệ cao NTT, Đại học Nguyễn Tất Thành Sản phẩm chủ yếu đạt - Mô hình postprocessing đề xuất chương trình chạy mơ hình tương ứng - Mơ hình áp dụng thuật tốn tối ưu phát tạo từ sửa lỗi - Bài báo khoa học, báo cáo nghiệm thu Ghi chú* - Lý thay đổi (nếu có): Thành viên Phan Nguyệt Minh chuyển đơn vị công tác từ Trường Đại học Công nghệ thông tin Trường Đại học Sài Gòn từ tháng 4/2021 Cá nhân tham gia thực nhiệm vụ: (Người tham gia thực đề tài thuộc tổ chức chủ trì quan phối hợp, không 10 người kể chủ nhiệm) Số TT Tên cá nhân đăng ký theo Tên cá nhân tham gia thực Nội dung tham gia Sản phẩm chủ yếu đạt Ghi chú* Thuyết minh Phạm Toàn Định Phạm Toàn Định Lê Thị Kim Ngọc Lê Thị Kim Ngọc Lê Đức Anh Lê Đức Anh Nguyễn Quốc Dũng Nguyễn Quốc Dũng - Xây dựng thuyết minh chi tiết duyệt - Chuẩn bị, tìm kiếm xây dựng tập liệu training test tiêu chuẩn - Thiết kế viết chương trình, mơ hình nhận dạng sửa lỗi văn OCR - Chạy, kiểm tra, sửa lỗi chương trình, mơ hình nhận dạng sửa lỗi văn OCR - Tổng hợp, xử lý số liệu, viết báo khoa học - Chuẩn bị, tìm kiếm xây dựng tập liệu training test tiêu chuẩn - Tổng hợp, xử lý số liệu - Thiết kế mơ hình nhận dạng sửa lỗi văn OCR - Hướng dẫn nghiên cứu, đọc góp ý cho báo khoa học trước gửi đến tạp chí, hội nghị - Xây dựng thuyết minh chi - Cuốn thuyết minh đề cương - Tập liệu training dùng để huấn luyện mơ hình, tập liệu test để đánh giá mơ hình - Mơ hình hậu xử lý văn OCR chương trình chạy mơ hình tương ứng - Bài báo khoa học, báo cáo nghiệm thu - Tập liệu training dùng để huấn luyện mơ hình, tập liệu test để đánh giá mơ hình - Số liệu thí nghiệm đánh giá mơ hình phục vụ cho báo - Mơ hình hậu xử lý văn OCR chương trình chạy mơ hình tương ứng - Bài báo khoa học - Cuốn thuyết minh đề tiết duyệt - Thiết kế viết chương trình, mơ hình nhận dạng sửa lỗi văn OCR Phan Nguyệt Minh Phan Nguyệt Minh Huỳnh Nhật Triều Huỳnh Nhật Triều - Chạy, kiểm tra, sửa lỗi chương trình, mơ hình nhận dạng sửa lỗi văn OCR - Tổng hợp, xử lý số liệu, viết báo khoa học - Thiết kế viết chương trình, mơ hình nhận dạng sửa lỗi văn OCR - Chạy, kiểm tra, sửa lỗi chương trình, mơ hình nhận dạng sửa lỗi văn OCR - Chuẩn bị, tìm kiếm xây dựng tập liệu training test tiêu chuẩn - Tổng hợp, xử lý số liệu cương - Mơ hình hậu xử lý văn OCR chương trình chạy mơ hình tương ứng - Bài báo khoa học, báo cáo nghiệm thu - Mơ hình hậu xử lý văn OCR chương trình chạy mơ hình tương ứng - Tập liệu training dùng để huấn luyện mơ hình, tập liệu test để đánh giá mơ hình - Số liệu thí nghiệm đánh giá mơ hình phục vụ cho báo - Lý thay đổi ( có): Tình hình hợp tác quốc tế: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Ghi chú* - Lý thay đổi (nếu có): Tình hình tổ chức hội thảo, hội nghị: Theo kế hoạch Số (Nội dung, thời gian, kinh phí, địa TT điểm ) Hội thảo đề tài NCKH “Nhận dạng sửa lỗi văn OCR sử dụng mẫu ký tự sửa lỗi thuật toán tối ưu” Thời gian: 9h45 ngày 16/10/2021 Kinh phí: 4.9 triệu đồng Địa điểm: Nền tảng phòng họp trực tuyến Google Meet Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm ) Buổi hội thảo đề tài NCKH diễn với nội dung, thời gian, kinh phí địa điểm kế hoạch Ghi chú* - Lý thay đổi (nếu có): Tóm tắt nội dung, cơng việc chủ yếu: (Nêu mục 15 thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát nước nước ngồi) Số TT Các nội dung, cơng việc chủ yếu (Các mốc đánh giá chủ yếu) Thời gian (Bắt đầu, kết thúc - tháng … năm) Theo kế Thực tế đạt hoạch 01/202101/202102/2021 02/2021 Xây dựng thuyết minh chi tiết duyệt Xây dựng tập liệu training test tiêu chuẩn, liệu văn training cần canh hàng theo mức từ mức ký tự 02/202103/2021 02/202103/2021 Nghiên cứu xây dựng bảng sửa lỗi ký tự từ tập liệu training, viết chương trình tạo bảng sửa lỗi ký tự tương ứng 03/202104/2021 02/202103/2021 Nghiên cứu xây dựng mơ hình post-processing bao gồm bước xử lý tách từ, phát lỗi từ, tạo từ sửa lỗi xếp hạng từ sửa lỗi; 04/202108/2021 03/202106/2021 Người, quan thực Phạm Toàn Định, Nguyễn Quốc Dũng (ĐH Văn Lang) Phạm Toàn Định, Lê Thị Kim Ngọc, Huỳnh Nhật Triều (ĐH Văn Lang) Phạm Toàn Định, Nguyễn Quốc Dũng (ĐH Văn Lang), Phan Nguyệt Minh (ĐH Sài Gịn) Phạm Tồn Định, Nguyễn Quốc Dũng (ĐH Văn viết chương trình chạy mơ hình tương ứng Đề xuất mơ hình áp dụng thuật 05/2021toán tối ưu việc phát 09/2021 tạo từ sửa lỗi; viết chương trình cho mơ hình áp dụng thuật toán tối ưu tương ứng 03/202106/2021 So sánh, đánh giá kết phát sửa lỗi mơ hình đề xuất với mơ hình khác; phân tích tính khác biệt, ưu điểm, hạn chế (nếu có) mơ hình đề xuất so với mơ hình khác 08/202110/2021 04/202107/2021 Tổng hợp, xử lý số liệu viết báo khoa học, báo cáo nghiệm thu 10/202112/2021 05/202111/2021 Lang), Lê Đức Anh (ĐH Nguyễn Tất Thành), Phan Nguyệt Minh (ĐH Sài Gịn) Phạm Tồn Định, Nguyễn Quốc Dũng (ĐH Văn Lang), Lê Đức Anh (ĐH Nguyễn Tất Thành) Phạm Toàn Định, Nguyễn Quốc Dũng (ĐH Văn Lang), Lê Đức Anh (ĐH Nguyễn Tất Thành), Phan Nguyệt Minh (ĐH Sài Gịn) Phạm Tồn Định, Lê Thị Kim Ngọc, Nguyễn Quốc Dũng (ĐH Văn Lang), Lê Đức Anh (ĐH Nguyễn Tất Thành), Phan Nguyệt Minh (ĐH Sài Gịn) - Lý thay đổi (nếu có): III SẢN PHẨM KH&CN CỦA NHIỆM VỤ Sản phẩm KH&CN tạo ra: a) Sản phẩm Dạng I: Số TT Tên sản phẩm tiêu chất lượng chủ yếu Đơn vị đo Số lượng - Lý thay đổi (nếu có): Theo kế hoạch Thực tế đạt b) Sản phẩm Dạng II: Số TT Tên sản phẩm Yêu cầu khoa học cần đạt Theo kế hoạch Thực tế đạt Ghi Yêu cầu khoa học cần đạt Theo Thực tế kế hoạch đạt Được chấp nhận Đã xuất đăng tạp tạp chí/hội nghị chí/hội nghị quốc tế thuộc quốc tế thuộc danh mục danh mục SCOPUS SCOPUS Số lượng, nơi cơng bố (Tạp chí, nhà xuất bản) 01 (AIP Conference Proceedings 2406, tháng 09/2021) - Lý thay đổi (nếu có): c) Sản phẩm Dạng III: Số TT Tên sản phẩm Bài báo khoa học - Lý thay đổi (nếu có): d) Kết đào tạo: Số TT Cấp đào tạo, Chuyên ngành đào tạo Thạc sỹ Tiến sỹ Số lượng Theo kế hoạch Thực tế đạt Ghi (Thời gian kết thúc) - Lý thay đổi (nếu có): đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp: Số TT Tên sản phẩm đăng ký Kết Theo kế hoạch Thực tế đạt Ghi (Thời gian kết thúc) - Lý thay đổi (nếu có): e) Thống kê danh mục sản phẩm KHCN ứng dụng vào thực tế Số TT Tên kết ứng dụng Thời gian 10 Địa điểm (Ghi rõ tên, địa nơi ứng dụng) Kết sơ OCR huấn luyện, tính xác xuất chỉnh sửa ký tự phản ánh đặc tính mơ hình lỗi OCR phụ thuộc vào chất lượng cơng cụ OCR Năm tính áp dụng tóm tắt sau - Tần suất từ đơn: Cho từ lỗi we, tần suất từ đơn từ sửa lỗi wc, ký hiệu F1(wc), xác định tần xuất chuẩn hóa từ sửa lỗi wc tham chiếu đến tần suất từ đơn lớn tất từ sửa lỗi we (sử dụng từ điển unigram) (5.1) Trong đó, W tập từ sửa lỗi we - Tần suất ngữ cảnh bigram: Tần suất ngữ cảnh bigram từ sửa lỗi ký hiệu , , xác định tích tần suất ngữ cảnh bigram trái phải và chuẩn hóa với tham chiếu đến tần suất ngữ cảnh bigram lớn tất từ sửa lỗi we (sử dụng từ điển bigram) Chúng áp dụng kỹ thuật làm mịn (smoothing) để tránh vấn đề tần suất không (5.2) - Tần suất ngữ cảnh trigram: Tần suất ngữ cảnh trigram từ sửa lỗi ký hiệu trigram , , xác định tích tần suất ngữ cảnh , , và chuẩn hóa với tham chiếu đến tần suất ngữ cảnh trigram lớn tất từ sửa lỗi we (sử dụng từ điển trigram) (5.3) - Tính tương tự: Tính tương tự từ lỗi we từ sửa lỗi wc, ký hiệu , đo tính tương tự chúng dựa thuật toán so khớp chuỗi chung dài (Longest Common Subsequence) đề xuất nghiên cứu Islam Inkpen [1] Tính tương tự tính 35 tổng có trọng số Normalized Longest Common Subsequence (NLCS) biến đổi Normalized Maximal Consecutive Longest Common Subsequence (NMCLCS) (5.4) Trong đó: ▪ NMCLCS1, NMCLCSn NMCLCSz ba phiên biến đổi NMCLCS ký tự đầu tiên, từ ký tự kết thúc ký tự cuối cách tương ứng ▪ α1, α2, α3, α4 trọng số α1 + α2 + α3 + α4 = Trong thí nghiệm, chúng tơi chọn α1 = α2 = α3 = α4 = 0.25 [1] - Xác suất chỉnh sửa ký tự: Xác suất chỉnh sửa ký tự từ sửa lỗi wc, ký hiệu , xác định tích tần suất phép chỉnh sửa mẫu ký tự bảng PST để chuyển we thành wc, chuẩn hóa với tham chiếu đến xác suất chỉnh sửa ký tự lớn trong tất từ sửa lỗi we (5.5) Trong đó: phép chỉnh sửa ký tự tập hợp phép chỉnh sửa từ sửa lỗi phép chỉnh sửa , phép chỉnh sửa ký tự tập hợp từ sửa lỗi Từ sửa lỗi wc tính điểm xếp hạng sử dụng hàm mục tiêu, tổng có trọng số năm tính trên: fscore(wc) = p1* SIM(we,wc) + p2* F1(wc) + p3* F2(wc) + p4* F3(wc) + p5* SUB(wc) (5.6) đó: p1 + p2 + p3 + p4 + p5 = Vì điểm số tính cơng thức nằm khoảng [0, 1], điểm tổng từ sửa lỗi wc nằm khoảng xem xác suất độ tin cậy từ sửa lỗi Trong mơ hình đề xuất, chúng tơi sử dụng từ sửa lỗi có điểm cao 36 từ sửa lỗi we làm từ sửa lỗi thức Trong thí nghiệm, kiểm tra kết hợp khác trọng số để đánh giá hiệu sửa lỗi thuật tốn đề xuất để tìm trọng số tối ưu 5.2 Kết thí nghiệm thảo luận 5.2.1 Tập liệu đánh giá Tập liệu đánh giá phần sở liệu văn OCR thi hậu xử lý văn OCR2 [18] hội nghị quốc tế ICDAR 2017 Bộ sở liệu bao gồm văn chuyên khảo tạp chí định kỳ, nửa tiếng Anh nửa tiếng Pháp Chúng tập hợp phần ngữ liệu dự án AmeliOCR3 từ nhiều nguồn khác chẳng hạn thư viện quốc gia Anh Pháp Bộ sở liệu bao gồm văn OCR lỗi văn GT tương ứng canh hàng mức ký tự Mơ hình đề xuất đánh giá tập văn chuyên khảo tiếng Anh, chia thành 666 văn dùng để huấn luyện mơ hình 81 văn cho đánh giá mơ hình Cuộc thi hậu xử lý văn ICDAR 2017 bao gồm hai phần: phát lỗi sửa lỗi OCR Phần phát lỗi u cầu tìm vị trí chiều dài từ lỗi (từ lỗi chứa nhiều từ) văn OCR Phần sửa lỗi yêu cầu tạo từ sửa lỗi cho từ lỗi xếp hạng chúng dựa vào xác suất (độ tin cậy) Chất lượng sửa lỗi đánh giá dựa tỷ lệ phần trăm cải thiện khoảng cách Levenshtein (LV) văn sửa lỗi văn OCR tham chiếu đến văn gốc GT Cụ thể sau: Đầu tiên, khoảng cách LV trung bình (ký hiệu AvgDistCor) văn sửa lỗi văn gốc GT tính tổng có trọng số khoảng cách LV từ sửa lỗi từ gốc GT tương ứng Cho từ lỗi, từ sửa lỗi có điểm cao lựa chọn Mục tiêu tối ưu khoảng cách trung bình cho tất từ lỗi (5.7) https://sites.google.com/view/icdar2017-postcorrectionocr https://bit.ly/2BLsN7B 37 Trong đó: pi độ tin cậy từ sửa lỗi có điểm cao từ gốc GT tương ứng với , n số từ lỗi OCR, N tổng số ký tự văn sử dụng Mẫu số N giúp cho việc so sánh kết tập liệu đánh giá có kích thước khác dễ dàng Tiếp theo, khoảng cách LV trung bình văn OCR văn gốc GT (ký hiệu AvgDistOCR) tính theo cách tương tự Tỷ lệ phần trăm cải thiện khoảng cách LV (còn gọi tỷ lệ cải thiện lỗi) cho cho bên dưới: (5.8) 5.2.2 Kết thí nghiệm Tổng cộng 13 nhóm tham gia [5, 6, 16, 18] đề xuất giải pháp hậu xử lý văn OCR tập liệu văn OCR tiếng Anh thi ICDAR 2017 Tuy nhiên, số giải pháp giúp cải thiện chất lượng sửa lỗi OCR Điều thách thức toán hậu xử lý văn OCR cho văn lịch sử tập hợp từ nhiều nguồn khác Các giải pháp khác đề xuất bao gồm mơ hình ngơn ngữ mơ hình lỗi thống kê (WFST-PostOCR, EFP, Anavec [18]), mơ hình học máy (Modifed-prob.SLM [5]), dịch máy thống kê mạng nơron (CLAM [18], MMDT [20], CharSMT/NMT [8]), thuật tốn tiến hóa PST/SOMA [6] mơ hình PST/HC đề xuất [16]) Các kết sửa lỗi OCR tập liệu tiếng Anh nhóm tham gia minh họa Bảng 5.4 Trong bảng này, giải pháp giúp cải thiện chất lượng sửa lỗi với tỷ lệ cải thiện 20% xem xét Giải pháp cho kết sửa lỗi tốt mơ hình Char-SMT/NMT, mơ hình tổng hợp từ mơ hình dịch máy thống kê mạng nơron học sâu mức ký tự Mơ hình chúng tơi kết hợp mơ hình ngơn ngữ n-gram mức từ mơ hình tạo từ sửa lỗi sử dụng mẫu ký tự sửa lỗi ngẫu nhiên điều khiển thuật toán HC để tạo xếp hạng từ sửa lỗi Kết tỷ lệ cải thiện lỗi mơ hình chúng tơi đề xuất tốt giải pháp khác ngoại trừ mơ hình Char-SMT/NMT Ngồi ra, mơ hình sử dụng thuật tốn SOMA mơ hình sử 38 dụng thuật tốn HC cho kết tương đương Điều có nghĩa hai mơ hình có khả tìm xếp hạng từ sửa lỗi cách xác hiệu Bảng 5.4 Kết sửa lỗi văn OCR tập văn chuyên khảo tiếng Anh Giải pháp Tỷ lệ cải thiện lỗi (%) MMDT 20 WFST-PostOCR 28 CLAM 29 Modifed- 30.2 prob.SLM Char-SMT/NMT 43 PST/SOMA 33.77* PST/HC đề xuất 33.71* * Sử dụng trọng số (p1, p2, p3, p4, p5) với giá trị (0.1, 0.1, 0.1, 0.2, 0.5) 5.2.3.1 Các trọng số mơ hình Dựa trọng số p1, p2, p3, p4 p5 hàm mục tiêu (Phương trình 5.6) nêu Phần 5.1.4, cần thiết để tiến hành thêm thí nghiệm để kiểm chứng giả thuyết sau Vì tính xác suất chỉnh sửa ký tự giúp khai thác đặc tính lỗi OCR đóng vai trị quan trọng việc tạo từ sửa lỗi mơ hình đề xuất, trọng số tính xác suất chỉnh sửa ký tự (p5) cài đặt giá trị cao so với tính khác Đồng thời, chúng tơi xem tính n-gram có vai trị đóng góp giống đến tổng trọng số Chúng tơi tiến hành thí nghiệm khác sau với trọng số (p1, p2, p3, p4, p5) để làm rõ câu hỏi trọng số với giá trị cho hiệu sửa lỗi cao nhất; vai trò mức độ đóng góp tính tính tương tự (p1), tính n-gram (các trọng số p2, p3 p4), xác suất chỉnh sửa ký tự (p5) việc sửa lỗi 39 Cho nên, cài đặt giá trị cho trọng số xem xét sau: p1 = {0.1, 0.2, 0.3, 0.4}, p2 = {0.1, 0.2, 0.3, 0.4}, p3 = {0.1, 0.2, 0.3, 0.4}, p4 = {0.1, 0.2, 0.3, 0.4} p5 = {0.4, 0.5, 0.6, 0.7, 0.8, 0.9} Vì kết hợp có trọng số dẫn đến cấu hình khác cho mơ hình sử dụng thuật tốn HC, có tổng cộng 15 trọng số theo ràng buộc p1 + p2 + p3 + p4 + p5 = Mục tiêu tìm trọng số tốt có thể, chẳng hạn tối ưu chất lượng sửa lỗi mơ hình đề xuất Bên kết sửa lỗi 15 trọng số (Bảng 5.5) Bảng 5.5 Kết sửa lỗi mơ hình đề xuất cho trọng số khác STT Bộ trọng số Tỷ lệ cải thiện lỗi (p1, p2, p3, p4, p5) (0.1, 0.1, 0.1, 0.3, 0.4) 1.91 (0.1, 0.1, 0.2, 0.2, 0.4) 1.95 (0.1, 0.1, 0.3, 0.1, 0.4) 1.64 (0.1, 0.2, 0.1, 0.2, 0.4) 2.03 (0.1, 0.2, 0.2, 0.1, 0.4) 1.70 (0.1, 0.3, 0.1, 0.1, 0.4) 1.97 (0.2, 0.1, 0.1, 0.2, 0.4) 33.69 (0.2, 0.1, 0.2, 0.1, 0.4) 33.73 (0.2, 0.2, 0.1, 0.1, 0.4) 33.75 10 (0.3, 0.1, 0.1, 0.1, 0.4) 33.72 11 (0.1, 0.1, 0.1, 0.2, 0.5) 33.69 12 (0.1, 0.1, 0.2, 0.1, 0.5) 33.68 13 (0.1, 0.2, 0.1, 0.1, 0.5) 33.74 14 (0.2, 0.1, 0.1, 0.1, 0.5) 33.71 15 (0.1, 0.1, 0.1, 0.1, 0.6) 2.71 Trong Bảng 5.5, trọng số trọng số tính xác suất chỉnh sửa ký tự (p5) 0.5 đạt kết sửa lỗi tốt số thí 40 nghiệm có STT từ đến 15 (tương ứng với trọng số có STT 11, 12, 13 14) Chúng có kết tương đương nhau, với tỷ lệ cải thiện lỗi khoảng 33.7% Nó cho thấy trọng số p5 0.5, thay đổi trọng số lại ảnh hưởng đến kết sửa lỗi, có nghĩa tính tương tự tính ngram có đóng góp vào việc sửa lỗi cấu hình trọng số Đối với trọng số có giá trị p5 0.4 (STT từ đến 10), hai trường hợp giá trị p1 quan sát Trong trường hợp với p1 0.1 (STT từ đến 6), tỷ lệ cải thiện lỗi cấu hình trọng số tương ứng tương đương khoảng 2%, cho chất lượng sửa lỗi thấp Mặt khác, cấu hình với p1 cài đặt 0.2 cao (STT từ đến 10) đạt chất lượng sửa lỗi tốt (khoảng 33.7%) giống với p5 0.5 Chúng ta thấy thay đổi giá trị trọng số tính n-gram tạo thay đổi nhỏ chất lượng sửa lỗi, điều chứng minh tính n-gram đóng vai trò giống việc sửa lỗi Cuối cùng, trọng số (0.1, 0.1, 0.1, 0.1, 0.6) cho thấy kết cải thiện lỗi thấp (2.74%) Để có nhìn sâu đóng góp lẫn tính xác suất chỉnh sửa ký tự tính tương tự lên tổng điểm (giá trị hàm mục tiêu), chúng tơi chạy thêm cấu hình trọng số khác, p1 p5 lấy giá trị từ tập hợp {0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9}; tính n-gram bỏ qua Ví dụ: p5 chọn 0.8, trọng số lại p1 = 0.2, p2 = p3 = p4 = Các kết trình bày Bảng 5.6 Nó cho thấy mơ hình khơng hoạt động tốt khơng có tính n-gram Điều có nghĩa tính n-gram quan trọng việc sửa lỗi phải đưa vào Bảng 5.6 Kết sửa lỗi mơ hình đề xuất cho kết hợp khác tính chỉnh sửa ký tự tính tương tự STT Bộ trọng số Tỷ lệ cải thiện lỗi (p1, p5) (0.1, 0.9) 2.62 (0.2, 0.8) 2.65 41 (0.3, 0.7) 2.61 (0.4, 0.6) 2.67 (0.5, 0.5) 2.68 (0.6, 0.4) 2.64 (0.7, 0.3) 2.91 (0.8, 0.2) 2.97 (0.9, 0.1) 2.96 Chúng tiếp tục thí nghiệm cấu hình trọng số đặc biệt khác, tính n-gram đóng góp phần lớn vào tổng trọng số Cụ thể, cài đặt p2 = p3 = p4 = 0.3, p1, p5 tập giá trị {0.03, 0.05, 0.07} Ví dụ, cấu hình trọng số (p1, p2, p3, p4, p5) = (0.03, 0.3, 0.3, 0.3, 0.07) Kết sửa lỗi trọng số mô tả Bảng 5.7 Kết cho thấy chất lượng sửa lỗi thấp Chúng không cải tiến việc sửa lỗi, chí văn sửa lỗi cịn văn OCR lúc đầu Bảng 5.7 Kết sửa lỗi mơ hình đề xuất cho kết hợp đặc biệt tính n-gram STT Bộ trọng số Tỷ lệ cải thiện lỗi (p1, p2, p3, p4, p5) (0.03, 0.3, 0.3, 0.3, 0.07) − 33.72 (0.05, 0.3, 0.3, 0.3, 0.05) − 33.51 (0.07, 0.3, 0.3, 0.3, 0.03) − 33.52 Tổng hợp kết ba Bảng 5.5, 5.6 5.7 trên, suy mơ hình đạt hiệu sửa lỗi cao với cấu hình (p1, p5) bao gồm (0.2, 0.4), (0.3, 0.4), (0.1, 0.5) (0.2, 0.5); tương ứng trọng số p2, p3, p4 chia sẻ phần trọng số lại 5.2.3.2 Tính ngẫu nhiên ổn định mơ hình Để đánh giá tính ngẫu nhiên mơ hình sử dụng thuật tốn HC, chúng tơi lặp lại thí nghiệm với trọng số (0.1, 0.1, 0.1, 0.2, 0.5) mười lần đánh giá 42 giá trị trung bình phương sai tỷ lệ cải thiện lỗi lần chạy (Bảng 5.8) Nó cho thấy tỷ lệ cải thiện lỗi xấp xỉ giá trị trung bình giá trị phương sai nhỏ tương ứng Điều chứng tỏ mơ hình sửa lỗi đề xuất gần từ sửa lỗi cho từ lỗi OCR thí nghiệm khác Bảng 5.8 Tỷ lệ cải thiện lỗi mơ hình đề xuất sử dụng thuật tốn HC STT Tỷ lệ Trung Phương cải thiện lỗi bình sai 33.7085 0.00454 33.8629* 33.7358 33.7277 33.6717 33.6717 33.6635 33.7417 33.6862 33.7315 10 33.5920 * Được làm tròn đến chữ số thập phân Thêm vào đó, để kiểm tra thêm tính ổn định mơ hình đề xuất, chúng tơi chạy hai nhóm thí nghiệm, nhóm bao gồm mười thí nghiệm lặp lại so sánh hiệu sửa lỗi chúng cách sử dụng kiểm định dấu hạng Wilcoxon [21] Hai trọng số tối ưu (0.1, 0.1, 0.1, 0.2, 0.5) (0.3, 0.1, 0.1, 0.1, 0.4) đạt hiệu sửa lỗi OCR cao phân tích sử dụng cho hai nhóm thí nghiệm Tỷ lệ cải thiện lỗi hai trọng số mơ tả Bảng 5.9 Nó kết tương tự mặt 43 thống kê nhóm thí nghiệm Cụ thể, liên quan đến hai nhóm thí nghiệm có cấu hình (0.1, 0.1, 0.1, 0.2, 0.5) Bảng 5.8 5.9, giá trị pvalue tính 0.6094 lớn mức ý nghĩa 0.05; giá trị 0.5536 hai cấu hình (0.1, 0.1, 0.1, 0.2, 0.5) Bảng 5.8 (0.3, 0.1, 0.1, 0.1, 0.4) Bảng 5.9 Theo kết thống kê trên, mơ hình đề xuất chúng tơi chứng tỏ ổn định với độ tin cậy cao theo cài đặt tham số Bảng 5.3 Bảng 5.9 Tỷ lệ cải thiện lỗi trọng số khác Bộ trọng số (0.1, 0.1, 0.1, 0.2, 0.5) Bộ trọng số (0.3, 0.1, 0.1, 0.1, 0.4) STT Tỷ lệ cải thiện Trung Phương Tỷ lệ cải thiện Trung Phương lỗi bình sai lỗi bình sai 33.6001 33.7353 33.7277 33.6717 33.6717 33.7358 33.7277 33.6001 33.6561 33.6717 33.6847 0.00196 33.6949 0.00183 33.6496 33.7277 33.6717 33.6717 33.7422 33.7277 33.7358 33.6717 10 33.6642 33.7358 44 Chương – KẾT LUẬN VÀ KIẾN NGHỊ Trong báo cáo này, chúng tơi trình bày mơ hình hậu xử lý văn OCR sử dụng mẫu ký tự sửa lỗi thuật tốn tối ưu Trong mơ hình sử dụng thuật toán tối ưu, từ sửa lỗi tìm thấy thơng qua mẫu ký tự sửa lỗi ngẫu nhiên điều khiển theo vòng lặp tiến hóa HC Mơ hình đề xuất có phương pháp trích xuất thơng tin lỗi OCR đơn giản mẫu ký tự sửa lỗi học trực tiếp từ tập liệu huấn luyện Thêm vào đó, việc chạy lại thuật toán chọn lại vị trí ký tự ngẫu nhiên áp dụng để giúp thuật toán leo đồi từ từ sở cải thiện chất lượng sửa lỗi Mơ hình đề xuất chứng minh hoạt động tốt phương pháp hậu xử lý văn OCR khác tập liệu văn OCR tiếng Anh ngoại trừ giải pháp Char-SMT/NMT Ngồi ra, thí nghiệm khác tính ngẫu nhiên thuật tốn đề xuất chứng minh ổn định với độ tin cậy cao cài đặt tham số thích hợp Trong tương lai, chúng tơi muốn kiểm tra mơ hình cài đặt khác thông số số bước, số lần chạy lại, số lượng tối đa mẫu ký tự sửa lỗi ngẫu nhiên kết hợp chúng để xem chúng ảnh hưởng đến chất lượng mơ hình 45 TÀI LIỆU THAM KHẢO [1] Aminul Islam and Diana Inkpen 2009 Real-word Spelling Correction Using Google Web 1T n-gram Data Set In Proceedings of the 18th ACM Conference on Information and Knowledge Management (CIKM ’09) ACM, New York, NY, USA, 1689-1692 https://doi.org/10.1145/1645953.1646205 [2] Islam A, Inkpen D 2009 Real-word spelling correction using Google Web IT 3-grams In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Stroudsburg, PA, USA, EMNLP ’09, vol 3, pp 1241-1249, https://doi.org/10.3115/1699648.1699670 [3] I Kissos and N Dershowitz 2016 OCR Error Correction Using Character Correction and Feature-Based Word Classifcation In 2016 12th IAPR Workshop on Document Analysis Systems (DAS) 198-203 https://doi.org/10.1109/DAS.2016.44 [4] Jie Mei, Aminul Islam, Abidalrahman Moh’d, Yajing Wu, and Evangelos Milios 2018 Statistical learning for OCR error correction Information Processing and Management 54, (2018), 874-887 https://doi.org/10.1016/j.ipm.2018.06.001 [5] T T H Nguyen, M Coustaty, A Doucet, A Jatowt, and N V Nguyen 2018 Adaptive Edit-Distance and Regression Approach for Post-OCR Text Correction Dobreva M., Hinze A., Žumer M (eds) Maturity and Innovation in Digital Libraries ICADL 2018 Lecture Notes in Computer Science 11279 (2018), 278-289 https://doi.org/10.1007/978-3-030-04257-8_29 [6] Quoc-Dung Nguyen, Duc-Anh Le, Nguyet-Minh Phan and Ivan Zelinka 2020 OCR Error Correction using Correction Patterns and Self-Organizing Migrating Algorithm Journal of Pattern Analysis and Applications, 24(2): 701 721 https://doi.org/10.1007/s10044-020-00936-y [7] Afli H, Barrault L, Schwenk H 2016 OCR Error Correction Using Statistical Machine Translation International Journal of Computational Linguistics and Applications 7(1):175-191 46 [8] Amrhein C, Clematide S 2018 Supervised OCR Error Detection and Correction Using Statistical and Neural Machine Translation Methods Journal for Language Technology and Computational Linguistics (JLCL), 33(1):49-76 https://doi.org/10.5167/uzh-162394 [9] Quoc-Dung Nguyen, Duc-Anh Le, and Ivan Zelinka 2019 OCR Error Correction for Unconstrained Vietnamese Handwritten Text In Proceedings of the Tenth International Symposium on Information and Communication Technology (SoICT 2019) Association for Computing Machinery, New York, NY, USA, 132-138 DOI: https://doi.org/10.1145/3368926.3369686 [10] Cong Duy Vu Hoang and Ai Ti Aw 2012 An Unsupervised and Datadriven Approach for Spell Checking in Vietnamese OCR-scanned Texts In Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data (HYBRID ’12) Association for Computational Linguistics, Stroudsburg, PA, USA, 36-44 [11] Phuong-Thai Nguyen, Xuan-Luong Vu, Thi-Minh-Huyen Nguyen, VanHiep Nguyen, and Hong-Phuong Le 2009 Building a Large Syntacticallyannotated Corpus of Vietnamese In Proceedings of the Third Linguistic Annotation Workshop (ACL-IJCNLP ’09) Association for Computational Linguistics, Stroudsburg, PA, USA, 182-185 [12] Aminul Islam and Diana Inkpen 2008 Semantic Text Similarity Using Corpus-based Word Similarity and String Similarity ACM Trans Knowl Discov Data 2, 2, Article 10 (July 2008), 25 pages https://doi.org/10.1145/1376815.1376819 [13] Nguyen DQ, Le AD, Phan MN, Zelinka I 2020 An In-depth Analysis of OCR Errors for Unconstrained Vietnamese Handwriting The 7th International Conference on Future Data and Security Engineering (FDSE 2020) Lecture Notes in Computer Science series 12466, pp 448–461 [14] Nguyen HTT, Jatowt A, Coustaty M, Nguyen VN, Doucet A 2019 Deep Statistical Analysis of OCR Errors for Effective Post-OCR Processing In: 2019 ACM/IEEE Joint Conf on Digital Libraries (Champaign, IL, USA), pp 29-38 47 [15] Chelba C, Mikolov T, Schuster M, Ge Q, Brants T, Koehn P, Robinson T 2014 One billion word benchmark for measuring progress in statistical language modeling In: INTERSPEECH 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14-18, 2014, pp 2635-2639 [16] Toan-Dinh Pham, Quoc-Dung Nguyen, Duc-Anh Le, Nguyet-Minh Phan and Pavel Kromer 2021 Candidate word generation for OCR errors using optimization algorithm The 1st International Conference on Van Lang Heritage and Technology, AIP Conference Proceedings 2406, 020028 https://doi.org/10.1063/5.0066687 [17] Toby Segaran, Jeff Hammerbacher, 2009 Beautiful Data: The Stories Behind Elegant Data Solutions O'Reilly Media, Inc [18] Chiron G, Doucet A, Coustaty M, Moreux J 2017 ICDAR2017 Competition on Post-OCR Text Correction 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) Kyoto, Japan 01:1423-1428, DOI 10.1109/ICDAR.2017.232 [19] Evershed, J., Fitch, K 2014 Correcting noisy OCR: Context beats confusion In: Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, DATeCH ’14, pp 45–51 https://doi.org/10.1145/2595188.2595200 [20] Schulz, S., Kuhn, J 2017 Multi-modular domain-tailored OCR postcorrection In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Copenhagen, Denmark, pp 2716–2726 https://doi.org/10.18653/v1/D17-1288 [21] S Garcia, D Molina, M Lozano, and F Herrera 2008 A Study on the Use of Non-Parametric Tests for Analyzing the Evolutionary Algorithms' Behaviour: A Case Study on the CEC'2005 Special Session on Real Parameter Optimization, Journal of Heuristics 15 48 CÔNG BỐ LIÊN QUAN CỦA NGHIÊN CỨU Toan-Dinh Pham, Quoc-Dung Nguyen, Duc-Anh Le, Nguyet-Minh Phan and Pavel Kromer 2021 Candidate word generation for OCR errors using optimization algorithm The 1st International Conference on Van Lang Heritage and Technology, AIP Conference https://doi.org/10.1063/5.0066687 49 Proceedings 2406, 020028

Định dạng
Số trang	49
Dung lượng	737,19 KB