1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Nghiên Cứu Giải Pháp Và Xây Dựng Phần Mềm Thử Nghiệm Chuyển Các Dòng Văn Bản Tiếng Việt Trong Hình Ảnh Sang Văn Bản Dạng Text.pdf

55 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,99 MB

Nội dung

TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI NGHIÊN CỨU GIẢI PHÁP VÀ XÂY DỰNG PHẦN MỀM THỬ NGHIỆM CHUYỂN CÁC DÒNG VĂN BẢN TIẾNG VIỆT TRONG HÌNH ẢNH SANG VĂN[.]

TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU GIẢI PHÁP VÀ XÂY DỰNG PHẦN MỀM THỬ NGHIỆM CHUYỂN CÁC DÒNG VĂN BẢN TIẾNG VIỆT TRONG HÌNH ẢNH SANG VĂN BẢN DẠNG TEXT VÕ HỒNG MINH BIÊN HỊA,THÁNG 06/2012 MỤC LỤC Trang Chƣơng - GIỚI THIỆU ĐỀ TÀI 1.1 1.2 1.3 1.4 Đặt vấn đề Mơ hình giải toán Mức độ phức tạp toán Phạm vi luận văn Chƣơng – PHÂN ĐOẠN ẢNH VĂN BẢN Nhị phân hoa ảnh số Thành phần liên thông 2.2.1 Khái niệm điểm lân cận 2.2.2 Thành phần liên thông 2.3 Phép chiếu profile 2.4 Đồ thị kề khối 10 2.5 Lọc nhiễu 16 2.6 Tách đoạn 18 2.6.1 Tách liên thông kỹ thuật đệ quy 19 2.6.2 Giải thuật cải tiến 20 2.7 Xử lý nghiên 21 2.8 Tách dòng 13 2.8.1 Tách dòng dựa vào thành phần liên thông 23 2.9 Tách từ 24 2.10 Tách ký tự 25 2.11 Chuần kích thước 26 2.11.1 Lắp khoảng trống ảnh phép đóng morphology 26 2.1 2.2 Chƣơng - TRÍCH CHỌN ĐẶC TRƢNG VÀ NHẬN DẠNG 3.1 3.2 Trích chọn đặc trưng 28 3.1.1 Trích chọn đặc trưng theo cấu trúc 28 3.1.2 Trích chọn đặc trưng theo hướng hình học 31 Tổng quan xây dựng huấn luyện mạng neural 33 3.2.1 Mơ hình neural nhân tạo 33 3.2.2 Các kiểu hoc với mạng neural 48 3.2.3 Tổng quan thuật toán học 37 Chƣơng – XÂY DỰNG PHẦN MỀM 4.1 4.2 Sơ đồ xử lý chương trình 40 Xây dựng chương trình 41 4.2.1 Môi trường phát triển 41 4.2.2 Sơ đồ thiết kế 41 4.2.3 Các engine xử dụng chương trình 42 4.2.4 Danh sách class 42 Chƣơng – THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 5.1 Thử nghiệm 43 5.2 Đánh giá kết 46 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận 47 Hướng phát triển 47 Tài liệu tham khảo 48 DANH MỤC CÁC HÌNH VẺ, SƠ ĐỒ Hình 1.1 Sơ đồ hệ nhận dạng văn tiếng việt Hình 1.2 Ảnh hưởng chất lượng văn đến kết nhận dạng Hình 2.1 Ví dụ điểm ảnh Hình 2.2 Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân Hình 2.3 Ví dụ lân cận lân cận Hình 2.4 Ví dụ thành phần liên thông Hình 2.5 Ví dụ thành phần liên thông Hình 2.6 Profile phép chiếu ngang Hình 2.7 Các Profile chiếu ngang dọc ảnh văn 10 Hình 2.8 Đồ thị BAG 11 Hình 2.9 Hình bao liên thơng 12 Hình 2.10 Quy trình tách văn chuẩn hóa 13 Hình 2.11 Khoảng cách theo chiều ngang theo chiều dọc 15 Hình 2.12 Một ảnh văn trước sau lọc nhiễu muối tiêu 16 Hình 2.13Mơ hình nhiễu cộng 17 Hình 2.14 Phân tích top-down 19 Hình 2.15Gán nhãn cho thành phần liên thơng 21 Hình 2.16 Đường thẳng Hough tọa độ cực 22 Hình 2.17 Biến đổi Hough phát góc ngiêng 23 Hình 2.18 Biểu đồ phân cách ngưỡng 24 Hình 2.19 Các vị trí xác, vị trí cắt nhập nhằng 25 Hình 3.1 Ảnh ban đầu ảnh sau bao 32 Hình 3.2 Mặt na Sobel theo hai hướng X Y 32 Hình 3.3 Mơ hình neural sinh học 35 Hình 4.1 Sơ đồ xử lý chương trình 40 Hình 4.2 Sơ đồ thiết kế chương trình 41 Hình 5.1 Ảnh văn đầu vào đơn cột, kiểu font: Arial, Cambria, Times New Roman, Tahoma, cỡ font: 16 cho kết nhận dạng xác 100% 43 Hình 5.2 Chương trình cho phép lựa chọn vùng ảnh cần nhận dạng 44 Hình 5.3 Chương trình nhận dạng tốt ảnh văn có chèn hình 44 DANH MỤC CÁC BẢNG Bảng 3.1 Các luật đặc trưng cấu trúc 29 Bảng 4.1 Danh sách class chương trình 42 Bảng 5.1 Thử nghiệm chương trình với font Times New Roman 45 Bảng 5.2 Thử nghiệm chương trình với font Arial 46 LỜI MỞ ĐẦU Những năm gần đây, nhu cầu số hóa tài liệu ngày bùng nổ Hiện nước ta, tất yêu cầu lưu trữ tài liệu, dịch thuật tự động…đều thực tốt có phần mệm nhận dạng chữ in tiếng Việt hiệu quả, có độ xác cao độ thực thi nhanh Hiện thị trường có số phần mềm nhận dạng chữ in tiếng Việt, nhiên kết nhận cịn có nhiều hạn chế Do việc nghiên cứu phương pháp để xây dựng hệ nhận dạng văn tiếng Việt vấn đề quan trọng có ý nghĩa cao thực tiễn Dó lý tơi chọn đề tài” Nghiên cứu giải pháp xây dựng phần mềm thử nghiệm chuyển dịng văn tiếng việt hình ảnh sang văn dạng text” để làm đề tài nghiên cứu khoa học, đề tài chia thành chương với nội dung sau: Chƣơng – Giới thiệu đề tài: đặt vấn đề, giới thiệu cơng trình liên quang, đưa mơ hình giải tốn, khó khăn cần phải giải quyết, phạm vi đề tài Chuong – Phân đoạn ảnh văn bản: trình khái niệm sở ảnh văn Nêu bước tiến hành để lọc nhiểu, chình nghiên, tách lấy phần văn từ ảnh phân thành đoạn, dòng, ký tự Chƣơng – Trích chọn đặc trƣng nhận dạng: trình thuật tốn trích chọn lấy phần tiêu biểu, đặc trưng ký tự để làm đầu vào mơ hình học máy Trình vài cách thức dùng mạng Neural để huấn luyện nhận dạng ký tự Chƣơng – Xây dựng phần mềm: trình sơ đồ xây dựng quy trình xử lý chương trình, liệt kê mơt số class Chƣơng – Thử nghiệm đánh giá kết quả: thử nghiệm chương trình nhiều liệu khác nhau, có so sách với chương trình khác Luận văn tập trung nghiên cứu lý thuyết toán nhận dạng chữ in tiếng việt cài đặt chương trình với độ xác cao tốc độ tương đối nhanh văn tiếng Việt nhiều kiểu font cỡ font khác Trong tương lai, tơi cố gắng hồn thiện phát triển thêm chức chương trình để xây dựng phiên thực thi tảng điện thoại di động Chương GIỚI THIỆU ĐỀ TÀI 1.1 Đặt vấn đề Ngày công nghệ thông tin ngành khoa học tốc độ phát triển nhanh toàn giới Những ứng dụng công nghệ thông tin rộng khắp tất lỉnh vực khoa học như: giáo dục, y tế, kinh tế, văn hóa,… góp phần giúp đời sống người ngày đại giảm công việc nặng nhọc đời sống ngày Nhận dạng xử lý ảnh chuyên ngành tin học có tầm ứng dụng to lớn Có thể kể hàng loạt lĩnh vực áp dụng kỹ thuật nhận dạng ảnh như: xử lý ảnh chụp vệ tinh, dự báo thời tiết, điều khiển giao thông công cộng, nhận dạng vân tay, nhận dạng mặt người,….Hiện đề tài cơng trình nghiên cứu chuyển đổi văn tiếng việt từ hình ảnh cịn hạn chế chưa đạt kết mong muốn hướng nhà nước ưu tiên phát triển Đề tài nhằm đáp ứng nhu cầu xử lý , nhận dạng ngôn ngữ tiếng Việt tập trung nghiên cứu phương pháp tách văn tiếng Việt từ hình ảnh chứa văn ( ảnh thu thơng qua máy scanner), từ xây dựng chương trình thử nghiệm 1.2 Mơ hình giải tốn Bài tốn nhận dạng văn tiếng Việt thực qua ba giai đoạn chính: phân đoạn ảnh, nhận dạng kí tự hậu xử lý Được thể qua sơ đồ đây: Hình 1 Sơ đồ hệ nhận dạng văn tiếng Việt Đầu vào hệ thống nhận dạng hình ảnh scan từ văn tiếng Việt tập tin hình ảnh chứa văn tiếng Việt Đầu văn nhận dạng Để xử lý điều hệ thống nhận dạng trải qua giai đoạn cụ thể sau: Phân đoạn ảnh: Giai đoạn có nhiệm vụ loại bỏ nhiễu nhằm nâng cao chất lượng hình ảnh đầu vào Sau thực việc nhị phân hóa, chỉnh nghiêng, tách đoạn, tách dịng, tách từ, tách kí tự Nhận dạng kí tự: Đầu vào giai đoạn ảnh kí tự, đầu kí tự nhận dạng Thơng thường phần sử dụng thuật toán máy học (dùng mạng Neural, mơ hình Markov ẩn máy SVM) đối sánh mẫu Hậu xử lý: Tổng hợp kí tự nhận dạng hiển thị lên giao diện người dùng Điều chỉnh nhận dạng sai dùng từ điển mơ hình ngơn ngữ 1.3 Mức độ phức tạp tốn Nếu phân chia q trình đọc văn thành tác vụ hệ nhận dạng thực tác vụ chật vật khơng phải mang lại kết mong muốn Nhiều hệ thống nhận dạng làm việc tốt với trang văn rõ nét, xét tổng thể cịn khoảng cách lớn tính hệ nhận dạng đòi hỏi thực tế Thực tế trang văn không đạt mức độ sẽ, chuẩn mực hoàn toàn Nhiễu bẩn vấn đề lớn hệ OCR, cần vài chấm mực nhỏ chữ c biến thành chữ o, chữ j thành chữ i Nếu tài liệu qua photocopy nét mảnh trở thành đứt đoạn, lỗi nhiều nhiều hệ OCR chuyển ô liền nét thành chữ riêng Nếu văn có phong phú kiểu font chữ thách thức lớn với hệ thống nhận dạng Các kiểu font chữ mang tính nghệ thuật ngày nhiều Ngoài phức tạp font chữ nhiễu ra, hệ OCR phải giải vấn đề kích cỡ chữ khác nhau, góc nghiêng, bố cục văn bản, hệ thống dấu thanh…Vì thuật toán nhận dạng phải đủ mềm dẻo để xử lý khía cạnh phức tạp Nếu khơng đủ mềm dẻo khác biệt bé kiểu chữ đòi hỏi quản lý xử lý riêng Ngược lại, q mềm dẻo lỗi nhiều, chẳng hạn chữ b chữ h khác khơng nhiều bị đồng làm Hình Ảnh hưởng chất lượng văn đến kết nhận dạng 1.4 Phạm vi đề tài:  Đề tài “Nghiên cứu giải pháp xây dựng phần mềm thử nghiệm chuyển dòng văn tiếng việt hình ảnh sang văn dạng text” tập trung vào việc trình bày quy trình tổng quát để giải toán nhận dạng văn in tiếng Việt làm rõ phương pháp để giải phần quy trình Có phân tích, so sánh, đánh giá phương pháp với nhằm tìm phương pháp tối ưu để giải tốn  Xây dựng chương trình nhận dạng văn in tiếng Việt với độ xác cao (khoảng 80%) với văn scan có chất lượng tốt Tốc độ nhận dạng cao (thời gian nhận dạng trung bình 3-5 giây trang) Hình 3.3 Mơ hình neural sinh học Có thể tóm tắt hoạt động neural sau: neural lấy tổng tất điện vào mà nhận được, phát xung điện tổng lớn ngưỡng Các neural nối với synapses Synapse gọi mạnh cho phép truyền dẫn dễ dàng tín hiệu qua neural khác Ngược lại, synapse yếu truyền dẫn tín hiệu khó khăn 3.2.2 Các kiểu học với mạng Neural Về ta hiểu mạng neural đồ thị có hướng Trong số đỉnh đồ thị số neural mạng, giá trị cạnh trọng số liên kết neural Thuật toán xây dựng đồ thị biểu diễn mạng Neural sau: Đầu vào: Mạng neural có số lớp > Mỗi lớp có số neural lớp (số neural >= 1) Trọng số w liên kiết neural ngẫu nhiên khoảng (-a, a) Đầu ra: Mạng neural nhân tạo Kiểu liệu: chọn lưu kiểu mảng : 35 int số lớp, int số neural[số lớp], float w[i][j][k], với

Ngày đăng: 19/06/2023, 16:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w