Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text báo cáo nghiên cứu khoa học giáo viên
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 49 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
49
Dung lượng
1,78 MB
Nội dung
1 TÀI 1.1 Ngày nay công nghệ thông tin là ngành khoahọc mới nhưng tốc độ phát triển rất nhanh trên toàn thế giới. Những ứng dụng của công nghệ thông tin cũng rộng khắp trong tất cả các lỉnh vực khoahọc như: giáo dục, y tế, kinh tế, văn hóa,… nó góp phần giúp đời sống con người ngày càng hiện đại giảm đi những công việc nặng nhọc trong đời sống hằng ngày. Nhận dạngvà xử lý ảnh cũng là một trong những chuyên ngành của tin học có tầm ứng dụng to lớn. Có thể kể ra hàng loạt các lĩnh vực áp dụng kỹ thuật nhận dạngảnh như: xử lý ảnh chụp vệ tinh, dự báo thời tiết, điều khiển giao thông công cộng, nhận dạngvân tay, nhận dạng mặt người,….Hiện nay các đề tài và công trình nghiêncứu về chuyển đổi vănbảntiếngviệt từ hìnhảnhvẫn còn hạn chế và chưa đạt được kết quả như mong muốn mặc dù đây là một hướng được nhà nước ưu tiên phát triển. Đề tài này nhằm đáp ứng các nhu cầu hiện nay về xử lý , nhận dạng ngôn ngữ tiếngViệtvà tập trung nghiêncứucác phương pháp tách vănbảntiếngViệt từ hìnhảnh chứa vănbản ( những tấm ảnh này có thể được thu thông qua máy scanner), từ đó xâydựng chương trình thử nghiệm. 2 1.2 Bài toán nhận dạngvănbảntiếngViệt được thực hiện qua ba giai đoạn chính: phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Được thể hiện qua sơ đồ dưới đây: 3 Đầu vào hệ thống nhận dạng của chúng ta là một hìnhảnh scan từ một vănbảntiếngViệt hoặc một tập tin hìnhảnh chứa vănbảntiếngViệt bất kì. Đầu ra là một vănbản đã được nhận dạng. Để xử lý được điều này hệ thống nhận dạng của chúng ta sẽ trải qua giai đoạn cụ thể như sau: 1. Giai đoạn này có nhiệm vụ loại bỏ nhiễu nhằm nâng cao chất lượng hìnhảnh đầu vào. Sau đó thực hiện việc nhị phân hóa, chỉnh nghiêng, tách đoạn, tách dòng, tách từ, tách kí tự. 2. Đầu vào của giai đoạn này là ảnh của một kí tự, đầu ra là kí tự nhận dạng được. Thông thường trongphần này sử dụng một thuật toán máy học (dùng mạng Neural, mô hình Markov ẩn hoặc máy SVM) hoặc một bộ đối sánh mẫu. 3. Tổng hợp các kí tự nhận dạng được và hiển thị lên giao diện người dùng. Điều chỉnh nhận dạng sai dùng từ điển hoặc mô hình ngôn ngữ. 1.3 Nếu phân chia quá trình đọc vănbản thành các tác vụ cơ bản thì các hệ nhận dạng hiện nay thực hiện các tác vụ đó khá chật vật và không phải khi nào cũng mang lại kết quả mong muốn. Nhiều hệ thống nhận dạng đã làm việc khá tốt với các trang vănbản rõ nét, nhưng xét tổng thể thì vẫn còn khoảng cách khá lớn giữa tính năng của các hệ nhận dạngvà đòi hỏi thực tế. Thực tế các trang vănbản không bao giờ đạt được mức độ sạch sẽ, chuẩn mực hoàn toàn. Nhiễu bẩn hiện tại là một vấn đề lớn đối với các hệ OCR, bởi vì chỉ cần một vài chấm mực nhỏ chữ c có thể biến thành chữ o, hoặc chữ j thành chữ i . Nếu tài liệu đã qua photocopy thì các nét mảnh có thể trở thành đứt đoạn, khi đó lỗi sẽ rất nhiều vì nhiều hệ OCR sẽ chuyển mỗi ô liền nét thành một chữ cái riêng. Nếu vănbản có rất sạch sẽ đi chăng nữa thì sự phong phú của các kiểu font chữ cũng là một thách thức lớn với các hệ thống nhận dạng. Các kiểu font chữ mang tính nghệ thuật ngày càng nhiều. Ngoài sự phức tạp về font chữ và nhiễu ra, các hệ OCR cũng phải giải quyết cácvấn đề về kích cỡ chữ khác nhau, góc nghiêng, bố cục văn bản, hệ thống dấu thanh…Vì thế các thuật toán nhận dạng phải đủ mềm dẻo để xử lý các khía cạnh phức tạp này. Nếu không đủ mềm dẻo thì một khác biệt rất bé của kiểu chữ cũng đòi hỏi quản lý và xử lý riêng. Ngược lại, quá mềm dẻo thì lỗi có thể rất nhiều, chẳng hạn chữ b và chữ h khác nhau không nhiều có thể bị đồng nhất làm một. 4 1.4 tài: Đề tài “Nghiên cứugiảiphápvàxâydựngphầnmềmthửnghiệmchuyểncácdòngvănbảntiếngviệttronghìnhảnhsangvănbảndạng text” tập trung vào việc trình bày một quy trình tổng quát để giải quyết bài toán nhận dạngvănbản in tiếngViệtvà làm rõ phương pháp để giải quyết từng phầntrong quy trình. Có sự phân tích, so sánh, đánh giá giữa các phương pháp với nhau nhằm tìm ra phương pháp tối ưu để giải quyết bài toán. Xâydựng một chương trình nhận dạngvănbản in tiếngViệt với độ chính xác cao (khoảng 80%) với cácvănbản scan có chất lượng tốt. Tốc độ nhận dạngcao (thời gian nhận dạng trung bình 3-5 giây trên mỗi trang). 5 Ảnh số được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ được coi là những thành tố của bức ảnh gọi là điểm ảnh (pixel). Giá trị mỗi điểm ảnh được gán cho một số nguyên biểu diễn màu sắc tại điểm ảnh đó. Đầu vào của hệ thống là một ảnh có màu bất kì, nhưng để thực hiện được việc phân đoạn ảnh thì bắt buộc phải thực hiện trên ảnh nhị phân. Về cơ bản quá trình này sẽ thực hiện chuyểnảnh màu thành ảnh đa mức xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị Red, Green, Blue của ảnh đầu vào. Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm ảnh với một ngưỡng cho trước để quyết định điểm ảnh đó sẽ là 0 hoặc 1. 6 Quá trình chuyểnảnh đa mức xám sangảnh nhị phân nhằm phân hoạch một bức ảnh ra làm 2 phần, một phần chứa các đối tượng (object hay foreground) trong bức ảnhvàphần kia chứa nền ảnh. Quá trình này gọi là phân hoạch ngưỡng (thresholding segmentation) được thực hiện nhờ vào hàm phân ngưỡng, trong trường hợp phân hoạch đơn ngưỡng thì công thức được sử dụng như sau: Dest (x,y) = Trong đó, Source(x,y) là giá trị điểm ảnh ở vị trí (x,y) của ảnh nguồn, Dest(x,y) là giá trị điểm ảnh tương ứng ở vị trí (x,y) của ảnh đích và T là giá trị ngưỡng. Nếu sử dụng một T duy nhất cho toàn bộ bức ảnh, có nghĩa là công thức trên áp dụng cho toàn ảnhtrong quá trình phân hoạch thì ta gọi đó là cách dùng ngưỡng toàn cục (global thresholding). Ngược lại nếu sử dụng ngưỡng khác nhau tùy theo từng vùng trong ảnh, T biến thiên theo từng vị trí khác nhau và được tính toán lại tại từng vùng ảnh, có nghĩa là công thức trên áp dụng cho từng vùng cục bộ của ảnh với T thay đổi thì đó gọi là phương phápdùng ngưỡng cục bộ (local thresholding). Trong Đề tài này sử dụng phương phápphân ngưỡng thích nghi (adaptive thresholding) theo phương pháp Otsu. Ý tưởng chính của phương pháp này là tính ngưỡng T một cách tự động dựa vào giá trị điểm ảnh của ảnh đầu vào. Phương pháp này cho kết quả là mỗi ảnh khác nhau có một ngưỡng tương ứng khác nhau bằng các bước xử lý như sau: 1. Thường chọn giá trị mang tính công thức, ví dụ T = (min + max) / 2, T = giá trị trung bình, . tránh dùngcác giá trị mang tính định lượng thiết lập cứng). 2. Kết quả của bước này sẽ tạo ra 2 nhóm điểm ảnh: G1 chứa tất cả các điểm ảnh với giá trị (intensity) > T và G2 chứa các điểm ảnh với giá trị (intensity) <= T. 3. Tính trung bình: Tính trung bình m1 và m2 của các điểm ảnh thuộc G1 và G2. 4. T = (m1 + m2) / 2 5. Lặp lại bước 2 đến 4 cho tới khi nào giá trị chênh lệch giữa T cũ và T mới là không đáng kể (nhỏ hơn một giá trị cho trước Delta T). Delta T thường được sử dụng là sai số từ các phép tính toán trong quá trình xử lý. 7 Cho một điểm P với tọa độ (x, y), khi đó bốn điểm N 1 (x + 1, y), N 2 (x – 1, y), N 3 (x, y + 1), N 4 (x, y – 1) được gọi là lân cận 4 của điểm P. Các điểm : N 1 (x + 1, y), N 2 (x – 1, y), N 3 (x, y + 1), N 4 (x, y – 1) N 5 (x - 1, y - 1), N 6 (x – 1, y + 1), N 7 (x + 1, y - 1), N 8 (x + 1, y + 1) Tám điểm N 1 đến N 8 được gọi là lân cận 8 của điểm P. Hình 2.3 Hai điểm P 1 , P 2 được gọi là liên thông bốn với nhau nếu thỏa mãn một trong hai điều kiện: P 2 là lân cận bốn của P 1 (hoặc P 1 là lân cận bốn với P 2 ) Tồn tại điểm P 3 mà P 3 là lân cận bốn của P 2 và P 3 là lân cận bốn của P 1 . 8 Hình 2.4 Hai điểm P 1 , P 2 được gọi là liên thông tám với nhau nếu thỏa mãn một trong hai điều kiện: P 2 là lân cận tám của P 1 (hoặc P 1 là lân cận tám với P 2 ) Tồn tại điểm P 3 mà P 3 là lân cận tám của P 2 và P 3 là lân cận tám của P 1 . Hình 2.5 Để thực hiện phân đoạn trong nhận dạng, người ta thường sử dụng phép chiếu hình chữ nhật bao. Dưới đây là một số khái niệm cơ sở: Là tổng các điểm đen của hàng thứ i trên ảnh, được kí hiệu bằng vector đặc trưng V[i] 9 Với: V[i]: Tổng các điểm đen của hàng thứ i trên ảnh. S[i,j]: Giá trị của điểm ảnh tại hàng i cột j (giá trị này bằng 1 nếu là điểm đen trongảnh nhị phân). m: Số dòngảnh quét Là tổng các điểm đen của một cột j, được kí hiệu bằng vector đặc trưng H[j] Với: H[j]: Tổng các điểm đen của cột thứ j trên ảnh. S[i,j]: Giá trị của điểm ảnh tại hàng i cột j (giá trị này bằng 1 nếu là điểm đen trongảnh nhị phân). m: Số cột ảnh quét Hình 2.6 10 Hình 2.7 Một trang ảnh nhị phân P được biểu diễn bởi đồ thị kề khối BAG (Block Adjacent Graph), kí hiệu B = (N, E) với: N = {n i }: tập các nút E = {e(n i , n j ) | n i , n j N}: tập các cạnh nối nút n i và n j Mỗi nút n i là một khối gồm một hay nhiều đường chạy (run length) xếp chồng lên nhau với các biên trái, phải tương đối thẳng hàng (lệnh khác một đơn vị điểm ảnh). Mỗi nút (khối) được đặc tả bởi các tọa độ hình chữ nhật biên (góc trên bên trái (X u , Y u ) và góc dưới bên phải (X e , Y e )). . Đề tài Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text tập trung vào việc. ứng các nhu cầu hiện nay về xử lý , nhận dạng ngôn ngữ tiếng Việt và tập trung nghiên cứu các phương pháp tách văn bản tiếng Việt từ hình ảnh chứa văn bản