2. Nội dung chớnh của bỏo cỏo
2.2 Những nội dung đó thực hiện
2.2.2 Nghiờn cứu phỏt triển kỹ thuật nhận dạng chữ in và
Mục tiờu
Nhu cầu tự động hoỏ văn phũng đó thỳc đẩy sự ra đời của cỏc chương trỡnh nhận dạng văn bản, nhận dạng tiếng núi. Chương trỡnh nhận dạng chữ Việt in VnDOCR phiờn bản 1.0 ra đời (trong khuụn khổ của đề tài thuộc chương trỡnh KHCN01-10) nhằm đỏp ứng nhu cầu núi trờn. Phiờn bản nõng cấp VnDOCR 3.0 là một nội dung nghiờn cứu của đề tài KC01-03, nõng cao chất lưọng nhận dạng.
Phương phỏp
Trong chương trỡnh này, việc nhận dạng văn bản dựa chủ yếu vào cỏc thuật toỏn nhận dạng và cho kết quả khỏ tốt đối với văn bản đầu vào rừ nột, sạch sẽ. Mụ hỡnh của quỏ trỡnh nhận dạng trong VnDOCR 3.0 được biểu diễn như sau:
− Khối nhận dạng OCR: thực hiện cỏc thuật toỏn nhận dạng, đầu vào là ảnh của văn bản, đầu ra là văn bản thụ, chưa sửa chớnh tả.
− Khối tự động kiểm tra chớnh tả: Kiểm tra văn bản thụ, tự động sửa những lỗi chớnh tả đơn giản, đỏnh dấu những cụm ký tự sai chớnh tả khụng tự động sửa được. Khối kiểm tra chớnh tả bỏn tự động: cựng với người dựng, sửa những lỗi chớnh tả cuối cựng trước khi đưa ra văn bản hoàn chỉnh
Phương phỏp nhận dạng
Nghiờn cứu hai thành phần chủ yếu trong một thuật toỏn nhận dạng là trớch chọn đặc tớnh (feature extraction) và phõn loại (classification) dựa trờn đặc tớnh:
• Cỏc đặc tớnh của ký tự được trớch chọn bằng cỏch tiếp cận thống kờ cú kết hợp với cỏch tiếp cận cấu trỳc đảm bảo tớnh nhận dạng khụng cần khai bỏo font (omnifont) và kớch cỡ chữ. Hai cỏch tiếp cận trờn là những cỏch tiếp cận truyền thống trong nhận dạng, tuy nhiờn cỏc tỏc giả của sản phẩm đó đề xuất một cỏch tiếp cận tổ hợp (xem bài bỏo [7, 9, 10, 11]) và đó chứng tỏ tớnh hiệu quả của cỏch tiếp cận tổ hợp này trong chất lượng của phần mềm.
Theo cỏch tiếp cận của chỳng tụi, cỏc ký tự ảnh được rỳt gọn vào khung m x n (đó thử nghiệm trờn khung 8 x 8 và 16 x 16), sau đú thật toỏn phõn loại được ỏp dụng trờn cỏc khung này.
Ảnh bitmap của kớ tự và ma trận mẫu tương ứng.
Để biểu diễn bản chất của thuật toỏn do cỏc kớ tự được biểu diễn như một ma trận nhị phõn kớch thước m x n, dưới đõy đưa ra một khỏi niệm cơ bản của thuật toỏn về tớnh nhỳng của một ma trận này vào trong một ma trận khỏc. Từ mục tiờu đú cần cú định nghĩa một ma trận nhỏ nhất trong một tập cỏc ma trận, độ khỏc biệt của hai ma trận và độ khỏc biệt của một ma trận so với lớp cỏc ma trận. Mục tiờu cuối cựng là phải tỡm ra một ma trận cú độ khỏc biệt nhỏ nhất so với tập cỏc lớp ma trận mẫu.
Gọi Tm x n = {tp}m x n là tập cỏc ma trận nhị phõn của cỏc kớ tự kớch thước m x n
Định nghĩa 1: Giả sử hai ma trận t1, t2 ∈ T. Ta núi rằng t1 được nhỳng trong t2
(kớ hiệu bởi t1 t2) nếu t1[i, j ] ≤ t2[i, j] với ∀i = 1, 2, ..., m, ∀j = 1, 2, ..., n
Định nghĩa 2: Giả sử C ⊆ T, t ∈ C. ta núi rằng t là ma trận nhỏ nhất trong C
nếu ti ∈ C: t ti
Định nghĩa 3: Giả sử hai ma trận t1, t2 ∈ T. Độ khỏc biệt của t1 với t2 được định nghĩa như sau:
d(t1, t2') = card ({(i,j)⏐ t1[i,j] < t2[i,j] }) .
Định nghĩa 4: Giả sử ma trận t ∈ T, Cq ⊆ T. Độ khỏc biệt của t với Cq được
định nghĩa như sau:
d(t, Cq) = min d(t, t') t’∈Cq
Định nghĩa 5: Giả sử ma trận t ∈ T, C1, C2, ...CK ⊆ T. Ta núi rằng Cq , q ∈ {1,
d(t, Cq) = min d(t, ,Cj) 1 ≤j ≤K
Túm lại, núi một cỏch mụ tả, bài toỏn nhận dạng đặt ra là giả sử tồn tại K lớp mẫu chữ Cj, j=1, ..., K, khi xuất hiện một chữ mới ta cần xếp nú vào một trong cỏc lớp này sao cho thoả món định nghĩa 5.
• Thuật toỏn phõn loại mẫu học (tập cỏc ký tự cần nhận dạng) được phõn thành 2 giai đoạn với mục đớch tăng tốc độ và độ chớnh xỏc:
- Thuật toỏn phõn loại thụ (dựng để phõn nhúm cỏc chữ đồng dạng về mặt cấu trỳc)
- Thuật toỏn phõn loại mịn (cỏc hàm đỏnh giỏ và đối sỏnh phức tạp dần)
- Tiờu chuẩn đối sỏnh nhanh dựa trờn nghiờn cứu và đề xuất độ đo đồng dạng giữa hai ảnh ký tự.
Phương phỏp kết hợp kiến thức chớnh tả
Tuy nhiờn, khi gặp cỏc văn bản bị mờ khiến chữ bị đứt nột hoặc cỏc văn bản nhoố khiến cỏc chữ bị dớnh với nhau thỡ chất lượng nhận dạng vẫn cũn chưa cao. Việc phỏt triển cỏc thuật toỏn nhận dạng để giải quyết vấn đề trờn rất khú thực hiện và cũng chỉ cú giới hạn nhất định. Do đú, cần cú thờm kiến thức về đối tượng được nhận dạng để cải tiến chất lượng nhận dạng. Đối tượng đú chớnh là văn bản tiếng Việt. Kiến thức về văn bản tiếng Việt phự hợp với việc ỏp dụng cho mỏy tớnh thực hiện là chớnh tả tiếng Việt. Như vậy cần phải kết hợp kiến thức về chớnh tả tiếng Việt để gúp phần làm nõng cao chất lượng nhận dạng. Đõy cũng là hướng tiếp cận của cỏc chương trỡnh nhận dạng văn bản nổi tiếng trờn thế giới.
Với khối tự động kiểm tra chớnh tả, yờu cầu của khối này là: 1/ Hạn chế tối đa việc sửa õm tiết đỳng thành sai, 2/ Sửa được một số lượng đỏng kể số lỗi trờn văn bản thụ, 3/ Thời gian thực hiện phải đủ nhanh sao cho người dựng nhanh chúng cú được văn bản hoàn chỉnh hơn là hoàn toàn sửa lỗi bằng tay.
Vấn đề là tỡm được một cỏch tiếp cận sửa lỗi chớnh tả sao cho phự hợp với những yờu cầu đó đề ra. Như đó trỡnh bày ở trờn, cỏch tiếp cận ở mức độ từ vựng và cỳ phỏp, ngữ nghĩa hiện vẫn cũn là những vấn đề khú, cỏc thuật toỏn hiện thời đũi hỏi nhiều thời gian và độ chớnh xỏc chưa cao. Với những gỡ đó trỡnh bày ở mục 2 thỡ ta thấy cỏch tiếp cận sửa lỗi chớnh tả ở mức õm tiết đảm bảo thoả món điều kiện 1/ và 3/ so với hai cỏch tiếp cận cũn lại. Hơn nữa, trong thực tế số lượng cỏc lỗi sai thực sự về mặt õm tiết ở văn bản thụ đối với ảnh đầu vào chất lượng kộm là khỏ lớn nờn nếu được thực hiện tốt cỏch tiếp cận này sẽ đảm bảo thoả món được điều kiện 2/. Thụng thường, lỗi chớnh tả được xử lý theo thứ tự: Âm tiết - Từ vựng - Ngữ nghĩa. Sau đõy là một số phương phỏp được sử dụng trong VnDOCR 3.0. − Phỏt hiện sai: Cỏc phương phỏp phỏt hiện sai đều khụng thể hoàn toàn chớnh
xỏc và đều cú lỗi. Lỗi sai gồm cú 2 loại: õm tiết đỳng được coi là sai và õm tiết sai được coi là đỳng. Như vậy, thuật toỏn phỏt hiện sai phải đề ra những tiờu
chuẩn nhận biết cỏc trường hợp trờn, trỏnh việc sửa nhầm. Túm lại sử dụng những cỏch đoỏn nhận như trờn ta vẫn phải chấp nhận một tỷ lệ sai nào đú. Trong quỏ trỡnh kiểm nghiệm thực tế cú thể đưa ra thờm một số tiờu chuẩn mới hoặc điều chỉnh lại cỏc tiờu chuẩn đó đề ra để giảm tỷ lệ lỗi đối với cỏc loại văn bản thụng dụng.
− Sửa sai: Quỏ trỡnh sửa sai gồm hai bước: 1/ Từ một õm tiết bị sai tỡm ra cỏc õm tiết đỳng tương ứng, cỏc õm tiết đỳng này là cỏc ứng cử viờn. 2/ Chọn ra trong số cỏc ứng cử viờn núi trờn một ứng cử viờn cú khả năng là đỳng nhất. Cỏc phương phỏp sửa chủ yếu sử dụng luật cấu tạo õm tiết và sử dụng kiến thức liờn quan đến vị trớ và mối liờn hệ giữa cỏc ký tự. Lựa chọn õm tiết đỳng trong nhiều khả năng sử dụng điểm về n-gram của nú cao.
Quỏ trỡnh kiểm tra chớnh tả tự động được thực hiện tương đối đơn giản hơn và thực tế là nú đó tiết kiệm được đỏng kể thời gian xử lý của người dựng. Tớnh hiệu quả của nú phụ thuộc vào cỏc thuật toỏn phỏt hiện sai, sửa sai, và lựa chọn ứng cử viờn. Hướng phỏt triển tiếp theo của phần này là: tăng cường tốc độ thực hiện; cải tiến độ chớnh xỏc của cỏc thuật toỏn phỏt hiện sai, sửa sai; bổ sung thờm dữ liệu về cỏc dạng sai, dữ liệu để xõy dựng mụ hỡnh n-gram cho thật hoàn chỉnh; Xõy dựng một mụ hỡnh sửa lỗi chớnh tả hoàn thiện hơn mụ hỡnh hiện cú.
Mụ hỡnh ỏp dụng việc sửa chớnh tả được trỡnh bày ở trờn khụng phải là duy nhất. Vớ dụ như cú thể tớch hợp quỏ trỡnh sửa lỗi chớnh tả tự động vào trong quỏ trỡnh nhận dạng. Cỏch làm này cú lợi điểm là thay vỡ làm việc với văn bản thụ, quỏ trỡnh sửa chớnh tả sẽ cú nhiều thụng tin hơn từ quỏ trỡnh nhận dạng. Hoặc quỏ trỡnh sửa lỗi chớnh tả tự động khụng chỉ dừng ở mức õm tiết mà cú thể thực hiện sửa lỗi ở cỏc mức cao hơn như từ vựng, cỳ phỏp...
Chức năng của phần mềm Nhận dạng chữ Việt in VnDOCR 3.0
VnDOCR 3.0 là phiờn bản nõng cấp chớnh thức của VnDOCR 2.0 sau hai năm phỏt triển cỏc tớnh năng mới và sửa lỗi. Phiờn bản này cú những tớnh năng mới nổi trội sau đõy:
− Tự động phỏt hiện được bảng biểu.
− Tự động kiểm tra chớnh tả tiếng Việt ngay sau khi nhận dạng xong, tự động thay thế những từ nhận dạng sai bằng những từ cú trong từ điển với độ chớnh xỏc cao.
− Nhận dạng đa luồng cho phộp vừa nhận dạng vừa quột tài liệu, giỳp giảm đỏng kể về cả thời gian lẫn cụng sức của người sử dụng.
− Cho phộp quột nhiều trang tài liệu mà khụng cần khởi tạo lại mỏy quột – việc khởi tạo lại mỏy quột sau khi quột một trang tài liệu thường thấy với cỏc mỏy quột dũng HP – Tớnh năng này giỳp cho việc quột sỏch bỏo với khối lượng tương đối lớn dễ dàng hơn rất nhiều.
− Chất lượng nhận dạng trờn 98% với cỏc văn bản cú chất lượng trung bỡnh, in từ cỏc mỏy in lazer, sỏch, bỏo, tạp chớ phỏt hành hiện nay.
− Lưu văn bản hỗ trợ ba loại bảng mó tiếng Việt phổ biến nhất hiện nay là Unicode TCVN6990-2001, TCVN5712 (ABC), VNI.
Phương phỏp và kết quả đỏnh giỏ
CSDL văn bản test:
• Cỏc dạng văn bản dựng để test:
- Văn bản dạng cụng văn, tài liệu in từ mỏy in Lazer với cỏc kiểu phụng chữ khỏc nhau: Arial, Avant, Helvetica, Time, Time New Roman, Courier, cú kớch thước của kớ tự từ 8 đến 72 điểm.
- Bài bỏo trờn cỏc loại bỏo như: Hà nội mới, Lao động, PC World Việt Nam, Tuổi trẻ TP HCM, Thể thao, Thời bỏo Kinh tế Việt Nam, Kinh doanh tiếp thị, Thời bỏo tài chớnh Việt Nam, Đầu tư, Thanh niờn, Tiốn phong, An ninh thue dụ, Cụng an TP HCM, Cụng an nhõn dõn, Đại đoàn kết, Tuổi trẻ, An ninh thế giới, Lao động xó hội.
• Tiờu chớ để kiểm tra: Quột ảnh:
- Quột đen/trắng
- Văn bản được quột ở độ phõn giải 300 dpi. Đối với cỏc loại tài liệu cú cỡ chữ nhỏ như cỏc cột bỏo, nờn đặt độ phõn giải 400 dpi.
- Đối với một sú tài liệu cần lựa chọn độ Sỏng tối (Brightness) và Tương phản (Contrast). Việc lụa chọn thớch hợp cỏc tham số này sẽ làm tăng chất lượng nhận dạng và giảm đỏng kể thời gian chỉnh sửa văn bản sau nhận dạng.
- Văn bản nờn đặt thẳng, khụng bị nghiờng hoặc xoay. Chương trỡnh cho phộp xoay văn bản một gúc nghiờng nhỏ hơn 15o, tuy nhiờn nếu khụng phải can thiệp sau khi quột, chất lượng nhận dạng thường đảm bảo hơn.
• Số lượng văn bản test:
- Lựa chọn bất kỳ cỏc văn bản trờn cỏc tài liệu đó núi trờn
- Số lượng văn bản dựng để test: quóng 500 trang A4 và cỏc cột bỏo - Độ chớnh xỏc mức từ quóng 98%.
Nhận dạng chữ viết tay cú hạn chế
Cho đến năm 2001 Việt Nam hiện tại chưa cú sản phẩm nào về nhận dạng dấu quang học cú cả chữ viết tay hạn chế.
Mục tiờu
Nghiờn cứu, thiết kế và cài đặt thử nghiệm một số mụ hỡnh nhận dạng số và chữ viết tay hạn chế trong hệ thống MarkRead. Chữ viết tay hạn chế gồm cỏc số và chữ
viết tỏch rời nhau giống chữ in và viết trong cỏc ụ hỡnh chữ nhật của cỏc phiếu điều tra.
(MarkRead - Phần mềm nhận dạng dấu quang học phục vụ nhập liệu tự động phiếu điều tra, kiểm phiếu, thi trắc nghiệm, kiểm tra, phiếu thăm dũ ý kiến và cỏc phiếu mẫu văn phũng khỏc chứa cỏc ụ hỡnh vuụng, chữ nhật, hỡnh trũn, elip cú đỏnh dấu).
Phương phỏp
− Nghiờn cứu phương phỏp nhận dạng chữ viết tay hạn chế theo mụ hỡnh nhận dạng cấu trỳc,
− Nghiờn cứu phương phỏp nhận dạng theo đối sỏnh mẫu,
− Nghiờn cứu phương phỏp nhận dạng bằng biểu đồ tần xuất (histogram), − Nghiờn cứu phương phỏp nhận dạng tổ hợp.
Phương phỏp nhận dạng đối sỏnh mẫu
Chữ viết tay hạn chế trong hệ thống MarkRead là cỏc chữ/số được viết riờng rẽ rời nhau và gần giống chữ in hoa, mực viết cần rừ ràng để khi quột vào mỏy quột giữ được hỡnh ảnh cỏc chữ rừ ràng. Chỳng tụi đó nghiờn cứu nhiều phương phỏp nhận dạng và đó cài đặt trong hệ thống nhận dạng MarkRead phương phỏp nhận dạng theo đối sỏnh mẫu.
Trớch chọn đặc trưng: với một mẫu a, trớch cỏc thụng số gọi là đặc trưng của mẫu đú. Kớ hiệu đặc trưng của mẫu a là Fa.
Học mẫu: một tập mẫu được dựng để học bằng cỏch lưu đặc trưng cỏc mẫu học đú vào cơ sở dữ liệu, kớ hiệu là L.
Nhận dạng: với mỗi mẫu vào là x chưa biết, ta trớch chọn đặc trưng tương ứng Fx. Tỡm trong cơ sở dữ liệu đặc trưng Fb ∈L “gần giống” với Fx nhất theo nghĩa:
) F d(F, min ) F , d(F x L F x b = ∈
Khi đú mẫu x được nhận dạng là mẫu b trong cơ sở dữ liệu.
Trớch chọn đặc trưng:
Xỏc định vựng chứa chữ: thụng qua trọng tõm
Chuẩn húa húa cỏc kớ tự : chuẩn húa thành ma trận 27¯27 Tớnh trọng số I ứng với ma trận ảnh kớ tự T:
I[i][j] được tớnh bằng bỡnh phương khoảng cỏch từ điểm (i,j) đến điểm đen gần nhất trong T. ] z) - (j k) - [(i min z)] (k, j), [(i, d min I[i][j] 2 2 B(T) z) (k, 2 B(T) z) (k, = + = ∈ ∈
Trong đú: B(T) là tập cỏc điểm đen của T:
B(T)={(i,j)| T[i][j]=0} Khoảng cỏch giữa hai đối tượng I, I’ được tớnh bằng:
∑ ∈ = B(I) ) B(I' j) (i, | [i][j] I' - I[i][j] | ) I' d(I, U
Trong đú B(I), B(I’) là tập cỏc điểm đen của I và I’: ảnh phõn ngưỡng T
B(I)={(i,j)| I[i][j]=0}, B(I’)={(i,j)| I’[i][j]=0}
Học đối với phương phỏp đối sỏnh mẫu
Kớ hiệu tập cỏc mẫu để huấn luyện là K và C(Fa,L) là kết quả nhận dạng đặc trưng của mẫu a với tập dữ liệu học là L.
C(x) là nhón của mẫu x (tờn của chữ).
Thuật toỏn học của phương phỏp đối sỏnh mẫu được thực hiện như sau: Vào: K – tập cỏc mẫu cần huấn luyện
Ra: L – tập cỏc đặc trưng mẫu đó được học L = ∅ repeat ok = 1; for x ∈ K do begin if C(x) ≠ C(Fx,L) then begin L:= L∪{Fx} ok:= 0 end_if end_for until (ok); Kết quả thực nghiệm
CSDL thử nghiệm: cỏc kiểu chữ và số viết tay do 250 người viết, độ phõn giải 300dpi cú kớch cỡ khoảng 50¯50, sau đú cắt cỏc chữ cỏi và chữ số thành cỏc ảnh kớ tự riờng rẽ, rồi chuẩn húa thành ma trận 27x27.
− Trong đú tập cỏc số được dựng làm mẫu 14000 mẫu, trong đú tập huấn luyện gồm 10.000 và tập test 4000.
− Tập cỏc chữ cỏi gồm 42000 mẫu chữ chia làm 2 tập: tập huấn luyện gồm 30000 mẫu và tập test 12000 mẫu.
− Tập cỏc mấu số của MNIST gồm 60.000 (20x20) chia làm 2 tập, tập học 50.000, tập test 10.000.
Kết quả thực nghiệm ở mức kớ tự riờng rẽ với độ chớnh xỏc như sau: − Đối với cỏc kớ tự là chữ kết quả nhận dạng đạt 80%.
− Đối với cỏc kớ tự là số kết quả nhận dạng đạt 85%