Quy tắc K láng giềng gần nhất (K – NNR) là một quy tắc quyết định nổi tiếng được sử dụng rộng rãi trong bài toán phân loại của nhận dạng. Tỉ lệ lỗi khi phân loại dùng K – NNR đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ liệu) và sẽ tiến tới tỉ lệ lỗi Bayes với một giá trị nào đó của K. Quy tắc K – NNR sẽ đặc biệt hiệu quả khi mà phân bố xác suất của các biến đặc trưng là chưa xác định. Chọn lọc các tập huấn luyện là một phần quan trọng của quy tắc láng giềng gần nhất (1 – NNR).
Mặc dù nhiều vấn đề đã được giải quyết một cách thành công nhờ sử dụng phương pháp thống kê, nhưng vẫn có những cách biểu diễn các mẫu hiệu quả dưới dạng cấu trúc hay sắp xếp các thành phần như là định nghĩa các thuộc tính của mẫu. Phương pháp biểu diễn cấu trúc trong OCR biểu diễn các mô hình ký tự dưới dạng các mẫu và mối quan hệ giữa các mẫu để mô tả cấu trúc mô hình một cách rõ ràng [3].
Khi được yêu cầu mô tả ký tự trong bảng chữ cái, mọi người thường biểu diễn chúng dưới dạng cấu trúc các đặc trưng (Hình 11). Chẳng hạn như: chữ cái hoa „A‟ có
hai đường kẻ thẳng (nét bút) dưới chân, có một điểm kết thúc nằm trên đỉnh, và một đường kẻ ngang cắt hai điểm giữa, có một lỗ hổng ở phía trên. Tư tưởng cốt lõi của phương pháp cấu trúc đó là biểu diễn mô hình dưới dạng tập các thuộc tính đặc trưng mà có khả năng mô tả bất kỳ một đối tượng thuộc lớp đối tượng đang xét và có khả năng phân biệt các lớp đối tượng khác nhau.
1.6.2. Nhận dạng ký tự dựa trên ngữ cảnh
Phương pháp xử lý này sử dụng ý nghĩa của các từ để sửa lại những lỗi để lại của OCR. Phương pháp này sử dụng thông tin từ các ký tự khác nhau được nhận dạng trong một từ và dựa vào ý nghĩa của từ khi lắp ghép ký tự vào từ. Thông thường một từ có nghĩa hay không sẽ dựa vào từ điển hay từ vựng của ngôn ngữ đó. Giả sử giữa hai từ u và v rất khó phân biệt khi nhận dạng, chẳng hạn một trong hai từ này xuất hiện tại vị trí thứ hai (tính từ trái sang phải) của từ qXeen. Kỹ thuật xử lý dựa trên ngữ cảnh sẽ xác định ký tự u là thích hợp trong trường hợp này vì trong từ điển từ qveen không có trong từ điển Tiếng Anh. Chúng ta cũng có thể áp dụng quy tắc ký tự đi theo sau ký tự q chỉ có u.
Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh. Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [11]. Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77%. Với những tài liệu có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01%. Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tự liền kề nối liền nét. Thời gian gần đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được công bố [12]. Wilson [13] đã công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu.
Đã có rất nhiều tài liệu nghiên cứu mô tả phương pháp nhận dạng OCR. OCR được coi là nghiên cứu quan trọng nhất trong lĩnh vực nhận dạng. Trong khi các nghiên cứu phương pháp OCR trên ký tự La mã đã giảm dần thì nghiên cứu OCR trên các loại ký tự không phải La mã tiếp tục là vấn đề được quan tâm nhiều đến. Để theo dõi các vấn đề mới nhất hay các phương pháp mới người đọc nên theo dõi các hội thảo
về nhận dạng như Hội thảo quốc tế về Phân tích tài liệu và Nhận dạng và Hội thảo quốc tế về nhận dạng chữ viết tay.
1.7. Phân tích các đối tƣợng ảnh trong tài liệu
Nhận dạng đối tượng ảnh là một chủ đề quan trọng trong phân tích trang tài liệu ảnh vì các thành phần của ảnh luôn đi kèm với văn bản, các sơ đồ biểu diễn, lô gô của công ty xuất hiện trong đầu thư, và các đường kẻ phân cách các ô trong bảng. Các đối tượng ảnh được nhận dạng là các ảnh xuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu. Chúng ta cũng có thể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đối tượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong sơ đồ kỹ thuật, biểu đồ nghiệp vụ, bản đồ, vân tay .v.v.. Mục đích của việc nhận dạng đối tượng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh.
Khi mà tài liệu hầu như được xử lý và tạo ra bằng máy tính thì việc phân tích tài liệu ảnh càng trở nên quan trọng. Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng đối tượng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn cần nghiên cứu đối với lĩnh vực này.
Trong vấn đề nhận dạng đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh. Một thuật toán được áp dụng để tách riêng các
thành phần văn bản nằm trong vùng ảnh được Fletcher đề xuất [14]. Đó là phương pháp dựa trên biến đổi Hough, sử dụng một đặc điểm đó là các thành phần văn bản thường nằm trên đường thẳng. Sau khi văn bản được tách ra, các đặc trưng khác cũng được trích ra từ ảnh bao gồm các đường kẻ thẳng, các đường cong, các vùng tô. Sau khi trích chọn đặc trưng, kỹ thuật nhận dạng theo mẫu được áp dụng, cả phương pháp nhận dạng mẫu theo cấu trúc xác định độ đo tương tự của các đặc trưng được trích ra so với các đặc trưng mẫu sử dụng hình vẽ và phương tiện thống kê, lẫn phương pháp nhận dạng mẫu theo cú pháp dựa vào ngữ cảnh và quy tắc ngữ pháp (từ vựng). Sau khi thực hiện quy trình xử lý trung gian này, các đặc trưng được tập hợp lại vào một thực thể với một vài ý nghĩa phụ thuộc vào miền nhận dạng riêng của ứng dụng. Kỹ thuật sử dụng ở đây bao gồm đối sánh mẫu, giả thuyết, đánh giá và dựa trên tri thức. Đối tượng ảnh được lấy ra đôi khi là khác nhau tuỳ thuộc vào miền ứng dụng của bài toán. Chẳng hạn một đường kẻ thẳng có thể là một đối tượng đường trên bản đồ và cũng có thể là đường dây nối trong sơ đồ mạch điện.
Phần lớn các sản phầm hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất cả những hệ thống nhận dạng, phân tích ảnh.
1.8. Kết luận chƣơng
Chương này đã mô tả ngắn gọn các thành phần chung của một hệ phân tích tài liệu ảnh. Trong đó đã trình bày các bước chính từ khi thu nhận ảnh đến khi trích ra được những thông tin người dùng mong muốn. Các chương tiếp theo sẽ lần lượt mô tả chi
tiết những thuật toán nhận dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và văn bản và phương pháp nhận dạng bảng bằng thuật toán T-Recs.
CHƢƠNG 2
THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH
2.1. Giới thiệu
Một tệp tài liệu ảnh thường chứa đựng các thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo được quét, bản đồ hay các tài liệu được quét từ máy quét. Do đó để lấy ra được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần có các kỹ thuật xử lý phức tạp. Các thuật toán tách văn bản - ảnh giúp chúng ta lấy ra được các thông tin như vậy. Một thuật toán tách văn bản - ảnh sẽ phân tách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh. Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trình bày một thuật toán phân tách văn bản - ảnh hiệu quả. Tư tưởng cơ bản của thuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữ thông tin của vùng này vào lớp các đối tượng ảnh. Các vùng còn lại sẽ thuộc lớp văn bản. Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trực tiếp các vùng văn bản. Thuật toán này có khả năng tách được cả các loại ký tự đặc biệt chẳng hạn như ký tự Trung Quốc [28].
Những năm gần đây đã có rất nhiều nghiên cứu về vấn đề nhận dạng ký tự quang học (OCR) trên những tài liệu ảnh mà chúng có thể chứa đựng các thông tin hỗn hợp văn bản và ảnh. Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiều loại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau. Chính vì có sự khác nhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lý theo từng kỹ thuật khác nhau. Hơn thế nữa, những yêu cầu cao đối với các kỹ thuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại ký tự Tiếng Anh, ký tự số, ký tự Trung Quốc đòi hỏi phải được nghiên cứu dựa theo những cách thức khác nhau. Chính vì những lý do đó tách các thành phần văn bản và ảnh từ những tệp tài liệu ảnh là một yêu cầu cần thiết đối với máy tính.
Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh được công bố trước đây. Phương pháp được đưa ra trong [34] dựa trên khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượng ảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh các đối tượng. Phương pháp trên khá đơn giản nhưng
nó sẽ không hiệu quả khi một ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác. Yamada [29] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trong đó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phần còn lại của bản đồ là các đối tượng văn bản. Một trong những phương pháp được biết đến nhiều nhất là của Wong, Casey và Wahl [36], được điều chỉnh và cải tiến trong [37]. Tuy nhiên, một số chứng minh cho thấy phương pháp trên chỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trên các tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệu quả. Một vài phương pháp dựa trên các khoảng trắng [38] và một vài phương pháp tiếp cận từ trên – xuống (top – down) sử dụng phân tích toạ độ X – Y [39][40]. Phương pháp được biết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh được đưa ra trong [14]. Phương pháp này dựa trên việc phân tích các thành phần liên thông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùng một chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh. Phương pháp hoạt động hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ và hướng văn bản.
Tóm lại các phương pháp được giới thiệu ở trên hoạt động dựa trên một số điều kiện sau:
1) Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán.
2) Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượng ảnh. Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang hay chiều dọc. Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽ khó hơn.
3) Văn bản phải không chứa các kiểu ký tự Trung Quốc [28].
Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ở trên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứng dụng. Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớn tài liệu ảnh trên giấy sang định dạng của CAD/CAM. Tuy nhiên những loại tài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếp xúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh. Mặc dù có một số thao tác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó là vấn đề thời gian.
Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có thể phân chúng thành một trong ba loại phương pháp cơ bản sau:
1. Một số tác giả trực tiếp sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyến tính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tài liệu, những thành phần còn lại sẽ được coi là văn bản. Phương pháp này đặc biệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [41][42], tuy nhiên nó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn.
2. Tương tự như vậy, một số tác giả khác lại đi tìm các đường kẻ để phân loại các đối tượng, dựa vào phép biến đổi véc tơ hoá [44] của tài liệu ảnh.
3. Phương pháp thứ 3 được nhiều tác giả sử dụng nhất, dựa trên việc phân tích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc ra xem chúng thuộc lớp đối tượng nào (văn bản/ảnh) dựa vào một số quy tắc xác định. Một trong những thuật toán nổi tiếng nhất dựa trên phương pháp này được đưa ra bởi Fletcher và Kasturi [14]. Thuật toán này đã chứng minh rằng nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứa các