Phân loại

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 26)

Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tự được biểu diễn bằng các điểm trong không gian đặc trưng đa chiều. Mỗi một thành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng. Quá trình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với các lớp ký tự và chúng được gán nhãn tương ứng.

Một thí dụ về không gian đặc trưng được sử dụng để phân loại 50 ký tự vào 5 lớp khác nhau {C, E, T, X, Y} được chỉ ra trên Hình 10. Không gian đặc trưng dựa trên hai thuộc tính, phần trăm của các điểm ảnh màu đen nằm trên nét dọc (SV) và nét ngang (SH) của ký tự. Nét bút của ký tự được tách ra thành các nét ngang và nét dọc. Một điểm ảnh có thể thuộc một hoặc cả hai nét trên, do đó SV + SH có thể lớn hơn 100%. Ký tự E và T có thể coi là có giá trị SV SH lớn nhất; ký tự C có giá trị SV

SH xấp xỉ 50%; ký tự X và Y có giá trị SH được coi như là nhỏ nhất. Khi đó phân loại các ảnh ký tự sẽ dựa vào độ đo khoảng cách từ nó đến các lớp đã được huấn luyện.

Hình 10. Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự.

Đối sánh với giá trị tập huấn luyện là một phương pháp thuần tuý dùng để phân

loại và nó cũng được coi là một phương pháp phổ biến nhất. Các điểm ảnh riêng rẽ sẽ được sử dụng trực tiếp như là những đặc trưng. Độ đo tương tự sẽ được thay thế cho độ đo khoảng cách. Độ đo sẽ được tính dựa trên việc đếm số lượng điểm ảnh thoả mãn một tính chất nào đó (số lượng điểm ảnh đen và trắng của ảnh dữ liệu trùng với số lượng điểm ảnh đen và trắng tương ứng nằm trên tập huấn luyện). Phương pháp đối sánh với giá trị tập huấn luyện còn có cách gọi khác là cực đại hoá sự tương quan. Tương tự như vậy, chúng ta cũng đếm số điểm ảnh không thoả mãn (số lượng điểm ảnh đen của ảnh dữ liệu trùng với số lượng điểm ảnh trắng nằm trên tập huấn luyện và ngược lại). Lớp với số lượng điểm ảnh không thoả mãn là ít nhất sẽ được chọn làm lớp cho đối tượng kiểm tra. Phương pháp như vậy gọi là cực tiểu hoá độ lệch. Số lượng

điểm ảnh thoả mãn và không thoả mãn có thể quy đổi được và từ đó tính ra được độ tương tự của đối tượng so với tập huấn luyện. Đối sánh với tập huấn luyện là một phương pháp hiệu quả khi mà sự thay đổi trong một lớp đối tượng là do các điểm nhiễu thêm vào.

Hình 11. Các đặc trưng của ảnh ký tự được trích ra

Quy tắc K láng giềng gần nhất (K – NNR) là một quy tắc quyết định nổi tiếng được sử dụng rộng rãi trong bài toán phân loại của nhận dạng. Tỉ lệ lỗi khi phân loại dùng K – NNR đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ liệu) và sẽ tiến tới tỉ lệ lỗi Bayes với một giá trị nào đó của K. Quy tắc K – NNR sẽ đặc biệt hiệu quả khi mà phân bố xác suất của các biến đặc trưng là chưa xác định. Chọn lọc các tập huấn luyện là một phần quan trọng của quy tắc láng giềng gần nhất (1 – NNR).

Mặc dù nhiều vấn đề đã được giải quyết một cách thành công nhờ sử dụng phương pháp thống kê, nhưng vẫn có những cách biểu diễn các mẫu hiệu quả dưới dạng cấu trúc hay sắp xếp các thành phần như là định nghĩa các thuộc tính của mẫu. Phương pháp biểu diễn cấu trúc trong OCR biểu diễn các mô hình ký tự dưới dạng các mẫu và mối quan hệ giữa các mẫu để mô tả cấu trúc mô hình một cách rõ ràng [3].

Khi được yêu cầu mô tả ký tự trong bảng chữ cái, mọi người thường biểu diễn chúng dưới dạng cấu trúc các đặc trưng (Hình 11). Chẳng hạn như: chữ cái hoa „A‟ có

hai đường kẻ thẳng (nét bút) dưới chân, có một điểm kết thúc nằm trên đỉnh, và một đường kẻ ngang cắt hai điểm giữa, có một lỗ hổng ở phía trên. Tư tưởng cốt lõi của phương pháp cấu trúc đó là biểu diễn mô hình dưới dạng tập các thuộc tính đặc trưng mà có khả năng mô tả bất kỳ một đối tượng thuộc lớp đối tượng đang xét và có khả năng phân biệt các lớp đối tượng khác nhau.

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 26)

Tải bản đầy đủ (PDF)

(79 trang)