Xác định góc nghiêng của văn bản

Một phần của tài liệu đồ án tốt nghiệp tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh (Trang 26 - 80)

chính, tiêu đề phụ, đoạn văn bản, chú thích .v.v..). Phụ thuộc vào cách sắp xếp của các khối văn bản, một trang văn bản có thể là một trang tiêu đề, một bảng mục lục của tạp chí, một biểu mẫu kinh doanh, hay là một phong bì thư. Nhận dạng ký tự quang học và phân tích sơ đồ trình bày có thể được thực hiện một cách riêng rẽ, hay có thể lấy kết quả của phần này để sử dụng cho phần kia. Nhận dạng ký tự quang học thường được nhận biết như là ứng dụng nhận dạng ký tự viết tay hay các ký tự trong tài liệu in. Kỹ thuật phân tích sơ đồ trình bày được áp dụng để phân tích định dạng của trang, một loại ứng dụng phân tích sơ đồ trình báy đó là nhận dạng biểu mẫu, giúp phân tích và nhận dạng cấu trúc biểu mẫu và các văn bản có trong biểu mẫu. Trong một số trường hợp người ta cần phải xác định độ nghiêng của tài liệu bởi vì tài liệu được quét có thể bị nghiêng so với bề ngang của trang giấy trong trường hợp tài liệu đó không được đặt đúng khi quét vào từ máy quét. Ước lượng độ nghiêng và phân tích sơ đồ trình bày của văn bản sẽ được mô tả ngắn gọn trong phần dưới đây. Phương pháp nhận dạng ký tự quang học sẽ được đề cập đến ở phần sau.

2.6.1. Xác định góc nghiêng của vănbản bản

Một dòng văn bản bao gồm một nhóm các ký tự, biểu tượng và các từ nằm liền kề nhau, khá gần nhau và đều nằm trên cùng một đường thẳng (có thể theo chiều thẳng đứng hay chiều dọc). Thông thường hướng của các dòng văn bản sẽ xác định độ nghiêng của tài liệu. Bình thường một trang tài liệu sẽ có độ nghiêng là 0 khi mà các dòng văn bản theo chiều ngang hay chiều dọc sẽ song song với các cạnh tương ứng của trang tài liệu, tuy nhiên trong một số trường hợp khi một trang tài liệu được quét hay sao chụp bằng tay, độ nghiêng của tài liệu khi đó sẽ khác 0.

Hình 2.6 Văn bả n bị nghiêng sau khi đượ c qué t qua má y qué t. Hình 2.6 cho ví dụ về mộ t văn bả n nghiêng sau khi qué t ả nh gố c qua mộ t má y scan .

Vì các bước phân tích như OCR hay phân tích sơ đồ trình bày phụ thuộc vào trang tài liệu đầu vào với độ nghiêng là 0 do đó xác định độ nghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trước khi thực hiện những bước trên. Một phương pháp xác định độ nghiêng của tài liệu phổ biến đó là phép chiếu nghiêng. Phép chiếu nghiêng là phương pháp tính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong ảnh nhị phân) khi quét ảnh theo các dòng hay các cột và lưu giá trị này vào một mảng, trong đó chỉ số của mảng chính là dòng hay cột được quét. Do đó giá trị các điểm ảnh ON khi quét qua trang ảnh sẽ được biểu diễn bởi một đồ thị tần suất. Mỗi một lần thực hiện phép chiếu nghiêng ta sẽ chiếu ảnh theo các góc khác nhau (từ 0 đến 180 độ), tức là sẽ thực hiện quay ảnh một góc tương ứng. Phép chiếu nghiêng thường được thực hiện theo chiều ngang hoặc dọc và được gọi là các phép chiếu nghiêng theo chiều ngang, dọc tương ứng. Với một tài liệu ảnh mà góc nghiêng bằng 0 thì các đỉnh của phép chiếu biểu diễn các dòng có chứa ký tự, còn các vùng trũng biểu diễn cho khoảng không gian trắng giữa các dòng. Để tìm được góc nghiêng của văn bản thì sẽ tìm góc quay sao cho đồ thì tần suất có nhiều những đỉnh cao nhất và những vùng trũng nhất. Nếu đồ thị tần suất có 10 đỉnh và 10 vùng trũng thì có thể suy ra rằng tài liệu ảnh có

10 dòng văn bản. Do đó với mỗi phép chiếu nghiêng ta sẽ tính số đo độ cao của các đỉnh và số đo độ cao các vùng trũng, góc chiếu nào mà có sự khác nhau giữa hai số đo này là lớn nhất thì chính là góc nghiêng của văn bản.

2.6.2. Phân tí ch bố cụ c củ a trang tà i liệ u ả nh

Sau khi xác định được gó c nghiêng của trang tài liệu , ảnh sẽ được quay một góc để độ nghiêng của trang bằng 0, sau đó quá trình phân tích bố cục của trang tài liệu được thự c hiệ n . Phân tích bố cụ c trang được thực hiện để lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu. Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thể thực hiện phân tách các từ, các dòng văn bản hay cấu trúc các khối (nhóm các dòng văn bản, chẳng hạn các đoạn văn bản hay các bảng danh mục). Thông thường người ta dựa vào quy tắc sắp xếp thông tin trong trang tài liệu để nhận dạng từng khối và gán nhãn cho chúng. Một thí dụ đưa ra kết quả sau khi phân tích trang đầu tiên của một tài liệu kỹ thuật bao gồm: tên tài liệu, tác giả, tóm tắt, từ khoá, các đoạn trong thân văn bản...v.v. Hình 2.7 đưa ra một thí dụ với kết quả sau khi đã thực hiện phân tích cấu trúc và gán nhãn cho các khối trên một trang tài liệu ảnh. Phân tích cấu trúc của trang có thể sử dụng phương pháp tiếp cận trên - xuống [11] hay tiếp cận dưới – lên[10]. Với phương pháp tiếp cận từ trên - xuống, một trang tài liệu được phân tách từ các thành phần lớn xuống các thành phần nhỏ hơn, chẳng hạn trang tài liệu có thể phân tách thành các cột, sau đó các cột được phân tách thành các đoạn văn bản, từ các đoạn văn bản lại tách ra thành các dòng văn bản, sau đó tách các từ .v.v.. Với phương pháp tiếp cận từ dưới – lên, các thành phần liên thông được trộn với các ký tự để nhận dạng từ, các từ lại được trộn với nhau để tạo thành các dòng văn bản, từ các dòng văn bản xây dựng thành các đoạn văn bản.v.v... Một cách lần lượt, hai

phương pháp trên có thể kết hợp cùng nhau để phân tích cấu trúc của tài liệu.

Hình 2.7 Vi du minh họa kế t quả phân tí ch bố cụ c củ a trang tà i liệ u ả nh

2.7. Nhận dạng ký tự quang học (OCR)

Như chú ng ta đã biế t trên thế giớ i có nhiề u kiể u chữ khá c nhau , mặ t khác c ác ký tự trong mộ t bảng chữ cái thường có rất nhiều kiểu viết khác nhau. Trên thực tế các ký tự thường được viết bằng nhiều kiểu khác nhau tuỳ thuộc vào kích cỡ, loại phông chữ và nét bút viết tay của từng người. Mặc dù các ký tự có thể viết theo nhiều cách nhưng chúng vẫn có những quy tắc xác định để nhận biết từng ký tự. Phát triển những thuật toán trên máy tính để nhận biết các ký tự trong bảng chữ cái là một nhiệm vụ trọng tâm của OCR. Nhưng thách thức đối với vấn đề này đó là – trong khi con người có thể nhận dạng gần như chính xác 100% các ký tự viết tay thì OCR vẫn chưa thể đạt tới được điều này.

Khó khăn đối với OCR thể hiện qua một số đặc điểm. Sự gia tăng số lượng và kích cỡ của phông chữ trong bảng chữ cái, không ràng buộc các kiểu chữ viết tay, các ký tự nối liền nhau, các nét bị đứt, các điểm nhiễu v.v... Tất cả chúng làm cho quá trình nhận dạng gặp khó khăn. Hình 2.8 chỉ ra một thí dụ giữa số „0‟ và số „6‟ rất dễ nhầm lẫn khi chúng được viết bằng tay. Một từ

cũng có thể hoàn toàn là các con số, chẳng hạn các số điện thoại, hay hoàn toàn là các ký tự trong bảng chữ cái hoặc có thể trộn lẫn giữa chữ cái và số.

Hình 2.8 Chữ viế t tay có thể gây nhầ m lẫ n

2.7.1. Thuậ t toá n OCR

Thuật toán OCR thường có hai phần chính: trích chọn đặc trưng và phân loại. Một cách cơ bản, quá trình OCR gán một ảnh ký tự vào một lớp bằng cách sử dụng thuật toán phân loại dựa trên những đặc trưng được trích chọn và mối liên hệ giữa các đặc trưng đó. Độ đo tương tự là cơ sở để xác định một đối tượng có thuộc một lớp ký tự hay không. Thông thường sẽ có một thành phần thứ ba đó là quá trình xư lý dựa trên ngữ cảnh để sửa lại những lỗi của OCR. Dưới đây sẽ trình bày ngắn gọn ba thành phần của OCR.

2.7.1.1. Trích chọn đặc trƣng

Trích chọn đặc trưng liên quan đến việc trích ra những thuộc tính của đối tượng dưới dạng các độ đo. Để biểu diễn một lớp ký tự phải xây dựng một mô hình nguyên mẫu chung cho các lớp ký tự. Và do đó quá trình trích chọn đặc trưng sẽ cố gắng tìm ra các thuộc tính dựa trên nguyên mẫu đã xây dựng cho các lớp. Các đặc trưng chung như, số lượng các lỗ hổng trong ký tự, mặt lõm của đường viền bên ngoài, sự nhô ra của điểm cao nhất và các đặc trưng nội tại, các điểm cắt ngang, các điểm kết thúc, các góc .v.v... sẽ được sử dụng. Mỗi ảnh ký tự sẽ trích ra các đặc trưng trên và phân loại chúng vào lớp tương ứng.

2.7.1.2. Phân loại

Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tự được biểu diễn bằng các điểm trong không gian đặc trưng đa chiều. Mỗi một thành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng. Quá trình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với các lớp ký tự và chúng được gán nhãn tương ứng.

2.7.2. Nhận dạng ký tự dựa trên ngữ cảnh

Nhậ n dạ ng ký tự dự a trên ngữ cả nh sử dụng thông tin từ các ký tự khác nhau được nhận dạng trong một từ và dựa vào ý nghĩa của từ khi lắp ghép ký tự vào từ. Thông thường một từ có nghĩa hay không sẽ dựa vào từ điển hay từ vựng của ngôn ngữ đó. Giả sử giữa hai từ u v rất khó phân biệt khi nhận dạng, chẳng hạn một trong hai từ này xuất hiện tại vị trí thứ hai (tính từ trái sang phải) của từ qXeen. Kỹ thuật xử lý dựa trên ngữ cảnh sẽ xác định ký tự u là thích hợp trong trường hợp này vì trong từ điển từ qveen không có trong từ điển Tiếng Anh. Chúng ta cũng có thể áp dụng quy tắc ký tự đi theo sau ký tự q chỉ có u.

Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh. Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [9]. Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77%. Với những tài liệu có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01%. Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tự liền kề nối liền nét.

Đã có rất nhiều tài liệu nghiên cứu mô tả phương pháp nhận dạng OCR. OCR được coi là nghiên cứu quan trọng nhất trong lĩnh vực nhận dạng. Trong khi các nghiên cứu phương pháp OCR trên ký tự La mã đã giảm dần

thì nghiên cứu OCR trên các loại ký tự không phải La mã tiếp tục là vấn đề được quan tâm nhiều đến.

2.8. Phân tích các đối tƣợng ảnh trong tài liệu

Trong phân tích trang tài liệu ảnh thì n hận dạng đối tượng ảnh là một trong hai chủ đề quan vì các thành phần của ảnh luôn đi kèm với văn bản, các sơ đồ biểu diễn, lôgô của công ty xuất hiện trong đầu thư, và các đường kẻ phân cách các ô trong bảng. Các đối tượng ảnh được nhận dạng là các ảnh xuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu. Chúng ta cũng có thể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đối tượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong sơ đồ kỹ thuật, biểu đồ nghiệp vụ, bản đồ, vân tay .v.v… Mục đích của việc nhận dạng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh.

Phân tích tài liệu ảnh càng trở nên quan trọng hơn khi mà tài liệu hầu như được tạo ra và xử lý bằng máy tính thì việc Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn còn nhiều cơ hội và thách thức đối với lĩnh vực nghiên cứu này.

Trong cá c bướ c xử lý đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh.

Hầ u hế t cá c hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất cả những hệ thống nhận dạng, phân tích ảnh.

Hệ phân tích tài liệu ảnh và cá c thà nh phầ n chung đã đượ c mô tả tổ ng quan trong chương nà y . Trong đó đã trình bày các bước chính trong quá trì nh xử lý ả nh từ khi thu nhận ảnh đến khi trích ra được nhữn g thông tin người dùng mong muốn . Trong chương 3 sẽ mô tả chi tiết những thuật toán nhận dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và văn bả n.

CHƢƠNG 3

THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH

3.1. Tổ ng quan về phân tá ch văn bả n – ảnh

Như chú ng ta đã biế t một trang tài liệu ảnh thường chứa đựng các thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo được quét, bản đồ hay các tài liệu được quét từ máy quét. Do đó để lấy ra được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần có các kỹ thuật xử lý phức tạp. Các thuật toán tách văn bản - ảnh giúp chúng ta

Một phần của tài liệu đồ án tốt nghiệp tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh (Trang 26 - 80)

Tải bản đầy đủ (DOCX)

(80 trang)
w