Mô hình dòng văn bản được sử dụng tìm kiếm dòng ràng buộc

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 58 - 72)

Phương pháp tiếp cận tìm kiếm dòng ràng buộc là nền tảng của thuật toán trong bài viết này trước đây đã được mô tả cho nhận dạng đối tượng hình học [15], và được áp dụng cho tìm kiếm dòng văn bản [14]. Chúng ta hãy biễu diễn mỗi ký tự trên trang bằng một điểm ở trung tâm dưới cùng của khung giới hạn của ký tự đó (điểm căn chỉnh). Trong trường hợp không có lỗi, đối với hầu hết các phông chữ Roman, mỗi điểm như vậy hoặc nghỉ trên đường cơ sở hoặc nghỉ trên một đường thẳng song song với đường cơ sở, tức đường hạ xuống phía dưới. Điều này được minh họa trong Hình 4.

Để tìm kiếm sự phù hợp “tối ưu” của các mô hình dòng văn bản đối với khung giới hạn của một trang, chúng ta sử dụng một mô hình bình phương tối thiểu mạnh mẽ. Đó là, sự đóng góp của mỗi ký tự đến điểm số phù hợp tổng thể của một dòng văn bản bị cản trở bởi bình phương khoảng cách của điểm căn chỉnh từ đường cơ sở hoặc đường hạ xuống phía dưới, lên đến một ngưỡng. Điểm số phù hợp này tương ứng với một sự phù hợp tối đa có khả

59

năng xảy ra khi xuất hiện lỗi Gaussian trên vị trí và khi có một phông nền thống nhất của các tính năng nhiễu âm, như thể hiện trong tài liệu [16].

Hãy giả định rằng các dòng được tham số hóa bằng khoảng cách r của chúng từ gốc và hướng θ của pháp tuyến của chúng. Một tham số bổ sung, d, cho khoảng cách của dòng của phần hạ thấp từ đường cơ sở. Ba thông số (r, θ, d) này sau đó xác định một mô hình dòng văn bản. Nếu các điểm căn chỉnh của tất cả các thành phần được kết nối trên trang được cho bởi {p1,... ,pn} ⊂ tập conR2, chúng ta có thể biểu diễn chất lượng của hàm phù hợp (liên quan đơn điệu đến hợp lý logarit) như sau:

(3)

Trong đó, dist (·, ·) là khoảng cách Ơ-clit và φ là một hàm ngưỡng (4)

Tối đa hoá Q(r, θ, d) trên tất cả các thông số cho chúng ta giải pháp tối ưu tổng thể cho bài toán tìm kiếm dòng không ràng buộc. Đối với bài toán tìm kiếm dòng ràng buộc, chúng ta xem xét các đoạn dòng thay vì các dòng và yêu cầu tìm kiếm một đoạn dòng tối đa mà không giao với bất kỳ trở ngại đã cho nào.

60

Hình chữ nhật là trở ngại và các dấu chấm biểu diễn cho các điểm được phù hợp bởi một dòng. Hai dòng ứng cử được thể hiện: một đường gạch phù hợp với bốn điểm nhưng bị chặn lại bởi trở ngại, một đường gạch khác phù hợp với năm điểm và gần như tránh được trở ngại.

Một thuật toán cho việc tìm kiếm các giải pháp tối ưu tổng thể cho bài toán tìm dòng văn bản không ràng buộc đã được trình bày trong [14], dựa trên công trình nghiên cứu trước đây về các phương pháp phân nhánh-giới hạn cho sự phù hợp hình học [16]. Chúng ta sẽ xem xét ngắn gọn phương pháp không ràng buộc ở đây.

Ý tưởng cơ bản là xem xét các tập con hình chữ nhật (các khung; tích Đề các của các khoảng tham số dòng) của không gian ba chiều của các tham số dòng văn bản và tính toán các cận trên của giá trị hàm chất lượng có thể đạt được qua các tập con này. Các tập con với cận trên lớn được chia nhỏ thành các tập con nhỏ hơn và được đánh giá lại. Cuối cùng, các tập con hình chữ nhật đạt tới trong quá trình này đủ nhỏ để giới hạn giải pháp tối ưu cho bài toán tối ưu hóa có độ chính xác số mong muốn. Đây là một ví dụ về một thuật toán phân nhánh-giới hạn.

Để thực hành các bài toán tối ưu hóa hình học, có hai khó khăn cần phải vượt qua: đầu tiên, chúng ta cần tìm ra được một cận trên Q^ cho hàm chất lượng Q trên một số vùng, và thứ hai, chúng ta cần tính toán được cận trên đó một cách hiệu quả. [16] mô tả sự tính toán của hàm cận trên Q^ cho một khung các thông số dòng [r, r] x [θ, θ]. Chúng ta hãy xem xét ngắn gọn cách tiếp cận này ở đây. Bây giờ, để đơn giản hóa sự tranh luận, chỉ xem xét đường cơ sở, không xem xét đường hạ xuống phía dưới.

Hãy xem xét vùng LB được quét ra bởi các dòng với các tham số chứa trong các khung tham số B =[r, r] x [θ, θ]. Chúng ta sử dụng như là cận trên

61

Q^(LB) = max(r, θ)∈B Q(r,θ). Tận dụng lợi thế của sự đơn điệu của φ∈ (x), cận này có thể dễ dàng nhìn được thấy

(5)

(6)

def find_constrained_lines(linebox,points,obstacles):

queue.enqueue(quality(linebox,points),linebox,points,obstacles) while not queue.is_empty():

(q,linebox,points,obstacles) = queue.dequeue_max() if accurate_enough(linebox): return linebox excluded_obstacles =

[list of obstacle in obstacles

if linebox.can_not_intersect(obstacle)] if excluded_obstacles!=[]:

...split linebox at excluded obstacles and enqueue... sublineboxes = split(linebox) for sub_linebox in sublineboxes: sub_points =

[list of point in points

if point.may_match(line)] sub_q = quality(sub_linebox,sub_points)

queue.enqueue(sub_q,sub_linebox,sub_points,obstacles)

Giả mã cho tìm kiếm sự phù hợp ràng buộc tối ưu tổng thể của một mô hình dòng đối với một tập hợp điểm.

Vùng LB là một vùng hình nơ con bướm. Nó được giới hạn bốn cạnh bởi các dòng cho bởi các giá trị cực trị của các khung tham số dòng. Cạnh thứ năm được giới hạn bởi một vòng cung nhỏ. Để tính toán cận trên Q^(B), chúng ta cần phải tính toán khoảng cách của một điểm p từ vùng này, hoặc ít

62

nhất là một cận dưới. Sự tính toán này có thể được đơn giản hóa bằng cách giới hạn vòng cung bằng việc sử dụng một dòng thứ năm. Một cận dưới của khoảng cách dist(LB, pi) sau đó có thể được tính bằng cách sử dụng tích năm điểm và một tổ hợp các phép toán cực tiểu và cực đại, được mô tả chi tiết hơn trong [16]. Để tính toán các dòng hạ thấp, chúng ta thay dist(LB, p) bởi min (dist(LB, p), dist(L'B, p)), trong đó L'Blà vùng hình nơ con bướm được quét ra bởi đường hạ thấp song song với đường cơ sở (xem [14] để hiểu chi tiết hơn).

Kỹ thuật thứ hai khiến cho việc giải các bài toán phù hợp hình học bằng cách sử dụng phương pháp phân nhánh-giới hạn đơn giản và hiệu quả là sử dụng các danh sách phù hợp. Đó là, đối với mỗi khung B của các tham số dòng, chúng ta duy trì một danh sách tất cả và chỉ các điểm căn chỉnh có đóng góp khác không đối với hàm chất lượng Q. Chúng ta gọi danh sách này “matchlist” (danh sách phù hợp). Khi khung B được chia nhỏ, chỉ những điểm căn chỉnh trên danh sách phù hợp mới cần phải được xem xét.

Tính đến thời điểm này, phần này đã xem xét lại công trình nghiên cứu trước đây về tìm kiếm dòng tối ưu tổng thể. Bây giờ chúng ta chuyển sang câu hỏi làm thế nào để đưa những trở ngại hình học vào khung này để tìm kiếm dòng văn bản. Khi tìm kiếm dòng văn bản có những trở ngại, chúng ta không cho phép các phù hợp trong đó một mô hình dòng văn bản lr,θ,d cắt một trở ngại. Điều này được minh họa trong Hình 5. Hình này cho thấy hai dòng ứng cử (gạch ngang). Một dòng tránh các trở ngại và phù hợp với các điểm từ cả hai phía. Dòng kia phù hợp hơn với các điểm trên một phía của các trở ngại, nhưng không thể “nhặt” các điểm căn chỉnh ở phía bên kia của các trở ngại. Thực tế, trong bài toán tìm kiếm dòng văn bản ràng buộc, các giải pháp là các đoạn dòng văn bản chứ không phải các dòng vô hạn.

63

Hình 2.16: Ví dụ về kết quả đánh giá khoảng trắng để phát hiện các ranh giới cột trong tài liệu có bố cục phức tạp (các tài liệu A00C, D050, và E002

từ cơ sở dữ liệu UW-III). Lưu ý rằng ngay cả các bố cục phức tạp cũng được mô tả bởi một tập nhỏ các dấu tách cột.

Có lẽ thật đáng ngạc nhiên, việc kết hợp những trở ngại vào thuật toán tìm kiếm dòng văn bản phân nhánh-giới hạn rất đơn giản và không làm gia tăng đáng kể sự phức tạp của thuật giải các bài toán thường gặp trong thực tế. Cách tiếp cận như sau. Trong khi đánh giá phân nhánh-giới hạn, chúng ta lần lượt xem xét các khung nhỏ hơn của các tham số dòng B. Khi các khung này lớn, một số dòng được bao hàm bởi các tham số của chúng có thể giao cắt với một trở ngại và một số có thể không. Tuy nhiên, khi các khung tham số càng nhỏ đi, tại một số điểm, các dòng tương ứng với các giá trị tham số sẽ hoặc là tất cả giao cắt với một trở ngại hoặc tất cả sẽ không giao cắt với một trở ngại. Trong trường hợp tất cả các dòng không giao cắt với một trở ngại, chúng ta chỉ cần loại bỏ trở ngại ra khỏi sự cân nhắc trong các lần phân nhỏ tiếp theo của khung tham số. Trong trường hợp tất cả các dòng giao cắt với một trở ngại, chúng ta chia tập hợp các điểm căn chỉnh phù hợp tiềm năng thành hai tập con, những điểm bên trái của trở ngại và những điểm bên phải của trở

64

ngại. Sau đó chúng ta tiếp tục tìm kiếm với cùng khung B của các tham số dòng và hai danh sách phù hợp riêng biệt, danh sách phù hợp cho các điểm căn chỉnh bên trái của trở ngại, và danh sách phù hợp cho các điểm căn chỉnh bên phải của trở ngại. Thuật toán được đưa ra trong giả mã ở Hình 6.

Cách tiếp cận này đối với sự phù hợp dòng có các trở ngại sử dụng các danh sách phù hợp không chỉ là một tối ưu hóa, mà còn để cấu trúc sự tìm kiếm và loại bỏ các điểm ra khỏi sự cân nhắc. Các đoạn dòng mà thuật toán tìm thấy hoàn toàn được xác định bởi tập hợp các điểm căn chỉnh trên một danh sách phù hợp, các trở ngại, và dòng. Cách tiếp cận này có hiệu quả đáng kể hơn là nếu chúng ta cố gắng tìm kiếm trực tiếp trong khoảng cách của đoạn dòng. Để tìm kiếm các đoạn dòng không có trở ngại với các đường cơ sở, có thể trước đây đã phải tìm kiếm trên một vùng tham số năm chiều, trong khi phương pháp tiếp cận dựa trên việc hạn chế các danh sách phù hợp chỉ yêu cầu một sự tìm kiếm trong vùng tham số ba chiều gốc. Kết quả là, bằng cách sử dụng phương pháp tiếp cận này, việc tìm kiếm dòng văn bản có những trở ngại tốn một khoảng thời gian xấp xỉ bằng thời gian tìm kiếm dòng văn bản không có trở ngại.

Thuật toán hình học hữu ích trong việc thực hiện các hệ thống phân tích hình ảnh tài liệu. Thuật toán cho việc tính toán Cover khoảng trắng có thể được sử dụng như là một sự thay thế treo dễ thực hiện cho phương pháp được sử dụng trong [14]. Trong quá trình thực hiện công việc này, các hình chữ nhật với tỉ lệ co nhất định được ưa thích hơn, và, nói chung, các hình chữ nhật trắng lớn được ưa thích hơn những hình nhỏ. Hàm đánh giá của chúng dựa trên các trắc lượng thống kê về sự phân bố của các hình chữ nhật trắng trong các tài liệu thực tế, và nó được thiết kế nhằm thiên vị cho những hình chữ nhật là các dấu phân cách ngang hoặc dọc có ý nghĩa.

65

Để kiểm tra sự thực hiện của các hàm đánh giá dựa trên phạm vi, tỉ lệ co, và vị trí trên trang, các thuật toán độ bao phủ trắng mô tả ở trên được áp dụng cho các khung giới hạn các ký tự có được từ hình ảnh tài liệu trong cơ sở dữ liệu UW-III. Đối với mỗi hình ảnh tài liệu, một tập hợp 200 hình chữ nhật trắng lớn nhất với sự chồng lấp theo cặp dưới 80% được tách ra. Đúng như mong đợi, điều này tạo ra một tập hợp các hình chữ nhật trắng gần như luôn luôn bao phủ hoàn toàn phông nền, cộng với các hình chữ nhật trắng bổ sung vào đoạn văn bản. Để đi đến một phân tích bố cục, một hàm đánh giá là cần thiết cho phép chúng ta chỉ chọn các hình chữ nhật mà sự kết hợp của chúng tạo thành các khoảng trắng tách các thành phần của bố cục tài liệu.

Để có được một hàm đánh giá như vậy, một cây quyết định được đào tạo để ước tính xác suất mà một hình chữ nhật trắng đã cho trở thành một phần của nền trang. Không có đánh giá chính thức về nỗ lực thực hiện, nhưng việc kiểm tra trực quan cho thấy rằng một phần đáng kể của các tài liệu trong cơ sở dữ liệu UW-III không thể được phân đoạn hoàn toàn bằng cách sử dụng phương pháp tiếp cận này. Theo báo cáo trong [14], các hình chữ nhật trắng cao thường được phân loại chính xác, nhưng đối với các hình chữ nhật trắng rộng (những hình tách các đoạn văn hoặc các phần với các đoạn, phần khác), một số lượng đáng kể các lỗi dương và âm đã xảy ra. Hệ thống của Ittner và Baird giải quyết những vấn đề này bằng cách tính toán các hình chữ nhật trắng rộng nhưng bỏ qua các hình chữ nhật rộng giả cho đến các giai đoạn xử lý sau này (chúng không được tính là không chính xác trong đánh giá phương pháp). Hơn nữa, kiểm tra trực quan cho thấy rằng không có các quy tắc hay hàm đánh giá chỉ dựa trên hình dạng của các hình chữ nhật trắng mà sẽ hoạt động đáng tin cậy trong mọi trường hợp - cơ sở dữ liệu UW-III có chứa sự đa dạng của các tài liệu mà ở đó có sự mơ hồ cố hữu.

66

Điều này có nghĩa rằng, trong khi các hàm đánh giá chỉ dựa trên hình dạng của hình chữ nhật trắng có thể hữu ích và đáng tin cậy cho các tập tài liệu nào đó, đối với các tập không đồng nhất, có lẽ chúng ta cần một phương pháp khác. Tóm lại, các kết quả này gợi ý dùng một phương pháp phân loại khoảng trắng cao riêng biệt và xem xét các tính năng ngoài hình dạng và vị trí của các hình chữ nhật trắng trong việc đánh giá nó. Hơn nữa, một số quan sát cho thấy khoảng trắng rộng, mặc dù đôi khi nhìn rất nổi bật, là không cần thiết và cũng không đủ để phân tích bố cục trang tài liệu theo trục thẳng đứng. Ví dụ, ngắt đoạn được chỉ định trong nhiều tài liệu kiểu Mỹ bằng cách thụt đầu dòng, không phải là thêm khoảng trắng, chuyển từ tiêu đề tài liệu sang thân bài hầu hết được chỉ định bằng các thay đổi trong căn chỉnh (căn lề giữa, căn lề trái, căn lề phải), và một số đề mục được chỉ định không phải bằng giãn cách thêm mà là những thay đổi trong kích thước và kiểu phông chữ.

Điều này sau đó dẫn đến quy trình bốn bước sau đây cho phân tích bố cục trang tài liệu:

5. Tìm kiếm các hình chữ nhật trắng cao và đánh giá chúng như ứng viên cho lề bên trong, dấu tách cột, v.v…

6. Tìm kiếm các dòng văn bản có cấu trúc dạng cột của tài liệu.

7. Nhận biết cấu trúc bố cục theo chiều dọc (đầu đề, tiêu đề, đoạn văn) dựa trên mối tương quan (thụt đầu dòng, kích thước, giãn cách, v.v…) và nội dung (kích thước và kiểu phông chữ, v.v…) của các dòng văn bản liền kề. 8. Xác định thứ tự đọc bằng cách sử dụng cả thông tin hình học và thông tin

ngôn ngữ học.

Ý tưởng chính để xác định các lề bên trong, ở đây có nghĩa là các hình chữ nhật trắng cao là một phần có ý nghĩa của một phân tích bố cục, là xem xét, bên cạnh hình dạng và vị trí của các hình chữ nhật, độ tiếp cận của chúng với văn bản liền kề. Sự ràng buộc này được gợi ý bởi cả cấu trúc tài liệu, cũng

67

như quan sát trong một thuật toán hình chữ nhật trắng cực đại đơn giản, nhiều hình chữ nhật đã xác định sẽ được ghép chỉ bằng một vài thành phần văn bản gần góc của chúng. Dựa trên những xem xét về bố cục trang tài liệu và khả năng đọc được, chúng ta có thể thu được một số quy tắc mà chúng ta mong muốn áp dụng cho lề bên trong (trong các hệ thống trong tương lai, tôi dự định đặt cơ sở cho những ràng buộc lên tính chất thống kê của cơ sở dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 58 - 72)

Tải bản đầy đủ (PDF)

(89 trang)