Hướng tiếp cận dựa trên phân đoạn

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện chữ trong ảnh ngoại cảnh sử dụng phương pháp phân đoạn (Trang 29 - 32)

Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN

2.1.2. Hướng tiếp cận dựa trên phân đoạn

Phương pháp phát hiện văn bản dựa trên phân đoạn (Segmentation-based

methods) là một trong những phương pháp tiên tiễn trong bài toán phát hiện văn bản trong ảnh có bối cảnh. Phương pháp này nhắm vào việc phân đoạn văn bản từ hình

ảnh thành các phần tử cơ bản, như các pixel hoặc đoạn, dé thu được thông tin chi tiét

vé vi tri va hinh dang cua từng đối tượng văn bản. Chúng ta có thể phân loại các

phương pháp dựa trên phân đoạn thành hai nhóm chính: phương pháp phân đoạn theo

ngữ nghĩa (Semantic segmentation — based method) và phương pháp phân đoạn theo

đối tượng (Instnace segmentation — based methods).

Phương pháp phân đoạn theo ngữ nghĩa là những phương pháp định danh

các khu vực chứa văn bản trong hình ảnh bằng cách gán nhãn cho từng pixel. Mục

tiêu của phương pháp này tập trung vào việc xác định vùng chứa văn bản trên toàn

bộ hình ảnh. Trong bài toán phát hiện văn bản trong ảnh có bối cảnh, khi nhắc đến cách tiếp cận phân đoạn theo ngữ nghĩa, không thê không nói về phương pháp Fully Convolution Networks (FCN) [5], phương pháp có thể coi là truyền cảm hứng cho tất cả các phương pháp phát hiện văn bản theo cách tiếp cận phân đoạn ngữ nghĩa sau này. Nhằm thay đổi cách tiếp cận truyền thống của việc sử dụng các lớp kết nối đầy

đủ cho phân đoạn hình ảnh, FCN trực tiếp dự đoán nhãn từng pixel cho phân đoạn thông qua việc thay đôi các lớp kết nối đầy đủ bằng các lớp lớp tích chập và áp dụng

các phép tích chập trên toàn bộ hình ảnh. Việc này không những giúp cho quá trình

phân đoạn trở nên chỉ tiết hơn mà tăng độ chính xác. Tiếp nối thành công trong hướng tiếp cận phân đoạn ngữ nghĩa mà FCN tạo ra, phương pháp Textsnake [6] được đề

12

xuất bằng cách Kết hợp phân đoạn ngữ nghĩa cùng với việc xác định các hình dạng

Hình 2.2 Minh họa văn bản được phát hiện theo phân đoạn ngữ nghĩa. Các đối

tượng văn bản trong ảnh đều được tô trong cùng một vùng.

Phương pháp phân đoạn theo đối tượng là phân đoạn từng đối tượng văn

bản riêng lẻ trong hình ảnh. Mục tiêu của chúng là phát hiện và phân đoạn từng từ,

từng ký tự hoặc từng đoạn văn bản một cách riêng lẻ. Các phương pháp dựa trên phân

đoạn theo đối tượng đã nổi lên như là một trong những cách tiếp cận đầy hứa hẹn trong việc phát hiện văn bản trong ảnh có bối cảnh. PixelLink [7], sử dụng mô hình

dự đoán cấp pixel dé phát hiện và phân đoạn văn bản trong cảnh quan tự nhiên, sử dụng mạng tích chập hoàn toàn đề dự đoán bản đồ nhiệt cho khu vực văn bản và bản

đồ liên kết dé kết nối từng ký tự hoặc từ. Văn bản đã được phân đoạn sau đó được nhận dạng bằng mô hình nhận dang dựa trên CNN. Trong bài báo “Learning Shape- Aware Embedding for Scene Text Detection” [8], để giải quyết thách thức phát hiện các trường hợp văn bản có tỷ lệ cạnh thay đổi, một phương pháp được đề xuất dựa trên việc ánh xạ các pixel của một hình ảnh vào không gian nhúng. Đồng thời, nhóm tác giả cũng giới thiệu một hàm mat mát mới nhằm điều chỉnh hình dạng trong quá

13

trình huấn luyện, giúp mô hình thích ứng tốt hơn với các tỷ lệ cạnh khác nhau của

Hình 2.3 Minh họa văn bản được phát hiện theo phân đoạn doi tượng. Các doi

tượng văn bản trong ảnh được xác định thành từng vùng riêng biệt.

Mặc dù các phương pháp dựa trên phân đoạn nhìn chung đã cho thấy hiệu suất

an tượng cho bài toán phát hiện văn bản trong ảnh có bối cảnh, tuy nhiên, vẫn còn tồn đọng nhiều thách thức đáng kể. Một trong những hạn chế có thé nhắc đến đó là van dé thông tin hình ảnh không đủ, dẫn đến kết qua phát hiện không chính xác. Thách thức này chủ yếu đến từ việc các phương pháp hiện nay chỉ tập trung phát hiện văn bản từ một khu vực quan tâm (Rol) duy nhất, mà bỏ qua việc xem xét bối cảnh

rộng hơn trong hình ảnh. Hơn nữa, các phương pháp hiện nay chưa đánh giá đúng

mức độ ngữ nghĩa của từ khác nhau, dẫn đến nguy cơ cao gây ra những kết quả đương tính sai trong quá trình phát hiện văn ban. Dé vượt qua những hạn chế này, phương pháp TextFuseNet [9] đã được đề xuất như là một phương pháp day triển vọng bang cách tích hợp nhiều đặc trưng hình ảnh, bao gồm phân đoạn ngữ nghĩa và phân đoạn theo đối tượng, nhằm cải thiện độ chính xác trong việc phát hiện văn bản trong ảnh

có bôi cảnh. Câu trúc của mô hình TextFuseNet được thiêt kê như một câu trúc đa

14

giai đoạn, trong đó với mỗi giai đoạn, mô hình tập trung vào giải quyết một khía cạnh

cụ thé trong nhiệm vụ phát hiện văn bản. Mô-đun trích xuất đặc trưng thu thập các đặc trưng từ hình anh đầu vào, sau đó đưa vào mô-đun phân đoạn ngữ nghĩa dé tạo

ra một mặt na thô cho các khu vực van bản trong hình ảnh. Sau đó, mô-đun phân đoạn

theo đối tượng tạo ra các mặt nạ phân cấp đối tượng cho từng trường hợp văn bản

riêng lẻ trong các khu vực văn bản được xác định.

Một cách tông quan, phương pháp phân đoạn có khả năng định vị văn bản chính xác bằng cách xác định các đường viền hoặc mask cho từng từ hoặc đoạn văn bản trong ảnh. Điều này giúp tạo ra các kết qua phát hiện chi tiết và chính xác về vị trí của văn bản trong cảnh. Tuy nhiên, phương pháp phân đoạn thường yêu cầu tính toán

phức tạp hơn so với các phương pháp khác. Việc phải phân loại từng pixel hoặc xác

định các đường vién chỉ tiết đòi hỏi một lượng lớn tính toán và tài nguyên tính toán,

đặc biệt đôi với ảnh có độ phân giải cao.

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện chữ trong ảnh ngoại cảnh sử dụng phương pháp phân đoạn (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(99 trang)