1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo thực tập doanh nghiệp ngành khoa học máy tính Đề tài scene text recognition sử dụng yolov8 và crnn

41 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Scene Text Recognition sử dụng YOLOv8 và CRNN
Tác giả Nguyễn Lương Nam Anh
Người hướng dẫn TS. Trần Hùng Cường
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại báo cáo thực tập
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 41
Dung lượng 11,01 MB

Nội dung

LỜI NÓI ĐẦUTrong một thời đại công nghệ ngày nay, việc nghiên c`u và phát triển các hệthống nhận diện văn bản trong ảnh Scene Text Recognition đang trở thành một lĩnhv2c quan trọng, đặc

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN

Trang 2

LỜI CẢM ƠN

Để th2c hiê 6n và hoàn thành tốt báo cáo th2c tập tốt nghiệp, em đC nhâ 6nđược s2 giúp đỡ và hướng dẫn rất tâ 6n tình của thầy giáo Trần Hùng Cườngthuộc Khoa Công nghê 6 thông tin, trường Đại học Công Nghiê 6p Hà Nội Với tìnhcảm sâu sắc và chân thành, xin phép em được bày tỏ lòng biết ơn đến thầy Trong quá trình làm bài tâ 6p lớn, do giới hạn về mặt kiến th`c cũngnhư kinh nghiê 6m th2c tiễn nên đề tài không tránh khỏi nhbng thiếu sót Em rấtmong nhâ 6n được ý kiến đóng góp từ thầy để bài báo cáo được hoàn thiê 6n hơn

Em xin chúc thầy luôn dgi dào s`c khoẻ, vui vẻ và thành công trongcuộc sống

Em xin chân thành cảm ơn!

Sinh viên th2c hiện Nguyễn Lương Nam Anh

Trang 3

MỤC LỤC

1.1.2 Khái quát về nhận dạng văn bản bối cảnh 9

1.2 Bài toán nhận dạng văn bản bối cảnh qua ảnh 9

1.2.2 Mô tả chi tiết đầu vào và đầu ra bài toán 10 1.2.3 Các khó khăn và thách thức của bài toán 10

CHƯƠNG 2: SỬ DỤNG MÔ HÌNH YOLO VÀ CRNN ĐỂ NHẬN DẠNG VĂN

Trang 4

KẾT LUẬN 39

Trang 6

LỜI NÓI ĐẦU

Trong một thời đại công nghệ ngày nay, việc nghiên c`u và phát triển các hệthống nhận diện văn bản trong ảnh Scene Text Recognition đang trở thành một lĩnhv2c quan trọng, đặc biệt là trong ngb cảnh của `ng dụng th2c tế như quản lý thông tin

từ hình ảnh chụp từ camera giám sát, tìm kiếm thông tin trên ảnh, và nhiều `ng dụngkhác

Em chọn đề tài này vì mong muốn nhận th`c s2 quan trọng của việc trích xuấtthông tin từ văn bản trong hình ảnh, s2 cần thiết trong các `ng dụng th2c tế như quản

lý db liệu từ camera giám sát, tìm kiếm thông tin trong hình ảnh và mang lại giá trịth2c tế cho cộng đgng xC hội

Mục tiêu nghiên c`u của bài báo cáo này là phát triển mô hình phát hiện vànhận dạng hiệu quả các đoạn văn bản trong các hình ảnh

Trong bài báo cáo em sẽ kết hợp mô hình phát hiện Yolo cùng với thuật toánhọc sâu Convolutional Recurrent Neural Network để nhận dạng

Phần chính của bài báo cáo sẽ đi sâu vào các khía cạnh quan trọng của lĩnhv2c trong bài toán nhận dạng văn bản bối cảnh qua ảnh Chúng ta sẽ xem xét cácphương pháp giải quyết bài toán, công cụ, và các `ng dụng cụ thể trong th2c tế.Trong báo cáo này, nhóm quyết định trình bày thành 3 chương như sau:

- Chương 1: Tổng quan về bài toán nhận dạng văn bản Nêu lên các kỹ

thuật sử dụng cho bài toán nhận dạng, khó khăn và thách th`c

- Chương 2: Sử dụng mô hình YOLO và CRNN để nhận dạng văn bản.

Ở chương này, em sẽ nói rõ hơn về mô hình YOLO và CRNN, cácbước th2c hiện và quy trình nhận dạng văn bản để có thể áp dụng chobài toán

- Chương 3: Một số kết quả th2c nghiệm Trình bày kết quả th2c

nghiê 6m khi áp dụng phương pháp đC chọn vào bài toán Phần này

sẽ nêu chi tiết các bước tiến hành và kết quả sau khi áp dụngphương pháp đC chọn Đgng thời, đánh giá kết quả phân lớp của

mô hình, từ đó, đưa ra hướng phát triển cho đề tài

Trang 7

Qua bài tâ 6p lớn này, hy vọng r•ng em sẽ nắm vbng kiến th`c và kỹ năng

về mô hình, cũng như cách `ng dụng nó vào bài toán nhận dạng văn bản Đgngthời mở rộng tầm nhìn và tư duy của chúng ta về lĩnh v2c trí tuệ nhân tạo

Trang 8

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG VĂN BẢN 1.1 Tổng quan về nhận dạng

1.1.1 Khái quát về xử lý ảnh

Xử lý ảnh là một trong nhbng mảng quan trọng nhất trong kỹ thuật thị giácmáy tính, là tiền đề cho nhiều nghiên c`u thuộc lĩnh v2c này Hai nhiệm vụ cơ bản củaquá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh và xử lý số liệu cung cấpcho các quá trình khác trong đó có việc `ng dụng thị giác vào điều khiển

Hình 1.1: Quy trình xử lý ảnh

Quá trình bắt đầu từ việc thu nhận ảnh ngugn (từ các thiết bị thu nhận ảnhdạng số hoặc tương t2) gửi đến máy tính Db liệu ảnh được lưu trb ở định dạng phùhợp với quá trình xử lý Người lập trình sẽ tác động các thuật toán tương `ng lên dbliệu ảnh nh•m thay đổi cấu trúc ảnh phù hợp với các `ng dụng khác nhau

Một số khái niệm cơ bản trong xử lý ảnh:

- Tiền xử lý: Đây là giai đoạn đầu tiên trong xử lý ảnh, nh•m chuẩn bị và

làm sạch db liệu hình ảnh trước khi áp dụng các phép biến đổi và thuậttoán khác Các bước tiền xử lý có thể bao ggm cân b•ng sáng tối, loại

bỏ nhiễu, làm mịn hình ảnh, làm rõ biên, hoặc thay đổi kích thước hìnhảnh

- Biến đổi hình ảnh: Biến đổi hình ảnh liên quan đến việc thay đổi hình

dạng, kích thước hoặc vị trí của hình ảnh Các phép biến đổi phổ biếnbao ggm xoay, thu phóng, dịch chuyển, lật và gương

- Lọc và biến đổi không gian: Các phép lọc hình ảnh được sử dụng để

làm mờ, làm nổi bật, hoặc loại bỏ thông tin không mong muốn từ hìnhảnh Các bộ lọc thông thường bao ggm lọc Gaussian, lọc trung bình, lọc

Trang 9

trung vị và lọc Sobel Biến đổi không gian như biến đổi Fourier cũngđược sử dụng để phân tích và biểu diễn hình ảnh.

- Trích chọn đặc trưng: Trích xuất đặc trưng là quá trình rút trích thông

tin quan trọng từ hình ảnh để tạo ra biểu diễn số học Các đặc trưng phổbiến bao ggm đặc trưng màu sắc, đặc trưng hình dạng, đặc trưng vùnglân cận và đặc trưng phổ tần số

- Phân đoạn và nhận dạng: Phân đoạn hình ảnh liên quan đến việc phân

loại và nhận dạng các đối tượng trong hình ảnh Các phương pháp nhưphân đoạn ngưỡng, phân đoạn d2a trên màu sắc, phân đoạn d2a trênhọc máy và phân đoạn d2a trên mạng nơ-ron sâu được sử dụng để th2chiện nhiệm vụ này

- Biểu diễn và hiển thị hình ảnh: Hình ảnh có thể được biểu diễn b•ng

các cấu trúc db liệu như ma trận, tensor, hoặc các biểu diễn khác nhaunhư histogram màu sắc, ma trận phổ tần số và biểu đg đặc trưng Cáccông nghệ hiển thị hình ảnh như OpenCV hoặc các thư viện đg họakhác được sử dụng để hiển thị và tương tác với hình ảnh

1.1.2 Khái quát về nhận dạng văn bản bối cảnh

Ứng dụng nhận dạng văn bản bối cảnh là `ng dụng có khả năng phân tích hìnhảnh và xác định các chb từ các hình ảnh chụp được từ các thiết bị thu hình

Ngugn hình ảnh cho `ng dụng có rất nhiều Hình ảnh được tr2c tiếp thu nhận

từ camera Trong báo cáo th2c nghiệm này của em chỉ dừng lại ở m`c xác định đượcvăn bản (xác định các chb) từ ảnh

1.2 Bài toán nhận dạng văn bản bối cảnh qua ảnh

1.2.1 Giới thiệu bài toán

Bài toán nhận dạng văn bản bối cảnh qua ảnh là một trong nhbng thách th`cquan trọng trong lĩnh v2c thị giác máy tính và xử lý ngôn ngb t2 nhiên Mục tiêu củabài toán là t2 động nhận diện và trích xuất thông tin từ văn bản xuất hiện trong hìnhảnh, đgng thời hiểu được bối cảnh xung quanh để cải thiện chính xác và hiểu biết đầy

đủ hơn

Trang 10

Trong bối cảnh `ng dụng th2c tế, hình ảnh ch`a văn bản thường đến từ nhiềungugn khác nhau như bảng biển giao thông, nhCn sản phẩm, hay bảng thông báo Bàitoán nhận dạng văn bản bối cảnh qua ảnh đặt ra nhiều thách th`c, bao ggm:

- Nhận diện văn bản: Phải xác định vị trí và biên giới của văn bản trongảnh để đảm bảo việc nhận diện chính xác

- Trích xuất thông tin: Sau khi xác định được vị trí của văn bản, mô hìnhcần trích xuất thông tin từ văn bản đó, bao ggm cả ngôn ngb t2 nhiên vàcác thuộc tính khác như ngày tháng, số liệu, v.v

- Hiểu bối cảnh: Để cải thiện chính xác và `ng dụng rộng rCi, mô hình cần

có khả năng hiểu bối cảnh xung quanh văn bản Điều này có thể bao ggmviệc đọc và hiểu các yếu tố như hình ảnh xung quanh văn bản, ngb cảnhvăn bản và mối quan hệ với các đối tượng khác trong ảnh

1.2.2 Mô tả chi tiết đầu vào và đầu ra bài toán

Đầu vào: Db liệu đầu vào của bài toán nhận dạng văn bản bối cảnh qua ảnh

thường bao ggm một hoặc nhiều hình ảnh ch`a văn bản Mỗi hình ảnh có thể đượcbiểu diễn dưới dạng ma trận pixel với các kênh màu RGB hoặc dạng hình ảnh đentrắng (grayscale) Hình ảnh có thể ch`a văn bản ở nhiều vị trí và kích thước khác nhau

Đầu ra: Kết quả của bài toán thường bao ggm hai thành phần chính:

- Vị trí và biên giới (Bounding Boxes) của văn bản: Mỗi hình ảnh sẽ đượckết quả với thông tin về vị trí và biên giới của văn bản trong đó Điềunày được biểu diễn thông qua các hộp giới hạn (bounding boxes) xácđịnh khu v2c ch`a văn bản

Ví dụ: [(x1, y1, x2, y2), (x1', y1', x2', y2'), ]

Trong đó, (x1, y1) và (x2, y2) là tọa độ của góc trái dưới và góc phải trêncủa bounding box, tương `ng

- Thông tin trích xuất từ văn bản: Mỗi vùng ch`a văn bản được xác địnhqua bounding box sẽ được quét để trích xuất thông tin Điều này có thểbao ggm các chuỗi ký t2, con số, ngày tháng, hoặc bất kỳ thông tin cụthể nào có thể được nhận dạng từ văn bản đó

Ví dụ: ["Biển số xe: 29A-12345", "Ngày sản xuất: 01/2023", ]

1.2.3 Các khó khăn và thách thức của bài toán

Trang 11

Bài toán nhận dạng văn bản bối cảnh qua ảnh đặt ra nhiều khó khăn và tháchth`c, đặc biệt là khi áp dụng trong các tình huống đa dạng trong thế giới th2c Dướiđây là một số khó khăn và thách th`c chính của bài toán này:

- Đa dạng văn bản và ngôn ngb: Hình ảnh có thể ch`a văn bản từ nhiều ngônngb khác nhau, đòi hỏi mô hình có khả năng nhận diện và hiểu ngb cảnhcủa nhiều ngôn ngb Các loại văn bản khác nhau như chb in, chb viết tay,

và văn bản nghệ thuật đặt ra thách th`c cho việc nhận diện

- Vị trí và kích thước đa dạng: Văn bản có thể xuất hiện ở nhiều vị trí khácnhau trên hình ảnh, và kích thước của nó có thể biến động đáng kể Đốimặt với vấn đề khi văn bản bị chgng lên nhau hoặc mất mát do góc chụp,ánh sáng yếu, hoặc che phủ bởi các đối tượng khác

- Khả năng đọc trên bề mặt khó: Các vấn đề như ánh sáng yếu, nền ph`c tạp,hoặc văn bản nhỏ có thể làm cho quá trình đọc và nhận diện trở nên khókhăn

- Hiệu suất thời gian th2c: Đối với các `ng dụng thời gian th2c như trong xet2 lái hoặc hệ thống giám sát, mô hình cần phải có hiệu suất cao để xử lýhình ảnh và nhận diện văn bản một cách nhanh chóng

1.2.4 Ứng dụng của bài toán

Bài toán nhận dạng văn bản bối cảnh qua ảnh có nhiều `ng dụng th2c tế, baoggm:

- Giao thông và an toàn: Nhận diện biển báo giao thông để cảnh báo lái xe

về các hạn chế và quy tắc đường

- Quản lý kho: Trích xuất thông tin từ nhCn sản phẩm để theo dõi và quản

lý hàng hóa trong các kho logistics

- Dịch ngôn ngb t2 nhiên: Nhận diện văn bản từ các ngugn đa ngôn ngb

để hỗ trợ việc dịch và hiểu ngôn ngb

- Quảng cáo và Tiếp thị: T2 động nhận diện thông tin trên ảnh quảng cáo

để tối ưu hóa chiến lược tiếp thị

Bài toán nhận dạng văn bản bối cảnh qua ảnh đang ngày càng trở thành mộtlĩnh v2c nghiên c`u quan trọng, đgng thời mang lại nhiều `ng dụng h`a hẹn trong thếgiới th2c

Trang 12

CHƯƠNG 2: SỬ DỤNG MÔ HÌNH YOLO VÀ CRNN ĐỂ NHẬN DẠNG VĂN

BẢN 2.1 Tổng quan về YOLO

2.1.1 Giới thiệu chung

Loạt mô hình YOLO đC trở nên nổi tiếng trong lĩnh v2c thị giác máy tínhnhbng năm gần đây S2 nổi tiếng của YOLO là do độ chính xác đáng kể của nó trongkhi vẫn duy trì kích thước mô hình tương đối nhỏ Các mô hình YOLO có thể đượcđào tạo trên một GPU duy nhất, giúp nhiều nhà phát triển có thể tiếp cận mô hình này.Nhbng người th2c hành học máy có thể triển khai nó với chi phí thấp trên phần c`nghoặc trên đám mây

YOLO đC được cộng đgng thị giác máy tính phát triển không ngừng kể từ lần ramắt đầu tiên vào năm 2015 bởi Joseph Redmond Trong nhbng ngày đầu (phiên bản 1-4), YOLO được duy trì b•ng mC C trong một khung học sâu tùy chỉnh do Redmondviết có tên là Darknet Phiên bản YOLOv5 sau khi được Ultralytics ra mắt đC nhanhchóng được sử dụng rộng rCi nhờ cấu trúc linh hoạt của nó Trong hai năm qua, nhiều

mô hình đC phân nhánh từ YOLOv5, bao ggm Scaled-YOLOv4, YOLOR vàYOLOv7 Các mô hình khác đC xuất hiện trên khắp thế giới từ nhbng phiên bản banđầu của riêng chúng, chẳng hạn như YOLOX và YOLOv6 Đgng thời, mỗi mô hìnhYOLO đC mang đến các kỹ thuật mới để tiếp tục nâng cao độ chính xác và hiệu quảcủa mô hình

YOLOv8 là mô hình YOLO tiên tiến nhất có thể được sử dụng cho các tác vụphát hiện đối tượng và phân loại hình ảnh YOLOv8 được phát triển bởi Ultralytics,cũng chính là nhóm đC tạo ra mô hình YOLOv5 đC đạt được nhbng thành công nhấtđịnh trước đây YOLOv8 bao ggm nhiều thay đổi và cải tiến về kiến trúc và trảinghiệm người dùng so với YOLOv5

● Kiến trúc của YOLOv8:

Trang 14

Hình 2.2 Kiến trúc mạng Yolo

Điều đó đang được nói, trên mỗi thành phần chính, có một số cách tiếp cận cóthể được sử dụng để kết hợp các kiến trúc khác nhau S2 đóng góp của YOLOv4 vàYOLOv5 bắt đầu b•ng việc tích hợp các đột phá trong các lĩnh v2c khác của thị giácmáy tính và ch`ng minh r•ng, như một bộ sưu tập, chúng cải thiện khả năng phát hiệnđối tượng YOLO

2.1.2 Chi tiết mô hình YOLO

là cô gái Lưu ý, cho dù phần ảnh cô gái có n•m ở ô vuông khác mà tâm không thuộc ôvuông đó thì vẫn không tính là ch`a cô gái, ngoài ra, nếu có nhiều tâm n•m trong một

ô vuông thì chúng ta vẫn chỉ gán một nhCn cho ô vuông đó thôi Chính ràng buộc mỗi

ô vuông chỉ ch`a một đối tượng là nhược điểm của mô hình này Nó làm cho ta khôngthể detect nhbng object có tầm n•m cùng một ô vuông Tuy nhiên chúng ta có thể tănggrid size từ 7x7 lên kích thước lớn hơn để có thể detect được nhiều object hơn Ngoài

ra, kích thước của ảnh đầu vào phải là bội số của grid size

Trang 15

Hình 2.3 Chia các ô vuông

Mỗi ô vuông chịu trách nhiệm d2 đoán 2 boundary box của đối tượng Mỗiboundary box db đoán có ch`a object hay không và thông tin vị trí của boundary boxggm trung tâm boundary box của đối tượng và chiều dài, rộng của boundary box đó

Ví dụ ô vuông màu xanh cần d2 đoán 2 boundary box ch`a cô gái như hình minh họa

ở dưới Một điều cần lưu ý, lúc cài đặt chúng ta không d2 đoán giá trị pixel mà cầnphải chuẩn hóa kích thước ảnh về đoạn từ [0-1] và d2 đoán độ lệch của tâm đối tượngđến box ch`a đối tượng đó Ví dụ, chúng ta thay vì d2 đoán vị trí pixel của điểm màu

đỏ, thì cần d2 đoán độ lệch a, b trong ô vuông ch`a tâm object

Trang 16

Hình 2.4 Nhận diện đối tượng

Tổng hợp lại, với mỗi ô vuông chúng ta cần db đoán các thông tin sau:

- Ô vuông có ch`a đối tượng hay không?

- D2 đoán độ lệch 2 box ch`a object so với ô vuông hiện tại

- Lớp của object đó

Như vậy với mỗi ô vuông chúng ta cần d2 đoán một vector có(nbox+4*nbox+nclass) chiều Ví dụ, chúng ta cần d2 đoán 2 box, và 3 lớp đối với mỗi

ô vuông thì chúng sẽ có một ma trận 3 chiều 7x7x13 ch`a toàn bộ thông tin cần thiết

Hình 2.5 Minh hoạ vector

2.1.3 Đầu ra của mô hình YOLO

Output của mô hình YOLO là một vecto sẽ bao ggm các thành phần:

y T=[p0,⟨ t x , t , t y w , t h ⟩ , ⟨ p1, p2, … , p c ⟩]Trong đó:

Trang 17

- ⟨ t x ,t y ,t ,t w h ⟩ giúp xác định bounding box Trong đó t x ,t y là tọa độ tâm và

t w ,t h là kích thước rộng, dài của bounding box

- ⟨ p1, p2, … , p c ⟩ là vectơ phân phối xác suất d2 báo của các classes

Việc hiểu output khá là quan trọng để chúng ta cấu hình tham số chuẩn xác khi huấn luyện model qua các open source như darknet Như vậy output sẽ được xác định theo số lượng classes theo công th`c (n_class + 5) Nếu huấn luyện 80 classes thì bạn

sẽ có output là 85 Trường hợp bạn áp dụng 3 anchors/cell thì số lượng tham số output

sẽ là:

(n_class + 5) x 3 = 85 x 3 = 225

Hình 2.6 Minh hoạ đầu ra ảnh

Trang 18

Hình ảnh gốc là một feature map kích thước 13x13 Trên mỗi một cell của feature map chúng ta l2a chọn ra 3 anchor boxes với kích thước khác nhau lần lượt là Box 1, Box 2, Box 3 sao cho tâm của các anchor boxes trùng với cell Khi đó output của YOLO là một véc tơ concatenate của 3 bounding boxes Các attributes của một bounding box được mô tả như dòng cuối cùng trong hình.

Một số lưu ý khi huấn luyện YOLO:

- Khi huấn luyện YOLO sẽ cần phải có RAM dung lượng lớn hơn để save được 10647 bounding boxes như trong kiến trúc này

- Không thể thiết lập các batch_size quá lớn như trong các mô hình classification vì rất dễ Out of memory Package darknet của YOLO đC chia nhỏ một batch thành các subdivisions cho vừa với RAM

- Thời gian xử lý của một step trên YOLO lâu hơn rất rất nhiều lần so với các mô hình classification Do đó nên thiết lập steps giới hạn huấn luyện cho YOLO nhỏ Đối với các tác vụ nhận diện dưới 5 classes, dưới 5000 steps là có thể thu được nghiệm tạm chấp nhận được Các mô hình có nhiều classes hơn có thể tăng số lượng steps theo cấp số nhân tùy bạn

2.2 Tổng quan về mô hình CRNN

2.2.1 Giới thiệu chung

Mô hình CRNN, viết tắt của "Convolutional Recurrent Neural Network" là mộtkiến trúc mạng nơ-ron tích hợp giba các lớp cơ sở của mạng nơ-ron tích hợp hình ảnh(CNN - Convolutional Neural Network) và lớp nơ-ron tuần t2 (RNN - RecurrentNeural Network) Được đề xuất để giải quyết bài toán nhận diện văn bản trong ảnh,CRNN đC ch`ng tỏ khả năng ấn tượng trong việc xử lý văn bản đa dạng và biến đổi.CNN phát hiện đặc trưng: lớp CNN được sử dụng để trích xuất các đặc trưngcấp thấp và cấp cao từ ảnh, giúp mô hình t2 động học được các đặc trưng quan trọngcủa văn bản

RNN hiểu ngb cảnh: lớp RNN được tích hợp để xử lý chuỗi db liệu, giúp môhình hiểu ngb cảnh và tương tác giba các ký t2 với nhau

2.2.2 Chi tiết mô hình CRNN

Trang 19

Hình 2.7 Tổng quan mô hình CRNN

CRNN, đúng như cái tên của nó, là s2 kết hợp giba CNN và RNN Đây là mộts2 cộng sinh rất hợp lý bởi vì nhiệm vụ của nó là nhận một b`c ảnh đầu vào và cho ramột văn bản ch`a trong b`c ảnh đó Nhắc đến xử lý ảnh thì CNN chắc chắn không thểthiếu, và xử lý văn bản thì RNN cũng là `ng cử viên nặng ký Kiến trúc của CRNNchia thành 3 phần rõ rệt

Cấu trúc mô hình:

- Lớp Convolutional (Conv): Dùng để trích xuất đặc trưng ảnh

- Lớp Recurrent (RNN): Xử lý thông tin tuần t2 và hiểu ngb cảnh

- Lớp Transcription (CTC Loss - Connectionist Temporal ClassificationLoss): Được sử dụng để huấn luyện mô hình giúp giảm giba các chuỗid2 đoán và chuỗi th2c tế

Trang 20

Ảnh đầu vào được cho đi qua các lớp Conv, sinh ra các Feature Maps CácFeature Maps sau đó lại được chia ra thành một chuỗi của các Feature Vectors (cácTimeSteps), gọi là Feature Sequence.

Hình 2.8 Feature Sequence

● Recurrent layers

Feature Sequence được đưa vào các lớp Bidirectional LSTM, sinh ra một chuỗicác ký t2 (Seq2Seq), mà mỗi một ký t2 tương `ng với một TimeStep trong FeatureSequence Về lý thuyết thì đây chính là văn bản đầu ra cần xác định Tuy nhiên,Feature Maps không phải lúc nào cũng được chia chính xác thành các Feature Vectors,

mà mỗi Feature Vector ch`a đúng 1 ký t2 cần nhận diện, nên chuỗi đầu ra của LSTMcũng rất lộn xộn: trùng lặp, không có ký t2, …

Ngày đăng: 04/12/2024, 17:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w