1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo project i nhận dạng ký tự viết tay bằng công nghệ ocr

26 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 4,91 MB

Nội dung

Nghiên cứu mới nhất trong lĩnh vực này đã sử dụng các loại phươngpháp, bộ phân loại và tính năng khác nhau để giảm độ phức tạp của việc nhận dạngvăn bản viết tay.Trong bài báo cáo này, e

Trang 1

TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

-

-BÁO CÁO PROJECT I

nghệ OCR

Giảng viên hướng dẫn: Th.S Lê Đức TrungSinh viên thực hiện: Nguyễn Việt Hòa-20207673

Trang 2

Lời nói đầuBài báo cáo này trình bày một đánh giá tổng quan về Nhận dạng ký tự viết tay(HCR) Nhận dạng ký tự viết tay đã được áp dụng trong nhiều ứng dụng như lĩnhvực Ngân hàng, ngành chăm sóc sức khỏe và nhiều tổ chức xử lý các tài liệu viếttay Nhận dạng ký tự viết tay là quá trình chuyển đổi văn bản viết tay thành dạng

có thể đọc được bằng máy Đối với các ký tự viết tay, có những khó khăn cụ thểnhư các kí tự khác nhau giữa người viết này với người khác, ngay cả khi cùng mộtngười viết cùng một ký tự thì vẫn có sự khác biệt về hình dạng, kích thước và vị trícủa ký tự Nghiên cứu mới nhất trong lĩnh vực này đã sử dụng các loại phươngpháp, bộ phân loại và tính năng khác nhau để giảm độ phức tạp của việc nhận dạngvăn bản viết tay.Trong bài báo cáo này, em sẽ sử dụng công nghệ OCR (viết tắt củacụm từ Optical Character Recognition), đây là phần mềm nhận dạng ký tự quanghọc, được áp dụng để nhận dạng các ký tự trên một file ảnh chụp hoặc pdf, sau đótrích xuất các trường thông tin trên hình ảnh và lưu trữ dưới dạng text nhằm số hóatài liệu, cụ thể là các thông tin, dữ liệu trên ảnh chụp đó

Trang 3

MỤC LỤC

3.1.3 Mạng neuron nhiều lớp và giải thuật lan truyền ngược 13

Trang 4

CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN

1.1 OCR là gì?

-Nhận dạng kí tự quang học (Optical Character Recognition – OCR) là lĩnh vựcnghiên cứu cách chuyển đổi ảnh số được chụp hay quét từ tài liệu viết tay, đánhmáy hay in thành dạng văn bản máy tính có thể hiểu được

-Trên thế giới, công nghệ OCR đã có những tác động sâu sắc đến nhiều lĩnh vựctrong sản xuất và đời sống Việc chuyển các văn bản in trên giấy thành dạng điện

tử nhỏ gọn và dễ tìm kiếm giúp hàng triệu trang sách báo đến được với bạn đọckhắp nơi trên thế giới Bằng cách kết hợp với phần mềm text-to-speech lượng tàiliệu này có thể được đọc thành tiếng cho những người khiếm thị Nhiều bưu điện

đã áp dụng hệ thống phân loại thư tự động dựa trên máy đọc bì thư có cài phầnmềm OCR Các ngân hàng đọc nội dung của séc để chống rửa tiền, gian lận và cảphát hiện khủng bố OCR còn đi vào đời sống hàng ngày qua những thiết bị thôngtin cá nhân (PDA) giúp người sử dụng nhập dữ liệu bằng cách viết lên màn hìnhcảm ứng thay vì đem theo bộ bàn phím cồng kềnh

-Ở Việt Nam, công nghệ OCR mới chỉ phát triển ở giai đoạn đầu với một vài bộphần mềm nhận dạng kí tự in như VnDOCR, VietOCR, ABBYY trong khi đó lĩnhvực nhận dạng chữ viết tay vẫn còn bỏ ngỏ

-Với số lượng lớn tài liệu viết tay cần được xử lí cũng như sự phát triển của côngnghệ di động và PDA đây là một hướng nghiên cứu đầy triển vọng

-Quá trình OCR gồm nhiều bước như phân tích cấu trúc văn bản, tách dạng, tách kí

Trang 5

này đòi hỏi phải có thao tác can thiệp thủ công và cũng có thể khá buồn tẻ và lềmề.

-Hơn nữa, việc số hóa nội dung tài liệu này sẽ tạo ra các tệp hình ảnh với văn bản

ẩn bên trong Không thể xử lý văn bản trong hình ảnh bằng phần mềm xử lý vănbản theo cách giống như đối với tài liệu văn bản Công nghệ OCR giải quyết vấn

đề này bằng cách chuyển đổi hình ảnh văn bản thành dữ liệu văn bản mà phầnmềm kinh doanh khác có thể phân tích Sau đó, bạn có thể sử dụng dữ liệu để tiếnhành phân tích, hợp lý hóa hoạt động, tự động hóa các quy trình và cải thiện năngsuất

1.3 Một số ứng dụng thực tiễn của công nghệ OCR

a Hỗ trợ cuộc sống của người già, người khiếm thị

Vào những năm 1970, công ty Kurzweil Computer Products Inc của Mỹ đã cho rađời hệ thống phông chữ Omni đầu tiên trên thế giới Phần mềm OCR có khả năngnhận dạng phông chữ này Ngay lập tức, công nghệ OCR đã được tích hợp vớicông nghệ tổng hợp giọng nói (giọng máy), giúp máy có khả năng đọc hiểu vănbản

Nói cách khác, văn bản không chỉ được phần mềm OCR giải mã, mà còn đượccông cụ tổng hợp giọng nói đọc ra thành tiếng Giọng nói vi tính hóa đã được ứngdụng vào việc đọc văn bản trong sách, báo, tạp chí cho người cao tuổi, ngườikhiếm thị, giúp cuộc sống của họ trở nên nhẹ nhàng hơn

Trang 6

b Sắp xếp tài liệu trong các công ty luật và toà án

Trong mỗi vụ án, các giấy tờ tài liệu pháp lí, hồ sơ rất nhiều và phức tạp Để đảmbảo không bỏ sót bất kì chi tiết, giấy tờ nào quan trọng, luật sư phải sắp xếp và tìmkiếm mất rất nhiều thời gian

Nhờ phần mềm OCR, các luật sư có thể số hóa tất cả các văn bản một cách vôcùng nhanh chóng Khi cần, họ dễ dàng tìm tài liệu theo từ khoá, ngày tháng, têntệp… một cách đơn giản, tiện lợi và khoa học Điều này đồng nghĩa với việc, luật

sư không phải thuê nhiều trợ lí để thực hiện các nhiệm vụ thủ công, mà vẫn đảmbảo giám sát được công việc

c Bảo tồn các văn bản có giá trị

Các thư viện cổ, trung tâm văn hóa lịch sử hay viện bảo tàng… là những nơi lưutrữ rất nhiều các bản thảo, tài liệu, hồi kí… Quá trình cất giữ và bảo quản những tàiliệu này không hề đơn giản Chúng rất dễ bị mối mọt và hư hại theo thời gian Việcnhập liệu thủ công chính xác và đầy đủ lượng văn bản khổng lồ đấy là điều vôcùng khó khăn và vất vả, có thể mất tới hàng chục năm

Tuy nhiên, công nghệ OCR ra đời đã giúp nhiều tổ chức giải quyết bài toán đó mộtcách đơn giản hơn Các văn bản, tài liệu quan trọng được chuyển đổi từ dạng giấysang file mềm, giúp việc lưu trữ và bảo tồn nhiều di sản văn học trở nên dễ dànghơn

Trang 7

d Nhận dạng cá nhân

Khi đăng kí mở tài khoản ngân hàng, mở thẻ thành viên hay bất kì một hành độngnào cần phải xác minh danh tính, bạn đều phải cung cấp thông tin cá nhân đúng vàđầy đủ với các bên đối tác Quá trình kê tờ khai mất kha khá thời gian của bạn vàbên làm dịch vụ Đôi khi, nhập liệu sai dẫn đến những rắc rối không đáng có vềsau

Với phần mềm OCR, các tài liệu pháp lí như chứng minh nhân dân, hộ chiếu, bằnglái xe và nhiều loại giấy tờ khác đều có thể được quét nhanh chóng bởi các vănphòng công chứng, phòng cảnh sát, sân bay và nhiều tổ chức, dịch vụ cần xử líthông tin cá nhân Đối với các giấy tờ tùy thân không quá nhiều kí tự, công nghệOCR có khả năng nhận dạng chính xác gần như tuyệt đối, giảm thiếu tối đa lỗinhập liệu Hơn thế nữa, việc nhận dạng và trích xuất thông tin bằng máy giúp các

cơ quan, đơn vị, tổ chức dễ dàng lưu trữ thông tin và có thể truy xuất thông tinngười dùng bất cứ lúc nào

e Xử lí hóa đơn và nhiều loại chứng từ

Tất cả các cơ quan, tổ chức đều có hàng nghìn các loại giấy tờ, tài liệu, với nhiềuđịnh dạng khác nhau như các văn bản in/viết tay trên giấy, file PDF, JPG… Cácnhân viên khó có thể nhập tất cả các dữ liệu đó vào hệ thống, hoặc phải tốn rấtnhiều thời gian để xử lí khối lượng giấy tờ không hồi kết đó Hơn thế, xác suất saisót trong nhập liệu khá lớn

Trang 8

Nhiều cơ quan, tổ chức chọn giải pháp chuyển đổi các hợp đồng, hóa đơn, chứng

từ và nhiều loại giấy tờ khác thành văn bản dưới dạng kĩ thuật số, để tiện sử dụng

dữ liệu đó cho các báo cáo tài chính, lưu trữ hay trao đổi tài liệu Và phần mềmOCR là sự lựa chọn tuyệt vời

● Hiện nay, hơn 60% các công ty lớn trên toàn thế giới đã sử dụng OCR đểnhập dữ liệu cho nhiều bước trong quy trình hoạt động của doanh nghiệp.Công nghệ OCR cho phép các công ty tự động lưu trữ dữ liệu vào hệ thống,

dễ dàng tích hợp, chuyển đổi hay liên kết đến một nền tảng khác như quaemail, fax hoặc EDI truyền thống

● Công nghệ OCR ngày càng trở nên phổ biến bởi những tiện ích mà nó manglại cho cả các cơ quan tổ chức cũng như người dùng Trong tương lai không

xa, OCR sẽ được tích hợp với rất nhiều công nghệ tiên tiến khác, để tạo ranhững sản phẩm đột phá phục vụ nhiều hoạt động của con người

● Ở Việt Nam, một trong những sản phẩm được tích hợp phần mềm OCRtiếng việt có tính chính xác cao nhất trên thị trường đó là FPT.AI Reader,được phát triển bởi Ban công nghệ, thuộc tập đoàn FPT Đây là giải phápnhận dạng và trích xuất thông tin trên các giấy tờ tùy nhân như chứng minhnhân dân, giấy phép lái xe, hộ chiếu… có độ chính xác lên đến 98%, dẫn đầuthị trường về chất lượng nhận diện

● Ngoài ra, công nghệ OCR của FPT.AI còn có khả năng nhận dạng và tríchxuất thông tin trên các loại giấy tờ như hóa đơn, hợp đồng và nhiều yêu cầuriêng tùy nhu cầu của từng đối tác FPT.AI Reader giúp các doanh nghiệp sốhóa giấy tờ và nhận diện thông tin khách hàng nhanh chóng Nhờ có OCR,thời gian nhập liệu được rút ngắn, thông tin có độ chính xác cao, giúp tiếtkiệm thời gian, công sức và chi phí hoạt động

Trang 9

CHƯƠNG 2: MÔ TẢ BÀI TOÁN

2.1 Mô tả

- Giả thiết rằng ở bước xử lí trước kí tự đã được phân lập, kết quả là các ảnh nhịphân kích thước 60x80 mỗi ảnh chứa một kí tự trong đó các kí tự có độ nghiêngkhông quá lớn và kích thước hợp chuẩn với sai số chấp nhận được, cần chuyển kí

tự thành dạng mã hoá Unicode

- Chuẩn kích thước của chữ cái:

• ascender height: trùng với cạnh trên của ảnh

• cap height: trùng với cạnh trên của ảnh

• median: 1/3 chiều cao ảnh

• baseline: 4/5 chiều cao ảnh

• descender height: trùng với cạnh dưới của ảnh

• chiều rộng: xấp xỉ chiều rộng ảnh

Như vậy có nghĩa là chương trình sẽ không xử lí những chữ cái có kích thước quánhỏ, quá nghiêng lệch hay biến dạng quá mức Các chữ cái như thế giả thiết đã

được đưa về dạng chuẩn (với sai số chấp nhận được) ở bước xử lí trước

2.2 Sơ lược về giải pháp

Giải thuật thường dùng cho bài toán này là mạng nơ-ron lan truyền ngược Em dựđịnh sử dụng kĩ thuật này với 1-2 lớp ẩn, mỗi đầu ra là một kí tự trong bảng mãUnicode Số lượng đầu ra có thể nhân lên với số dạng chữ cần được hỗ trợ

Ảnh đầu vào được tiền xử lí sử dụng mô tả Fourier đểgiảm số lượng đầu vào và tăng độ chính xác

2.3 Sơ lược về phần mềm cần xây dựng

Giao diện gồm 2 phần:

-Phần hình đã có sẵn kí tự đã viết

Trang 10

-Phần ô vuông màu xanh nhận diện kí tự đã viết trên hình

Ngoài ra chương trình có thể có chức năng nạp ảnh chứa kí tự từ tập tin ngoài(sẽphát triển trong thời gian tới)

Trang 11

CHƯƠNG 3: GIẢI QUYẾT BÀI TOÁN

Chương trình “Nhận dạng ký t vi t tay” s d ng mô hình m ng neuronự ế ử ụ ạ

và thu t toán lan truy n ng c Sau đây là chi ti t v ph ng pháp này.ậ ề ượ ế ề ươ

3.1 Cơ sở lý thuyết

3.1.1 Mạng neuron

● Mạng neuron nhân tạo (artificial neural network) là m t mô hình toán h cộ ọhay mô hình tính toán l y c m h ng d a trên c u trúc c a m ng th n kinh.ấ ả ứ ự ấ ủ ạ ầMột mạng neuron bao gồm các nhóm neuron được nối với nhau, trên cơ sở

đó thông tin đ c x lýượ ử

● Mô hình m ng neuron nhân t o th ng đ c áp d ng v i các bài toán nh nạ ạ ườ ượ ụ ớ ậ

dạng, đặc biệt với các bài toán có nhiều biểu diễn hình ảnh

● Cùng v i gi i thu t lan truy n ng c, mớ ả ậ ề ượ ạng neuron thích h p v i các bàiợ ớtoán mang các đ c đi m sau:ặ ể

✔ Một thể hiện được biểu diễn bởi nhiều cặp giá tr ị

✔ Hàm m c tiêu đ u ra có th có giá tr r i r c, giá tr th c ho cụ ầ ể ị ờ ạ ị ự ặmột vector giá tr r i r c ho c giá tr thị ờ ạ ặ ị ực

✔ Các ví d h c có th có l iụ ọ ể ỗ

✔ Thời gian huấn luyện dài là ch p nh n đấ ậ ược

✔ Có th yêu c u s ti n hóa nhanh c a hàm m c tiêu c n h cể ầ ự ế ủ ụ ầ ọ

✔ Khả năng con người hiểu hàm mục tiêu cần học là không quan

tr ng.ọ

Trang 12

3.1.2 Perceptron

Cơ bản của mạng neuron nhân tạo dựa trên khái niệm perceptron

a Biểu diễn perceptron:

Một perceptron nhận giá trị đầu vào là một vector thực, tính toán tổ hợp tuyến tínhcủa đầu vào đó và đưa ra đầu ra bằng 1 nếu kết quả lớn hơn một ngưỡng nào đó, vàbằng -1 nếu ngược lại:

Trang 13

perceptron phân loại các ví dụ học chính xác Trọng số thay đổi sau mỗi bước theonguyên tắc huấn luyện perceptron như sau:

wi←wi+Δwi

với

Δwi=η(t − o)xi

Ở đây là đầu ra mục tiêu cho ví dụ học hiện tại, o là đầu ra sinh bởi perceptron vàt

ηlà giá trị hằng dương gọi làtốc độ học (learning rate) Vai trò của tốc độ học làkiểm soát mức độ trọng số thay đổi sau mỗi bước Nó thường được gán giá trị nhỏ(VD:0.1)

c Sai số huấn luyện (training error)

Sai số thường được xác định bằng công thức:

𝐸 = 12

𝑑ϵ𝐷

∑ 𝑡𝑑 − 𝑜𝑑( )2với D là tập ví dụ học, là đầu ra mục tiêu của ví dụ học , vàtd d odlà đầu ra tínhtoán của ví dụ học d

3.1.3 Mạng neuron nhiều lớp và giải thuật lan truyền ngược

a Hàm ngưỡng

➢ Một perceptron chỉ cho đầu ra là một hàm tuyến tính Hàm ngưỡng được sử dụng

để đưa các giá trị đầu ra là một hàm không tuyến tính của các giá trị đầu vào

Trang 15

✔ Lớp hidden: Là các lớp ẩn ở giữa, có nhiệm vụ tính toán.

✔ Lớp output: Là đầu ra của bài toán

=>Số neuron ở lớp input và output thường xác định với các bài toán, tuy nhiên sốlớp hidden và số neuron ở mỗi lớp hidden cần xác định bằng thực nghiệm

c Gi i thu t backpropagationả ậ

BACKPROPAGATION(training_example, η, n , n , nin out hidden)

Mỗi ví dụ học là một cặp có dạng (x,t) ới x là vector đầu vào và t là vectorvmục tiêu

η là t c đ h c n , n , nố ộ ọ in out hiddenlầ ượn l t là s neuron l p input, ouput và hidden.ố ở ớĐầu vào t neuron i đ n neuron j ký hi u là xji, và tr ng s t neuron i đ n neuronừ ế ệ ọ ố ừ ế

j ký hi u là wji.ệ

▪ Tạo một mạng feedforward với n input neuron, n ouput neuron, nin out hiddenhidden neuron

▪ Khởi tạo trọng số là các giá tr ng u nhiên nh (VD gi a -.05 và 05)ị ẫ ỏ ữ

▪ Cho đến khi thỏa mãn điều kiện kết thúc:

Với mỗi (x,t) thuộc ví dụ học:

1 Cho giá trị đầu vào và tính toán giá trị đầu ra của mỗi neuron.x oLan truyền sai số ngược lại mạng:

2 Với mỗi neuron k ở lớp output, tính sai số δk

Δwji= ηδjxji

Trang 16

d Momentum

Một cách phổ biến để thay đổi nguyên tắc cập nhật trọng số trong thuật toán là làmcho cập nhật trọng số trong vòng lặp thứ n phụ thuộc một phần vào lần cập nhậtthứ (n - 1) như sau:

3.2.2 Khởi tạo mạng neuron

● Lớp input: Gồm 60 đầu vào

60 đầu vào được lấy bằng cách tách biên ảnh thành chuỗi Fourier, lấy nhiềunhất 6 thành phần liên thông và 10 giá trị của chuỗi Fourier với mỗi thànhphần

● Lớp output: Gồm 16 đầu ra

Trang 17

✔ Các mẫu sau khi scan được xử lý thành ảnh nhị phân và tách sẵn thànhcác thành phần đầu ra và đầu vào tương ứng để huấn luyện và kiểm tra.

Trang 18

3.2.4 Các kết quả thực nghiệm

a.Số lớp hidden

Mạng neuron với 3 lớp ẩn có xác suất nhận dạng đúng tương đương với mạng có 2lớp ẩn nhưng có error nhỏ hơn 1 chút Thời gian training của mạng tăng khá nhanhkhi số lớp hidden tăng từ 0 đến 3

Trang 19

Khi số neuron lớp ẩn vượt qua 80 thì tăng số neuron không tác động nhiều đến kết quả.Với mạng 150 neuron mỗi lớp ẩn, kết quả thấp hơn hẳn do không thoả mãn điều kiệndừng giống như phần a.

c Tốc độ học

Trang 20

d Momentum

Trang 22

Tỉ lệ về sự mất mát và độ chính xác sau khi training model

g Kết quả chạy thực nghiệm

Trang 23

Tỉ lệ % độ chính xác các chữ cái đã được nhận diện

Trang 24

CHƯƠNG 4: ĐÁNH GIÁ VÀ ĐỊNH HƯỚNG PHÁT TRIỂN

Một điểm mạnh khác của OCR để nhận dạng chữ viết tay là khả năng xử lý cácbiến thể về chất lượng chữ viết tay Phần mềm OCR thường được thiết kế để có thểnhận dạng chữ viết tay có thể viết kém, mờ dần hoặc khó đọc Điều này làm cho nótrở thành một công cụ hữu ích cho các tác vụ như số hóa các tài liệu viết tay cũ.b.Nhược điểm

Tuy nhiên, OCR cũng có một số hạn chế khi nói đến nhận dạng chữ viết tay Mộtđiểm yếu là nó có thể gặp khó khăn trong việc nhận dạng chính xác chữ viết tay rấtkhác so với phong cách viết tay mà nó đã được đào tạo Đây có thể là một vấn đề

cụ thể với các kiểu chữ viết tay khác thường hoặc rất đặc biệt, chẳng hạn nhưnhững kiểu chữ rất lớn hoặc nhỏ, hoặc sử dụng các hình thức chữ cái độc đáo.Một điểm yếu khác của OCR đối với nhận dạng chữ viết tay là nó có thể nhạy cảmvới các biến thể về chất lượng của hình ảnh được quét Nếu hình ảnh quá mờ hoặc

Ngày đăng: 13/06/2024, 16:33

w