1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Mạng Nơ Ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ Việt in

15 357 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 280,2 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Đại Long MẠNG NƠ RON NHÂN TẠO TRONG NHẬN DẠNG VĂN BẢN VÀ ỨNG DỤNG VÀO HỆ THỐNG NHẬN DẠNG CHỮ VIỆT IN LUẬN VĂN THẠC SĨ Hà nội – 2

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Đại Long

MẠNG NƠ RON NHÂN TẠO TRONG NHẬN DẠNG VĂN BẢN

VÀ ỨNG DỤNG VÀO HỆ THỐNG NHẬN DẠNG CHỮ VIỆT IN

LUẬN VĂN THẠC SĨ

Hà nội – 2006

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Đại Long

MẠNG NƠ RON NHÂN TẠO TRONG NHẬN DẠNG VĂN BẢN

VÀ ỨNG DỤNG VÀO HỆ THỐNG NHẬN DẠNG CHỮ VIỆT IN

Ngành: Công nghệ Thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS, TS Đặng Quang Á

Hà nội – 2006

Trang 3

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn này, em luôn nhận được sự hướng dẫn, chỉ bảo tận tình của PGS, TS Đặng Quang Á, Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam, là cán bộ trực tiếp hướng dẫn khoa học cho em

Em xin gửi lời cảm ơn sâu sắc sự giúp đỡ quý báu đó

Em xin chân thành cảm ơn thầy TS Đỗ Năng Toàn, PGS, TS Vũ Đức Thi, Viện Công nghệ thông tin đã giảng dạy, cho em những lời khuyên quý giá

và đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện luận văn này

Em xin chân thành cảm ơn các thầy, cô giáo trong khoa Công nghệ thông tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập tại trường

Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp cao học K10T3 - trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học

Hà nội, ngày 08 tháng 12 năm 2006

Trần Đại Long

Trang 4

MỤC LỤC

CHƯƠNG I TỔNG QUAN VỀ MẠNG NƠ -RON NHÂN TẠO VÀ HỆ

THỐNG NHẬN DẠNG VĂN BẢN

8

1.1.2 Ưu và nhược điểm của mạng nơ-ron 12

CHƯƠNG II MỘT SỐ MÔ HÌNH MẠNG NƠ RON PHỔ BIẾN TRONG

HỆ THỐNG PHÂN TÍCH VÀ NHẬN DẠNG VĂN BẢN

36

Trang 5

CHƯƠNG III XÂY DỰNG MỘT HỆ THỐNG NHẬN DẠNG CHỮ VIỆT

IN SỬ DỤNG MẠNG NƠ RON

70

3.3.1 Kết quả nhận dạng các ký tự riêng lẻ 86

Trang 6

- 6 -

MỞ ĐẦU

Mạng nơ ron nhân tạo ngày nay đang là một lĩnh vực nghiên cứu nóng hổi, thu hút sự quan tâm đặc biệt của các nhà khoa học trong nhiều lĩnh vực Đó

là nhờ những thành công rực rỡ cả về mặt lý thuyết và ứng dụng của nó Phạm

vi áp dụng của mạng nơ ron rất rộng lớn: trong lĩnh vực xử lý, điều khiển như

xử lý tín hiệu, khử nhiễu, phân lớp, nhận dạng, dự báo Ngoài ra mạng nơ ron còn được ứng dụng trong các lĩnh vực toán học, y học, kinh doanh, tài chính, nghệ thuật Mạng nơ ron đang ngày càng trở thành một hướng nghiên cứu, một giải pháp ngày càng hứa hẹn

Một trong những ứng dụng quan trọng của mạng nơ ron là nhận dạng và phân loại mẫu Khả năng học và thích ứng của chúng đã làm cho chúng là lựa chọn hàng đầu đối với nhiệm vụ so sánh các tập dữ liệu hoặc trích chọn các mẫu thích hợp từ các dữ liệu phức hợp Nhận dạng mẫu trong mạng nơ ron là một lĩnh vực rất rộng, nhưng phổ biến nhất vẫn là nhận dạng chữ in và chữ viết tay

Nhận dạng văn bản là một bài toán đã được nghiên cứu từ lâu Trên thế giới đã có khá nhiều phần mềm nổi tiếng về nhận dạng chữ la tin như OMNIPAGE của hãng Caere Corporation - Mỹ, RECOGNITA của Recognita Corporation - Hunggary, CURNEIFORM của Cognitive Technology Corporation - Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 – Pháp Ở Việt nam có phần mềm nhận dạng chữ Việt in của Viện công nghệ thông tin Nhận dạng văn bản là một bài toán khá phức tạp đòi hỏi nhiều nghiên cứu sâu sắc cả về xử lý ảnh và về kỹ thuật nhận dạng Giải quyết bài toán này sẽ giúp tự động hoá rất nhiều công việc nhàm chán phải đánh lại văn bản khi ta chỉ

có văn bản hoặc ảnh văn bản và cần chuyển những thông tin đó sang dạng text

Trang 7

- 7 -

để hiệu chỉnh lại hoặc tự động nhập liệu vào các hệ thống cơ sở dữ liệu, giảm thời gian và chi phí Ngày nay với sự bùng nổ của internet và việc xây dựng các thư viện điện tử thì nhu cầu nhận dạng văn bản trong sách báo càng trở nên cực

kỳ cần thiết

Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài toán nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định hướng của PGS TS Đặng Quang Á, chúng tôi đã nghiên cứu đề tài "Mạng nơ ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ Việt in" Luận văn này không đi sâu nghiên cứu các kỹ thuật xử lý ảnh văn bản

cụ thể mà tập trung vào khả năng ứng dụng mạng nơ ron trong hệ thống nhận dạng văn bản nói chung và xây dựng một hệ thống nhận dạng chữ Việt in để minh họa Nội dung cơ bản của luận văn gồm có ba chương:

Chương một trình bày tổng quan về mạng nơ ron nhân tạo, bao gồm: giới thiệu về mạng nơ ron, phân loại mạng nơ ron và tổng quan về hệ thống nhận dạng ký tự

Chương hai trình bày về một số mạng nơ ron phổ biến trong hệ thống nhận dạng văn bản chữ in như mạng Hamming, mạng kết hợp tuyến tính, mạng Adaline, mạng SOM, mạng RBF, mạng Multilayer Perceptron

Chương ba trình bày về hệ thống nhận dạng chữ Việt in sử dụng mạng

nơ ron

Trang 8

- 8 -

CHƯƠNG I TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO VÀ HỆ THỐNG

NHẬN DẠNG KÝ TỰ

1.1 Giới thiệu về mạng nơ-ron

Mạng nơ-ron nhân tạo được xây dựng từ những năm 1940, nhằm mô phỏng một số chức năng bộ não của con người Nếu nhìn não từ góc độ tính toán, chúng ta dễ thấy rằng cách thức tính toán của não khác xa với tính toán theo thuật toán và chương trình truyền thống Sự khác biệt thể hiện ở hai điểm:

+ Quá trình tính toán được tiến hành song song và phân tán trên nhiều nơ ron gần như đồng thời

+ Tính toán thực chất là quá trình học chứ không phải theo một sơ đồ định sẵn từ trước

Mạng nơ-ron nhân tạo được thiết kế tương tự như nơ-ron sinh học, sẽ có khả năng giải quyết hàng loạt các bài toán mà sự suy luận tương đối “mờ”, không đầy đủ dữ liệu, cần có quá trình “học” từ các ví dụ

1.1.1 Mô hình mạng nơ-ron nhân tạo

1.1.1.1 Nơ-ron sinh học

Bộ não người có khoảng 1011 tế bào thần kinh kết nối với mật độ cao gọi

là các nơ-ron (một nơ ron có khoảng 104

liên kết) Có nhiều loại nơ-ron khác nhau về kích thước và khả năng thu phát tín hiệu Tuy nhiên, chúng có cấu trúc

và nguyên lý hoạt động chung Hình 1.1 là một ví dụ đơn giản hoá về một nơ-ron Mỗi nơ-ron gồm có ba phần: Thân nơ-ron (cell body) với nhân ở bên trong (soma), một trục dây thần kinh ra (axon) và một hệ thống lưới cảm ứng hình cây (dendrites) Các xúc tu hay lưới cảm ứng, là các dây thần kinh vào để nhận các

Trang 9

- 9 -

tín hiệu từ các nơ-ron khác Thân nơ ron làm nhiệm vụ tổng hợp tín hiệu vào và biến đổi thành tín hiệu ra Tín hiệu ra được chuyển đến trục dây thần kinh ra Dây thần kinh trục phân thành nhiều nhánh ở cuối nhằm chuyển giao tín hiệu tới các nơ-ron khác Điểm kết nối giữa trục của một nơ ron với xúc tu của một nơ ron khác gọi là khớp (synapse) Các nơ-ron có thể thay đổi mức tín hiệu tại các khớp Trong nơ-ron nhân tạo, mức tín hiệu này thể hiện bằng trọng số

Hình 1.1 Mô hình nơ ron sinh học

1.1.1.2 Nơ-ron nhân tạo

 Trọng số và tổng tín hiệu đầu vào:

Trọng số mô phỏng chức năng của khớp nối giữa hai nơ ron (synapse) Mỗi nơ-ron sinh học có rất nhiều dây thần kinh vào, nghĩa là nó có thể tiếp nhận đồng thời nhiều tín hiệu Tương tự, mỗi nơ ron nhân tạo có thể có nhiều trọng số Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào pj được gán một trọng số wij tương ứng, tổng tín hiệu đi vào nơ ron ni có thể được ước lượng theo một số dạng sau:

(i) Dạng tuyến tính:

N 1 j

j ij

(ii) Dạng toàn phương:

Trang 10

- 10 -

 1 j

2 j ij

(iii) Dạng mặt cầu:

1 j

2 ij j 2

Trong đó ρ và wij (j = 1->N) lần lượt là bán kính và tâm cầu

 Hàm kích hoạt:

Hàm biến đổi tín hiệu đầu vào n thành tín hiệu đầu ra a được gọi là hàm kích

hoạt (activation function hay transfer function) Hàm này mô phỏng chức năng của thân nơ ron Người thiết kế mạng sẽ chọn một hàm cụ thể để đáp ứng yêu cầu của bài toán

 Nút Bias (hay offset):

Là một nút bổ trợ nhằm tăng khả năng thích ứng của mạng nơ ron trong quá trình học Bias gần giống như trọng số, trừ một điều là nó luôn có tín hiệu vào không đổi bằng 1 Nút này có thể bỏ đi nếu không cần thiết

Các trọng số và bias là các tham số có thể điều chỉnh của nơ ron Một luật học sẽ điều chỉnh chúng sao cho quan hệ đầu vào/đầu ra của nơ ron đáp ứng được một mục tiêu nào đó

Trang 11

- 11 -

TÀI LIỆU THAM KHẢO

[1] Nguyễn Thị Minh Ánh, Đinh Việt Cường, Ngô Trí Hoài, Nguyễn Việt Hà,

“Mô hình liên mạng nơ ron ứng dụng trong nhận dạng ký tự viết tay tiếng

Việt”, Một số vấn đề chọn lọc của công nghệ thông tin, Nhà xuất bản khoa

học và kỹ thuật, 2006

[2] Martin T Hagan, Howard B Demuth, Mark Beale, Neural Network Design,

PWS Publishing Company, 1995

[3] Dave Anderson and George McNeill, Artificial Neural Network Technology,

Kaman Sciences Corporation, 1992

[4] James A Freeman, David M Skapura, Neural Networks - Algorithms,

Applications, and Programming Techniques, Addison-Wesley Publishing

Company

[5] Sing-Tze Bow, Pattern Recognition and Image Preprocessing, MARCEL

DEKKER, INC

[6] Richard O Duda, Peter E Hart, David G Stork, Pattern Classification,

Wiley-Interscience

[7] Colin Fyfe, Artificial Neural Network , The University of Paisley, 1996

[8] Madan M Gupta, Liang Jin, Noriyasu Homma, Static and Dynamic Neural

Networks, Wiley-Interscience

[9] Ian T Young, Jan J Gerbrands, Lucas J van Vliet, Fundamentals of Image

Processing, Delft University of Technology

[10] Peter Doucette, Peggy Agouris, Mohamad Musavi, Anthony Stefanidis,

Automated Extraction of Linear Features from Aerial Imagery Using Kohonen Learning and GIS Data, University of Maine

Trang 12

- 12 -

[11] Goss Nuzzo-Jones, Resilient Backpropagation Versus Quickprop For

Character Recognition In Neural Networks, Central Virginia Governor's

School, 2000

[12] Shamik Sural, A Two-step Algorithm and its Parallelization for the

Generation of Minimum Containing Rectangles for Document Image

Segmentation, Jadavpur University, Calcutta 700 032, India

[13] Shamik Sural, A Document Image Analysis System on Parallel Processors,

Jadavpur University, Calcutta 700 032, India

[14] K V Prema and N V Subba Reddy, Two-tier architecture for unconstrained

handwritten character recognition, Manipal Institute of Technology,

Manipal 576 119, India

[15] Sargur N Srihari, Yong-Chul Shin, Vemulapati Ramanaprasad, Dar-Shyang

Lee, A System to Read Names and Addresses on Tax Forms, State University

of New York at Buffalo

[16] Jie Zhou, Recognition and Verification of Unconstrained Handwritten

Numerals, A Thesis in the Department of Computer Science, Concordia

University Montreal, Quebec, Canada

[17] Yan Solihin, C.G Leedham, The Multi-stage Approach to Grey-Scale Image

Thresholding for Specific Applications, Nanyang Technological University,

School of Computer Engineering, Republic of Singapore

[18] Tin Kam Ho, A Theory of Multiple Classifier Systems And Its Application to

Visual Word Recognition, Graduate School of State University of New York

at Buffalo, 1992

[19] R L Hoffman, J W McCullough, Segmentation Methods for recognition

of Machine-printed Characters, IBM General Systems Division Laboratory

in Rochester, Minnesota

Trang 13

- 13 -

[20] Nafiz Arica, An Off-line Character Recognition System For Free Style

Handwriting, Thesis, The Graduate School Of Natural And Applied Sciences

Of The Middle East Technical University, 1998

[21] Marco Gori, Simone Marinai, Giovanni Soda, Artificial Neural Networks for

Document Analysis and Recognition, Technical Report N.1/2003 University

of Florence

[22] Rohana K Rajapakse, A Ruvan Weerasinghe, E Kevin Seneviratne, A

Neural Network Based Character Recognition System For Sinhala Script,

University of Colombo

[23] Akihiro Nomura, Kazuyuki Michishita, Seiichi Uchida, Masakazu Suzuki,

Detection and Segmentation of Touching Characters in Mathematical

Expressions, Kyushu University, Japan

[24] Basilios Gatos, Stavros J Perantonis, Nikos Papamarkos, Ioannis Andreadis,

Fast Implementation of Morphological Operations Using Binary Image Block Decomposition, Institute of Informatics and Telecommunications,

National Research Center “Demokritos”, Democritus University of Thrace, Greece

[25] Myer Blumenstein, Intelligent Techniques for Handwriting Recognition,

Thesis, Griffith University, 2000

[26] Horst Bunke, Recognition of Cursive Roman Handwriting - Past, Present

and Future, University of Bern, Switzerland

[27] Berrin Yanikoglu, Peter A Sandon, Segmentation of Off-line Cursive

Handwriting Using Linear Programming, IBM Almaden Research Center,

USA

[28] Rangachar Kasturi, Lawrence O’Gorman, Venu Govindaraju, “Document

image analysis: A primer”, Sadhana, Vol 27, Part 1, February 2002,

Trang 14

- 14 -

pp 3–22

[29] Yefeng Zheng, Huiping Li, David Doermann, The Segmentation and

Identification of Handwriting in Noisy Document Images, University of

Maryland

[30] Nafiz Arica, Fatos T Yarman-Vural, An Overview Of Character Recognition

Focused On Off-line Handwriting, Middle East Technical University,

Ankara, Turkey

[31] D Y Chen, J Mao, K Mohiuddin, “An Efficient Algorithm For Matching A

Lexicon With A Segmentation Graph”, in Proc 5th Int Conf Document

Analysis and Recognition, pp.543-546, Bangalore, India, 1999

[32] Lương Chi Mai, Đỗ Năng Toàn, “Applying Hausdorff Distance For Page

Layout Analysis”, Viện công nghệ thông tin

[33] Đỗ Năng Toàn, Lương Chi Mai “Image Document Analysis Based On

Templates”, Viện công nghệ thông tin

[34] Nguyễn Thị Thanh Tân (2004), “Nhận dạng chữ viết tay hạn chế dựa trên

mô hình mạng nơ ron kết hợp với thống kê ngữ cảnh”, Luận văn cao học

[35] J H Bae, K C Jung, “Segmentation of touching characters using an MLP”,

Pattern Recognition Letters 19 (1998) 701-709

[36] J Wang, “Segmentation of merged characters by neural network and shortest

path”, Pattern Recognition 27 (5) (1994) 649-658

[37] Lichang Hou, Wei Wu, Bingdui Zhu, Feng Li, “A segmentation method for

merged characters using Self-Organizing Map neural networks”, Journal of

Information & Computational Science 3: 2 (2006) 219-226

[38] Marco Gori, Simone Marinai, Giovanni Soda, “Artificial Neural Networks

for Document Analysis and Recognition”, Technical Report N.1/2003

University of Florence

Trang 15

- 15 -

[39] E.Kavallieratou, N.Fakotakis, and G.Kokkinakis, “Skew angle estimation in

document processing using cohen’s class distributions”, University of Patras,

26500 Patras, Greece

[40] Yue Lu, Chew Lim Tan, “A nearest-neighbor chain based approach to skew

estimation in document images”, Pattern Recognition Letters 24 (2003)

2315–2323

[41] Rangachar Kasturi, Lawrence O’gorman, Venu Govindaraju, “Document

image analysis: A primer”, Sadhana Vol 27, Part 1, February 2002,

pp 3–22

Ngày đăng: 08/02/2017, 23:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w