1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng chữ viết tay hạn chế dựa trên mô hình mạng nơron kết hợp với thống kê ngữ cảnh

103 770 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 103
Dung lượng 39,43 MB

Nội dung

C ù n2 với sự phát triển của nhận dạn ẹ mầu, nhận dạng chữ đã và đang ngày càng trở thành m ộ t ứng dụng kh ông thể thiếu được trong đời sống xã hội của con người.. Với tìm quan trọng củ

Trang 2

Nguyễn Thị Thanh Tân Trang - 1 - Luận văn thạc sĩ

M Ụ C L Ụ C

M Ở Đ Ầ U 3

C H Ư Ơ N G 1 - T Ổ N G Q U A N V Ề N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô H ÌN H M Ạ N G N Ơ R O N 8

1.1 T ổ n g quan về mạng n ơ r o n 8

1.1.1 C ấu trúc của một n ơ r o n 8

1.1.2 C ác ph ư ơ n g pháp huấn luyện m ộ t m ạng n ơ r o n 10

1.2 Qui trình chung của m ột hệ nh ận d ạ n g c h ữ 12

1.2.1 Phân lớp m ẫ u 12

1.2.2 N h ậ n dạng văn b ả n 13

1.3 M ạ n g M L P v à ứng d ụng trong n h ậ n dạng c h ữ 16

1.3.1 C ấu trúc m ột P e r c e p t r o n 16

1.3.2 K iến trúc m ạng nhiều lớp truy ền thẳng (M L P ) 17

1.3.3 Q u á trình huấn luyện m ạ n g M L P 18

1.3.4 Ưu, nhượ c điểm của m ạng M L P 26

1.4 K ế t l u ậ n 27

C H Ư Ơ N G 2 - N H Ậ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G B Ố N L Ớ P CẢI T IẾ N K Ế T H Ợ P VỚI T H Ố N G K Ê N G Ữ c ả n h' 28

2.1 M ạ n g nơron bốn lớp cải t i ế n 30

2.1.1 K i ế n trúc m ạ n g 31

2.1.2 T h u ậ t toán huấn luyện m ạ n g 36

2.1.3 K h ả năng nhận dạng của m ạ n g 40

2.2 B ộ th ố n g kê n gữ c ả n h 41

2.2.1 C ác khái niệm sử dụng trong bộ th ốn g k ê 41

2.2.2 C ác cấu trúc dữ liệu sử d ụn g tro n g quá trình thốn g k ê 43

2.2.3 T h u ậ t toán kiểm tra m ức độ hợp lý của m ột kí tự tro n g m ột x â u 44

2.2.4 T h u ậ t toán lựa chọn m ột từ tro n g danh sách các từ ứ n g cử v i ê n 45

2.3 Q u á trình n h ậ n dạng t ừ 46

2.3.1 P h ư ơ n g ph áp nhận d ạ n g 46

2.3.2 C ấu trúc dữ liệu sử dụng tro n g quá trình nhận d ạ n g 47

2.3.3 Q u á trình xác định các vị trí cắt k hác nhau trên ảnh đầu v à o 50

MỞ ĐẢU

Trang 3

Nguyễn Thị Thanh Tản Trang - 2 - Luận văn thạc sĩ

2.3.4 Thuật toán nhận dạng t ừ 52

2.4 Đ ánh giá khả năng nhận dạng của m ô h ìn h 60

2.5 K ết l u ậ n 60

C H Ư Ơ N G 3 - CÀI Đ Ậ T HỆ T H Ố N G N H Ậ N D Ạ N G C H Ữ V IẾ T T A Y H Ạ N C H Ế 62

3.1 Qui trình hoạt động của hệ t h ố n g 62

3.2 Q u á trình tiền xử lý 64

3.2.1 Tiền xử lý trước khi phân tích ảnh văn bản cần nhận d ạ n g 64

3.2.2 Tiền xử lý trước khi phân đoạn từ cần nhận d ạ n g 70

3.2.3 Tiền x ử lý trước khi nhận dạng kí t ự 74

3.3 Q u á trình phân v ùn g ả n h 74

3.3.1 T ách dòng văn b ả n 75

3.3.2 Tách t ừ 77

3.4 Q u á trình nhận d ạ n g 79

3.5 Q uá trình hậu xử l ý 79

3.6 K ết l u ậ n 80

C H Ư Ơ N G 4 - T H Ử N G H IỆ M H Ệ T H Ố N G N H Ậ N D Ạ N G C H Ữ V IẾ T T A Y H Ạ N C H Ế ’ 81

4.1 M ôi trường thử n g h i ệ m 81

4.2 D ữ liệu v à kết quả thử n g h i ệ m 81

4.2.1 T h ử nghiệm nhận dạng chữ số viết t a y 81

4.2.2 T h ử nghiệm nhận dạng chữ cái k h ôn g dấu viết t a y 83

4.2.3 T h ử nghiệm nhận dạng từ n g u y ê n 84

K Ế T L U Ậ N 86

T À I L I Ệ U T H A M K H Ả O 91

P H Ụ L Ụ C A - G IA O D IỆ N C Ủ A H Ệ N H Ậ N D Ạ N G 93

P H Ụ L Ụ C B - G IA O D IỆ N C Ủ A H Ệ N H Ậ N D Ạ N G 94

PHỤ LỤC c - GIAO DIỆN CỦA HỆ HỌC M ẠNG 96

P H Ụ L Ụ C D - M Ộ T SÔ K Ế T Q U Ả T H Ố N G K Ê 98

P H Ụ L Ụ C E - D A N H M Ụ C C Á C T H U Ậ T T O Á N 101

P H Ụ L Ụ C F - D A N H M ự c C Á C H ÌN H V Ẽ 102

P H Ụ L Ụ C F - D A N H M Ụ C C Á C B Ả N G B I Ế U 103

MỜ ĐÂU

Trang 4

Nũuvễi Thị Thanh Tân Trang - 3 - Luận vSn thạc sĩ

MỜĐẦU

N hận d ạ n g m ẫu là m ột nơành khoa học mà vai trò của nó là phân lớp các đổi tượng thành m ột số loại hoặc m ột số lớp riêng biệt [22], T uỳ thuộc vào lĩnh vực ứn g dụng, các đối tư ợ n g có thể ở dạng ảnh, dạng tín hiệu sóng hoặc m ột kiểu dữ liệu bất kỳ nào có m à cần phải phân lớp N h ữ n g đối tượng này được gọi bàng m ột thuật ngữ chung đó là “ m ẫ u ” (pattern) N hận dạng m ẫu đã được biết đến từ rất lâu, nhưng trước n h ữ n g năm 1960 nó hầu như chi là kết quả nghiên cứu về mặt lý thuyết trong lĩnh \ự c thống kê T uy nhiên, với sự phát triển k hông n s ừ n g của kh oa học kỹ thuật

về phần cứng cũn g nh ư phần mềm, các yêu cầu về mặt ứng d ụ n g th ự c tế của lĩnh vực nhạn dạng m ẫu ngày càng tăng lên và hiện nay nhận dạng m ẫu đã được sử dụng trong rất nhiều lĩnh vực như y học, tự độn g hoá một số qui trình sản xuất công nghiệp, d ự báo thời tiêt, dự báo cháy rừng,v.v N goài ra nhận dạng m ẫu còn là thành p h ầ n quan trọng trong hầu hết các hệ thống m áy tính thông minh được xây

dự n g để thực hiện việc ra quyết định

C ù n2 với sự phát triển của nhận dạn ẹ mầu, nhận dạng chữ đã và đang ngày càng trở thành m ộ t ứng dụng kh ông thể thiếu được trong đời sống xã hội của con người

N hận dạ n g c h ữ viết được ứng dụng để tự động hoá m ột số cô ng việc văn p h òn g như lưu t:ữ văn bản phân loại thư tín, , nhằm giảm bớt các công việc nhàm chán nhưng đòi hỏi nhiều thời gian và công sức c ủ a con người

Với tìm quan trọng của mình, nhận dạng chữ viết hiện đang là m ột lĩnh vực thu hút được sự quan tâm, nghiên cứu của các nhà khoa học H iện nay, bài toán nhận dạng chữ h đã giải quyết được gần như trọn vẹn, trên thế giới cũng n hư ở V iệt N am đã

có những sản p h ẩ m có giá trị thực tế cao, có thể kể đến như: sản phẩm FineR eader của hăng A B B Y Y có thể nhận dạng 20 thứ tiếng khác nhau, sản p hẩm O m niPag e của hãng S c an S o ft nhận dạng chữ tiếng Anh, sản p h ẩ m V n D O C R của V iện C ông nghệ Thông tin nhận dạng chữ Việt in, Song, với bài toán nhận dạng chữ viết tay thi v ắ i đề trở lên ph ứ c tạp hơn nhiều bởi n h ữ n g lý do sau đây:

MỜ Đ Â U

Trang 5

NiỉU>ẻn I hi (hanh làn ĩrang - 4 - Luận văn thạc sĩ

• Với chừ viết tay thì không thể có các khái n iệm font chừ, kích cỡ chừ C ác kí

tự tro n ? một văn bản chừ viết tay th ư ờ n o có kích thước khác nhau T h ậ m chí, c ùng một kí tự trono m ột văn bản do m ột người viết nhiều khi cũ ng có

độ rộng, hẹp, cao, thấp khác nhau,

• Với nhữnơ ns;ười viết khác nh au ch ữ viết có độ n g h iêng khác nhau (chừ

n g hiêng nhiều/ít, ch ừ nơhiêng trái/phải ,)

• C ác kí tự của m ột từ trên ván bản ch ữ viết tay đôi với hầu hết người viết tlurờno bị dính nhau vì vậy rất khó xác định đ ư ợ c p h â n cách g iữ a chúng

• Các văn bàn chừ viết tay còn có thể có trư ờ n g hợp dính d òn g (d ò n g dưới bị dính hoặc chồng lên dòng trên)

C h ín h vì n h ữ ng khó k h ă n trên, có thể nói, cho đế n thời d iểm này vẫ n c h ư a có được

m ộ t giải pháp nào đủ tốt để giải quyết được trọn vẹn bài toán nhận d ạ n g ch ữ viết tay H iện nay, trên thế e;iới cũng n hư ở V iệ t N a m có m ộ t số n h ó m n ghiên cứu đã đầu tư nhiều thời gian cho nhận d ạ n g c h ữ viết tay v à hiện đã thu đư ợ c m ột sô kết quả Song, n h ữ ng kết quả này mới chỉ đượ c áp d ụ n g m ột cách hạn chế ở n h ữ n g lĩnh vực hẹp, một số nhóm điển hình có thể kể đến như: n hó m ng hiên cứu ở Đại Học

Q u ổ c G ia T P H C M đã cài đặt và thử n g h iệ m hệ th ố n g nhận d ạ n g chữ số và c h ữ viết tay rời rạc trên các p h iế u xuất nhập cảnh [4], n h ó m n g h iê n cứu c ủ a S im o n và

O B a re t (L ao rỉa/C N R S & EN P C , Paris) cài đặt m ộ t hệ th ố n g nhận d ạ n g c h ữ viết tay tro n g lĩnh v ực kiểm tra tài khoản ở ngân h à n g [16], n h ó m n ghiên c ứ u của J.J.Hull,

T k H o , J.Favata, V G ov in daraju và S N S rihari ở tru n g tâm n g hiên cứu vê nhận

d ạ n g và phân tích v ăn bả n của trư ờ n g Đại H ọ c T ổ n g H ợ p N e w Y o rk đã cài đặt hệ

th ố n g c h u y ên nhận dạ n g các địa chỉ thư ở b ư u điện [17], n h ó m n g h iê n cứu của

F u jisak i, H S M B eigi, C C T apert, M U k e is o n và C G W o l f ở p h ò n g n g h iê n cứu

W atso n IB M đã cài đặt hệ thống nhận dạng c h ữ viết tay hạn chế trực tuyến trên m ột trạ m làm v iệ c của IB M [21).

Như- vậy, việc tìm ra m ộ t lời giải k hả thi cho bài toán n h ậ n d ạ n g chữ viết tay là m ột vấn đề cấp thiết và rất p h ứ c tạp, hiện tại vẫ n c ầ n đầu tư nh iều thời gian v à c ô n g sức

MỞ Đ Â U

Trang 6

Nguyen Thị Thanh Tân Trang - 5 - Luận văn thạc sĩ

c u a con n s ư ờ i T r o n c luận văn n ày, chúnG, tôi c ũ n g k h ô n g kỳ v ọ n g là giải q u y ế t được chọn vẹn bài toán nhận dạng ch ừ viết tay m à chỉ hy v ọ n g dó ng gó p thêm được

m ộ t p hư ơ ng pháp khả thi để giải quyết m ột lớp bài toán con trong lĩnh vực nhận

d ạ n g ch ữ viết tay

Bài toán đặt ra tro n s luận văn là “ n h ậ n d ạ n g c h ù ’ viế t ta y h ạ n c h ế d ự a t r ê n m ô

hình inạng n o ro n kết họp vói th ố n g kê n g ữ c ả n h ” , v ấ n đề “chữ viết tay hạn chế”

hay “ chữ viết tay có ràng b u ộ c ” tro n g luận v ă n đ ư ợ c quan n iệm n h ư sau:

• C hữ viết tay được xem xét là các ch ừ số v à ch ữ cái tiế n g A n h viết tay k h ôngdấu

• K h o ả n g cách giữa các d ò n g c h ữ trong các văn bản đầu v ào phải xác định được (tức là giữa các d ò n s c h ừ phải có m ột k h o ả n g cách tư ơ n g đôi, kh ông được dính hay ch ồng lên nhau)

• G iữ a các từ trên m ột dòng ch ữ phải có m ột k h o ả n g cách nhất định (các từ

k h ô n g được dính hay m óc nối vào nhau)

• C ác kí tự trên văn bản cần n h ậ n dạn g k h ô n g đ ư ợ c q u á nghiêng

Sở dĩ, chú ng tôi lựa chọn m ạng n ơ ro n làm c ô n g cụ để thể hiện các thuật toán nhận

d ạ n g bởi lẽ m ô hình m ạ n g nơron được xâ y d ự n g theo n g u y ê n tắc m ô p h ỏ n g hoạt

đ ộ n g bộ não của con người nên nó rất thích hợp với bài toán n h ậ n d ạ n g và so với các c ô n g cụ khác thì m ạ n e nơron có n h ữ n g ưu điểm v ư ợ t trội sau:

• M ạ n g nơron được coi n hư m ột bộ xấp xỉ vạn năng

• C ó khả năng học và thích nghi với các m ẫ u mới

• C ó k h ả năng tổ ng quát hoá: M ạ n g có thể đ ư a ra n h ữ n g k ế t quả m a n g tính

tô n g quát hoá

• C ó kh ả năng dung thứ lỗi: C ó thể chấp nh ận sai số tro n g tập d ữ liệu đầu vào

• M ạ n g có tốc độ tính toán cao dẫn đến tốc độ nhận d ạ n g nhanh

Trên cở sở đó, nội dung của luận văn tập tru n g chủ y ể u v ào m ộ t sô vân đê sau:

M Ờ Đ Ả U

Trang 7

Nii'UV’n Thị Thanh Tàn Tr a n g - 6 - Luận văn thạc sĩ

• K hảo sát cách tiếp cận nhận d ạ n s dựa trên m ô hình m ạng nơron

• Đ ánh giá khả năng nhận d a n g c ũ n s n hư các ưu, n h ư ợ c điểm của m a n e nhiều lớp truyền thana M LP (M ultilayer P erceptrons)

• Đe xu ất mô hình m ạng nơron bốn lớp cải tiến thích hợp cho nh ận d ạ n g các kí

tự viết tay

• Đe xuất m ột mô hình nhận dạng từ dira trên sự kết hợp giữa bộ nhận dạng kí

tự với m ột bộ thống kê nofr cảnh

• Xây d ự n g hệ thốne; nhận d ạ n g ch ữ viết tay hạn chế

V ới các nội d ung trên, cấu trúc củ a luận văn sẽ g ồm n h ữ n g phần c h ín h sau đây:

C h u o n g I: T ô n g quan vê nhận d ạ n g c h ữ d ự a trên m ô hình m ạ n g n o r o n

N ội dưng của chương này sẽ tập tru n g kh ảo sát cách tiếp cận nhận d ạ n g dira trên mô hình m ạ n g n ơ ro n thông qua mô hình m ạ n g nhiều lớp truyền thẳng M L P (M u ltila y e r Perceptrons) T ừ đó đánh giá đượ c các ưu, n h ư ợ c điểm c ủa m ạ n g M L P , đây cũn g chính là tiền đề cho quá trình xây d ự n g m ô hình nhận d ạ n g ở c h ư ơ n g sau

C h ư ơ n g 2: N h ận d ạ n g từ dựa trên mô hình m ạ n g n o r o n bốn ló p cải tiến kết

h ọp v ó i th ố n g kê n g ữ cảnh

C h ư ơ n g này tập trung vào việc xây d ự n g m ô hình hiệu q u ả để n h ậ n d ạ n g ch ữ viết tay hạn chế với những nội dung ch ín h sau đây:

• S ơ đồ tổn g quan của m ô hình nhận d ạng từ đ ư ợ c đề xuất bời luận văn

• Q u á trình xây d ự ng m ạng nơ ron bổ n lớp cải tiến

• Q u á trình xây d ự ng bộ th ốn g kê

• Q u á trình xây nhận dạng từ

• Đ ánh giá khả năng nhận dạng của m ô hình

Chu o n g 3: C ài đặt hệ th ống nhận d ạ n g c h ữ viết tay hạn chế

Trang 8

N ” U\en Thị Thanh Tân Tran” - 7 - Luận văn thạc sĩ

C h ư ơ n g này sẽ m ô tả một cách cụ thể hơn về qui trình nhận dạng chừ viết tay hạn chế Đ ồng thời, sẽ cụ thể hóa đến mức chi tiết nhất có thề việc ứng dụng m ô hình

nh ận dạng đã được đề xuất ở chương 3 để nhận dạng chữ viết tay hạn chế

C h ư ơ n g 4: T h ử n gh iệm hệ thống nhận d ạ n g c h ữ viết tay hạn chế

C h ư ơ n g này sẽ m ô tả chi tiết quá trình thử nohiệm cũno như các kết quả thử nghiệm của hệ thống với các tập dữ liệu khác nhau

P h ầ n kết luận

P hần này sẽ nêu lên các vấn đề đã giải quyết được, chưa giải quyết được v à h ướ ng phát triển trone tư ơ n g lai của luận văn

C á c phần phụ lục A, B, c

C ác ph ần phụ lục sẽ cung cấp các thông tin tham khảo có giá trị về các kết q u ả thực

n g h iệ m của chư ơn g trình, các kí hiệu, từ k h ó a được sử dụng trong luận văn, các tài liệu tham khảo,

M Ở ĐÂU

Trang 9

Nguvcn T hị Thanh Tàn Trans - 8 Luận vãn thạc sĩ

CHƯƠNG 1 - TỔNG QUAN VÈ NHẬN DẠNG CHỮ DỰA TRÊN MÔ HÌNH MẠNG NƠRON

1.1 Tổng quan về mạng noron

1.1.1 Cấu trúc của một nơron

M ột nơron là m ột đơn vị xử lý th ôn ° tin và là thành phần cơ bản của m ột m ạ n s nơron c ấ u trúc của m ộ t nơron đươc mô tả trên Hình 1.1

Hàm kích hoạt

hiệu này th ư ờ n g được đưa vào dưới dạn g m ột vector p chiều

(w kl, w k2, w kp): Là tập các trọng số liên kết của nơron k với p đầu vào, trọng số liên kết giữa tín hiệu vào thứ j với nơron k thườ ng được kí h iệ u là

w/ỳ. T h ô n g thường, các trọng số liên kết của mỗi nơron được khởi tạo m ột cách ngẫu nhiên ở thời điểm khởi tạo m ạ n g v à được cập nhật liên tục trong quá trình học mạng

Z : L à hàm tổng trên m ột nơron, dùng để tính tổng giá trị kích hoạt lên nơron

đó ( thườ ng tính bang tổng của tích các đ ầu vảo với trọng số liên kêt của nó)

TỔNG Q U AN VỀ N H Ậ N D ẠN G C H Ữ D ự A TRÊN M Ô H ÌN H M ẠN G NƠRON

Trang 10

Nixuyễn Thị Thanh Tân Trang - 9 - Luận văn thạc sĩ

uk\ Là tông giá trị kích hoạt lên nơron thứ k (giá trị này là đầu ra của hàm tổng)

bk- Là độ lệch của nơron thứ k, giá trị này được d ù n g n h ư m ột thành phần phân ngưỡ ng trên hàm kích hoạt

• f(.): Là m ột hàm kích hoạt (A ctivation function), hàm này đư ợ c d ù ng để giới hạn p hạm vi đầu ra của mỗi nơron G iá trị của h à m này th ư ờ n g được xác định dựa trên hàm to n s và độ lệch đã cho T h ô n g th ư ờ n g , p h ạ m vi đâu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1, 1], C ác hàm kích hoạt có thể là các hàm tuyến tính hoặc phi tuyến V iệc lựa ch ọn h à m kích hoạt nào là tuỳ thuộc vào từng bài toán Một số h à m kích hoạt th ư ờ n g sử d ụng trong các

m ô hình m ạ n g nơron được thể hiện trên Bảng 1-1

yk‘. Là tín hiệu đâu ra của một nơron, m ô i n ơ ro n sẽ có tôi đa m ột đâu ra

V ới thuật ngữ toán học, cấu trúc của m ột n ơ ro n k, đượ c m ô tả b à n g cặp biểu thứcsau:

-1

X

y+1

H à m tu y ể n tính

-1

T ỎN G Q U A N VÈ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Trang 11

Nuuyễ n I hi Thanh Tàn Trail ü - 1 0 - I.uận vfln thạc sĩ

1.1.2 Các phương pháp huấn luyện một mạng nơron

Hai p h ư ơ n g pháp học máy phổ biến th ư ờ n g d ư ợ c đề cập đ ến tron g lĩnh v ự c trí tuệ nhân tạo đó là: ph ư ơ n g pháp học có thầy (còn gọi là học có giám sát - superv ised learning) và p h ư ơ n g pháp học không có thầy (học k h ô n g có giám sát - u n superv ised learning) V iệc lựa chọn kiểu học có thầy h ay k h ô n g có thầy là tuỳ th u ộ c vào từng bài toán c ũ n g n h ư từng vấn đề cần giải quyết C ũ n g cần chú ý rằng m ồi m ạ n g nơron thườ ng đ ư ợ c kết hợp với m ột thủ tục học, mồi thủ tục học có đ ặc thù riêng và chú ng

k h ô n g thể hoán đổi được N ói cách khác, c h ú n g ta k h ô n g thể sử d ụ n g m ột m ạ n g nơron kiểu A B C để huấn luyện m ột m ạn g k iể u X Y Z đượ c và n g ư ợ c lại

1 P h u o n g p h á p học có th ầ y

P h ư ơ n g ph áp học có thầy là học để thực hiện m ộ t công việc nào đó d ư ớ i sự g iám sát

c ủa m ột thầy giáo Với cách tiếp cận này, th u ậ t toán hu ấn luyện m ạ n g th ư ờ n g được cun g cấp m ộ t tập m ẫ u học dưới dạng: D = {(x,t) I (x,t) e [IR NX R K]}, tro n g đó:

X = ( X |, X 2 , , X N) là vector đặc trư ng N chiều của m ẫ u h u ấ n luyện v à t = (t|, t2, ,t«)

là vector m ục tiêu K chiều tươ n g ứng, n hiệm vụ của thuật toán là phải thiết lập được m ột cách tính toán trên m ạn g n h ư thế n ào đó để sao cho với m ỗi v e cto r đặc

T ỎN G Q U A N VÈ N H Ặ N D Ạ N G C H Ữ D Ự A T R Ẽ N M Ô H Ì N H M Ạ N G N ơ RON

Trang 12

Nguye n Thị Thanh Tân T r a n g - I I - Luận văn thạc sĩ

tnrnu đâu vào thì sai sô ci ừ a giá trị đâu ra thực sự của m ạ n g và aiá trị m ụ c tiêu tương ứng là nhỏ nhất

Với bài toán nh ận dạng, ta có thể nói: P h ư ơ n g pháp học có thầy là p h ư ơ n g p h á p học

để phàn lớp trên tập m ẫu huân luyện đầu vào T ro n g đó số lớp cần ph ân là biết trước và thuật toán học mạno có nhiệm vụ phải xác định đ ư ợ c các luật phân lớp sao cho mỗi huấn luyện đầu vào sẽ đ ư ợ c ph ân vào đ ún g lớp của nó M ộ t số th u ậ t toán điển hình tro n ? p h ư ơ n g pháp học có thầy là: thuật toán L M S (L east M ea n Square error), th uật toán lan truyên ngược sai so (b a c k propagation),

2 P h u o n g p h á p học k h ô n g có t h ầ y

N g ư ợ c lại với học có thầy, p h ư ơ n g p háp học k h ô n g có thầy là học để thực hiện một công việc m à k h ôn g cần bất kỳ sự g iám sát nào Với cách tiếp cận nảy, tập m ẫu huấn luyện chỉ đư ợ c c u n g cấp cho t h u ậ t toán dưới dạng: D = { ( X | , X2, ,X N) } , v ớ i

(Xi, X2, ,X N) là v e c t o r đ ặ c tr ư n g c ủ a m ẫ u h u ấ n l u y ệ n v à n h i ệ m v ụ c ủ a t h u ậ t t o á n

huấn luyện m ạ n g là phải phân chia tập d ữ liệu D thành các n hó m con, m ỗi nhóm chứa m ột tập v e cto r đầu vào có các đặc trư ng g iống nhau, việc ph ân nhó m này cho phép tạo ra các lớp m ộ t cách tự động Đe p h â n n h ó m trên tập m ẫu huấn đâu vào, ta thườ ng phải xây d ự n g các tiêu ch uẩn để đánh g iá “ độ g iốn g n h a u ” g iữ a các mẫu

Với bài toán nhận dạng, ta có thể nói: P h ư ơ n g pháp học k h ô n g có thầy là p h ư ơ n g pháp học để p h â n lớp tập m ẫu hu ấn luyện đầu vào T ro n g đó, số lớp cần phânlà không biết trước và thuật toán học m ạ n g có n h iệ m vụ phải xây d ự n g đượ c các tiêu chuẩn đán h giá “độ g iố n g n h a u ” g iữ a các m ẫ u sao cho các lớp m ẫ u đượ c tạo ra m ột cách tự đ ộ ng là tư ơ n g đươ ng với các lớp m ẫ u th ự c sự

T ron g th ực tế, p h ư ơ n g pháp h ọ c có thầy đượ c ứ n g d ụn g n h iề u hơn p h ư ơ n g pháp học k h ô n g có thầy K iểu huấn luyện k h ô n g có thầy th ư ờ n g k h ô n g thích h ợ p với bài toán p h â n lóp bởi vì rất khó để xây d ự n g m ột p h ư ơ n g p h á p đ ả m bảo đượ c c hắc chắn

có sự tươ n g ứng giữa các lớp đ ư ợ c tạo ra m ộ t cách tự đ ộ n g với các lớp dữ liệu thực

sự, p h ư ơ n g pháp này th ư ờ n g thích hợp h ơ n với các bài toán m ô hình hoá d ữ liệu

T Ô N G Q U A N V Ề N H Ậ N D Ạ N G C H Ử D ự A T R Ê N M Ô H Ì N H M Ạ N G N ơ RON

Trang 13

Nuuyễn I 11! Thanh Tàn Trang - 1 2 - Luận văn thạc sĩ

1.2 Qui trình chung của một hệ nhận dạng chữ

Qui trình c h u n " của m ột hệ thông, nhận dạn g ch ữ th ư ờ n " g ồm hai giai đoạn là: Phân lớp m ẫu và nhận d ạ n s văn bản

1.2.1 Phân lớp mẫu

Phân lớp (sắp lớp) m ẫ u là giai đoạn quyết định trong qu á trình n h ậ n dạng Hai kiểu phân lớp điển hình th ư ờ n g được sử dụng là: phân lớp có thầy (học có thầy) và phân lớp khônR có thầy(học k h ô ng có thầy) C ác v ấ n đề th ư ờ n g đượ c đặt ra tronơ bước phân lớp là:

• Đ ộ c h ín h x á c : Độ tin tưởng của m ộ t luật ph ân lớp đ ư ợ c thể bởi tỷ lệ phân lớp đúne N hìn chung, dộ chính xác đ ư ợ c đo bởi tập dữ liệu học và độ chính xác được đo bởi tập dữ liệu thử n g h iệm là khác nhau Đây k h ô n g phải là một điều bất thườ ng , đặc biệt trong các ứ ng d ụ n g học m áy, đối với tập dữ liệu học thì có thể đ ú ng hoàn toàn, n h ư ng trên tập d ữ liệu thử n g h iệ m có khi kết quả lại rất tồi tệ K hi nói đến độ c h ín h xác của m ộ t th uật toán p h â n lớp thì thư ờ n g là nói đến độ chính xác trên tập dữ liệu th ử n gh iệm K in h nghiệm thực tế cho thấy, độ chính xác của m ộ t th u ậ t toán ph ân lớp phụ thu ộc khá nhiều vào tập dữ liệu học (cả về m ặt số lư ợ n g lẫn chất lượng) nói m ột cách khác là việc trích ch ọn đặc trưng của các m ẫ u có ảnh h ư ở n g lớn tới độ chính xác của quá trình phân lớp

• T ố c độ p h â n ló p : Đ ây là yếu tố đặc biệt q u a n trọng đối với các hệ th ố n g có tính thời gian thực, c h ẳ n s hạn n h ư n h ậ n dạng ch ữ viết tay trự c tuyên (online),

• T í n h d ễ h iể u : T h u ậ t toán phân lớp đơn giản, dễ cài đặt v à hiệu quả

• T h ò i g ia n h ọ c : N h ấ t là trong m ột m ôi trư ờ n g th ư ờ n g x u y ê n thay đổi, cần phải học m ộ t luật p h â n lóp m ộ t cách n h a n h c h ó n g hoặc hiệu chỉnh m ột luật

đã có trong thời gian thực Đe học n h anh , nhiều khi ta chỉ cần sử d ụ n g m ột

số lượng nhỏ các m ẫu huấn luyện để thiết lập các luật p h â n lớp

T Ổ N G Q U A N VÈ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M Ỏ HÌ NH M Ạ N G N Ơ R O N

Trang 14

Niiuvền Thị Thanh Tân I ran” - 1 3 - Luặn văn thạc sĩ

1.2.2 Nhận dạng văn bản

Các bướ c cần thực hiện trong giai đoạn này đ ư ợ c thê hiện trên Hình 1.2 , bao gồm:

1 T h u n h ậ n v à lư u t r ữ ả n h : Đây là c ô n e đoạn đầu tiên tro n s m ột q u á trình nhận

d ạ n g ảnh T ro n g m ột hệ thống nhận dạng, ảnh th ư ờ n g đ ư ợ c th u nhận qua scanner, sau đó được lưu trữ dưới các định d ạ n g file (*.pcx, *.bm p, * -jpg, * tif,

* gif, *.png, .) N hìn chun» việc lựa chọn định dạng file lưu trữ sẽ tuỳ thuộc vào các văn bản đầu vảo cần nhận d ạ n g v à các yêu cầu cụ thể c ủ a từ n g hệ thống

2 T iề n x ử lý ả n h : Đ ây lả cônơ đoạn sử dụna, các kỹ th u ậ t xử lý ảnh để nân g cao chất lượng ảnh đầu vào Nhìn chung, chất lượng của ánh đầu vào sẽ ảnh hưởng

n hiều đến chất lượng nhận dạng Vì vậy, tiền xử lý ảnh là m ộ t b ư ớ c k h ôn g thể thiếu được trong m ột hệ thống nhận d ạ n g hay x ử lý ảnh C ác kỹ thuật thư ờ ng đượ c sử dựng trong quá trình tiền xử lý là: Phân ngưỡ n g, căn chỉnh độ lêch trang văn bản, lọc nhiễu, nối nét đứt trên ảnh,

3 P h â n đ o ạ n ả n h : đây là m ột trong n h ữ n g c ô n g đoạn q u a n trọng n h ấ t trọng nhất

c ủ a quá trình nh ận dạng và có ảnh h ư ở n g lớn đến kết quả nhận dạng Hai cách tiếp cận p h ổ biến được đề xuất trong q u á trình phân đ o ạ n ảnh là:

• C ách tiếp cận trên x u ốn g (top-dow n): T o à n bộ ảnh văn b ản cần ph ân đoạn được coi là m ộ t khối lớn, sau đó khối này đ ư ợ c p h â n thành các khối nhỏ hơn, các khối nhỏ này lại tiếp tục được ph â n th ành các khối nh ỏ h ơ n nữ a cho đến khi thu đ ư ợ c các kí tự hoặc không thể p h â n nh ỏ hơn được nữa N h ìn chung, với cách tiếp cận này, ph ư ơ n g pháp th ư ờ n g d ù n g để p h â n đ o ạ n ảnh là sử dụng các biểu đồ tần suất ngang v à dọc T uy nhiên, do biểu đồ tần suất bị ảnh h ư ở n g n h iề u bởi độ nghiêng trang vă n b ản nên trư ớc khi x ử lý phân đoạn, ta th ư ờ n g phải căn chỉnh độ lệch của trang v ă n bản

T Ổ N G Q U A N VÈ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Trang 15

Nüuven Thị T hanh Tàn Tra ng - 14 - Luận văn thạc sĩ

• C ách tiếp cận dưới lên (bottom -up): Q u á trinh phân đoạn bắt đẩu b ằ n g việc xác định n h ữ n s thành phần nhỏ nhất, sau đó gộp c hú ng lại thành n h ữ n s thành phần lớn hơn, cho đến khi thu đượ c tất cả các khối trong trang văn bản

Hình 1.2: Qui trình chung của một hệ thống nhận dạng chữ

4 N h ậ n d ạ n g : Đ ây chính là thao tác gán n h ã n cho đối tư ợ n g dựa trên n h ữ n g tri thức đã học được, nói cách khác đây là thao tác tìm k iế m m ột lớp m ẫu p h ù hợp nhất với đối tượ ng đầu vào

5 H ọ c m ẫ u m ói: D o tập m ẫu hu ấn luyện k h ô n g thể bao quát đượ c toàn bộ các mẫu tro n g thực tế nên trong quá trình nhận dạn g có thể sẽ gặp nh ững m ẫ u mới

T Ó N G Q U A N VỀ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Trang 16

Niiz.ilvòn 'I hi Thanh Tân Trang - 1 5 - Luặn vSn thạc sĩ

mới m à hệ thống không thể nhộn dạng chính xác được Khi đó việc học thêm

n h ữ n g m ẫu này sẽ góp phần làm tăng chất lượng của hệ thống nhận dạng

6 H ậ u x ử lý: Đ ây là một trong những công đoạn cuối cùng của quá trình nhận dạnơ T ron g nhận dạng chữ, có thể hiểu hậu x ử lý là bước ghép nối các kí tự đã nhận dạng được thành các từ, các câu, các đoạn văn nhàm tái hiện lại văn bản đồns; thời phát hiện ra các lỗi nhận dạng bằna; cách kiểm tra chính tả dựa trên cấu trúc và n gữ nghĩa của câu, đoạn văn Việc phát hiện ra các lỗi, các sai sót tron g nhận dạng ở bước này đã góp phần đán g kể vào việc nâng cao kết quả nhận dạng Đặc biệt đối với các ảnh văn bản đầu vào không tốt (chẳng hạn: Bản

in bị m ờ, bị đứt nét do photo nhiều lần, ) hoặc các văn bản in chứa nhiêu thông tin hồn họp (chẳng hạn: T rong văn bản có cả số lẫn chữ và các kí hiệu), điều này rất dễ gây nhầm lẫn trong nhận dạng T h ậ m chí có nh ững trư ờng hợp nhập

n h à n g chỉ có thể giải quyết được bằng n gữ cảnh bàng cách phân tích ng ữ cảnh

c ủa câu, chẳng hạn như trường hợp nhập n hàng giữa từ “ 10” với số “ 10”

7 Liru v ă n b ả n : Sau khi văn bản cần nhận dạng đã được tái tạo về dạn g nguyên

bả n sẽ được lưu lại ở các định dạng file được hệ thống hỗ trợ, ch ẳng hạn như file

d ạ n g (.doc, rtf, xls, .)■

T ro ng lý thuyết nhận dạng m ẫu nói chung và nhận dạng chữ nói riêng có bốn cách tiếp cận ph ổ biến th ư ờ n g được sử dụng là:

• C ách tiếp cận nhận dạng dựa trên phân hoạch k h ôn g gian

• C ách tiếp cận nhận dạng dựa trên kỹ thuật đối sánh mẫu

• Cách tiếp cận nhận dạng dựa vào cấu trúc

• C ách tiếp cận nhận dạng dựa trên m ạng nơron

H iện nay, c á c h tiếp c ậ n n h ậ n d ạ n g d ự a t r ê n m ô h ìn h m ạ n g n ơ r o n đang trở thành

m ột tro ng nh ững hư ớ n g nghiên cứu chính và nó đã được ứn g d ụn g rộng rãi k hông chỉ trong lĩnh vực nhận dạne; chữ m à cả những lĩnh vực khác, chẳn gh ạn như: Đ iều khiển thô ng tin, dự tính, dự báo, M ạn g nơron có khả năng học từ kinh nghiệm

T Ỏ N G Q U A N VỀ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô HÌ NH M Ạ N G N ơ RON

Trang 17

Niiiiycn I hi Thanh l ãn '1'rnnụ - 1 6 - Luận v;ìn thạc sĩ

hay từ m ột tập m ẫu do vậy nó rất phù hợp với các bài toán đổi sánh, phân loại mẫu, xấp xì hàm , tối ưu hoá lượn2 tử hoá vcctor và phân hoạch không oian dừ liệu

T ro n g sô các m ô hình m ạn e có thể ứng dụno trong nhận dạng thì m ô hình m ạng nhiều lớp truyền tlìẳns M LP (M ultilayer Perceptrons) với thuật toán huấn luyện lan truyền n g ư ợ c sai số là mô hình m ạng phổ biến nhất và đượ c ứng d ụ n g nhiều nhất Phần sau đây, luận văn sẽ sẽ tập trung khảo sát khả n ă n g nhận d ạ n g của m ô hình

m ạ n g này m ộ t cách cụ thể và chi tiết hơn

1.3 Mạng MLP và ứng dụng trong nhận dạng chữ

Mạna; M L P là m ô hình m ạng phổ thường được sử d ụ ng tronR nh ận dạng [9], [19],[22], [29] C ấu trúc m ạng M LP là sự kết hợp của nhiều lớp nơron (ít nhất lả hai lớp), trong đó mỗi lớp nơron được tạo thành từ nhiều Perceptron và sự liên kết giữa các lớp nơro n là liên kết đầy đủ

v ề lý thuyết, người ta đã chứng m inh được rằng chì cần sử dụng m ạ n g nơron hai lớp tru yền th ẳ n g (gồm một lớp ẩn và m ột lớp ra) là đủ để giải q u y ế t các bài toán phân lớp trên tập dữ liệu đầu vào kh ông khả tách tuyên tính bằng cách huân luyện chúng theo cách có giám sát (có thầy) với m ột thuật toán học khá p h ổ biến là thuật toán lan truyền ngược sai số

Trang 18

T ro ng đó:

■ [X|, X-), -Yp]: là vector đàu vào của m ạn"

W\, w 2, vvp: là các trọ n e số liên kết của nơron trên lớp Perceptro n với p

đầu vào

b: là độ lệch của nưron trên lớp Perceptron

■ v: là đầu ra của mạng, đượ c xác định bởi:

p

j / = / ( m ) € { - 1 , + 1}, với u = Y JX,WI - b ,

1=1

H àm kích h o ạ t / thư ờ ng dùnơ ở đây là hàm tuyến tính (hardlim s - Bảng 1-1), với giá

trị h àm đư ợ c xác định theo công thức y = hardlim(x) =

1 i f X < 0

1 otherw ise

D o cấu trúc đơn giản nên mỗi Perceptron chỉ có khả năng phân lớp đ ư ợ c trên tập

m ẫu khả tách tuyến tính (các m ẫu nằm trên hai mặt đối diện nhau của m ột siêu

p h ẳn g ) [19]

1.3.2 Kiến trúc mạng nhiều lớp truyền thẳng (MLP)

Hình 1.4 thể hiện mô hình m ạn g ba lớp với hai lớp ẩn C ác liên kết tro ng m ạ n g là liên kết đầy đủ tức là m ột nơron tro n g m ột lớp bất kỳ của m ạ n g được liên kết với tât

cả các n ơ ro n ở lớp liền trước của nó T ro n g đó, các tín hiệu lan truyền trên m ạng gồm hai loại:

■ C ác tín hiệu đầu ra c ủ a mỗi nơron, các tín hiệu này thư ờ n g đư ợ c truyền

th ẳ n g (theo từng nơron) trong m ạng

* Sai số trên các lớp của m ạng M ỗi tín hiệu sai số th ư ờ n g x u ấ t p h á t ở m ột

n ơ ro n đầu ra của m ạng, và được lan truyền ng ượ c (theo từng lớp) ở trên

-Ịtrungũm Tiiár ■ ^ ri-îifv-:”nịri- V - L O / m

T Ổ N G Q U A N VÈ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô HỈNH M Ạ N G N ơ RON

Trang 19

Nỉiuvễn Thị Thanh Tàn Trang - 1 8 - Luận văn thạc sĩ

%Lớp đầu

vào

Lớp ân Lớp ân thử nhất t hứ hai

Lóp đầu ra

m ộ t lớp sẽ được lấy làm đầu vào của lớp liền sau nó

■ T ín h sai số trên các lớp mạng C ác sai sô này sẽ được lan truyền ngược từ lớp cuối cùng đến lớp đâu tiên của mạng

1.3.3 Quá trình huấn luyện mạng MLP

N h ư đã đề cập ở phần trên, để huấn luyện m ạn g Perceptron nhiều lớp người ta sử

d ụn g th uật toán lan truyền ngược sai số Đ ây là m ột thuật học rất phổ biến trong các

p h ư ơ n g p h á p học có thầy (supervised learning) [19], [22] Tiêu chuẩn đánh giá của thuật toán này là sai số bình ph ư ơ n g tru n2 bình (m ean square eưor)

V iệc h u ấ n luyện m ạ n g M L P bởi thuật toán lan truyền ngược sai số bao g ồm hai quá trình: Q u á trình truyền thẳng và quá trình truyền ngược T ron g quá trình truyền thẳng, các v e ctor đầu vào sẽ được cung cấp cho các nơron của m ạng và tín hiệu sẽ

đư ợ c lan truyền lần lượt trên từng lớp mạng Cuối cùng ta sẽ tính được m ột tập các đâu ra th ự c sự của mạng T ro ng suốt quá trình truyền thẳng, tất cả các trọng số liên

T Ố N G Q U A N VỀ N H Ặ N D Ạ N G C H Ữ DỤ A T R Ê N MÔ HÌNH M Ạ N G N Ơ R O N

Trang 20

Nííuvễn Thị T ha nh Tân T r a n e - 1 9 - Luặn vfln thạc sĩ

kết của m ạn g đều cố định N s ư ợ c lại, tr o n s quá trình truyền ngược, tất cả các trọng

số liên kết đó sẽ dượ c hiệu chỉnh theo các luật hiệu chỉnh trọ n g số Sai số của m ạng

sẽ dược đo b ằ n g độ sai lệch giữa dầu ra thu đượ c với các giá trị m ục tiêu tư ơ n g ứng

C ác sai số này sau đó sẽ được lan truyền n g ư ợ c lần lượt trên các lớp m ạ n g (từ lóp cuối cùng đến lớp đầu tiên) C ác trọng số liên kết sẽ đượ c hiệu chỉnh sao cho các đầu ra thực sự c ủ a m ạ n g càn g gân với các RÍá trị m ục tiêu càn g tôt

T X- y '—

Trang 21

Níiuyen Thị Tl unh Tân Trang - 20 - Luận văn thạc sĩ

Q uá trình huấn luyện m ột m ạ n g nơron ba lớp với thuật toán lan truyền ngược sai số đượ c m ô tả m ột cách chi tiết trên Hình 1.5 Phần phía trên của m ô hình thể hiện quá trình lan truyền th ẳ n s các giá trị đầu ra của các lớp, còn phần phía dưới thểhiện quá trình lan truyền n g ư ợ c sai số từ lớp cuối cùng về lớp đầu tiên của mạng

Đ ây là mô hình m ạ n g thực tế có thể sử dụna; trong các ch ư ơ n g trình nhận dạng

N h ữ n g kí hiệu sử d ụn g trên m ô hình được qui định nh ư sau:

■ / / / , H 2, O: Lần lượt là kí hiệu của lớp ẩn th ứ nhất, lớp ẩn thứ hai và lóp đầu ra

p, q: Lần lượt là số đầu vảo và số đầu ra của mạng

b': Là độ lệch (n g ư ỡ n g ph ân lóp) của các nơron trên lớp thứ i (i = 1—»L)

d \ Là hệ sô học trên lớp th ứ i của mạng

■ v' : Là tổng giá trị kích h o ạ t lên nơron th ứ j của lớp i

ỳ : Là đầu ra của các n ơ ro n trên lớp thứ i (i = 1—»L), với i = L thì y ' = 0 , với

G=i->q)-■ ỗ 1: Là v e cto r grad ient c ủa n ơ ro n ở lớp th ứ i (i = 1-»L)

e: L à vector sai số của m ạ n g đ ư ợ c thể hiện b ở i các phần tử ei, e2, e q

Các mâu huân luyện th ư ờ n g đ ư ợ c c u n g cấp ch o thuật toán dưới dạng cặp vector: { ( x = X p ), ( t = t ] , , t q) } , t r o n g đ ó X là v e c t o r đ ặ c t r ư n gp c h i ề u c ủ a m ẫ u c ầ n

T Ó N G Q U A N VÈ N H Ậ N D Ạ N G C H Ừ D ự A T R Ê N MÔ HÌNH M Ạ N G N Ơ R O N

Trang 22

nhận d ạ n s các phần tử .V / xp th ư ờ n s có s iá trị e [-1.1] hoặc e Ị0.11 và / là siátrị m ục tiêu tương ứn g của m ẫu dó.

Với m ỗi m ẫu đầu vào, thuật toán sẽ tiến hành hiệu chình các tham số m ạ n g để cực tiểu h o á sai số bình p h ư ơ n s trung bình:

F( x ) = E( e2) = E ( t - o ) 2

W'b'trong đó X là v e cto r tạo bởi các trọng số liên kết và độ lệch của m ạn g ( x

N ếu m ạn g có nhiều đầu ra thì :

F(x) = E(e2) = E[ ( t - o) r - ụ - o ) ]

T a sẽ xấp xỉ sai số bình p hươ ng trung bình bởi:

F ( x ) = ( [ l (k) - o( k) ] 1 o(k)]) = e' (k) ■ e ( k ), trong đó giá trị hiện thời c ủa sai

số bình ph ư ơ n g trung bình sẽ được thay thế bằn g sai số bình p h ư ơ n g trung bình ở lần lặp thứ k

T huật toán x u ố n g dổc nhanh nhất để xấp xỉ sai số bình p h ư ơ n g là:

Đối với m ạng nhiều lớp, sai số là hàm gián tiếp của các trọng sổ trong các lớp ẩn

D o v ậy để tính được các đạo h à m chúng ta phải sử d ụ ng cách tính đạo h à m thành

ph ần n h ư sau: giả sử chúng ta có m ột hàm f là hàm trực tiếp duy nhất của biến a

C h ú n g ta m u ốn tính đạo h àm c ủ a / theo biến thứ ba w. K hi đó ta tính:

# 0 0 ) ) = df(a) da(w)

A p d ụng điều này để tính các đạo hàm trong các côn g th ức (1.1) và (1.2), ta được:

T Ó N G Q U A N VỀ N H Ậ N D Ạ N G CHŨ' DỤ A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Trang 23

Niỉuyễn Thị Thanh Tân Trang - 22 - Luận văn thạc sĩ

"\ m r = Ể m - ê r r\, ti) (1.4)' '

(1.5)

Ta dễ d à n u tính được vế thứ hai của các biểu thức trên do m ạng đưa vào lớp th ứ m

là hàm trự c tiếp của các trọnơ sổ và độ lệch tron» lớp đó

Trang 24

Nguyễn Thị Thanh Tân Trang - 23 - Luận văn thạc sĩ

Đe tính ổ 1" ta sử dụng cách tính dạo hàm thành phần ở trên:

Trang 25

Niiuvễn Thị Thanh Tân Trang - 24 - Luận văn thạc sĩ

Do vậy ta viêt dược ma trộn Jacobian dưới dạm

T ừ cô ng thức (18) và (19), ta thấy để tính được ổ' (/ = 1—»L-1), ta phải tính đ ư ợ c

ỏ' *] N h ư vậy, trước hết chúng ta phải tính được sai số ở lớp cuối cùng ( ổ 1' )

N h ư trên ta đã có: ổ = —— = — -— - =

õv

i=1ỡv

Trang 26

Nuuyỗn Thị Thanh Tân Trang - 25 - L u ận văn thạc sĩ

Vậy, s'u được viết dưới d ạ n ° m a trận như sau: ổ ' = - 2 F ' {v' )(/ - o ) (1.27)

Trên cơ sở dó thuật toán lan truyền ngược sai số đối với m ạng M L P được mô tả chi tiết hơn n h ư sau:

IN P U T : Tập mẫu học được cung cấp dưới dạng { ( x = Xp), (t = t|, ,tq )}

Khởi tạo các giá trị một cách ngẫu nhiên cho các ma trận trọng số w2, w3, w4.

B iróc 2: Đưa mẫu hu ấn luyện vào m ạng (thiết lập các đầu vào và các giá trị mục tiêu

cho mạng), các mẫu huấn luyện có thể được đưa vào mạng một cách tuần tụ hoặc ngẫu nhiên

B ư ó c 3: Tính lần lưọt giá trị đầu ra của các noron trcn các lóp Hi, H2 và o theo các

công thức ( 1.6), ( 1.7) và ( 1.20)

Bu'0'c 4: Tính sai số của các lóp mạng:

4.1) Tính sai số của lớp o theo công thức (1.27), (1.19) và (1.21), với m =3

4.2) Nếu sai số tính được > sai số hiện thời của mạng thì cập nhật lại sai sô hiện thời của mạng

4.3) Áp dụng phương pháp lan truyền ngược sai số để tính lần lượt sai số của các H2

và Hi theo các công thức (1.22) và (1.19), với m =1,2

Bu 'Ó'C 5: C ập n hậ t lại giá trị của cá c ma trận t r ọ n g số w' v à độ lệch b' ( i=l —>3) của

các lớp H1, H2 và 0 theo công thức (1.12)

B u ớ c 6: Lặp lại các bưóc 3, 4, 5 đối vói các mẫu huấn luyện mói cho đến khi các

tham số tự do của mạng ổn định và Sai số mạng < err max hoặc số lần lặp > ỉ.

B ư ó ’c 7 : r e tu r n k ế t q uả , nếu quá trìn h huấn luyện thành công thì trả về các m a trận

trọng số w' ( i= l—>3), trường hợp ngược lại thì trả về thông báo lỗi

Thuật toán 1-1: Thuật toán lan truyền ngược sai số huấn luyện mạng ba lóp

Sau khi m ạn g được huấn huấn th àn h công, các tri th ứ c tích luỹ đư ợ c tro n g quá luyện m ạn g (các m a trận trọng số, các tham số tự do, ) sẽ đ ư ợ c cập nhật vào cơ

sở tri thức để sử dụng trong quá trình nhận dạng T h u ậ t toán n h ậ n d ạ n g bởi m ạng được m ô tả n h ư sau:

T Ó N G Q U A N VỀ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M ồ HÌ NH M Ạ N G N Ơ R O N

Trang 27

Niỉuyễn Thị Thanh Tàn Trang - 26 - l.uận văn thạc sĩ

Bưóc 2: Tính k = giá trị đầu ra lớn nhất của mạng ( ok - max{o, I / = 1 —» q) )

Bước 3: return kí tự mẫu tương ứng với đầu ra thứ k.

Thuật toán 1-2: Thuật toán nhận dạng chữ dựa trên mô hình mạng noron ba lóp

1.3.4 Ưu, nhược điểm của mạng MLP

• C ó thể điều chỉnh cấu trúc m ạng để cho kết q u ả tốt hơn

• V iệc nhận dạng có thể được thực hiện với các bộ x ử lý song song

• M ạ n g có khả năng hội tụ cao

2 N h ư ợ c điểm

• D o đặc trưng của sự liên kết giữa các lớp tro n g m ạ n g là đ ầy đủ nên số lượngcác liên kết và các tham số tự do tro n g m ạ n g th ư ờ n g là rất lớn Đ iều này dẫnđên tốc độ tính toán cũng như tốc độ hội tụ c ủ a m ạ n g là chậm

T ỎN G Q U A N VÊ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô H Ì N H M Ạ N G N Ơ R O N

Trang 28

Nguyễn Thị Thanh Tân Trang - 27 - Luận văn thạc sĩ

• C ũ n g do các liên kêt siĩra các lớp trono mạne, là liên kết đầy dù, k h ôn g có sự chọn lọc (ưu tiên) nên quá trình huấn luyện m ạng có thể hội tụ đến m ộ t cực tiểu địa phương

• K ết quả nhận dạno của m ạ n a sẽ bị ảnh hưở ng nhiều khi ảnh bị di c hu yển bị nghiêng, p h ó ng to, thu nhỏ

• M ạ n g có thể học quá nhiều trên các vector đặc trưng đã được thể hiện điều này có thể dẫn tới hiện tượ n g quá khớp với tập m ẫu học làm cho m ạ n g

k h ô n e có khả n ă n s nhận dạno chính xác các m ẫu mới

1.4 Kết luận

T ro n g c h ư ơ n g này, luận văn đã đề cập đến các bướ c cơ bản của m ột quá trình nhận dạng c h ừ viết

Có nhiều cách tiếp cận để nhận dạng chữ viết, trong đó c á c h tiế p c ậ n n h ậ n d ạ n g

c h ữ d ự a t r ê n m ô h ìn h m ạ n g n o r o n đang trở thành m ột trong n hững h ướ n g nghiên cứu chính M ô hình m ạng phổ biến nhất th ư ờ n g được sử dụng trong nhận dạng chữ

là m ô hình m ạn g M LP ( 3 lớp) B ằng việc khảo sát chi tiết trên mô hình lý thuyết kết hợp với cài đặt thực nghiệm, luận văn đã rút ra được n hững ưu, nhược điếm chính c ủ a m ạn g M L P với thuật toán huấn lan truyền ngược sai số T ừ đó đề xuất

h ư ớ n g cải tiến nhàm nâng cao chất lượng nhận dạng

T Ổ N G QU AN VÈ N H Ậ N D Ạ N G C H Ữ D Ự A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Trang 29

Nụuvc n Thị Thanh Tàn Trang - 28 - Luận văn thạc sĩ

CHƯƠNG 2 - NHẬN DẠNG TỪ DỰA TRÊN MẠNG BỐN■ ■ ■ ■

LỚP CÀI TIẾN KÉT HỢP VỚI THỐNG KÊ NGỬ CẢNH

Đối với bài toán nhận dạno chừ in, quá trình nhận dạnơ thườ ng đ ư ợ c thực hiện lần lượt theo các bước từ phân v ù ng ảnh đến tách dòng, tách từ và tách kí tự ra khỏi từ

D o các kí tự trong m ột từ đối với chữ in hầu hết là rời nhau nên v iệ c tách kí tự là khả thi và th ư ờ n g đượ c thực hiện theo ph ư ơ ng pháp cắt theo m iền liên thông hoặc cắt tại các vị trí có m ật độ thấp trên biểu đồ tần suất theo chiều n g a n g của dòng chữ Song, đối với bài toán nhận dạng chữ viết tay thì các p h ư ơ n g pháp nà y không hiệu quả bởi lẽ giữa các kí tự của m ột từ thường bị dính nhau N goài ra, g iữ a các dòng trong một văn bản và giữa các từ trên một dòng cũng có thể bị dính h oặc lồng nhau

T uy nhiên, sự dính dòng và dính từ khônơ phải là vấn đề thư ờ n g g ặp nên luận văn

ch ưa xem xét đến các trường hợp đó, nói cách khác, ờ đây giả thiết việc tách dòng

và tách từ trên các văn bản đầu vào là khả thi v ấ n đề trọng tâm đặt ra là nhận dạng đượ c các từ trong đó giữa các kí tự trong m ột từ có thể bị dính nhau

Đ ể giải quyết vấn đề này, hiện có nhiều p hư ơ ng pháp, điển hình n h ư ph ư ơ ng pháp nhận dạng dựa trên cấu trúc của Sim on và Baret [16]: T iến hành làm m ảnh từ, sau

đó xây dựng cây cấu trúc của từ dựa trên việc phân tích chu tuyến c ủ a từ thành các thảnh phần cơ bản cù ng với h ư ớ n ? của chúng (được xác định theo 8 h ư ớ n g cơ bản (0 7)), chẳng hạn nh ư đường phía trên của đường baseline (ascen der), đường phía dưới của đ ư ờ n g baselin e (descender), độ cao của từ, điểm x a nhất (p o in t extremity), các đư ờ n g cong lồi/lõm (convexity/concavity curve), đ ư ờ n g khép kín (loop) Cuôi

cù ng việc nhận dạn g từ được thực hiện bằng cách đối sánh cây cấu trúc của từ với cây cấu trúc của các từ m ẫu (đã được lưu tron g từ điển) P h ư ơ n g p h á p này có ưu điêm là thực hiện đơn giản, số lượng m ẫu học là đủ lớn thì p h ư ơ n g p h á p này cho độ chính xác chấp nhận được T uy nhiên, do chất lượng nhận dạng p h ụ thuộc vào sô lượng m ẫu nên để có được chất lượng nhận dạng đủ tốt thì số lượ ng m ẫ u cần lưu trữ phải lớn dẫn đến thời gian đối sánh khá lâu D o vậy p h ư ơ n g pháp này thường chỉ được ứng d ụn g để nhận dạng các từ trong m ột p h ạ m vi hẹp (chẳn g h ạ n n hư kiểm tra

N H Ặ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G BỐN LỚP CẢI T I Ê N K Ế T HỢP VỚI T H Ô N G KÊ N G Ũ ' C Ả N H

Trang 30

Nguyễn Thị Thanh Tân Trang - 29 - Luận văn thạc sĩ

tài k hoản ờ ngân hàn», v.v) N goài ra, Hull, Ho, Favata, G o vindaraju và Srihari [17]

đề xu ất một p h ư ơ n g pháp nhận dạng từ k h ô n s cần phân đoạn từ m ột cách rõ ràng

T heo cách tiếp cận này, trước hết cần tìm chu tuyến của từ, sau đó tiến hành tìmkiếm các thành phần cơ bản dựa trên m ột m ã xích (chain codc) được trích ra từ chutuyến của từ P h ư ơ n g pháp này c ũ n s eặp phải nhược điểm như ph ư ơ n g pháp trên nên hiện mới chỉ được ứng d ụ n s trong lĩnh vực nhận dạng địa chỉ thư C am illerap p, Lorette, M enier, Oulhadj và Pettier [15] cũng đề xuất m ột hệ th ố n e nhận dạng chữ viết tay dựa trên cấu trúc: M ỗi từ được biểu diễn bởi m ô hình đồ thị của nó, m ô hình này được x ây dựng m ột cách trực tiếp từ ảnh đa cấp xám bằng cách phát hiện

ra các đặc trư ng cơ bản thuộc vào đư ờ ng baseline của từ A Z ahour, T a c o n e t và Fauré [7] đã đề xuất m ột p hươ ng pháp nhận d ạ n a chữ Ả -R ậ p viết tay dựa trên việc

mô tả cú pháp củ a từ Trên đây là một số cách tiếp cận điển hình hiện đang được được sử dụng để nhận dạng chữ viết tay N h ìn chung, mỗi p h ư ơ n g pháp đều có những ưu, n h ư ợ c điểm riêng và hiệu quả ứng dụng của mỗi p h ư ơ n g pháp sẽ p h ụ thuộc vào yêu cầu của bài toán đặt ra

T ron g luận văn này, chúng tôi tập trung vào hai vấn dê chính: T h ứ nhât là x â y d ự n g

mô h ìn h m ạ n g no'ron bố n ló p cải tiến thích hợp cho nhận dạng ch ữ số và ch ữ cái viết tay k h ôn g dấu rời rạc với độ chính xác cao T h ứ hai là x â y d ự n g m ô h ìn h

n h ậ n d ạ n g t ừ dự a trên m ạng nơron bốn lóp cải tiến kết hợp với th ống kê n gữ cảnh

để giải quyết vấn đề dính chữ trong nhận dạng chữ viết tay v ề cơ bản, mô hình nhận dạng đề xuất ở đây gồm ba thành ph ần chính:

• M ạ n g nơron bốn lớp cải tiến (bộ nhận dạng kí tự)

• B ộ thống kê n g ữ cảnh

• B ộ nhận dạng từ

Đ ầu v à o của bộ nhận dạng là ảnh của từ sau khi đã được tiền xử lý (nh ằm nâng cao chất lượng) và làm m ảnh (việc làm m ảnh từ đảm bảo cho kết quả tìm kiếm các đặc trư ng trên ảnh là chính xác hơn)

N H Ậ N D Ạ NG T Ừ D ự A T R Ê N M Ạ N G BÓN LỚP CẢI T I Ẻ N K Ế T HỢ P VỚI T H Ó N G KÊ N G Ữ C Ả N H

Trang 31

Nsjuyen Thị Thanh Tàn Trang - 30 - Luận văn thạc sĩ

Sơ dồ hoạt đ ộ n g của m ô hình nhận d ạ n g từ đ ư ợ c thể hiện trên Hình 2

Anh của từ (Word Image)

\ 7

Từ điển kí tự,

Từ điển từ

V

X ZDanh sách các

từ ứng cử viên

Hình 2.1: So’ đồ hoạt động tổng quát của mô hình nhận dạng

Q u á trình nhận d ạ n g từ sẽ bao g ồ m ba c ô n g đo ạ n đan xen nhau: P h â n đoạn t ừ th e o

các c ác h k h á c n h a u (xác định tất cả các cách phân đoạn từ k hác nhau có thể có),

n h ậ n dạ n g kí t ự (đ ư ợc thực hiện bởi m ạ n g n ơ ro n bốn lớp) và k iể m t r a s ự h ọ p

c ủ a bộ kí t ự (đư ợc thực hiện bởi bộ th ố n g kê) C uối cùng, ta sẽ thu đ ư ợ c m ộ t danh sách các từ ứ n g c ử viên (các từ có kh ả n ă n g lựa chọn) L ú c này, kết hợp với thông tin từ bộ th ố n g kê n g ữ cảnh, bộ nhận d ạ n g sẽ chọ n ra m ột từ có độ tin cậy cao nhất trong danh sách các từ ứ ng c ử viên đó C ác p h ầ n 2.1, 2.2, 2.3 sau đây sẽ m ô tả m ột cách chi tiết hơn về cấu trúc c ũ n g n h ư các x ử lý cụ thể c ủ a từ n g thành p h â n trong

m ô hình n h ậ n dạng

2.1 Mạng nơron bốn lớp cải tiến

N h ư đ ã đề cập, m ạ n g nơron n hiều lớp tru y ề n th ẳ n g với các lóp đ ư ợ c kết đầy đủ là

m ộ t m ô hình p h ổ biến th ư ờ n g đ ư ợ c sử d ụ n g tro n g nh ận dạng M ô h ìn h này có m ột

số ưu điểm như: Cài đặt m ạ n g đơn giản, k h ô n g nhạy c ả m với nh iễu , việc huân luyện m ạ n g khône, ph ụ thuộ c nh iều vào th ứ tự c ủ a các m ẫu học, có k h ả n ă n g hội tụ

NHẬN DẠNG T Ừ D ự A TRÊN MẠNG BỐN LỚP CẢI TIẾN KÊT HỢP VÓI T H ÓN G KÊ N G Ữ CẢNH

Trang 32

Nguyễn Thị Thanh Tân Trang - 3 1 - Luận vSn thạc sĩ

cao, v.v Tuy nhiên, việc huấn luyện mạna, có thể hội tụ tới m ột giá trị cực tiểu địa

p h ư ơ n g và khônơ thu dược kết quà m on g m uốn Đặc biệt, trong nhận dạng chữ, chất lượ n g nhận dạng của m ạng này th ư ờ n e không cao do bị ảnh h ư ờ n g nhiều bởi bời kích thước, độ nghiêng của chữ, độ dày, m ỏn g của nét chữ, v.v N goài ra, việc huấn luyện m ạn g thường đòi hỏi nhiều thời gian do số lượng các liên kết trona;

m ạ n g là rất lớn Đe khắc phục vấn đề này, c h ú n g tôi đã đề xuất mô hình m ạn g bốn lóp Đ ây là mô hình m ạ n a được cải tiến từ m ô hình m ạng ba lớp V iệc cải tiến tập trung ch ủ yếu ở lớp đầu tiên của m ạ n ° Đây là m ột lớp được thiết kế đặc biệt nhàm

m ục đích tự động xác định được các vùng thông tin đặc trư ng trên ảnh, thực hiện việc tính toán trên các vùnơ thông tin đặc trư ng này để tạo ra các tham sô thực sự cho m ạng M ạn g bốn lớp được xây dựng với m ục đích dùng để nhận d ạng các các chữ số và chữ cái viết tay không dấu một cách rời rạc

2.1.1 Kiến trúc mạng

K iến trúc m ạn g được xây ở đây gồm bốn lớp không kể lớp đầu vào Lớp đầu tiên của m ạ n g (lớp được thiết kế đặc biệt) được gọi là lớp trích chọn đặc trư ng (lớp F), tiếp th eo là hai lớp ẩn (lớp H| và lớp H 2), cuối cùng là lóp đầu ra (lớp O) C ác liên kết g iữ a lớp F với mặt phẳng đầu vào là liên kết có chọn lọc (được chọn lọc dựa trên các luật cho trước) Các liên kết giữa lớp H ị với lớp F, lớp H 2 với lớp t ì Ị, và lớp o với lớp H 2 là các liên kết đầy đủ

NHẬN DẠNG TỪ D ự A TRÊN MẠNG BỐN LỚP CẢI TIẾN KẾT HỢP VỚI THÔNG KÊ NGŨ' CẢNH

Trang 33

Nguyễn Thị Thanh Tân Trang - 32 - Luận văn thạc sĩ

(h’4, f , y 4)

I

Liên kếtđầy đủ

Liên kết đầy đủ

Liên kết đầy đủ

M ạ n g no'ron t r u y ề n t h ẳ n g b ố n ló p

Hình 2.2: Mô hình mạng no'ron truyên thăng bôn lóp cải tên

1 L ớ p trích chọn đặc trưng (lóp F)

V ới bất kỳ m ộ t m ạng nơron nào thì đầu vào bao giờ cũng là các v e cto r đặc trư ng

c ủa đối tư ợ n g cần nhận dạng Có hai cách tiếp cận thườ ng được sử dụng để xác định vector đặc trưng của m ột đối tượng:

■ T h ứ nhất, là chúng ta tự xây dựng các hàm để tính toán các đặc trưng v à sử d ụ ng kết quả c ủ a các hàm đó làm đầu vào của m ạn g nơron

■ T h ứ hai, là thiết kế các lớp m ạng nơron để tính toán các đặc trưng đó m ột cách

tự động

P h ư ơ n g p h á p của chú ng tôi dựa trên cách tiếp cận thứ hai L ớ p m ạ n g đượ c xây

đự n g để trích chọn các đặc trưng là lớp đầu tiên của m ạng (được gọi là lớp F) Đ ầ u

và o của lóp này là ảnh của kí tự (kích thước 24 X 24) sau khi đã được tiền x ử lý (n h ằ m làm tốt và làm m ảnh ảnh) V iệc làm m ảnh ảnh đảm bảo cho các v ù ng đặc trư ng trên ảnh được thể hiện rõ nét hơn C ác noron của lớp này đượ c ph ân bố trên

N H Ậ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G BÓN LỚP CẢI TI ÊN KÉ T HỢP VÓI T H Ố N G KÊ NGŨ' C Ả N H

Trang 34

N ç u y e n Thị Thanh Tân Trang - 33 - Luận văn thạc sĩ

m ột m ặt p hản g (đ ư ợc kí hiệu là mặt phảng P|), mặt phẳng này có kích thước 6 X 24

Đ e trích chọn đượ c các đặc trưng của ảnh một cách tự động, mỗi phần tử của mặt

p h a n g P| sẽ đư ợ c liên kết với m ột vùng đặc trưng (feature area) trên mặt p h ẳ n g đầu vào M ộ t số kiểu v ù n g đặc trưng điển hình được thể hiện trên Hình 2.3

Hình 2.3: Một số vùng đặc trung trên ảnh

M ỗ i liên kết đ ư ợ c thể hiện b ằ n g m ột trọng số liên kết, tập các trọ n g số liên kết của

cá c n ơ ro n trên m ặt p h ẳ n g Pi với tất cả các v ùn g đặc trưng trên ảnh đầu vào đượ c

g ọ i là m ộ t m a trận t r ọ n g s ố l i ê n k ế t ( đ ư ợ c k í hiệu là m a trận W 1) Ở đ â y c h ú n g tô i

qui định kích th ư ớ c lớn nhất của m ột vùng đặc trưng là 24 v à nhỏ nhất là 1

D o đặc đ iểm là m ỗi n ơ ro n trên m ặt p h ẳng Pi k h ôn g liên kết với tất cả các nơron trê n m ặt p h ẳ n g đ ầ u v à o m à đư ợ c chỉ liên kết với các nơron trên m ột v ùn g đặc trư ng

NHẬN DẠNG T Ừ D ự A TRÊN MẠNG BỔN LỚP CẢI TIÊN KÉT HỢP v ớ i THÔNG KÊ N G Ữ CẢNH

Trang 35

Nguyen Thị T ha nh Tân Trang - 34 - Luận văn thạc sĩ

nên các liên kết giữa mặt phẳng P| với m ặt phẳng đầu vào được gọi là sự liên kết chọn lọc (hay còn gọi là liên kết không đầy đủ ) M ột số kiểu liên kết g iữ a lóp F với lóp đầu vào được thể hiện trên Hình 2.4

Ả nh đầu vào

M ặt p h ẳ n g p , (lớp F)

Hình 2.4: M ột số kiểu liên kết giữa lớp F vói ló p đầu vào

N H Ặ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G B Ố N LỚP CẢI T I Ế N K É T H Ợ P VỚI T H Ó N G KÊ NGŨ' CẢ N H

Trang 36

Nguyen Thị Thanh Tân Trang - 35 - Luận vãn thạc sĩ

K hông giống như dôi với các lớp Hi, H2 và o T rong quá trình huấn luyện mạng, Các giá trị ban đầu c ủa ma trận trọng số liên kết vv' sẽ không đ ư ợ c khởi tạo một cách ngẫu nhiên m à được xác định theo các qui tắc đã được qui định trước

Độ lệch v à h àm kích hoạt của các nơron trên lớp này được kí hiệu lần lượt là b' và

f 1 T ro n g đó, hàm kích hoạt f 1 là m ột hàm tuyến tính (purelin - Bảng 1-1), với giá trị của hàm được tính theo công thức: f \ à ) = a, với giá trị của a € [0,1]

2 L ó p ẩn 1 (ló p H i)

C ác nơron của lóp này được phân bố trên m ột m ặt phẳng (kí hiệu là mặt p hẳn g p 2)

có kích thước 6 x 1 2 Các nơron nằm trên m ặt p h ẳ n g này được liên kết m ột cách đầy đủ với các nơron của mặt p h ẳn g P| (kích thước 6 X 24), ma trận trọ ng số liên kết giữa lớp này với lớp F được kí hiệu là w 2 T ổ n g số liên kết của lớp này là 10368 liên kết, trong đó có 10082 liên kêt có thể thay đổi trọng số Đ ộ lệch và hàm kích hoạt c ủa lớp n ày được kí hiệu lần lượt là b 2 v à T ro n g đó, hàm kích hoạt f2 là m ột hàm phi tuyến Log-Sig m oid, giá trị của h àm được tính theo công thức:

f ( a ) - •

' l + e-°

3 L ó p ẩ n 2 (ló p H 2)

Các nơron của lớp này được ph ân bố trên m ộ t m ặt p hẳng (kí hiệu là m ặt p h ẳ n g p 3)

có kích thước 6 x 6 C ác nơron n ằm trên m ặt p h ẳ n g này được liên kết m ột cách đầy

đủ với các nơron của m ặt p h ẳ n g p 2 (kích thướ c 6 X 12) M a trận trọng số liên kết giữa lớp này với lớp Hi được kí hiệu là w 3 T ổ n g số liên kết của lớp này là 2592 liên kết, trong đó có 2485 liên kết có thể thay đổi trọng số Đ ộ lệch v à hàm kích hoạt c ủa lớp này được kí hiệu lần lượt là b 3 và f3 T ro ng đó, hàm kích hoạt f3 là m ột hàm phi tuyến L og-Sigm oid

4 L ớp đầu ra (lóp O )

N H Ậ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G BỐN LỚP CẢI T I Ế N K Ế T H Ợ P VÓI T H Ô N G KÊ N G Ữ C Ả N H

Trang 37

Ng u y ễn Thị Thanh Tân Trang - 36 - Luận văn thạc sĩ

Để tăng tốc dộ nhận dạng, số nơron cùa lớp này k hông được thiết kế m ột cách cố định m à được xác định một cách tuỳ chọn theo kiểu mạng, ở đây, ch úng tôi qui định ba kiểu mạng:

■ M ạn g dùng để nhận dạng toàn bộ các chữ số và chữ cái viết tay k h ôn g dấu, sốnơron của lớp này là 62 nơron (62 đầu ra) tươ ng ứng với 10 chữ số (0 —>9), 26chữ cái viết thườ ng (a -> z ) và 26 chữ cái viết hoa (A —>Z)

■ M ạng chỉ dùng để nhận dạng chữ cái viết tay, số nơron của lớp này là 52 nơrontương ứng với 26 chữ cái viết th ư ờ n g và 26 ch ữ cái viết hoa

■ M ạn g chỉ dùng để nhận dạng chữ số viết tay, số nơron của lớp này sẽ là 10nơron tương ứng với 10 chữ số

C ác nơron của lớp này được liên kết m ột cách đầy đủ với các nơron nằm trên m ặt

ph ẳn g p 3 (kích thướ c 6 X 6) M a trận trọng số liên kết giữa lớp này với lớp H | được

kí hiệu là w 4 T ổ n g số liên kết giữa lớp này với mặt ph ẳn g p 3 được xác định theo số

số đầu ra của mạng Cụ thể là:

■ N e u số nơron của m ạng là 62 thì tổng số liên kết là 2232 liên kêt, trong đó 2170 liên kết có thể thay đổi trọng số

■ N ếu số nơron của m ạng là 52 nơron thì tổng số liên kết sẽ là 1872 liên kết, trong

đó 1820 liên kết có khả năng thay đổi trọng số

■ N ếu số nơron của m ạng là 10 nơron thì tổng số liên kết sẽ là 360 liên kết, trong

đó 350 liên kết có khả năng thay đổi trọng số

H ệ số độ lệch và h àm kích hoạt của lớp này được kí hiệu lần lượt là b 4 và f4 T rong

đó, h àm kích hoạt í4 là m ộ t h à m phi tuyến L og-Sigm oid

2.1.2 Thuật toán huấn luyện mạng

D o m ô hình m ạ n g bốn lóp đượ c cải tiến từ m ột m ạ n g ba lớp truyền th ẳ n g n ê n về cơ bản, ở đây sử dụng thuật toán lan truyền n g ư ợ c sai số đã trình bày ở phần 1.3.3 để huấn luyện mạng T u y nhiên, để áp dụng được với cấu trúc m ạn g bốn lớp c h ú n g tôi

N H Ặ N D Ạ N G TÙ' D ự A T R Ê N M Ạ N G BỔN L Ớ P CẢI T I Ế N K Ế T HỢ P VÓI T H Ố N G KÊ N G Ũ' C Ả N H

Trang 38

Nguyễn Thị Thanh Tân Trang - 37 - Luận văn thạc sĩ

đã CÓ m ột SÔ thay đôi (điêu này sẽ được đề cập cụ thể ở phần sau) Đe tiện cho việc trình bảy, phân sau đây sẽ nhắc lại nh ững kí hiệu đ ã được sử dụng trong mạng:

e rr_ m a x: Sai số tối đa cho phép của mạng

I: T ổ n g số lần lặp tối đa cho phép

p: Số đầu vào của m ạng (tổng số phần tử của lớp đầu vào)

w ‘ (i = 1 —>4): Lần lượt là các m a trận trọn g số liên kết giữa m ặt p h ẳ n g P / (lớp

F ) với mặt phẳng đầu vào, giữa mặt p h ẳ n g p 2 (lớp H ì) với mặt p h ẳ n g P /, mặt

p h ă n g p 3 (lớp H 2) với mặt phăng p 2, m ặt p h ă n g p 4 (lớp o) với m ặt p h ă n g p 3.

• b' (i = l-> 4 ) : Là độ lệch của các nơron trên các lớp F, H i, H 2o

a ' (i = 1 —>4): L ầ n ỉượt là các hệ số học trên các lớp F, H ị, H2o

■ / ( i = l - * 4 ) : Lần lượt là các hàm chuyển trên các lớp F, H ], H 2 v ầ O .

r í (i = 1 —>4): Lần lượt là tổng số phần tử của các lớp input, F, H i, H 2, o.

■ v' (i = 1 —>4): Lần lượt là các vector tổng trên các lớp F, H ì, H 2o

■ y (i = l- » 4 ) : Lần lượt là các vector giá trị đầu ra của các lớp F, H ị, H 2o Với

i = 4, ta có: y ‘j - Oj (j = l-><30, với q là số đầu ra của m ạng

D o cấu trúc đặc biệt của lớp F - mỗi nơron trên m ặt p h ẳ n g P] kh ông liên kết v ớ i tất

cả các n ơ ro n trên m ặt phẳng đầu vào m à chỉ được liên kết với các nơron nằm trên

m ột v ù n g đặc trưng nên tổng giá trị giá trị kích- hoạt lên n ơ ro n thứ i của lớp F ( V,1 )

sẽ được tính theo cô ng thức sau:

trong đó: n là số phần tử của vùng đặc trư ng được liên kết với nơron /, X j là giá trị của p h ầ n tử thứ j trên v ù n g đặc trưng, W ịj là trọ n g số liên kết giữa nơron i với p h ầ n

tử th ứ j c ủ a v ù n g đặc trưng nằm trên m ặt p h ẳ n g đầu v à o đư ợ c liên kết với nó, b)

độ lệch c ủ a nơron i trên lớp F

n

(2.1)

N H Ậ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G BÓN L ÓP CẢỈ TI ỂN K Ế T HỢP VỚI T H Ó N G KÊ N G Ữ C Ả N H

Trang 39

Ng u y e n Thị Thanh Tân Trang - 38 - Luận văn thạc sĩ

Đ ầu ra cùa nơron i trên lớp F ( y \ ) như sau:

y) = / ' O ' ) = purelinịy]) = v'

v á / > , ' ) = f l = l

õv,

T h u ậ t toán huấn luyện m ạng được m ô tả m ột cách cụ thể n h ư sau

IN P U T : T ậ p m ẫ u học đ ư ợ c cung cấp dưới d ạ ng {(x = Xi, , Xp), (t = ti, ,tq)}

OUTPUT: Các ma trận trọng số vv1, w2, w3, w4 và các tham số của mạng

B ư ớ c 4:

4.1) Tính sai số của lớp 0 theo công thức (1.27), (1.19) và (1.21), với m =4

4.2) Nếu sai số tính được > sai số hiện thời của mạng thì cập nhật lại sai số hiện thời của mạng

4.3) Áp dụng phương pháp lan truyền ngược sai số để tính lần lượt sai số của các lớp H2 và Hi theo các công thức (1.19) và (1.27), với m =2, 3

4 4 ) Á d dụng phương pháp lan truyền ngược sai số để tín h lần lượt sai số của các

lớp H2 và Hi theo các công thức (1.19) và (2.3) với m = 1

B irớc 5: Cập nhật lại giá trị của các ma trận trọng số w' và độ lệch ỏ' (i = 1 —>4) của các

lóp F, H\, H-ỵo theo công thức (1.12)

B ư ớ c 6: Lặp lại các bước 3, 4, 5 đối với các mẫu huấn luyện mới cho đến khi các tham

số tự do của mạng ổn định và sai số mạng < err_max hoặc số lần lặp > I.

Bu'ô’c 7: r e tu r n kết quả, nếu quá trình huấn luyện thành công thì trả về các ma trận

trọng số vv' (i=l —>4), trường họp ngược lại thì trả về thông báo lỗi

Thuật toán 2-1: Thuật toán huấn luyện mạng bốn lóp cải tiến

(2.2)

(2.3)

N H Ặ N D Ạ N G T Ừ DỰ'A T R Ê N M Ạ N G B Ố N LỚP CẢI T I Ê N K É T HỢP VỚI T H Ố N G KÊ N G Ữ C Ả N H

Trang 40

Nguyễn Thị Thanh Tân Trang - 39 - Luận văn thạc sĩ

Các dữ liệu thu được trong quá trình huân luyện m ạng sẽ được lưu ra file cấu trúc

Bưó'c 4: Tính giá trị các đầu ra của lớp F theo các công thức (2.1) và (2.2):

Bưó'c 5: Tính giá trị các đầu ra của các lớp HI, H i, o theo các công thức (1.6), (1.7) và

(1.20), với m = 2, 3, 4

B ư ớ c 6: for j = 1 to q do Ợj = y J , với y ;4 là đ ầu ra th ứ j c ủ a lớp cu ố i cùng.

B u ó c 7: return vector 0 .

Thuật toán 2-2: Thuật toán nhận dạng dựa trên mạng bốn lóp

Kết q uả nhận dạng của thuật toán sẽ được lưu dưới dạng m ột vector q chiều, tron g

đó q là số đầu ra của mạng Giá trị của v e cto r này sẽ rơi vào m ột trong ba trư ờ n g hợp sau:

■ T r ư ờ n g h ợ p t h ứ n h ấ t, tồn tại duy nhất một đầu ra có giá trị lớn, các đâu ra cònlại b ằ n g 0 hoặc có giá trị k hông đáng kể Kí tự nhận dạng được sẽ tư ơ n g ứn g với đầu ra lớn nhất Đ ây là trường hợp m ạng nhận dạng được chính xác kí tự

tư ơ n g ứ n g với ảnh đầu vào

■ T r ư ờ n g h ợ p t h ứ hai, có hai đầu ra có giá trị xấp xỉ bằng nhau T rư ờ n g hợp này xảy ra là do kí tự cần nhận dạng được viết m ột cách nhập n hàng (vừa g iố ng kí

tự a lại v ừ a giống kí b) và m ạng khô ng thể phân biệt được đó là kí tự a hay b

C h ẳ n g hạn các trư ờng hợp nhập n hằng giữa chữ ‘n ’ và chữ ‘u ’, chữ ‘e ’ và c h ữ

‘c \ c h ữ ‘g ’ và sổ ‘9 ’, chữ ‘o ’ v à sổ ‘0 ’,v.v Giải pháp cho vấn đề này là ta sẽ

NHẬN DẠNG T Ừ D ự A TRÊN MẠNG BÓN LỚP CẢI TIẾN KẾT HỢP VỚI THỐNG KÊ NG Ữ CẢNH

Ngày đăng: 25/03/2015, 10:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Nguyễn Hữu Hoà (2001 ), ứ n g d ụ n g m ạ n g n ơ r o n m ờ t r o n g n h ậ n d ạ n g c h ữ v i ế t t a y t i ế n g V iệ t , Luận văn tốt nghiệp đại học, Khoa Công nghệ Thông tin, Đại học Bách khoa Hà N ội Sách, tạp chí
Tiêu đề: ứ n g d ụ n g m ạ n g n ơ r o n m ờ t r o n g n h ậ n d ạ n g c h ữ v i ế t t a y t i ế n g V iệ t
[3] Lê M inh Hoàng (2001), M ộ t p h ư ơ n g p h á p n h ậ n d ạ n g v ă n b ả n t i ế n g V i ệ t , Luận văn thạc sỹ, Khoa Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: M ộ t p h ư ơ n g p h á p n h ậ n d ạ n g v ă n b ả n t i ế n g V i ệ t
Tác giả: Lê M inh Hoàng
Năm: 2001
[4] Hoàng Kiếm , Nguyễn Hồng Sơn, Đào M inh Sơn (2001), “ ủ n g dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động” , k ý y ế u h ộ i n g h ị k ỳ n i ệ m 2 5 n ă m t h à n h l ậ p V i ệ n C ô n g n g h ệ T h ô n g t in Sách, tạp chí
Tiêu đề: ủ n g dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động” , "k ý y ế u h ộ i n g h ị k ỳ n i ệ m 2 5 n ă m t h à n h l ậ p V i ệ n C ô n g
Tác giả: Hoàng Kiếm , Nguyễn Hồng Sơn, Đào M inh Sơn
Năm: 2001
[5] Nguyễn Thị Thanh Tân (1999), T h u ậ t t o á n p h â n t í c h E a r l e y v à i m g d ụ n g t r o n g k i ê m l ô i n g ô nn g ữ đ ặ c t ả RAISE, Luận Văn Tốt Nghiệp Đại Học, Đại học Khoa Học Tự Nhiên, Đại họcQuốc gia Hà Nội.T à i liệu t h a m k h ả o t iế n g A n h Sách, tạp chí
Tiêu đề: T h u ậ t t o á n p h â n t í c h E a r l e y v à i m g d ụ n g t r o n g k i ê m l ô i n g ô n"n g ữ đ ặ c t ả
Tác giả: Nguyễn Thị Thanh Tân
Năm: 1999
[6] A n il K. Jain, F u n d a m e n t a l s D i g i t a l I m a g e P r o c e s s i n g , Prentice Hall Information and System Sciences Series Sách, tạp chí
Tiêu đề: F u n d a m e n t a l s D i g i t a l I m a g e P r o c e s s i n g
[7] AZahour, B.Taconet and A.Faure (1992), “ Machine Recognition o f Arabic Cursive W riting ” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 289-296 Sách, tạp chí
Tiêu đề: Machine Recognition o f Arabic Cursive W riting ” , "F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n
Tác giả: AZahour, B.Taconet and A.Faure
Năm: 1992
[8] B e ffe rt H. and Shinghal (1989). “ Skeletonizing binary patterns on the homogeneous mulptiprocessor” , J o u r n a l o f P a t t e r n R e c o g n i t i o n a n d A r t i f i c i a l I n t e l l i g e n c e , vol. 3, N o.2, pp.207-216 Sách, tạp chí
Tiêu đề: Skeletonizing binary patterns on the homogeneous mulptiprocessor” , "J o u r n a l o f P a t t e r n R e c o g n i t i o n a n d A r t i f i c i a l I n t e l l i g e n c e
Tác giả: B e ffe rt H. and Shinghal
Năm: 1989
[9] Carl Grant Looney (1997), P a t t e r n R e c o g n i t i o n U s i n g N e u r a l N e t w o r k s , Oxford University Press Sách, tạp chí
Tiêu đề: P a t t e r n R e c o g n i t i o n U s i n g N e u r a l N e t w o r k s
Tác giả: Carl Grant Looney
Năm: 1997
[10] C.J.Wells, L.J.Evett, p.E.Whitby, and W hitrow, “ fast dictionaryloookup for contextual work recognition” , P a t t e r n R e c o g n i t i o n Sách, tạp chí
Tiêu đề: fast dictionaryloookup for contextual work recognition”
[11] Denis Ricard, Helle Hvid Hansen, M ike Wozniewski, L i n e a r F e a t u r e E x t r a c t i o n a n d D e s c r i p t i o n , M c G ill University Sách, tạp chí
Tiêu đề: L i n e a r F e a t u r e E x t r a c t i o n a n d"D e s c r i p t i o n
[12] E.Kavallieratou, N.Fakotakis, and G.Kokkinakis, S k e w a n g l e e s t i m a t i o n in d o c u m e n t p r o c e s s i n g u s i n g C o h e n ' s c l a s s d i s t r i b u t i o n s , W ire Communications Laboratory, Universityo f Patras Sách, tạp chí
Tiêu đề: S k e w a n g l e e s t i m a t i o n in d o c u m e n t"p r o c e s s i n g u s i n g C o h e n ' s c l a s s d i s t r i b u t i o n s
[13] Hom ik, K., M.Stinchcommbe, and H.W hite (1989). “ M ultilayer feed-forward networks are universal approximator” . N e u r a l N e t w o r k , 259-366 Sách, tạp chí
Tiêu đề: M ultilayer feed-forward networks are universal approximator” . "N e u r a l N e t w o r k
Tác giả: Hom ik, K., M.Stinchcommbe, and H.W hite
Năm: 1989
[14] Ioannis Andreadis, Maria I. Vardavoulia, Gerasimos Louverdis and Nikolaos Papamarkos, C o l o u r i m a g e s k e l e t o n i s a t i o n , Democritus University o f Thrace Sách, tạp chí
Tiêu đề: C o l o u r i m a g e s k e l e t o n i s a t i o n
[15] J.Camillerapp, G.Lorette, G.Menier, H,Oulhadj and J.C.Petttier (1992), “ O ff-line and On-line Methods For HandwritingRecognition” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 273-288 Sách, tạp chí
Tiêu đề: O ff-line and On-line Methods For HandwritingRecognition” , "F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in"H a n d w r i t i n g R e c o g n i t i o n
Tác giả: J.Camillerapp, G.Lorette, G.Menier, H,Oulhadj and J.C.Petttier
Năm: 1992
[16] J.C.Simon and O.Baret, “ Cursive Words Recognition” (1992), F r o m P i x e l s T o F e a t u r e s I I IFrontiers in Handwriting Recognition , 241-260 Sách, tạp chí
Tiêu đề: Cursive Words Recognition” (1992), "F r o m P i x e l s T o F e a t u r e s I I I"Frontiers in Handwriting Recognition
Tác giả: J.C.Simon and O.Baret, “ Cursive Words Recognition”
Năm: 1992
[17] J.J. H ull, T.K .H o, J.Favata, V.Govindaraju and S.N.Srihari (1992), “ Combination o f segmentation-based and whoüstic handwritten word recognition algorithms” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 261-272 Sách, tạp chí
Tiêu đề: Combination o f segmentation-based and whoüstic handwritten word recognition algorithms” , "F r o m P i x e l s T o"F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n
Tác giả: J.J. H ull, T.K .H o, J.Favata, V.Govindaraju and S.N.Srihari
Năm: 1992
[18] Kavallieratou, E.N.Fakotakis, and G .Kokkinakis (1999), New A l g o r i t h m F o r S s k e w i n g C o r r e c t i o n t a n d S l a n t R e m o v a l O n W o r d - L e v e l , In Proc O f ICECS’99, V.2 Sách, tạp chí
Tiêu đề: A l g o r i t h m F o r S s k e w i n g"C o r r e c t i o n t a n d S l a n t R e m o v a l O n W o r d - L e v e l
Tác giả: Kavallieratou, E.N.Fakotakis, and G .Kokkinakis
Năm: 1999
[19] M artin T. Hagan, Howard B. Demuth, Mark Beale, N e u r a l N e t w o r k D e s i g n , An International Thomson Publishing Company Sách, tạp chí
Tiêu đề: N e u r a l N e t w o r k D e s i g n
[20] Naccache, N. J. and Shinghal, R (1984), “ SPTA: A proposed algorithm for thinning binary patterns,” I E E E T r a n s a c t i o n s o n S y s t e m s , Man, and Cybernetics, vol. S M C -14, 409-418 Sách, tạp chí
Tiêu đề: SPTA: A proposed algorithm for thinning binary patterns,” "I E E E T r a n s a c t i o n s o n S y s t e m s
Tác giả: Naccache, N. J. and Shinghal, R
Năm: 1984
[21] P.S.P. Wang, M.V.Nagendraprasad and A. Gupta (1992), “ a neural net based “ H yb rid ” approach to handwritten numeral recognition” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 145 - 154 Sách, tạp chí
Tiêu đề: a neural net based “ H yb rid ” approach to handwritten numeral recognition” , "F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in"H a n d w r i t i n g R e c o g n i t i o n
Tác giả: P.S.P. Wang, M.V.Nagendraprasad and A. Gupta
Năm: 1992

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w