Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài toán nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định hướng của PGS .TS Đặng Quang Á, chún
Trang 2CHƯƠNG III XÂY DỰNG MỘT HỆ THỐNG NHẬN DẠNG CHỮ VIỆT
Trang 3MỞ ĐẦU
Mạng nơ ron nhân tạo ngày nay đang là một lĩnh vực nghiên cứu nóng hổi, thu hút sự quan tâm đặc biệt của các nhà khoa học trong nhiều lĩnh vực Đó
là nhờ những thành công rực rỡ cả về mặt lý thuyết và ứng dụng của nó Phạm
vi áp dụng của mạng nơ ron rất rộng lớn: trong lĩnh vực xử lý, điều khiển như
xử lý tín hiệu, khử nhiễu, phân lớp, nhận dạng, dự báo Ngoài ra mạng nơ ron còn được ứng dụng trong các lĩnh vực toán học, y học, kinh doanh, tài chính, nghệ thuật Mạng nơ ron đang ngày càng trở thành một hướng nghiên cứu, một giải pháp ngày càng hứa hẹn
Một trong những ứng dụng quan trọng của mạng nơ ron là nhận dạng và phân loại mẫu Khả năng học và thích ứng của chúng đã làm cho chúng là lựa chọn hàng đầu đối với nhiệm vụ so sánh các tập dữ liệu hoặc trích chọn các mẫu thích hợp từ các dữ liệu phức hợp Nhận dạng mẫu trong mạng nơ ron là một lĩnh vực rất rộng, nhưng phổ biến nhất vẫn là nhận dạng chữ in và chữ viết tay
Nhận dạng văn bản là một bài toán đã được nghiên cứu từ lâu Trên thế giới đã có khá nhiều phần mềm nổi tiếng về nhận dạng chữ la tin như OMNIPAGE của hãng Caere Corporation - Mỹ, RECOGNITA của Recognita Corporation - Hunggary, CURNEIFORM của Cognitive Technology Corporation - Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 –Pháp Ở Việt nam có phần mềm nhận dạng chữ Việt in của Viện công nghệ thông tin Nhận dạng văn bản là một bài toán khá phức tạp đòi hỏi nhiều nghiên cứu sâu sắc cả về xử lý ảnh và về kỹ thuật nhận dạng Giải quyết bài toán này sẽ giúp tự động hoá rất nhiều công việc nhàm chán phải đánh lại văn bản khi ta chỉ
có văn bản hoặc ảnh văn bản và cần chuyển những thông tin đó sang dạng text
Trang 4để hiệu chỉnh lại hoặc tự động nhập liệu vào các hệ thống cơ sở dữ liệu, giảm thời gian và chi phí Ngày nay với sự bùng nổ của internet và việc xây dựng các thư viện điện tử thì nhu cầu nhận dạng văn bản trong sách báo càng trở nên cực
kỳ cần thiết
Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài toán nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định hướng của PGS TS Đặng Quang Á, chúng tôi đã nghiên cứu đề tài "Mạng nơ ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ Việt in" Luận văn này không đi sâu nghiên cứu các kỹ thuật xử lý ảnh văn bản
cụ thể mà tập trung vào khả năng ứng dụng mạng nơ ron trong hệ thống nhận dạng văn bản nói chung và xây dựng một hệ thống nhận dạng chữ Việt in để minh họa Nội dung cơ bản của luận văn gồm có ba chương:
Chương một trình bày tổng quan về mạng nơ ron nhân tạo, bao gồm: giới thiệu về mạng nơ ron, phân loại mạng nơ ron và tổng quan về hệ thống nhận dạng ký tự
Chương hai trình bày về một số mạng nơ ron phổ biến trong hệ thống nhận dạng văn bản chữ in như mạng Hamming, mạng kết hợp tuyến tính, mạng Adaline, mạng SOM, mạng RBF, mạng Multilayer Perceptron
Chương ba trình bày về hệ thống nhận dạng chữ Việt in sử dụng mạng
nơ ron
Trang 5CHƯƠNG I TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO VÀ HỆ THỐNG
NHẬN DẠNG KÝ TỰ
1.1 Giới thiệu về mạng nơ-ron
Mạng nơ-ron nhân tạo được xây dựng từ những năm 1940, nhằm mô phỏng một số chức năng bộ não của con người Nếu nhìn não từ góc độ tính toán, chúng ta dễ thấy rằng cách thức tính toán của não khác xa với tính toán theo thuật toán và chương trình truyền thống Sự khác biệt thể hiện ở hai điểm:
+ Quá trình tính toán được tiến hành song song và phân tán trên nhiều nơ ron gần như đồng thời
+ Tính toán thực chất là quá trình học chứ không phải theo một sơ đồ định sẵn từ trước
Mạng nơ-ron nhân tạo được thiết kế tương tự như nơ-ron sinh học, sẽ có khả năng giải quyết hàng loạt các bài toán mà sự suy luận tương đối “mờ”, không đầy đủ dữ liệu, cần có quá trình “học” từ các ví dụ
1.1.1 Mô hình mạng nơ-ron nhân tạo
1.1.1.1 Nơ-ron sinh học
Bộ não người có khoảng 1011 tế bào thần kinh kết nối với mật độ cao gọi
là các nơ-ron (một nơ ron có khoảng 104
liên kết) Có nhiều loại nơ-ron khác nhau về kích thước và khả năng thu phát tín hiệu Tuy nhiên, chúng có cấu trúc
và nguyên lý hoạt động chung Hình 1.1 là một ví dụ đơn giản hoá về một ron Mỗi nơ-ron gồm có ba phần: Thân nơ-ron (cell body) với nhân ở bên trong (soma), một trục dây thần kinh ra (axon) và một hệ thống lưới cảm ứng hình cây (dendrites) Các xúc tu hay lưới cảm ứng, là các dây thần kinh vào để nhận các
Trang 6nơ-tín hiệu từ các nơ-ron khác Thân nơ ron làm nhiệm vụ tổng hợp nơ-tín hiệu vào và biến đổi thành tín hiệu ra Tín hiệu ra được chuyển đến trục dây thần kinh ra Dây thần kinh trục phân thành nhiều nhánh ở cuối nhằm chuyển giao tín hiệu tới các nơ-ron khác Điểm kết nối giữa trục của một nơ ron với xúc tu của một nơ ron khác gọi là khớp (synapse) Các nơ-ron có thể thay đổi mức tín hiệu tại các khớp Trong nơ-ron nhân tạo, mức tín hiệu này thể hiện bằng trọng số
Hình 1.1 Mô hình nơ ron sinh học
1.1.1.2 Nơ-ron nhân tạo
Trọng số và tổng tín hiệu đầu vào:
Trọng số mô phỏng chức năng của khớp nối giữa hai nơ ron (synapse) Mỗi nơ-ron sinh học có rất nhiều dây thần kinh vào, nghĩa là nó có thể tiếp nhận đồng thời nhiều tín hiệu Tương tự, mỗi nơ ron nhân tạo có thể có nhiều trọng
số Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào pj được gán một trọng
số wij tương ứng, tổng tín hiệu đi vào nơ ron ni có thể được ước lượng theo một
j ij
(ii) Dạng toàn phương:
Trang 7
N 1 j
2 j ij
2 ij j 2
i ρ p -w
Trong đó ρ và wij (j = 1->N) lần lượt là bán kính và tâm cầu
Hàm kích hoạt:
Hàm biến đổi tín hiệu đầu vào n thành tín hiệu đầu ra a được gọi là hàm
kích hoạt (activation function hay transfer function) Hàm này mô phỏng chức năng của thân nơ ron Người thiết kế mạng sẽ chọn một hàm cụ thể để đáp ứng yêu cầu của bài toán
Nút Bias (hay offset):
Là một nút bổ trợ nhằm tăng khả năng thích ứng của mạng nơ ron trong quá trình học Bias gần giống như trọng số, trừ một điều là nó luôn có tín hiệu vào không đổi bằng 1 Nút này có thể bỏ đi nếu không cần thiết
Các trọng số và bias là các tham số có thể điều chỉnh của nơ ron Một luật học sẽ điều chỉnh chúng sao cho quan hệ đầu vào/đầu ra của nơ ron đáp ứng được một mục tiêu nào đó
Trang 8Hình 1.2 Một số hàm kích hoạt phổ biến
Mô hình của một nút xử lý (nút thứ i):
Hình 1.3 Mô hình một nơ ron
Trang 9
N 1 j
i j ij
i i
i f n
Trong đó:
ni: tổng tín hiệu vào tại nơ ron i
ai: tín hiệu ra tại nơ ron i
Mạng nơ ron
Tương tự như các nơ ron sinh học phải liên kết với nhau một cách có tổ chức thì mới tạo nên sức mạnh, các nơ ron nhân tạo cũng phải liên kết với nhau thành mạng lưới thì mới có khả năng giải quyết các bài toán thực tế Tuy nhiên người ta đã chứng minh rằng không phải cứ liên kết tuỳ ý các nơ ron bất kỳ là được mà các liên kết phải có trật tự Thông thường các nơ ron nhân tạo liên kết với nhau thành từng tầng, tầng sau liên kết với đầu ra của tầng trước Các tín hiệu lan truyền từ tầng đầu tiên, đến tầng thứ hai, thứ ba và cuối cùng đến tầng
ra Các tín hiệu cũng có thể lan truyền hồi quy từ một tầng đến tầng trước nó
1.1.2 Ưu và nhược điểm của mạng nơ-ron
Đặc điểm nổi bật của mạng nơ ron là khả năng thích ứng của nó, mang lại một cách thiết kế hệ thống hoàn toàn mới Thay vì xây dựng một hệ thống từ các
Trang 10bản thiết kế khuôn mẫu, mạng nơ ron sử dụng dữ liệu bên ngoài để tự động xác định giá trị các tham số Điều này nghĩa là mạng “nhận biết” được đầu ra của nó thông qua một cơ chế phản hồi có tính đến hàm chi phí Cơ chế phản hồi này sẽ thay đổi các tham số thông qua một quá trình gọi là học hay huấn luyện Nhờ đó
mà đầu ra của hệ thống được điều chỉnh gần với đích mong muốn nhất
Hình 1.5 Mô hình huấn luyện mạng nơ ron
- Không có cách tổng quát để đánh giá hoạt động bên trong mạng
- Việc học đối với mạng có thể khó thực hiện
- Khó có thể dự đoán trước được hiệu quả của mạng trong tương lai (khả năng tổng quát hoá)
Trang 111.2 Phân loại mạng nơ ron
Mạng nơ ron không cần phải được lập trình lại khi chạy trong môi trường mới Sở dĩ có điều này bởi vì cách ứng xử của nó thay đổi để thích ứng với môi trường mới Sự thay đổi này có được nhờ thay đổi các trọng số (weight) Ta gọi quá trình thay đổi trọng số này là học (learning)
Nếu phân loại mạng nơ ron theo mô hình học (learning paradigm) thì có ba loại chính:
- Học có giám sát (Supervised learning): chúng ta cung cấp cho mạng dữ liệu vào (input data) và câu trả lời đúng, tức là đầu ra mà ta mong muốn nhận được ứng với đầu vào Dữ liệu vào được truyền thẳng qua mạng cho đến tầng
ra Đầu ra thực tế của mạng được so sánh với đầu ra mong muốn Nếu chúng giống nhau thì ta không thay đổi các trọng số của mạng Nếu khác nhau, ta điều chỉnh trọng số để đảm bảo mạng sẽ đưa ra câu trả lời chính xác hơn nếu
nó gặp lại dữ liệu vào đó
- Học không giám sát (Unsupervised learning): ta chỉ cung cấp cho mạng dữ liệu vào mà không có đầu ra mong muốn Mạng này cần phải tự tổ chức hay
tự dạy chính nó Kết quả học phụ thuộc vào cấu trúc dữ liệu vào
- Học tăng cường (Reinforcement learning): là loại lai giữa hai loại trên Ta cung cấp cho mạng dữ liệu vào và chỉ cho mạng biết là câu trả lời đúng hay sai Nếu câu trả lời sai, ta điều chỉnh trọng số sao cho có thể nhận được câu trả lời đúng khi nhận được dữ liệu đó trong tương lai
Nếu phân loại mạng nơ ron theo kiến trúc mạng thì có hai loại chính:
- Mạng truyền thẳng (Feed forward network): các tín hiệu truyền từ tầng vào thẳng qua các tầng tiếp theo rồi đến tầng ra
- Mạng hồi quy (Recurrent network): các tín hiệu sau khi đến tầng ra rồi lại truyền ngược trở lại làm tín hiệu vào để phản hồi
Nếu phân loại mạng nơ ron theo kết nối mạng thì có hai loại chính:
Trang 12- Mạng đơn tầng: chỉ có một tầng ngoài tầng vào
- Mạng đa tầng: có hơn một tầng ngoài tầng vào
Nếu phân loại mạng nơ ron theo giải thuật học thì có nhiều loại:
- Học lan truyền ngƣợc (back propagation)
- Học cạnh tranh
- Học LVQ
- Học Hebb
Trang 13Hình 1.6 Phân loại các mô hình mạng nơ ron
Trang 14Mạng nơ ron nhân tạo là một kiến trúc tính toán mạnh mẽ vì nó gồm một
số lớn nơ ron liên kết song song và thích ứng với nhau Vì vậy mạng nơ ron được sử dụng rất phổ biến trong lĩnh vực nhận dạng nói chung và nhận dạng văn bản nói riêng Điển hình là mạng MLP của R Rosenblatt và sau đó là Minsky và Papert chi tiết hóa, đã được ứng dụng rất rộng rãi trong cả nhận dạng chữ viết tay và chữ in, ví dụ như mạng nơ ron của Hussain và Kabuka, mạng Neocognitron của Fukushima Mạng hai tầng truyền thẳng của Garland có thể nhận dạng 94 ký tự chữ in Khả năng của mạng đã được kiểm tra bởi 300000 ký
tự in bằng máy in laser, với 12 loại font phổ biến có kích thước khác nhau Kết quả là nhận dạng không có lỗi nào [30]! Sau đây chúng ta nghiên cứu chi tiết về
hệ thống nhận dạng văn bản
1.3 Hệ thống nhận dạng văn bản
Nhận dạng văn bản (character recognition - CR) là một thuật ngữ tổng quát bao gồm tất cả các loại nhận dạng ký tự bằng máy trong các lĩnh vực khác nhau Có thể phân loại hệ thống nhận dạng theo hai tiêu thức chính sau:
o Căn cứ vào phương pháp lấy mẫu văn bản (data acquisition process): line hay off-line
on-o Căn cứ vàon-o lon-oại văn bản (text type): chữ in (machine-printed) hay chữ viết tay (hand-written)
On-line character recognition là quá trình nhận dạng chữ viết tay mà tín hiệu vào được thu nhận bằng các bộ số hóa (digitizer) theo một thứ tự thời gian của tọa độ bút Các bộ số hóa thường là các bảng điện tử Chúng gửi tọa độ đầu ngòi bút vào máy tính sau mỗi khoảng thời gian
Trong off-line character recognition hay Optical Character Recognition (OCR), hình ảnh chữ viết được chuyển thành các mẫu bit bằng các thiết bị số hóa quang học như máy quét hay máy ảnh Việc nhận dạng được tiến hành trên
Trang 15các mẫu bit này, có thể là chữ in hay chữ viết tay So với nhận dạng on-line thì nhận dạng off-line có nhiều khó khăn hơn
Không phụ thuộc văn bản thuộc loại nào, nói chung có năm giai đoạn chính sau trong quá trình nhận dạng văn bản:
1 Tiền xử lý (Preprocessing)
2 Phân tích trang văn bản (Segmentation hay Layout Analysis)
3 Trích chọn đặc trƣng (Feature Extraction hay Representation)
4 Học và nhận dạng (Training and Recognition)
5 Hậu xử lý (Post Processing)
Trang 171.3.1 Các hoạt động tiền xử lý
Tiền xử lý thực hiện biến đổi từ ảnh sang ảnh nhằm nâng cao chất lượng ảnh, làm cho việc nhận dạng dễ dàng và chính xác hơn Nó làm nổi bật và làm sắc nét các đặc điểm của ảnh như các cạnh, biên, độ tương phản Hai mục tiêu chính của tiền xử lý là:
o Khử nhiễu
o Chuẩn hóa dữ liệu
1.3.1.1 Khử nhiễu
Lọc (Filtering): tích chập một mặt nạ xác định trước với ảnh: giá trị của một
điểm ảnh là một hàm của các điểm ảnh lân cận Bộ lọc có thể dùng để làm mịn (smoothing), làm sắc nét (sharpening), phân ngưỡng (thresholding), loại bỏ những cấu trúc yếu hay màu nền và điều chỉnh độ tương phản
Các phép toán hình thái (Morphological Operation): làm cho một đối
tượng trong ảnh to hơn hay nhỏ hơn Các phép toán này cần có một lõi (kernel hay structuring element) Kích thước (số dòng và số cột) của toàn bộ ảnh không thay đổi Các phép toán hình thái cơ bản là dilate (mở rộng đối tượng) hay erode (thu hẹp đối tượng) Các phép toán hình thái nối các nét đứt, tách các nét liền, làm mịn đường biên, xoá các điểm nhiễu, làm mảnh ký tự và trích xuất biên Vì vậy các phép toán hình thái được sử dụng rất thành công trong việc xóa nhiễu
Trang 181.3.1.2 Chuẩn hóa dữ liệu
Chuẩn hóa dữ liệu nhằm loại bỏ những biến động trong văn bản và nhận được dữ liệu chuẩn hóa Chuẩn hoá dữ liệu thực hiện một số công việc sau:
Hiệu chỉnh góc nghiêng văn bản (skew normalization)
Do sự không chính xác trong quá trình quét hay kiểu viết, văn bản có thể
bị nghiêng hay cong, do đó ảnh hưởng đến chất lượng nhận dạng Hơn nữa, một
số ký tự chỉ có thể phân biệt với nhau căn cứ vị trí của chúng đối với đường thẳng đáy Có một số phương pháp xác định góc nghiêng văn bản: projection profile, nearest neighbors clustering, cross correlation method between lines,
Hough Transform, Attractive Repulsive Neural Network
Hiệu chỉnh ký tự nghiêng (slant normalization)
Chữ nghiêng thể hiện bằng góc giữa nét dài nhất trong một từ và trục đứng Chuẩn hoá chữ nghiêng nhằm đưa tất cả các ký tự về một dạng thống nhất Phương pháp phổ biến nhất là tính góc trung bình của các nét gần thẳng đứng nhất Một cách khác là tính projection profiles các góc so với trục thẳng đứng
Hiệu chỉnh kích thước chữ (size normalization)
Là việc đưa tất cả các ký tự về cùng một cỡ chữ Có thể sử dụng phép hiệu chỉnh kích thước theo chiều dọc và chiều ngang
Phân ngưỡng (thresholding)
Để nhận dạng văn bản thì bộ nhận dạng chỉ quan tâm đến màu nền và màu chữ của ảnh Phân ngưỡng chuyển ảnh đa cấp xám hay ảnh màu thành ảnh đen trắng (binary) nhằm làm cho việc nhận dạng được dễ dàng, không bị ảnh hưởng bởi mức độ xám của điểm ảnh Phân ngưỡng còn làm giảm bộ nhớ cần để lưu trữ ảnh và tăng tốc độ xử lý Có hai loại ngưỡng: tổng thể (global) và cục bộ (local) Phân ngưỡng tổng thể tìm một ngưỡng cho toàn bộ ảnh văn bản, thường
Trang 19dựa trên ước lượng giá trị màu nền từ biểu đồ tần suất cường độ sáng của ảnh Phân ngưỡng cục bộ sử dụng các giá trị khác nhau cho mỗi điểm ảnh dựa trên thông tin cục bộ của các điểm ảnh lân cận nó
là các tâm cụm Có thể làm mảnh dựa trên các điểm mút, điểm giao, điểm uốn
1.3.2 Phân tích trang văn bản
Phân tích trang văn bản (Segmentation hay Page Layout Analysis) là chia nhỏ ảnh văn bản thành các thành phần nhỏ hơn có cùng cấu trúc Đây là một giai đoạn rất quan trọng vì tách được ở mức độ dòng, từ hay ký tự trực tiếp quyết định mức độ nhận dạng ký tự Kết quả phép tách đúng hay sai quyết định kết quả nhận dạng Có hai loại phân tích văn bản:
External Segmentation: là việc tìm ra các thành phần ký tự khác nhau
như đoạn, câu hay từ, văn bản hay phi văn bản
Internal Segmentation: là việc tìm ra các ký tự riêng lẻ Việc này đặc
biệt khó trong chữ viết tay thảo
1.3.2.1 External Segmentation
External Segmentation là việc phân chia cấu trúc của trang thành các đơn
vị lô gíc (các vùng có cùng cấu trúc) Đây là khâu trọng yếu của phân tích cấu
Trang 20trúc văn bản (document layout analysis) nhằm cung cấp cho bộ nhận dạng các vùng có cấu trúc giống nhau và phục hồi văn bản sau khi nhận dạng về định dạng ban đầu External Segmentation gồm hai giai đoạn: giai đoạn một là phân tích cấu trúc (structural analysis): tách ảnh văn bản thành các thành phần (đoạn, dòng, từ) Giai đoạn hai là phân tích chức năng (functional analysis): sử dụng vị trí, kích thước, các luật về trình bày để gán nhãn chức năng cho các thành phần (tiêu đề, tóm tắt, …) Có hai cách tiếp cận để thực hiện External Segmentation:
Cách tiếp cận từ trên xuống (top-down): tách một trang thành các thành phần nhỏ hơn bằng các phép cắt theo X và theo Y, bắt đầu từ các thành phần lớn cho đến các thành phần nhỏ hơn, cuối cùng đạt được ký tự riêng lẻ Tiếp cận theo hướng này có các phương pháp: sử dụng phép chiếu nghiêng, phân tích khoảng trống trắng Ưu điểm lớn nhất của phương pháp phân tích từ trên xuống là nó dùng cấu trúc toàn bộ trang để giúp cho phân tích định dạng được nhanh chóng Đây là cách tiếp cận hiệu quả cho hầu hết các dạng trang Tuy nhiên, với các trang không có các biên tuyến tính và có sơ đồ lẫn cả bên trong và quanh văn bản, các phương pháp này có thể không thích hợp Ví dụ, nhiều tạp chí tạo văn bản quanh một sơ đồ ở giữa, vì thế văn bản đi theo những đường cong của đối tượng trong sơ đồ chứ không đi theo đường thẳng
Cách tiếp cận từ dưới lên (bottom-up): xây dựng đệ qui các vùng đồng nhất
từ các thành phần nhỏ hơn, tới khi mọi khối trên trang được xác định, dựa trên phép xử lý các điểm ảnh và các thành phần liên thông Ví dụ như phương pháp Docstrum sử dụng phương pháp phân cụm k-nearest neighbor Tuy nhiên không có một phương pháp nào điển hình cho mọi kỹ thuật phân tích dưới lên Ngoài ra, một số kỹ thuật khác kết hợp cả hai cách tiếp cận top-down và bottom-up
Trang 21Một số cách tiếp cận xem các vùng đồng nhất là vùng có cấu trúc Khi đó phân tích trang là việc tìm các vùng có cấu trúc trong ảnh đa mức xám hay ảnh màu Ví dụ Jain sử dụng phép lọc Gabor và phép tích chập mặt nạ Doermann sử dụng phép phân tích đa mức sóng (wavelet multiscale analysis) Nhiều cách tiếp cận khác tập trung xử lý các điểm ảnh nền hay các dấu cách trắng Các kỹ thuật này bao gồm X-Y tree, phép chiếu điểm ảnh (pixel based projection profile), phép chiếu các thành phần liên thông (connected component based projection profile), theo dõi dấu cách (white space tracing), làm mảnh dấu cách (white space thinning)
Trong [32], các tác giả đã sử dụng cách tiếp cận từ dưới lên để phân tích trang văn bản hỗn hợp thành các thành phần nhờ việc sử dụng khoảng cách Hausdorff giữa các đối tượng ảnh thông qua quan hệ Qθ Ban đầu các đối tượng ảnh được tách bởi chu tuyến ngoài Sau đó các đối tượng có kích thước hình chữ nhật phủ nhỏ hơn một ngưỡng nào đó sẽ được nhóm với nhau theo lân cận gần nhất dựa vào việc sử dụng khoảng cách Hausdorff thông qua quan hệ Qθ để tạo
ra các khối Còn các đối tượng ảnh còn lại sẽ được tiếp tục phân tích như là đối với một trang văn bản với kích thước nhỏ hơn
Trong [32], việc chọn ngưỡng θ là thủ công, dựa trên kinh nghiệm của người sử dụng Để nâng cao chất lượng phân tích trang văn bản, trong [33], các tác giả đã sử dụng các tập mẫu văn bản Thuật toán trước hết tính khoảng cách Hausdorff giữa các đối tượng ảnh Sau đó lập biểu đồ tần suất của các khoảng cách này Ngưỡng θ được lựa chọn trong các giá trị hθ tương ứng là các đỉnh trong biểu đồ tần suất chính là các giá trị ứng với nhiều phần tử cùng loại nhất Với ngưỡng θ đã chọn, tiến hành phân vùng theo tiếp cận từ dưới lên nhờ việc
sử dụng khoảng cách Hausdorff giữa các đối tượng ảnh thông qua quan hệ Qθ
Kết quả thu được là tập hợp các hình chữ nhật rời nhau thể hiện các vùng trong ảnh
Trang 22Việc lựa chọn ngưỡng θ phù hợp nhất sẽ được tiến hành thông qua việc đánh giá sự sai lệch của văn bản so với mẫu Với mỗi ngưỡng θ, ta sẽ tìm được mẫu tương ứng có độ lệch nhỏ nhất Ngưỡng θ và văn bản mẫu tương ứng có độ sai lệch nhỏ nhất trong số các độ lệch sẽ được lựa chọn Nếu sai số nhỏ nhất chấp nhận được (nhỏ hơn một ngưỡng nào đó) thì số vùng của văn bản sẽ được xác định tương ứng với số vùng của văn bản mẫu được lựa chọn Khi đó văn bản
sẽ được phân tích trang dựa theo các thuộc tính của văn bản mẫu Trường hợp ngược lại có thể xem văn bản không thuộc tập văn bản mẫu và bổ sung văn bản đang xét vào tập mẫu
Việc đánh giá độ sai lệch của văn bản so với văn bản mẫu sẽ được tiến hành thông qua việc xây dựng lưới tựa các vùng chữ nhật cơ bản của mẫu và các vùng chữ nhật của văn bản cần đánh giá thu được nhờ sử dụng thuật toán pageAnalysis trong [32] với ngưỡng được chọn tự động (là đỉnh của biểu đồ tần suất) Thuật toán cụ thể như sau:
Vào: + Ảnh văn bản I cần phân tích
+ Tập cấu trúc văn bản mẫu tempStructs
+ Ngưỡng Tolerance
Ra: Cấu trúc trang văn bản cần phân tích pageStruct
Phương pháp:
1 Tính biểu đồ tần suất theo khoảng cách Hausdorff
+ Tách các đối tượng dựa vào chu tuyến ngoài + Tính khoảng cách Hausdorff giữa các đối tượng (các chu tuyến) + Xây dựng biểu đồ tần suất theo khoảng cách đã tính
2 Với biểu đồ tần suất đã xây dựng, chọn ngưỡng θ (chọn lần lượt từng đỉnh của biểu đồ)
3 Phân tích trang văn bản theo thuật toán pageAnalysis theo quan hệ Qθ
với ngưỡng θ chọn ở bước 2
Trang 234 Đánh giá độ lệch của cấu trúc trang văn bản vừa được phân tích ở bước
3 với các cấu trúc trang văn bản mẫu và tìm ra cấu trúc trang tương ứng có độ lệch nhỏ nhất
5 Lặp lại bước 2 đến bước 4 chừng nào còn tìm được θ theo các đỉnh biểu
đồ tần suất
6 Chọn ra mẫu có độ lệch nhỏ nhất trong số các độ lệch nhỏ nhất tìm được ở bước 4 ứng với các θ lựa chọn
7 Kiểm tra nếu các độ lệch nhỏ nhất tìm được trong bước 6 nhỏ hơn ngưỡng Tolerance thì kết luận văn bản cần phân tích có dạng là mẫu
có độ lệch nhỏ nhất tương ứng Trong trường hợp ngược lại có thể kết luận văn bản không nằm trong các mẫu văn bản cho trước và có thể bổ sung văn bản này với các cấu trúc tìm được vào tập mẫu cấu trúc văn bản
1.3.2.2 Internal Segmentation
Internal Segmentation là việc phân rã ảnh của một chuỗi các ký tự thành các ảnh con của các ký tự riêng lẻ Việc tách chữ viết tay thảo và chữ dính là cực
kỳ khó khăn Có ba chiến lược tách ký tự:
Explicit Segmentation: việc tách dựa trên các đặc trưng “giống ký tự”
Quá trình này còn gọi là “dissection” Các phương pháp dissection sử dụng hiện nay là: analyses of contour, white space and pitch, vertical projection analysis, connected component analysis, pitch and character size estimation, và landmarks Điểm cắt tối ưu còn được tìm bằng các luật heuristic và còn dựa trên ngữ cảnh ngôn ngữ Mặc dầu các phương pháp đều thu được các kết quả đáng
kể, không phương pháp nào cho một kết quả hoàn hảo đối với một ảnh văn bản
có nhiều nhiễu và nhiều loại font Có thể một giải thuật tách tối ưu phải có sự kết hợp của các giải thuật trên tuỳ theo mỗi đầu vào
Trang 24Implicit Segmentation: chiến lược tách là dựa trên nhận dạng Nó tìm
kiếm các thành phần ảnh khớp với lớp xác định trước
Mixed strategies: là loại lai giữa Explicit và Implicit Segmentation Áp
dụng giải thuật dissection, nhưng lại “over segment”, nghĩa là cắt ảnh thành các thành phần đủ nhỏ để đường biên cắt đúng chắc chắn nằm trong các lát cắt Mảnh tối ưu sẽ được tìm trong tập con các lát cắt Việc phân lớp dựa trên việc đánh giá các tập con này và chọn mảnh có triển vọng nhất
Để tách các ký tự viết tay dính nhau, trong [34], trước tiên cần xác định các vị trí cắt có thể có trên ảnh gốc của từ Sau đó duyệt lần lượt từng vị trí cắt, ảnh sẽ được chia làm hai phần: phần ảnh được cắt ra và phần ảnh còn lại Sau đó nhận dạng phần ảnh được cắt ra, kiểm tra ký tự nhận dạng được có hợp lý không Nếu có thì ghi nhận vị trí cắt hiện hành và lặp lại với phần ảnh còn lại Nếu nhát cắt không hợp lý thì loại bỏ nhát cắt này và chọn nhát cắt tiếp theo Nếu ảnh một ký tự trong từ có nhiều nhát cắt hợp lý thì sẽ nhận được nhiều ký
tự kết quả Kết quả là nhận được một cây các từ ứng cử viên Các từ này sẽ được đưa vào bộ phân tích ngữ cảnh để tìm ra từ đúng chính tả và có xác suất xuất hiện lớn nhất
Người ta còn sử dụng mạng nơ ron MLP để tách các ký tự dính thông qua một quá trình huấn luyện các cặp ký tự dính nhau [35] Ngoài ra mạng nơ ron SOM là loại mạng tự tổ chức cũng được dùng để tách các ký tự dính Một phương pháp phổ biến khác để tách ký tự dính là “The Shortest Path” [36]
1.3.3 Trích chọn đặc trưng
Trích chọn đặc trưng là một trong những khâu quan trọng nhất của hệ thống nhận dạng Trong trường hợp đơn giản nhất, toàn bộ ảnh đa mức xám hay ảnh nhị phân của từ hay ký tự được đưa vào bộ nhận dạng Nhiệm vụ của trích chọn đặc trưng là tìm một tập các đặc trưng nhỏ gọn để phân biệt một lớp với
Trang 25các lớp khác trong khi vẫn loại trừ được các khác biệt trong cùng một lớp Một tập các đặc trưng phản ánh các tính chất cơ bản của ký tự sẽ giúp bộ nhận dạng nhận được một số lớn các kiểu font chữ khác nhau và làm cho quá trình học của mạng dễ dàng hơn Có ba nhóm phương pháp trích chọn đặc trưng chính:
o Biến đổi tổng thể và mở rộng chuỗi (Global Transformation and Series Expansion)
o Các phương pháp thống kê (Statistical Representation)
o Các phương pháp hình học và cấu trúc (Geometrical and Topological Representation)
1.3.3.1 Biến đổi tổng thể và mở rộng chuỗi
Một tín hiệu liên tục thường chứa nhiều thông tin hơn cần thiết cho việc nhận dạng Một cách để biểu diễn tín hiệu là kết hợp tuyến tính các chuỗi của các hàm đơn giản hơn Các hệ số của các phép kết hợp tuyến tính cho ta một cách biểu diễn cô đọng gọi là biến đổi (transformation) hoặc/và mở rộng chuỗi (series expansion) Biến đổi tổng thể và mở rộng chuỗi không bị ảnh hưởng bởi các biến dạng như tịnh tiến (translation) và quay (rotations) Các phép biến đổi tổng thể và mở rộng chuỗi phổ biến trong lĩnh vực nhận dạng văn bản là:
Fourier Transforms: Khả năng lý thú nhất của biến đổi này là nhận dạng
các ký tự bị dịch chuyển (position-shifted), vì nó nhận được phổ cường độ (magnitude spectrum) và bỏ qua pha
Gabor Transform: là một dạng khác của windowed Fourier Transform
Nó dùng một cửa sổ có kích thước không phải là một số rời rạc mà được xác định bởi một hàm Gaussian
Wavelets: biến đổi sóng là một kỹ thuật mở rộng chuỗi mà cho phép biểu
diễn tín hiệu ở các mức phân giải khác nhau Các đoạn ảnh văn bản, mà có thể
Trang 26ứng với các ký tự hay các từ, được biểu diễn bởi các các hệ số wavelet, tương ứng với các mức phân giải khác nhau Các hệ số này sau đó được đưa vào một
bộ nhận dạng
Moments: các moment như central moments, Legendre moments,
Zernike moments là các biểu diễn cô đọng ảnh văn bản mà quá trình nhận dạng không bị ảnh hưởng bởi những thay đổi về kích thước, tịnh tiến, quay Moment được xem là cách biểu diễn mở rộng chuỗi vì ảnh gốc có thể được tái tạo lại hoàn toàn từ các hệ số moment
Karhunen-Loeve Expansion: là phép phân tích eigen-vec tơ, làm giảm
kích thước của tập đặc trưng bằng cách tạo ra các đặc trưng mới là các kết hợp tuyến tính của các đặc trưng ban đầu Mở rộng Karhunen-Loeve được sử dụng trong bài toán nhận dạng mặt người Nó cũng được sử dụng ở hệ thống nhận dạng ký tự viết tay dựa trên mẫu (form-based) của National Institute of
Standards and Technology (NIST)
1.3.3.2 Các phương pháp thống kê
Mặc dầu nhóm phương pháp này không cho phép xây dựng lại ảnh gốc,
nó được dùng để làm giảm kích thước tập các đặc trưng, tăng tốc độ và giảm độ phức tạp Có các phương pháp sau:
Phân vùng (Zoning): khung chứa ký tự được chia thành các vùng gối
hoặc không gối lên nhau Mật độ của các điểm hoặc các đặc trưng trong mỗi vùng được phân tích và dùng để biểu diễn ký tự Ví dụ đặc trưng hướng của các đường biên của ký tự, đặc trưng điểm uốn: là các điểm thể hiện độ cong cao, điểm kết thúc, điểm giao
Trang 27Hình 1.8 Các đặc trưng hướng đường biên và điểm uốn trong vùng
Các giao điểm và khoảng cách (Crossings and Distances): một đặc
trưng thống kê phổ biến là số giao điểm của một đường biên với một đường thẳng có hướng xác định Khung ký tự được chia thành một tập các vùng theo các hướng khác nhau và dòng các điểm đen ở mỗi vùng được mã hoá Một cách khác là mã hoá vị trí và số lượng chuyển đổi từ điểm ảnh nền sang điểm ảnh chữ dọc theo các đường thẳng đứng trên ký tự
Phép chiếu (Projection): Ký tự có thể được biểu diễn bằng cách chiếu
các giá trị điểm ảnh xám lên các đường thẳng theo các hướng khác nhau Cách biểu diễn này tạo ra tín hiệu một chiều từ ảnh hai chiều
1.3.3.3 Các phương pháp hình học và cấu trúc
Có thể tìm được nhiều đặc trưng tổng thể và cục bộ có dung sai với nhiễu
và biến động về kiểu chữ bằng các phương pháp hình học và cấu trúc Các phương pháp này cũng thể hiện cấu trúc của đối tượng và cho biết các thành phần nào tạo nên đối tượng Có bốn nhóm phương pháp chính:
Trích chọn và đếm các Topological Structures: tìm kiếm trong từ hoặc
ký tự một cấu trúc xác định trước Số lượng hoặc vị trí tương đối của các cấu trúc này trong ký tự chính là các đặc trưng Các cấu trúc nguyên thuỷ phổ biến
là các nét tạo nên ký tự Chúng có thể là đoạn thẳng và cung hoặc phức tạp hơn
Trang 28như đường cong và spline Có thể biểu diễn các ký tự và từ bằng cách trích chọn
và đếm nhiều đặc trưng topo như điểm cực đại, cực tiểu, đỉnh trên và dưới một ngưỡng, lỗ hổng bên phải, trái, trên, dưới, điểm giao (x), điểm nhánh (T), điểm mút (J), điểm vòng, hướng của nét, phản chiếu giữa hai điểm, điểm cô đơn, đường cong giữa hai điểm, tính đối xứng, đường cong ngang ở trên và dưới, ascending, descending, nét ngang và mối quan hệ giữa các nét
Đo và xấp xỉ các đặc trưng hình học: các ký tự được biểu diễn bằng
cách đo các đặc trưng định lượng hình học như tỷ lệ giữa chiều rộng và chiều cao của hộp chứa ký tự, khoảng cách giữa hai điểm, tỷ lệ chiều dài giữa hai nét, chiều rộng của một nét, phần cao và phần thấp của một từ, độ dài từ
Mã hoá (coding): một trong những lược đồ mã hoá phổ biến nhất là mã
hoá dây chuyền Freeman Mã này được tính bằng cách ánh xạ các nét của ký tự vào một không gian hai chiều Không gian này được sinh ra từ các mã như hình 1.9
Hình 1.9 Biểu diễn ký tự bằng mã dây chuyền Freeman
Đồ thị và cây (Graphs and Trees): các từ hay các ký tự trước tiên được
tách thành một tập các topological primitives, như các nét, điểm uốn, điểm cắt… Sau đó các primitives này được biểu diễn bằng các đồ thị có thuộc tính hay có quan hệ Có hai loại đồ thị: Loại thứ nhất sử dụng tọa độ của primitives Loại
Trang 29thứ hai có các nút ứng với các nét và các cạnh thể hiện mối quan hệ giữa các nét Cây cũng dùng để biểu diễn ký tự hay từ theo mối quan hệ phân cấp
Trong [34], tác giả đã sử dụng mạng nơ ron để tự động trích chọn đặc trưng Đầu vào là một ảnh kích thước 24x24 sau khi đã tiền xử lý, làm mảnh Các nơ ron nằm trên một mặt phẳng 6x24 (gọi là mặt phẳng P1) Mỗi nơ ron liên kết với một vùng đặc trưng trên mặt phẳng đầu vào
Hình 1.10 Trích chọn đặc trưng dùng mạng nơ ron
Trang 301.3.4 Học và nhận dạng
Nhận dạng là gán một tập mẫu chưa biết vào một lớp xác định trước Các
kỹ thuật nhận dạng có thể được chia thành bốn cách tiếp cận chính:
So khớp mẫu (Template Matching)
Các kỹ thuật thống kê (Statistical Techniques)
Các kỹ thuật cấu trúc (Structural Techniques)
Mạng nơ ron
1 So khớp mẫu
Đây là một cách tiếp cận phân lớp tự nhiên và là một trong những cách hay được dùng [29] Từng điểm ảnh được dùng trực tiếp làm các đặc trưng Số điểm ảnh giống nhau được đếm (điểm ảnh đen được so với điểm ảnh đen trong mẫu, điểm ảnh trắng được so với điểm ảnh trắng trong mẫu) Mẫu có số điểm ảnh giống nhau lớn nhất sẽ được chọn Cách tiếp cận này còn gọi là tiếp cận tương quan lớn nhất Hoặc có thể đếm số điểm ảnh không khớp nhau (điểm ảnh đen trong khi ở mẫu là điểm ảnh trắng và ngược lại) Mẫu có ít khác biệt nhất sẽ được chọn Đây gọi là cách tiếp cận sai số tối thiểu Có thể sử dụng trọng số đối với các số đo để có một độ tương tự thích hợp Nói chung so khớp mẫu rất nhạy cảm với nhiễu
2 Các kỹ thuật thống kê
Theo cách tiếp cận này, ảnh ký tự được biểu diễn bằng các điểm trong một không gian đặc trưng nhiều chiều Mỗi thành phần trong không gian này là một gía trị đặc trưng, là một biến ngẫu nhiên phản ánh biến động trong và giữa các lớp Một bộ phân lớp phân chia không gian đặc trưng thành các vùng (mỗi vùng tương ứng với một lớp), gán nhãn đầu vào cho vùng mà nó rơi vào
3 Các kỹ thuật cấu trúc
Trang 31Cách tiếp cận cấu trúc biểu diễn mẫu ký tự dưới dạng các thành phần nguyên thuỷ và mối quan hệ giữa chúng Điều này đòi hỏi phải có một tập các đặc trưng nguyên thuỷ có thể mô tả tất cả các mẫu và phân biệt được chúng
Con người khi được yêu câu mô tả một ký tự thường sử dụng các đặc trưng cấu trúc Ví dụ chữ “A” có hai nét thẳng, gặp nhau ở một điểm nhọn (endpoint) trên đầu và một nét thứ ba cắt cả hai nét ở khoảng giữa (cross points), tạo ra một lỗ (hole) ở phần trên Cách tiếp cận cấu trúc có ưu điểm là thể hiện ký
độ từ để sửa lỗi nhận dạng ký tự, cụ thể là sử dụng thông tin về các ký tự khác
đã nhận dạng được trong từ cũng như kiến thức về ngữ cảnh (context) văn bản
để sửa lỗi Có hai mức độ hậu xử lý: kiểm tra chính tả của từ (spelling) và kiểm tra ngữ pháp của câu
Trang 32Để kiểm tra chính tả của từ thì cách đơn giản nhất là dùng một từ điển trong và sau quá trình nhận dạng ký tự để hiệu chỉnh các lỗi
Ở mức độ câu, câu nhận được từ giai đoạn nhận dạng cũng được biểu diễn bằng một đồ thị như ở mức độ từ Các con đường sửa lỗi ngữ pháp của đồ thị này được xây dựng dựa trên kiến thức về cú pháp Tuy nhiên việc nghiên cứu ở mức độ câu còn nhiều hạn chế vì cần có kiến thức về ngôn ngữ và các nghiên cứu về trí tuệ nhân tạo
Trang 33CHƯƠNG II MỘT SỐ MÔ HÌNH MẠNG NƠ RON PHỔ BIẾN TRONG HỆ THỐNG
PHÂN TÍCH VÀ NHẬN DẠNG VĂN BẢN
Chương một đã trình bày cơ sở của mạng nơ ron và tổng quan về một hệ nhận dạng ký tự Chương hai sẽ nghiên cứu về một số loại mạng được dùng nhiều nhất trong hệ thống phân tích và nhận dạng văn bản Có nhiều loại mạng
nơ ron, mỗi loại có các ưu nhược điểm riêng và chỉ phù hợp với mỗi dạng bài toán nhất định
2.1 Mạng Hamming
a Kiến trúc
Hình 2.1 Mạng Hamming và mạng Maxnet Mạng Hamming là một bộ phân lớp dựa trên khả năng giống nhau lớn nhất hay khoảng cách Hamming nhỏ nhất Khoảng cách Hamming giữa hai véc
tơ là số cặp phần tử mà hai véc tơ này khác nhau Mạng được thiết kế để giải bài toán nhận dạng mẫu nhị phân (mỗi thành phần của vec tơ vào chỉ có 2 giá trị: -1 hoặc +1)
Trang 34Mạng Hamming gồm hai lớp: lớp truyền thẳng và lớp hồi qui Số nơ ron của lớp thứ nhất bằng số nơ ron của lớp thứ hai
b Hoạt động
Mục tiêu của mạng Hamming là đưa ra mẫu đã lưu trữ trong mạng mà có khoảng cách Hamming nhỏ nhất đối với véc tơ đầu vào Quyết định mẫu đưa ra dựa vào đầu ra của lớp hồi qui Có một nơ ron ở lớp hồi qui ứng với mỗi vec tơ mẫu Khi lớp hồi qui hội tụ, chỉ có một nơ ron duy nhất có đầu ra khác không
Nơ ron này xác định mẫu gần nhất với vec tơ vào
Lớp truyền thẳng
Lớp truyền thẳng tính hệ số tương quan, hay tích đề các giữa các mẫu chuẩn với vec tơ vào Để làm việc này thì các hàng của ma trận W1
được đặt giá trị bằng các mẫu chuẩn Nghĩa là:
T 2
T 1 1p
p
pW
T 2
T 1 1 1 1
bpp
p
pbpW
Trang 35Đầu ra của lớp truyền thẳng bằng tích đề các của các vec tơ mẫu với vec
tơ vào, cộng R Với hai vec tơ có cùng kích thước, tích đề các sẽ lớn nhất khi hai vec tơ chỉ cùng hướng, và nhỏ nhất khi chúng ngược hướng nhau Bằng cách cộng thêm R, các đầu ra của lớp truyền thẳng không bao giờ âm Đây là yêu cầu của lớp hồi qui
Mạng này được gọi là mạng Hamming vì nơ ron ở lớp truyền thẳng có đầu ra lớn nhất sẽ tương ứng với mẫu có khoảng cách với vec tơ vào nhỏ nhất
Lớp hồi qui
Lớp hồi qui của mạng Hamming còn được gọi là lớp cạnh tranh Các nơ ron trong lớp này được khởi gán các đầu ra của lớp truyền thẳng Các nơ ron sau
đó sẽ cạnh tranh với nhau để xác định nút chiến thắng Sau khi cạnh tranh, chỉ
có một nơ ron có đầu ra khác không Nơ ron chiến thắng sẽ xác định lớp của vec
tơ vào Phương trình mô tả cạnh tranh là:
a2(t+1) = poslin(W2a2(t)) (2.1.5)
( poslin(a) = a với a > 0 poslin(a) = 0 với a <= 0 )
ε- 1
W2
(2.1.6) Trong đó ε < 1/(S-1) S là số nơ ron trong lớp hồi qui
(t)εa(t)aposlin(t)
a1 ε-
ε- 1poslin1)
(t
22 21
2 2
(2.1.7)
Mỗi phần tử bị trừ đi cùng một tỷ lệ của các phần tử khác Phần tử lớn hơn sẽ bị trừ đi ít hơn Phần tử nhỏ hơn bị trừ đi nhiều hơn Chênh lệch giữa phần tử lớn và phần tử nhỏ ngày càng tăng Vì vậy lớp hồi qui sẽ đặt bằng không
Trang 36tất cả đầu ra của các nơ ron, trừ một nơ ron có đầu vào ban đầu lớn nhất (tương ứng với mẫu có khoảng cách Hamming với đầu vào nhỏ nhất)
c) Ứng dụng
Dựa vào mạng này ta có thể xây dựng một bộ nhận dạng ký tự bằng cách: xây dựng mạng với tầng 1 có số nơ ron bằng số ký tự cần nhận dạng Ma trận trọng số của tầng 1 được khởi gán: mỗi dòng ứng với một vec tơ thể hiện ký tự mẫu Khi có vec tơ vào cần nhận dạng, nơ ron chiến thắng sẽ xác định lớp của vec tơ vào [5]
Ví dụ: có 3 vectơ mẫu biểu diễn 3 ký tự C, H, L Mỗi ký tự nằm trong một
11- 1 1 1 1-1-1
1 1 1 1- 1 1 1 1
2
1
b1= b2 =b3 = n/2 =9/2 Bước 2: Đưa vec tơ x1 = (1 1 1 1 1 -1 1 1 1) vào mạng
Bước 3: Tính netj với j = 1, 2, 3
Trang 372.2 Mạng Kết hợp tuyến tính
a Kiến trúc
Hình 2.2 Mạng Kết hợp tuyến tính (Linear Associator)
Trang 38Mạng có S nơ ron, mỗi nơ ron nhận R tín hiệu vào
j ij
Nói cách khác, nếu mạng nhận đầu vào p = pq thì đầu ra của nó phải là a
= tq, với q = 1, 2, …, Q Hơn nữa, nếu đầu vào thay đổi ít (p = pq + δ) thì đầu ra
cũng chỉ thay đổi ít (a = tq + ε)
b1) Luật học Hebb:
Phát biểu của Hebb:
“Khi nơ ron A đủ gần để kích hoạt nơ ron B và liên tục hoặc lặp lại nhiều
lần việc kích hoạt đó thì một quá trình tăng trưởng hoặc chuyển hoá diễn ra ở một hoặc hai nơ ron dẫn đến hiệu năng của A sẽ tăng lên.”
Diễn giải phát biểu của Hebb vào mạng nơ ron:
Trọng số wij chính là khớp nối giữa đầu vào pj và đầu ra ai của một nơ ron Phát biểu của Hebb ám chỉ rằng một pj dương tạo ra một ai dương sẽ làm cho trọng số wij tăng lên Nghĩa là:
wij new
= wij old+ α fi (aiq) gj (pjq) (2.2.3) trong đó α là tốc độ học
Nếu làm đơn giản hoá đi thì:
wij new
= wij
Trang 39Luật học Hebb trên gọi là luật học không giám sát vì nó không cần thông tin về đầu ra mong muốn Đối với luật học có giám sát thì phương trình là:
wij new
= wij old
pk) = 1 với q = k = 0 với q ≠ k
Vì vậy:
a = Wpk = tk
Đầu ra của mạng bằng đầu ra mong muốn Nghĩa là nếu tập các vec tơ mẫu trực chuẩn với nhau thì luật Hebb sẽ cho đầu ra mong muốn với mỗi đầu vào
Nếu tập các vec tơ mẫu p q không trực giao với nhau: giả sử mỗi vec tơ
pq đã có độ dài đơn vị thì:
Trang 40Tuy nhiên trong thực tế thì việc tính ma trận nghịch đảo rất mất nhiều thời
gian nếu ma trận lớn và có thể không tính được
c Ứng dụng:
c1) Bộ nhớ tự kết hợp (Autoassociative Memory)
Trong bộ nhớ tự kết hợp, vec tơ đầu ra mong muốn chính là vec tơ đầu
vào (tq = pq) Chúng ta sử dụng bộ nhớ tự kết hợp để lưu trữ một tập các mẫu và nhớ lại chính các mẫu này, ngay cả khi đầu vào bị khiếm khuyết
W = p1p1T + p2p2T + … + pQpQT (2.2.10)
c2) Ứng dụng bộ nhớ tự kết hợp để nhớ các ký tự
Hình 2.3 Nhớ ký tự bằng bộ kết hợp tuyến tính Trong [2], mỗi ký tự nằm trong một lưới 6x5, mỗi ô trắng được biểu diễn bằng -1, ô đen được biểu diễn bằng 1
p1= [-1 1 1 1 1 -1 1 -1 -1 -1 -1 1 1 -1 … 1 -1]T ứng với số “0”,