I. HỌC TĂNG CƯỜNG Học tăng cường là phương pháp học thông qua tương tác với môi trường. Mô hình của học tăng cường gồm có 3 thành phần chính: tác tử (agent), môi trường (environment) và giá trị phản hồi (reward). Quá trình học là một quá trình lặp đi lặp lại (iteration) các hành động (action). Sau khi thực hiện mỗi hành động thì agent nhảy từ vị trí (hay trạng thái - state) này sang vị trí (trạng thái) khác, và đồng thời nhận được giá trị phản hồi (reward) từ hành động cũ. Dựa vào các giá trị phản hồi nhận được agent có thể điều chỉnh luật chọn hành động (policy) của mình trong các bước tiếp theo. Việc điều chỉnh và tối ưu hóa luật chọn hành động dựa vào các giá trị phản hồi chính là quá trình học tăng cường. Rõ ràng là quy luật chọn lựa hành động của agent thu được sau quá trình học càng gần tối ưu nếu quá trình học càng kéo dài và số lượng các tình huống mà agent gặp phải là càng nhiều. Hình 1. Mô hình tương tác agent - môi trường Với mô hình học tăng cường như vậy thì vấn đề cần giải quyết là các thông tin phản hồi (reward) được xử lý như thế nào. Sau mỗi hành động thì agent nhận được một giá trị phản hồi và sau một quá trình học lâu dài thì số lượng các thông tin phản hồi này là rất lớn mà tại mỗi thời điểm không thể quan tâm đến tất cả mọi giá trị này được. Để giải quyết vấn đề này thì mô hình học tăng cường được đưa về mô hình Markov (MDP - Markov Decision Process), là sự mở rộng của chuỗi Markov. Chuỗi Markov là một quá trình ngẫu nhiên mà giá trị hàm xác suất (probability distribution function) của mỗi bước tiếp theo chỉ phụ thuộc vào các thông số của bước trước đó, điều này cho phép ta chỉ quan tâm tới giá trị phản hồi ngay trước đó tại mỗi vị trí. Lý thuyết học tăng cường hiện nay dựa vào mô hình Markov, do đó các bài toán không thể đưa về được mô hình Markov thì không thể giải quyết được bằng phương pháp học tăng cường. Mô hình Markov (MDP) được định nghĩa là tập hợp (tuple) : S: tập các vị trí (hay trạng thái - state). A: tập các hành động (action). T: SxA → P(S): là hàm xác su
Trang 1HỌC VIỆN KỸ THUẬT QUÂN SỰ
KHOA CÔNG NGHỆ THÔNG TIN
BÀI TẬP TRÍ TUỆ NHÂN TẠO
Học tăng cường và ứng dụng trong nhận dạng ký tự viết tay
Người hướng dẫn: TS Ngô Hữu Phúc
Hà Nội 2024
Trang 2I HỌC TĂNG CƯỜNG
Học tăng cường là phương pháp học thông qua tương tác với môi trường Mô hình của học tăng cường gồm có 3 thành phần chính: tác tử (agent), môi trường (environment)
và giá trị phản hồi (reward) Quá trình học là một quá trình lặp đi lặp lại (iteration) các hành động (action) Sau khi thực hiện mỗi hành động thì agent nhảy từ vị trí (hay trạng thái - state) này sang vị trí (trạng thái) khác, và đồng thời nhận được giá trị phản hồi (reward) từ hành động cũ Dựa vào các giá trị phản hồi nhận được agent có thể điều chỉnh luật chọn hành động (policy) của mình trong các bước tiếp theo Việc điều chỉnh và tối
ưu hóa luật chọn hành động dựa vào các giá trị phản hồi chính là quá trình học tăng cường Rõ ràng là quy luật chọn lựa hành động của agent thu được sau quá trình học càng gần tối ưu nếu quá trình học càng kéo dài và số lượng các tình huống mà agent gặp phải
là càng nhiều.
Hình 1 Mô hình tương tác agent - môi trường
Với mô hình học tăng cường như vậy thì vấn đề cần giải quyết là các thông tin phản hồi (reward) được xử lý như thế nào Sau mỗi hành động thì agent nhận được một giá trị phản hồi và sau một quá trình học lâu dài thì số lượng các thông tin phản hồi này là rất lớn mà tại mỗi thời điểm không thể quan tâm đến tất cả mọi giá trị này được Để giải quyết vấn đề này thì mô hình học tăng cường được đưa về
mô hình Markov (MDP - Markov Decision Process), là sự mở rộng của chuỗi Markov Chuỗi Markov là một quá trình ngẫu nhiên mà giá trị hàm xác suất (probability distribution function) của mỗi bước tiếp theo chỉ phụ thuộc vào các thông số của bước trước đó, điều này cho phép ta chỉ quan tâm tới giá trị phản hồi ngay trước đó tại mỗi vị trí Lý thuyết học tăng cường hiện nay dựa vào mô hình Markov, do đó các bài toán không thể đưa về được mô hình Markov thì không thể giải quyết được bằng phương pháp học tăng cường Mô hình Markov (MDP) được định nghĩa là tập hợp (tuple) <S, A, T, ρ>:>:
S: tập các vị trí (hay trạng thái - state)
A: tập các hành động (action)
T: SxA → P(S): là hàm xác suất (probability distribution function) cho từng
Trang 3cặp vị trí - hành động Hàm này gán giá trị xác suất cho từng cặp vị trí - hành động.
ρ>:: SxA → R: là payoff function, gán giá trị phản hồi cho từng hành động tại
vị trí xác định
Mô hình Markov có thể là xác định (với từng cặp vị trí - hành động xác định thì cho ra vị trí kế tiếp giống nhau ở mọi thời điểm) hoặc không xác định
Với mô hình Markov xác suất chuyển đến vị trí s’ từ vị trí s và hành động a là:
' Pr{ 1 ' | , }
a
P s s s s a a
Và giá trị phản hồi là:
' { 1 | , , 1 '}
a
R E r s s a a s s
Ta gọi giá trị “return” là tổng của các giá trị phản hồi tính từ thời điểm hiện tại cho đến khi agent đạt đến đích, hoặc đến cuối giai đoạn (nếu quá trình học được chia thành nhiều giai đoạn - episode)
Rt = rt+1 + rt+2+…+rT
Trong đó T là bước cuối cùng trước khi đến đích
Thực nghiệm cho thấy nếu ta giảm dần mức độ quan trọng của các bước ở các thời điểm xa với thời điểm hiện tại thì quá trình học sẽ hội tụ nhanh hơn Điều
đó có nghĩa là ta cần thêm vào hệ số khấu hao γ Giá trị phản hồi ở thời điểm cách hiện tại bao nhiêu bước thời gian thì sẽ được nhân với giá trị khấu hao γ bấy nhiêu lần Như vậy giá trị “return” sẽ được tính như sau:
2
0
k
Mọi thuật toán của học tăng cường đều dựa trên hàm giá trị Hàm giá trị cung cấp giá trị dự đoán mức độ “tốt” của agent ở vị trí hiện tại trong quá trình tìm đến đích Hàm này chính là giá trị “return” ước tính tại từng vị trí (hay cặp vị trí -hành động) ứng với một luật chọn -hành động (policy) xác định nào đó Ta có thể xác định hàm giá trị theo vị trí hay theo cặp giá trị vị trí - hành động
Hàm giá trị theo vị trí (state - value function) V ứng với luật chọn hành động
π tại vị trí s được xác định như sau:
1 0
k
V s E R s s E r s s
Hàm giá trị theo cặp vị trí - hành động (action - state value function) Q được xác định như sau:
1 0
k
Q s a E R s s a a E r s s a a
Quá trình học tăng cường là quá trình tìm kiếm policy tối ưu, có nghĩa là quá trình điều chỉnh giá trị của hàm giá trị về giá trị tối ưu Quá trình điều chỉnh được thực hiện bởi việc lặp đi lặp lại một số lượng lớn bước thực hiện các hành động,
Trang 4gọi là iteration Một luật chọn hành động là tối ưu nếu và chỉ nếu giá trị của hàm giá trị ứng với luật chọn hành động đó luôn lớn hơn hoặc bằng hàm giá trị của các luật chọn hành động khác Gọi V* và Q* là các hàm giá trị tối ưu ta có thể xác định các hàm này bằng cách sau:
V s V s
Q s a Q s a
Có nghĩa là giá trị các hàm V* và Q* chính là giá trị của các hàm V và Q ứng với luật chọn hành động tối ưu (cho ra giá trị V(s) hay Q(s, a) lớn nhất tại mỗi
vị trí s) [2]
Các loại thuật toán học tăng cường thông thường gồm có lập trình động (dynamic programming), Monte-Carlo và phương pháp TD (temporal-difference) Tuy nhiên các phương pháp lập trình động và Monte-Carlo không hiệu quả do đòi hỏi bộ nhớ quá lớn, hoặc mô hình phải xác định hay khó hội tụ nên ít khi cho ra kết quả tối ưu Phương pháp TD là sự kết hợp của những phương pháp kể trên và cho phép giải quyết được nhiều bài toán thực tế bởi vì phương pháp này không đòi hỏi môi trường xác định và có khả năng hội tụ cao Một biến thể của phương pháp TD được gọi là Q-learning, là phương pháp học kiểu TD theo hướng off-policy, rất hiệu quả trong việc giải quyết các bài toán tìm đường
II MỘT SỐ NÉT CƠ BẢN VỀ NHẬN DẠNG ẢNH
Nhận dạng ảnh là giai đoạn cuối cùng của các hệ thống xử lý ảnh Trong lý thuyết nhận dạng nói chung và nhận dạng ảnh nói riêng có 3 cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian
- Nhận dạng cấu trúc
- Nhận dạng dựa vào kỹ thuật mạng nơ ron
1 Nhận dạng ảnh
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Nhận dạng ảnh là một quá trình phân hoạch ảnh thành các đối tượng ảnh con, chúng được gán vào từng lớp nhãn để được đối sánh với mẫu và đối sánh theo các quy luật biết trước nào đó Có hai khái niệm được nói tới:
+ Không gian biểu diễn đối tượng
Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc trưng, sẽ được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, vv Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng nào là phụ thuộc vào ứng dụng tiếp theo
Trang 5Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng Giả sử đối tượng ảnh X được biểu diễn bởi n thành phần (n đặc trưng): X = {x1, x2, , xn}, mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:
X = {X1, X2, , Xm}
trong đó mỗi Xi biểu diễn một đối tượng
Không gian này có thể là vô hạn
Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn
+ Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng Một cách hình thức gọi (là tập tên đối tượng:
= {w1, w2, ,wk} với wi, i = 1, 2, , k là tên các đối tượng
Quá trình nhận dạng đối tượng f là một ánh xạ f: X -> với f là tập các
quy luật để định một phần tử trong X ứng với một phần tử trong Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thày (có giám sát) Trường hợp thứ hai là nhận dạng không có thày (không có giám sát), trong trường hợp này việc nhận dạng có khó khăn hơn
2 Mô hình trong quá trình nhận dạng ảnh
+ Mô hình tham số: Sử dụng một véctơ để đặc tả đối tượng, mỗi phần tử
của véctơ mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, , N (đường bao gồm N điểm)
Giả sử tiếp:
x0 = 1
1
N i
N
xi
y0 = 1
1
N i
N
yi
là toạ độ tâm điểm Như vậy, moment trung tâm bậc p, q của đường bao là:
pq = 1
1
N i
N
(xi-x0)p(yi-y0)q
Véctơ tham số trong trường hợp này chính là các moment ij với i=1, 2, ,p
và j=1, 2, ,q Còn trong số các đặc trưng hình học, người ta hay sử dụng chu tuyến, đường bao, diện tích và tỉ lệ T = 4S/p2, với S là diện tích, p là chu tuyến
+ Mô hình cấu trúc: Sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách
Trang 6xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thuỷ (tập Vt) Trong cách tiếp cận này, ta chấp nhận một khẳng định là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S)
với: Vt là bộ ký hiệu kết thúc,
Vn là bộ ký hiệu không kết thúc,
P là luật sản xuất,
S là dạng (ký hiệu bắt đầu)
3 Bản chất của quá trình nhận dạng
Quá trình nhận dạng gồm 3 giai đoạn chính:
- Lựa chọn mô hình biểu diễn đối tượng
- Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học
- Học nhận dạng
Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp Quá trình này có hai dạng, đó là học có thầy và học không có thầy Học có thầy là phương pháp nhận dạng dựa trên các kiến thức biết trước để thực hiện thành công các thao tác phân biệt và phân hoạch ảnh Đặc điểm mấu chốt của kỹ thuật này là sử dụng một thư viện chứa đựng các mẫu chuẩn có sẵn Đối tượng ảnh cần nhận dạng được đối sánh với mẫu chuẩn
để xem nó thuộc loại nào Khi đó công việc chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng ảnh với mẫu chuẩn và ra quyết định gán chúng vào một lớp nhãn tương ứng.Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên
Học không có thầy là kỹ thuật nhận dạng phải tự định ra các lớp khác nhau
và phải xác định các tham số đặc trưng cho từng lớp Theo phương pháp học này thì số lớp và các đặc trưng của từng lớp không được biết trước nên công việc đối sánh ảnh phải tiến hành bằng mọi cách nhằm gộp nhóm có thể và chọn lựa cách phân tích và phân đoạn tốt nhất và nâng cấp dần để đạt được một phương án xử lý nhận dạng hiệu quả
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:
Trang 7Hình 2 Sơ đồ tổng quát một hệ nhận dạng
4 Các phương pháp thống kê trong nhận dạng ảnh
a Phương pháp thống kê dựa vào lý thuyết Bayes
Phương pháp Bayes được ứng dụng để thực hiện bài toán phân hoạch có hiệu quả Nếu các đối tượng nhận dạng tuân theo luật phân bố Gauss, với hàm mật
độ xác suất cho bởi P(X) là hàm mũ của cơ số tự nhiên:
(Ở đây: π=3.14; tập ảnh X, moment trung tâm m và bán kính gauss σ).)
Khi đó, phương pháp Bayes dựa vào xác suất có điều kiện để xây dựng hàm phân hoạch cho đối tượng: Gọi P(X/Ci) là xác suất để có X xuất hiện tại lớp Ci; P(Ci/ X) là xác suất có điều kiện để X thuộc lớp Ci (với X là đối tượng nhận dạng và Ci là các lớp đối tượng) Công thức tính xác suất có điều kiện của Bayes được viết:
Phương pháp Bayes được diễn giải:
Nếu ảnh nhận dạng cho trước các yếu tố:
- Không gian đối tượng: X={Xi, i=1 N} với Xi={x1, x2, ,xP }
- Không gian diễn dịch: Ω={C1, C2, Cr } với Ci là lớp phân bố tế bào ảnh thứ
i (i=1 r)
Quy tắc nhận dạng ảnh theo xác suất có điều kiện của Bayes được phát biểu: Nếu là sai số của phép ánh xạ F từ X tới Ω sao cho XCk khi và chỉ khi P(Ck/X)>P(Ci/X) i≠k và i=1 r Trong thực tế, luôn luôn tồn tại sai số khi phân tích và phân đoạn nhận dạng ảnh Do đó vấn đề tối ưu dữ liệu ảnh ở bước này là phải xây dựng quy tắc nhận dạng với sai số là nhỏ nhất
b Phương pháp thống kê xác suất sử dụng logic mờ
+ Tập mờ và hàm phụ thuộc: Cho tập hợp X và A là tập con của X khi đó ta
có thể xây dựng một hàm xác định các phần tử của tập A như sau:
Xét µ: X → {0,1 }; với x X
trong đó: µ(x)=1 nếu x A; µ(x)=0 nếu x A
Khối nhận dạng Khối tiền xử lý
Lựa chọn đặc tính
biểu diễn đối tượng
Ra quyết định phân hoạch lớp Đánh giá
Trả lời
Y X
Trang 8Bây giờ tập A có thể biểu diễn một cách khác qua các phần tử của tập X: A={ (x, µ(x)=1)| x X } Tập mờ A được định nghĩa là tập mà mỗi phần tử của tập gồm các phần tử x của tập không gian X và giá trị xác định sự phụ thuộc µ(x) Viết một cách hình thức: A={ (x, µA(x) | x X }
+ Biểu diễn tập mờ: Cho A là tập con của tập X và µA là hàm thuộc của tập
A, nếu A có hữu hạn phần tử khi đó tập mờ A có thể biểu diễn bằng cách liệt kê:
A={ (x1, µA(x1), (x2, µA(x2), (xn, µA(xn) }
Nếu A là tập vô hạn người ta có thể xác định A thông qua giá trị ngưỡng (0 ≤ ≤1) đối với hàm thuộc µA: A={ (x, µA(x) | x X và µA(x)≥ }
+ Kỹ thuật nhận dạng: theo hình chiếu, kỹ thuật này áp dụng cho nhiều kiểu font chữ Giả sử mẫu nhận dạng có kích thước n x n Gọi là vector bậc n của các phần tử 0 và 1 của hàng i (hay cột i) Gọi (1) là tổng số các phần tử 1 trong véctor i và (i) là số giao điểm của i với ảnh mẫu Khi đó một hàng hay một cột được gọi là dài nếu:
(i) = 1
(1) - với là độ rộng của ký tự và là giá trị ngưỡng định trước
ý nghĩa của hàng hay cột dài là chúng thể hiện chiều ngang hay chiều cao của ký tự Đặt *1 = 1 i+1 Nếu thoả mãn các điều kiện ở trên, tức là:
(*i) = 1
(*i)) -
Khi đó ta có thể viết (*i) = 1
Để trích ra các đặc trưng của mẫu, ảnh được duyệt kết hợp theo phương pháp theo chiều ngang (Gọi H1 là số điểm cắt ngang của dòng thứ i Như vậy
H1,H2, ,Hw sẽ là dãy các điểm cắt ngang) hay thẳng đứng (Tương tự, gọi Wi là số điểm cắt dọc của dòng thứ i Như vậy W1, W2, ,Wh sẽ là các điểm cắt dọc
Khi đó quy tắc nhận dạng ở đây là:
Hx’ Hx hoặc Hx Hx’; X được xem là X’ nếu Vx’ Vx hoặc Vx
Vx’)
Tuy nhiên ở đây ta có H1 = (*i), V1 = (*i) Tiếp đó, nếu trong chuỗi H
và V, nếu H1= H1+1 hoặc V1= V1+1 thì phần tử H1+1 hoặc V1+1 bị xoá khỏi chuỗi Cuối cùng ta thu được các chuỗi H’ và V’ đặc trưng cho ký tự
Sau đó dựa trên cơ sở của lý thuyết thống kê và cấu trúc, đặc trưng của mẫu Người ta xác định các đặc trưng của cấu trúc mẫu ảnh như: số nhát cắt ngang, các nét cong hay thẳng, mở hay đóng (ví dụ trong nhận dạng ký tự) phân hoạch lớp (theo cách học có thầy), sau đó ta tính khoảng cách độ lệch, xác suất (tỉ lệ) áp dụng công thức sẵn có của logic mờ và điều kiện xử lý ngưỡng, có kết luận về đối tượng cần nhận dạng
Trang 9y y
N
i
i ak ak
) ( 1 , ) )
, 1 (
III BÀI TOÁN NHẬN DẠNG THỐNG KÊ ĐỐI TƯỢNG TRÊN ẢNH
1 Phát biểu bài toán
Bài toán: Các phương pháp thống kê trong nhận dạng đối tượng trên ảnh
2 Hướng giải quyết (ý tưởng và cách giải)
Với đề bài đã cho, ở đây sử dụng phương pháp thống kê xác suất kết hợp logic mờ để nhận dạng ký tự (ký tự ở đây là chữ viết, chữ số là ảnh được soạn thảo trên máy tính, hoặc là ký tự ta quét trực tiếp trên máy tính)
Nội dung cụ thể như sau:
a) Xác định dữ liệu cho từng ký tự
Với mục tiêu ban đầu là nhận dạng ký tự của một số loại phông chữ có sẵn (kích thước có thể tùy ý), vì vậy việc xác định xác xuất điểm ảnh ở một vị trí nào
đó là rất quan trọng Với nhận xét trên thì với bất kỳ một ký tự có kích cỡ như thế nào cũng có thể được xử lý để đưa về một mẫu có kích thước cố định để từ đó ta có thể tính toán xác xuất của một điểm ảnh xuất hiện trong một tập các ảnh mẫu nào
đó Ở đây ta có thể phân ra làm 3 lớp đặc trưng cho một ký tự
- Lớp thứ nhất lấy xác xuất theo vị trí của điểm ảnh
- Lớp thứ 2 lấy xác xuất theo chiều dọc
- Lớp thứ 3 lấy xác xuất theo chiều ngang
Để làm được điều này thì dữ liệu ban đầu phải qua một bước tiền xử lý
Ở bước tiền xử lý thực hiện đóng khung (đóng bao) theo kích thước điểm ảnh thực tế thể hiện của ký tự, sau đó tính toán theo tỷ lệ để đưa về kích thước xác định từ trước
Đối với ảnh ký tự 2 chiều có thể quy giá trị các điểm ảnh của ký tự có kích thước mẫu mxn vào:
- Lớp 1 là một ma trận mxn,
- Lớp 2 là một ma trận 1xn
- Lớp 3 là một ma trận mx1
Giả sử ta có N ảnh mẫu của ký tự ak nào đó, xác xuất tại điểm ảnh có tọa độ (x,y) của ký tự ak đó là K Khi đó:
+ Đối với lớp 1 hàm tính giá trị µak (x,y) của ký tự ak được tính theo công thức:
µak (x,y) = K/N + Đối với lớp 2 hàm tính giá trị ak(1,y) của ký tự ak được tính theo công thức:
Trang 10x x
N
i
i ak ak
) ( , 1 ) )
1 , (
M
y x y
x d
n m
y x
ak k
,
1 , 1
1 1
1
| ) , ( ) , (
|
nxn d
n
y
y y
ak k
1
) , 1 ( ) , 1 ( 2
|
|
Với ak(i)(1,y)là số điểm ảnh của ký tự ak(i) đếm theo chiều dọc tại vị trí (1,y) + Đối với lớp 3 hàm tính giá trị ak(x,1) của ký tự ak được tính theo công thức:
Với ak(i)(x,1) là số điểm ảnh của ký tự ak(i) đếm theo chiều dọc tại vị trí (x,1)
Do ta luôn đưa về một kích thước mxn và phải thực hiện bước tiền xử lý nên
dữ liệu của ký tự chắc chắn có sự sai lệch, đổi lại việc xử lý dữ liệu sẽ đơn giản và hiệu quả hơn so với các cách lưu trữ khác
b) Nhận dạng ký tự
Để nhận dạng một ký tự trước hết ta cũng phải thực hiện bước tiền xử lý dữ liệu của ký tự cần nhận dạng để đưa về một kích thước xác định theo dữ liệu tri thức mà ta đang lưu trữ (dữ liệu của các ký tự ta đã cho máy tính học) Sau đó, với mỗi lớp ta có thể tính toán thông qua độ lệch (khoảng cách) của ký tự cần nhận dạng so với dữ liệu của ký tự mẫu
+ Với lớp 1, gọi d1k là độ lệch, µ1k là hàm phụ thuộc của dữ liệu ký tự k so với ký tự cần nhận dạng Khi đó µ1k được tính theo công thức:
µ1k = 1- d1k
Để xác định độ lệch d ta có thể dựa vào một nhận xét sau: Giả sử ma trận lưu trữ dữ liệu tri thức có kích thước mxn Tại các vị trí (x,y) mà ở đó có µ1ak (x,y)
≥ delta hoặc µ1(x,y) =1, giá trị của dữ liệu mẫu của ký tự k là µ1ak (x,y), và giá trị của ký tự cần nhận dạng là µ1(x,y) Khi đó độ lệch giá trị tại vị trí (x,y) là
d1(x,y) =|µ1ak (x,y) - µ1(x,y)|
Nhưng ý nghĩa của độ lệch này chỉ là 1/M trong tổng số M ô Ở đây là tổng
số các ô thỏa mãn hoặc là µ1ak (x,y) ≥ delta () hoặc là µ1(x,y) = 1
Chính vì vậy độ lệch d1k được tính theo công thức:
+ Với lớp 2, µ2k và d2k lần lượt được tính theo công thức:
µ2k =1 - d2k