Tổng quan về nhận dạng ảnh

Nhận dạng có rất nhiều ứng dụng trong mọi lĩnh vực của cuộc sống:

nhận dạng chữ in, chữ viết tay, nhận dạng phân loại sản phẩm, nhận dạng sinh trắc học: vân tay, mống măt, chữ ký…

Nhận dạng có 3 cách tiếp cận khác nhau: + Nhận dạng dựa vào phân hoạch không gian + Nhận dạng cấu trúc

+ Nhận dạng dựa vào kỹ thuật mạng noron

Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn.

Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy (surpervised learning), ngược lại gọi là học không có thầy (non surpervised learning).

1 Không gian biểu diễn đối tượng, không gian diễn dịch a Không gian biểu diễn đối tượng

Đối tượng thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Người ta phân các đặc trưng này theo các loại nhỏ như: đặc trưng topo, đặc trưng hình học và đặc trưng chức năng.

giả sử đối tượng X được biẻu diễn bởi n thành phần (n đặc trưng) X={x1, x2,..,xn} xi biểu diễn một đực trưng.

Không gian biễu diễn đối tượng

D={X1, X2,..,Xn} mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn.

b Không gian diễn dịch

Không gian diễn dịch là tập các tên gọi của đối tượng (tên các lớp đối tượng). gọi Ω là tập tên đối tượng

Ω ={w1, w2,…,wn} wi i=1,..,k là tên các đối tượng.

Quá trình nhận dạng đối tượng f là một ánh xạ f: D → Ω với f là tập các quy luật để xác định một phần tử trong D ứng với mỗi phần tử trong Ω.

2 Mô hình và bản chất của quá trình nhận dạng a ) Mô hình

+ Mô hình tham số: sử dụng một vecto để đặc tả đối tượng ví dụ trong nhận dạng chữ, các tham số là các dấu hiệu:

Số điểm chu trình Số điểm ngoặt Số điểm kết thúc + Mô hình cấu trúc

Cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác định bắt đầu từ một dạng gốc ban đầu. Có thể coi mô hình này tương đương một văn phạm.

G=(Vt, Vn, P, S)

Vt là bộ kỹ hiệu kết thúc

Vn là bộ ký hiệu không kết thúc P là luật sản xuất

S là ký hiệu ban đầu

3 Bản chất của quá trình nhận dạng

quá trình nhạn dạng gồm 3 giai đoạn chính: - Lựa chọn mô hình biểu diễn đối tượng - Lựa chọn luật ra quyết định

- Học nhận dạng

Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp.

II- Nhận dạng dựa trên phân hoạch không gian

Các đối tượng nhận dạng biẽu diễn theo mô hình tham số, mỗi đối tượng được biễu diễn bởi vecto nhiều chiều

1 Phân hoạch không gian

Không gian đối tượng D={Xi, i=1, 2,..,m} Xi là một vecto.

P là một phân hoạch của không gian D thành các lớp Ci Ci⊂ Dnếu Ci∩ Cj= ∅ i ≠ j

∪Ci=D

2 Hàm phân lớp hay hàm ra quyết định

Gọi {gi} là lớp các hàm phân lớp. Lớp hàm này đưcợ định nghĩa như sau: nếu ∀i ≠ k gk(X)> gi(X) thì quyết định X∈ lớp k.

Để phân biẹt k lớp, ta cần k-1 hàm phân biệt Ví dụ một số hàm phân biệt

+ hàm tuyến tính: g(X)= W0+ W1X1+…+WKXK Wi là các trọng số gán cho các thành phần Xi + hàm khoảng cách (khoảng cách Euclid) + Dựa vào xác xuất có điều kiện

P(Ci/X) xác suất có điều kiện để X∈ Ci

X là đối tượng nhận dạng, Ci là các lớp đối tượng Quá trình học xác định P(X/Ci)

Theo công thức Bayes ) ( ) ( ) / ( ) / ( X P C P C X P X C P i i i = Nếu P(Ci/X) > P(Ck/X) với ∀i ≠ k thì X∈ Ci Phương pháp này còn gọi là nhận dạng thống kê. III Nhận dạng theo mạng noron

Mô hình mạng noron nhân tạo

Mạng noron nhân tạo (Artifical Neural Network) bao gồm các nút (đơn vị xử lý, noron) được nối với nhau bới các liên kết noron. Mỗi liên kết kèm theo một trọng số nào đó, đặc trưng cho đặc tính kích hoạt/ức chế giữa các noron.

Nhiệm vụ của quá trình huyến luyện (học) mạng là cập nhật các trọng số khi có thêm cá thông tin về các mẫu học sao cho việc mô phỏng hoàn toàn phù hợp với môi trường đang xem xét.

Mô hình mạng noron nhân tạo

Mỗi noron đưcợ nối với các noron khác và nhận đưcợ các tín hiệu sj từ chúng với các trọng số wj. Tổng các thông tin vào có trọng số là

Net=∑ wjsj

Hàm kích hoạt g (còn gọi là hàm chuyển): out=g(Net) Có 3 dạng kích hoạt thường dùng trong thực tế

Hàm dạng bước

1 nếu x≥ 0 1 nếu x≥θ

Step(x)= hoặc Step(x) =

0 nếu x<0 0 nếu x<θ Net=∑ g out Các liên kết vào Các liên kết ra Hàm vào Hàm kích Đầu ra sj wj

Hàm dấu

1 nếu x≥ 0 1 nếu x ≥ θ

Sign(x) = hoặc sign(x)=

-1 nếu x<0 -1 nếu x < θ

Ngưỡng θ đóng vai trò làm tăng tính thích nghi và khả năng tính toán của mạng noron.

Mạng noron bao gồm nhiều phần tử xử lý đơn giản (noron) hoạt động song song. Mạng noron có thể học từ dữ liệu mẫu và tổng quát hoá dựa trên các dữ liệu mẫu học.

Học có giám sát (học có thầy): mạng đưcợ cung cấp một tập mẫu học {(Xs, Ys)} Xs là các tín hiệu vào thì kết quả ra đúng của hệ phải là Ys. Ở mỗi lần học vecto tín hiệu vào Xs được đưa vào mạng, sau đó so sánh sự sai khác giữa Ys và outs. Sai số này sẽ được dùng để hiệu chỉnh lại các trọng số liên kết trong mạng. Quá trình cứ tiếp tục cho đến khi thoả mãn một tiêu chuẩn nào đó.

Học không giám sát được gọi là các mạng tự tổ chức. IV Các hệ nhận dạng chữ

1 Sơ đồ tổng quát của một hệ nhận dạng chữ gồm các khối chính sau:

- Khối xử lý sơ bộ

- Khối tách chữ

- Khối nhận dạng chữ

Tài liệu tham khảo

[1] Fundamentals digital image processing – Anil K. Jain [2] Xử lý ảnh- Đỗ Năng Toàn, Phạm Việt Bình

Chu tuyến ngoài b) Chu tuyến trong Hình 3.3 Chu tuy ến trong, chu tuyến ngoà

Thuật toán tìm xương dựa trên làm mảnh