Câc bước giải quyết băi toân sử dụng mạng nơron Kohonen.

Một phần của tài liệu Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ (Trang 62)

D IV: Lă sự thay đổi trọng số liín kết từ nơ-ron j đến nơ-ron i.

h: Lă tốc độ học, nằm trong khoảng (0,1).

3.2.1. Câc bước giải quyết băi toân sử dụng mạng nơron Kohonen.

nơron Kohonen.

- Xđy dựng giao diện vẽ.

- Xđy dựng mạng nơron Kohonen. - Xử lý dữ liệu (phđn tích ảnh). - Huấn luyện mạng nơron Kohonen. - Nhận dạng mạng потоп Kohonen.

3.2.1.1. Xđy dựng giao diện vẽ.

- Xđy dựng một giao diện đồ họa, cho phĩp người sử dụng dùng chuột vẽ ký tự cần nhận dạng.

- Tìm giới hạn trín, dưới, trâi, phải của ký tự sau khi được vẽ.

- Cắt bỏ tất cả câc khoảng trống xung quanh ký tự được vẽ, thu được ảnh chỉ có hoăn toăn ký tự. Như thế băi toân quy về xử lý ảnh chỉ có mỗi ký tự mă không quan tđm ký tự được vẽ ở vị trí năo.

Hình 3.1: Quâ trình tìm giói hạn kỷ tự

- Thực hiện lấy mẫu xuống ảnh của ký tụ’ bằng câch ânh xạ ký tự văo một lưới có kích thước 10* 10. Bằng câch năy ta quy ký tự về một kích thước cố định, như vậy không cđn quan tđm đín kích thước ký tụ’ được vẽ văo lă to hay nhỏ.

Hình 3.2: Quâ trình lấy mẫu xuống

3.2.1.2. Xđy dựng mạng nơron Kohonen.

Một việc rất quan trọng ở đđy lă việc quyết định cỡ của mạng. Việc định cỡ đầu văo phụ thuộc văo việc định cỡ lưới lấy mẫu xuống, Neu ta chia

ảnh ký tụ' thănh ma trận có kích thước lớn thì ký tự' sẽ được biểu diễn một câch chi tiết. Tuy nhiín, việc năy dẫn đến chi phí xử lý câc ma trận rất lớn. Ngược lại, nếu ta dùng ma trận kích thước nhỏ để biểu diễn ảnh ký tự sẽ dẫn đến việc mất mât thông tin. Để cho cđn bằng vă hợp lý, ta sẽ chuẩn hóa cỡ của ma trận bằng 10*10, tức lă ảnh sẽ được biểu diễn bởi 100 phần tử.

Lớp đầu văo gồm 100 noron nhận giâ trị tù’ 100 thănh phần tương ứng của vĩctơ đầu văo. Dữ liệu đầu văo năy có được từ việc vĩctơ hóa từ ma trận điểm ảnh ký tự bằng phương phâp chia lưới.

Lớp đầu ra có số nơron bằng với số mẫu nhập văo.

3.2.1.3. Xử lý dữ liệu (phđn tích ảnh). Quâ trình phđn tích ảnh lă quâ trình tìm ra đặc tính của ký tự. Câc điểm ảnh năy chính lă giâ trị đầu văo cho cả quâ trình huấn luyện vă quâ trình kiểm tra. Quâ trình phđn tích năy dựa trín việc nhận dạng tù' ảnh người sử dụng vẽ văo bằng phương phâp tìm câc điểm đen RGB(0,0,0) hoặc điểm trắng RGB(255,255,255). Ket quả thu được lă ma trận điểm ảnh. Sau đó ma trận năy sẽ được ânh xạ thănh vĩctơ đầu văo có kích thước 100 phần tử. Trước khi đưa vắ mạng vĩctỡ năy cồn được xử lý lăm nôi điím ẳiĩh thănh vếctỡ gôm câc phần tử 0.5 vă -0.5. 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 0 0 1 0 1 1 1 1 1 1 1 0

liu

Hình 3.3: Quâ trình ânh xạ từ ma trận điếm sang ma trận giâ trị

3.2.1.4. Huấn luyện mạng nơron Kohonen.[2]

Một mạng nơron đê được xđy dựng sẽ phải được huấn luyện trín một không gian đầu văo đê được chuẩn bị trước. Khi hoạt động, mạng nơron sẽ đọc giâ trị đê được huấn luyện.

Sự phức tạp của câc tham số cho việc huấn luyện mạng: Việc chọn giâ trị cho câc tham số (tốc độ học, số lần lặp cần thiết, giâ trị ngưỡng của lỗi ...) được dựa văo kinh nghiệm vă qua những lần tiến hănh thực nghiệm.

Mục đích của quâ trình huấn luyện lă hiệu chỉnh trọng số w sao cho giống với vĩctơ đầu văo nhất. Thực hiện hiệu chỉnh câc vĩctơ trọng số ứng với từng ký tự mẫu. Kết quả thu được một ma trận trọng số w giống với tập vĩctơ đầu văo.

Huấn luyện bao gồm câc bước: - Thiết lập câc tham số đầu văo.

- Tất cả câc mẫu đầu văo được lấy mẫu hình ảnh ký tự xuống

kích thước 10*10. Ta được một ma trận hai

chiều kích thước

10*10

có câc giâ trị tương ứng với giâ trị câc điểm ảnh. - Chuyến thănh câc vĩctơ đẩu văo có kích thước 10*

10.

- Đưa câc vĩctơ đầu văo văo mạng.

sơ đồ thuật toân.

Hình 3.4: Quâ trình huấn luyện mạng потоп Kohonen

Quâ trình nhận dạng được diễn ra theo câc bước sau:

Bước 1\ Người sử dụng vẽ ký tự cần nhận dạng.

Bước 2: Ký tụ' được lấy mẫu xuống lưới kích thước 10*10. Ta được một ma trận hai chiều kích thước 10* 10 có câc giâ trị tương ứng với giâ trị câc điểm ảnh.

Bước 3: Chuyển ma trận điểm ảnh thănh vĩctơ đầu văo có kích thước 10* 10 bao gồm câc giâ trị 0.5, - 0.5.

Bước 4\ Vĩctơ đầu văo được đưa văo mạng nơron đế tìm nơron chiến

thắng.

Bước 5: Thiết lập mảng chứa câc ký tự trong tập mẫu, với chỉ số của mạng tương ứng với chỉ số của потоп đầu ra.

Bước 6: Ânh xạ потоп chiến thắng văo mảng trín đế tìm ra ký tự tương ứng với nơron chiến thắng.

Bước 7: Hiển thị kết quả nhận dạng được tương úng với ký tự được vẽ.

3.2.1.6. Kết luận.

Có nhiều phương phâp để giải quyết băi toân nhận dạng ký tự tiếng Việt. Nếu âp dụng mạng потоп để giải quyết, thông thường người ta hay sử dụng mạng dẫn tiến đa lóp hoặc thuật toân lan truyền ngược cho việc thực hiện nhận dạng. Nhưng chúng ta sẽ thấy một số khó khăn trong vấn đề tìm ra số nơron trong từng lớp, nhất lă lớp ẩn hoặc nhiều công thức tính toân hơn, lại phải xĩt trín từng lóp mạng. Trong khi đó, mạng потоп Kohonen lă mạng rất phổ biến, có cấu trúc đơn giản hơn, câc bước thực hiện rõ răng, dễ dăng lựa chọn vă hiệu chỉnh câc tham số đầu văo, quâ

trình huấn luyện mạng nhanh, dễ hội tụ. Câc ký tự sau khi vẽ, được lấy mẫu xuống vă được đưa văo đầu mạng nơron. Có một nơron đầu văo cho mỗi điểm ảnh trong hình ảnh được lấy mẫu xuống. Vì hình ảnh được lấy mẫu xuống có kích thước 10*10 nín có 100 nơron đầu văo. Số потоп đầu ra bằng số ký tụ’ mẫu.

Ngoăi yếu tố đầu văo vă đầu ra còn có câc kết nối giữa câc nơron. Câc trọng số năy không bằng nhau đối với tất cả câc kết nối. Mỗi kết nối được chỉ định một trọng số. Trọng số năy lă yếu tố duy nhất xâc định đầu ra mạng nơron ứng với mỗi mẫu đầu văo. Đe xâc định tống số kết nối phải nhđn số nơron đầu văo với số nơron đầu ra. Mạng có kết nối đầy đủ nghĩa lă mỗi đầu văo được kết nối với tất cả câc đầu ra. Quâ trình đăo tạo lă quâ trình tìm ra câc giâ trị chính xâc cho câc trọng số năy.

Một phần của tài liệu Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ (Trang 62)

Tải bản đầy đủ (DOCX)

(79 trang)
w