1. Trang chủ
  2. » Giáo án - Bài giảng

nhận dạng chữ viết và các hướng nghiên cứu

29 410 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 610,38 KB

Nội dung

1 ĐẠI HỌC DUY TÂN KHOA CÔNG NGHỆ THÔNG TIN Chủđề NHẬN DẠNG CHỮ CÁC HƯỚNG NGHIÊN CỨU Ngườitrìnhbày TS. PHẠM ANH PHƯƠNG Bộ môn Cơ sở Tin học Friday, March 04, 2011 2 NỘI DUNG TRÌNH BÀY 1. Giớithiệu Friday, March 04, 2011 2. Sơđồtổng quát củamộthệ nhậndạng chữ 5. Các kiếnthứccầnthiết để nghiên cứu 4. Các hướng tiếpcậnnhậndạng 3. Các phương pháp trích chọn đặctrưng 6. Kếtluận 3 GIỚI THIỆU Friday, March 04, 2011 Nhậndạng chữ là mộtlĩnh vực đã được quan tâm nghiên cứuvà ứng dụng từ nhiềunămnay theohaihướng chính: 9 Nhậndạng chữ viếttay: vớinhững mức độ ràng buộc khác nhau về cách viết, kiểuchữ phụcvụ cho các ứng dụng đọcvàxử lý các chứng từ, hóa đơn, phiếughi, bảnviếttay chương trình Nhậndạng chữ viếttayđược tách ra hai hướng phát triển: nhậndạng chữ viếttaytrựctuyến(on- line) chữ viếttayngoạituyến(off-line). 9 Nhậndạng chữ in: phụcvụ cho công việctựđộng hóa đọc tài liệu, tăng tốc độ chấtlượng nhập thông tin vào máy tính trựctiếptừ các nguồntàiliệu. 4 GIỚI THIỆU (tt) Friday, March 04, 2011 9 Nhậndạng chữ viếttay: vẫncònlàvấn đề thách thứclớn đốivớicácnhànghiêncứu. Bài toàn này chưathể giảiquyết trọnvẹn đượcvìnóhoàntoànphụ thuộcvàongườiviếtvà sự biến đổiquáđadạng trong cách viếtvàtrạng thái sức khỏe, tinh thầncủatừng ngườiviết. 9 Nhậndạng chữ in: đã đượcgiảiquyếtgầnnhư trọnvẹn (sảnphẩm FineReader 9.0 của hãng ABBYY có thể nhậndạng chữ in theo 192 ngôn ngữ khác nhau, phầnmềmnhậndạng chữ Việt in VnDOCR 4.0 củaViệnCôngnghệ Thông tin Hà Nội có thể nhậndạng đượccáctàiliệuchứahìnhảnh, bảng vănbảnvới độ chính xác trên 98%). 5 LỊCH SỬ PHÁT TRIỂN Friday, March 04, 2011 • Các sảnphẩmnhậndạng chữ thương mạicótừ những năm 1950, khi máy tính lần đầutiênđượcgiớithiệutínhnăng mới về nhậpvàlưutrữ dữ liệuhaichiềubằng cây bút viếttrênmột tấmbảng cảm ứng. Công nghệ mới này cho phép các nhà nghiên cứulàmviệc trên các bài toán nhậndạng chữ viếttay on-line. • Nhậndạng chữđượcbiết đếntừ năm 1900, khi nhà khoa học người Nga Tyuring phát triểnmộtphương tiệntrợ giúp cho những ngườimù. Giai đoạn 1: (1900 – 1980) 6 LỊCH SỬ PHÁT TRIỂN Friday, March 04, 2011 ¾ Năm 1954, máy nhậndạng chữđầutiênđã đượcpháttriểnbởi J. Rainbow dùng để đọcchữ in hoa nhưng rấtchậm. ¾ Mô hình nhậndạng chữ viết được đề xuấttừ năm 1951 do phát minh của M. Sheppard đượcgọilàGISMO, mộtrobot đọc-viết. Giai đoạn 1: (1900 – 1980) (tt) ¾ Năm 1967, Công ty IBM đãthương mạihóahệ thống nhận dạng chữ. 7 LỊCH SỬ PHÁT TRIỂN Friday, March 04, 2011 ¾ Các hướng tiếpcậntheocấu trúc đốisánhđượcápdụng trong nhiềuhệ thống nhậndạng chữ. ¾ Vớisự phát triểncủacácthiếtbị phầncứng máy tính các thiếtbị thu thu nhậndữ liệu, các phương pháp luậnnhậndạng đã đượcpháttriểntronggiaiđoạntrước đãcóđượcmôitrường lý tưởng để triểnkhaicácứng dụng nhậndạng chữ. Giai đoạn 2: (1980 – 1990) ¾ Trong giai đoạn này, các hướng nghiên cứuchỉ tậptrungvào các kỹ thuậtnhậndạng hình dáng chứ chưaápdụng cho thông tin ngữ nghĩa. Điềunàydẫn đếnsự hạnchế về hiệusuấtnhận dạng, không hiệuquả trong nhiều ứng dụng thựctế. 8 LỊCH SỬ PHÁT TRIỂN Friday, March 04, 2011 ¾ Các kỹ thuậtnhậndạng kếthợpvớicácphương pháp luận trong lĩnh vực học máy (Machine Learning) đượcápdụng rấthiệuquả. ¾ Các hệ thống nhậndạng thờigianthực đượcchútrọng trong giai đoạnnày. Giai đoạn3: (Từ 1990 đếnnay) ¾ Mộtsố công cụ họcmáyhiệuquả như mạng nơ ron, mô hình Markov ẩn, SVM (Support Vector Machines) xử lý ngôn ngữ tự nhiên 9 SƠ ĐỒ TỔNG QUÁT CỦA HỆ NHẬN DẠNG CHỮ Ảnh vănbản quét vào Tiềnxử lý Tiềnxử lý Tách chữ Tách chữ Trích chọn đặctrưng Trích chọn đặctrưng Huấnluyện Huấnluyện Nhậndạng Nhậndạng Hậuxử lý Hậuxử lý Vănbản được nhậndạng Friday, March 04, 2011 10 Giai đoạntiềnxử lý Friday, March 04, 2011 •Nhị phân hóa ảnh •Lọc nhiễu •Tìmxương •Hiệuchỉnh độ nghiêng [...]... Friday, March 04, 2011 25 KẾT LUẬN • Nhận dạng chữ in đã được giải quyết gần như trọn vẹn • Nhận dạng chữ viết tay (online/Offline) vẫn là bài toán mở • Trong nước: các giải pháp nhận dạng chữ viết tay tiếng Việt vẫn đang được quan tâm, nghiên cứu • Xu hướng sử dụng các kiến trúc lai ghép giữa các phương pháp nhận dạng, Boosting để tăng tốc độ cũng như độ chính xác nhận dạng • Mô hình ngôn ngữ thống kê... tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thành phần nguyên thủy được sử dụng trong các đồ thị liên quan Friday, March 04, 2011 17 CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG • Đối sánh mẫu Cấu trúc ngữ pháp (Grammatical Methods) Chỉ áp dụng tốt đối với nhận dạng chữ in, còn chữ viết tay thì tỏ ra kém hiệu quả Sử dụng trong giai đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai • Tiếp... tự • Các đại lượng hình học: các ký tự được biểu diễn bằng độ đo của các đại lượng hình học như tỷ số giữa chiều rộng chiều cao của hộp chứa ký tự, quan hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa chữ thường của các từ, độ dài từ • Đồ thị cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các đối tượng nguyên thủy như các. .. March 04, 2011 Các giao điểm khoảng cách 14 Đặc trưng thống kê (tt) Chu tuyến (Contour Profile) Friday, March 04, 2011 Projection histograms 15 Đặc trưng thống kê (tt) Đặc trưng hướng (Direction Features) Các ký tự được mô tả như các vectơ mà các phần tử của nó là các giá trị thống kê về hướng Friday, March 04, 2011 16 Đặc trưng hình học hình thái • Các cấu trúc hình thái: dựa trên các cấu trúc... (tt) • Kết hợp các chiến lược nhận dạng Mỗi kỹ thuật phân lớp đều có những ưu điểm nhược điểm riêng Kết hợp với nhau theo một cách nào đó để nâng cao hiệu quả nhận dạng Kiến trúc tuần tự Kiến trúc tuần tự Kiến trúc song song Kiến trúc song song Xây dựng các kiến trúc kết hợp phân lớp Kiến trúc lai ghép Kiến trúc lai ghép Friday, March 04, 2011 21 CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt) Kiến trúc tuần tự... pháp đồ thị (Graphical Methods) Friday, March 04, 2011 Chữ viết được mô tả bởi các đồ thị, mỗi đồ thị là sự kết hợp của các dạng nguyên thuỷ: đoạn thẳng, cung… 18 CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt) • Tiếp cận thống kê dựa trên cơ sở ba giả thuyết chính: 1 Phân bố của tập đặc trưng là phân bố Gauss hoặc trong trường hợp xấu nhất là phân bố đều 2 Có các số liệu thống kê đầy đủ có thể dùng cho mỗi lớp 3... Bayes 19 CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt) • Các phương pháp học máy tiên tiến Mô hình Markov ẩn Mô hình Markov ẩn (HMM – Hidden Markov (HMM – Hidden Markov Model) Model) Mạng nơ ron Mạng nơ ron (NN - Neural Network) (NN - Neural Network) Máy vectơ tựa Máy vectơ tựa (SVM - Support Vector Machines) (SVM - Support Vector Machines) Friday, March 04, 2011 20 CÁC HƯỚNG TIẾP CẬN NHẬN DẠNG (tt) • Kết hợp các chiến... Chuyển kết quả đầu ra của một máy phân lớp thành đầu vào của máy phân lớp tiếp theo, các chiến lược tiêu biểu: Boosting, thác nước Kết nối kết quả của các máy phân lớp độc lập của nhiều chiến lược khác nhau Tiêu biểu nhất là chiến lược bỏ phiếu luật quyết định Bayes Lai ghép giữa hai kiến trúc tuần tự song song 22 CÁC KIẾN THỨC CẦN THIẾT ĐỂ NGHIÊN CỨU • Xử lý ảnh (Image Processing) • Học máy (Machine... Kernel method Boosting, http://www.kernel-machines.org/ • Xác suất thống kê toán ứng dụng Bayes k-NN, • Ngôn ngữ học ngôn ngữ học tính toán (Linguistic and Computational Linguistic) Friday, March 04, 2011 n-Gram 23 CÁC BỘ DỮ LIỆU CHUẨN PHỤC VỤ NGHIÊN CỨU • Bộ dữ liệu USPS (United States Postal Service) gồm 7291 mẫu dùng để Train 2007 mẫu khác để test, mỗi mẫu là một ảnh đa cấp xám kích thước 16×16... độ cũng như độ chính xác nhận dạng • Mô hình ngôn ngữ thống kê N-Gram trong giai đoạn hậu xử lý cũng là chủ đề rất đáng quan tâm Friday, March 04, 2011 26 KẾT LUẬN (tt) • Phát triển các ứng dụng nhận dạng trên các Form chữ viết tay Friday, March 04, 2011 27 Friday, March 04, 2011 28 Cảm ơn quý vị đã chú ý lắng nghe! Friday, March 04, 2011 29

Ngày đăng: 28/04/2014, 10:11

TỪ KHÓA LIÊN QUAN

w