Giới thiệu về nhận dans kỷ tự

Một phần của tài liệu Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ (Trang 51)

D IV: Lă sự thay đổi trọng số liín kết từ nơ-ron j đến nơ-ron i.

2.1.1.Giới thiệu về nhận dans kỷ tự

h: Lă tốc độ học, nằm trong khoảng (0,1).

2.1.1.Giới thiệu về nhận dans kỷ tự

• • • o •

Từ thập niín 60 của thế kỷ trước đến những năm gần đđy, cùng với quâ trình đẩy mạnh tin học hóa trong mọi lĩnh vực đời sống xê hội, nhận dạng không chỉ còn lă lĩnh vực nghiín cún lý thuyết nữa mă đê được ứng dụng rộng rêi trong thực tế cuộc sống. Nhận dạng lă quâ trình phđn loại câc đối tượng được biểu diễn theo một mô hình năo đó vă gân cho chúng văo một lóp dựa theo câc quy luật vă câc mẫu chuẩn. Quâ trình nhận dạng dựa văo câc mẫu học biết trước gọi lă học có giâm sât, hoặc không có mẫu thì gọi lă học không có giâm sât (tự học).

Câc băi toân nhận dạng tiíu biểu được nghiín cún nhiều nhất hiện nay bao gồm:

- Nhận dạng chữ viết (Optical character recognition - OCR): Từ một văn bản in hỡặc viít tđy trín giđy, nhận biít từng ký tự vă chuyín chúng thănh một tệp văn bản trín mây tính.

hình khối,

- Nhận dạng tiếng nói (speech recognition): Từ sóng tiếng nói, nhận biết vă chuyển chúng thănh dữ liệu văn bản tương ứng.

- Dịch tự động (machine translation): Từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ như tiếng Anh), mây tính dịch vă chuyển thănh một tệp văn bản trong một ngôn ngữ khâc.

- Tóm tắt văn bản (text summarization): Từ một văn bản dăi (gồm nhiều trang chang hạn), mây tính tóm tắt thănh một văn bản ngắn hơn với nhũng nội dung cơ bản.

- Tìm kiếm thông tin (Information retrieval): Từ một nguồn gồm rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liín quan đến một vấn đề (một cđu hỏi) ta cần biết (hay cần trả lời). Điển hình của công nghệ năy lă Google, một hệ tìm kiếm thông tin trín Web, mă hầu hết chúng ta đều sử dụng thường xuyín, cần nói thím rằng mặc dù hữu hiệu hăng đầu như vậy, Google mới chỉ có khả năng cho chúng ta tìm kiếm cđu hỏi dưới dạng câc từ khóa (keywords) vă luôn “tìm” cho chúng ta rất nhiều tăi liệu không liín quan, ngược lại, có rất nhiều tăi liệu liín quan tồn tại thì Google lại tìm không ra.

- Trích chọn thông tin (Information extraction): Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bín trong, lă một số tệp liín quan

đến một vấn đề (cđu hỏi) ta cần biết (hay cần trả lời). Một hệ trích chọn thông tin có thể “lần” văo từng trang Web liín quan, phđn tích bín trong vă trích ra câc thông tin cần thiết.

- Phât hiện tri thức vă khai phâ dữ liệu văn bản (Knowledge discovery and text data mining): Từ những nguồn rat nhiều văn bản thậm chí hầu như không có quan hệ với nhđu, tìm được những trí thức trước đó chưa ai biít. Đđy lă một vấn đề rất phức tạp vă đang ở giai đoạn đầu của câc nghiín cứu trín thế giới.

Ngoăi ra, còn nhiều băi toân vă công nghệ xử lý ngôn ngữ khâc, như giao diện người mây bằng ngôn ngữ tụ' nhiín, câc hệ hỏi đâp, câc hệ sinh ra ngôn ngữ, ... Chúng được âp dụng văo nhiều lĩnh vực như y học, dược học, xđy dựng, quản lý giao thông, dự bâo chây rùng, tự động hóa điều khiển robot, điều khiển câc thiết bị bằng giọng nói, ... Một số sản phẩm được nghiín cứu vă đê được ứng dụng trín thế giới vă ở Việt Nam như: Xe đấy thuốc thông minh tại câc bệnh viện ở Anh sử dụng công nghệ nhận dạng mê vạch trín tay câc bệnh nhđn để phât thuốc vă theo dõi sức khỏe cho bệnh nhđn trânh những sự nhầm lẫn không đâng có. Tại Việt Nam, câc kỹ sư của công ty TOSY đê nghiín cứu vă sâng tạo ra 1 con robot đânh bóng băn (có tín lă Topio) tại International Robot Exhibition 2007 - triến lêm robot lớn nhất thế giới khai mạc ngăy 29/11, tại Tokyo. Trong đó có sử dụng công nghệ nhận dạng bóng đế di

chuyển vă lập chiến thuật đânh trả...

Bín cạnh sự phât triến vă ứng dụng rộng rêi đó lă câc phương phâp nhận dạng đê được sử dụng, dưới đđy lă câc phương phâp nhận dạng cơ bản:

- RFID (Radio Frequency Identification) lă kỹ thuật nhận dạng bằng sóng vô tuyến từ xa, lă hệ thống không dđy cho phĩp tự động nhận dạng thu nhập dữ liệu kế cả dữ liệu không tiếp xúc đọc hoặc tăi liệu viết tay. RFID ưu điếm lă: RFID xử lý tự động, tiết kiệm năng lượng .. .vă nhược điếm lă: RFID có giâ thănh cao nín không thể ứng dụng rộng rêi, chưa có chuẩn chung, chưa có câc giải phâp hiệu quả). - SVM (Support Vector Machines) lă một phương

phâp mây học tiín tiến đê có nhiều thănh công không chỉ trong câc lĩnh vực khai phâ dữ liệu mă còn trong lĩnh vực nhận dạng. Trong những thập niín gần đđy, SVM đê được đânh giâ lă một trõrĩg những phương phâp phđn lớp có độ chính xâc rđt Cêồ vă cũng đê được âp dụng nhiều trong câc băi toân nhận dạng chữ viết tay.

- Dynamic programming: lă phương phâp dùng đế giải quyết câc băi toân tối ưu, bắt đầu từ việc giải quyết câc băi toân nhỏ nhất đến băi toân hoăn chỉnh. Tận dụng kết quả tính toân trước đó để trânh lặp lại việc đê hoăn tất. Dynamic programming có những ưu điểm: Không phải tính lại câc băi toân con nếu trước đó đê tính rồi, tốc độ tính toân nhanh hơn câc

phương phâp thông thường, độ phức tạp tính toân thường lă câc đa thức. Vă có những nhược điểm: Không phải băi toân tối ưu năo cũng dùng được phương phâp năy, không có phương phâp tống quât, thường phức tạp vă mang nhiều tính thủ thuật. - HMM (Hiden Markov Model): ưu điểm lă thiết kế

vă coding đơn giản, không dùng nhiều bộ nhớ. Nhược điểm lă rất khó phđn lớp dữ liệu....

Một phần của tài liệu Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ (Trang 51)