Trong các hệ thống này, từ một dạng thông tin thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó biểu diễn các mẫu thông tin này, sắp xếp, phân loại chúng
Trang 1LỜ I CẨM Ơ N
Vui mừng khi hoàn thành 6ản Cuận văn, tôi kịiông quên công Cao to (ơn của (anfi đạo,
của các thầy cô giáo, của g ia đình và 6ạn bè ấồng nghiệp.
T oi JQU g h i nhận và chân thành biết on các thầy cô giáo đã quan tâm tẩ cíiức chỉ đạo
và tíiự c hành giảng dạy íịíio ả cao Học tíiuộc íịíio a Công N g fiêj (Đ ại học Quốc g ia J{à N ộ i; (Đặc biệt cảm ơn các thầy fvuxmg ẩẫn: Ts Luxrng c h i 94a i và Ts N gô Quốc Tạo, n íiừ rig chuyên
g ia g ià u k in íi nghiêm & V iện Công nghệ Tíiông tin , đã (fin fi íiưóng nghiên cứu và tfieo cíõị c íiỉ dẫn từng bước; cảm 071 Ç StfSTtyC J ỉổ Tủ (Bảo, V iện % Ịioa học và Công nghệ tiê n tiê n N íiậ t (Bản, trong th ò i g ia n ngắn ngủi ở V iệ t Nam củng đã nghe phần báo cáo tóm tắ t và cho những
ý kịển g ợ i mer quý 6áu ^Tất cả những người thầy đó ngoài việc tận tu y truyền th ụ kiến thức, còn íả tấm gưong sáng về những đức tín h cần có trong nghiên cứu ^hoa fiọc.
T ôi củng jçin chân thành 6iết 071 íã n íi đạo trường (Đại học Sư phạm ‘H à N ộ i, mà trực tiếp íằ (K jio a Toán—T ín Học, củng như g ia đình, bạn Sè đổng nghiệp đã dành cho tô i nhiều ưu
ả i trong suốt quá trìn h học tập củng như trong th ò i g ia n thực hiện ấề tà i.
T uy nhiên, (ÍO bản thân m ói bắt đầu trên con đưòtig nghiên cứu khoa Học đầy thách thức, nên chắc chắn 6ản Cuận văn còn nhiều thiếu sót, 6ất cập mà tô i chưa đủ k ịiả năng nfiân tíiâ ỳ Hoặc ít nhiều nhận thấy níim ig chưa ấủ sức vư ợ t qua cRẠt mong đĩtxỵc các thầy cô tiếp tục chí giáo.
J fà N ộ i, thảng 12 - 2001
Lẽ CMinfi ĩío à n g
Trang 2Lc M inh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt «£*
IV Kết lu ận 68
Chương V: Xử lý và nhận dạng văn b ả n 70
I Tiền xử lý văn b ản 70
II Tách dòng 73
III Tách tò 73
IV Nhận dạng 74
V Hậu xử lý 74
Kết lu ận 75
I Đánh giá tóm tắt kết quả đạt được 75
II Nhừng vấn đề còn chưa khắc phục được và đề xuất cách giải quyết 76
III Hướng nghiên cứu tiếp theo của đề t à i 78
Phụ lục: Cài đặt thử nghiệm 80
I Các chức năng của hệ thống thử nghiệm 80
11 Một số kết quả thử nghiệm 83
Tài liệu tham k h ao 85
Luận vãn tốt nghiệp cao học
Trang 3Lê M inh H oàng M ột phương pháp nhận dạng văn ban tiếng V iệt SÉ*
- LỜI NÓI ĐẢU
> « P | à từ lâu, nhân loại mơ ước có thể chế tạo ra được các máy móc có một số
khả năng của con người, như khả năng nghe, hiểu tiếng nói hay nhìn và nhận định được các vật thề xung quanh Nhưng mãi tới gần đây khi những tiến bộ công nghệ cho phép cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý thông tin, mơ ước đó mới đang dần trở thành hiện thực
Chúng ta biết rằng, con người nhận thức được thế giới khách quan bằng các giác quan và tư duy của mình Hiện nay, chúng ta đã có nhiều thiết bị cảm nhận (sensor)
có khả năng thu nhận thông tin của môi hường xung quanh giống với chức năng cua các giác quan con người Đơn giản như một chiếc micro để có thể thu nhận âm thanh cho đến những chiếc camera có khả năng thu nhận hình ảnh v ấ n đề tiếp đó là phải xử lý các thông tin thu được như thế nào
Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên cơ chế hoạt động của bộ não Đây là một quá trình rất phức tạp mà cho đến ngày nay, chúng ta mới chỉ nắm bắt được một phần nhỏ cơ chế hoạt động của nó Có lẽ sẽ chăng bao giờ máy móc mới đạt tới khả năng tư duy của con người, nhưng trong sự
nồ lực từng bước của mình, các nhà khoa học đã phân tách các mảng thông tin ra từng phần nhất định và xử lý riêng trong những khuôn khổ đó Chính sự xử lý riêng biệt này đã tạo ra được những thành công nhất định trong việc tạo ra những hệ thống kỳ thuật có một số năng lực "tư duy" gần với con người
Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng nghiên cứu đã có những thành công Trong các hệ thống này, từ một dạng thông tin thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó biểu diễn các mẫu thông tin này, sắp xếp, phân loại chúng, và dùng những kỹ thuật
xu lý để nhận ra ý nghĩa của các thông tin đó Đây chính là tư tưởng chủ đạo của bài toán nhận dạnu mầu (Pattern Recognition) Phạm vi ứng dụng của lý thuyết nhận
-
J -Luận văn tôt nghiệp cao học
Trang 4Lô M inh Hoàng Một phương pháp nhận dạng văn bán tiéng Việt «é*
dạng mẫu đã được áp dụng cho các lĩnh vực như: Nhận dạng tín hiệu, nhận dạng tiếng nói, nhận dạng ảnh v.v
Nhận dạng anh có thể coi là công đoạn cuối cùng của quá trình xử lý ảnh Rất nhiều
lý thuyết và kỹ thuật xử lý ảnh đã được phát triển với mục đích để nhận dạng tốt hơn các đối tượng trong bức ảnh thu được Kỹ thuật nhận dạng ảnh cơ bản dựa vào việc phân tích và biến đổi các mẫu để rút ra được những đặc trưng của đối tượng cần nhận dạng Việc gán ý nghĩa cho các lớp mẫu cũng chính là việc nhận dạng được các mẫu sẽ xếp vào lóp đó
Nhận dạng chữ (chữ in và chữ viết tay) là một trong những vấn đề nhận dạng ảnh nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ Trên thế giới
đà có một số hệ thống nhận dạng chữ viết cỡ lớn có độ chính xác tương đối cao Ngoài yếu tố bí mật công nghệ, chữ viết của mỗi dân tộc có những đặc thù riêng, đòi hỏi những người con của dân tộc đó phải quan tâm nghiên cứu, khai thác triệt đế các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng chữ viết phù hợp
Cách thức thu thập thông tin bằng phương pháp nhận dạng tự động chữ viết mang nhiều ý nghĩa thực tiễn Có thể kể ra đây một số ứng dụng dựa trên khả năng nhận dạng chữ đã được nghiên cứu và đưa vào sử dụng như: Tự động đọc văn bản chữ in,
hệ thống kiểm tra các thông số ghi tiên sản phẩm, hệ thống số liệu hoá bản đồ, hệ thống tự động phân loại các thư từ và bưu kiện, hệ thống thống kê tự động các phiếu điều tra v.v
Nghiên cứu vấn đề này, ngay từ đầu tôi đã thấy có nhiều khó khăn, bởi ngay cả với những hệ thống nhận dạng chữ viết cỡ lớn trên thế giới, thành công mới chỉ đạt được trên một số bộ kí tự phổ biến Mặt khác, chữ viết của dân tộc ta, ngoài các nguyên âm ă, â, ê, ô ơ, ư còn có các dấu thanh đặc trưng Song vì nhu cầu khám phá
đẽ có thêm hiểu biết, sau khi tham khảo một số tài liệu đã được nghiên cứu trong và
ngoài nước, tôi mạnh dạn hoàn thành luận văn với đề tài: "Một phương pháp nhận
dạng văn bản Tiếng Việt" sử dụng mô hình Markov ấn trong nhận dạng chữ in và
Luận văn tốt nghiệp cao học
Trang 5Lê M inh H oàng <*& M ột phương pháp nhận dạng văn bản tiếng V iệt SP*
chừ viết tay có ràng buộc, với mong muốn trưởng thành hơn trên con đường nghiên cứu khoa học và hiểu rõ hơn ngôn ngữ của dân tộc mình
Luận văn được trình bày cụ thề qua 6 nội dung chính:
• Tông quan
• Trình bày cơ sở lý thuyết toán học cho vấn đề cần nghiên cứu
• Xây dụng các mô hình nhận dạng cấu trúc chữ Việt
• Xây dựng mô hình nhận dạng từ Tiếng Việt
• Xử lý văn bản và nhận dạng văn bản
• Ket quả cài đặt thử nghiệm
L uận văn tô i nghiệp cao h ọ c
Trang 6Lê M inh Hoàng Một phương pháp nhặn dạng văn bán tiếng Việt «é*
C hương I:
TỎNG QUAN
I MỤC ĐÍCH NGHIÊN c ứ u CỦA ĐÈ TÀI
Xử lý ảnh ngày nay đã trở thành một ngành khoa học lớn và có mặt ứong nhiều lĩnh vực của cuộc sống Điều này hoàn toàn có thể lý giải được từ một định nghĩa đơn
giản về ngành khoa học này: X ử lý ảnh là ngành khoa học nghiên cứu các quá
trình x ử lý thông tin dạng hình ảnhịBí\ mà hình ảnh là một trong những dạng thông
tin phong phú nhất đối với chúng ta
Lưu trữ, hiển thị
và truyền dẫn Nhận dạng
Luận văn tốt nghiệp cao học
Trang 7Lê M inh Hoàng Một phương pháp nhận dạng văn bàn tiếng Việt SP*
Khi quan sát một bức ảnh, ngoài sự cảtn nhận về kích thước và màu sắc thì các đối tượng trong bức ảnh đó cũng mang lại những ý nghĩa nhận thức nào đó cho người quan sát Vì thế xử lý ảnh không phải chỉ dừng lại ở việc nâng cao chất lượng ảnh, lưu trữ ảnh hay phân tích kết cấu của nó mà còn thêm một bước nữa là tự động nhận dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng
Nhận dạng ảnh (image recognition) có thể được nhìn nhận một cách đơn giản là việc gán tên cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chừ, ta cần tách riêng các mẫu chữ đó ra
và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh
Đe tài "Một phương pháp nhận dạng văn bản tiếng Việt" thuộc về vấn đề nhận dạng chừ viết (Optical Character Recognition - OCR), với mục đích xây dựng một hệ thống nhận dạng văn bản tiếng Việt sử dụng mô hình Markov ẩn - một kỹ thuật nhận dạng mẫu đă giữ vị trí thống lĩnh trong suốt 15 năm qua
II MỌT SỐ KHÁI NIỆM■ ■
II 1 Mẩu và Ió’p mẫu
Người ta mô tả tất cả những vật thể có kích thước vật lý thu nhận được trong thế giới xung quanh bằng các mẫu Nhận dạng mẫu chính là việc xử lý, mô tả và diễn dịch các mẫu Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của đối tượng Vì đối tượng ở đây là hình ảnh nên những thuộc tính đó có thể là đặc trưng về đường nét, mảng, khối, màu sắc
Tập tất cả các mẫu tạo nên không gian mẫu Nhờ vào quá trình phân lóp (classification) của bài toán nhận dạng mà các mẫu được nhóm lại thành các lóp
mẫu riêng biệt Mồi lóp mẫu chứa các mẫu đồng dạng với nhau, tính đồng dạng ở đây được xét trên tập các đặc tính biếu diễn mẫu Mỗi lớp mẫu sẽ được gán một tên, tập các tên gọi của các đối tượng lập thành một không gian diễn dịch và việc nhận
Luận văn tỏt nghiệp cao học
Trang 8Lc M inh H oàng Một phương pháp nhận dạng văn bàn tiếng Việt «é*
dạng trở thành quá trình gán một tên trong không gian diễn dịch cho một mẫu cần nhận dạng
II.2 Khoảng cách mẫu và hàm phân biệt
Khoang cách là một công cụ tốt đế đánh giá các đối tượng có ở "gần nhau" hay không Khi khoang cách nhỏ hơn một ngưỡng nào đó thì có thể coi hai đối tượng là đồng dạng với nhau, tức là được xếp vào cùng một lóp
Hàm đo khoáng cách có thể coi là hàm đo mức tương tự Trong trường hợp ta có một số mẫu chuân đủ lớn đã được phân lớp một cách họp lý thì khi cần nhận dạng một mẫu, ta chỉ cần tìm lóp chuẩn gần với mẫu đó nhất và xếp luôn mẫu đó vào lớp này Chính vì vậy hàm khoảng cách có ý nghĩa quyết định tới tính chính xác của quá trình nhận dạng
Với khái niệm khoảng cách Iĩiẫu, người ta xây dựng khái niệm hàm phân biệt: Hàm phân biệt là một hàm có đối số là mẫu, dùng đế phân lớp mầu Mỗi lớp có một hàm phân biệt đặc trưng riêng và hàm này luôn cho giá trị "tốt" hơn đối với các mẫu thuộc lớp của nó
-, -Luận văn tôt nghiệp cao học
Trang 9Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng V iệt «£*
> Tiền xử lý (Preprocessing): Đẻ nâng cao khả năng nhận dạng chính xác, các bước tiền xử lý được yêu cầu với vai trò nâng cao chất lượng ảnh trước khi đem phân tích và nhận dạng Công việc của bước này thường là khử nhiễu, biến đổi anh và nâng cao một số đặc tính quan trọng của ảnh Với nhận dạng chữ thì công đoạn này thường thực hiện các công việc như lọc bỏ nhiễu đốm, tăng độ tương phản, làm trơn biên chữ, làm đầy/mảnh chữ v.v Quá trình tiền xử lý thường được thực hiện bởi các bộ lọc
Luận văn tôt nghiệp cao học
Trang 10Lê Minh Hoàng «X Một phương pháp nhận dạng văn bàn tiếng Việt Sỉ*
'r Phân đoạn (Segmentation): Quá trinh này sẽ chia ảnh ra các vùng con khác nhau mà trong mồi vùng chứa các thực thế có ý nghĩa cho việc phân lớp Với nhận dạng chữ, việc phân tách sẽ là xác định các vùng chữ rồi tách ra thành các chữ đơn
r C huẩn hoá (Normalization): Sự biến đổi là thuộc tính vốn có của mọi đối tượng trong tự nhiên và cũng là sự đa dạng về hình thức của một đối tượng Câu hỏi chính đặt ra cho bài toán nhận dạng là những biến đổi đó có thế giải quyết như thế nào Có những đặc trưng của đối tượng là bất biến đối với những tác động bên ngoài nên quá trình trích chọn đặc trưng có thể vẫn hoạt động tốt nhưng cũng có những đặc trưng rất khó nắm bắt được khi đối tượng biến đổi Chính vì vậy mà bước chuẩn hoá này thường có trong các hệ thống nhận dạng Nó thực hiện việc giảm bớt những hiệu ứng xấu do ảnh hưởng của những biến đổi Ví dụ như trong nhận dạng chữ viết tay, các chữ có thể quá nghiêng hoặc bị lệch hàng
do bản chụp và bước tiêu chuẩn hoá phải đánh giá được độ nghiêng và xoay chúng lại cho thẳng đứng Quá ưình tiêu chuẩn hoá này cần được tính toán để những thông tin bị loại bỏ sẽ không ánh hưởng nhiều đến các đặc trưng cần trích chọn
r- Trích chọn đặc trư n g (Feature Extraction): Đây chính là bước biểu diễn các
mẫu bằng các đặc trưng của đối tượng Trong quá trình này số liệu ảnh sẽ được thu gọn lại Điều này hết sức cần thiết vì sẽ giảm nhỏ được dung lượng bộ nhớ cần dùng và thời gian tính toán Một phương pháp trích chọn đặc trưng tốt nếu như nó duy trì và làm nổi bật được các nét đặc trưng của đối tượng mà những đặc trưng đó sẽ giúp cho việc phân biệt được các lóp mẫu khác nhau, đồng thời
nó cũng miễn trừ được những biến đổi do các thiết bị thu nhận ảnh tạo ra
> Phân lóp (Classification): Đây là bước quyết định trong quá ừinh nhận dạng Tất cả các bước xử lý trước đều nhằm mục đích cho việc phân lớp các mẫu một cách thành công Quá trình phân lóp có thể hiểu một cách đơn giản là quá trình biến đối các số liệu định lượng ở đầu vào sang các số liệu định tính ở đầu ra
Luận văn tốt nghiệp cao học
Trang 11Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt SP*
Đầu ra của bộ phân lớp có thể là sự chọn lựa rời rạc một lớp trong số các lóp đã được định nghĩa trước Cũng có thế là một dãy số biểu diễn các giá trị có thể thừa nhận mẫu đó được hỉnh thành từ lớp tương ứng Trong nhận dạng chữ, thuật toán phân lớp chủ yếu được chia thành hai phương pháp chính, đó là phương pháp thống kê (staticstical) và phương pháp cú pháp (syntactic) Bộ phân lóp có thể gửi các thông tin hồi tiếp về bộ phân tách và bộ ữích chọn đặc trưng đề hiệu chỉnh nhũng sai lệch của hai tiến trình này
r- Hậu xử lý (Postprocessing): Có một số hệ thống nhận dạng mà kết quả nhận dạng cần được xử lý tiếp đê thu được nhiều thông tin hữu ích hơn Các đối tượng đã được phân tách ra thành các mẫu để nhận dạng và quá trình phân lớp
đã gán được ý nghĩa cho các mẫu này, nhưng các đối tượng lại có những mối quan hệ với nhau và những mối quan hệ này có thế mang những thông tin hữu ích Quá trình hậu xử lý có thể xem xét các mối quan hệ này để phát hiện ra các lỗi của việc phân lóp và chữa lỗi này hoặc yêu cầu lại bộ phân lớp thực hiện một
số sửa đổi đề ưánh lỗi đó Đối với hệ thống nhận dạng chữ viết thì bước hậu xử
lý chính là bước ghép nối các ký tự nhận dạng được thành các từ, các đoạn văn, tái hiện lại văn bản, đồng thời kiểm tra chính tả, ngữ nghĩa từng tò trong văn cảnh đê phát hiện ra lỗi nhận dạng
II.4 Chữ viết trực tuyến và ngoại tuyến
Các dữ liệu viết tay thường được số hoá bằng cách quét văn bản hoặc bằng cách viết trực tiếp lên các thiết bị cảm nhận Điều này làm nảy sinh hai kiểu tín hiệu vào
và hai phương pháp tiếp cận trong nhận dạng chữ viết đó là nhận dạng chữ viết ngoại tuyến (Off-line) và trực tuyến (On-Line)[plamondonl
Chừ viết ngoại tuyến được đưa vào máy tính dưới dạng một ảnh hai chiều thuần tuý: có độ phân giải ngang, dọc, màu sắc hay mức xám v.v Còn chữ viết trực tuyến thỉ ngoài những thông tin ừên, còn có cả những thông tin về sự di chuyến nét bút khi viết chừ, những thông tin này được ghi nhận bằng cách đọc vị trí của bút viết tại những khoảng chia thời gian Chính vì vậy vấn đề nhận dạng đối với hai
Luận văn tôt nghiệp cao học
Trang 12Lc M inh Hoàng M ột phương pháp nhận dạng văn bản tiéng Viột «£*
kiêu dù liệu vào này hoàn toàn khác nhau Chữ viết trực tuyến dễ đặc tả cấu trúc
hơn chữ viết ngoại tuyến nhưng lại có phạm vi ứng dụng hẹp, bởi khi đã có bàn
phím, nhũng thiết bị như digitizer chủ yếu dùng để vẽ hình chứ không dùng để viết
chừ
Hình 3: Chữ viết ngoại tuyến (a) và chữ viết trục tuyến (b)
Nói chung, nếu tín hiệu vào là chữ viết trực tuyến thì ta có thế chuyển nó thành chữ
viết ngoại tuyến Thực hiện công việc ngược lại khó khăn hơn nhiều và đôi khi
không cho kết quả đúng Chinh vì vậy, trong những vấn đề nghiên cứu sau này, tôi
chỉ nói đến việc nhận dạng chữ viết ngoại tuyến (Off-line OCR) để thích hợp cho cả
chữ in và chữ viết tay
DẠNG CHỮVIÉT
Năm 1929, Tausheck đã được cấp một bằng sáng chế về nhận dạng chữ viết tại Đức
và năm 1933, Handel cũng được cấp bằng tại Mỹ[Monl Đây là những ý tưởng đầu
tiên về nhận dạng chữ viết Những kỳ vọng về một cỗ máy có khả năng đọc các chữ
và số thì chi có thể trở thành hiện thực và những năm 50 của thế kỷ 20 - khi nhân
loại bước vào kỷ nguyên của máy tính
Những sản phẩm nhận dạng chữ viết mang tính thương mại bắt đầu xuất hiện từ
những năm 1960 Một vài phương pháp nhận dạng đơn giản đã được đưa vào áp
dụng Có thể kể ra một vài sản phẩm tiêu biểu là: IBM 1418, IBM 1428, IBM 1285,
IBM 1287 của IBM, Facom 6399A của Fujitsu và H-852 của Hitachi Kỹ thuật chủ
yếu được sử dụng là phương pháp đối sánh mẫu
Vào những năm 1970, phần mềm nhận dạng chữ viết có hiệu suất cao và giá rẻ
được Hitachi đưa ra thị trường gọi là H8959 Cũng trong thời kỳ này, những tiến bộ
Luận văn tốt nghiệp cao học
Trang 13Lc M inh Hoàng M ột phương pháp nhận dạng văn bản tiéng Việt «é*
công nghệ cho phép chế tạo các máy quét laser giá rẻ và chất lượng cao, một số phần mềm khác cũng được giới thiệu, được viết chủ yếu trên nền FORTRAN, sản phẩm nâng cấp H8959 của Hitachi đã đạt tới độ chính xác 100% nếu được huấn luyện bằng mẫu chừ của một người và thử nghiệm lại bằng chính chữ của người đó Những kỳ thuật phân tích cấu trúc đơn giản đã được tích hợp vào các hệ thống nhận dạng thời kỳ này
Tù giữa những năm 1970 đến những năm 1980, bắt đầu vào kỷ nguyên của PC, máy tính giờ đây nhở hơn, nhanh hơn, và rẻ hơn Những sản phẩm nhận dạng chữ viết klìônt» ngừng được nàng cao chất lượng Hệ thống ASPET/71 của ETL và Toshiba
và hệ thống IBM 1975 đã được thừa nhận và đưa vào sử dụng trong công tác văn phòng Tháng 9/1975, trung tâm thị trường lao động - Bộ lao động Nhật Bản quyết định sử dụng hệ thống nhận dạng chữ viết Katakana trong tất cả các hệ thống bảo hiêm của họ
Tù những năm 1980 trở lại đây, với những cải tiến lớn trong công nghệ chế tạo phần cứng máy tính, với những tiến bộ trong lĩnh vực xử lý thông tin, những bước đột phá trong việc ứng dụng công nghệ tri thức, các hệ thống nhận dạng chữ viết đang ngày một hướng tới sự hoàn thiện Với sự đóng góp của nhiều ngành khoa học, đặc biệt là Toán học và Khoa học máy tính, nhận dạng chừ viết tập trung nghiên cứu phát triển nhằm mục tiêu nâng cao tính ốn định và tính linh hoạt, có khả năng tự thích nghi với các dạng chừ viết khác lạ
Người ta quan tâm tới lĩnh vực nhận dạng chữ viết không chỉ vì nhu cầu cuộc sống,
mà còn vì ham muốn hiểu rõ hơn quá trình nhận thức của mình Những phương pháp tiếp cận khác nhau trong nhận dạng chữ viết cũng được nảy sinh từ những cách hiểu khác nhau về cách con người đọc chữ Theo nhận thức của con người, E
và E là có cùng một ý nghĩa ừong cảm nhận khi nhìn thấy hai mẫu chữ đó Vậy thì liệu có hay không một nguyên lý về sự tương đương giữa những mẫu của cùng một chừ? Cho tới tận bây giờ, vẫn không có một đáp án chung nào cho nguyên lý đó cả
và bài toán này vần là vấn đề trung tâm trong lĩnh vực nhận dạng mẫu|Mon| Tất cả
-» -Luận ván tôt nghiệp cao học
Trang 14Lê Minh Hoàng Một phương pháp nhận dạng văn bân tiéng Việt ss*
những cố gắng từ trước tới nay bằng các phương pháp tiếp cận khác nhau chỉ có thể giải quyết được một phần vấn đề tuỳ theo ngôn ngừ cụ thể Những phương pháp tiếp cận đó có thể chia làm hai hướng chính: Phương pháp đối sánh mẫu (template - matching method) và phương pháp phân tích cấu trúc (structure analysis)
III 1 Phương pháp đối sánh mẫu
Tên gọi phương pháp đối sánh mẫu|Mon| xuất phát từ các phương pháp nhận dạng chữ in dựa trên một quan sát đơn giản: Với một chữ được đúc trên khuôn in thì khi
in ra tại những chỗ khác nhau, những chữ đó phải có những nét tương đồng phụ thuộc vào khuôn đó giống như các con dấu vậy Tất nhiên sẽ có những sai lệch nhất định do mực in, giấy in v.v nhưng do tính chất của khuôn, sẽ có những chỗ ít khi
bị nhoè, có thể tạm coi là bất biến Nội dung của phương pháp đối sánh mẫu là dựa vào nhũng đặc điểm ít biến đổi đó để trích chọn lấy đặc trưng cho một mẫu chữ hoặc vẫn sử dụng tất cả các thông tin nhưng với độ tin cậy (ưọng số) khác nhau đê làm đặc trưng
a) Phương pháp dùng dãy điểm đặc trưng
Trong phương pháp này, mỗi mẫu chừ chuẩn được coi là một ảnh đen trắng, ảnh này sẽ được co về một khung kích thước cố định, thường dùng là khung 16x16, 32x32 đối VỚI bộ ký tự Latin, hay 64x64 đối với chữ tượng hình Trên khung cố định này, người ta lấy một số điểm làm đặc trưng Khi cần so sánh một mẫu cần nhận dạng với một mẫu chuẩn, ta lấy dãy điểm đặc trưng trên mẫu chuẩn đối sánh với dãy điểm cùng vị trí trên mẫu cần nhận dạng để xác định mức độ giống nhau giữa hai mẫu và từ đó ra quyết định xem mẫu nhận dạng tương ứng với chữ cái nào
Việc chọn dãy điếm đặc trưng như thế nào là tuỳ thuộc vào ngôn ngữ, không có quy chuấn nào cụ thể Nói chung không nên chọn dãy điểm đặc trưng là tất cả các điểm trên khung Ví dụ ta có khoảng 10 mẫu số "2" khá giống nhau thì dãy điếm đặc trưng tốt nhất nên chọn là những vị trí có màu giống nhau trên cả 10 mẫu số 2 này
b) Pỉiương pháp lưới
Luận văn tôt nghiệp cao học
Trang 15Lê M inh Hoàng Một phương pháp nhận dạng văn bản tiếng Việt «é*
Một lưới ỏ vuông chuẩn được trùm lên đối tượng, số lượng điểm cắt của mỗi nan lưới dọc và ngang với đối tượng sẽ là đặc trưng của đối tượng Đồng thời số lượng ô chứa một phần của đối tượng cũng được sử dụng làm đặc trưng của đối tượng Mỗi đường dọc và ngang của lưới sẽ được gán một trọng số nhất định
Khi đó dựa vào các thông số và trọng số kể trên, ta có thể xây dựng được một hàm đặc trưng cho đối tượng và việc đối sánh hai đối tượng được quy về đối sánh các hàm đặc trung
Với phương pháp này, việc chuẩn hoá đối tượng là rất quan trọng vì nó sẽ giúp cho việc xác định kích thước của lưới chuân được sử dụng Hơn thế độ nghiêng của đối tượng cần nhận dạng cũng có ảnh hưởng rất lớn đến kết quả của phương pháp này
Hình 4: Phương pháp lưới
c) Phương pháp cung
Có thể loại bỏ ảnh hưởng của độ nghiêng trong phương pháp lưới bằng cách thay thế lưới ô vuông chuấn bằng lưới hình vành khăn: các nan lưới là các đường tròn đồng tâm và các đường thẳng qua tâm Có thể coi đây là phương pháp lưới ứong toạ
độ cực Tâm cực là trọng tâm của đối tượng Những vấn đề xác định đặc trưng còn lại tương tự như phương pháp lưới
Luận văn tỏt nghiệp cao học
Trang 16Lc M inh Hoàng Một phương pháp nhận dạng văn bản ticng Việt «£*
Hình 5: Phương pháp cung
d) Phương pháp chia miền và đo mật độ
Trong phương pháp này, mỗi ảnh tương ứng với một mẫu chừ được chia thành Iihừng miền tách biệt và trên mỗi miền người ta đo mật độ những vùng thuộc chữ Những số đo này được dùng làm đặc trưng cho mẫu và được dùng làm tham số tính toán cho hàm phân biệt Phương pháp này rất nhạy cảm với độ nghiêng, độ đậm củanét chừ
Hình 6: Mẩu chữ được chia làm 9 miền và bản đồ mật độ
II 1.2 Phương pháp phân tích cấu trúc
Đặc trưng của phương pháp phân tích cấu trúc là nhìn nhận mỗi mầu chữ như được cấu thành từ những đối tượng hình học, quan tâm tới các nét, hướng, thứ tự tôpô và đặc tả những đối tượng cũng như mối quan hệ giữa chúng để làm đặc trưng cho
Luận văn tôt nghiệp cao học
Trang 17Lê M inh Hoàng «*v Một phương pháp nhận dạng văn bán tiéng V iệt SÊ*
mẫu|Monl Phương pháp phân tích cấu trúc thích họp với nhận dạng chừ viết tay, khi
mà các chữ được viết có thể coi là không theo một khuôn mẫu nào cả
a) Phương pháp phân tích đường đơn
Năm 1960, Sherman đề xuất cách mô tả cấu trúc chữ bằng các đường mảnh (có thể coi như khung xương của chữ được tạo thành nhờ các thuật toán làm mảnh) Với cách mô ta này, mỗi mẫu chừ được tiệm cận bằng tập các đoạn thẳng đôi một không cắt nhau (nhưng được phép trùng nhau ở đầu mút) Từ đó ông xây dựng một đồ thị phăng tương ứng với tập các cạnh là các đoạn thẳng và tập các đỉnh là tập các đầu mút Trên đồ thị này, ông bỏ qua các đỉnh bậc 2, chỉ giữ lại những đỉnh đặc trưng là: đỉnh treo, đinh rẽ nhánh, đỉnh cắt và coi những thông số đó là đặc trưng đế phân biệt các chữ Tuy nhiên trong trường hợp này, góc nhìn tôpô là rất quan trọng bởi nếu chi dựa vào những thông số kế trên sẽ không tránh khỏi sự sai lầm
Cách thứ nhất, để khắc phục nhược điểm này là ngoài những đỉnh treo, đỉnh rẽ nhánh, đỉnh cắt, nhừng phần còn lại của đồ thị sẽ được mô tả đưới dạng các đoạn thắng và các cung Phương pháp này cho phép đặc tả cấu trúc chặt chẽ hơn nhưng lại hết sức khó khăn khi cài đặt
Cách thứ hai, có thể áp dụng được trong trường hợp này dựa vào nhận xét: Neu bở
đi các đỉnh rẽ nhánh, đỉnh cắt và đỉnh treo thì mồi phần rời còn lại có thể vẽ chỉ bằng một nét đơn Khi đó những nét đơn này có thể mã hoá bằng xích hướng hay còn gọi là mã Freeman Các mã Freeman cùng với những điểm đặc trưng trong phương pháp của Sherman sẽ được dùng đế đặc tả cấu trúc chữ
Hình 7: Ví dụ tồi tệ đối với cách phân tích cấu trúc của Sherman
;?iA H A NO * ;
Luận văn tố t nghiệp cao học
Trang 18Lê M inh Hoàng Một phương pháp nhặn dạng văn ban tiếng Việt
Trong phương pháp này, mỗi đối tượng được đặt trong không gian Euclide 2 chiều
và được đặc ta bằng các khái niệm hình học cơ bản: đoạn thẳng, đường tròn, ellipse, thậm chí cả các đường Bezier và B-Spline Mỗi đối tượng hình học này được viết phương trình toạ độ và được ưích ra một số đặc trưng như hướng, độ cong, điểm uốn v.v Và những đặc trưng này được dùng làm tham số cho hàm phân biệt của mồi lớp
Cách tiếp cận này khá chặt chẽ về mặt lý thuyết, chẳng hạn có thế mô tả chữ o là
c) Phương pháp phân tích đường biên
Trong phương pháp phân tích đường biên, từ một mẫu chữ, người ta tìm đường biên (contour) của chữ và các đường biên của: bao lồi (convex hull), miền lõm (concavity), các lỗ hống (hole) và vị trí tương đối giữa các lồ hổng
-, -Luận văn tôt nghiệp cao học
Trang 19Lc M inh Hoàng Một phương pháp nhận dạng văn bản tiếng V iệt ss*
9 • y •
e)
Hình 9: Mau chữ (a), Bao lồi (b), Miền lõm (c), Lỗ hổng (d) và các dường biên (c)
Khi đó mỗi mẫu chừ sẽ được đặc tả bởi một bộ các đường biên Mồi đường biên có the được mô tả bằng mã Freeman, bằng đường cong nội suy
Có thể nhận thấy rằng nếu việc phân lóp các đường biên được thực hiện tốt thì việc
sử dụng quá nhiều yếu tố như tiên là quá chặt Đối với chữ Việt, theo tôi chỉ cần lấy đường biên của chừ và vị trí tương đối của các lỗ hổng là đủ Bởi hình dạng của lỗ hống cũng như bao lồi, miền lõm không mang tính chất quyết định tới việc nhận dạng chừ Việt
Phương pháp phân tích đường biên rất nhạy cảm trong trường hợp chữ bị dính nét hay đứt nét, chính vì vậy cần phải có những giải pháp tiền xử lý đúng đắn trước khi thực hiện việc dò biên
d) Phương pháp sử dụng hình chiếu
Phai nói rằng đây là một phương pháp không c ó độ chính xác cao, nhưng vẫn được nhiều tài liệu đề cập đến, bởi các hệ thống nhận dạng sử dụng phương pháp này có tốc độ tốt và tận dụng được những ưu điểm của hình chiếu so với bản thân mẫu chữ Phương pháp này đặc biệt hiệu quả trong trường hợp chỉ cần nhận dạng trong một tập hợp nhở các ký hiệu khó gây nên sự nhập nhằng (chẳng hạn như các chữ "Y" và
"N", "C" và "K", ) và cho phép một số sai sót nhất định Thống kê các phiếu điều tra là một ví dụ ứng dụng cho phương pháp sử dụng hình chiếu
Luận văn tố t nghiệp cao học
Trang 20Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt
Phương pháp sư dụng hình chiếu tức là sử dụng biểu đồ mật độ thay cho chừ Thông thường người ta sử dụng bốn loại biểu đồ mật độÍParkI995)
• Biêu đồ mật độ ngang (HRPCT): Là lược đồ xám ngang của chữ
• Biêu đồ mật độ dọc (VRPCT): Là lược đồ xám dọc của chữ
• Biểu đồ mật độ chiếu ngang dọc (HVRPCT)
Chi tiết về 4 phép chiếu này được trình bày trong hình 10:
\ f
— ► s ▼▼vỷr
>/a / V4 -I V
Hình 10: Một số loại hình chiếu của mẫu chữ gốc
Một số ưu điểm nổi trội của các hình chiếu so với mẫu chừ ban đầu có thế kể ra là: Hình chiếu không có lỗ hổng (miền đơn liên) nên chỉ có một đường biên Đe dò đường biên của hình chiếu không cần phải dùng các kỹ thuật của xử lý ảnh mà có thể thực hiện ngay trong khi đo mật độ Hình chiếu ít bị ảnh hưởng khi chữ bị dính hay đứt nét
Tuy nhiên phương pháp sử dụng hình chiếu cũng có nhược điểm: nó phụ thuộc vào
độ dày của nét chữ (nếu làm mảnh nét sẽ khiến cho hình chiếu không rõ ràng) Mặc
dù trong các chừ in tiếng Việt, không có hai ký tự nào giống nhau trên cả 4 loại hình chiếu nhung đối với chữ viết tay, rất có thể 4 loại hình chiếu kể trên là chưa đủ đế phân biệt
Luận văn tôt nghiệp cao học
Trang 21Lc Minh Hoàng M ột phương pháp nhận dạng văn bần tiếng Việt S5*
Việc đưa phương pháp sử dụng hình chiếu vào lớp các phương pháp phân tích cấu trúc là chưa thật hợp lý, mà nên coi đây chỉ là một giải pháp để thay việc nhận dạng mẫu chữ về việc nhận dạng các hình chiếu, còn việc nhận dạng như thế nào hoàn toàn có thể sử dụng phương pháp đối sánh mẫu Tuy nhiên để tận dụng được các ưu điểm cua hình chiếu, người ta vẫn thường dùng phương pháp phân tích đường biên Trong công trinh nhận dạng bộ ký tự Hangul (Hàn Quốc), Hee-Seon Park và Seong- Whan Lee đã inã hoá đường biên các hình chiếu dưới dạng mã Freeman và sừ dụng
mô hình Markov ẩn để nhận dạng đạt độ chính xác 96.7%, đây là một hiệu suất cao trong nhận dạng chữ tượng hình
Đề tài này trình bày phương pháp sử dụng mô hình Markov ẩn (Hidden Markov Models - HMM) trong nhận dạng chừ viết tay hạn chế dựa theo cấu trúc biên cua chữ Tư tưởng chính là sử dụng các tiến trình ngẫu nhiên đề mô hình hoá quá trình nhận dạng chữ viết bằng cách sử dụng xác suất để ưích chọn những đặc trưng cấu trúc của đường biên Đề tài nghiên cứu chuyên sâu vào các vấn đề:
• Đặc tả cấu t rú c chữ: Phân tích các miền liên thông, biểu diễn đường biên theo
mã xích, phân lớp các mẫu huấn luyện
• Sử dụng HMM để loại bỏ nhiễu và trích chọn đặc trưng cấu trúc đường biên Phân tích tính hữu hiệu của phương pháp khi xử lý những thông tin không chắc chắn hoặc không đầy đủ
• Phương pháp nhận dạng từ Việt và các kỹ thuật xử lý văn bản
Phạm vi nghiên cứu của đề tài là Tiếng Việt, vì vậy nội dung đề tài chỉ đề cập đến các cách thức xử lý trong nhận dạng chữ và từ Tiếng Việt, những ký hiệu và từ không phải tiếng Việt (Các bộ kí tự tượng hình, Sanskrit, Hy Lạp hay CnobeHufl ) không thuộc phạm vi nghiên cứu của đề tài
-
J -Luận vãn tôt nghiệp cao học
Trang 22Lc Mi nil Hoàng Một phương pháp nhận dạng văn bản tiếng V iệt «p»
Hệ có tính chất này được gọi là quá trình Markov1T‘enl[Tien Yenl
( 'hăng hạn, nếu gọi X(t) là dân sổ tại thời điểm t trong tương lai thì có thể xem như Xít) chì phụ thuộc vào dân sổ hiện tại và độc lập VỚI quá khứ Nói chung những hệ không cỏ sức ỳ là những hệ có tính Markov.
Ta kí hiệu tập E là tập các giá trị của X(t) và gọi E là không gian trạng thái của X(t) Nếu X(t) có tính Markov và E là tập không quá đếm được thì X(t) được gọi là xích
M arkov (Markov chain) Thêm vào đó, nếu t = 0, 1, 2, thì ta có khái niệm xích Markov với thòi gian rời rạc, còn nếu t e [0, +oo) thì ta có khái niệm xích Markov với thời gian liên tục
về phương diện toán học, tính Markov có thể định nghĩa như sau:
Ta nói rằng X(t) có tính Markov nếu:
P{X(tn+1) = j I X(to) = i o , X ( t n.,) = X(tn) = i} = P{X(tn+i) = j I X(tn) = i}
Với bất kỳ to < t| < < tn < t n+i và io, i i , i „ - i , i,j e E
Ta xem tn là hiện tại, tn+i là tương lai và (to, t], tn_i) là quá khứ Vì thế biểu thức trên thể hiện tính Markov của X(t)
ỉ Mận văn tôi nghiệp cao học
Trang 23Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt
Đặt p(s, i, t, j) = P{X(t) = j I X(s) = i}, (s < t) đó là xác suất có điều kiện để hệ tại thời điểm s ở trạng thái i đến thời điếm t chuyển sang trạng thái J Ta gọi đây là x á c
suất chuyển cua hệ Nếu xác suất chuyển chỉ phụ thuộc vào t - s, tức là:
p(s, i, t, j) = p(s + À, i, t + À, j)
thỉ ta nói quá trình Markov này là thuần nhất theo thời gian
Giả sử (Xn); n = 0, 1, 2, là xích Markov rời rạc và thuần nhất Nói một cách chính xác là: Giả su (Q, A, P) là không gian xác suất, x n: Q —»E là biến ngẫu nhiên nhận giá trị trong tập không quá đếm được E E là không gian trạng thái mà các phần tử của nó có thể đánh số 1, 2, Khi đó tính Markov và tính thuần nhất của (Xn) có nghĩa là:
Pij — P(Xn+Ị — J I x n — ì) — P(Xn+1 — J I Xo — l o , x n_! ln-lj Xn — l)
không phụ thuộc vào n
Trong trường hợp này, ta dùng ký hiệu a,j thay cho Pij để đặc trưng riêng cho xích Markov rời rạc và thuần nhất
Chú ý rằng từ công thức xác suất đầy đủ, ta suy ra:
Trang 24Le M inh Hoàng <*ì* Một phương pháp nhận dạng văn bàn tiéng V iệt «é* *v24ss>“
l a sẽ chứng minh công thức sau : Vn = 0, 1,2,
, ( n + l )
5keE
( n )
^ĩk ^kj
Ta lập luận như sau: Để hệ xuất phát ở trạng thái i, sau n + 1 bước chuyển sang trạng thái J là kết quả của việc hệ xuất phát từ trạng thái i, sau 1 bước chuyển sang trạng thái k nào đó, để rồi sau n bước tiếp theo chuyển tới trạng thái j Từ đó suy ra:
Trang 25Le Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt «£*
III M ô HÌNH XÍCH MARKOV
Có nhiều loại mô hình xích Markov: Mô hình kiểm kê, mô hình bình, mô hình phục
vụ đám đông v.v Tuy nhiên dưới đây ta chỉ xét tới một ví dụ quan trọng liên quan tới việc xây dựng lý thuyết về mô hình Markov ẩn
Trò chơi nhặt bóng (Urns and balls model|Rabmerl[Ponlzl): Có N cái bình đánh số 1,2,
N Trong mỗi bình có chứa một số quả bóng, mỗi quả bóng có một trong M màu: {V], VM} Trò chơi diễn ra như sau: Người ta chọn ngẫu nhiên một bình, trong bình đó chọn ngẫu nhiên một quả bóng, ghi nhận lại màu của quả bóng đó rồi trả lại quà bóng vào bình Sau T lần như vậy dãy màu ghi nhận được có dạng 0], 0 2,Or
Gia sư 71 i là xác suất để bình thứ 1 được chọn đầu tiên, a¡j là xác suất tại thời điểm t+1 chọn bình thứ j trong điều kiện tại thời điểm t đã chọn bình thứ i a,j không phụ thuộc vào t (nó chỉ phụ thuộc vào khoảng cách giữa hai bình chẳng hạn), và cuối cùng ta biết được số bóng trong mỗi bình cũng như màu của các quả bóng đó, hay
rõ hơn, ta biết được b j(v k) là xác suất để chọn được quả bóng màu v k trong bình j Một trong những vấn đề đặt ra là cho trước một dãy màu o = (Oi, O2, Or), hãy tính xác suất để người chơi chọn được dãy màu đó
Đê tính xác suất này, ta thử xét xem nếu dãy bình được chọn là Q = (qi, q2, q-r) thì xác suất nhận được dãy o = (Oi, 0 2, 0 T) là bao nhiêu Dễ thấy rằng:
P ( 0 |Ọ ) = bqi(0 ,).b q2( 0 2) bqT( 0 T)
Ngoài ra, xác suất để chọn được dãy bình Q = (q]; q2, q - r ) là:
P(Q) = ^qj-^q \ C\ 2 ‘^2^3 ^T-lqT
Vậy xác suất để chọn được dãy bình ọ và dãy màu o là:
P(0, Q) = P (0 I Q).P(Q) = 7iqi.bqi(0i).aqiq2.bq2(02).aq2q3 aq.r iqT.bqT( 0 T)
-
7 -Luận văn tỏ t nghiệp cao học
Trang 26Lc M inh Hoàng M ột phương pháp nhận dạng văn bản tiéng V iệt «£*
Theo công thức xác suất đầy đủ, nếu ta cộng tất cả các P(0, Q) với tất cả các khả năng có thê của dãy bình Q thì ta sẽ được xác suất phát sinh dãy màu 0 trong tròchơi Vậy:
P(O ) = I P ( 0 , Q ) = 2 > „ b qi (O ,)a qiqíb i2( 0 2) aqT „ Tb qT(O t )
Giờ đây, nếu gọi mỗi bình là một trạng thái (state), mỗi màu e{vi, v2, VM} là một ký hiệu quan sát hay mẫu quan sát (observation symbol), mỗi dãy Q = (qi, q2, qT) là dãy trạng thái (state sequence), mỗi dãy o = (Ol, O2, Or) là dãy quan
sát (observation sequence) thì ta có thể mô hình hoá trò chơi như một máy trừu tượng sinh ra dãy quan sát Cùng với dãy quan sát được phát sinh, những trạng thái cua cỗ máy cũng liên tục vận hành tuân theo quy luật của xích Markov rời rạc và thuần nhất Đó chính là nguyên tắc làm việc của Mô hình Markov an (Hidden Markov Model - HMM) [Rab,ner][Pont*]_
IV MỒ HÌNH MARKOV ẨN (HIDDEN MARKOV MODEL - HMM)
Các ký hiệu đuọc dùng trong định nghĩa
• N = Số trạng thái ừong mô hình
• M = Số ký hiệu quan sát có thê
• T = Độ dài của dãy quan sát (Số ký hiệu trong dãy quan sát)
• Những trạng thái được gán số hiệu: 1, 2 , N
• q, biêu thị trạng thái của mô hình tại thời điểm t
• V = {V[, v2, VM}: Tập rời rạc các ký hiệu quan sát có thế
• Các phân bố xác suất cho ứạng thái đầu (initial State probability distribution):^ =
{7t], % 2 , tcn}, TCi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu
t=l
7Cj = P(qi = i)
Luận văn tôt nghiệp cao học
Trang 27Lê M inh Hoàng M ột phương pháp nhận dạng văn bản tiếng Việt
• Ma trận xác suất chuyển (transition matrix): A = {ay}, ở đây ajj là xác suất để trạng thái J xuất hiện tại thời điểm t + 1 khi trạng thái i đã xuất hiện tại thời điểm
t Gia thiết rằng a,j là độc lập với thời gian t (Dãy qi, q2, v.v là xích Markov rời rạc v à thuần nhất):
aij = P(qt+i = j l q t = i)
• Các h à m đ o xác s u ấ t phát x ạ m ầ u ( e m i s i o n f u n c t i o n s ) B = {b j(V k )}5
bj(vk) = P(vk phát sinh tại thời điểm t I qt = j)
• 0 | b i ể u thị ký h i ệ u q u a n s á t tạ i th ờ i đ i ể m t.
Bộ ba X = (A, B, 7t) được coi là ký pháp gọn của một mô hình Markov an A, B
và 71 đuọc gọi là những tham số (parameters) của mô hình X.
Hoạt động của HMM có thể mô tả như sau: Tại thời điểm t = 1, mô hình ở trạng thái (|i nào đó và phát sinh ra một ký hiệu quan sát nhất định O), sau đó, tại thời điểm t =
2, mô hình chuyển sang trạng thái q2 và phát sinh ký hiệu quan sát 0 2 Cứ tiếp tục tới thời điểm t = T, mô hình phát sinh được dãy quan sát o = (Oi, 0 2, Oị) bằng dãy trạng thái ọ = (qi, q2, qi) Dãy trạng thái Q phụ thuộc vào các xác suất chọn trạng thái khởi đầu 7Cj và các xác suất chuyển a ịj Dãy ký hiệu quan sát Ot được HMM phát sinh phụ thuộc vào dãy trạng thái Q và các hàm đo xác suất phát xạ mẫu bj(.)
Hình 11: Mô hình M arkov ẩn
Từ định nghĩa của HMM ta có các tính chất:
Luận vàn tôt nghiệp cao học
Trang 28Lê M inh Hoàng M ột phương pháp nhận dạng văn bản tiéng Việt
Người ta còn mở rộng định nghĩa HMM với N trạng thái và tập các ký hiệu quan sát
V có thể là không gian mẫu có lực lượng continum Khi đó các hàm bj(.) có thể thay bằng hàm mật độ của một phân phối xác suất nào đó trên V, như phân phối đều, phân phối Poisson, phân phối Gamma, phân phối chuẩn nhiều chiều v.v Sự lựa chọn này là tuỳ theo từng bài toán cụ thể
Trang 29Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiếng V iệt «é*
Hình 12: Đồ thị chuyển trạng thái và các xác suất chuyển
Các hàm do xác suất phát xạ mẫu bj(vk) có thể cho bằng ma trận:
-, -Luận vãn tô t nghiệp cao học
Trang 30Lẽ Mmlì Hoàng Một phương pháp nhận dạng văn bàn tiếng V iệt s?» -^ 3 0 ^ »
phái suy diễn từ các tham số của mô hình và bản thân dãy quan sát đó Tức là suy diễn tù những thông tin đã biết và những gì quan sát được để dự đoán gần đúng dãy trạng thái ẩn Đó chính là vấn đề nhận dạng sử dụng HMM
Mô hình Markov ẩn rất hữu hiệu đối với những vấn đề dự báo, nhận dạng khi mà phép quan sát được thực hiện trong những khoảng thời gian rời rạc Hai trong những lĩnh vực được quan tâm nhất là nhận dạng tiếng nói và nhận dạng chữ viết Chuỗi tín hiệu tượng trưng cho một từ (âm thanh, hình ảnh) được chia ra theo các khoảng thời gian rất ngắn và HMM được sử dụng đề trích chọn những tính chất đặc trưng của từ đó nhằm phân biệt với những từ khác (vần "ch" và "tr" trong phát âm tiếng Việt chăng hạn) Đồng thời, HMM còn cho phép đoán ra những thông tin không thề nhận dạng được nếu chỉ dựa vào "trực giác" Ví dụ khi nhận dạng các chữ
trong ảnh lĩ l M ẵl, nếu ta đã nhận ra chắc chắn ký tự đầu tiên là chữ "q" thì ký tự thứ
2 hầu như chắc chắn phải là chữ "u" theo văn phạm tiếng Việt (P(qt+1 = "u" I qt =
"q") = 100%) bất kể phần ảnh đó bị hỏng như thế nào Điều đó làm cho quá trình nhận dạng bằng HMM mang tính kinh nghiệm và tính người hơn (Thực tế cho thấy rằng để đọc một văn bản người ta không cần đọc hết các từ, để đọc một từ thì không cần phải đọc hết các chừ)
V BA BÀI TOÁN ĐẶT RA ĐỐI VỚI MÔ HÌNH MARKOV ẨN
Bài toán 1: (Tiêu chuấn tối ưu - Optimization Criterion)
Cho m ô hình Ằ = (A, B, 71) và một dãy quan sát o = (Oi, Ơ2, Or), cần phải tính
P(0 I Ằ) - xác suất phát sinh dãy quan sát o với mô hình A-.
Bài toán 2: (Nhận dạng - Recognition)
Cho mô hình Ằ = (A, B, 7ĩ) và một dãy quan sát o = (Oi, O2, Or), cần phải chọn
một dãy trạng thái ọ = (qi, q2, q-r) để P(0, ọ I À) - Xác suất để mô hình X phát
sinh dãy quan sát o và chuyển trạng thái theo dãy Q - đạt cực đại
Bài toán 3: (Huấn luyện - Training)
Luận văn tô t nghiệp cao học
Trang 31Le M inh Hoàng M ột phương pháp nhận dạng văn bàn tiéng V iệt S5*
Cho mô hình X = (A, B, n) và một dãy quan sát o = (0], 0 2, 0 T), cần phải hiệu
chinh các tham số của mô hình Ả để cực đại hoá tiêu chuẩn tối ưu P (0 I À).
VI GIẢI PHÁP CHO BA BÀI TOÁN
VI 1 Bài toán 1
Có nhiều tiêu chuẩn tối ưu khác nhau, tuỳ theo từng vấn đề cụ thể Có thể là làm
c ự c đại hoá sự tương tự (maximum likelihood - ML) theo phương pháp truyền
th ố n g , làin cực đại hoá những thông tin tương hỗ lẫn nhau (maximum mutual information - MMI), hay làm cực tiểu hoá những thông tin phân biệt (minimum discrimination information - MDI)|Park19951 Những tiêu chuẩn này được coi là mục
tiêu c h o việc huấn luyện HMM Có thể coi tiêu chuẩn tối ưu là một hàm đo mức độ
tư ơ n g thích của một HMM với một dãy quan sát
Tiêu chuẩn cực đại hoá sự tương tự (ML) là phương pháp fruyen thống Với một dày quan sát o và một tập hữu hạn s các HMM, tiêu chuẩn ML cho phép chọn ra
một HMM Ả* e s có xác suất phát sinh ra dãy quan sát o là lớn nhất Tức là:
độ phức tạp tính toán của phương pháp này cỡ 0(T N 1), đây là một cấp phức tạp
Luận văn tôt nghiệp cao học
Trang 32Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiếng Việt «ể* *v32ss>°
quá lớn Ngay cả VỚI những giá trị nhỏ N = 5, T = 100, số phép tính sơ cấp cần thực hiện lên tới xấp xỉ 1072 Chính vì vậy, ta phải tìm những cách tính P (0 I X) hiệu quả hơn, có hai phương pháp mà ta sẽ khảo sát: phương pháp tính xuôi và phương pháp tính ngược (Forward - Backward Procedure) fRabmerHDu8adHLi]
Thủ tục tính xuôi (Forw ard Procedure)
Xét các biến "xuôi" a t(i) (1 < i < N) được định nghĩa như sau:
ở đây a t(i) là xác suất đề Ằ phát sinh ra dây quan sát tính tới thời điểm t, và mô
hình ở trạng thái i cũng tại thời điểm t oct(i) được tính toán quy nạp như sau:
I Khởi tạo cơ sở quy nạp
Đẽ giải thích công thức truy hồi (VI 1.4) ừong bước 2, chúng ta cần tính xác suất cua một phần dãy quan sát tính tới thời điểm t + 1 mà mô hình cũng ở trạng thái j tại thời điểm đó Đe tính xác suất này, ta lập luận như sau: Việc mô hình phát sinh dãy
Oi, 0 2, Ot+i và ở trạng thái j tại thời điểm t + 1 là kết quả của việc mô hình phát sinh dãy Oi, 0 2, Ot và ở trạng thái i nào đó tại thời điểm t, sau đó từ trạng thái i chuyển sang trạng thái j rồi phát sinh ra ký hiệu quan sát Ot+) Vậy:
a t(i) = P(Oi, 0 2, Ot, qt = i I X ) , (1 < t < T) (VI 1.2)
Trang 33Le Minh Hoàng Một phương pháp nhận dạng văn bán tiếng Việt ss*
1=1
b ,( O t+1)
Công thức tính P (0 I Ằ) dựa vào các a-r(i) ở (VI 1.5) là hoàn toàn hợp lý Bởi a-r(i) =
P (0|, 0 2, 0 |, qT = i I Ằ) và khi xét tất cả các dãy ừạng thái có thể (độ dài T) thìphần tử cuối cùng trong mỗi dãy trạng thái đó (qx) sẽ nhận các giá trị {1, 2, N},vậy nên theo công thức xác suất đầy đủ:
Dễ thấy rằng chi phí thực hiện thuật toán này cỡ 0 (N 2T) So sánh với độ lớn cỡ
0 (T N 1) ở phương pháp tính trực tiếp, ta thấy chi phí này thấp hơn nhiều Với N = 5
Thủ tục tính nguọc (Backward Procedure)
Một cách tiếp cận tương tự, ta định nghĩa các biến "ngược" Pt(i) (1 ^ i ^ N) được định nghĩa như sau:
pt(i) = P(Ot+i, 0*2, O t I qt = U ) , (1 < t < T) (VI 1.6)
là x á c suất phát sinh một phần dãy quan sát từ thời điểm t + 1 tới T, mà trạng thái i
đà đ ư ợ c chọn tại thời điểm t trên mô hình Ầ Lưu ý rằng ở đây qt = i là điều kiện đã
Luận văn tôt nghiệp cao học
Trang 34Lc M inh Hoàng ^ Một phương pháp nhận dạng văn bàn tiéng Việt
được cho trước (không giống như trường họp các biến xuôi) Thuật toán tính ngược
có thể IT1Ô t ả như sau
1 Khởi tạo cơ sở quy nạp:
tính P(0 I X) Bài toán 1 được giải quyết.
Từ hai phương pháp tính trên, ta dễ dàng suy ra ràng:
P(0|X ) = 5 ^ Ia t(i)Pt(i) Vt: 1 < t < T
II
VI.2 Bài toán 2
Chúng ta phải tìm dãy trạng thái Q = (qi, q2, qr) để P(0, Q I X) -> max Có một thuật toán nổi tiếng để giải quyết vấn đề này, đó là giải thuật vỉterbi1DugadllRabmerl Nó
là giải thuật cảm ứng mà tại mỗi bước tính tới thời điểm t, ta giữ lại những dãy
trạng thái tốt nhất (cho xác suất P(Oi, 0 2, Ot, qi, q2, qt I A,) cực đại) để từ đó đánh giá và tìm ra những dãy ưạng thái tốt nhất làm cực đại hoá xác suất P(Oị, Ơ2,
Trang 35Lc M inh Hoàng M ột phương pháp nhận dạng văn bàn tiếng Việt s?* «*v35sp°
Ta định nghĩa: f(k, j) là xác suất lớn nhất có thể có được khi mô hình chuyến theo một dày trạng thái qi, q2, qk nào đó và phát sinh dãy quan sát Oi, 0 2, Ok Có nghĩa là:
Với k > 2, tiếp tục xét biểu thức của f(k, j) ta có:
(Bơi f(k - 1, i) và các độ đo xác suất a,j, b,() đều là các số không âm)
Ta có công thúc truy hồi xây dựng f(k, j)
Tất nhiên cuối cùng ta quan tâm đến các f(T, j): Xác suất lớn nhất để mô hìnhchuyển trạng thái theo một dãy Q = (qi, q2, qr = j) nào đó và phát sinh dãy quansát o = (O), 0 2, 0 T)
Giả sư rằng f(T, j*) là giá ữị l(ýn nhất trong các f(T, j) thì f(T, j*) chính là cực đạicua xác suất đê mô hình chuyến trạng thái theo dãy trạng thái Q = (qi, q2, q r = j )
Luận văn tố t nghiệp cao học
Trang 36Lê M inh Hoàng <*& Một phương pháp nhận dạng văn bán tiếng Việt
và phát sinh dãy quan sát o vấn đề còn lại là lần theo vết của quá trình tối ưu để tìm lại toàn bộ dãy trạng thái Q đó Tất cả quá trình có thể giải bằng phương pháp quy hoạch động như sau:
{
Input: Mô hình X = (A, B, n) , dãy quan sát o = (Oi, 0 2, , Or)
sư dụng logarit: tính trước các logarit của a,j, bj(.) rồi cài đặt thuật toán tương tự, khi
đó ta có thê giảm bớt các phép nhân là phép tính khá chậm, thay bằng phép cộng là phép toán thực hiện nhanh hơn
Nếu xem xét giải thuật Viterbi dưới bài toán đồ thị Xét đồ thị có hướng G=(V,E) có TxN đỉnh xếp tiên lưới kích thước TxN:
• Nhũng đỉnh ở hàng 1, cột j có trọng số ln(7tjbj(Oi)) = ln(7ĩj) + ln(bj(Oi)) (Vj)
Luận văn tốt nghiệp cao học
Trang 37Lc M inh H oàng Một phương pháp nhận dạng v ăn bàn tiếng V iệt «s*
Đỉnh ở (hàng t, cột i) có cung nối tới đỉnh ở (hàng t + 1, cột j) và trọng số cung
đó là: ln(ajj.bj(Ot+i)) = ln(ajj) + ln(bj(Ot+i)), (1 < i, j < N; 1 < t < T):
H ình 13: Dạng đồ thị của thuật toán V iterbi
Xét mỗi đường đi trên đồ thị xuất phát từ một đỉnh ở hàng 1 tới một đỉnh ở hàng T, nếu ghi nhận lại các số hiệu cột của những nút đi qua, ta sẽ được một dãy trạng thái
Ọ - (qi, (\ 2 , qr) Trọng số (độ dài) đường đi này chính là ln(P(0,Q I Ằ,)) Đồ thị G
là có lìướng và không có chu trình nên thuật toán Viterbi đơn giản là tìm đường đi dài nhất xuất phát từ một nút trên hàng 1 tới một nút trên hàng T bằng phương pháp tối ưu theo từng lóp (critical path) Trên đánh giá lý thuyết, độ phức tạp tính toán cua thuật toán Viterbi là 0 (N 2T) Bài toán thứ 2 được giải quyết xong
V 1.3 Bài toán 3
Bài toán này liên quan tới vấn đề huấn luyện HMM, có thể mô tả một cách hình thức như sau: với một dãy quan sát đưa vào đế học, quá trình huấn luyện phải mã hoá dãy quan sát theo một cách nào đó để nếu sau này gặp phải một dãy quan sát khác có n h i ề u đặc t r ư n g t u o n g tụ- thì nó có thể "đoán nhận" được Khác với hai bài toán đầu tiên có tư tưởng giải thuật hết sức rõ ràng, bài toán huấn luyện là một
-
y -Luận vàn tôt nghiệp cao học
Trang 38Lê M inh Hoàng M ột phương pháp nhận dạng văn bản tiếng V iệt «£*
bài toán khó bởi nó liên quan đến vấn đề cảm tính: Với hai dãy quan sát, dựa vào đâu để nói rằng chúng khác nhau hay tương tự nhau, và nếu chúng tương tự nhau thì
0 mức độ nào? Chính vì vậy, tuỳ theo từng vấn đề cụ thể mà người ta sử dụng những tiêu chuẩn và quá trình huấn luyện đặc thù
Phương pháp chung nhất là dựa vào tiêu chuẩn tối ưu ML của bài toán 1 để huấn luyện HMM làm cực đại hoá tiêu chuẩn tối ưu Tức là ta phải tỉm các tham số xác suất tốt nhất đẻ mô hình có tính tương thích cao với dãy huấn luyện Điều đó có
nghĩa là với một mô hình ban đầu Ả = (A, B, 7t) Ta phải chỉnh lại các tham số xác
suất đê được mô hình x = (A ,B,7ĩ) mà P(0 I X) > P (0 I X) với dãy huấn luyện o.
Sau đó sử dụng X để hiệu chỉnh tiếp cho tới khi đến được điếm giới hạn.
Tại mỗi bước huấn luyện, đê hiệu chỉnh lại các tham số, ta có thể sử dụng giải thuật ước lượng Baum-Welch1Rabmcr! Giả thiết ràng một mô hình HMM ban đầu (À.) là đã
biết và ta cần phải cải thiện dần để làm cực đại P (0 I Ằ) Mô hình HMM ban đầu có
thê được xây dựng theo bất kỳ cách nào Ta định nghĩa một vài ký hiệu cho việc xây dựng thuật toán:
Xét Yt(i) được định nghĩa như sau:
• 0,(i) = P(Ow ,O„2, .,0Tlq, = U )
Luận văn tố t nghiệp cao học
Trang 39Lc M inh Hoàng Một phương pháp nhận dạng văn bản tiếng Việt SP*
Ta định nghĩa 4i(i, j) như sau: ẽ,t(i, j) = P(qt - i, Qt+1 = j I o , Ả) Đây là xác suất khi
mô hỉnh đang có trạng thái i tại thời điểm t, thực hiện phép chuyển sang trạng thái j tại thời điêm t + 1 khi phát sinh dãy quan sát o = (0], 0 2, Or) Cũng theo luậtBayes, ta có:
r P ( q t = ũ q t+i = j , o | x )
Nhưng o = (Oi, 0 2, 0 [) nên ta có:
Tư số = P (0,, Ot, q, = i, qt+i = j, Ot+i , 0 T I X)
= P(0,, Ot, qt = i, qt+i =J, Ot+, I X).P(Ot+2, 0 TI qt+i = j, X)
(Từ tính chất cua xích Markov, các ký hiệu quan sát Ot + 2 Oi được phát sinh bằngcác trạng thái qt+2-.-q-r, nhữiig trạng thái này chỉ phụ thuộc vào qt+i chứ không phụthuộc vào trạng thái của mô hình tại những thời điểm trước đó: qt, qt-i, cũng như không phụ thuộc vào các ký hiệu quan sát đã phát sinh: Oi, 0 2, Ot+i)
Nếu ta cộng tất cả các Yt(i) với t từ 1 tới T thì ta có một số là kỳ vọng mẫu của xác
suất để mô hình chuyển đến trạng thái i Nếu ta chỉ cộng các Yt(i) với t từ 1 tới T - 1 thì ta có kỳ vọng mẫu của xác suất để mô hình chuyển ra khỏi trạng thái i Tương tự như vậy nếu đein cộng tất cả các £t(i, j) với t từ 1 tới T - 1, ta có kỳ vọng mẫu của xác suất đê mô hình chuyển từ trạng thái i sang trạng thái j:
Luận văn tố t nghiệp cao học
Trang 40Lê Minh Hoàng ^ Một phương pháp nhận dạng văn bán tiếng V iệt «£*
T - l
• ^ Y t ( i ) = kỳ vọng mẫu của xác suất để mô hình chuyển ra khỏi trạng thái i
• ^ 4 t ( i j ) = kỷ vọng mẫu của xác suất để mô hình chuyển tò trạng thái i sang
đê mô hình ở trạng thái j
Ta tạo ra một mô hình khởi tạo X và ước lượng lại tham số của nó để được mô hình
Ằ = (A ,B,7ĩ) Có thể chứng minh rằng P (0 I Ằ) < P (0 I AẠ Cứ tiếp tục chỉnh tham
số như vậy cho tới khi P (0 I A.) đạt tới giá trị cực đại (không thể tối ưu thêm được nữa) Ta giải quyết xong bài toán 3
Có một điểm quan trọng cần lưu ý là: giải thuật huấn luyện này chỉ đẩy P (0 I Ằ) đến inột điểm dừng nào đó, điểm dừng này có thể là một điểm uốn hay một điếm cực