Nhận dạng là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích các bản mã v.v..Trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail trên hệ thống Internet…
Trang 1Đ I H C THÁI NGUYÊNẠ Ọ
TRƯỜNG Đ I H C CÔNG NGH THÔNG TIN VÀ TRUY N THÔNGẠ Ọ Ệ Ề
Đ CỀ ƯƠNG CHI TI T LU N VĂN TH C SĨẾ Ậ Ạ
TÊN Đ TÀI Ề
NH N D NG VĂN B N M T S NGÔN NG LA TINHẬ Ạ Ả Ộ Ố Ữ
Giáo viên hướng d nẫ : TS. H Văn Canhồ
H c viên th c hi nọ ự ệ : Lê M nh Đoanạ
Thái Nguyên, tháng 5 năm 2016
Trang 2L I C M NỜ Ả Ơ
Trước h t cho phép em chân thành c m n các Th y giáo, Cô giáo trongế ả ơ ầ khoa Công ngh thông tin và các cán b , nhân viên phòng Đào t o Sau đ i h c,ệ ộ ạ ạ ọ
Trường Đ i h c Công ngh Thông tin và Truy n thông Đ i h c Thái Nguyênạ ọ ệ ề ạ ọ
đã luôn nhi t tình giúp đ và t o đi u ki n t t nh t cho em trong su t quá trìnhệ ỡ ạ ề ệ ố ấ ố
h c t p t i trọ ậ ạ ường
Xin chân thành c m n các anh, các ch và các b n h c viên l p Cao h cả ơ ị ạ ọ ớ ọ CK14H Trường Đ i h c Công ngh Thông tin và Truy n thông – Đ i h c Tháiạ ọ ệ ề ạ ọ Nguyên đã luôn đ ng viên, giúp đ và nhi t tình chia s v i em nh ng kinhộ ỡ ệ ẻ ớ ữ nghi m h c t p, công tác trong su t khoá h c.ệ ọ ậ ố ọ
Đ c bi t em xin bày t lòng bi t n sâu s c đ n TS. H Văn Canh, ngặ ệ ỏ ế ơ ắ ế ồ ười đã
t n tình giúp đ em hình thành và hoàn ch nh lu n văn.ậ ỡ ỉ ậ
M c dù đã có nhi u c g ng, song do s h n h p v th i gian, đi u ki nặ ề ố ắ ự ạ ẹ ề ờ ề ệ nghiên c u và trình đ , lu n văn không tránh kh i nh ng khi m khuy t. Emứ ộ ậ ỏ ữ ế ế chân thành mong nh n đậ ượ ực s đóng góp ý ki n c a các Th y giáo, Cô giáo vàế ủ ầ
đ ng nghi p.ồ ệ
M t l n n a em xin c m n! ộ ầ ữ ả ơ Thái Nguyên, tháng 05 năm 2016
Người th c hi n lu n vănự ệ ậ
Lê M nh Đoan ạ
Trang 3Đ CỀ ƯƠNG CHI TI T LU N VĂN TH C SĨẾ Ậ Ạ
Tên đ tài:ề “Nh n d ng văn b n m t s ngôn ng La tinh” ậ ạ ả ộ ố ữ
Giáo viên hướng d n: TS. H Văn Canhẫ ồ
H c viên th c hi n: Lê M nh Đoan ọ ự ệ ạ
L p: CK14Hớ
C s đào t o: Trơ ở ạ ương Đai hoc Công nghê thông tin va Truyên thông/Đ ì ̣ ̣ ̣ ̀ ̀ ạ
h c Thái Nguyên.ọ
Chuyên ngành: Khoa h c máy tínhọ
Mã s chuyên ngành: 60 48 01ố
1. Đ t v n đặ ấ ề
1.1. S c n thi t l a ch n đ tài ự ầ ế ự ọ ề
Nh n d ng là m t lý thuy t toán h c có nhi u ng d ng trong th c ti n,ậ ạ ộ ế ọ ề ứ ụ ự ễ
nh nh n d ng ti ng nói, nh n d ng hình nh, nh n d ng ch ký, phân lo iư ậ ạ ế ậ ạ ả ậ ạ ữ ạ ngôn ng , xây d ng tiêu chu n b n rõ ng d ng trong phân tích các b n mãữ ự ẩ ả ứ ụ ả v.v Trên th gi i cũng nh trong nế ớ ư ước đã có nhi u nhà nghiên c u v n đ nàyề ứ ấ ề
và đã có nh ng ph n m m áp d ng cho nhi u lĩnh v c khác nhau: ph n m mữ ầ ề ụ ề ự ầ ề
nh n d ng ti ng vi t, ph n m m nh n d ng vân tay, ph n m m ki m soát Eậ ạ ế ệ ầ ề ậ ạ ầ ề ể mail trên h th ng Internet… ệ ố
Nh n d ng ch là bài toán r t h u ích, quen thu c đậ ạ ữ ấ ữ ộ ượ ức ng d ng nhi uụ ề trong th c t đ c bi t là trong lĩnh v c nh n d ng và phân lo i văn b n vì thự ế ặ ệ ự ậ ạ ạ ả ế
Trang 4đã thu hút nhi u tác gi quan tâm nghiên c u b ng các phề ả ứ ằ ương pháp nh n d ngậ ạ khác nhau: logic m , gi i thu t di truy n, mô hình xác su t th ng kê, mô hìnhờ ả ậ ề ấ ố
m ng n ron. Đã có r t nhi u công trình nghiên c u th c hi n vi c nh n d ng,ạ ơ ấ ề ứ ự ệ ệ ậ ạ phân lo i văn b n La Tinh đã đ t t l chính xác cao, tuy nhiên các ng d ng đóạ ả ạ ỷ ệ ứ ụ cũng ch a th đáp ng hoàn toàn nhu c u c a ngư ể ứ ầ ủ ườ ử ụi s d ng v y nên ngày nayậ
người ta v n ti p t c nghiên c u nh ng phẫ ế ụ ứ ữ ương pháp nh n d ng t t h nậ ạ ố ơ
hướng đ n dùng cho các thi t b di đ ng, và các bài toán th i gian th c. Sau khiế ế ị ộ ờ ự tìm hi u v s ti n b c a công ngh nh n d ng ch La Tinh cũng nh các tínhể ề ự ế ộ ủ ệ ậ ạ ữ ư năng c b n c a các ph n m m nh n d ng ch , đơ ả ủ ầ ề ậ ạ ữ ượ ự ư ấc s t v n c a giáo viênủ
hướng d n, tôi đã l a ch n đẫ ự ọ ược m t hộ ướng nghiên c u thi t th c v i đ tài:ứ ế ự ớ ề
"Nh n d ng văn b n m t s ngôn ng La tinh" ậ ạ ả ộ ố ữ
Trong khuôn kh c a lu n văn, tôi t p trung nghiên c u, gi i quy t bài toánổ ủ ậ ậ ứ ả ế
nh n d ng ngôn ng t nhiên d a vào phân ho ch không gian (nh n d ng theoậ ạ ữ ự ự ạ ậ ạ
th ng kê toán h c), trong đó m t l p ngôn ng tiêu bi u đố ọ ộ ớ ữ ể ược nghiên c u đó làứ ngôn ng La Tinh nh ti ng Anh, ti ng Pháp, v.v.ữ ư ế ế
1.2. M c tiêu nghiên c u c a đ tài ụ ứ ủ ề
Nghiên c u và xây d ng chứ ự ương trình nh n d ng văn b n ng v i các ngônậ ạ ả ứ ớ
ng t nhiên nh : Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.ữ ự ư ế ế ế ứ ế
2. Đ i t ố ượ ng và ph m vi nghiên c u ạ ứ
2.1. Đ i t ố ượ ng
Ngôn ng t nhiên là đ i tữ ự ố ượng nghiên c u chính c a đ tàiứ ủ ề
2.2. Ph m vi nghiên c u ạ ứ
Tìm hi u t ng quan v nh n d ng;ể ổ ề ậ ạ
Tìm hi u các đ c tr ng c a ngôn ng La tinh.ể ặ ư ủ ữ
Xây d ng, cài đ t m t s k thu t nh n d ng ngôn ng La tinh.ự ặ ộ ố ỹ ậ ậ ạ ữ
3.3. Hướng nghiên c u c a đ tài ứ ủ ề
Nghiên c u quá trình Markov h u h n tr ng thái.ứ ữ ạ ạ
Trang 5 Nghiên c u và xây d ng mô hình Markov ng v i các ngôn ng t nhiên nh :ứ ự ứ ớ ữ ự ư
Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.ế ế ế ứ ế
4. C u trúc c a lu n vănấ ủ ậ
D ki n lu n văn g m: Ph n m đ u, ba chự ế ậ ồ ầ ở ầ ương chính, k t lu n vàế ậ tài li u tham kh o c th :ệ ả ụ ể
Ph n m đ u ầ ở ầ : Nêu lý do ch n đ tài và b c c c a lu n vănọ ề ố ụ ủ ậ
Chương 1: T NG QUAN V NH N D NGỔ Ề Ậ Ạ
Chương này trình bày t ng quan v các hổ ề ướng nghiên c u hi n nayứ ệ
v nh n d ng.ề ậ ạ
Chương 2: TÌM HI U K THU T NH N D NG B NG TH NGỂ Ỹ Ậ Ậ Ạ Ằ Ố
KÊ Chương này trình bày các ng d ng k thu t th ng kê Toán h c đứ ụ ỹ ậ ố ọ ể
nh n d ng các ngôn ng t nhiên và tìm hi u đ c tr ng c a m t s ngôn ng tậ ạ ữ ự ể ặ ư ủ ộ ố ữ ự nhiên tiêu bi u.ể
Chương 3: TH C NGHI MỰ Ệ
N i dung trong ph n này là trình bày thu t toán nh n d ng văn b n Laộ ầ ậ ậ ạ ả Tinh và đ a ra k t qu v i m t s m u ng n ngôn ng cho trư ế ả ớ ộ ố ẫ ắ ữ ước
Ph n k t lu n: Nh n xét, k t lu n và hầ ế ậ ậ ế ậ ướng phát tri n ể
5. Phương pháp nghiên c uứ
Tìm hi u và c p nh t các ki n th c và phể ậ ậ ế ứ ương pháp c b n v nh n d ngơ ả ề ậ ạ ngôn ng t nhiên, trí tu nhân t o, kh o sát lý thuy t các mô hình, công c toánữ ự ệ ạ ả ế ụ
h c, thi t k và xây d ng thu t toán, k thu t t ch c d li u và ngôn ng l pọ ế ế ự ậ ỹ ậ ổ ứ ữ ệ ữ ậ trình
Tìm hi u và xây d ng các đ c tr ng ngôn ng mà đ tài quan tâm.ể ự ặ ư ữ ề
Tìm đ c các bài báo, các công trình nghiên c u khoa h c liên quan đ n ch đọ ứ ọ ế ủ ề nghiên c u trong nứ ước và trên th gi i. C th là các tài li u k thu t th ng kêế ớ ụ ể ệ ỹ ậ ố toán h c các quá trình Markov; các quy lu t ngôn ng nh là m t quá trình ng uọ ậ ữ ư ộ ẫ nhiên d ng, không h u qu ; các k thu t nh n d ng ngôn ng t nhiên. Hìnhừ ậ ả ỹ ậ ậ ạ ữ ự
Trang 6thành đượ ổc t ng quan tương đ i đ y đ v tình hình nghiên c u liên quan đ nố ầ ủ ề ứ ế
ch đ hi n nay trên th gi i.ủ ề ệ ế ớ
L p trình cài đ t m t s k thu t nh n d ng ngôn ng La Tinh và đánh giáậ ặ ộ ố ỹ ậ ậ ạ ữ
k t qu ế ả
6. Ý Nghĩa khoa h c c a đ tàiọ ủ ề
K t qu nghiên c u, tìm hi u c a đ tài góp ph n nh n d ng đế ả ứ ể ủ ề ầ ậ ạ ược các
lo i ngôn ng t nhiên, có kh năng m r ng ng d ng trong vi c xây d ngạ ữ ự ả ở ộ ứ ụ ệ ự
chương trình ki m soát Email đ c bi t là chể ặ ệ ương trình phân tích b n mã tả ự
đ ng. V n đ đây không ph i là công ngh mà là phộ ấ ề ở ả ệ ương pháp nh n d ngậ ạ ngôn ng t nhiên vì v y kh năng ng d ng s r t cao trong th c ti n, đ cữ ự ậ ả ứ ụ ẽ ấ ự ễ ặ
bi t đ i v i ANQP ho c các xí nghi p v a và nh có nhu c u nh n d ng cácệ ố ớ ặ ệ ừ ỏ ầ ậ ạ
lo i ngôn ng t nhiên. Đó là ý nghĩa khoa h c và th c ti n c a đ tài lu n văn.ạ ữ ự ọ ự ễ ủ ề ậ
7. D ki n k ho ch đ tài ự ế ế ạ ề
Trên c s k ho ch c a Trơ ở ế ạ ủ ường Đ i h c Công ngh Thông tin vàạ ọ ệ Truy n Thông/Đ i h c Thái Nguyên g i t i các h c viên, em d ki n k ho chề ạ ọ ử ớ ọ ự ế ế ạ hoàn thành lu n văn c a mình nh sau:ậ ủ ư
T
T
Th i gianờ
Công vi c th c hi nệ ự ệ
4 5 6 7 8 9 10 11 12 1 2 3 4 5 6
1 Chu n b đ tài, đăng ký đ tài ẩ ị ề ề
nghiên c u ứ
X
2 Chu n b đ c ẩ ị ề ươ ng, n p và ộ
b o v đ c ả ệ ề ươ ng
X X
3 Tìm hi u t ng quan v nh n ể ổ ề ậ
4 Hoàn thành tìm hi u t ngể ổ
quan v nh n d ng ề ậ ạ
Báo cáo ti n đ l n 1 ế ộ ầ X X
5 Tìm hi u đ c tr ng c a cáclo i ngôn ng t nhiên ạ ể ữ ựặ ư ủ
Báo cáo ti n đ l n 2 ế ộ ầ
7 Hoàn ch nh vi t báo cáo toàn ỉ ế
Trang 7 N p lu n văn ộ ậ
8 Hoàn ch nh báo cáo, làm slide B o v lu n vănả ệ ậỉ X
9 Ch nh s a, hoàn ch nh n p ỉ ử ỉ ộ
8. Tài li u tham kh oệ ả
[1] Nguy n Vi t Th , H Văn Canh ( 2010), Nh p môn Phân tích thông tin cóễ ế ế ồ ậ
b o m t, NXB Thông tin và Truy n thông.ả ậ ề
[2] H Văn Canh, Ph m Qu c Doanh (2002), ồ ạ ố Thu t toán nh n d ng các ngôn ậ ậ ạ
ng t nhiên ữ ự , tr. 320
[3] Lương M nh Bá, Nguy n Thanh Thu (1999), ạ ễ ỷ Nh p môn x lý nh s ậ ử ả ố, Nhà
xu t b n khoa h c và k thu t, tr.154170.ấ ả ọ ỹ ậ
[4] Tr n Duy H ng, Nguy n Ng c Cầ ư ễ ọ ường (2002), Nh n d ng t đ ng ngôn ậ ạ ự ộ
ng ti ng Anh ữ ế , T p chí "Tin h c và đi u khi n h c", Trung tâm Khoa h cạ ọ ề ể ọ ọ
t nhiên và Công ngh Qu c gia s 3/2002.ự ệ ố ố
[5] Hoàng Minh Tu n, ấ M t s v n đ trong xây d ng siêu máy tính chi phí thay ộ ố ấ ề ự cho các ng d ng x lý thông tin và tính toán khoa h c k thu t ứ ụ ử ọ ỹ ậ , Lu n vănậ
Ti n sĩ k thu t, Mã s 62.52.70.01. tr. 3555.ế ỹ ậ ố
[6] AndrewR.Web.2002 John Wiley & Sons, Ltd Statistical Pattern Recognition, Second Edition.
[7] Richard O Duda, Peter E Hart, David G Stork . Wileyinterscience. “Bayesian
decision theory”, Pattern Classification, Second Edition: 3978.
Trang 8[8] Wilks, S. S. 1962 Mathematical Statitics. New York: John Wiley. Mark
Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the Real World. A John wiley & sons, Inc, publication 2007.
Ch ng nh n c a giáo viên hứ ậ ủ ướng d n H c viênẫ ọ
H Văn Canh Lê M nh Đoanồ ạ