1. Trang chủ
  2. » Công Nghệ Thông Tin

Đề cương chi tiết luận văn Thạc sĩ: Nhận dạng văn bản một số ngôn ngữ La Tinh

8 161 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 474,95 KB

Nội dung

Nhận dạng là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích các bản mã v.v..Trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail trên hệ thống Internet…

Trang 1

Đ I H C THÁI NGUYÊNẠ Ọ

TRƯỜNG Đ I H C CÔNG NGH  THÔNG TIN VÀ TRUY N THÔNGẠ Ọ Ệ Ề

Đ  CỀ ƯƠNG CHI TI T LU N VĂN TH C SĨẾ Ậ Ạ

TÊN Đ  TÀI Ề

NH N D NG VĂN B N M T S  NGÔN NG  LA TINHẬ Ạ Ả Ộ Ố Ữ

Giáo viên hướng d nẫ : TS. H  Văn Canhồ

H c viên th c hi nọ ự ệ : Lê M nh Đoanạ

Thái Nguyên, tháng 5 năm 2016

Trang 2

L I C M  NỜ Ả Ơ

Trước h t cho phép em chân thành c m  n các Th y giáo, Cô giáo trongế ả ơ ầ   khoa Công ngh  thông tin và các cán b , nhân viên phòng Đào t o Sau đ i h c,ệ ộ ạ ạ ọ  

Trường Đ i h c Công ngh  Thông tin và Truy n thông ­  Đ i h c Thái Nguyênạ ọ ệ ề ạ ọ  

đã luôn nhi t tình giúp đ  và t o đi u ki n t t nh t cho em trong su t quá trìnhệ ỡ ạ ề ệ ố ấ ố  

h c t p t i trọ ậ ạ ường

Xin chân thành c m  n các anh, các ch  và các b n h c viên l p Cao h cả ơ ị ạ ọ ớ ọ   CK14H ­ Trường Đ i h c Công ngh  Thông tin và Truy n thông – Đ i h c Tháiạ ọ ệ ề ạ ọ   Nguyên đã luôn đ ng viên, giúp đ  và nhi t tình chia s  v i em nh ng kinhộ ỡ ệ ẻ ớ ữ   nghi m h c t p, công tác trong su t khoá h c.ệ ọ ậ ố ọ

Đ c bi t em xin bày t  lòng bi t  n sâu s c đ n TS. H  Văn Canh, ngặ ệ ỏ ế ơ ắ ế ồ ười đã 

t n tình giúp đ  em hình thành và hoàn ch nh lu n văn.ậ ỡ ỉ ậ

M c dù đã có nhi u c  g ng, song do s  h n h p v  th i gian, đi u ki nặ ề ố ắ ự ạ ẹ ề ờ ề ệ   nghiên c u và trình đ , lu n văn không tránh kh i nh ng khi m khuy t. Emứ ộ ậ ỏ ữ ế ế   chân thành mong nh n đậ ượ ực s  đóng góp ý ki n c a các Th y giáo, Cô giáo vàế ủ ầ  

đ ng nghi p.ồ ệ

M t l n n a em xin c m  n! ộ ầ ữ ả ơ Thái Nguyên, tháng 05 năm 2016

Người th c hi n lu n vănự ệ ậ

Lê M nh Đoan

Trang 3

Đ  CỀ ƯƠNG CHI TI T LU N VĂN TH C SĨẾ Ậ Ạ

Tên đ  tài:ề “Nh n d ng văn b n m t s  ngôn ng  La tinh” ậ ạ ả ộ ố ữ

Giáo viên hướng d n: TS. H  Văn Canhẫ ồ

H c viên th c hi n: Lê M nh Đoan ọ ự ệ ạ

L p: CK14Hớ

C  s  đào t o: Trơ ở ạ ương Đai hoc Công nghê thông tin va Truyên thông/Đ ì ̣ ̣ ̣ ̀ ̀ ạ  

h c Thái Nguyên.ọ

Chuyên ngành: Khoa h c máy tínhọ

Mã s  chuyên ngành: 60 48 01ố

1. Đ t v n đặ ấ ề

1.1. S  c n thi t l a ch n đ  tài ự ầ ế ự ọ ề

Nh n d ng là m t lý thuy t toán h c có nhi u  ng d ng trong th c ti n,ậ ạ ộ ế ọ ề ứ ụ ự ễ  

nh  nh n d ng ti ng nói, nh n d ng hình  nh, nh n d ng ch  ký, phân lo iư ậ ạ ế ậ ạ ả ậ ạ ữ ạ   ngôn ng  , xây d ng tiêu chu n b n rõ  ng d ng trong phân tích các b n mãữ ự ẩ ả ứ ụ ả   v.v Trên th  gi i cũng nh  trong nế ớ ư ước đã có nhi u nhà nghiên c u v n đ  nàyề ứ ấ ề  

và đã có nh ng ph n m m áp d ng cho nhi u lĩnh v c khác nhau: ph n m mữ ầ ề ụ ề ự ầ ề  

nh n d ng ti ng vi t, ph n m m nh n d ng vân tay, ph n m m ki m soát E­ậ ạ ế ệ ầ ề ậ ạ ầ ề ể mail trên h  th ng Internet… ệ ố

Nh n d ng ch  là bài toán r t h u ích, quen thu c đậ ạ ữ ấ ữ ộ ượ ức  ng d ng nhi uụ ề   trong th c t  đ c bi t là trong lĩnh v c nh n d ng và phân lo i văn b n vì thự ế ặ ệ ự ậ ạ ạ ả ế 

Trang 4

đã thu hút nhi u tác gi  quan tâm nghiên c u b ng các phề ả ứ ằ ương  pháp nh n d ngậ ạ   khác nhau: logic m , gi i thu t di truy n, mô hình xác su t th ng kê, mô hìnhờ ả ậ ề ấ ố  

m ng n  ron. Đã có r t nhi u công trình nghiên c u th c hi n vi c nh n d ng,ạ ơ ấ ề ứ ự ệ ệ ậ ạ   phân lo i văn b n La Tinh đã đ t t  l  chính xác cao, tuy nhiên các  ng d ng đóạ ả ạ ỷ ệ ứ ụ   cũng ch a th  đáp  ng hoàn toàn nhu c u c a ngư ể ứ ầ ủ ườ ử ụi s  d ng v y nên ngày nayậ  

người ta v n ti p t c nghiên c u nh ng phẫ ế ụ ứ ữ ương   pháp nh n d ng t t h nậ ạ ố ơ  

hướng đ n dùng cho các thi t b  di đ ng, và các bài toán th i gian th c. Sau khiế ế ị ộ ờ ự   tìm hi u v  s  ti n b  c a công ngh  nh n d ng ch  La Tinh cũng nh  các tínhể ề ự ế ộ ủ ệ ậ ạ ữ ư   năng c  b n c a các ph n m m nh n d ng ch , đơ ả ủ ầ ề ậ ạ ữ ượ ự ư ấc s  t  v n c a giáo viênủ  

hướng d n, tôi đã l a ch n đẫ ự ọ ược m t hộ ướng nghiên c u thi t th c v i đ  tài:ứ ế ự ớ ề  

"Nh n d ng văn b n m t s  ngôn ng  La tinh" ậ ạ ả ộ ố ữ  

Trong khuôn kh  c a lu n văn, tôi t p trung nghiên c u, gi i quy t bài toánổ ủ ậ ậ ứ ả ế  

nh n d ng ngôn ng  t  nhiên d a vào phân ho ch không gian (nh n d ng theoậ ạ ữ ự ự ạ ậ ạ  

th ng kê toán h c), trong đó m t l p ngôn ng  tiêu bi u đố ọ ộ ớ ữ ể ược nghiên c u đó làứ   ngôn ng  La Tinh nh  ti ng Anh, ti ng Pháp, v.v.ữ ư ế ế

1.2. M c tiêu nghiên c u c a đ  tài ụ ứ ủ ề

­ Nghiên c u và xây d ng chứ ự ương trình nh n d ng văn b n  ng v i các ngônậ ạ ả ứ ớ  

ng  t  nhiên nh  : Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.ữ ự ư ế ế ế ứ ế

2. Đ i t ố ượ ng và ph m vi nghiên c u ạ ứ

2.1. Đ i t ố ượ ng

­ Ngôn ng  t  nhiên là đ i tữ ự ố ượng nghiên c u chính c a đ  tàiứ ủ ề

2.2. Ph m vi nghiên c u ạ ứ

­ Tìm hi u t ng quan v  nh n d ng;ể ổ ề ậ ạ

­ Tìm hi u các đ c tr ng c a ngôn ng  La tinh.ể ặ ư ủ ữ

­ Xây d ng, cài đ t m t s  k  thu t nh n d ng ngôn ng  La tinh.ự ặ ộ ố ỹ ậ ậ ạ ữ

3.3. Hướng nghiên c u c a đ  tài ứ ủ ề

­ Nghiên c u quá trình Markov h u h n tr ng thái.ứ ữ ạ ạ

Trang 5

­ Nghiên c u và xây d ng mô hình Markov  ng v i các ngôn ng  t  nhiên nh  :ứ ự ứ ớ ữ ự ư  

Ti ng Anh, Ti ng Pháp, Ti ng Đ c, Ti ng Tây Ban Nha.ế ế ế ứ ế

4. C u trúc c a lu n vănấ ủ ậ

D  ki n lu n văn g m: Ph n m  đ u, ba chự ế ậ ồ ầ ở ầ ương chính, k t lu n vàế ậ   tài li u tham kh o c  th :ệ ả ụ ể

Ph n m  đ u ầ ở ầ : Nêu lý do ch n đ  tài và b  c c c a lu n vănọ ề ố ụ ủ ậ

Chương 1: T NG QUAN V  NH N D NGỔ Ề Ậ Ạ

 Chương này trình bày t ng quan v  các hổ ề ướng nghiên c u hi n nayứ ệ  

v  nh n d ng.ề ậ ạ

Chương 2:   TÌM HI U K  THU T NH N D NG B NG TH NGỂ Ỹ Ậ Ậ Ạ Ằ Ố  

KÊ  Chương này trình bày các  ng d ng k  thu t th ng kê Toán h c đứ ụ ỹ ậ ố ọ ể 

nh n d ng các ngôn ng  t  nhiên và tìm hi u đ c tr ng c a m t s  ngôn ng  tậ ạ ữ ự ể ặ ư ủ ộ ố ữ ự  nhiên tiêu bi u.ể

Chương 3: TH C NGHI MỰ Ệ

N i dung trong ph n này là trình bày thu t toán nh n d ng văn b n Laộ ầ ậ ậ ạ ả   Tinh và đ a ra k t qu  v i m t s  m u ng n ngôn ng  cho trư ế ả ớ ộ ố ẫ ắ ữ ước 

Ph n k t lu n: Nh n xét, k t lu n và hầ ế ậ ậ ế ậ ướng phát tri n ể

5. Phương pháp nghiên c u

­ Tìm hi u và c p nh t các ki n th c và phể ậ ậ ế ứ ương pháp c  b n v  nh n d ngơ ả ề ậ ạ   ngôn ng  t  nhiên, trí tu  nhân t o, kh o sát lý thuy t các mô hình, công c  toánữ ự ệ ạ ả ế ụ  

h c, thi t k  và xây d ng thu t toán, k  thu t t  ch c d  li u và ngôn ng  l pọ ế ế ự ậ ỹ ậ ổ ứ ữ ệ ữ ậ   trình

­ Tìm hi u và xây d ng các đ c tr ng ngôn ng  mà đ  tài quan tâm.ể ự ặ ư ữ ề

­  Tìm đ c các bài báo, các công trình nghiên c u khoa h c liên quan đ n ch  đọ ứ ọ ế ủ ề  nghiên c u trong nứ ước và trên th  gi i. C  th  là các tài li u k  thu t th ng kêế ớ ụ ể ệ ỹ ậ ố   toán h c các quá trình Markov; các quy lu t ngôn ng  nh  là m t quá trình ng uọ ậ ữ ư ộ ẫ   nhiên d ng, không h u qu ; các k  thu t nh n d ng ngôn ng  t  nhiên. Hìnhừ ậ ả ỹ ậ ậ ạ ữ ự  

Trang 6

thành đượ ổc t ng quan tương đ i đ y đ  v  tình hình nghiên c u liên quan đ nố ầ ủ ề ứ ế  

ch  đ  hi n nay trên th  gi i.ủ ề ệ ế ớ

­  L p trình cài đ t m t s  k  thu t nh n d ng ngôn ng  La Tinh và đánh giáậ ặ ộ ố ỹ ậ ậ ạ ữ  

k t qu ế ả

6. Ý Nghĩa khoa h c c a đ  tàiọ ủ ề

­ K t qu  nghiên c u, tìm hi u c a đ  tài góp ph n nh n d ng đế ả ứ ể ủ ề ầ ậ ạ ược các 

lo i ngôn ng  t  nhiên, có kh  năng m  r ng  ng d ng trong vi c xây d ngạ ữ ự ả ở ộ ứ ụ ệ ự  

chương trình ki m soát E­mail đ c bi t là chể ặ ệ ương trình phân tích b n mã tả ự 

đ ng. V n đ    đây không ph i là công ngh  mà là phộ ấ ề ở ả ệ ương pháp nh n d ngậ ạ   ngôn ng  t  nhiên vì v y kh  năng  ng d ng s  r t cao trong th c ti n, đ cữ ự ậ ả ứ ụ ẽ ấ ự ễ ặ  

bi t đ i v i ANQP ho c các xí nghi p v a và nh  có nhu c u nh n d ng cácệ ố ớ ặ ệ ừ ỏ ầ ậ ạ  

lo i ngôn ng  t  nhiên. Đó là ý nghĩa khoa h c và th c ti n c a đ  tài lu n văn.ạ ữ ự ọ ự ễ ủ ề ậ

7. D  ki n k  ho ch đ  tài ự ế ế ạ ề

Trên c  s  k   ho ch c a  Trơ ở ế ạ ủ ường   Đ i  h c Công  ngh  Thông tin vàạ ọ ệ   Truy n Thông/Đ i h c Thái Nguyên g i t i các h c viên, em d  ki n k  ho chề ạ ọ ử ớ ọ ự ế ế ạ   hoàn thành lu n văn c a mình nh  sau:ậ ủ ư

T

T

Th i gian

Công vi c th c hi nệ ự ệ

4 5 6 7 8 9 10 11 12 1 2 3 4 5 6

1 Chu n b  đ  tài, đăng ký đ  tài ẩ ị ề ề  

nghiên c u ứ

X

2 Chu n   b   đ   c ẩ ị ề ươ ng,   n p   và ộ  

b o v  đ  c ả ệ ề ươ ng

X X

3 Tìm  hi u  t ng quan v  nh n ể ổ ề ậ  

4 ­   Hoàn   thành   tìm   hi u   t ngể ổ  

quan v  nh n d ng ề ậ ạ

­ Báo cáo ti n đ  l n 1 ế ộ ầ X X

5 ­ Tìm hi u đ c tr ng c a cáclo i ngôn ng  t  nhiên ạ ể ữ ựặ ư ủ  

­ Báo cáo ti n đ  l n 2 ế ộ ầ

7 ­ Hoàn ch nh vi t báo cáo toàn ỉ ế  

Trang 7

­ N p lu n văn ộ ậ

8 ­ Hoàn ch nh báo cáo, làm slide­ B o v  lu n vănả ệ ậỉ X

9 Ch nh   s a,   hoàn   ch nh   n p ỉ ử ỉ ộ  

8. Tài li u tham kh oệ ả

[1] Nguy n Vi t Th , H  Văn Canh ( 2010), Nh p môn Phân tích thông tin cóễ ế ế ồ ậ  

b o m t, NXB Thông tin và Truy n thông.ả ậ ề

[2] H  Văn Canh, Ph m Qu c Doanh (2002), ồ ạ ố Thu t toán nh n d ng các ngôn ậ ậ ạ  

ng  t  nhiên ữ ự , tr. 3­20

[3] Lương M nh Bá, Nguy n Thanh Thu  (1999), ạ ễ ỷ Nh p môn x  lý  nh s ậ ử ả ố, Nhà 

xu t b n khoa h c và k  thu t, tr.154­170.ấ ả ọ ỹ ậ

[4] Tr n Duy H ng, Nguy n Ng c Cầ ư ễ ọ ường (2002), Nh n d ng t  đ ng ngôn ậ ạ ự ộ  

ng  ti ng Anh ữ ế , T p chí "Tin h c và đi u khi n h c", Trung tâm Khoa h cạ ọ ề ể ọ ọ  

t  nhiên và Công ngh  Qu c gia s  3/2002.ự ệ ố ố

[5] Hoàng Minh Tu n, ấ M t s  v n đ  trong xây d ng siêu máy tính chi phí thay ộ ố ấ ề ự   cho các  ng d ng x  lý thông tin và tính toán khoa h c k  thu t ứ ụ ử ọ ỹ ậ , Lu n vănậ  

Ti n sĩ k  thu t, Mã s  62.52.70.01. tr. 35­55.ế ỹ ậ ố

[6] AndrewR.Web.2002   John   Wiley   &   Sons,   Ltd  Statistical   Pattern  Recognition, Second Edition. 

[7] Richard O Duda, Peter E Hart, David G Stork . Wiley­interscience. “Bayesian 

decision theory”, Pattern Classification, Second Edition: 39­78.

Trang 8

[8] Wilks,  S. S. 1962  Mathematical  Statitics. New  York:  John  Wiley. Mark 

Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the  Real World. A John wiley & sons, Inc, publication 2007. 

Ch ng nh n c a giáo viên hứ ậ ủ ướng d n       H c viênẫ ọ

       H  Văn Canh       Lê M nh Đoanồ ạ

Ngày đăng: 30/01/2020, 12:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w