1. Trang chủ
  2. » Công Nghệ Thông Tin

Đề cương chi tiết luận văn Thạc sĩ: Nhận dạng văn bản một số ngôn ngữ La Tinh

8 160 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nhận dạng là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích các bản mã v.v..Trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail trên hệ thống Internet…

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ TÊN ĐỀ TÀI NHẬN DẠNG VĂN BẢN MỘT SỐ NGÔN NGỮ LA TINH Giáo viên hướng dẫn: TS. Hồ Văn Canh Học viên thực hiện : Lê Mạnh Đoan Lớp : CK14H Thái Ngun, tháng 5 năm 2016 LỜI CẢM ƠN Trước hết cho phép em chân thành cảm  ơn các Thầy giáo, Cơ giáo trong   khoa Cơng nghệ  thơng tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học,  Trường Đại học Cơng nghệ Thơng tin và Truyền thơng ­  Đại học Thái Ngun  đã ln nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt q trình   học tập tại trường Xin chân thành cảm  ơn các anh, các chị  và các bạn học viên lớp Cao học  CK14H ­ Trường Đại học Cơng nghệ Thơng tin và Truyền thơng – Đại học Thái   Ngun đã ln động viên, giúp đỡ  và nhiệt tình chia sẻ  với em những kinh   nghiệm học tập, cơng tác trong suốt khố học Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến TS. Hồ Văn Canh, người đã   tận tình giúp đỡ em hình thành và hồn chỉnh luận văn Mặc dù đã có nhiều cố  gắng, song do sự  hạn hẹp về  thời gian, điều kiện   nghiên cứu và trình độ, luận văn khơng tránh khỏi những khiếm khuyết. Em   chân thành mong nhận được sự  đóng góp ý kiến của các Thầy giáo, Cơ giáo và  đồng nghiệp Một lần nữa em xin cảm ơn! Thái Ngun, tháng 05 năm 2016 Người thực hiện luận văn Lê Mạnh Đoan ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ Tên đề tài:“Nhận dạng văn bản một số ngơn ngữ La tinh” Giáo viên hướng dẫn: TS. Hồ Văn Canh Học viên thực hiện: Lê Mạnh Đoan  Lớp: CK14H Cơ  sở đào tạo: Trương Đai hoc Công nghê thông tin va Truyên thông/Đ ̀ ̣ ̣ ̣ ̀ ̀ ại   học Thái Ngun Chun ngành: Khoa học máy tính Mã số chun ngành: 60 48 01 1. Đặt vấn đề 1.1. Sự cần thiết lựa chọn đề tài Nhận dạng là một lý thuyết tốn học có nhiều  ứng dụng trong thực tiễn,    nhận dạng tiếng nói, nhận dạng hình  ảnh, nhận dạng chữ  ký, phân loại   ngơn ngữ  , xây dựng tiêu chuẩn bản rõ  ứng dụng trong phân tích các bản mã  v.v Trên thế  giới cũng như  trong nước đã có nhiều nhà nghiên cứu vấn đề  này   và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm   nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm sốt E­ mail trên hệ thống Internet…  Nhận dạng chữ  là bài tốn rất hữu ích, quen thuộc được  ứng dụng nhiều  trong thực tế đặc biệt là trong lĩnh vực nhận dạng và phân loại văn bản vì thế  đã thu hút nhiều tác giả quan tâm nghiên cứu bằng các phương  pháp nhận dạng   khác nhau: logic mờ, giải thuật di truyền, mơ hình xác suất thống kê, mơ hình  mạng nơ ron. Đã có rất nhiều cơng trình nghiên cứu thực hiện việc nhận dạng,   phân loại văn bản La Tinh đã đạt tỷ lệ chính xác cao, tuy nhiên các ứng dụng đó   cũng chưa thể đáp ứng hoàn toàn nhu cầu của người sử dụng vậy nên ngày nay   người   ta  vẫn  tiếp  tục  nghiên  cứu  những  phương     pháp  nhận  dạng  tốt  hơn  hướng đến dùng cho các thiết bị di động, và các bài toán thời gian thực. Sau khi  tìm hiểu về sự tiến bộ của cơng nghệ nhận dạng chữ La Tinh cũng như các tính   năng cơ bản của các phần mềm nhận dạng chữ, được sự  tư  vấn của giáo viên  hướng dẫn, tơi đã lựa chọn được một hướng nghiên cứu thiết thực với đề  tài:   "Nhận dạng văn bản một số ngơn ngữ La tinh".  Trong khn khổ của luận văn, tơi tập trung nghiên cứu, giải quyết bài tốn  nhận dạng ngơn ngữ  tự nhiên dựa vào phân hoạch khơng gian (nhận dạng theo  thống kê tốn học), trong đó một lớp ngơn ngữ tiêu biểu được nghiên cứu đó là  ngơn ngữ La Tinh như tiếng Anh, tiếng Pháp, v.v 1.2. Mục tiêu nghiên cứu của đề tài ­ Nghiên cứu và xây dựng chương trình nhận dạng văn bản  ứng với các ngơn   ngữ tự nhiên như : Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha 2. Đối tượng và phạm vi nghiên cứu 2.1. Đối tượng ­ Ngơn ngữ tự nhiên là đối tượng nghiên cứu chính của đề tài 2.2. Phạm vi nghiên cứu ­ Tìm hiểu tổng quan về nhận dạng; ­ Tìm hiểu các đặc trưng của ngơn ngữ La tinh ­ Xây dựng, cài đặt một số kỹ thuật nhận dạng ngơn ngữ La tinh 3.3. Hướng nghiên cứu của đề tài  ­ Nghiên cứu q trình Markov hữu hạn trạng thái ­ Nghiên cứu và xây dựng mơ hình Markov ứng với các ngơn ngữ tự nhiên như :   Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha 4. Cấu trúc của luận văn Dự kiến luận văn gồm: Phần mở đầu, ba chương chính, kết luận và  tài liệu tham khảo cụ thể: Phần mở đầu: Nêu lý do chọn đề tài và bố cục của luận văn Chương 1: TỔNG QUAN VỀ NHẬN DẠNG  Chương này trình bày tổng quan về các hướng nghiên cứu hiện nay   về nhận dạng Chương 2:   TÌM HIỂU KỸ  THUẬT NHẬN DẠNG BẰNG THỐNG   KÊ  Chương này trình bày các ứng dụng kỹ thuật thống kê Tốn học để  nhận dạng các ngơn ngữ tự nhiên và tìm hiểu đặc trưng của một số ngơn ngữ tự  nhiên tiêu biểu Chương 3: THỰC NGHIỆM Nội dung trong phần này là trình bày thuật tốn nhận dạng văn bản La   Tinh và đưa ra kết quả với một số mẫu ngắn ngơn ngữ cho trước  Phần kết luận: Nhận xét, kết luận và hướng phát triển  5. Phương pháp nghiên cứu ­ Tìm hiểu và cập nhật các kiến thức và phương pháp cơ  bản về  nhận dạng   ngơn ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết các mơ hình, cơng cụ tốn   học, thiết kế và xây dựng thuật tốn, kỹ thuật tổ chức dữ liệu và ngơn ngữ  lập   trình ­ Tìm hiểu và xây dựng các đặc trưng ngơn ngữ mà đề tài quan tâm ­  Tìm đọc các bài báo, các cơng trình nghiên cứu khoa học liên quan đến chủ đề  nghiên cứu trong nước và trên thế giới. Cụ thể là các tài liệu kỹ thuật thống kê  tốn học các q trình Markov; các quy luật ngơn ngữ như là một q trình ngẫu   nhiên dừng, khơng hậu quả; các kỹ  thuật nhận dạng ngơn ngữ  tự  nhiên. Hình  thành được tổng quan tương đối đầy đủ  về  tình hình nghiên cứu liên quan đến  chủ đề hiện nay trên thế giới ­  Lập trình cài đặt một số  kỹ  thuật nhận dạng ngơn ngữ  La Tinh và đánh giá   kết quả 6. Ý Nghĩa khoa học của đề tài ­ Kết quả nghiên cứu, tìm hiểu của đề  tài góp phần nhận dạng được các  loại ngơn ngữ  tự  nhiên, có khả  năng mở  rộng  ứng dụng trong việc xây dựng   chương trình kiểm sốt E­mail đặc biệt là chương trình phân tích bản mã tự  động. Vấn đề    đây khơng phải là cơng nghệ  mà là phương pháp nhận dạng  ngơn ngữ  tự  nhiên vì vậy khả  năng  ứng dụng sẽ  rất cao trong thực tiễn, đặc  biệt đối với ANQP hoặc các xí nghiệp vừa và nhỏ  có nhu cầu nhận dạng các  loại ngơn ngữ tự nhiên. Đó là ý nghĩa khoa học và thực tiễn của đề tài luận văn 7. Dự kiến kế hoạch đề tài  Trên     sở   kế   hoạch     Trường   Đại   học   Công   nghệ   Thơng   tin   và  Truyền Thơng/Đại học Thái Ngun gửi tới các học viên, em dự kiến kế hoạch  hồn thành luận văn của mình như sau: Thời gian T T 2016 10 11 Công việc thực hiện Chuẩn bị đề tài, đăng ký đề tài  X nghiên cứu Chuẩn   bị   đề   cương,   nộp   và  X X bảo vệ đề cương Tìm   hiểu   tổng   quan     nhận  X X dạng ­   Hoàn   thành   tìm   hiểu   tổng  quan về nhận dạng X X ­ Báo cáo tiến độ lần 1 ­ Tìm hiểu đặc trưng của các  loại ngơn ngữ tự nhiên  X ­ Báo cáo tiến độ lần 2 Hồn thành cài đặt thử nghiệm ­ Hồn chỉnh viết báo cáo tồn  văn 2017 12 X X X X X ­ Nộp luận văn ­ Hoàn chỉnh báo cáo, làm slide ­ Bảo vệ luận văn X Chỉnh   sửa,   hoàn   chỉnh   nộp  8. Tài liệu tham khảo [1] Nguyễn Viết Thế, Hồ Văn Canh ( 2010), Nhập mơn Phân tích thơng tin có  bảo mật, NXB Thơng tin và Truyền thơng [2] Hồ  Văn Canh, Phạm Quốc Doanh (2002), Thuật tốn nhận dạng các ngơn   ngữ tự nhiên, tr. 3­20 [3] Lương Mạnh Bá, Nguyễn Thanh Thuỷ (1999), Nhập mơn xử lý ảnh số, Nhà  xuất bản khoa học và kỹ thuật, tr.154­170 [4] Trần Duy Hưng, Nguyễn Ngọc Cường (2002),  Nhận dạng tự  động ngơn   ngữ  tiếng Anh, Tạp chí "Tin học và điều khiển học", Trung tâm Khoa học  tự nhiên và Cơng nghệ Quốc gia số 3/2002 [5] Hồng Minh Tuấn, Một số vấn đề trong xây dựng siêu máy tính chi phí thay   cho các ứng dụng xử lý thơng tin và tính tốn khoa học kỹ thuật , Luận văn  Tiến sĩ kỹ thuật, Mã số 62.52.70.01. tr. 35­55 [6] AndrewR.Web.2002   John   Wiley   &   Sons,   Ltd  Statistical   Pattern   Recognition, Second Edition.  [7] Richard O Duda, Peter E Hart, David G Stork . Wiley­interscience. “Bayesian  decision theory”, Pattern Classification, Second Edition: 39­78 X [8] Wilks,   S   S   1962  Mathematical   Statitics   New   York:   John   Wiley   Mark  Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the  Real World. A John wiley & sons, Inc, publication 2007.  Chứng nhận của giáo viên hướng dẫn                               Học viên                    Hồ Văn Canh                                                   Lê Mạnh Đoan ... đồng nghiệp Một lần nữa em xin cảm ơn! Thái Ngun, tháng 05 năm 2016 Người thực hiện luận văn Lê Mạnh Đoan ĐỀ CƯƠNG CHI TIẾT LUẬN VĂN THẠC SĨ Tên đề tài: Nhận dạng văn bản một số ngơn ngữ La tinh Giáo viên hướng dẫn: TS. Hồ Văn Canh... năng cơ bản của các phần mềm nhận dạng chữ, được sự  tư  vấn của giáo viên  hướng dẫn, tơi đã lựa chọn được một hướng nghiên cứu thiết thực với đề  tài:   "Nhận dạng văn bản một số ngơn ngữ La tinh" .  Trong khn khổ của luận văn,  tơi tập trung nghiên cứu, giải quyết bài tốn ... 1. Đặt vấn đề 1.1. Sự cần thiết lựa chọn đề tài Nhận dạng là một lý thuyết tốn học có nhiều  ứng dụng trong thực tiễn,   nhận dạng tiếng nói, nhận dạng hình  ảnh, nhận dạng chữ  ký, phân loại   ngơn ngữ

Ngày đăng: 30/01/2020, 12:54

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w