DSpace at VNU: Nhận dạng một số ngôn ngữ tự nhiên

8 93 0
DSpace at VNU: Nhận dạng một số ngôn ngữ tự nhiên

Đang tải... (xem toàn văn)

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trần Bá Ánh NHẬN DẠNG MỘT SỐ NGÔN NGỮ TỰ NHIÊN LUẬN VĂN THẠC SĨ Hà Nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trần Bá Ánh NHẬN DẠNG MỘT SỐ NGÔN NGỮ TỰ NHIÊN Ngành: Công nghệ Thông tin Mã số : 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Hồ Văn Canh Hà Nội – 2007 LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn tự sưu tầm, tra cứu phát triển thuật toán đáp ứng nội dung yêu cầu đề tài Nội dung luận văn chưa công bố hay xuất hình thức khơng chép từ cơng trình nghiên cứu Tất phần mã nguồn chương trình tơi tự thiết kế xây dựng Nếu sai xin tơi xin hồn tồn chịu trách nhiệm Hà Nội, tháng 08 năm 2007 Người cam đoan Trần Bá Ánh LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học K11T2 trường Đại học Công nghệ thuộc Đại học Quốc gia Hà Nội động viên, giúp đỡ nhiệt tình chia sẻ với tơi kinh nghiệm học tập, cơng tác suốt khố học Tơi xin chân thành cảm ơn Ban Giám hiệu trường Trung học phổ thơng Lê Lai Ngọc Lặc - Thanh Hóa, Sở Giáo dục Đào tạo tỉnh Thanh Hóa tạo điều kiện tốt để tơi hồn thành tốt đẹp khố học Cao học Đặc biệt tơi xin bày tỏ lòng biết ơn sâu sắc đến Đại tá-TS.Hồ Văn Canh tận tình giúp đỡ tơi hình thành, nghiên cứu hoàn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn không tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, cô giáo đồng nghiệp gần xa Một lần em xin cảm ơn! Hà Nội, tháng 08 năm 2007 Ngƣời thực luận văn Trần Bá Ánh MỞ ĐẦU Nhận dạng (pattern of Recognition) lý thuyết tốn học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, nhận dạng ngôn ngữ v.v Em biết kỹ thuật nhận dạng ngôn ngữ tự nhiên công cụ xác suất thống kê nhiều tác giả giới nghiên cứu họ có phiên nhận dạng số ngơn ngữ tự nhiên giới thiệu bán, mạng Internet với giá 99,9 USD Tuy nhiên mua dùng hộp đen Trong đó, nước ta, em thấy chưa có nhiều cơng trình nghiên cứu có kết tốt Chẳng hạn [3], phân biệt ngôn ngữ Tiếng Anh với dãy giả ngẫu nhiên (tức văn không đọc được) mà độ dài mẫu phải 100 ký tự Ngày lý thuyết phát triển mạnh Đối với an ninh Quốc gia việc ứng dụng lý thuyết nhận dạng vào giải nhiều toán quan trọng nhận dạng ngơn ngữ, nhận dạng tiếng nói, nhận dạng chữ ký v.v Trong khuôn khổ luận văn, tập trung nghiên cứu, giải tốn nhận dạng ngơn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch không gian (hay nhận dạng theo thống kê toán học), lớp ngơn ngữ tiêu biểu nghiên cứu Tiếng Anh, Tiếng Pháp Tiếng Đức Việc chọn ngôn ngữ làm mục tiêu nghiên cứu lý sau đây: Ngơn ngữ Anh, Pháp, Đức loại ngôn ngữ tiếng nay, sử dụng rộng rãi Qua gần 10 năm kiểm soát thư điện tử hệ thống cung cấp dịch vụ: VDC, FPT, NetNam, Saigonpostel, cho thấy Tiếng Anh sử dụng đến 75%, Tiếng Pháp Đức sử dụng đến 8% Như thứ tiếng chiếm tỷ lệ cao so với tất ngôn ngữ sử dụng hệ thống nêu Ba thứ tiếng dễ tìm kiếm, nhiều người Việt Nam quen biết nên dễ tiếp cận với chúng Mặc dù vậy, hồn chỉnh việc nghiên cứu ngơn ngữ này, dễ dàng mở rộng sang ngôn ngữ khác kể ngôn ngữ Phi La Tinh Hơn nữa, nhận dạng ngôn ngữ tự nhiên vấn đề khơng thể thiếu việc phân tích mật mã đại Ngồi ra, góp phần giảm thiểu nhân lực chi phí việc kiểm sốt thông tin mạng Internet quan chức Đó ý nghĩa thực tiễn đề tài  Nội dung luận văn vấn đề cần giải Nghiên cứu trình Markov hữu hạn trạng thái Nghiên cứu xây dựng mơ hình Markov ứng với ngơn ngữ tự nhiên như: Tiếng Anh, Tiếng Pháp Tiếng Đức Giải toán phân lớp đối tượng cho trường hợp số lớp biết trước số lớp chưa biết Nghiên cứu xây dựng ước lượng tham số xích Markov ứng với ngơn ngữ tự nhiên nêu Ứng dụng toán kiểm định giả thiết thống kê (testing of statistic hypothesis) để giải tốn nhận dạng ngơn ngữ Lập trình thử nghiệm  Phƣơng pháp nghiên cứu + Nghiên cứu tài liệu (Tài liệu kỹ thuật thống kê toán học q trình Markov); + Các quy luật ngơn ngữ q trình ngẫu nhiên dừng, khơng hậu quả;  Cấu trúc luận văn đƣợc chia thành chƣơng: Chương 1: "Tổng quan nhận dạng", trình bày tổng quan hướng nghiên cứu nhận dạng Chương 2: "Vai trò phƣơng pháp thống kê tốn học nhận dạng ngơn ngữ tự nhiên", trình bày ứng dụng kỹ thuật thống kê Toán học để nhận dạng ngôn ngữ tự nhiên Chương 3: "Kỹ thuật nhận dạng số ngôn ngữ tự nhiên Anh, Pháp, Đức", trình bày thuật tốn nhận dạng ngôn ngữ Anh, Pháp Đức Chương 4: "Kết đạt đƣợc", đưa kết nhận dạng với mẫu ngôn ngữ Anh, Pháp Đức TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lương Mạnh Bá, Nguyễn Thanh Thuỷ, Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật, 1999 tr.154-170 [2] Hồ Văn Canh, Phạm Quốc Doanh, Thuật tốn nhận dạng ngơn ngữ tự nhiên, 2002 tr 3-20 [3] Hoàng Minh Tuấn, Một số vấn đề xây dựng siêu máy tính chi phí thay cho ứng dụng xử lý thơng tin tính tốn khoa học kỹ thuật, Luận văn Tiến sĩ kỹ thuật, Mã số 62.52.70.01 tr 35-55 [4] Nhận dạng tự động ngơn ngữ tiếng Anh, Tạp chí "Tin học điều khiển học", Trung tâm Khoa học tự nhiên Công nghệ Quốc gia số 3/2002 Tiếng Anh [5] Anderson, Roland 1989 Recognizing complet and partial plaintext Cryptologia 13(2):161-166 [6] Anderson, T.W.and Leo A.Goodman.1957 Statistical inference about Markov chains, Annals of Mathematical Statistics,28: 89-110 [7] Bartlett, M.S.1951 The frequency goodness of fit test for probability chains Proceedings of the Cambridge Philosophical Society 47: 86-95 [8] Billingsley, Patrick 1961 Statistical methods in Markov chains Annals of Mathematical Statistics,32:1, 12-40 [9] R.GaneSan, AlanT.Sherman(1993), "Statiscal Techniques for language Recognition An introduction and Guide for Cryptanalysts 121-126 [10] Good, I.J.1969 Statistics of Language: Introduction In Encycloppaedia of Linguistics, information and Control.Meethan, A.R., ed Oxford UK: Pergamon Press 567-581 [11] Helstrom, Carl W 1968 Statistical Theyory of Signal Detection Oxford UK: Pergamon Press [12] Hoel, P.G and R.P.Peterson 1949 Asolution to the problem of optimum classification Annals of Mathematical Statistic.20(3): 433-437 [13] Juang, B.H and L.P.Rabiner 1985 A probabilistic distance meansure for hidden Markov models AT Technical Journal 64(2): 391-408 [14] Knuth, Donald E 1981 Seminumerical Algorithms In The Art of Computer Programming Vol.2 Reading MA: Addison-Wesley [15] Raviv, J 1967 Decision making in Markov chains applied to the problem of pattern recognition IEEE Transactions on Information Theory 536-551 [16] Sinkov, Abraham 1966 ElementaryC ryptanalysis: A Mathematical Approach The Mathematical Association of America, New Mathematical Library No.22 Washington DC: The Mathematical Association of America [17] Solso, Robert L., Connie Juel, and David C Rubin 1982 The Frequency and versatility of initial and terminal letters in English words Journal of Verbal Learning and Verbal Behavior 21:220-235 [18] Wilks, S S 1962 Mathematical Statitics New York: John Wiley [19] Kukich, Karen 1992 Techniques for automatically correcting word in text ACM Computing Surveys Địa trang Web rao bán phần mềm nhận dạng ngôn ngữ [20] http://odur.let.rug.nl/~vannoord/TextCat/Demo [21] http://www.xrce.xerox.com/competencies/content-analysis/tools/guesser ... pháp thống kê tốn học nhận dạng ngơn ngữ tự nhiên" , trình bày ứng dụng kỹ thuật thống kê Toán học để nhận dạng ngôn ngữ tự nhiên Chương 3: "Kỹ thuật nhận dạng số ngôn ngữ tự nhiên Anh, Pháp, Đức",... tốn học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, nhận dạng ngôn ngữ v.v Em biết kỹ thuật nhận dạng ngôn ngữ tự nhiên công cụ xác suất thống kê nhiều... toán quan trọng nhận dạng ngơn ngữ, nhận dạng tiếng nói, nhận dạng chữ ký v.v Trong khuôn khổ luận văn, tập trung nghiên cứu, giải tốn nhận dạng ngơn ngữ (Recognition of language) tự nhiên dựa vào

Ngày đăng: 18/12/2017, 06:33

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan