1. Trang chủ
  2. » Công Nghệ Thông Tin

Tóm tắt (nhận dạng văn bản một số ngôn ngữ la tinh)

25 557 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 902 KB

Nội dung

Nhận dạng là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn bản rõ ứng dụng trong phân tích các bản mã v.v..Thông qua mạng Internet, tôi được biết trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu về vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát Email trên hệ thống Internet…

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - LÊ MẠNH ĐOAN NHẬN DẠNG VĂN BẢN MỘT SỐ NGÔN NGỮ LA TINH Chuyên nghành : Khoa học máy tính Mã số : 60 48 01 01 TÓM TẮT LUẬN VĂN THẠC SĨ : KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2017 Công trình hoàn thành : Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Người hướng dẫn khoa học: TS Hồ Văn Canh Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Vào hồi …… ngày … tháng … năm 2017 Có thể tìm hiểu luận văn trung tâm học liệu Đại học Thái Nguyên Và thư viện Trường : Trường Đại học Công nghệ Thông tin Truyền thông MỞ ĐẦU Nhận dạng lý thuyết toán học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn rõ ứng dụng phân tích mã v.v Thông qua mạng Internet, biết giới nước có nhiều nhà nghiên cứu vấn đề có phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail hệ thống Internet… Nhận dạng chữ toán hữu ích, quen thuộc ứng dụng nhiều thực tế đặc biệt lĩnh vực nhận dạng phân loại văn thu hút nhiều tác giả quan tâm nghiên cứu phương pháp nhận dạng khác nhau: logic mờ, giải thuật di truyền, mô hình xác suất thống kê, mô hình mạng nơ ron Đã có nhiều công trình nghiên cứu thực việc nhận dạng, phân loại văn La Tinh đạt tỷ lệ xác cao, nhiên ứng dụng chưa thể đáp ứng hoàn toàn nhu cầu người sử dụng nên ngày người ta tiếp tục nghiên cứu phương pháp nhận dạng tốt hướng đến dùng cho thiết bị di động, toán thời gian thực Sau tìm hiểu tiến công nghệ nhận dạng chữ La Tinh tính phần mềm nhận dạng chữ, tư vấn giáo viên hướng dẫn, lựa chọn hướng nghiên cứu thiết thực với đề tài: "Nhận dạng văn số ngôn ngữ La Tinh" Trong khuôn khổ luận văn, tập trung nghiên cứu, giải toán nhận dạng ngôn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch không gian (nhận dạng theo thống kê toán học), lớp ngôn ngữ tiêu biểu nghiên cứu ngôn ngữ La Tinh tiếng Anh, tiếng Pháp, v.v Việc nghiên cứu quan trọng cần thiết, kết nghiên cứu có khả mở rộng ứng dụng việc xây dựng chương trình kiểm soát E-mail đặc biệt chương trình phân tích mã tự động Cả hai chương trình cần thiếu vấn đề an ninh quốc gia; khoa học, giúp ta nắm kiến thức tốt dễ dàng việc chuyển sang nghiên cứu vấn đề khác lĩnh vực nhận dạng  Nội dung luận văn vấn đề cần giải Nghiên cứu trình Markov hữu hạn trạng thái Nghiên cứu xây dựng mô hình Markov ứng với ngôn ngữ tự nhiên như: Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha Giải toán phân lớp đối tượng cho trường hợp số lớp biết trước số lớp chưa biết Nghiên cứu xây dựng ước lượng tham số xích Markov Ứng dụng toán kiểm định giả thiết thống kê (testing of statistic hypothesis) để giải toán nhận dạng ngôn ngữ Lập trình thử nghiệm  Phương pháp nghiên cứu Phương pháp nghiên cứu ứng dụng phương pháp toán học, nhận dạng xử lý ngôn ngữ, nghiên cứu khảo sát lý thuyết xây dựng thuật toán, lập trình kiểm thử thuật toán đánh giá Cụ thể: - Tìm hiểu cập nhật kiến thức phương pháp nhận dạng ngôn ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết mô hình, công cụ toán học, thiết kế xây dựng thuật toán, kỹ thuật tổ chức liệu ngôn ngữ lập trình - Tìm đọc báo, công trình nghiên cứu khoa học liên quan đến chủ đề nghiên cứu nước giới Cụ thể tài liệu kỹ thuật thống kê toán học trình Markov; quy luật ngôn ngữ trình ngẫu nhiên dừng, không hậu quả; kỹ thuật nhận dạng ngôn ngữ tự nhiên Hình thành tổng quan tương đối đầy đủ tình hình nghiên cứu liên quan đến chủ đề giới - Lập trình cài đặt số kỹ thuật nhận dạng ngôn ngữ La Tinh đánh giá kết  Cấu trúc luận văn chia thành chương: Chương 1: " Tổng quan nhận dạng ", trình bày tổng quan hướng nghiên cứu nhận dạng Chương 2: " Kỹ thuật nhận dạng thống kê ", trình bày ứng dụng kỹ thuật thống kê Toán học để nhận dạng ngôn ngữ tự nhiên tìm hiểu đặc trưng số ngôn ngữ tự nhiên tiêu biểu Chương 3: " Thực Nghiệm ", trình bày thuật toán nhận dạng văn La Tinh đưa kết với số mẫu ngôn ngữ điển hình CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng Nhận dạng trình phân loại đối tượng biểu diễn theo mô hình gán cho chúng vào lớp (gán cho đối tượng tên gọi) dựa theo quy luật mẫu chuẩn Quá trình nhận dạng dựa vào mẫu học biết trước gọi nhận dạng có giám sát hay học có giám sát (supervised learning); trường hợp ngược lại nhận dạng giám sát hay học giám sát (unsupervised learning) 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch - Không gian biểu diễn đối tượng: Các đối tượng quan sát hay thu thập được, thường biểu diễn tập đặc trưng hay đặc tính Giả sử đối tượng X biểu diễn n thành phần (n đặc trưng): X={x1,x2, ,xn}; xi biểu diễn đặc tính Không gian biểu diễn đối tượng thường gọi tắt không gian đối tượng X ký hiệu là: X ={X1,X2, ,Xn} Xi biểu diễn đối tượng Không gian vô hạn Để tiện xem xét xét tập X hữu hạn - Không gian diễn dịch: Không gian diễn dịch tập tên gọi đối tượng Kết thúc trình nhận dạng ta xác định tên gọi cho đối tượng tập không gian đối tượng hay nói nhận dạng đối tượng Một cách hình thức gọi Ω tập tên đối tượng: Ω={w1,w2, ,wk} với wi, i =1,2, ,k tên đối tượng 1.1.2 Mô hình chất trình nhận dạng Việc chọn lựa trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm hai họ lớn - Họ mô tả theo tham số; - Họ mô tả theo cấu trúc Cách mô tả lựa chọn xác định mô hình đối tượng Như vậy, có hai loại mô hình: mô hình theo tham số mô hình cấu trúc Quá trình nhận dạng gồm giai đoạn : - Lựa chọn mô hình biểu diễn đối tượng, - Lựa chọn luật định (phương pháp nhận dạng) suy diễn trình học - Học nhận dạng 1.2 Nhận dạng dựa phân hoạch không gian 1.2.1 Phân hoạch không gian Giả sử không gian đối tượng X định nghĩa: X={Xi,i=1,2, ,m}, Xi vectơ Người ta nói P phân hoạch không gian X thành lớp Ci, Ci ⊂X nếu: Ci C = Φ với i ≠ j ∩ j C =X ∪ i 1.2.2 Hàm phân lớp hay hàm định Để phân đối tượng vào lớp, ta phải xác định số lớp ranh giới lớp Hàm phân lớp hay hàm phân biệt công cụ quan trọng Gọi {g} lớp hàm phân lớp Lớp hàm định nghĩa sau: ∀ i ≠ k, gk(X)>gi(X) ta định X∈lớp k 1.2.3 Nhận dạng thống kê Nếu đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi: f ( x) =  ( x − m)  exp −  2σ  2πσ  ∀x người ta có dùng phương pháp định dựa vào lý thuyết Bayes Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa lý thuyết Bayes có tên phương pháp thống kê 1.2.4 Một số thuật toán nhận dạng tiêu biểu tự học Thực tế có nhiều thuật toán nhận dạng học thầy Ở đây, xem xét ba thuật toán hay sử dụng: Thuật toán nhận dạng dựa vào khoảng cách lớn nhất, thuật toán K-trung bình (K mean) thuật toán ISODATA Các thuật toán có bước tiếp nối, cải tiến từ thuật toán qua thuật toán khác 1.3 Nhận dạng theo cấu trúc 1.3.1 Biểu diễn định tính Ngoài cách biểu diễn theo định lượng mô tả trên, tồn nhiều kiểu đối tượng mang tính định tính Trong cách biểu diễn này, người ta quan tâm đến dạng mối quan hệ chúng Giả thiết đối tượng biểu diễn dãy ký tự Các đặc tính biểu diễn số ký tự Phương pháp nhận dạng nhận dạng lôgic, dựa vào hàm phân biệt hàm Bool Cách nhận dạng nhận dạng từ có độ dài 1.3.2 Phương pháp định dựa vào cấu trúc Các đối tượng cần nhận dạng theo phương pháp biểu diễn câu ngôn ngữ L(G) Khi thao tác phân lớp xem xét đối tượng có thuộc văn phạm L(G) không? Nói cách khác sinh luật văn phạm G không? Như phân lớp theo cách tiếp cận cấu trúc đòi hỏi phải xác định: - Tập Vt chung cho đối tượng - Các quy tắc sinh V để sản sinh câu chúng khác lớp - Quá trình học với câu biểu diễn đối tượng mẫu l nhằm xác định văn phạm G - Quá trình định: Xác định đối tượng X biểu diễn câu l x Nếu lx nhận biết ngôn ngữ L(Gx) ta nói X ∋ Ck 1.4 Nhận dạng mạng nơron 1.4.1 Bộ não Nơron sinh học Các nhà nghiên cứu sinh học não cho ta thấy nơron đơn vị sở đảm nhiệm chức xử lý định hệ thần kinh, bao gồm não, tủy sống, dây thần kinh Mỗi nơron có phần thân với nhân bên đầu thần kinh hệ thống dạng dây thần kinh vào Đường kính nhân tế bào thường 10-4m Trục dây thần kinh phân nhánh theo dạng để nối dây thần kinh vào trực tiếp với nhân tế bào nơron khác thông qua khớp nối 1.4.2 Mô hình mạng nơron Mạng nơron nhân tạo bao gồm nút nối với liên kết nơron Mỗi liên kết kèm theo trọng số đó, đặc trưng cho hoạt tính kích hoạt/ức chế nơron Có thể xem trọng số phương tiện để lưu giữ thông tin dài hạn mạng nơron nhiệm vụ trình huấn luyện mạng cập nhật trọng số có thêm thông tin mẫu mô hoàn toàn phù hợp môi trường xem xét.Trong mạng, số nơron nối với môi trường bên đầu ra, đầu vào 1.5 Kết luận Có nhiều vấn đề nhận dạng khác mà chưa đề cập đến nhận dạng tín hiệu, nhận dạng tiếng nói, v.v Các vấn đề nằm lý thuyết nhận dạng Mục đích chương nhằm cung cấp cách nhìn tổng quan nhận dạng Các hướng nghiên cứu khác giới lĩnh vực nhận dạng nói chung CHƯƠNG II KỸ THUẬT NHẬN DẠNG BẰNG THỐNG KÊ Kỹ thuật nhận dạng thống kê có nhiều ý nghĩa nghiên cứu thực tiễn Nó ứng dụng nhận dạng ngôn ngữ mà hình ảnh, âm thanh, tiếng nói v.v Trong phạm vi luận văn này, trình bày ứng dụng quan trọng Đó ứng dụng kỹ thuật thống kê để nhận dạng ngôn ngữ tự nhiên (lớp văn la tinh) Đây ứng dụng có ý nghĩa thực tiễn, đặc biệt an ninh quốc phòng Ưu việt phương pháp thống kê hiển nhiên, đơn giản không tốn nhiều cho việc đầu tư công nghệ phần cứng Sau nội dung mà tìm hiểu 2.1 Bài toán Giả sử có phân hoạch A 1, A2, , Ak không gian Ơclide n chiều Rn Điều có nghĩa A1, A2, , Ak (k≥2) thỏa mãn điều kiện sau đây: i A i ≠ φ với ∀ i = 1, 2, , k ii A i ∩ A j = φ với ∀i, j ; i≠j (1) k iii ∪ A i = R n i =1 Như rõ ràng ứng với x ∈ R n , có tồn i (i=1,2, ,k) cho x ∈ A i Bây giả sử rằng: Chúng ta có vectơ x ∈ R n , thực tế x ∈ A i ta lại gán cho x ∈ A j với i≠j, ta nói rằng, trường hợp mắc sai lầm (hay tổn thất) Có nhiều cách phân hoạch không gian R n thành k tập A1, A2, , Ak cho thỏa mãn điều kiện vừa nêu Vấn đề đặt xây dựng phân hoạch cho trung bình giá trị tổn thất định bé Để giải toán lý thuyết thống kê toán học, chia toán thành hai trường hợp.Trường hợp (nhận dạng có giám sát) trường hợp (nhận dạng giám sát) 2.2 Nhận dạng có giám sát Giả sử ta có phân hoạch A 1, A2, , Ak (k≥2) không gian Ơclide n chiều Rn Tức giả sử A1, A2, , Ak thỏa mãn điều kiện (1) Giả sử X ∈R n vectơ tùy ý với hàm mật độ Pi ( x ) X ∈ A i (i = 1,2, , k ) [2] Để việc tìm hiểu ta có ý nghĩa, giả thiết P i(.) liên tục tuyệt đối độ đo µ Độ đo σ _ hữu hạn, tức phải thỏa mãn điều kiện sau đây: Giả sử A σ _ đại số nhỏ R n Khi đó, với A∈A mà µ (A) = ⇒ Pi (A) = 2.3 Nhận dạng giám sát Trong thực hành, nhiều trường hợp chưa biết trước mẫu X lấy từ tập hợp có phân bố xác suất biết Trong trường hợp sử dụng lý thuyết Vậy làm để phân hoạch tập hợp cho thành k lớp cho tổn thất định tối ưu? Trường hợp này, phức tạp trường hợp nhận dạng có giám sát (supervised learning) 2.3.1 Đặt toán Giả sử G tập hợp hữu hạn khác rỗng, m G={X1, X2, , Xn} n≥2 X i ∈ R , i = 1,2, , n Hãy phân hoạch G thành k tập G 1, G2, ,Gk Nghĩa chia G thành k phần G1, G2, ,Gk thỏa mãn điều kiện: 1) Gi ≠ φ i=1,2, ,k 2) Gi ∩ Gj = φ i≠j, i,j=1,2, ,k k 3) ∪ G i = G i =1 cho tổn thất phân lớp bé Ở có hai trường hợp xảy i) Trường hợp số lớp k cho trước ii) Trường hợp số lớp k chưa biết 2.3.2 Giải toán trường hợp cho trước số k Tư tưởng phương pháp giải tìm cách ghép đối tượng có quan hệ gần vào chung lớp Như để giải toán cần xây dựng độ đo gần gũi 2.3.3 Trường hợp số k chưa cho biết trước Trong trường hợp này, xây dựng thuật toán xác định số k Sau tìm số k, toán trở trường hợp 2.3.2 2.4 Mô hình xích Markov Mô hình xích Markov (gọi tắt Markov) hay xích ngôn ngữ với giả định Markov dạng mô hình xác suất thống kê nhận dạng mẫu áp dụng phổ biến xử lý ngôn ngữ Mô hình xích Markov ngôn ngữ mô hình hữu hạn trạng thái có tính dừng (ergodic) Mô hình Markov ngôn ngữ định nghĩa tập tham số (m, A, {Yt}, P, r) Trong m∈Z+: số trạng thái mô hình Markov nhận A={a1, a2, ,am}: không gian trạng thái {Yt} t∈T: trình ngẫu nhiên dừng T⊂Z={0, ±1, ±} P: ma trận xác suất chuyển trạng thái r: cấp xích Markov 2.5 Đặc trưng ngôn ngữ tự nhiên Tần số đôi móc xích Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha Tần số đôi móc xích số lần xuất cặp ký tự liên tiếp ký tự sau cặp đôi trước ký tự trước cặp đôi sau Bảng 2.1 Bảng tần số đôi móc xích Tiếng Anh (tính 10.000 ký tự) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A 54 27 75 20 69 30 43 54 46 17 24 73 63 131 16 16 B 24 11 30 33 0 0 0 C 39 10 73 58 13 31 16 23 27 11 0 11 D 24 0 80 30 0 18 94 11 0 13 12 0 E 36 68 72 40 28 38 164 41 12 85 39 65 11 46 147 99 136 74 28 10 F 11 0 31 26 18 34 74 0 0 G 13 0 33 11 0 0 76 15 0 0 H I 16 52 15 48 57 30 13 17 47 0 0 90 18 54 9 15 0 52 14 84 215 142 55 23 30 13 J 0 0 0 0 0 0 0 0 0 0 0 K 0 0 0 1 0 0 L 134 21 23 79 25 57 49 32 10 5 22 0 M 34 0 33 17 0 10 43 40 10 N O 151 70 15 121 31 65 9 24 218 64 3 39 23 10 39 116 10 97 0 17 65 48 125 27 0 14 0 24 0 P 20 13 50 10 1 14 0 13 40 44 10 45 11 0 19 Q 0 0 0 0 0 0 0 0 0 0 0 0 R S T 82 44 149 34 15 18 16 34 155 178 64 12 22 14 11 9 20 82 94 0 0 47 32 48 154 198 25 24 40 11 0 28 112 11 47 144 27 34 28 41 59 35 0 0 0 13 16 U 19 11 14 1 13 62 24 12 43 0 0 V 21 0 10 33 0 27 0 3 23 0 25 0 0 W 34 0 17 21 14 0 X 0 0 19 0 0 0 0 0 0 0 0 0 Y 12 1 10 0 24 25 29 0 0 0 Z 0 0 0 17 0 0 0 0 0 0 0 0 Bảng 2.2 Bảng tần số đôi móc xích Tiếng Pháp (tính 10.000 ký tự) A B C D E F G H I J L M N O P Q R S T U V X Y Z A 12 18 35 53 23 11 12 14 101 55 30 B C D E F 23 35 14 13 13 98 315 14 100 96 66 33 11 10 48 33 22 17 94 1 246 15 104 60 80 124 11 78 49 92 75 85 21 33 1 27 36 16 16 20 57 45 15 209 155 163 85 38 5 G H I J K L M N O P 30 117 54 130 26 10 20 40 28 12 87 33 21 14 16 12 141 12 242 15 82 17 14 12 7 10 65 90 49 14 4 47 66 38 25 22 39 29 22 24 37 21 52 29 164 17 42 51 16 69 15 10 64 98 2 68 24 2 1 35 44 30 24 3 12 1 11 15 13 10 62 55 60 39 23 12 39 28 20 Q R S T 86 52 56 12 11 12 31 163305 143 19 13 15 51 103 112 10 79 17 22 52 40 18 17 86 88 17 39 73 42 76 U 64 14 35 89 V X Y 35 24 17 Z 13 40 2 197 10 11 118 17 134 41 13 61 39 29 18 56 19 29 1 3 1 Bảng 2.3 Bảng tần số đôi móc xích Tiếng Đức (tính 10.000 ký tự) A B C D E A 29 35 12 60 B 104 C D 63 10 233 E 20 62 20 67 35 F 26 44 G 21 12 196 H 71 16 124 I 95 11 188 J 12 K 18 28 L 46 17 73 M 31 2 39 N 57 25 208 143 O 13 30 P 4 Q R 63 16 54 124 S 24 105 19 113 T 51 40 178 U 81 V 38 W 31 50 Z 21 F G H I 14 20 11 2 280 2 86 38 73 75 242 17 15 38 11 53 32 J K 1 14 3 19 L M N O 62 12 82 4 62 13 18 33 32 45 443 13 23 10 197 13 375 168 11 13 16 61 17 26 72 47 27 11 61 63 16 52 20 26 12 21 13 14 15 13 18 34 14 35 25 26 10 84 32 14 12 25 49 19 11 14 43 21 55 82 32 48 30 38 43 118 28 22 27 11 67 36 22 1 75 31 21 12 12 11 27 24 10 16 61 26 17 10 32 76 10 45 2 11 11 14 139 40 12 12 Q R S T U V W Z 41 52 41 63 1 1 11 13 4 13 17 102 18 25 20 16 P 19 45 13 37 13 2 48 13 33 58 14 1 22 34 10 20 19 12 13 22 Bảng 2.4 Bảng tần số đôi móc xích Tiếng Tây Ban Nha (tính 10.000 ký tự) A B C D E F G H I A B C D E F G H I J K L M N O P Q R S T 40 43 97 12261 12 18 19 20 12267 94 12 44 17 14532 20 19 35 10 11 61 50 26 11 3 11 31 34 71 217 67 3 78 41 10 67 48 16 28 17 12 21954 23515 13 16 24632 9 15 22 14 31 12 11 19 43 20 10 31 18 74 76 37 84 12 20 19 80 10 20 74 47 3 J K L 212 19 19 74 19 32 M 67 38 59 53 56 55 47 11 72 N O 32 26 24 68 59 12 P 57 Q 16 21 R 99 41 57 S T U 12 27 V 11 W X Y 23 Z 26 75 26 16 70 12215 11 68 81 30 15 59 9 44 34 10 13 38 38 43 14 16 12417 9 76 64 67 14 18 12 13 30 3 69 21 18 11 20 12 22 19 27 42 26 74 14 11 40 14 12 11 13 28 67 14 34 30 20 30 26 155 34 11 18 78 18 20 23 30 14 10 77 17 17 22 U V W X Y Z 28 14 43 11 13 12 CHƯƠNG III THỰC NGHIỆM 3.1 Bài toán nhận dạng văn La Tinh Cho mẫu văn x thuộc lớp ngôn ngữ La Tinh cụ thể loại ngôn ngữ Tiếng Anh, Tiếng Pháp,Tiếng Đức, Tiếng Tây Ban Nha dãy ngẫu nhiên (chữ chuyển sang mã số 16) chưa biết x thuộc loại loại nêu Hãy xác định xem x thuộc ngôn ngữ cụ thể Ta ký hiệu A0 lớp đại diện cho ngôn ngữ không đọc được, A đại diện cho lớp ngôn ngữ tiếng Anh, A2 đại diện cho lớp ngôn ngữ tiếng Pháp A3 đại diện cho lớp ngôn ngữ tiếng Đức, A5 đại diện cho lớp ngôn ngữ tiếng Tây Ban Nha Vậy toán xác định xem x thuộc lớp đại diện lớp vừa nêu ? (ở số k biết trước k=5) 3.2 Thuật toán dựa xích Markov cấp hữu hạn trạng thái 3.2.1 Xây dựng sở liệu để máy học Xây dựng ước lượng ma trận xác suất chuyển trạng thái P mô hình Markov ứng với ngôn ngữ tự nhiên tiếng Đức, Pháp, Tây Ban Nha Anh Trong ước lượng này, tác giả chọn độ dài mẫu xấp xỉ 10000 ký tự bỏ qua dấu gián cách từ, dấu chấm (.), dấu phẩy (,), , không phân biệt chữ in hoa chữ in thường Nó tổng hợp loại văn thuộc chuyên ngành khác Tính tần số đôi móc xích dãy X, tức ta tính số lần xuất cặp chữ la tinh dãy 14 Bảng 3.1 ước lượng đôi móc xích tiếng Đức (A1) 15 Bảng 3.2 ước lượng đôi móc xích tiếng Pháp (A2) 16 Bảng 3.3 ước lượng đôi móc xích tiếng Anh (A3) 17 Bảng 3.4 ước lượng đôi móc xích tiếng Tây Ban Nha (A4) 18 3.2.2 Nhận biết trực tiếp Giả sử X mẫu X = x 1x2 xN với xi∈{a,b, ,z}, i=1,2, ,N Vấn đề đặt X thuộc ngôn ngữ lớp ngôn ngữ Tiếng Anh, Pháp, Đức, Tây Ban Nha dãy ngẫu nhiên đó? Ta tiến hành sau: Step1: Tính tần số đôi móc xích dãy X, tức ta tính số lần xuất cặp chữ la tinh dãy Giả sử, tần số chữ ký hiệu F= (fij) với i,j = a,b, ,z Nếu cặp (i,j) xuất thời điểm (vị trí) t t+1 Trong trường hợp khác với t = 1, N − Step2: i=1 Step3: Tính Tr(F.Bi) công thức z z C i = ∑ ∑ f jk b (jki ) j= a k = a Step4: Nếu Ci ≥ thuật toán dừng kết luận X thuộc lớp X i-1, trái lại i=i+1 quay Step3 Step5: Nếu i>6 thuật toán dừng kết luận X không thuộc ngôn ngữ lớp nêu 19 3.3.Chương trình Demo 3.3.1 Giao diện chương trình Hình 3.2.Giao diện chương trình 3.3.2 Xây dựng mẫu thử Các mẫu thử lựa chọn tài liệu tiếng Anh, Pháp, Đức, Tây Ban Nha lĩnh vực: Chính trị, kinh tế, văn học, tin học, địa lý, quân sự, thể thao, ngoại giao, lịch sử, y tế, giáo dục, pháp luật Mỗi ngôn ngữ kiểm tra 80 tệp, tệp có khoảng 80 ký tự trở lên, nội dung chọn theo đoạn văn 3.3.3 Thực thi chương trình với thuật toán dựa xích Markov cấp hữu hạn trạng thái Hình 3.3 Kết hiển thị dang file.txt thuật toán dựa xích Markov câp1 hữu hạn trạng thái 20 KẾT LUẬN  KẾT QUẢ ĐẠT ĐƯỢC: Quá trình tìm hiểu kỹ thuật nhận dạng văn lớp ngôn ngữ La Tinh, luận văn làm số công việc sau: • Trình bày vấn đề kỹ thuật nhận dạng nói chung, hướng nghiên cứu giới • Nghiên cứu trình Markov hữu hạn trạng thái • Nghiên cứu xây dựng mô hình Markov ứng với ngôn ngữ tự nhiên : Tiếng Anh, Tiếng Pháp, Tiếng Đức, Tiếng Tây Ban Nha • Giải toán phân lớp đối tượng cho trường hợp số lớp biết trước số lớp chưa biết • Nghiên cứu xây dựng ước lượng tham số xích Markov • Ứng dụng toán kiểm định giả thiết thống kê (testing of statistic hypothesis) để giải toán nhận dạng ngôn ngữ • Cài đặt thành công thuật toán Markov để nhận dạng văn (Anh, Pháp, Đức, Tây Ban Nha) lớp ngôn ngữ la tinh • Thuật toán thể máy tính ngôn ngữ C#, kết thử nghiệm tốt  HƯỚNG PHÁT TRIỂN: Thuật toán mở rộng để nhận biết nhiều văn La tinh khác tiếng Việt, tiếng Indonesia, tiếng Italia.v.v Không thế, mở rộng sang ngôn ngữ tự nhiên phi la tinh khác tiếng Lào, Thái Lan, Tiếng Campuchia lớp ngôn ngữ tiếng Nhật , Trung, Triều Tiên 21 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lương Mạnh Bá, Nguyễn Thanh Thuỷ (1999), Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật, tr.154-170 [2] Hồ Văn Canh, Phạm Quốc Doanh (2002), Thuật toán nhận dạng ngôn ngữ tự nhiên, tr 3-20 [3] Trần Duy Hưng, Nguyễn Ngọc Cường (2002), Nhận dạng tự động ngôn ngữ tiếng Anh, Tạp chí "Tin học điều khiển học", Trung tâm Khoa học tự nhiên Công nghệ Quốc gia số 3/2002 [4] Hoàng Minh Tuấn, Một số vấn đề xây dựng siêu máy tính chi phí thay cho ứng dụng xử lý thông tin tính toán khoa học kỹ thuật, Luận văn Tiến sĩ kỹ thuật, Mã số 62.52.70.01 tr 35-55 [5] Nguyễn Viết Thế, Hồ Văn Canh ( 2010), Nhập môn Phân tích thông tin có bảo mật, NXB Thông tin Truyền thông Tiếng Anh [6] AndrewR.Web.2002 John Wiley & Sons, Ltd Statistical Pattern Recognition, Second Edition [7] Richard O Duda, Peter E Hart, David G Stork Wiley-interscience “Bayesian decision theory”, Pattern Classification, Second Edition: 39-78 [8] Wilks, S S 1962 Mathematical Statitics New York: John Wiley Mark Stam, Richar M.Low ( 2007 ): Applied Cryptanalysis Breaking ciphers in the Real World A John wiley & sons, Inc, publication 2007 22 PHỤ LỤC CẤU TRÚC CÁC LỚP TRONG CHƯƠNG TRÌNH Cấu trúc chung • Lớp Program: đầu vào chương trình, gọi đến lớp MainFrom • Lớp MainForm: lớp xử lý giao diện • Lớp MarkovRecognition: Xử lý thuật toán Markov Chi tiết lớp MakovRecognition - Lớp thực việc nhận dạng ngôn ngữ theo thuật toán markov sử dụng ma trận tần số đôi móc xích chuỗi đầu vào Các hàm bao gồm: • caclConnect: tần số đôi móc xích chuỗi đầu vào • calcMatrix: đọc giá trị ước lượng đôi móc xích từ tệp • calcS: tính tích vô hướng ma trận ước lượng đôi móc xích ma trận đôi móc xích chuỗi đầu vào 23 ... "Nhận dạng văn số ngôn ngữ La Tinh" Trong khuôn khổ luận văn, tập trung nghiên cứu, giải toán nhận dạng ngôn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch không gian (nhận dạng theo... học để nhận dạng ngôn ngữ tự nhiên tìm hiểu đặc trưng số ngôn ngữ tự nhiên tiêu biểu Chương 3: " Thực Nghiệm ", trình bày thuật toán nhận dạng văn La Tinh đưa kết với số mẫu ngôn ngữ điển hình... nhận dạng ngôn ngữ mà hình ảnh, âm thanh, tiếng nói v.v Trong phạm vi luận văn này, trình bày ứng dụng quan trọng Đó ứng dụng kỹ thuật thống kê để nhận dạng ngôn ngữ tự nhiên (lớp văn la tinh)

Ngày đăng: 16/05/2017, 08:30

TỪ KHÓA LIÊN QUAN

w