ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG CHỬ ĐỨC THÀNH TÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢN TRONG LỚP NGÔN NGỮ LA TINH Chuyên ngành Khoa học máy tính Mã số 60 84 01 01 TÓM[.]
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - CHỬ ĐỨC THÀNH TÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢN TRONG LỚP NGÔN NGỮ LA TINH Chuyên ngành: Khoa học máy tính Mã số: 60 84 01 01 TĨM TẮT LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH THÁI NGUN, NĂM 2015 Cơng trình hồn thành : Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Người hướng dẫn khoa học: TS Đặng Thị Thu Hiền Phản biện 1: TS Vũ Tất Thắng Phản biện 2: TS Nguyễn Hữu Quỳnh Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Vào hồi 16 ngày 26 tháng 09 năm 2015 Có thể tìm hiểu luận văn trung tâm học liệu Đại học Thái Nguyên Và thư viện Trường : Trường Đại học Công nghệ Thông tin Truyền thông MỞ ĐẦU Nhận dạng lý thuyết tốn học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn rõ ứng dụng phân tích mã v.v Trên giới nước có nhiều nhà nghiên cứu vấn đề có phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail hệ thống Internet… Nhận dạng chữ tốn hữu ích, quen thuộc ứng dụng nhiều thực tế đặc biệt lĩnh vực nhận dạng phân loại văn thu hút nhiều tác giả quan tâm nghiên cứu phương pháp nhận dạng khác nhau: logic mờ, giải thuật di truyền, mơ hình xác suất thống kê, mơ hình mạng nơ ron Đã có nhiều cơng trình nghiên cứu thực việc nhận dạng, phân loại văn La Tinh đạt tỷ lệ xác cao, nhiên ứng dụng chưa thể đáp ứng hoàn toàn nhu cầu người sử dụng nên ngày người ta tiếp tục nghiên cứu phương pháp nhận dạng tốt hướng đến dùng cho thiết bị di động, tốn thời gian thực Sau tìm hiểu tiến công nghệ nhận dạng chữ La Tinh tính phần mềm nhận dạng chữ, tư vấn giáo viên hướng dẫn, lựa chọn hướng nghiên cứu thiết thực với đề tài: "Tìm hiểu kỹ thuật nhận dạng văn lớp ngôn ngữ La Tinh" Trong khuôn khổ luận văn, tơi tập trung nghiên cứu, giải tốn nhận dạng ngôn ngữ tự nhiên dựa vào phân hoạch không gian (nhận dạng theo thống kê tốn học), lớp ngơn ngữ tiêu biểu nghiên cứu ngôn ngữ La Tinh Việc nghiên cứu quan trọng cần thiết, kết nghiên cứu có khả mở rộng ứng dụng việc xây dựng chương trình kiểm sốt E-mail đặc biệt chương trình phân tích mã tự động, vấn đề cần thiết an ninh quốc phòng Đó ý nghĩa thực tiễn đề tài Nội dung luận văn vấn đề cần giải Nghiên cứu trình Markov hữu hạn trạng thái Nghiên cứu xây dựng mô hình Markov ứng với ngơn ngữ tự nhiên : Tiếng Anh, Tiếng Pháp, Tiếng Đức Giải toán phân lớp đối tượng cho trường hợp số lớp biết trước số lớp chưa biết Nghiên cứu xây dựng ước lượng tham số xích Markov Ứng dụng tốn kiểm định giả thiết thống kê (testing of statistic hypothesis) để giải tốn nhận dạng ngơn ngữ Lập trình thử nghiệm Phương pháp nghiên cứu Phương pháp nghiên cứu ứng dụng phương pháp toán học, nhận dạng xử lý ngôn ngữ, nghiên cứu khảo sát lý thuyết xây dựng thuật toán, lập trình kiểm thử thuật tốn đánh giá Cụ thể: - Tìm hiểu cập nhật kiến thức phương pháp nhận dạng ngôn ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết mơ hình, cơng cụ tốn học, thiết kế xây dựng thuật toán, kỹ thuật tổ chức liệu ngơn ngữ lập trình - Tìm đọc báo, cơng trình nghiên cứu khoa học liên quan đến chủ đề nghiên cứu nước giới Cụ thể tài liệu kỹ thuật thống kê tốn học q trình Markov; quy luật ngơn ngữ q trình ngẫu nhiên dừng, không hậu quả; kỹ thuật nhận dạng ngôn ngữ tự nhiên Hình thành tổng quan tương đối đầy đủ tình hình nghiên cứu liên quan đến chủ đề giới - Lập trình cài đặt số kỹ thuật nhận dạng ngôn ngữ La Tinh đánh giá kết Cấu trúc luận văn chia thành chương: Chương 1: " Tổng quan nhận dạng ", trình bày tổng quan hướng nghiên cứu nhận dạng Chương 2: " Kỹ thuật nhận dạng thống kê ", trình bày ứng dụng kỹ thuật thống kê Toán học để nhận dạng ngơn ngữ tự nhiên tìm hiểu đặc trưng số ngôn ngữ tự nhiên tiêu biểu Chương 3: " Thực Nghiệm ", trình bày thuật toán nhận dạng văn La Tinh đưa kết với số mẫu ngôn ngữ điển hình CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng Nhận dạng trình phân loại đối tượng biểu diễn theo mơ hình gán cho chúng vào lớp (gán cho đối tượng tên gọi) dựa theo quy luật mẫu chuẩn Quá trình nhận dạng dựa vào mẫu học biết trước gọi nhận dạng có giám sát hay học có giám sát (supervised learning); trường hợp ngược lại nhận dạng khơng có giám sát hay học khơng có giám sát (unsupervised learning) 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch - Không gian biểu diễn đối tượng: Các đối tượng quan sát hay thu thập được, thường biểu diễn tập đặc trưng hay đặc tính Giả sử đối tượng X biểu diễn n thành phần (n đặc trưng): X={x1,x2, ,xn}; xi biểu diễn đặc tính Khơng gian biểu diễn đối tượng thường gọi tắt không gian đối tượng X ký hiệu là: X ={X1,X2, ,Xn} Xi biểu diễn đối tượng Khơng gian vơ hạn Để tiện xem xét xét tập X hữu hạn - Không gian diễn dịch: Không gian diễn dịch tập tên gọi đối tượng Kết thúc trình nhận dạng ta xác định tên gọi cho đối tượng tập khơng gian đối tượng hay nói nhận dạng đối tượng Một cách hình thức gọi tập tên đối tượng: ={w1,w2, ,wk} với wi, i =1,2, ,k tên đối tượng 1.1.2 Mơ hình chất q trình nhận dạng Việc chọn lựa q trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm hai họ lớn - Họ mô tả theo tham số; - Họ mô tả theo cấu trúc Cách mô tả lựa chọn xác định mơ hình đối tượng Như vậy, có hai loại mơ hình: mơ hình theo tham số mơ hình cấu trúc Q trình nhận dạng gồm giai đoạn : - Lựa chọn mơ hình biểu diễn đối tượng, - Lựa chọn luật định (phương pháp nhận dạng) suy diễn trình học - Học nhận dạng 1.2 Nhận dạng dựa phân hoạch không gian 1.2.1 Phân hoạch không gian Giả sử không gian đối tượng X định nghĩa: X={Xi,i=1,2, ,m}, Xi vectơ Người ta nói P phân hoạch khơng gian X thành lớp Ci, Ci⊂ X nếu: Ci ¿ Cj = Φ với i¿ j ¿ Ci = X 1.2.2 Hàm phân lớp hay hàm định Để phân đối tượng vào lớp, ta phải xác định số lớp ranh giới lớp Hàm phân lớp hay hàm phân biệt công cụ quan trọng Gọi {g} lớp hàm phân lớp Lớp hàm định nghĩa sau: i ≠ k, gk(X)>gi(X) ta định Xlớp k 1.2.3 Nhận dạng thống kê Nếu đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi: người ta có dùng phương pháp định dựa vào lý thuyết Bayes Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa lý thuyết Bayes có tên phương pháp thống kê 1.2.4 Một số thuật toán nhận dạng tiêu biểu tự học Thực tế có nhiều thuật tốn nhận dạng học khơng có thầy Ở đây, xem xét ba thuật toán hay sử dụng: Thuật toán nhận dạng dựa vào khoảng cách lớn nhất, thuật tốn K-trung bình (K mean) thuật tốn ISODATA Các thuật tốn có bước tiếp nối, cải tiến từ thuật toán qua thuật toán khác 1.3 Nhận dạng theo cấu trúc 1.3.1 Biểu diễn định tính Ngồi cách biểu diễn theo định lượng mô tả trên, tồn nhiều kiểu đối tượng mang tính định tính Trong cách biểu diễn này, người ta quan tâm đến dạng mối quan hệ chúng Giả thiết đối tượng biểu diễn dãy ký tự Các đặc tính biểu diễn số ký tự Phương pháp nhận dạng nhận dạng lôgic, dựa vào hàm phân biệt hàm Bool Cách nhận dạng nhận dạng từ có độ dài 1.3.2 Phương pháp định dựa vào cấu trúc Các đối tượng cần nhận dạng theo phương pháp biểu diễn câu ngôn ngữ L(G) Khi thao tác phân lớp xem xét đối tượng có thuộc văn phạm L(G) khơng? Nói cách khác sinh luật văn phạm G không? Như phân lớp theo cách tiếp cận cấu trúc đòi hỏi phải xác định: - Tập Vt chung cho đối tượng - Các quy tắc sinh V để sản sinh câu chúng khác lớp - Quá trình học với câu biểu diễn đối tượng mẫu l nhằm xác định văn phạm G - Quá trình định: Xác định đối tượng X biểu diễn câu l x Nếu lx nhận biết ngơn ngữ L(Gx) ta nói X Ck 1.4 Nhận dạng mạng nơron 1.4.1 Bộ não Nơron sinh học Các nhà nghiên cứu sinh học não cho ta thấy nơron đơn vị sở đảm nhiệm chức xử lý định hệ thần kinh, bao gồm não, tủy sống, dây thần kinh Mỗi nơron có phần thân với nhân bên đầu thần kinh hệ thống dạng dây thần kinh vào Đường kính nhân tế bào thường 10-4m Trục dây thần kinh phân nhánh theo dạng để nối dây thần kinh vào trực tiếp với nhân tế bào nơron khác thông qua khớp nối 1.4.2 Mô hình mạng nơron Mạng nơron nhân tạo bao gồm nút nối với liên kết nơron Mỗi liên kết kèm theo trọng số đó, đặc trưng cho hoạt tính kích hoạt/ức chế nơron Có thể xem trọng số phương tiện để lưu giữ thông tin dài hạn mạng nơron nhiệm vụ trình huấn luyện mạng cập nhật trọng số có thêm thơng tin mẫu mơ hồn tồn phù hợp môi trường xem xét.Trong mạng, số nơron nối với mơi trường bên ngồi đầu ra, đầu vào CHƯƠNG II KỸ THUẬT NHẬN DẠNG BẰNG THỐNG KÊ Kỹ thuật nhận dạng thống kê có nhiều ý nghĩa nghiên cứu thực tiễn Nó ứng dụng nhận dạng ngôn ngữ mà cịn hình ảnh, âm thanh, tiếng nói v.v Trong phạm vi luận văn này, tơi trình bày ứng dụng quan trọng Đó ứng dụng kỹ thuật thống kê để nhận dạng ngôn ngữ tự nhiên (lớp văn la tinh) Đây ứng dụng có ý nghĩa thực tiễn, đặc biệt an ninh quốc phịng Ưu việt phương pháp thống kê hiển nhiên, đơn giản không tốn nhiều cho việc đầu tư công nghệ phần cứng Sau nội dung mà tìm hiểu 2.1 Bài tốn Giả sử có phân hoạch A 1, A2, , Ak không gian Ơclide n chiều R n Điều có nghĩa A1, A2, , Ak (k2) thỏa mãn điều kiện sau đây: i ii Ai ≠φ Ai ∩ A j=φ với i = 1, 2, , k với i, j ; i≠j (1) k ¿ Ai =Rn iii i=1 Như rõ ràng ứng với x∈ R n , có tồn i (i=1,2, ,k) cho Bây giả sử rằng: Chúng ta có vectơ gán cho x∈ R n , thực tế x ∈ Ai x ∈ Ai ta lại x∈ A j với i≠j, ta nói rằng, trường hợp mắc sai lầm (hay tổn thất) Có nhiều cách phân hoạch khơng gian R n thành k tập A1, A2, , Ak cho thỏa mãn điều kiện vừa nêu Vấn đề đặt xây dựng phân hoạch cho trung bình giá trị tổn thất định bé Để giải toán lý thuyết thống kê toán học, chia toán thành hai trường hợp.Trường hợp (nhận dạng có giám sát) trường hợp (nhận dạng khơng có giám sát) 2.2 Nhận dạng có giám sát Giả sử ta có phân hoạch A1, A2, , Ak (k2) không gian Ơclide n chiều R n n Tức giả sử A1, A2, , Ak thỏa mãn điều kiện (1) Giả sử X ∈ R vectơ tùy ý với hàm mật độ Pi ( x) X ∈ A i (i=1,2, ,k) [2] Để việc tìm hiểu ta có ý nghĩa, giả thiết P i(.) liên tục tuyệt đối độ đo μ Độ đo σ _ hữu hạn, tức phải thỏa mãn điều kiện sau đây: Giả sử A σ _ đại số nhỏ Rn Khi đó, với AA mà μ( A )=0 ⇒ Pi ( A )=0 2.3 Nhận dạng khơng có giám sát Trong thực hành, nhiều trường hợp chưa biết trước mẫu X lấy từ tập hợp có phân bố xác suất biết Trong trường hợp sử dụng lý thuyết Vậy làm để phân hoạch tập hợp cho thành k lớp cho tổn thất định tối ưu? Trường hợp này, phức tạp trường hợp nhận dạng có giám sát (supervised learning) 2.3.1 Đặt toán Giả sử G tập hợp hữu hạn khác rỗng, m G={X1, X2, , Xn} n2 X i ∈ R , i=1,2, ,n Hãy phân hoạch G thành k tập G 1, G2, ,Gk Nghĩa chia G thành k phần G1, G2, ,Gk thỏa mãn điều kiện: 1) Gi ≠ i=1,2, ,k 2) Gi Gj = i≠j, i,j=1,2, ,k k ¿ G i =G 3) i=1 cho tổn thất phân lớp bé Ở có hai trường hợp xảy i) Trường hợp số lớp k cho trước ii) Trường hợp số lớp k chưa biết 2.5 Đặc trưng ngôn ngữ tự nhiên 2.5.1 Tần số đơn tương đối ngôn ngữ Tiếng Anh, Tiếng Pháp, Tiếng Đức Chữ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Anh 7,96 1,60 2,84 4,01 12,86 2,62 1,99 5,39 7,77 0,16 0,41 3,51 2,43 7,51 6,62 1,81 0,17 6,83 6,62 9,72 2,48 1,15 1,80 0,17 1,52 0,05 Bảng 2.1 Pháp 7,68 0,80 3,32 3,60 17,76 1,06 1,10 0,64 7,23 0,19 0,00 5,89 2,72 7,61 5,34 3,24 1,34 6,81 8,23 7,3 6,05 1,27 0,0 0,54 0,21 0,07 Đức 5,52 1,56 2,94 4,91 19,8 1,96 3,60 5,02 8,21 0,16 1,33 3,48 1,69 10,20 2,14 0,54 0,01 7,01 7,07 5,86 4,22 0,84 1,38 0,0 0,0 1,17 2.5.2 Tần số đơi móc xích Tiếng Anh, Tiếng Pháp, Tiếng Đức Tần số đơi móc xích số lần xuất cặp ký tự liên tiếp ký tự sau cặp đơi trước ký tự trước cặp đôi sau 10 Bảng 2.2.1 Bảng tần số đơi móc xích Tiếng Anh (tính 10.000 ký tự) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A 24 39 24 11 13 16 134 34 151 20 82 44 149 21 12 B 21 0 C 54 10 68 0 52 15 23 0 70 D 27 11 0 15 13 0 0 0 15 18 19 16 34 11 10 E 75 30 73 80 40 31 33 57 79 33 121 31 50 155 178 64 14 33 34 19 F 30 0 65 10 12 22 0 14 11 10 0 0 36 72 0 48 8 28 26 G 20 38 3 13 17 0 5 H 69 164 0 0 24 47 34 9 0 I 30 33 58 30 41 18 11 0 25 17 218 64 14 20 82 94 27 17 J 0 0 0 0 0 0 0 0 0 0 K 12 0 0 0 0 0 L 43 13 18 85 3 90 57 47 32 24 M 54 0 18 0 10 23 40 0 13 N 46 31 94 65 34 76 54 48 154 3 O 17 16 11 11 74 15 49 43 116 10 44 198 25 24 62 23 17 1 39 39 13 10 39 P 24 46 15 32 97 40 11 24 Q 0 0 0 0 0 0 R 73 23 13 147 52 S 63 27 99 14 84 7 48 45 11 47 144 12 21 T 131 11 136 215 142 125 U 22 27 11 41 59 35 0 0 0 12 0 0 0 10 40 17 65 10 0 28 112 25 25 0 27 34 28 43 14 29 V 16 0 74 0 55 0 0 0 0 0 0 0 0 W 16 0 28 0 23 30 0 14 0 0 0 X 0 0 0 0 0 0 0 0 Y 11 3 13 0 24 19 13 16 1 0 Z 0 10 0 0 0 0 0 0 0 1 11 0 0 0 Bảng 2.2.2 Bảng tần số đơi móc xích Tiếng Pháp (tính 10.000 ký tự) A B C D E F G H I J K L M N O P Q R S A 23 35 14 13 30 117 54 130 B 12 C 18 D 35 E 53 14 100 96 66 33 14 16 12 F 23 11 10 G 11 48 H 12 33 I 14 22 17 94 J 10 20 12 1 98 40 28 12 87 11 14 315 33 21 12 12 7 10 M 55 15 N 30 60 80 124 11 29 22 78 19 13 65 2 90 49 14 15 51 103112 13 66 38 25 22 39 24 37 21 79 197 10 17 17 22 11 118 2 49 47 104 14 246 35 7 52 29 164 42 Z 141 12 242 15 82 31 163305143 89 24 17 101 P 17 L O 26 86 52 56 64 35 13 T U V X Y 51 16 10 40 52 3 17 Q 134 R 92 27 20 209 69 35 15 55 12 17 39 41 13 S 75 36 57 155 15 10 64 44 13 60 39 40 73 61 39 T 85 16 45 163 98 30 10 39 28 18 86 42 29 18 U 21 16 15 85 2 68 V 33 X Y Z 38 5 24 12 62 20 88 76 56 19 29 24 2 23 1 17 1 1 12 Bảng 2.2.3 Bảng tần số đơi móc xích Tiếng Đức (tính 10.000 ký tự) A B C D E F G H I J K L M N O A 29 35 12 60 14 20 11 62 12 82 B 104 2 C 280 D 63 10 233 2 4 11 E 20 62 20 67 35 38 73 75 242 19 62 45 443 44 17 G 21 12 196 H 71 16 124 1 375 168 47 52 20 26 12 15 13 18 13 16 11 13 38 33 13 23 13 61 17 61 14 32 10 197 26 72 63 9 13 16 12 11 15 17 73 13 67 36 39 4 M 31 41 52 41 63 11 27 21 J L 46 U V W Z 95 11 188 11 53 32 T 28 S I K 18 Q R 14 86 F 26 P 22 13 25 8 1 26 25 11 10 14 4 N 57 25 208 143 17 102 27 75 31 18 34 14 84 49 43 14 22 34 O 32 14 19 12 P 13 30 4 18 21 35 Q S 24 105 19 113 12 20 10 76 T 51 2 10 40 178 11 16 45 81 27 16 45 13 11 11 14 139 21 55 43 48 20 13 82 118 13 30 38 22 38 37 W 31 50 40 13 21 12 58 13 32 48 28 33 10 19 22 V Z 1 R 63 16 54 124 12 25 24 61 26 17 10 32 19 U 12 CHƯƠNG III THỰC NGHIỆM 3.1 Bài toán nhận dạng văn La Tinh Cho mẫu văn x thuộc lớp ngơn ngữ La Tinh cụ thể loại ngôn ngữ Tiếng Anh, Tiếng Pháp,Tiếng Đức dãy ngẫu nhiên (chữ chuyển sang mã số 16) chưa biết x thuộc loại loại nêu Hãy xác định xem x thuộc ngôn ngữ cụ thể Ta ký hiệu A0 lớp đại diện cho ngôn ngữ không đọc được, A1 đại diện cho lớp ngôn ngữ tiếng Anh, A2 đại diện cho lớp ngôn ngữ tiếng Pháp A3 đại diện cho lớp ngơn ngữ tiếng Đức Vậy tốn xác định xem x thuộc lớp đại diện lớp vừa nêu ? (ở số k biết trước k=4) 3.2 Thuật toán sử dụng tần số đơn 3.2.1.Xây dựng sở liệu để máy học Xây dựng (bằng phương pháp ước lượng hợp lí cực đại) đặc trưng loại ngôn ngữ nêu 14 Bảng 3.1 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức, Dãy ngẫu nhiên Chữ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z X0 X1 X2 X3 X4=X0 Ghi 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0796 0.0160 0.0248 0.0401 0.1256 0.0262 0.0199 0.0539 0.0777 0.0016 0.0041 0.0351 0.0243 0.0751 0.0662 0.0181 0.0017 0.0883 0.0662 0.0972 0.0248 0.0115 0.0180 0.0017 0.0152 0.0005 0.0552 0.0156 0.0294 0.0491 0.1918 0.0196 0.0360 0.0502 0.0821 0.0016 0.0133 0.0348 0.0169 0.1020 0.0214 0.0054 0.0001 0.0701 0.0707 0.0586 0.0422 0.0084 0.0138 0.0000 0.0000 0.0177 0.0768 0.0080 0.0332 0.0360 0.1776 0.0106 0.0110 0.0064 0.0723 0.0019 0.0000 0.0589 0.0272 0.0761 0.0534 0.0324 0.0134 0.0681 0.0823 0.0730 0.0605 0.0127 0.0000 0.0054 0.021 0.0007 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 0.0385 X4=X0 véc tơ kiểm tra X0 đặc trưng cho dãy ngẫu nhiên X1 đặc trưng cho Tiếng Anh X2 đặc trưng cho Tiếng Đức X3 đặc trưng cho Tiếng Pháp Trong bảng đưa vào X4=X0 có ý nghĩa mà q trình tính toán rõ Từ số liệu bảng 3.1, ta chuyển sang bảng 3.2 theo cách sau Ký hiệu Xj = xij i=1,2, ,26; j=0,1,2,3 X'j = x'ij ; Nếu j – < j = 15 Bảng 3.2 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức, Dãy ngẫu nhiên Chữ X'0 X'1 X'2 X'3 X'4=X'0 Ghi A 1.4338 0.4837 1.3913 1.0365 1.4338 Những B 0.4052 2.4063 0.5128 2.0000 0.4052 chỗ + C 0.7636 1.5524 1.1293 0.7470 0.7636 D 1.2753 0.9601 0.7332 1.1139 1.2753 - E 4.9818 0.3065 0.9260 0.7072 4.9818 F 0.5091 1.4695 0.5408 2.4717 0.5091 G 0.9351 1.9347 0.3056 1.8091 0.9351 H 1.3039 0.7143 0.1275 8.4219 1.3039 I 2.1325 0.4955 0.8806 1.0747 2.1325 J 0.0416 24.0625 1.1875 0.8421 0.0416 số K 0.3455 9.3902 - + 0.3455 dương L 0.9039 1.0969 1.6925 0.5959 0.9039 tương M 0.4390 1.5844 1.6095 0.8934 0.4390 đối lớn N 2.6494 0.5126 0.7461 0.9869 2.6494 O 0.5558 0.5816 2.4953 1.2397 0.5558 hoăc P 0.1403 2.1271 6.0000 0.5586 0.1403 Q 0.0026 22.6471 134.0000 0.1269 0.0026 R 1.8208 0.4360 0.9715 1.2966 1.8208 S 1.8364 0.5816 1.1641 0.8044 1.8364 T 1.5221 0.3961 1.2457 1.3315 1.5221 U 1.0961 1.5524 1.4336 0.4099 1.0961 V 0.2182 3.3478 1.5119 0.9055 0.2182 W 0.3584 2.1389 - + 0.3584 X - 22.6471 + 0.3148 - Y - 2.5329 + 0.7238 - Z 0.4597 77.0000 0.0395 0.7143 0.4597 16 để xác định ta gán cho âm tương đối bé Bảng 3.2 đưa sang bảng 3.3 theo quy tắc sau: '' '' Gọi X i =( x ji ) j=1,2, ,26; i=1,2,3 Khi x ji =[7 lg x ji ] j=1,2, .,26; i=1,2,3 '' ' lg(.) hàm logarit số 10 [x] = số nguyên lớn bé x Bảng 3.3 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức Chữ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z X''1 -3 -1 -4 1 -1 -2 -2 -2 -3 -2 -3 11 X''2 -1 -1 -2 -2 -1 -4 -1 3 -1 -1 -2 10 10 -10 17 X''3 -2 -1 0 -1 10 -2 -2 -3 -6 -15 -1 -1 -2 -2 10 -30 -30 3.2.2.Phân biệt trực tiếp Do bảng 3.1 bảng 3.2 tính tốn trung gian, nhận dạng cần bảng 3.3 Vì vậy, để đơn giản, ta dùng Xj j=1,2,3,4 thay Xj'' Ta chuyển vị bảng 3.3 để có bảng 3.4 sau (ta ký hiệu theo lối vectơ) Bảng 3.4 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức A B C D E F G H I J K L M N O P Q R S T U V W X Y Z X1 -3 -1 -4 1 -1 -2 -2 -2 -3 -2 -3 11 X2 -1 -1 -2 -2 -1 -4 -1 3 -1 -1 -2 10 10 -10 X3 -2 -1 0 -1 10 -2 -2 -3 -6 -15 -1 -1 -2 -2 10 -30 -30 Giả sử X mẫu X = x 1x2 xN với xi{a,b, ,z}, i=1,2, ,N Ở ta giả thiết N20 (để độ xác cao N50) Vấn đề đặt X thuộc ngôn ngữ lớp ngôn ngữ Tiếng Anh, Pháp, Đức dãy ngẫu nhiên đó? Ta tiến hành sau: Step1: Tính tần số đơn dãy X, tức ta tính số lần xuất chữ la tinh dãy Giả sử, tần số chữ ký hiệu f x=(fa,fb, ,fz) với fi0; i{a,b, ,z} Step2: Tính tích vơ hướng i=1 z Si =∑ f j xij j=a Tính Step3: Nếu Si>0 thuật tốn dừng kết luận X thuộc lớp X i-1, trái lại i=i+1 quay Step2 Step4: Nếu i>4 thuật tốn dừng kết luận X không thuộc ngôn ngữ lớp nêu 3.3 Thuật tốn dựa xích Markov cấp hữu hạn trạng thái 3.3.1 Xây dựng sở liệu để máy học Xây dựng ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngơn ngữ tự nhiên tiếng Đức, Pháp Anh Trong ước lượng này, tác giả chọn độ dài mẫu xấp xỉ 10000 ký tự bỏ qua dấu gián cách từ, dấu chấm (.), dấu phẩy (,), , không phân biệt chữ in hoa chữ in thường Nó tổng hợp loại văn thuộc chuyên ngành khác Tính tần số đơi móc xích dãy X, tức ta tính số lần xuất cặp chữ la tinh dãy 18 ... Sau tìm hiểu tiến công nghệ nhận dạng chữ La Tinh tính phần mềm nhận dạng chữ, tư vấn giáo viên hướng dẫn, lựa chọn hướng nghiên cứu thiết thực với đề tài: "Tìm hiểu kỹ thuật nhận dạng văn lớp ngôn. .. số kỹ thuật nhận dạng ngôn ngữ La Tinh đánh giá kết Cấu trúc luận văn chia thành chương: Chương 1: " Tổng quan nhận dạng ", trình bày tổng quan hướng nghiên cứu nhận dạng Chương 2: " Kỹ thuật. .. lớp ngôn ngữ La Tinh" Trong khuôn khổ luận văn, tập trung nghiên cứu, giải tốn nhận dạng ngơn ngữ tự nhiên dựa vào phân hoạch không gian (nhận dạng theo thống kê tốn học) , lớp ngơn ngữ tiêu biểu