1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN cứu xây DỰNG TIÊU CHUẨN bản rõ TIẾNG ANH của NGÔN NGỮ tự NHIÊN

56 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 517,75 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Văn Biên NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGƠN NGỮ TỰ NHIÊN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thông Tin HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phùng Văn Biên NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGƠN NGỮ TỰ NHIÊN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Các hệ thống thơng tin Cán hướng dẫn: TS Hồ Văn Canh HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Em xin chân thành cảm ơn Thầy, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo trường Đại học Công nghệ, Đại học Quốc gia Hà Nội ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn sinh viên K50 trường Đại học Công nghệ thuộc Đại học Quốc gia Hà Nội động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khố học Đặc biệt em xin bày tỏ lịng biết ơn sâu sắc đến TS.Hồ Văn Canh tận tình giúp đỡ em hình thành, nghiên cứu hồn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn khơng tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, giáo Một lần em xin cảm ơn! Hà Nội, tháng 05 năm 2009 Người thực luận văn Phùng Văn Biên i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT NỘI DUNG Nhận dạng ngôn ngữ nghiên cứu quan trọng ứng dụng Internet nhiều lĩnh vực xử lý ngôn ngữ tự nhiên khác nhận dạng tiếng nói, nhận dạng chữ viết Đặc biệt, xây dựng tiêu chuẩn rõ ứng dụng phân tích mật mã mã khối ( cổ điển đại như: Des, 3-Des, AES…) Luận văn mô tả giải pháp hiệu nhận dạng ngôn ngữ Tiếng Anh dễ dàng phát triển để nhận dạng ngôn ngữ la tinh phi la tinh Khóa luận đưa nhìn tổng quan nhận dạng: hướng tiếp cận nghiên cứu Trình bày tổng quan tốn nhận dạng ngôn ngữ tự nhiên phát biểu dạng lý thuyết kiểm định giả thiết thống kê Từ tổng quát toán, ta đưa toán thực tế nhận dạng tiêu chuẩn rõ Tiếng Anh ngôn ngữ tự nhiên (Nhận dạng rõ Tiếng Anh dãy ngẫu nhiên tập mẫu) Đề giải vấn đề cần tìm hiểu số nội dung: Cách biểu diễn ngơn ngữ mơ hình xích Markov tiêu chuẩn dùng phép kiểm định giả thiết thống kê Cuối ứng dụng lý thuyết vào việc xây dựng kỹ thuật nhận dạng rõ Tiếng Anh ngôn ngữ tự nhiên ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Trang LỜI CẢM ƠN i TÓM TẮT NỘI DUNG ii MỤC LỤC iii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG .2 1.1 Tổng quan nhận dạng 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch 1.1.2 Mơ hình chất trình nhận dạng .3 1.2 Nhận dạng dựa phân hoạch không gian 1.2.1 Phân hoạch không gian 1.2.2 Hàm phân lớp hay hàm định 1.2.3 Nhận dạng thống kê 1.2.4 Một số thuật toán nhận dạng tiêu biểu tự học .10 1.3 Nhận dạng theo cấu trúc 13 1.3.1 Biểu diễn định tính .13 1.3.2 Phương pháp định dựa vào cấu trúc .13 1.4 Mạng nơron nhân tạo nhận dạng theo mạng nơron 15 1.4.1 Bộ não Nơron sinh học 15 1.4.2 Mơ hình mạng nơron 19 1.5 Kết luận 21 CHƯƠNG 2: ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TỐN NHẬN DẠNG NGƠN NGỮ TỰ NHIÊN 22 2.1 Dạng tổng quát toán 22 2.2 Một số khái niệm thuật toán 23 2.2.1 Khoảng cách hai đối tượng, hai tập hợp .23 2.2.2 Giải toán trường hợp cho trước số k .24 2.2.3 Giải toán trường hợp số k chưa cho biết trước .27 2.3 Mơ hình xích Markov phép kiểm định thống kê cho toán nhận dạng ngôn ngữ .31 2.3.1 Mơ hình xích Markov 31 2.3.2 Phép kiểm định thống kê cho tốn nhận dạng ngơn ngữ biết .33 CHƯƠNG KỸ THUẬT NHẬN DẠNG BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN .35 3.1 Bài toán 35 3.2 Thuật toán 35 3.3.1 Phần off-line .35 3.3.2 Phần on-line 41 3.3.3 Một số ví dụ 42 3.3.3 Một số ví dụ 43 CHƯƠNG KẾT QỦA ĐẠT ĐƯỢC 47 4.1 Kết đạt .47 4.2 Đánh giá thuật toán 47 4.3 Mã nguồn chương trình 48 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO .51 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Nhận dạng (pattern of Recognition) lý thuyết toán học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ v.v.v Thông qua Internet, Em biết giới nước có nhiều nhà nghiên cứu vấn đề có phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail hệ thống Internets … Trong khuôn khổ luận văn, tập trung nghiên cứu, giải toán nhận dạng ngôn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch khơng gian (hay nhận dạng theo thống kê tốn học), lớp ngơn ngữ tiêu biểu nghiên cứu Tiếng Anh Việc nghiên cứu quan trọng cần thiết; thực tiễn, kết nghiên cứu có khả mở rộng ứng dụng việc xây dựng chương trình kiểm sốt E-mail hay chương trình phân tích mã Cả hai chương trình cần thiếu vấn đề an ninh quốc gia; khoa học, giúp ta nắm kiến thức tốt dễ dàng việc chuyển sang nghiên cứu vấn đề khác lĩnh vực nhận dạng  Phương pháp nghiên cứu: o Nghiên cứu tài liệu (Tài liệu kỹ thuật thống kê tốn học q trình Markov) o Các quy luật ngôn ngữ trình ngẫu nhiên dừng, khơng hậu  Nội dung nghiên cứu: o Tính tần số đơi móc xích ngôn ngữ Tiếng Anh o Nghiên cứu sở lý thuyết sác xuất – thống kê toán học o Nghiên cứu, xây dựng tiêu chuẩn nhận dạng lập trình thể thuật tốn ngơn ngữ C LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng Nhận dạng (pattern recognition) ngành thuộc lĩnh vực học máy (machine learning) Nhận dạng nhằm mục đích phân loại liệu (là mẫu) dựa trên: kiến thức tiên nghiệm (a priori) dựa vào thơng tin thống kê trích rút từ mẫu có sẵn Các mẫu cần phân loại thường biểu diễn thành nhóm liệu đo đạc hay quan sát được, nhóm điểm khơng gian đa chiều phù hợp Đó khơng gian đặc tính để dựa vào ta phân loại Q trình nhận dạng dựa vào mẫu học biết trước gọi nhận dạng có thầy hay học có thầy (supervised learning); trường hợp ngược lại học khơng có thầy (unsupervised learning) Trong lý thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau: - Nhận dạng dựa vào phân hoạch không gian - Nhận dạng cấu trúc - Nhận dạng dựa vào kỹ thuật mạng nơ ron Hai cách tiếp cận đầu kỹ thuật kinh điển Cách tiếp cận thứ ba hồn tồn khác Nó dựa vào chế đoán nhân, lưu trữ phân biệt đối tượng mô theo hoạt động hệ thần kinh người Các cách tiếp cận trình bày phần Các ứng dụng phổ biến nhận dạng tiếng nói tự động, phân loại văn thành nhiều loại khác (ví dụ: thư điện tử spam/non-spam), nhận dạng tự động mã bưu điện viết tay bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người Ba ví dụ cuối tạo thành lãnh vực phân tích ảnh nhận dạng với đầu vào ảnh số 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch Không gian biểu diễn đối tượng [1] Các đối tượng quan sát hay thu thập được, thường biểu diễn tập đặc trưng hay đặc tính Như trường hợp xử lý ảnh, ảnh sau tăng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cường để nâng cao chất lượng, phân vùng trích chọn đặc tính biểu diễn đặc trưng biên, miền đồng nhất,v.v Người ta thường phân đặc trưng theo loại như: đặc trưng tơpơ, đặc trưng hình học đặc trưng chức Việc biểu diễn ảnh theo đặc trưng phụ thuộc vào ứng dụng Ở ta đưa cách hình thức việc biểu diễn đối tượng Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay,v.v.); biểu diễn n thành phần (n đặc trưng): X={x1,x2, ,xn}; xi biểu diễn đặc tính Khơng gian biểu diễn đối tượng thường gọi tắt không gian đối tượng X ký hiệu là: X ={X1,X2, ,Xn} Xi biểu diễn đối tượng Khơng gian vô hạn Để tiện xem xét xét tập X hữu hạn Không gian diễn dịch Không gian diễn dịch tập tên gọi đối tượng Kết thúc trình nhận dạng ta xác định tên gọi cho đối tượng tập khơng gian đối tượng hay nói nhận dạng đối tượng Một cách hình thức gọi  tập tên đối tượng: ={w1,w2, ,wk} với wi, i =1,2, ,k tên đối tượng: Quá trình nhận dạng đối tượng ánh xạ f: X   với f tập quy luật để định phần tử X ứng với phần tử  Nếu tập quy luật tập tên đối tượng biết trước nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi nhận dạng có thầy Trường hợp thứ hai nhận dạng khơng có thày Đương nhiên trường hợp việc nhận dạng có khó khăn 1.1.2 Mơ hình chất trình nhận dạng 1.1.2.1 Mơ hình Việc chọn lựa q trình nhận dạng có liên quan mật thiết đến kiểu mơ tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm hai họ lớn: [1] - Họ mô tả theo tham số; LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Họ mô tả theo cấu trúc Cách mô tả lựa chọn xác định mơ hình đối tượng Như vậy, có hai loại mơ hình: mơ hình theo tham số mơ hình cấu trúc  Mơ hình tham số sử dụng vectơ để đặc tả đối tượng, phần tử vectơ mô tả đặc tính đối tượng Thí dụ đặc trưng chức năng, người ta sử dụng hàm sở trực giao để biểu diễn Và ảnh biểu diễn chuỗi hàm trực giao Giả sử C đường bao ảnh C(i,j) điểm thứ i đường bao, i = 1, 2, , N (đường bao gồm N điểm) Giả sử tiếp: x0  N  xi N i 1 N y   yi N i 1 tọa độ tâm điểm Như vậy, momen trung tâm bậc p, q đường bao  pq N   (x i  x ) p (yi  y0 ) q N i1 (1.1) Vectơ tham số trường hợp momen  ij với i=1,2, ,p j=1,2, ,q Còn đặc trưng hình học người ta hay sử dụng chu tuyến, đường bao, diện tích tỉ lệ T =  S/p2, với S diện tích, p chu tuyến Việc lựa chọn phương pháp biểu diễn làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng hoàn toàn phụ thuộc vào ứng dụng Thí dụ, nhận dạng chữ, tham số dấu hiệu: - Số điểm chạc ba, chạc tư, - Số điểm chu trình, - Số điểm ngoặt, - Số điểm kết thúc, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chẳng hạn với chữ t có điểm kết thúc, điểm chạc tư,  Mơ hình cấu trúc: Cách tiếp cận mơ hình dựa vào việc mơ tả đối tượng nhờ số khái niệm biểu thị đối tượng sở ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng số dạng nguyên thủy đoạn thẳng, cung,.v.v Chẳng hạn, hình chữ nhật định nghĩa gồm đoạn thẳng vng góc với đơi Trong mơ hình người ta sử dụng kí hiệu kết thúc Vt, kí hiệu khơng kết thúc gọi Vn Ngồi ra, có dùng tập luật sản xuất để mô tả cách xây dựng đối tượng phù hợp dựa đối tượng đơn giản đối tượng nguyên thủy (tập Vt) Trong cách tiếp cận này, ta chấp nhận khẳng định là: Cấu trúc dạng kết việc áp dụng luật sản xuất theo nguyên tắc xác định từ dạng gốc bắt đầu Một cách hình thức, ta coi mơ hình tương đương văn phạm G = (Vt, Vn, P, S) với: - Vt kí hiệu kết thúc, - Vn kí hiệu không kết thúc, - P luật sản xuất, - S dạng (kí hiệu bắt đầu) 1.1.2.2 Bản chất trình nhận dạng Quá trình nhận dạng gồm giai đoạn [1]: - Lựa chọn mơ hình biểu diễn đối tượng, - Lựa chọn luật định (phương pháp nhận dạng) suy diễn trình học - Học nhận dạng Khi mơ hình biểu diễn xác định, định lượng (mơ hình tham số) hay định tính (mơ hình cấu trúc), trình nhận dạng chuyển sang giai đoạn học Học giai đoạn quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành lớp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đó ước lượng có chênh với sai số trung bình bình phương bé xác suất chuyển Pij ma trận chuyển P mơ hình Markov ngơn ngữ tự ^ nhiên Anh Kết tính P ij cho bảng ứng sau: 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG 3.1 ƯỚC LƯỢNG BỘ ĐƠI MĨC XÍCH TIẾNG ANH (A1) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A 13 33 41 88 19 21 40 46 52 42 19 86 66 59 12 38 15 B 21 C 29 D 53 16 20 7 10 58 53 126 24 14 10 12 48 14 126 17 23 16 17 24 1 12 E 56 71 66 57 19 35 271 25 11 65 67 63 37 F 11 177 76 79 77 39 18 41 21 G 31 H 20 11 36 16 15 19 97 107 13 12 47 332 33 12 I 33 18 59 51 30 18 58 J 2 K 10 13 44 32 14 78 78 133 29 36 10 L 65 23 56 11 38 M 23 15 57 1 26 N 171 154 212 2 136 1 54 6 19 15 14 20 26 11 10 16 12 31 10 O 11 51 16 35 52 21 44 58 46 26 17 54 13 28 P 14 60 58 79 15 20 7 1 9 Q 1 1 R 87 15 10 21 194 26 23 46 18 153 12 82 T 127 29 53 66 49 21 18 120 2 95 33 16 12 47 23 14 23 132 42 24 51 48 38 48 50 40 56 121 56 31 4 31 S 77 16 U 13 11 21 9 58 17 35 21 V 25 W 26 15 31 5 16 11 3 X 13 Y 15 3 Z 1 14 28 34 13 4 28 30 29 25 1 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ số liệu bảng A1 A1  (a (ij1) ) i, j  1,2, ,26 ta chuyển sang bảng B1 theo công thức sau: B1  (b (ij1) ) i, j  1,2, ,26 Trong đó: b (ij1)  14,79  (1) 7 lg (1)  if a ij    a ij   11 if a (1) ij   i, j  1,2, ,26 Trong lg(.): lơgarit số 10 [x] = số nguyên lớn bé x Hệ số k = là kết thực nghiệm giúp cho việc nhận dạng lớp tốt Gọi A = (aij)26x26 với aij = 1/26  i,j = 1,2,…,26 Ma trận dãy ngẫu nhiên Như vậy, phần tử A0 = ( aij(0) ) ma trận đôi dãy ngẫu nhiên Hệ số 14,79  10.000 , lấy chữ số thập phân sau dấu phẩy 26 * 26 Ví dụ 3.1: [-1,5] = -2 [1,5] = [-1,95] = -2 [3] = [-1] = -1 [0,3] = ta có bảng sau: 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG 3.2: ƯỚC LƯỢNG ĐỐI SÁNH CỦA TIẾNG ANH VỚI MẪU NGẪU NHIÊN (B1) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A B C D E F G H I J K L M N O P Q R S T U V W X Y Z -3 -4 -6 -1 -2 11 -4 -4 -4 -4 -1 11 -6 -5 -5 -3 -1 -2 11 11 -1 -1 4 11 11 11 1 -2 11 11 11 -3 11 -5 4 -4 11 11 -4 11 11 -1 -1 11 11 -4 11 -7 11 -2 11 11 11 -7 -1 11 11 -2 11 11 11 11 -5 -5 -5 -5 -1 -3 -9 -2 -5 -5 -5 -3 11 -8 -5 -6 -6 11 11 11 -1 -4 -2 11 11 11 -1 -6 11 11 11 11 11 -3 11 11 -1 8 11 11 11 -7 11 11 11 11 11 11 11 -3 -1 -1 11 11 4 11 -4 -10 11 11 -3 11 11 -3 -1 -5 -4 -3 -1 -5 11 -4 -3 11 -6 -6 -7 -3 -3 11 11 11 11 11 11 11 11 11 11 11 11 8 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 -5 -2 -5 11 -3 11 11 -4 11 -1 -1 11 -1 11 11 11 -2 11 -1 -5 8 -2 11 11 6 11 -2 11 11 11 -8 11 11 -8 11 -9 11 6 -7 11 11 -1 -3 11 11 11 -4 -1 -3 -4 -2 -4 -5 -4 -2 -1 -4 -2 11 -5 -5 -6 -1 -1 11 11 4 11 8 11 11 11 2 11 11 11 11 11 11 11 11 11 11 11 8 11 11 11 11 11 11 11 11 11 11 11 -6 -1 -2 -8 -2 -2 -4 11 11 6 -6 -3 11 -2 -4 -4 11 11 11 11 -6 11 -1 -8 1 -6 11 -1 -4 -2 11 -3 -4 -4 -4 11 11 -1 11 -7 -3 -4 -5 -4 -2 -1 -7 11 -2 -7 -4 11 -5 -7 -5 -3 11 -3 11 0 -2 2 8 1 -5 -1 -3 -2 11 11 11 11 11 11 -2 11 11 -2 11 11 11 11 11 11 -1 11 11 4 11 11 11 11 11 11 11 -1 -3 3 11 11 8 -2 11 11 -2 -3 11 11 8 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 -1 4 11 11 -3 11 11 -3 -2 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.2 Phần on-line Giả sử X mẫu X = x1x2 xN với xi{a,b, ,z}, i=1,2, ,N Vấn đề đặt X thuộc ngôn ngữ Tiếng Anh dãy ngẫu nhiên đó? Ta tiến hành sau: Step1: Tính tần số đơi móc xích dãy X, tức ta tính số lần xuất cặp chữ la tinh dãy Giả sử, tần số chữ ký hiệu F= (fij) với i,j = a,b, ,z 1 ft,t1(i,j) 0 Nếu cặp (i,j) xuất thời điểm (vị trí) t t+1 Trong trường hợp khác với t  1, N  Step2: i=0 Step3: Tính Tr(F.B) cơng thức z z C   f jkbjk j a k a Step4: Nếu C > thuật tốn dừng kết luận X thuộc lớp dãy ngầu nhiên Step5: Nếu C = thuật tốn thơng báo yêu cầu nhập thêm độ dài mẫu cần kiểm tra quay lại Step1 Step6: Nếu C = sai thuật tốn kết thúc thơng bào X thuộc rõ Tiếng Anh 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.2 Sơ đồ khối thuật tốn Begin X Tính tần số đơi móc xích dãy X lưu vào bảng F i=0 B1 z Tính C  z  f jk b jk ja k a T T F C>0 C =0 F Thủ tục lấy thêm độ dài mẫu trả X tính tiếp X đọc (X Tiếng Anh) X dãy ngẫu nhiên End 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.3 Một số ví dụ Ví dụ 3.1: Ta kiểm tra mẫu văn bản: Cho X = phooi irsia ectoi ueeso oeefp hfspa psoat tlet trpb vtqiu igdsn eknrh e Vậy với thuật tốn nhận Q trình thực sau: Step 1: Tính tần số đơi móc xích, bảng sau (Ký hiệu bảng F) A A B C D E F G H I J K L M N O P Q R S T U V W X Y Z B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com z Sử dụng bảng B1: tính Dịng z C   f jk bjk j a k a Các phép tính tương ứng dịng bảng B1 F A 1.6+ 1.0 + 1.(-7) + B 1.11 + C 1.(-3) + D 1.(-1) + E 1.(-5) + 2.(-5) + 1.(-4) + 1.(4) + 1.(-8) + 1.(-5) + F 1.11 + 1.1 + G 1.6 + H 1.(-9) + 1.3 + 1.(-4) + I 1.(-4) + 1.11 + 1.(-4) + 2.8 + K 1.6+ L 1.(-5) + N 1.(-5) + 1.2 + 1.2 + 1.3 + 2.0 + 2.0 + P 1.(-1) + 1.8 + 2.4 + 1.0 + Q 1.11 + R 1.1 + 1.4 + 1.(-3) + S 1.(-6) + 1.0 + 2.(-5) + 1.2 T 1.(-6) + 1.11 + 1.(-4) + 2.(-5) + U 1.1 + 1.1 + V 1.11 =26 Vậy C=26 > Suy X văn không đọc 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ví dụ 3.3: Cho văn X=Edit windows are where you type in and edit your Turbo Pascal code You can also the following in an Edit window: Tính tần số đơi móc xích, bảng sau (Ký hiệu bảng F) A A B C D E F G H I J K L M N O P Q R S T U V W X Y B C D E F G H I J K L M N 3 1 P Q R S T U V W X Y Z 1 2 O 1 1 3 1 1 1 1 3 1 1 1 1 1 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com z Sử dụng bảng B1: tính Dịng z C   f jk bjk j a k a Các phép tính tương ứng dòng bảng B1 F A 2.(-5) + 3.(-8) + 1.(-6) + 1.(-6) + B 1.0 + C 2.(-3) + 1.(-4) + D 2.(-5) + 3.(-5) + 3.(-1) + E 3.(-7) + 1.(-4) + 1.(-4) + 1.(-8) + 1.(-3) + 2.3 + F 1.(-4) + G 1.(-1) + H 2.(-9) + I 5.(-9) + 3.(-7) + L 1.3 +1.(-4) + (-2) + 1.(-1) + N 3.(-4) + 3.(-7 ) + 1.(-2) + 1.(-1) + 2.(-1) + 1.(-1) + 1.4 + 1.(-4) + 3.(-5) + 3.(-2) + P 1.(-1) + 1.(-3) + R 1.(1) + 2.(-8) + 1.(-5) + S 1.(-5) + 1.(-1) + 1.(-5) + T 1.(-10) + 1.(-2) + 2.(-3) + 2.(-2) + U 1.(1)+ 2.(-4) + 1.(-3) + W 1.(-3) +31.(-3) + 1.4 + Y 3.(-1) + 1.1 = -357 Vậy C = -357 < Suy X văn Tiếng Anh 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG KẾT QỦA ĐẠT ĐƯỢC 4.1 Kết đạt Một chương trình phần mềm ngơn ngữ C++ xây dựng nhằm thử nghiệm phép kiểm định nêu theo qui trình nhận dạng đề xuất Các mẫu thử lựa chọn tài liệu tiếng Anh thuộc lĩnh vực: Chính trị, kinh tế, văn học, tin học, địa lý, quân sự, thể thao, ngoại giao, lịch sử, y tế, giáo dục, pháp luật; với độ dài khác Độ xác trường hợp lấy độ dài kiểm tra khác T.số Tiếng Anh Đúng Tỷ lệ T.Số 50 150 148 98,67% 15 14 93% 60 150 149 99,33% 15 15 100% 70 150 150 100% 15 15 100% 80 150 150 100% 15 15 100% Độ dài (Ký tự) Dãy ngẫu nhiên Đúng Tỷ lệ 4.2 Đánh giá thuật tốn Thuật tốn dựa xích Markov cấp hữu hạn trạng thái Xây dựng ước lượng ma trận xác suất chuyển trạng thái mơ hình Markov ứng với ngơn ngữ tự nhiên tiếng Anh Tính tần số đơi móc xích dãy ký tự thuật tốn nhận dạng văn tiếng anh Thuật toán có khả mở rộng áp dụng cho việc nhận dạng cho ngôn ngữ Để nhận dạng ngôn ngữ khác cấn xây dựng bảng tần số đơi móc xích cho ngơn ngữ giống bảng A1 xây dựng bảng đối sánh ngôn ngữ giống B1 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3 Mã nguồn chương trình 4.3.1 Thủ tục tính tần số đôi với độ dài k int TTSBD(int A[26][26], char *FName, int k){ FILE *F;char i,j; for (i= 0;i< 26; i++) for(j= 0; j< 26; j++) A[i][j]=0; if ((F = fopen(FName, "rt")) == NULL) return 0; //int n=0; while (!feof(F) && n

Ngày đăng: 01/11/2022, 19:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w