Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
3,34 MB
Nội dung
MỞ ĐẦU Cuộc cách mạng thông tin kỹ thuật số đem lại thay đổi sâu sắc xã hội sống Mạng Internet toàn cầu biến thành xã hội ảo nơi diễn q trình trao đổi thơng tin lĩnh vực trị, qn sự, quốc phịng, kinh tế, thương mại… Và mơi trường mở tiện nghi xuất vấn nạn, tiêu cực cần đến giải pháp hữu hiệu cho vấn đề an tồn thơng tin nạn xun tạc thông tin, Kh (Recognition of language) tự nhiên dựa vào phân hoạch không gian (hay nhận dạng theo thống kê tốn học), lớp ngơn ngữ tiêu biểu nghiên cứu Tiế chƣơng : Phƣơng pháp nghiên cứu: o Nghiên cứu tài liệu (Tài liệu kỹ thuật thống kê tốn học q trình Markov ) o Các quy luật ngôn ngữ trình ngẫu nhiên dừng, khơng hậu Nội dung nghiên cứu: o Tính tần số đơi móc xích ngôn ngữ Tiếng Anh o o Nghiên cứu sở lý thuyết sác xuất – thống kê toán học o Nghiên cứu, xây dựng tiêu chuẩn nhận dạng lập trình thể thuật tốn ngơn ngữ Matlab CHƢƠNG TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng Nhận dạng (pattern recognition) ngành thuộc lĩnh vực học máy (machine learning) Nhận dạng nhằm mục đích phân loại liệu (là mẫu) dựa trên: kiến thức tiên nghiệm (a priori) dựa vào thơng tin thống kê trích rút từ mẫu có sẵn Các mẫu cần phân loại thường biểu diễn thành nhóm liệu đo đạc hay quan sát được, nhóm điểm không gian đa chiều phù hợp Đó khơng gian đặc tính để dựa vào ta phân loại Quá trình nhận dạng dựa vào mẫu học biết trước gọi nhận dạng có thầy hay học có thầy (supervised learning); trường hợp ngược lại học thầy (unsupervised learning) Trong lý thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau: - Nhận dạng dựa vào phân hoạch không gian - Nhận dạng cấu trúc - Nhận dạng dựa vào kỹ thuật mạng nơ ron Hai cách tiếp cận đầu kỹ thuật kinh điển Cách tiếp cận thứ ba hoàn toàn khác Nó dựa vào chế đốn nhân, lưu trữ phân biệt đối tượng mô theo hoạt động hệ thần kinh người Các cách tiếp cận trình bày phần Các ứng dụng phổ biến nhận dạng tiếng nói tự động, phân loại văn thành nhiều loại khác (ví dụ: thư điện tử spam/non-spam), nhận dạng tự động mã bưu điện viết tay bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người Ba ví dụ cuối tạo thành lãnh vực phân tích ảnh nhận dạng với đầu vào ảnh số 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch Không gian biểu diễn đối tượng [1] Các đối tượng quan sát hay thu thập được, thường biểu diễn tập đặc trưng hay đặc tính Như trường hợp xử lý ảnh, ảnh sau tăng cường để nâng cao chất lượng, phân vùng trích chọn đặc tính biểu diễn đặc trưng biên, miền đồng nhất,v.v Người ta thường phân đặc trưng theo loại như: đặc trưng tôpô, đặc trưng hình học đặc trưng chức Việc biểu diễn ảnh theo đặc trưng phụ thuộc vào ứng dụng Ở ta đưa cách hình thức việc biểu diễn đối tượng Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay,v.v.); biểu diễn n thành phần (n đặc trưng): X={x 1,x2, ,xn}; xi biểu diễn đặc tính Khơng gian biểu diễn đối tượng thường gọi tắt không gian đối tượng X ký hiệu là: X ={X1,X2, ,Xn} Xi biểu diễn đối tượng Khơng gian vơ hạn Để tiện xem xét xét tập X hữu hạn Không gian diễn dịch Không gian diễn dịch tập tên gọi đối tượng Kết thúc trình nhận dạng ta xác định tên gọi cho đối tượng tập không gian đối tượng hay nói nhận dạng đối tượng Một cách hình thức gọi tập tên đối tượng: ={w1,w2, ,wk} với wi, i =1,2, ,k tên đối tượng: Quá trình nhận dạng đối tượng ánh xạ f: X để định phần tử X ứng với phần tử với f tập quy luật Nếu tập quy luật tập tên đối tượng biết trước nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi nhận dạng có thầy Trường hợp thứ hai nhận dạng khơng có thày Đương nhiên trường hợp việc nhận dạng có khó khăn 1.1.2 Mơ hình chất q trình nhận dạng 1.1.2.1 Mơ hình Việc chọn lựa q trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm hai họ lớn: [1] - Họ mô tả theo tham số; - Họ mô tả theo cấu trúc Cách mơ tả lựa chọn xác định mơ hình đối tượng Như vậy, có hai loại mơ hình: mơ hình theo tham số mơ hình cấu trúc Mơ hình tham số sử dụng vectơ để đặc tả đối tượng, phần tử vectơ mơ tả đặc tính đối tượng Thí dụ đặc trưng chức năng, người ta sử dụng hàm sở trực giao để biểu diễn Và ảnh biểu diễn chuỗi hàm trực giao Giả sử C đường bao ảnh C(i,j) điểm thứ i đường bao, i = 1, 2, , N (đường bao gồm N điểm) Giả sử tiếp: N x0 N y0 N xi i N yi i tọa độ tâm điểm Như vậy, momen trung tâm bậc p, q đường bao pq N N (x i x ) p (yi y0 )q (1.1) i Vectơ tham số trường hợp momen ij với i=1,2, ,p j=1,2, ,q Cịn đặc trưng hình học người ta hay sử dụng chu tuyến, đường bao, diện tích tỉ lệ T = S/p2, với S diện tích, p chu tuyến Việc lựa chọn phương pháp biểu diễn làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng hoàn tồn phụ thuộc vào ứng dụng Thí dụ, nhận dạng chữ, tham số dấu hiệu: - Số điểm chạc ba, chạc tư, - Số điểm chu trình, - Số điểm ngoặt, - Số điểm kết thúc, Chẳng hạn với chữ t có điểm kết thúc, điểm chạc tư, Mơ hình cấu trúc: Cách tiếp cận mơ hình dựa vào việc mơ tả đối tượng nhờ số khái niệm biểu thị đối tượng sở ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng số dạng nguyên thủy đoạn thẳng, cung,.v.v Chẳng hạn, hình chữ nhật định nghĩa gồm đoạn thẳng vng góc với đơi Trong mơ hình người ta sử dụng kí hiệu kết thúc Vt, kí hiệu khơng kết thúc gọi Vn Ngồi ra, có dùng tập luật sản xuất để mô tả cách xây dựng đối tượng phù hợp dựa đối tượng đơn giản đối tượng nguyên thủy (tập Vt) Trong cách tiếp cận này, ta chấp nhận khẳng định là: Cấu trúc dạng kết việc áp dụng luật sản xuất theo nguyên tắc xác định từ dạng gốc bắt đầu Một cách hình thức, ta coi mơ hình tương đương văn phạm G = (Vt, Vn, P, S) với: - Vt kí hiệu kết thúc, - Vn kí hiệu khơng kết thúc, - P luật sản xuất, - S dạng (kí hiệu bắt đầu) 1.1.2.2 Bản chất trình nhận dạng Quá trình nhận dạng gồm giai đoạn [1]: - Lựa chọn mơ hình biểu diễn đối tượng, - Lựa chọn luật định (phương pháp nhận dạng) suy diễn trình học - Học nhận dạng Khi mơ hình biểu diễn xác định, định lượng (mơ hình tham số) hay định tính (mơ hình cấu trúc), q trình nhận dạng chuyển sang giai đoạn học Học giai đoạn quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành lớp Việc nhận dạng tìm quy luật thuật tốn để gán đối tượng vào lớp hay nói cách khác gán cho đối tượng tên Học có thầy (supervised learning) Kỹ thuật phân loại nhờ kiến thức biết trước gọi học có thầy Đặc điểm kỹ thuật người ta có thư viện mẫu chuẩn Mẫu cần nhận dạng đem đối sánh với mẫu chuẩn để xem thuộc loại Thí dụ ảnh viễn thám, người ta muốn phân biệt cánh đồng lúa, cánh rừng hay vùng đất hoang mà có miêu tả đối tượng Vấn đề chủ yếu thiết kế hệ thống để đối sánh đối tượng ảnh với mẫu chuẩn định gán cho chúng vào lớp Việc đối sánh nhờ vào thủ tục định dựa công cụ gọi hàm phân lớp hay hàm định Hàm đề cập phần sau Học khơng có thầy (unsupervised learning) Kỹ thuật học tự định lớp khác xác định tham số đặc trưng cho lớp Học khơng có thày đương nhiên khó khăn Một mặt, số lớp trước, mặt khác đặc trưng lớp trước Kỹ thuật nhằm tiến hành cách gộp nhóm chọn lựa cách tốt Bắt đầu từ tập liệu, nhiều thủ tục xử lý khác nhằm phân lớp nâng cấp dần để phương án phân loại Nhìn chung, dù mơ hình kỹ thuật nhận dạng sao, hệ thống nhận dạng tóm tắt theo sơ đồ sau: Trích chọn đặc tính biểu diễn đối tượng Phân lớp Đánh định giá Quá trình tiền xử lý Khối nhận dạng Hình 1.1 Sơ đồ tổng quát hệ nhận dạng 1.2 Nhận dạng dựa phân hoạch không gian Trong kỹ thuật này, đối tượng nhận dạng đối tượng định lượng, đối tượng biểu diễn vectơ nhiều chiều Trước tiên, ta xem xét số khái niệm như: phân hoạch không gian, hàm phân biệt sau vào số kỹ thuật cụ thể 1.2.1 Phân hoạch không gian Giả sử không gian đối tượng X định nghĩa: X={Xi,i=1,2, ,m}, Xi vectơ Người ta nói P phân hoạch không gian X thành lớp Ci, Ci X nếu: Ci Cj = với i j Ci = X Nói chung, trường hợp lý tưởng: tập X tách hoàn toàn Trong thực tế, thường gặp không gian biểu diễn tách phần Như phân loại dựa vào việc xây dựng ánh xạ f: X P Công cụ xây dựng ánh xạ hàm phân biệt (Descriminant functions) 1.2.2 Hàm phân lớp hay hàm định Để phân đối tượng vào lớp, ta phải xác định số lớp ranh giới lớp Hàm phân lớp hay hàm phân biệt công cụ quan trọng Gọi {g} lớp hàm phân lớp Lớp hàm định nghĩa sau: Nếu i ≠ k, gk(X)>gi(X) ta định X lớp k Như để phân biệt k lớp, ta cần k-1 hàm phân biệt Hàm phân biệt g lớp thường dùng hàm tuyến tính, có nghĩa là: g(X)= W0+W1X1+W2X2+ +WkXk đó: - Wi trọng số gán cho thành phần Xi - W0 trọng số để viết cho gọn Trong trường hợp g tuyến tính, người ta nói việc phân lớp tuyến tính hay siêu phẳng (hyperplan) Các hàm phân biệt thường xây dựng dựa khái niệm khoảng cách hay dựa vào xác suất có điều kiện Lẽ tự nhiên, khoảng cách công cụ tốt để xác định xem đối tượng có "gần nhau" hay khơng Nếu khoảng cách nhỏ ngưỡng ta coi đối tượng giống gộp chúng vào lớp Ngược lại, khoảng cách lớn ngưỡng, có nghĩa chúng khác ta tách thành hai lớp Trong số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng Lý thuyết xác suất có điều kiện Bayes nghiên cứu kỹ áp dụng lý thuyết để phân biệt đối tượng Gọi: P(X/Ci) xác suất để có X biết có xuất lớp Ci P(Ci/X) xác suất có điều kiện để X thuộc lớp Ci với X đối tượng nhận dạng, Ci lớp đối tượng (lớp thứ i) Quá trình học cho phép ta xác định P(X/Ci) nhờ cơng thức Bayes xác suất có điều kiện áp dụng điều kiện nhiều biến, tính P(C i/X)theo P ( X / C i ) P (C i ) công thức: P(Ci/X) = n P (C / X i ) P (C i ) = P ( X / C i ) P (C i ) P( X) (1.2) i Nếu P(Ci/X)>P(Ck/X) với i ≠ k X Ci Tùy theo phương pháp nhận dạng khác nhau, hàm phân biệt có dạng khác 1.2.3 Nhận dạng thống kê Nếu đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi: f ( x) exp ( x m)2 2 x người ta có dùng phương pháp định dựa vào lý thuyết Bayes Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa lý thuyết Bayes có tên phương pháp thống kê Quy tắc Bayes - Cho không gian đối tượng X = X1,l =1,2, ,L , với X1= x1,x2, ,xp - Cho không gian diễn dịch = C1,C2, ,Cr ,r số lớp Quy tắc Bayes phát biểu sau: :X cho X Ck P(Ck/X) P(C1/X) l ≠ k, l=1,2, ,r Trường hợp lý tưởng nhận dạng đúng, có nghĩa khơng có sai số Thực tế, ln tồn sai số q trình nhận dạng Vấn đề xây dựng quy tắc nhận dạng với sai số nhỏ Phương pháp định với tối thiểu Ta xác định X Ck nhờ xác suất P(Ck/X) Vậy có sai số, sai số tính 1-P(Ck/X) Để đánh giá sai số trung bình, người ta xây dựng ma trận L(r, r) giả thiết có n lớp 10 3.3.2 Phần on-line Giả sử X mẫu X = x1x2 xN với xi {a,b, ,z}, i=1,2, ,N Vấn đề đặt X thuộc ngôn ngữ Tiếng Anh dãy ngẫu nhiên đó? Ta tiến hành sau: Step1: Tính tần số đơi móc xích dãy X, tức ta tính số lần xuất cặp chữ la tinh dãy Giả sử, tần số chữ ký hiệu F= (fij) với i,j = a,b, ,z f t ,t (i, j) Nếu cặp (i,j) xuất thời điểm (vị trí) t t+1 Trong trường hợp khác với t 1, N Step2: i=0 Step3: Tính Tr(F.B) cơng thức z z C f jk b jk j ak a Step4: Nếu C > thuật tốn dừng kết luận X thuộc lớp dãy ngầu nhiên Step5: Nếu C = thuật tốn thơng báo u cầu nhập thêm độ dài mẫu cần kiểm tra quay lại Step1 Step6: Nếu C = sai thuật tốn kết thúc thơng bào X thuộc rõ Tiếng Anh 45 Begin X Tính tần số đơi móc xích dãy X lưu vào bảng F i=0 B1 z z Tính C f jk b jk j a k a T F C>0 C =0 T F X đọc (X Tiếng Anh) X dãy ngẫu nhiên End Hình 3.1 Sơ đồ khối thuật toán 46 Thủ tục lấy thêm độ dài mẫu trả X tính tiếp 3.3 Thuật tốn NSAS Đầu vào: , Đầu ra: Bước 1: Quét tất ảnh xây dựng biểu đồ tần suất H1(x), Trong histogram, có điểm cực đại a, điểm cực tiểu b Khơng tính khái qt, giả sử a < b Bước 2: Thiết lập k = Giá trị k sử dụng biết số bít liệu nhúng Bước 3: Quét tất ảnh lần Nếu quét giá trị điểm ảnh a, trích bit liệu từ S, thiết lập k = k +1 tiếp tục bước để nhúng liệu S, không, thực bước Bước 4: Nếu bit liệu 1, thiết lập giá trị điểm ảnh quét a+1, khơng có thay đổi cho điểm ảnh này, quay lại bước tiếp tục trình nhúng Bước 5: Nếu tất giá trị điểm ảnh quét nằm khoảng (a, b), cộng giá trị điểm ảnh thêm Ghi lại vị trí điểm ảnh có giá trị điểm ảnh = b : Đầu vào: Đầu ra: Ản Bước 1: Thiết lập k = Bước 2: Quét tất ảnh theo thứ tự trình nhúng Nếu quét giá trị a, đặt k = k+1 tách bit khỏi a Nếu quét giá trị a+1, k = a+1 tách bit khỏi a Nếu giá trị quét nằm khoảng (a, b) giá trị điểm ảnh quét trừ Nếu vị trí điểm ảnh ghi đồ L, thiết lập giá trị điểm ảnh quét b Bước 3: Lặp lại bước k = |S| 47 3.3 Max Max = Max+1 [0,255],Max = X Tính tần số đơi móc xích dãy X lưu vào bảng F Max [0,255],Max = z T z C f jk b jk j ak a F Max Hình 3.2 Sơ đồ khối thuật toán 48 3.4 Một số ví dụ Ví dụ 3.1: Ta kiểm tra mẫu văn bản: Cho X =Thoong xoth phaart iuoof ghtfc ytrung phoith ghuiyr jokjp Vậy với thuật tốn nhận Quá trình thực nhý sau: Step 1: Tính tần số đơi móc xích, bảng sau (Ký hiệu bảng F) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A B C D E F G H I J K L M N O P Q R S T U V W X Y 1 1 1 1 1 1 1 1 2 1 1 1 1 1 49 1 Z z z Sử dụng bảng B1: tính C f jk b jk j ak a Dịng Các phép tính tương ứng dòng bảng B1 F A 1.4+ 1.(-6) + C 1.(4) + F 1.3 + 1.8 + G 2.(-8) +1.8+ H 1.11 + 1.8 + 2.(-4) +1.(-4) +1.(-2) + I 1.(-7) + 1.8 + 1.11 + J 1.11+1.11 + K 1.11+ N 1.(-7) + O 1.3 + 1.0 + 1.11 + 1.(-7) + 0.2 + 1.(-4) + P 1.11 + R 1.8 + 1.(-5) + 1.2 + T 1.(-6) + 1.(-10) + 1.(-7) + 1.(-4) + U 1.1 + 1.(-3) +1.(6) + X 1.11 + Y 1.4 + 1.(-3) = 57 Vậy C=26 > Suy X văn khơng đọc 50 Ví dụ 3.3: Cho văn X= In cryptanalysis, how can a computer program recognize when it has discovered all or part of the secret message: Tính tần số đơi móc xích, bảng sau (Ký hiệu bảng F) A A B C D E F G H I J K L M N O P Q R S T U V W X Y Z B C D E F G H 1 I J K L M N O P Q R T 1 1 U V W X Y Z 2 1 1 1 1 1 21 1 1 1 1 1 1 1 z z Sử dụng bảng B1: tính C f jk b jk j ak a 51 1 1 1 1 1 21 1 1 1 S 1 Dòng Các phép tính tương ứng dịng bảng B1 F A 1.(-3) + 1.(-3) + 2.(-5) + 1.(-2) + 2.(-8)+1.(-6)+1.(-6)+ C 1.(-3) + 3.(-4) + 2.1 + D 1.(-4) + 1.(-5) + E 2.(-5) + 1.(-7) + 1.(-8) + 2.(-8) + 2.(-8) + 1.(-5) + 1.(-3)+ F 1.(-4) + G 1.(-3) +1.(4)+1(-2) + H 1.(11) + 2.(-9) + 1(-4) + I 1.(-9) + 1.(-6) + 1.(-7) +1.(-6) + L 1.(-4) +1.(-2) + (-3) + M 1.(-5) + 1.1 + N 2.(-4) + 2.(-3 ) + 1.(2) + O 1.(-6) + 2.4 + 1.6 + 1.(-6) + 1.(-4) + 1.(-5) + P 1.(-1) + 1.11 +1.2+1.2+ R 1.(-6) + 3.(-8) + 3.4 +1.2+1.(-3)+ S 1.(-5) + 1.(-1) + 1.(-2) + 1.(-8)+1.(-1) +1.(-6)+1.(-3) + T 1.(-5)+1.(-6)+ 2.(-10) + 1.0 + 1.(-6) + U 1.(-3) + W 1.8 + 1.(-3) + Y 1.(-1) + 1.1 + Z 1.4 = -271 Vậy C = -357 < Suy X văn Tiếng Anh 3.5 Kết đạt đƣợc Các mẫu lựa chọn tài liệu tiếng Anh thuộc lĩnh vực: Chính trị, kinh tế, văn học, tin học, địa lý, quân sự, thể thao, ngoại giao, lịch sử, y tế, giáo dục, pháp luật; với độ dài khác 52 Độ xác trƣờng hợp lấy độ dài kiểm tra khác Độ dài (Ký tự) Tiếng Anh Dãy ngẫu nhiên T.số Đúng Tỷ lệ T.Số Đúng Tỷ lệ 50 200 198 99,5% 20 18 90% 60 200 199 99% 20 20 100% 70 200 200 100% 20 20 100% 80 200 200 100% 20 20 100% Độ dài (Ký tự) T.số Tỷ lệ 50 150 100% 60 150 100% 70 150 100% 80 150 100% 3.6 Đánh giá thuật toán Thuật toán dựa xích Markov cấp hữu hạn trạng thái Xây dựng ước lượng ma trận xác suất chuyển trạng thái mơ hình Markov ứng với ngơn ngữ tự nhiên tiếng Anh Tính tần số đơi móc xích dãy ký tự thuật toán nhận dạng văn tiếng anh Thuật tốn có khả mở rộng áp dụng cho việc nhận dạng cho ngôn ngữ Để nhận dạng ngôn ngữ khác cấn xây dựng bảng tần số đôi móc xích cho ngơn ngữ giống bảng A1 xây dựng bảng đối sánh ngôn ngữ giống B1 53 KẾT LUẬN : Trình bày vấn đề kỹ thuật nhận dạng nói chung, hướng nghiên cứu giới Xây dựng thuật toán nhận dạng nhanh rõ ngôn ngữ tự nhiên Anh ể máy PC ngôn ngữ Matlap, kết thử nghiệm tốt, nhanh * Những vấn đề nghiên cứu tiếp tục: Từ thuật toán ta mở rộng tính tốn nhận dạng rõ Tiếng Pháp, Tiếng Đức… ngôn ngữ la tinh phi la tinh khác Ta thấy vấn đề khó khăn việc xây dựng thuật tốn phần offline xây dựng ma trận tần số đơi móc xích (B1) ngơn ngữ cần nhận dạng (cái đòi hỏi hiểu biết ngơn ngữ để chọn lựa mẫu tính tốn thơi gian cơng sức lớn) Vì độ xác cao độ xác bảng đối sánh ngơn ngữ cao (B1) Khi đó, thuật tốn tính tốn cho kết tốt với dãy mẫu ngắn; giúp cho hệ thống chạy nhanh với số lượng mẫu khổng lồ 54 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lương Mạnh Bá, Nguyễn Thanh Thuỷ, Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật, 1999 tr.154-170 [2] Hồ Văn Canh, Phạm Quốc Doanh, Thuật toán nhận dạng ngôn ngữ tự nhiên, 2002 tr 3-20 Tiếng Anh [5] Anderson, Roland 1989 Recognizing complet and partial plaintext Cryptologia 13(2):161-166 [6] Anderson, T.W.and Leo A.Goodman.1957 Statistical inference about Markov chains, Annals of Mathematical Statistics,28: 89-110 [7] Andrew R Web 2002 John Wiley & Sons, Ltd Statistical Pattern Recognition, Second Edition [8] R.GaneSan, AlanT.Sherman(1993), "Statiscal Techniques for language Recognition An introduction and Guide for Cryptanalysts 121-126 [9] Seber, George Arthur Fredederick 2008 John Wiley & Sons, Inc “MISCELLANEOUS INEQUALITIES”, A Matrix Handbook for Statisticians:296-298 [10] Richard O Duda, Peter E Hart, David G Stork Wiley-interscience “Bayesian decision theory”, Pattern Classification, Second Edition: 39-78 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy cô môn tin thầy cô trường trang bị cho em kiến thức cần thiết để em hồn thành báo cáo Xin chân thành cảm ơn anh, chị bạn sinh viên K12 trường Đại học Dân Lập Hải Phịng ln động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khố học Đặc biệt em xin bày tỏ lịng biết ơn sâu sắc đến TS.Hồ Văn Canh tận tình giúp đỡ em hình thành, nghiên cứu hồn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn khơng tránh khỏi khiếm khuyết Em chân thành mong nhận đóng góp ý kiến thầy, giáo Một lần em xin cảm ơn! Hải Phòng, tháng 11 năm 2012 Ngƣời thực luận văn Nguyễn Doãn Tùng MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng 1.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch 1.1.2 Mơ hình chất trình nhận dạng 1.1.2.1 Mơ hình 1.1.2.2 Bản chất trình nhận dạng 1.2 Nhận dạng dựa phân hoạch không gian 1.2.1 Phân hoạch không gian 1.2.3 Nhận dạng thống kê 10 1.2.4 Một số thuật toán nhận dạng tiêu biểu tự học 11 1.2.4.1 Thuật toán dựa vào khoảng cách lớn 12 1.2.4.2 Thuật tốn K trung bình 12 1.2.4.3 Thuật toán ISODATA 13 1.3 Nhận dạng theo cấu trúc 14 1.3.1 Biểu diễn định tính 14 1.3.2 Phương pháp định dựa vào cấu trúc 15 1.3.2.1 Một số khái niệm 15 1.3.2.2 Phương pháp nhận dạng 16 1.4 Mạng nơron nhân tạo nhận dạng theo mạng nơron 16 1.4.1 Bộ não Nơron sinh học 17 1.4.2 Mơ hình mạng nơron 19 1.4.2.1 Mơ hình nơron nhân tạo 20 1.4.2.2 Mạng nơron 21 1.5 Kết luận 22 CHƢƠNG 2: ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TỐN NHẬN DẠNG NGƠN NGỮ TỰ NHIÊN V 23 2.1 Dạng tổng quát toán 23 2.2 Một số khái niệm thuật toán 24 2.2.1 Khoảng cách hai đối tượng, hai tập hợp 24 2.2.2 Giải toán trường hợp cho trước số k 25 2.2.3 Giải toán trường hợp số k chưa cho biết trước 28 2.3 Mơ hình xích Markov phép kiểm định thống kê cho toán nhận dạng ngôn ngữ 31 2.3.1 Mơ hình xích Markov 32 2.3.2 Phép kiểm định thống kê cho toán nhận dạng ngôn ngữ biết 34 35 35 36 2.4.1.1 Định nghĩa giấu tin 36 2.4.1.2 Mục đích giấu tin: có mục đích giấu thơng tin 36 2.4.1.3 Mơ hình kỹ thuật giấu thông tin 37 CHƢƠNG 3: 39 3.1 Bài toán 39 3.2 Thuậ 39 3.3.1 Phần off-line 39 3.3.2 Phần on-line 45 3.3 Thuật toán NSAS 47 48 3.4 Một số ví dụ 49 3.5 Kết đạt 52 3.6 Đánh giá thuật toán 53 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO DANH MỤC BẢNG BẢNG 3.1 ƯỚC LƯỢNG BỘ ĐƠI MĨC XÍCH TIẾNG ANH (A1) 42 BẢNG 3.2: ƯỚC LƯỢNG ĐỐI SÁNH CỦA TIẾNG ANH VỚI MẪU NGẪU NHIÊN (B1) 44 DANH MỤC HÌNH Hình 1.1 Sơ đồ tổng qt hệ nhận dạng Hình 1.2 Cấu tạo nơron sinh học 17 Hình 2.1: Hai lĩnh vực kỹ thuật giấu thơng tin 36 Hình 2.2: Lược đồ chung cho trình giấu tin 37 Hình 3: Lược đồ chung cho trình giải mã 37 Hình 3.2 Sơ đồ khối thuật toán 46 Hình 3.3 Sơ đồ khối thuật toán 48 ... ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TỐN NHẬN DẠNG NGƠN NGỮ TỰ NHIÊN Kỹ thuật nhận dạng thống kê toán học có nhiều ý nghĩa nghiên cứu thực tiễn Nó khơng ứng dụng nhận dạng ngơn ngữ. .. nói v.v Trong phạm vi nghiên cứu này, tác giả trình bày ứng dụng quan trọng Đó ứng dụng kỹ thuật thống kê Toán học để nhận dạng ngôn ngữ tự nhiên (lớp ngôn ngữ la tinh) Đây hướng ứng dụng có... thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau: - Nhận dạng dựa vào phân hoạch không gian - Nhận dạng cấu trúc - Nhận dạng dựa vào kỹ thuật mạng nơ ron Hai cách tiếp cận đầu kỹ thuật