Luận văn thạc sĩ khoa học máy tính tìm hiểu kỹ thuật nhận dạng văn bản trong lớp ngôn ngữ la tinh slide

26 1 0
Luận văn thạc sĩ khoa học máy tính tìm hiểu kỹ thuật nhận dạng văn bản trong lớp ngôn ngữ la tinh slide

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LOGO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO LUẬN VĂN THẠC SĨ www.themegallery.com TÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢN TRONG LỚP NGÔN NGỮ LA TINH GVHD : TS ĐẶNG THỊ THU HIỀN HVTH : CHỬ ĐỨC THÀNH THÁI NGUYÊN, 09 - 2015 NỘI DUNG TRÌNH BÀY Tổng quan nhận dạng Kỹ thuật nhận dạng thống kê Thực nghiệm LÝ DO CHỌN ĐỀ TÀI  Nhận dạng một lý thuyết toán học có nhiều ứng dụng thực tiễn  Có ý nghĩa với an ninh Quốc gia, kiểm soát Internet  Nhận dạng ngôn ngữ tự nhiên vấn đề khơng thể thiếu phân tích mã đại TỔNG QUAN VỀ NHẬN DẠNG  Nhận dạng trình phân loại đối tượng  Bản chất q trình nhận dạng - Lựa chọn mơ hình biểu diễn đối tượng, - Lựa chọn luật định suy diễn trình học - Học nhận dạng Trích chọn đặc tính biểu diễn đối tượng Q trình tiền xử lý Phân lớp định Đánh giá Khối nhận dạng Sơ đồ tổng quát hệ nhận dạng TỔNG QUAN VỀ NHẬN DẠNG  Có cách để tiếp cận nhận dạng là: - Nhận dạng thống kê (Statistical Pattern Recognition) - Nhận dạng cú pháp (Syntactic Pattern Recognition) - Nhận dạng có tính thơng minh (Neural Pattern Recognition) KỸ THUẬT NHẬN DẠNG BẰNG THỐNG KÊ  Mơ hình xích Markov  Đặc trưng ngơn ngữ tự nhiên MƠ HÌNH XÍCH MARKOV  Mơ hình Markov ngơn ngữ định nghĩa tập tham số (m, A, {Yt}, P, r) : mZ+: số trạng thái mơ hình Markov nhận A={a1, a2, ,am}: khơng gian trạng thái {Yt} tT: trình ngẫu nhiên dừng TZ={0, 1, } P r : ma trận xác suất chuyển trạng thái : cấp xích Markov ĐẶC TRƯNG CỦA NGÔN NGỮ TỰ NHIÊN  Tần số đơn tương đối tiếng Anh, tiếng pháp, tiếng Đức -Số lần xuất trung bình ký tự rõ ngôn ngữ -Kết cho ta biết khả xuất ký tự loại ngôn ngữ ĐẶC TRƯNG CỦA NGƠN NGỮ TỰ NHIÊN  Tần số đơi móc xích : tiếng Anh, tiếng Pháp, tiếng Đức - Là số lần xuất cặp ký tự liên tiếp - Trong ký tự sau cặp đôi trước ký tự trước cặp đôi sau - Kết cho thấy mối liên hệ, phụ thuộc lẫn ký tự loại ngơn ngữ THỰC NGHIỆM BÀI TỐN - Cho mẫu văn X thuộc loại ngôn ngữ: Anh, Pháp, Đức,dãy ngẫu nhiên - Hãy xác định xem X thuộc ngôn ngữ cụ thể ? THỰC NGHIỆM Từ bảng 3.1 ta chuyển sang bảng 3.2 theo công thức : Ký hiệu Xj = xij i=1,2, ,26; j=0,1,2,3 X'j = x'ij đó: x 'ij  x i ( j  1) x ij i  ,2 , ,2 ; j  ,1 ,2 ,3 THỰC NGHIỆM Bảng 3.2 đưa sang bảng 3.3 theo quy tắc sau: - Gọi: X i'' ( x 'ji' ) - Khi đó: x'ji' [7 lg x'ji ] j 1,2, ,26; i 1,2,3 j 1,2, ,26; i 1,2,3 - lg(.) hàm logarit số 10 - [x] = số nguyên lớn bé x THỰC NGHIỆM - Chuyển vị bảng 3.3 để có bảng 3.4 Begin X Tính fx i = i = i +1 Xo, X1, X2, X3 Tính z S=  f x i j=a j ij F F T F Si  T i >T4 T i-1 X thuộcXlớp Xi-1 X không thuộc vào BMcác lớp Xo, X1, X2, X3 Lớp X1: Tiếng Anh Lớp X2: Tiếng Đức End Lớp X3: Tiếng Pháp Lớp X : Là không đọc THỰC NGHIỆM KẾT QUẢ THỰC NGHIỆM NHẬN XÉT - Đây thuật toán đơn giản - Kết nhận dạng nhanh - Không hiệu với trường hợp mã chuyển vị THỰC NGHIỆM THUẬT TOÁN DỰA TRÊN XICH MARKOV CẤP HỮU HẠN TRẠNG THÁI  Xây dựng sở liệu để máy học : - Xây dựng ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngôn ngữ: Đức, Pháp, Anh - Kết tính thể bảng tương ứng: Bảng 3.5; Bảng 3.6; Bảng 3.7 THỰC NGHIỆM Từ số liệu bảng A1, A2, A3 A (a(1)) ij i,j 1,2, ,26 A (a(2) ) ij i,j 1,2, ,26 (2) A A2  (a (aij(3))) ij i,j i,j  1,2, ,26 1,2, ,26 ta chuyển sang bảng B1, B2, B3 B4 theo công thức sau: B (b(1)) ij i,j 1,2, ,26 B (b(2)) ij i,j 1,2, ,26 B (b(3)) ij i,j 1,2, ,26 B (b(4) ) ij i,j 1,2, ,26 THỰC NGHIỆM Trong đó:     ,7   ( ) lg  ifa    ij ( ) ( ) a b  i,j ,2 , ,2  ij  ij     ( )  1 ifa  ij    (2 )  a ij  7lg (3 )  a ij    (3 )  1 b   ij   1     (2 ) (3 ) ifa 0 , a 0 ij ij (2 ) (3 ) ifa 0 ,a  ij ij (2 ) (3 ) ifa  , a 0 ij ij (2 ) (3 ) ifa  ,a  ij ij  ( )  a    ij   7lg (2 )   a ij      (2 ) b   ij   1      (3 )  a ij  7lg (1 )  a ij    (4 )  i,j ,2 , ,2 b   ij   1     (1 ) (2 ) ifa 0 , a 0 ij ij (1 ) (2 ) ifa 0 ,a  ij ij (1 ) (2 ) ifa  , a 0 ij ij (1 ) (2 ) ifa  ,a  ij ij i,j ,2 , ,2 (3 ) (1 ) ifa 0 , a 0 ij ij (3 )0 (1 ) ifa ,a ij ij (3 ) (1 ) ifa  , a 0 ij ij (3 ) (1 ) ifa ,a ij ij lg(.): lôgarit số 10 [x] = số nguyên lớn bé x i,j ,2 , ,2

Ngày đăng: 08/03/2023, 12:08

Tài liệu cùng người dùng

Tài liệu liên quan