Luận văn thạc sĩ khoa học máy tính tìm hiểu kỹ thuật nhận dạng văn bản trong lớp ngôn ngữ la tinh

99 10 0
Luận văn thạc sĩ khoa học máy tính tìm hiểu kỹ thuật nhận dạng văn bản trong lớp ngôn ngữ la tinh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1 ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG------CHỬ ĐỨC THÀNHTÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢNTRONG LỚP NGÔN NGỮ LA TINHLUẬN VĂN THẠC SĨ: KHOA HỌC

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - CHỬ ĐỨC THÀNH TÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢN TRONG LỚP NGÔN NGỮ LA TINH LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH THÁI NGUYÊN, NĂM 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - CHỬ ĐỨC THÀNH TÌM HIỂU KỸ THUẬT NHẬN DẠNG VĂN BẢN TRONG LỚP NGÔN NGỮ LA TINH Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THỊ THU HIỀN THÁI NGUYÊN, NĂM 2015 LỜI CẢM ƠN Tôi xin chân thành cảm ơn Thầy giáo, Cô giáo khoa Công nghệ thông tin cán bộ, nhân viên phòng Đào tạo Sau đại học, Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Ngun ln nhiệt tình giúp đỡ tạo điều kiện tốt cho suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học CK12H - Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên ln động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khố học Đặc biệt tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Đặng Thị Thu Hiền tận tình giúp đỡ tơi hình thành hồn chỉnh luận văn Mặc dù có nhiều cố gắng, song hạn hẹp thời gian, điều kiện nghiên cứu trình độ, luận văn khơng tránh khỏi khiếm khuyết Tôi chân thành mong nhận đóng góp ý kiến Thầy giáo, Cơ giáo đồng nghiệp Một lần xin cảm ơn! Thái Nguyên, tháng 08 năm 2015 Người thực luận văn Chử Đức Thành MỤC LỤC MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG 1.1 Tổng quan nhận dạng 1.1.1 Không gian biểu diễn đối tượng, khơng gian diễn dịch 1.1.2 Mơ hình chất trình nhận dạng 1.2 Nhận dạng dựa phân hoạch không gian 1.2.1 Phân hoạch không gian .7 1.2.2 Hàm phân lớp hay hàm định 1.2.3 Nhận dạng thống kê .8 1.2.4 Một số thuật toán nhận dạng tiêu biểu tự học 10 1.3 Nhận dạng theo cấu trúc 12 1.3.1 Biểu diễn định tính .12 1.3.2 Phương pháp định dựa vào cấu trúc 13 1.4 Nhận dạng mạng nơron 14 1.4.1 Bộ não Nơron sinh học 15 1.4.2 Mơ hình mạng nơron 17 CHƯƠNG II KỸ THUẬT NHẬN DẠNG BẰNG THỐNG KÊ .20 2.1 Bài toán .20 2.2 Nhận dạng có giám sát .21 2.3 Nhận dạng khơng có giám sát 25 2.3.1 Đặt toán 25 2.3.2 Giải toán trường hợp cho trước số k 25 2.3.3 Trường hợp số k chưa cho biết trước 28 2.4 Mơ hình xích Markov .30 2.5 Đặc trưng ngôn ngữ tự nhiên 32 2.5.1 Tần số đơn tương đối ngôn ngữ Tiếng Anh, Tiếng Pháp, Tiếng Đức .33 2.5.2 Tần số đơi móc xích Tiếng Anh, Tiếng Pháp, Tiếng Đức .34 CHƯƠNG III THỰC NGHIỆM 38 3.1 Bài toán nhận dạng văn La Tinh .38 3.2 Thuật toán sử dụng tần số đơn 38 3.2.1.Xây dựng sở liệu để máy học 38 3.2.2.Phân biệt trực tiếp .42 3.2.3 Một số ví dụ 44 3.3 Thuật toán dựa xich Markov cấp hữu hạn trạng thái 46 3.3.1 Xây dựng sở liệu để máy học 46 3.3.2 Nhận biết trực tiếp 57 3.3.3 Một số ví dụ 59 3.4.Chương trình Demo 72 3.4.1 Giao diện chương trình .73 3.4.2 Xây dựng mẫu thử 74 3.4.3 Thực thi chương trình với thuật tốn sử dụng tần số đơn 75 3.4.4 Thực thi chương trình với thuật tốn dựa xích Markov cấp hữu hạn trạng thái .76 3.4.5 So sánh thuật toán 78 KẾT LUẬN 80 TÀI LIỆU THAM KHẢO 81 PHỤ LỤC 82 DANH MỤC CÁC HÌNH Hình 1.1 Sơ đồ tổng qt hệ nhận dạng Hình 1.2 Cấu tạo nơron sinh học .15 Hình 1.3 Mơ hình nơron nhân tạo 17 Hình 3.1 Sơ đồ khối thuật tốn sử dụng tần số đơn 43 Hình 3.2 Sơ đồ khối thuật toán dựa xich Markov cấp hữu hạn trang thái 58 Hình 3.3.Giao diện chương trình 73 Hình 3.4 Thực lấy liệu đầu vào .74 Hình 3.5 Màn hình thực thi thuật toán sử dụng tần số đơn .75 Hình 3.6 Kết hiển thị dang file.txt thuật tốn sử dụng tần số đơn .76 Hình 3.7 Màn hình thực thi thuật tốn dựa xích Markov cấp hữu hạn trạng thái 77 Hình 3.8 Kết hiển thị dang file.txt thuật tốn dựa xích Markov cấp hữu hạn trạng thái .77 Hình 3.9 Sơ đồ biểu diễn độ xác hai thuật tốn .78 Hình 3.10 Kết thuật tốn sử dụng tần số đơn 78 Hình 3.11 Kết thuật tốn dựa xích Markov cấp hữu hạn trạng thái 79 DANH MỤC CÁC BẢNG Bảng 2.1 Tần số đơn tương đối ngôn ngữ Anh, Pháp, Đức 33 Bảng 2.2 Bảng tần số đơi móc xích Tiếng Anh 35 Bảng 2.3 Bảng tần số đôi móc xích Tiếng Pháp .36 Bảng 2.4 Bảng tần số đơi móc xích Tiếng Đức 37 Bảng 3.1 Ước lượng hợp lí cực đại đặc trưng ngơn ngữ Anh, Pháp , Đức, Dãy ngẫu nhiên 39 Bảng 3.2 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức, Dãy ngẫu nhiên 40 Bảng 3.3 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức,.41 Bảng 3.4 Ước lượng hợp lí cực đại đặc trưng ngôn ngữ Anh, Pháp , Đức,.42 Bảng 3.5 Ước lượng đơi móc xích tiếng Đức 48 Bảng 3.6 Ước lượng đôi móc xích tiếng Pháp .49 Bảng 3.7 Ước lượng đơi móc sích tiếng Anh 50 Bảng 3.8 Ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngơn ngữ tự nhiên tiếng Đức 53 Bảng 3.9.Ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngôn ngữ tự nhiên tiếng Pháp .54 Bảng 3.10 Ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngôn ngữ tự nhiên tiếng Anh 55 Bảng 3.11.Ước lượng ma trận xác suất chuyển trạng thái P mơ hình Markov ứng với ngơn ngữ tự nhiên tiếng dãy ngẫu nhiên 56 MỞ ĐẦU Nhận dạng lý thuyết toán học có nhiều ứng dụng thực tiễn, nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ , xây dựng tiêu chuẩn rõ ứng dụng phân tích mã v.v Trên giới nước có nhiều nhà nghiên cứu vấn đề có phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail hệ thống Internet… Nhận dạng chữ tốn hữu ích, quen thuộc ứng dụng nhiều thực tế đặc biệt lĩnh vực nhận dạng phân loại văn thu hút nhiều tác giả quan tâm nghiên cứu phương pháp nhận dạng khác nhau: logic mờ, giải thuật di truyền, mơ hình xác suất thống kê, mơ hình mạng nơ ron Đã có nhiều cơng trình nghiên cứu thực việc nhận dạng, phân loại văn La Tinh đạt tỷ lệ xác cao, nhiên ứng dụng chưa thể đáp ứng hồn tồn nhu cầu người sử dụng nên ngày người ta tiếp tục nghiên cứu phương pháp nhận dạng tốt hướng đến dùng cho thiết bị di động, toán thời gian thực Sau tìm hiểu tiến cơng nghệ nhận dạng chữ La Tinh tính phần mềm nhận dạng chữ, tư vấn giáo viên hướng dẫn, lựa chọn hướng nghiên cứu thiết thực với đề tài: "Tìm hiểu kỹ thuật nhận dạng văn lớp ngôn ngữ La Tinh" Trong khuôn khổ luận văn, tơi tập trung nghiên cứu, giải tốn nhận dạng ngôn ngữ tự nhiên dựa vào phân hoạch khơng gian (nhận dạng theo thống kê tốn học), lớp ngơn ngữ tiêu biểu nghiên cứu ngơn ngữ La Tinh Việc nghiên cứu quan trọng cần thiết, kết nghiên cứu có khả mở rộng ứng dụng việc xây dựng chương trình kiểm sốt E-mail đặc biệt chương trình phân tích mã tự động, vấn đề cần thiết an ninh quốc phịng Đó ý nghĩa thực tiễn đề tài  Nội dung luận văn vấn đề cần giải Nghiên cứu trình Markov hữu hạn trạng thái Nghiên cứu xây dựng mơ hình Markov ứng với ngơn ngữ tự nhiên : Tiếng Anh, Tiếng Pháp, Tiếng Đức Giải toán phân lớp đối tượng cho trường hợp số lớp biết trước số lớp chưa biết Nghiên cứu xây dựng ước lượng tham số xích Markov Ứng dụng tốn kiểm định giả thiết thống kê (testing of statistic hypothesis) để giải tốn nhận dạng ngơn ngữ Lập trình thử nghiệm  Phương pháp nghiên cứu Phương pháp nghiên cứu ứng dụng phương pháp tốn học, nhận dạng xử lý ngơn ngữ, nghiên cứu khảo sát lý thuyết xây dựng thuật tốn, lập trình kiểm thử thuật tốn đánh giá Cụ thể: - Tìm hiểu cập nhật kiến thức phương pháp nhận dạng ngôn ngữ tự nhiên, trí tuệ nhân tạo, khảo sát lý thuyết mơ hình, cơng cụ tốn học, thiết kế xây dựng thuật toán, kỹ thuật tổ chức liệu ngơn ngữ lập trình - Tìm đọc báo, cơng trình nghiên cứu khoa học liên quan đến chủ đề nghiên cứu nước giới Cụ thể tài liệu kỹ thuật thống kê tốn học q trình Markov; quy luật ngơn ngữ q trình ngẫu nhiên dừng, không hậu quả; kỹ thuật nhận dạng ngôn ngữ tự nhiên Hình thành tổng quan tương đối đầy đủ tình hình nghiên cứu liên quan đến chủ đề giới - Lập trình cài đặt số kỹ thuật nhận dạng ngôn ngữ La Tinh đánh giá kết  Cấu trúc luận văn chia thành chương: Chương 1: " Tổng quan nhận dạng ", trình bày tổng quan hướng nghiên cứu nhận dạng Chương 2: " Kỹ thuật nhận dạng thống kê ", trình bày ứng dụng kỹ thuật thống kê Tốn học để nhận dạng ngôn ngữ tự nhiên tìm hiểu đặc trưng số ngơn ngữ tự nhiên tiêu biểu Chương 3: " Thực Nghiệm ", trình bày thuật toán nhận dạng văn La Tinh đưa kết với số mẫu ngôn ngữ điển hình

Ngày đăng: 27/12/2023, 08:17

Tài liệu cùng người dùng

Tài liệu liên quan