Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 127 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
127
Dung lượng
2,42 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC NGHIÊN CỨU NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG MẠNG NEURAL NGÀNH: KỸ THUẬT ĐIỆN TỬ 3.04.3898 NGUYỄN THỊ PHƯƠNG THẢO Người hướng dẫn khoa học : TS PHẠM VĂN BÌNH HÀ NỘI 2008 i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH VẼ, ĐỒ THỊ iv DANH MỤC BẢNG BIỂU vi MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓI 1.1 Sự hình thành số đặc điểm tiếng nói 1.2 Biểu diễn tín hiệu âm miền thời gian tần số 1.3 Một số tính chất thống kê tiếng nói 1.3.1 Sự phân bố biên độ 1.3.2 Thống kê phổ tiếng nói 10 1.4 Mơ hình hình thành tiếng nói 11 1.4.1 Lý thuyết mơ hình hình thành tiếng nói 11 1.4.2 Mơ hình mạch tƣơng đƣơng rời rạc tuyến tính 11 1.4.3 Mơ hình Vocal Tract 12 1.5 Một số phƣơng pháp nhận dạng tiếng nói tự động 14 1.5.1 Phƣơng pháp ngữ âm – âm tiết 15 1.5.2 Phƣơng pháp nhận dạng mẫu 16 1.5.3 Phƣơng pháp sử dụng trí tuệ nhân tạo 17 1.5.4 Phƣơng pháp sử dụng mạng neural 17 CHƢƠNG XỬ LÝ TÍN HIỆU VÀ PHƢƠNG PHÁP PHÂN TÍCH XÁC ĐỊNH ĐẶC TRƢNG CỦA TIẾNG NÓI 18 2.1 Phân tích xử lý tín hiệu 19 2.2 Lý thuyết mã hóa dự báo tuyến tính (LPC) 20 2.2.1 Cơ sở lý thuyết phƣơng pháp mã hóa dự báo tuyến tính 21 2.2.2 Phƣơng pháp tự tƣơng quan 24 2.2.3 Mơ hình pha trích trọn đặc trƣng 28 2.3 Các kĩ thuật so sánh mẫu 36 2.3.1 2.3.2 2.3.3 Giới thiệu 36 Phát tiếng nói 38 Kỹ thuật chỉnh thời gian động 41 Nguyễn Thị Phương Thảo ii CHƢƠNG MẠNG NEURAL NHÂN TẠO 48 3.1 Mạng neural sinh học 48 3.2 Mơ hình kiến trúc mạng neuron nhân tạo 50 3.2.1 Mơ hình mạng neural nhân tạo 51 3.2.2 Kiến trúc mạng neural nhân tạo 55 3.3 Huấn luyện mạng Neural 59 3.3.1 Luật Hebb 60 3.3.2 Luật giả nghịch đảo (Pseudoinverse Rule) 63 3.3.3 Một số dạng biến đổi luật Hebb 64 3.4 Một số kiến trúc mạng Neural 65 3.4.1 Kiến trúc mạng Perceptron lớp 65 3.4.2 Mạng Perceptron nhiều lớp thuật toán lan truyền ngƣợc 69 3.4.3 Mạng cạnh tranh, mạng tự tổ chức mạng lƣợng tử véc tơ 75 3.5 Một số kết đƣợc nghiên cứu dùng mạng neural nhận dạng tiếng nói 85 3.5.1 3.5.2 3.5.3 CHƢƠNG Cơng nghệ dùng mạng neural nhận dạng tiếng nói 85 Các mạng không hồi quy 86 Mạng hồi quy 87 PHÂN TÍCH ĐẶC ĐIỂM NGỮ ÂM TIẾNG VIỆT 88 4.1 Đặc điểm âm tiết tiếng Việt 88 4.2 Cấu tạo âm tiết tiếng Việt 89 4.2.1 Âm vị tiếng Việt 91 4.2.2 Sự thể âm vị chữ viết 96 4.3 Lựa chọn đơn vị nhận dạng tiếng Việt 99 4.3.1 4.3.2 4.3.3 CHƢƠNG Mơ hình từ âm tiết 99 Mơ hình âm vị 100 Mơ hình âm đầu - vần 101 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT 103 5.1 Khối xử lý tín hiệu 103 5.1.1 5.1.2 5.1.3 Phát điểm bắt đầu kết thúc âm tiết 104 Chuẩn hoá biên độ nhiễu 106 Gán nhãn âm tiết 109 Nguyễn Thị Phương Thảo iii 5.1.4 Cắt khung phân tích tham số LPC 109 5.1.5 Véc tơ tham số LPC 109 5.2 Khối nhận dạng 110 5.2.1 Thiết kế mạng LVQ2 cho nhận dạng âm tiết 110 5.2.2 Thiết kế mạng Perceptron 113 5.3 Thiết kế chƣơng trình 116 5.3.1 Chức huấn luyện 116 5.3.2 Chức nhận dạng 117 5.4 Thử nghiệm đánh giá kết 117 KẾT LUẬN 118 TÀI LIỆU THAM KHẢO 120 Nguyễn Thị Phương Thảo iv DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Mơ hình âm Hình 1.2 Dạng tín hiệu câu nói “It’s time” Hình 1.3 Phổ đoạn âm “Every salt breeze comes from the sea” Hình 1.4 Phổ tần số - biên độ tín hiệu Hình 1.5 Tần số Formant câu “Why I owe you a letter” Hình 1.6 Sự thay đổi độ lệch tiêu chuẩn trung bình so với tần số 10 Hình 1.7 Phân bố tần số 10 Hình 1.8 Mơ hình q trình tạo tiếng nói 11 Hình 1.9 Mơ hình mạch tƣơng đƣơng rời rạc tuyến tính 12 Hình 1.10 Mơ hình Vocal Tract 13 Hình 1.11 Phổ biên độ tần số Formant 14 Hình 1.12 Sơ đồ khối hệ thống nhận dạng tiếng nói ngữ âm – âm tiết 15 Hình 1.13 Mơ tả sơ đồ khối hệ nhận dạng mẫu 17 Hình 2.1 Mơ hình dự báo tuyến tính 21 Hình 2.2 Minh hoạ mẫu tiếng nói, đoạn đƣợc định trọng, lỗi dự báo âm hữu lỗi dự báo lớn đầu đoạn 25 Hình 2.3 Minh hoạ mẫu tiếng nói, đoạn đƣợc định trọng lỗi dự báo âm hữu nơi lỗi dự báo lớn cuối đoạn 27 Hình 2.4 Minh hoạ mẫu tiếng nói, đoạn tiếng đƣợc định trọng lỗi dự báo âm vơ nơi hầu nhƣ khơng có giả tạo rìa đoạn 28 Hình 2.5 Sơ đồ khối xử lý LPC để nhận dạng tiếng nói 29 Hình 2.6 Phổ cƣờng độ mạng tiền khuếch đại LPC với a~ =0.95 29 Hình 2.7 Chia khối thành khng 31 Hình 2.8 Sơ đồ khối nhận dạng tiếng nói sử dụng phƣơng pháp pha phát tiếng nói 40 Hình 2.9 Sơ đồ khối hệ nhận dạng sử dụng phƣơng pháp ẩn pha phát tiếng nói 40 Hình 2.10 Ví dụ hai vị trí biên xảy từ 41 Nguyễn Thị Phương Thảo v Hình 2.11 Sơ đồ khối hệ nhận dạng sử dụng phƣơng pháp lai pha phát tiếng nói 41 Hình 2.12 Lƣới minh họa quy hoạch động 44 Hình 2.13 Minh họa chỉnh thời gian động mẫu chuẩn “SPEECH” với mẫu nhận dạng có nhiễu “SsPEEhhH” 45 Hình 2.14 Mơ tả hƣớng tới (i,j), (i,0), (i,1) 47 Hình 3.1 Sơ đồ khối hệ thần kinh 48 Hình 3.2 Các thành phần mạng neural 49 Hình 3.3 Mơ hình mạng neural đầu vào 51 Hình 3.4 Mơ hình mạng neural nhiều đầu vào 54 Hình 3.5 Mơ hình mạng neural nhiều đầu vào rút gọn 54 Hình 3.6 Kiến trúc mạng neural lớp 55 Hình 3.7 Mạng neural lớp S neuron, R đầu vào 56 Hình 3.8 Mạng tầng 57 Hình 3.9 Khối trễ 58 Hình 3.10 Khối tích 58 Hình 3.11 Mạng hồi quy 59 Hình 3.12 Bộ kết hợp tuyến tính 60 Hình 3.13 Mạng Perceptron 65 Hình 3.14 Mạng Perceptron neuron hai đầu vào 66 Hình 3.15 Mạng Perceptron 67 Hình 3.16 Mạng tầng 70 Hình 3.17 Mạng Hamming 76 Hình 3.18 Tầng cạnh tranh 78 Hình 3.19 Đồ thị biểu diễn luật Kohonen 79 Hình 3.20 Láng giềng 81 Hình 3.21 Mạng LVQ 83 Hình 4.1 Cây biểu diễn cấu trúc âm tiết tiếng Việt 89 Hình 4.2 Sơ đồ âm tiết tiếng Việt tổng thể 91 Nguyễn Thị Phương Thảo vi Hình 4.3 Sơ đồ hình thang nguyên âm 93 Hình 5.1 Sơ đồ khối hệ thống nhận dạng âm tiết 103 Hình 5.2 Sơ đồ khối pha phát điểm bắt đầu kết thúc âm tiết 105 Hình 5.3 Mạng LVQ ( Kích thƣớc s1 s2 chƣa xác định đây) 111 Hình 5.4 Sơ đồ huấn luyện nhận dạng mạng neuron 115 DANH MỤC BẢNG BIỂU Bảng 2.1 Các giá trị đặc trƣng cho tham số phân tích LPC hệ nhận dạng tiếng nói 36 Bảng 3.1 Một số hàm truyền mạng neural 52 Bảng 3.2 Tóm tắt số kết số ngƣời nghiên cứu nhận dạng tiếng nói 86 Bảng 3.3 Nhận dạng tiếng nói dùng mạng neuron hồi quy 87 Bảng 4.1 Số lƣợng phụ âm đầu âm tiết tiếng Việt 92 Bảng 4.2 Sự thể âm vị âm cuối 95 Bảng 4.3 Sự thể âm vị âm tiết 97 Nguyễn Thị Phương Thảo MỞ ĐẦU Từ xƣa đến nay, tiếng nói phƣơng thức truyền thơng nhanh hiệu ngƣời với ngƣời Khi sinh ra, học nói cách bắt chƣớc mà không cần biết đến khái niệm tiếng nói, âm tiết Quá trình học nói đƣợc hồn thiện theo thời gian trƣởng thành ngƣời điều đến cách tự nhiên sống đến mức nhận đƣợc phức tạp ngôn ngữ Sự phức tạp ngôn ngữ đƣợc biểu rõ nét học ngoại ngữ hoàn toàn Sự phức tạp đƣợc thể phát âm, từ vựng, ngữ pháp, ngữ điệu câu nói, ngữ cảnh câu nói đơi lúc ngơn ngữ cách phát âm địa phƣơng khác Trong giao tiếp, giọng nói đƣợc truyền từ ngƣời sang ngƣời khác, từ nơi qua nơi khác, tiếng nói bị méo tiếng ồn xung quanh Nhƣ môi trƣờng yếu tố định đến chất lƣợng tiếng nói Nếu xét đến nguồn gốc sinh tiếng nói hay cấu tạo máy phát âm ngƣời phức tạp gấp bội Bộ máy phát âm khơng hoạt động cách máy móc, cứng nhắc mà phụ thuộc vào ngƣời nhƣ trạng thái cảm xúc ngƣời nói Cùng câu nói với ngƣời nói cảm nhận đƣợc khác thời điểm khác Với tất lý trên, việc xây dựng hệ thống nhận dạng tiếng nói máy tính vấn đề phức tạp Tuy nhiên, nhận dạng tiếng nói tự động máy tính, giải đƣợc nhiều vấn đề sống nhƣ tự động hoá hoạt động văn phịng, nhập liệu máy tính lời, quay số điện thoại lời, hỗ trợ ngƣời tàn tật tất hoạt động khác với máy tính mà giải phóng đƣợc đơi tay Nguyễn Thị Phương Thảo Những ứng dụng hấp dẫn thúc đẩy ngƣời nghiên cứu nhận dạng tiếng nói bốn thập kỷ qua đến đạt đƣợc số thành công đáng kể Trên giới có số hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tƣơng đối cao, hệ thống chủ yếu đƣợc phát triển máy tính lớn vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hồn chỉnh, chủ yếu tiếng Anh Ngồi yếu tố bí mật cơng nghệ, tiếng nói dân tộc có đặc thù riêng địi hỏi ngƣời dân nƣớc phải quan tâm nghiên cứu, khai thác triệt để yếu tố đặc thù tiếng mẹ đẻ nhằm phát triển hệ thống nhận dạng tiếng nói phù hợp Từ nhận thức vấn đề nhƣ hƣớng tới tiến hành nghiên cứu đề tài “Nghiên cứu nhận dạng tiếng Việt sử dụng mạng Neural” nhằm mục đích xây dựng thử nghiệm chƣơng trình nhận dạng với nội dung nhƣ sau: CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓI Trong chƣơng tơi xin trình bày số đặc điểm tiếng nói chế hình thành tiếng nói, đồng thời với số tham số quan trọng đặc trƣng tiếng nói ngƣời để dựa vào xây dựng mơ hình nhận dạng tiếng nói CHƢƠNG XỬ LÝ TÍN HIỆU VÀ PHƢƠNG PHÁP PHÂN TÍCH XÁC ĐỊNH ĐẶC TRƢNG CỦA TIẾNG NĨI Trong chƣơng tơi mô tả số phƣơng pháp xử lý trích chọn đặc trƣng tiếng nói Phƣơng pháp LPC đƣợc chọn để trính tham số tiếng nói Ngồi ra, chƣơng đề cập đến số kỹ thuật quan trọng tách điểm đầu, cuối âm tiết, chỉnh thời gian động CHƢƠNG MẠNG NEURAL NHÂN TẠO cơng cụ có khả giải đƣợc nhiều tốn khó, thực tế nghiên cứu mạng Nguyễn Thị Phương Thảo neural đƣa cách tiếp cận khác với cách tiếp cận truyền thống lý thuyết nhận dạng Chƣơng mơ tả tóm tắt mạng neural sinh học, mơ hình kiến trúc mạng neural nhân tạo, luật huấn luyện mạng neural nhân tạo, số mạng neural nhân tạo thƣờng đƣợc dùng nhận dạng tiếng nói mạng Perceptron đa lớp với thuật toán lan truyền ngƣợc, mạng KOHONEN, mạng tự tổ chức (SOFM) mạng LVQ Cuối số kết đƣợc nghiên cứu dùng mạng neural nhận dạng tiếng nói CHƢƠNG PHÂN TÍCH ĐẶC ĐIỂM NGỮ ÂM TIẾNG VIỆT Mỗi ngơn ngữ nói có đặc thù riêng, việc khai thác triệt để yếu tố đặc thù tiếng Việt giúp cho xây dựng hệ thống nhận dạng tiếng nói có độ xác cao Chƣơng mô tả số đặc tính âm học tiếng việt phân tích lựa chọn đơn vị nhận dạng tiếng Việt CHƢƠNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT Chƣơng tơi xin trình bày phần mềm thử nghiệm nhận dạng tiếng Việt ngôn ngữ visual C++ Cuối cùng, xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS Phạm Văn Bình, ngƣời hết lịng giúp đỡ, hƣớng dẫn tơi hồn thành luận văn Tôi xin gửi lời cảm ơn giáo viên khoa Điện tử viễn thông dạy truyền đạt kiến thức quý giá trình học trƣờng Xin chân thành cảm ơn! Nguyễn Thị Phương Thảo 106 Nếu lựa chọn đơn vị nhận dạng âm tiết đoạn âm tiết đƣợc tách từ khoảng lặng đƣợc dùng để phân tích tham số đặc trƣng Thuật toán tách âm tiết từ khoảng lặng đƣợc mơ tả hình 5.2 5.1.2 Chuẩn hố biên độ nhiễu Khi ghi tín hiệu, ngƣời phát âm đọc to, nhỏ, nhanh, chậm cần có bƣớc chuẩn hố biên độ để tăng độ xác nhận dạng Chuẩn hóa gồm: Chuẩn hoá thời gian tồn âm tiết chuẩn hoá biên độ âm tiết Thời gian tồn âm tiết đƣợc chọn khoảng 1/3 giây (3000 mẫu cho âm tiết) Chuẩn hoá biên độ đƣợc thực nhƣ sau: - Gọi giá trị khoảng lặng là: ds - Xét đoạn âm tiết (đƣợc phát dựa số đo lƣợng) có chiều dài chuẩn 3000 mẫu chứa mảng Signal[3000] - Tìm giá trị lớn bé đoạn 3000 mẫu gọi SMAX SMIN - Đoạn tín hiệu đƣợc chuẩn hoá biên độ đoạn [0, 255] nhƣ sau: double dy=255.0/(double)(SMAX-SMIN); b1=ds-128; for (i=0;i