(Luận văn) nghiên cứu nhận dạng ngôn ngữ nói tự động dựa trên tần số cơ bản

77 0 0
(Luận văn) nghiên cứu  nhận dạng ngôn ngữ nói  tự động dựa trên tần số cơ bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an TRẦN XUÂN HÀ n va gh tn to p ie NGHIÊN CỨU NHẬN DẠNG NGƠN NGỮ NĨI TỰ ĐỘNG d oa nl w DỰA TRÊN TẦN SỐ CƠ BẢN ll u nf va an lu m oi LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh z m co l gm @ an Lu HÀ NỘI - 2020 n va ac th si HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an va n TRẦN XUÂN HÀ gh tn to p ie NGHIÊN CỨU NHẬN DẠNG NGÔN NGỮ NÓI TỰ ĐỘNG DỰA TRÊN TẦN SỐ CƠ BẢN d oa nl w u nf va an lu Chuyên ngành: Khoa học máy tính Mã số: 8.48.01.01 ll LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) oi m z at nh NGƯỜI HƯỚNG DẪN KHOA HỌC: z m co l gm @ PGS.TS HÀ HẢI NAM an Lu n va ac th si HÀ NỘI - 2020 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si i LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan lu an n va Hà Nội, tháng 04 năm 2020 p ie gh tn to Tác giả luận văn d oa nl w Trần Xuân Hà ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Lời tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc đến PGS.TS Hà Hải Nam, người giúp tơi chọn đề tài, định hình hướng nghiên cứu, tận tình hướng dẫn bảo tơi suốt q trình thực luận văn tốt nghiệp Tơi xin bày tỏ lòng biết ơn trân thành tới thầy, cô giáo trường Học viện Công nghệ Bưu Viễn thơng Các thầy, giáo dạy bảo truyền lu an đạt cho nhiều kiến thức, giúp tơi có tảng kiến thức vững n va sau ngày tháng học tập trường Và xin gửi lời cảm ơn đến Ban Lãnh đạo tn to và các đờng chí, đồng nghiệp tại Phòng Giám định Kỹ thuật số điện tử - Viện gh Khoa học hình - Bộ Cơng tạo điều kiện thuận lợi cho suốt p ie trình học tập thực luận văn Tôi xin gửi lời cảm ơn sâu sắc tới bạn w khóa 2018 đợt ủng hộ khuyến khích tơi suốt q trình học tập trường oa nl Cuối cùng, muốn gửi lời cảm ơn sâu sắc đến gia đình bạn bè, d người thân yêu kịp thời động viên giúp đỡ vượt qua khó an lu khăn học tập sống u nf va Hà Nội, tháng 04 năm 2020 Tác giả luận văn ll oi m z at nh Trần Xuân Hà z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT DANH MỤC BẢNG BIỂU v vi lu an DANH MỤC HÌNH VẼ vii va n MỞ ĐẦU gh tn to CHƯƠNG - TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG NGƠN NGỮ NĨI TỰ ĐỘNG DỰA TRÊN TẦN SỐ CƠ BẢN p ie Tổng quan tiếng nói đặc trưng tiếng nói w 1.1 Nguồn gốc âm .3 oa nl 1.1.1 Bộ máy phát âm 1.1.3 Cơ chế phát âm 1.1.4 Q trính sản xuất tiếng nói thu nhận tiếng nói 1.1.5 Đặc tính âm học tiếng nói .7 1.1.6 Các đặc tính khác ll u nf va an lu oi m z at nh 1.2 d 1.1.2 Đặc điểm ngôn ngữ tiếng Việt tiếng Pháp .11 z Đặc điểm ngôn ngữ tiếng Việt 12 1.2.2 Đặc điểm ngôn ngữ tiếng Pháp 17 l gm Kết luận chương 22 m co 1.3 @ 1.2.1 an Lu CHƯƠNG - THUẬT TOÁN VÀ MƠ HÌNH HỆ THỐNG NHẬN DẠNG NGƠN NGỮ NĨI TỰ ĐỘNG DỰA TRÊN TẦN SỐ CƠ BẢN 23 n va ac th si iv 2.1 Phân tích liệu tiếng nói 23 2.1.1 Trích rút đặc trưng miền thời gian 23 2.1.2 Trích rút đặc trưng miền tần số 30 2.2 Mạng nơ ron ứng dụng nhận dạng tiếng nói 38 2.2.1 Phương pháp nhận dạng dùng mạng nơ ron 38 2.2.2 Luật học mạng nơ ron 39 2.2.3 Thuật toán lan truyền ngược - Back propagation .41 lu an n va 2.3 Mơ hình hệ thống nhận dạng ngơn ngữ nói tự động 50 2.4 Kết luận chương 51 52 3.1 Đặt vấn đề 52 3.2 Chi tiết hệ thống nhận dạng ngôn ngữ tự động phân biệt tiếng Việt tiếng p ie gh tn to CHƯƠNG - ỨNG DỤNG w Pháp 52 Phân đoạn tiếng nói 52 oa nl 3.2.1 Tính tốn F0 53 3.2.3 Tính đường viền F0 54 3.2.4 Tính tốn đặc trưng F0 56 3.2.5 Ra định 57 d 3.2.2 ll u nf va an lu oi m Chương trình nhận dạng ngôn ngữ tự động tiếng Việt tiếng Pháp .59 3.4 Đánh giá kết 63 3.5 Kết luận chương 63 z at nh 3.3 z m co DANH MỤC TÀI LIỆU THAM KHẢO 65 l 64 gm @ KẾT LUẬN VÀ KIẾN NGHỊ an Lu n va ac th si v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ACF Autocorreclation Function Hàm tự tương quan AMDF Averaged Magnitude Differentiate Hàm vi sai biên độ trung bình Function lu an Back- propagation Network Mạng lan truyền ngược C-V Consonant - Vowel Nguyên âm - Phụ âm DCT Discrete Cosine Transform Biến đổi cosin rời rạc DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DFFT Discrete Fast Fourier Transform Biến đổi Fourier nhanh rời rạc FFT Fast Fourier Transform Biến đổi Fourier nhanh F0 Fundamental Frequency of Speech Tần số n va BPN p ie gh tn to Frame Khung ITU Upper Energy threshold Ngưỡng lượng ITL Low Energy threshold Ngưỡng lượng IZCT Zero Crossing Rate threshold Ngưỡng lượng thấp Nơ ron Neural MFCC Mel frequency cepstrum computation PIP Preferred Installer Program STFT Short-Time Fourier Transform d oa nl w Frame u nf va an lu ll Tế bào thần kinh m oi Tính tốn cepstrum tần số Mel z at nh Trình quản lý gói thư viện ngơn ngữ lập trình Python z ngắn m co l gm @ Biến đổi Fourier thời gian an Lu n va ac th si vi DANH MỤC BẢNG BIỂU Bảng 1.1: Bảng giá trị tần số .10 Bảng 1.2: Sơ đồ tiếng Việt 12 Bảng 1.3: Bảng hệ thống âm đầu tiếng Việt 13 Bảng 1.4: Bảng hệ thống âm nguyên âm tiếng Việt .13 Bảng 1.5: Bảng hệ thống âm cuối tiếng Việt 14 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC HÌNH VẼ Hình 1.1: Sơ đồ máy phát âm người Hình 1.2: Sơ đồ chế phát âm .5 Hình 1.3: Sơ đồ biểu diễn trình sản xuất thu nhận tiếng nói người Hình 1.4: Dáng điệu đường F0 "ngang" 14 Hình 1.5: Dáng điệu đường F0 “huyền” 15 Hình 1.6: Dáng điệu đường F0 “ngã” 15 lu an Hình 1.7: Dáng điệu đường F0 “hỏi” 16 n va Hình 1.8: Dáng điệu đường F0 “sắc” 16 tn to Hình 1.9: Dáng điệu đường F0 “nặng” 17 gh Hình 2.1: Mơ tả hàm tự tương quan .24 p ie Hình 2.2: Mơ tả hàm vi sai biên độ trung bình 26 w Hình 2.3: Sơ đồ khối tín hiệu cepstrum thực 38 oa nl Hình 2.4: Sơ đồ khối luật học có giám sát .39 d Hình 2.5: Đồ thị luồng tín hiệu chi tiết cho nơ ron đầu 42 an lu Hình 2.6: Đồ thị luồng tín hiệu chi tiết cho nơ ron ẩn j nối với nơ ron đầu u nf va k 44 Hình 2.7: Đồ thị luồng tín hiệu phần mạng tiến đa mức tín hiệu lỗi phản ll oi m hồi trở lại .46 z at nh Hình 2.8: Đồ thị lng tín hiệu minh họa tác dụng số moment a 47 Hình 2.9: Mơ hình hệ thống nhận dạng ngơn ngữ nói tự động 50 z Hình 3.1: Ví dụ kết từ quy trình động .55 @ gm Hình 3.2: So sánh R9P R9N tiếng Việt tiếng Pháp .57 l Hình 3.3: Hình dáng hàm logarit chuẩn 58 m co Hình 3.4: Mạng nơ ron truyền bá ngược sử dụng giai đoạn Ra định 58 an Lu Hình 3.5: Chương trình nhận dạng 59 Hình 3.6: Giao diện chương trình 60 n va ac th si 52 CHƯƠNG - ỨNG DỤNG 3.1 Đặt vấn đề Trong phần trước luận văn giới thiệu kĩ thuật phân tích tiếng nói trích rút đặc trưng Tìm hiểu mạng nơ ron khả học điểm mạnh mạng nơ ron toán nhận dạng tiếng nói, xây dựng mơ hình hệ thống nhận dạng ngơn ngữ nói tự động Trong chương luận văn thử nghiệm đánh giá chương trình tự động nhận dạng tiếng nói tiếng Việt tiếng Pháp Mục đích lu an chương trình nhằm nhận dạng ngôn ngữ cho đầu vào file hay n va nhiều file lúc với tỷ lệ xác cao thời gian ngắn tiếng Pháp ie gh tn to 3.2 Chi tiết hệ thống nhận dạng ngôn ngữ tự động phân biệt tiếng Việt p 3.2.1 Phân đoạn tiếng nói nl w Đầu vào liên tục tín hiệu tiếng nói bao gồm vùng im lặng vùng oa tiếng nói Sử dụng Thuật toán phát điểm cuối Rabiner Sambur để phân d đoạn tín hiệu giọng nói đầu vào thành phân đoạn tiếng nói rời rạc lu u nf biệt để tính tốn: va an Để có hiệu suất tốt, thuật tốn phân đoạn phải có số thông số đặc ll - Những từ bắt đầu kết thúc âm vị lượng thấp m oi - Những từ kết thúc âm bật vô z at nh - Những từ kết thúc âm mũi - Người nói kết thúc từ với cường độ cao thở ngắn (tiếng ồn) z @ Sử dụng phương pháp Zero Crossing Rate Short-Term Energy để đo tín l gm hiệu giọng nói sau 10ms frames có độ dài 10ms (cho 10 frames nhiễu nền) Phương pháp sử dụng để tìm giá trị trung bình m co phương sai đặc trưng, thống kê sử dụng để tính ngưỡng: an Lu - ITU (Upper Energy threshold): Ngưỡng lượng n va ac th si 53 - ITL (Lower Energy threshold): Ngưỡng lượng thấp - IZCT (Zero Crossing Rate threshold): Ngưỡng tỷ lệ vượt q điểm khơng Mức lượng sau tìm kiếm để tìm điểm giao ngưỡng ITU di chuyển đoạn từ đầu Sau đó, quay trở lại xuống điểm giao gần ITL trường hợp Quá trình mang lại điểm cuối dự kiến gọi N1 N2 Sau di chuyển phía cuối từ N1 N2 không 25 frames, kiểm tra tỉ lệ vượt q điểm khơng để tìm xuất số đếm ngưỡng IZTC Nếu chúng không tìm thấy, điểm cuối ước tính ban đầu Nếu tìm thấy ba lần xuất hiện, ước tính điểm cuối di chuyển lùi lu (hoặc chuyển tiếp) đến thời điểm vượt ngưỡng an n va 3.2.2 Tính tốn F0 tn to Tính tốn F0 cho phân đoạn tiếng nói rời rạc Để tính F0 cho phân đoạn tiếng nói rời rạc, tính tốn F0 cho khoảng liên tiếp 10ms gh p ie phân đoạn tiếng nói Cửa sổ phân tích 50ms khoảng thời gian 10ms frames sử dụng để trích xuất F0 phương pháp AMDF Tần số F0 nl w xác định số mẫu m đưa phương trình tối thiểu (3.2.1) oa D(m) =  | x(n) –x(n-m) | , n = 1,2,…N (3.2.1) d an lu x (n): tín hiệu tiếng nói frame va N: Chiều dài frame tính theo mẫu ll u nf Hầu hết phương pháp trích xuất F0, bao gồm phương pháp ADMF, oi m mắc lỗi Hầu hết số lỗi gấp đôi chia đôi cao độ Một phương pháp z at nh sửa lỗi đơn giản đề xuất Tần số trung bình F 0Tb cho tất frame cửa sổ tính toán F0, 2*F0, F0/2 frame so sánh với F 0T z frame gần với F0Tb sử dụng làm giá trị F sửa Tính tốn F0Tb gm (3.2.2) l F0Tb = (1/5) F0 (i) i = 1,2,…,5 @ cửa sổ tín hiệu: m co F0(i): Tần số frame thứ i bên cửa sổ tín hiệu an Lu Cuối cùng, F0 xác định theo phương trình (3.2.3) n va ac th si 54 F0 = F0 (1) , (F1, F2, F3 ) = F1 (3.2.3) 2*F0 (1) , (F1, F2, F3 ) = F2 F0 (1)/2 , (F1, F2, F3 ) = F3 Trong F1, F2, F3 tính sau: F1 = | F0(1) – F0Tb | F2 = | 2*F0(1) – F0Tb | F3 = | F0(1)/2 – F0Tb | Bằng cách dịch chuyển cửa sổ tín hiệu sang tồn phân đoạn tiếng nói với lu khoảng thời gian 10ms, ta lấy đường viền F0 phân đoạn giọng nói rời rạc an 3.2.3 Tính đường viền F0 va n a Phân đoạn đường viền cao độ to tn Bước giai đoạn tính đường viền F0 phân đoạn đường viền cao ie gh độ vào phân đoạn định hướng lên xuống Trong bước này, tơi sử dụng p quy trình động mô tả sau: w Sự thay đổi đường viền cao độ vị trí đường viền cao độ mà tồn oa nl kết thúc tối đa cục d Bước 1: Tìm kiếm đường viền cao độ từ đầu để tìm thay đổi va an lu cao độ u nf Bước 2: Vị trí bắt đầu đoạn vị trí phát thay đổi ll Bước 3: Tiêu chí tìm vị trí kết thúc đoạn vị trí phát thay đổi m oi Nếu vị trí kết thúc đoạn phát hiện, đến bước z at nh Bước 4: Lưu tham số phân đoạn (bao gồm vị trí bắt đầu, vị trí kết thúc) Thiết lập tham số ban đầu phân đoạn z - Đặt vị trí bắt đầu phân đoạn tương đương với vị trí kết thúc gm @ đoạn liền kề phân đoạn liền kề Lần lượt, đến bước m co l - Đặt vị trí kết thúc phân đoạn tương đương với vị trí kết thúc an Lu Bước 5: Kiểm tra xem vị trí có phải kết thúc đường viền cao độ Nếu đúng, đến bước 6, khơng chuyển sang bước n va ac th si 55 Bước 6: Thuật toán kết thúc lu an n va p ie gh tn to nl w d oa Hình 3.1 Ví dụ kết từ quy trình động an lu b Ước tính phân đoạn cao độ theo dịng va Bước thứ hai giai đoạn ước tính viền F0 tính phân đoạn cao độ ll u nf xuất phát từ bước trước tập hợp dịng thứ Thuật tốn ước tính oi m phân đoạn cao độ theo dòng thứ dựa phương pháp lỗi bình phương z at nh trung bình Giả sử có tập hợp quan sát M (x i,yi), i = 1,2,… M Bây z chúng tơi muốn ước tính tập hợp dòng thứ phương (3.2.4) l f(x) = a0 + a1x gm @ trình (3.2.4) phương trình (3.2.5) an Lu ei2 = [ yi – f(xi)] m co Lỗi bình phương trung bình yi giá trị tính với (3.2.4) (3.2.5) n va ac th si 56 Đối với quan sát M, sai số tổng phương trình (3.2.6) E =  ei2 =  { yi – [ a0 + a1 xi] }2 i = 1,2,…,M (3.2.6) E hàm biến a0 a1 Giá trị xác biến a0 a1 đưa phương trình (3.2.6) tối thiểu Giá trị biến a a1 xác định cách giải phương trình (3.2.7) (3.2.8) (3.2.7) (3.2.8) lu an Mỗi phân đoạn cao độ biểu thị cặp giá trị (a 0i, n va a1i) Do đó, đường bao cao độ xấp xỉ tập hợp dòng thứ nhất, tn to biểu thị tập hợp S cặp giá trị gh S = {(a0i,a1i)} , i=1,2,…,K (3.2.9) p ie K- Số dòng thứ tự nl w 3.2.4 Tính tốn đặc trưng F0 d trình sau: oa Một số tính hữu ích để nhận dạng ngơn ngữ trích xuất theo quy lu va an - Chia số thực (-,+) thành 20 vùng: u nf (-,-9], (-9,-8], …, (-1,0), [0,1), …,[8,9), [9,+) ll Các vùng dương ký hiệu P0, P1, …,P9 theo thứ tự [0,1), …,[8,9), oi m [9,+) z at nh Các vùng âm ký hiệu N0, N1, …, N9 theo thứ tự (-1,0),…[-9,-) - Đối với ngôn ngữ định, độ dốc đường phân phối z l gm - Tính tỷ lệ để đánh giá sau cùng: @ vùng Tính số lượng dịng vùng m co RiP = Số dòng vùng Pi / Số dòng tất vùng RiN = Số dòng vùng Ni / Số dòng tất vùng an Lu n va ac th si 57 Tỷ lệ khác từ ngôn ngữ đến ngôn ngữ khác Chúng ta sử dụng tỷ lệ để xác định ngôn ngữ 3.2.5 Ra định Trong giai đoạn này, thiết kế mạng nơ ron để hồn thành nhiệm vụ nhận dạng ngơn ngữ Tác giả thực số thí nghiệm tín hiệu giọng nói với độ dài 30 phút quan sát đưa số kết luận hữu ích cho việc thiết kế giai đoạn - Tỷ lệ R9P R9N khác đáng kể tiếng Việt tiếng Pháp (xem hình lu an 3.2) n va - Sử dụng tỷ lệ R9P R9N phân biệt tiếng Việt tiếng tn to Pháp Nói cách khác, tỷ lệ R 9P R9N chứa hầu hết thông tin để xác định tiếng Việt tiếng Pháp R9P of VN p ie gh % 14 R9P of FR R9N of FR ll u nf va an lu 7.3 6.5 d oa nl w 10 R9N of VN m oi Ngôn ngữ z at nh Hình 3.2 So sánh R9P R9N tiếng Việt tiếng Pháp z Sử dụng Mạng nơ ron truyền ngược để phân loại điểm (R9P, R9N) @ l gồm lớp gm - Số lớp: Quan sát kết thí nghiệm, tác giả định sử dụng mạng BPN an Lu - Số lớp ẩn: m co - Số lượng đầu vào: Sử dụng tỷ lệ R9P R9N, có đầu vào n va ac th si 58 - Số lượng đầu ra: Đầu có hai trạng thái, sử dụng nơron lớp đầu - Chức chuyển giao: Sử dụng logarit chuẩn làm chức chuyển giao cho tế bào nơ ron ba lớp Hình dạng hàm logarit chuẩn mơ tả hình 3.3 Mạng nơ ron truyền bá ngược mơ tả hình 3.4 lu an n va p ie gh tn to 0.5 nl w d oa Hình 3.3 Hình dáng hàm logarit chuẩn ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.4 Mạng nơ ron truyền bá ngược sử dụng giai đoạn Ra định an Lu n va ac th si 59 3.3 Chương trình nhận dạng ngôn ngữ tự động tiếng Việt tiếng Pháp Chương trình nhận dạng ngơn ngữ có tên “language identifcation speech” viết ngơn ngữ lập trình Python, sử dụng thư viện có sẵn PIP chạy hệ điều hành Ubuntu Chương trình có sử dụng số phần mềm hỗ trợ: - FFmpeg: để ghi, chuyển đổi truyền phát âm video - SoX: phần mềm chỉnh sửa âm đa tảng - youtube-dl: chương trình dịng lệnh để tải xuống video từ youtube.com vài trang web khác lu an n va p ie gh tn to d oa nl w ll u nf va an lu m oi Hình 3.5 Chương trình nhận dạng z at nh Giao diện chương trình (hình 3.6): z gm @ - test.py: để chạy file riêng lẻ cần kiểm tra ngôn ngữ - listTest.py: để chạy nhiều file cần kiểm tra ngôn ngữ m co - tensorflow: chứa code chương trình l - data: thư mục chứa file cần chạy an Lu n va ac th si 60 lu an va n Hình 3.6 Giao diện chương trình to - organise_spectrograms: Nơi lưu ảnh phổ âm mà chương trình xử p ie gh tn Trong thư mục dataTrain data: lý nl w - test: Nơi lưu liệu cần phát ngơn ngữ, nạp liệu vào d oa file video, chương trình tự động chyển sang định dạng đuôi wav để chạy ll u nf va an lu oi m z at nh z l gm @ Hình 3.7 Thư mục datatrain chương trình m co - train: Nơi chứa sở liệu training chương trình, có tiếng an Lu Việt tiếng Pháp, thêm liệu training n va ac th si 61 lu an Hình 3.8 Hình ảnh sở liệu tập đào tạo n va tn to Chạy chương trình với file riêng lẻ cho kết tiếng Việt tiếng gh p ie Pháp giây d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.9 Hình ảnh kết chương trình với file tiếng Việt an Lu n va ac th si 62 lu an n va tn to Hình 3.10 Hình ảnh kết chương trình với file tiếng Pháp gh Chạy chương trình với folder với nhiều file cho kết trả file exel, p ie thời gian tùy thuộc vào số lượng file chạy nhiều hay ít, trung bình giây file d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.11 Hình ảnh kết chương trình nhiều file đầu vào n va ac th si 63 3.4 Đánh giá kết Phương pháp thử nghiệm chia tập liệu mẫu làm tập, tập để đào tạo mạng nơ ron (gồm 450 file tiếng Pháp, 200 file tiếng Việt) tập thử nghiệm (gồm 164 file tiếng Pháp, 186 file tiếng Việt) Độ xác cho đầu vào trộn lẫn ngôn ngữ gồm 100 file tiếng Pháp 100 file tiếng Việt là: 84% Độ xác cho đầu vào tập thử nghiệm ngôn ngữ tiếng Việt là: 80% Độ xác cho đầu vào tập thử nghiệm ngơn ngữ tiếng Pháp là: 87% 3.5 Kết luận chương lu an Đây là chương cuối và cũng là một những chương quan trọng nhất n va luận văn để thể ứng dụng tần số tiếng nói vào nhận dạng tn to ngơn ngữ Thử nghiệm với chương trình nhận dạng ngơn ngữ tiếng Việt tiếng p ie gh Pháp với kết có độ tin cậy cao thời gian ngắn d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 64 KẾT LUẬN VÀ KIẾN NGHỊ Kết quả của luận văn Luận văn đã giới thiệu khái niệm lý thuyết nguồn gốc âm thanh, máy phát âm, chế phát âm, đặc tính âm học tiếng nói Luận văn giới thiệu đặc điểm ngôn ngữ tiếng Việt tiếng Pháp, giới thiệu phân tích liệu tiếng nói, mạng nơ ron ứng dụng nhận dạng tiếng nói, đặc biệt đặc trưng tần số tiếng nói với nhận dạng lu an ngôn ngữ n va Song song với nghiên cứu tìm hiểu lý thuyết luận văn thử nghiệm bước tn to đầu nhận dạng ngôn ngữ tiếng Việt tiếng Pháp với kết nhanh gh xác cao p ie Định hướng phát triển w Hướng nghiên cứu luận văn tập trung vào việc nghiên cứu oa nl các phương pháp nâng cao độ xác chương trình Qua đặc trưng tần số d tiếng nói trình bày cịn nhiều tốn tìm hiểu an lu nghiên cứu thêm tương lai tự động phân biệt giới tính, vùng miền u nf va phân biệt nhiều ngôn ngữ Với hạn chế nhiều mặt kiến thức thời gian, đồ án chắn tránh khỏi thiếu xót, tơi tin ll oi m đầu tư thêm thời gian hỗ trợ thêm kiến thức thầy có tình hồn thiện cao z at nh giáo bạn, đồ án hoàn thành mức tốt trở thành sản phẩm z m co l gm @ an Lu n va ac th si 65 DANH MỤC TÀI LIỆU THAM KHẢO [1] Dương Tử Cường, “Xử lý tín hiệu số”, Nhà xuất Học viện Kỹ thuật quân sự, 2004 [2] Ngô Minh Dũng, Đặng Văn Chuyết, “Khảo sát tính ổn định số đặc trưng ngữ âm nhận dạng người nói”, 2010 [3] Nguyễn Viết Sơn, “Caracteristiques des voyelles et consonnes finales lu Vietnamiennes: Aspect statiques et dynamiques, Maison d’edition Presses an Academiques Francophones”, 2012 va n [4] Bùi Đức Thịnh, “Văn phạm Việt Nam”, Culture Publisher, 1996 gh tn to [5] Chuya China Bhanja, Dipjyoti Bisharad, Rabul Hussain Laskar, ie “Automatic Classification of Indian Language into Tonal and Non-tonal p Categories Using Cascade Convolutional Neural Networks (CNN)-Long- nl w Short-Term Memory (LSTM) Recurrent Neural Networks”, International d oa Conference on Signal Processing and Communications (SPCOM), 2018 an lu [6] Jiangxiong Zhou & Shuichi ITAHASHI, “Feature extraction for spoken u nf va language discrimination using speech fundamental frequency”, Proc IWSP ll oi m [7] Key Margarethe Berkling, “Automatic language identification with z at nh sequences of language independent phoneme clusters”, PhD thesis, 1996 [8] Liang Wang, Eliatham by Ambikairajah, Eric H.C.Choi, “Automatic Non-Tonal Language Classification and @ and z Tonal Language Processing Conference, 2007 m co l gm Identification Using Prosodic Infomation”, 15th European Signal an Lu n va ac th si 66 [9] Liang Wang, Eliathamby Ambikairajah, Eric H.C.Choi, “Automatic language recognition with tonal and non-tonal language pre- classification”, 15th European Signal Processing Conference, 2007 [10] MICA speech database, Hanoi University of Technology [11] Richard E.Crandall, “Topics in advanced scientific computation”, Springer-Verlag, 1996 [12] Rabiner L.R., Shafer R.W., “Digital Processing of Speech Signal”, Prentic Hall, 1978 lu [13] TimKientzle, “A programer guide to sound”, Addison – Wesley, 1996 an [14] Yeshwant K Muthusamy et all, “Automatic language identification: A va n Review/Tutorial”, OGI gh tn to [15] Y Vamsi, “Robust speech recognition system for indian languages”, p ie Hyderabad institute, 2003 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:28

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan