Nhận dạng giọng nói tiếng việt bằng logic mờ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	649,51 KB

Nội dung

64 Trần Đức Minh, Nguyễn Thiện Luận NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT BẰNG LOGIC MỜ USING FUZZY LOGIC IN VIETNAMESE SPEECH RECOGNITION Trần Đức Minh1, Nguyễn Thiện Luận2 1Trường Đại học Thăng Long; Email[.]

Trần Đức Minh, Nguyễn Thiện Luận 64 NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT BẰNG LOGIC MỜ USING FUZZY LOGIC IN VIETNAMESE SPEECH RECOGNITION Trần Đức Minh1, Nguyễn Thiện Luận2 Trường Đại học Thăng Long; Email: tdminh2110@yahoo.com Học viện Kỹ thuật Quân sự; Email: nthienluan@yahoo.com Tóm tắt - Bài báo giới thiệu phương pháp nhận dạng giọng nói Tiếng Việt công cụ Logic mờ, cụ thể nhận dạng phổ tín hiệu tiếng nói Tiếng Việt ngơn ngữ đơn âm, với từ phát âm có hình dạng phổ tín hiệu định Vì vậy, ta đưa tốn nhận dạng giọng nói Tiếng Việt thành tốn nhận dạng phổ tín hiệu âm Logic mờ cơng cụ áp dụng vào hai toán huấn luyện nhận dạng tiếng nói Đối với tốn huấn luyện, thơng tin đầu vào tín hiệu âm chuyển đổi thành liệu mờ để lưu trữ nhằm phục vụ trình nhận dạng; toán nhận dạng, phép hiệu đối xứng tập mờ thông tin cần nhận dạng liệu mờ cơng cụ quan trọng hỗ trợ q trình nhận dạng Kết thực nghiệm cho thấy với lượng từ hữu hạn phổ tín hiệu âm có hình dạng tương đối khác việc nhận dạng đạt hiệu cao đáng tin cậy Abstract - This paper proposes the Fuzzy logic based method to recognize Vietnamese speech, namely recognition of spectrum of voiced signal As Vietnamese is a monosyllabus language, each word has a pronunciation with a specific spectral entity The problem of recognizing Vietnamese speech can therefore be converted into the problem of recognizing spectral properties of voiced signals In this paper we introduce how the fuzzy logic based method is applied to solving the problems of training and recognizing The experiment results showed recognition of high efficiency and reliability when the data is small and spectra are diverse Từ khóa - nhận dạng âm thanh; nhận dạng tiếng nói;nhận dạng giọng nói Tiếng Việt;Logic mờ; Logic mờ ứng dụng Key words - speech recognition; Vietnamese speech recognition; voice recognition; fuzzy logic; fuzzy logic application Đặt vấn đề Nhận dạng giọng nói vấn đề quan tâm từ nhiều năm trở lại tính ứng dụng thực tiễn cao lĩnh vực sống Trên giới có nhiều ứng dụng nhận dạng giọng nói chạy máy tính thiết bị cầm tay Ở Việt Nam, xuất vài ứng dụng có sử dụng tính nhận dạng giọng nói, nhiên áp dụng số lĩnh vực cụ thể Chính tập từ nhận dạng thường hữu hạn, điển hình vài ứng dụng công bố gần là: Công cụ quản lý chi tiêu cá nhân điều khiển tiếng nói [1] Hệ thống tra cứu thơng tin tuyển sinh tiếng nói [2] Khoa CNTT, Đại học Huflit; ngồi có vài cơng trình nghiên cứu khác điều khiển tơ từ xa giọng nói [3] lĩnh vực điều khiển hay điều khiển cánh tay Robot giọng nói Tiếng Việt [4] lĩnh vực Robot, … Đối với định hướng nghiên cứu, mặt ngữ âm, Tiếng Việt có đặc thù ngơn ngữ đơn âm tiết, ta khơng thể áp dụng phương pháp nhận dạng ngôn ngữ đa âm tiết Trên thực tế, nghiên cứu nhận dạng giọng nói cơng bố giới chủ yếu nghiên cứu dành cho ngơn ngữ đa âm tiết Chính vậy, hệ thống nhận dạng giọng nói Việt Nam khó kế thừa lại tồn nghiên cứu Do đó, hệ thống nhận dạng giọng nói Việt Nam cần phải xây dựng theo hướng khác, hướng dựa tảng ngữ âm Tiếng Việt Trong thời gian vừa qua có nhiều cá nhân, tổ chức đầu tư nghiên cứu cách vấn đề nhận dạng giọng nói Tiếng Việt đạt số kết định Điển đề tài Tổng hợp nhận dạng tiếng nói ứng dụng vào vấn đề nhập đọc liệu văn [5], đề tài Nghiên cứu mơ hình xử lý tín hiệu tiếng nói phục vụ cho việc nhận dạng Tiếng Việt nói liên tục [6] đề tài Nghiên cứu kỹ thuật tổng hợp giọng nói ứng dụng đọc văn Tiếng Việt [7] Tuy nhiên, chưa có chương trình ứng dụng nhận dạng giọng nói tổng thể dành cho Tiếng Việt cơng bố Nhìn chung, tốn nhận dạng giọng nói Tiếng Việt tốn khó để giải tốn này, trước tiên ta cần phải giải nhiều toán phức tạp khác Ví dụ giọng nói miền Bắc, miền Trung miền Nam tương đối khác nhau, để hỗ trợ cho tốn nhận dạng giọng nói Tiếng Việt, trước tiên ta cần phải nhận dạng phương ngữ giọng nói[8]; hay quan trọng vấn đề nhận dạng giọng nói mà tốn cần phải giải tách âm câu nói Tiếng Việt thành âm từ riêng biệt [9] nhận dạng điệu tiếng nói Tiếng Việt [10] Về phương pháp nhận dạng giọng nói, có nhiều phương pháp tính tốn thơng minh áp dụng, vài nghiên cứu gần Ứng dụng mơ hình Markov ẩn để nhận dạng tiếng nói chip FPGA [11]; Mơ hình nhận dạng giọng nói Tiếng Việt điều khiển theo góc độ từ riêng biệt [12] đề xuất mơ hình nhận dạng giọng nói Tiếng Việt dựa thuật tốn quy hoạch động mơ hình Markov ẩn; Nhận dạng tiếng nói mạng Nơron nhân tạo [13] cho ta kết nhận dạng xác với tập từ hữu hạn Cũng khơng nằm ngồi xu hướng trên, báo trình bày cách tiếp cận nhận dạng giọng nói Tiếng Việt cơng cụ Logic mờ Dữ liệu sử dụng báo tín hiệu tiếng nói đưa vào hệ thống cách rời rạc nhằm tăng độ xác mẫu âm cần xử lý nội dung phổ tín hiệu tiếng nói mà ta nhận thông qua phép biến đổi Fourier nhanh [14] Nội dung báo chia thành mục Trong mục giới thiệu phương pháp lấy phổ tín hiệu tiếng nói để phục vụ cho q trình học trình nhận dạng; mục giới ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(82).2014 thiệu Logic mờ; mục trình bày tổng quan phương pháp nhận dạng tiếng nói; mục trình bày chi tiết phương pháp học nhận dạng mẫu Logic mờ; mục đưa số kết thử nghiệm phương pháp đề xuất cuối mục kết luận Phổ tín hiệu âm Để giải tốn nhận dạng giọng nói, bước cần phải xử lý số hóa tín hiệu âm thanh, tức ta cần phải chuyển đổi tín hiệu tương tự âm sang tín hiệu số Trong trình lấy mẫu, phần cứng quan tâm chủ yếu đến thiết bị ngoại vi chuyên dụng gọi thiết bị chuyển đổi tín hiệu tương tự sang tín hiệu số (Analog to Digital converter – viết tắt ADC) Thiết bị chịu trách nhiệm lấy tín hiệu tương tự âm chuyển đổi thành số rời rạc để máy tính dễ dàng xử lý Nhằm phục vụ trình nhận dạng, ta cần trích rút thơng tin cần thiết Đối với phương pháp nhận dạng báo này, ta sử dụng phương pháp biến đổi Fourier nhanh (The Fast Fourier Transform - FFT) để trích rút thơng tin nội dung phổ tín hiệu âm Điều đồng nghĩa với việc ta lấy dãy cường độ tần số âm khác sau sử dụng phép biến đổi Fourier nhanh 65 Cơ sở lý thuyết Logic mờ 3.1 Định nghĩa tập mờ Tập mờ A xác định không gian kinh điển X tập mà phần tử cặp (x, µA(x)) x  X µA(x) ánh xạ: µA : X -> [0, 1] Ánh xạ µA gọi hàm liên thuộc tập mờ A 3.2 Một số khái niệm tập mờ 3.2.1 Định nghĩa Độ cao tập mờ A không gian X giá trị: ℎ = 𝑠𝑢𝑝 µ𝐴 (𝑥) 𝑥𝑋 Ký hiệu 𝑠𝑢𝑝 µ𝐴 (𝑥) giá trị nhỏ tất 𝑥𝑋 giá trị chặn hàm (x) Một tập mờ với phần tử có độ phụ thuộc gọi tập mờ tắc tức h = 1, ngược lại tập mờ A với h < gọi tập mờ khơng tắc 3.2.2 Định nghĩa 2Miền xác định tập mờ A không gian X ký hiệu S tập X thỏa mãn: S = Supp µA(x) = { x  X | µA(x) > } Ký hiệu Supp rõ tập X với phần tử x mà hàm A(x) có giá trị dương 3.2.3 Định nghĩa Miền tin cậy tập mờ A không gian X ký hiệu T tập X thỏa mãn: T = { x  X | µA(x) = } 3.2.4 Định nghĩa Miền biên tập mờ A không gian X ký hiệu U tập X thỏa mãn: U = { x  X | A1B(x) A2B(x) Một số công thức định nghĩa hàm liên thuộc AB(x) cho hợp hai tập mờ: i AB(x) = Max{A(x), B(x)} ii µ𝐴∪𝐵 (𝑥) = 𝑀𝑎𝑥{ µ𝐴 (𝑥), µ𝐵 (𝑥)} 𝑀𝑖𝑛{ µ𝐴 (𝑥), µ𝐵 (𝑥)} = { 𝑀𝑖𝑛{ µ𝐴 (𝑥), µ𝐵 (𝑥)} 𝑀𝑖𝑛{ µ𝐴 (𝑥), µ𝐵 (𝑥)} ≠ iii Phép hợp theo Lukasiewicz AB(x) = Min{1, A(x) + B(x)} iv Tổng Einstein µ𝐴  𝐵 (𝑥) = µ𝐴 (𝑥) + µ𝐵 (𝑥) + µ𝐴 (𝑥)µ𝐵 (𝑥) v Tổng trực tiếp AB(x) = A(x) + B(x) - A(x) B(x) 3.3.2 Phép giao hai tập mờ Định nghĩa: Giao hai tập mờ A B tập mờ A  B xác định khơng gian X có hàm liên thuộc AB(x) thỏa mãn tiên đề sau: a Chỉ phụ thuộc vào A(x) B(x) b Nếu B(x) = với x AB(x) = A(x) c Có tính giao hốn AB(x) = BA(x) d Có tính kết hợp (AB)C(x) = A(BC)(x) e Có tính khơng giảm (đồng biến) Nếu A1 A2 A1 B  A2 B: µA1(x) µA2(x) =>A1B(x) A2B(x) Một số công thức định nghĩa hàm liên thuộc AB(x) cho giao hai tập mờ: i AB(x) = Min{A(x), B(x)} ii µ𝐴𝐵 (𝑥) = 𝑀𝑖𝑛{ µ𝐴 (𝑥), µ𝐵 (𝑥)} 𝑀𝑎𝑥{ µ𝐴 (𝑥), µ𝐵 (𝑥)} = { 𝑀𝑎𝑥𝑠{ µ𝐴 (𝑥), µ𝐵 (𝑥)} ≠ iii AB(x) = Max{0, A(x) + B(x) - 1} iv µ𝐴  𝐵 (𝑥) = µ𝐴 (𝑥)µ𝐵 (𝑥) 2+ µ𝐴 (𝑥)µ𝐵 (𝑥)−(µ𝐴 (𝑥) + µ𝐵 (𝑥)) v AB(x) = A(x)B(x) 3.3.3 Phép bù tập mờ Định nghĩa: Tập bù tập mờ A X tập mờ (𝐴̅, µ𝐴̅ ) xác định khơng gian X với hàm liên thuộc (A) : [0, 1] -> [0, 1] thỏa mãn điều kiện sau: a (1) = b (0) = c AB =>(A) (B) Nếu hàm biến (A) thỏa mãn d Liên tục e A(A) >(B) phép bù gọi phép bù mờ chặt Một phép bù mờ chặt gọi phép bù mờ mạnh nếu: f ((A)) = A tức 𝐴̿ = 𝐴 Hàm liên thuộc (A) phép bù mờ mạnh gọi hàm phủ định mạnh Một số công thức định nghĩa hàm liên thuộc cho phép lấy phần bù tập mờ: i µ𝐴̅ (𝑥) = − µ𝐴 (𝑥) ii Hàm bù ngưỡng λ µ𝜆 (𝑡) = { 𝑡  𝜆 𝑣ớ𝑖 𝜆  [0, 1] 𝑡 > 𝜆 iii Hàm bù Cosin + cos(𝜋𝑡) µ(𝑡) = iv Hàm bù Sugeno 1−𝑡 µ𝜆 (𝑡) = với 𝜆  [−1, ∞] + 𝜆𝑡 3.3.4 Phép hiệu đối xứng Mở rộng công thức cho phép hiệu đối xứng tập kinh điển: 𝐴∇B = (A ∪ B)(A ∩ B) = (A ∩ 𝐵) ∪ (𝐴 ∩ B) ta xây dựng phép hiệu đối xứng cho tập mờ Ngồi việc áp dụng hàm liên thuộc cho phép toán tập hợp, ta xây dựng hàm liên thuộc cho phép hiệu đối xứng hai tập mờ phụ thuộc vào việc lựa chọn công thức cho phép hợp phép giao tập mờ Tổng quan phương pháp nhận dạng Một hệ thống nhận dạng nhìn chung phải trải qua ba bước bản: Bước học, bước lưu trữ bước nhận dạng 4.1 Bước học Hay gọi bước huấn luyện Ở bước này, với từ âm cần học, hệ thống cung cấp tập hợp mẫu liệu âm chuẩn từ âm Ta xử lý mẫu với theo quy tắc xác định để nhận mẫu liệu âm “mờ” đại diện cho từ cần huấn luyện Tập hợp nhiều mẫu liệu âm “mờ” tạo nên sở liệu từ vựng hệ thống 4.2 Bước lưu trữ Tập mẫu liệu âm “mờ” lưu giữ lại để sử dụng cho trình nhận dạng Việc lưu trữ sử dụng hệ quản trị sở liệu hay file nhị phân có cấu trúc hệ thống tự định nghĩa 4.3 Bước nhận dạng Đây bước định xem mẫu đưa vào hệ thống giống với từ hay âm vào sở liệu từ vựng hệ thống ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(82).2014 67 Bước (bước tiền xử lý mẫu): Như biết, với mẫu âm hệ thống nhận được, ta coi mẫu véctơ A = (a1, a2, … , an) với số thực Mục đích bước tiền xử lý mẫu đưa giá trị nằm mẫu khoảng [0,1] Để giải vấn đề này, ta lấy chia cho số m (số m đưa việc nghiên cứu thực nghiệm cường độ tần số âm mà ta lấy thông qua phép biến đổi Fourier nhanh, hệ thống tác giả chọn m = 800 Bản chất việc 𝑎 ta cần phải chọn số m cho khơng có q nhiều 𝑖  1) Nếu sau chia ta nhận Hình Tổng quan phương pháp nhận dạng Phương pháp nhận dạng dựa Logic mờ 5.1 Bước xử lý học Giả sử hệ thống cung cấp tập hợp mẫu liệu âm chuẩn từ âm Các bước từ bốn bước bắt buộc phải xử lý mẫu liệu âm đưa vào hệ thống 𝑎𝑖 𝑚 > ta coi 𝑎𝑖 𝑚 𝑚 = Sau bước tiền xử lý mẫu, ta nhận véctơ A* có giá trị sau: 𝑎1 𝑎2 𝑎𝑛 𝐴∗ = ( , , … , ) 𝑚 𝑚 𝑚 Bước hai: Chia mẫu A* thành T khung liệu Số T ta quy định (cần xác định số T không lớn không nhỏ) Chú ý: Tất mẫu đưa vào phải chia thành T khung liệu Bước ba: Tính véctơ đặc trưng AĐT Số phần tử véctơ đặc trưng T (bằng với số khung liệu Bước hai) Giá trị phần tử véctơ đặc trưng AĐT trung bình cộng phần tử nằm khung Ti véctơ A* Sau tính tốn ta có: 𝐴Đ𝑇 = (𝑎1Đ𝑇 , 𝑎2Đ𝑇 , … , 𝑎Đ𝑇 𝑇 ) Bước bốn: Khử nhiễu cho véctơ đặc trưng công thức sau: 𝐴𝐾𝑁 = 2𝐴2Đ𝑇 𝑛ế𝑢 ≤ 𝐴Đ𝑇 < 0.5 { 𝐴𝐾𝑁 = − (1 − 𝐴Đ𝑇 )2 𝑛ế𝑢 0.5 ≤ 𝐴Đ𝑇 ≤ Quá trình khử nhiễu mục đích để giá trị nằm khoảng [0, 0.5) dần giá trị nằm khoảng [0.5, 1] dần đến Q trình lặp lặp lại nhiều lần Ở hệ thống tác giả chọn khử nhiễu lần Kết thu sau khử nhiễu, ta thu véctơ khử nhiễu có số phần tử số phần tử véctơ đặc trưng giá trị phần tử véctơ khử nhiễu tính cơng thức Sau tính tốn ta có: 𝐴𝐾𝑁 = (𝑎1𝐾𝑁 , 𝑎2𝐾𝑁 , … , 𝑎𝐾𝑁 𝑇 ) Chú ý: • Với mẫu âm ta phải xử lý qua tất bốn bước để nhận véctơ khử nhiễu • Sau xây dựng xong tồn véctơ khử nhiễu mẫu âm chuẩn từ âm đưa vào, ta xây dựng “dữ liệu mờ” cho từ âm thơng qua tồn véctơ khử nhiễu Hình Sơ đồ tổng quan q trình xử lý học • Q trình xây dựng “dữ liệu mờ” Bước năm trở Bước năm: Ta xây dựng véctơ liệu mờ từ âm dựa véctơ đặc trưng khử nhiễu (véctơ AKN) Véctơ liệu mờ ký hiệu 𝐴̃ (A ngã) 𝐴̃ véctơ liệu mờ từ âm Việc xây dựng 𝐴̃ tương đương với việc xây dựng tập Trần Đức Minh, Nguyễn Thiện Luận 68 mờ F với phần tử F cặp (𝑥, µ𝐹(𝑥) ).Ở đây, x xác định số khung chia T Ta ký hiệu x1, x2, xT số µ𝐹 hàm liên thuộc tập mờ F µ𝐹(𝑥𝑖 ) tính trung bình cộng giá trị khung chia𝑇𝑥𝑖 véctơ khử nhiễu Sau tính tốn ta có: 𝐴̃ = (𝑎 ̃, ̃, ̃) 𝑎 …,𝑎 𝑇 Bước sáu: Khử nhiễu véctơ liệu mờ 𝐴̃ thông qua công thức gần giống Bước 4: µ′ = 2µ2 ≤ µ < 0.5 { ′ µ = − (1 − µ)2 0.5 ≤ µ ≤ Việc khử nhiễu lặp lặp lại nhiều lần Về ý nghĩa điều tương tự Bước 5.2 Bước lưu trữ Bước lưu giữ lại véctơ 𝐴̃ sau khử nhiễu Đây “dữ liệu mờ” từ âm sau học Chú ý: Mỗi từ âmđược huấn luyện có 01 véctơ 𝐴̃ 𝐾𝑁 làm đại diện cho từ âm Tức là, tương ứng với n từ âm cần nhận dạng, ta có nvéctơ𝐴̃ 𝐾𝑁 lưu trữ để phục vụ trình nhận dạng 5.3 Bước nhận dạng Đầu vào bước nhận dạng mẫu âm Nhiệm vụ của bước tìm tập mẫu liệu âm “mờ” lưu trữ (cơ sở liệu từ vựng hệ thống), mẫu giống với mẫu âm đưa vào ta kết luận từ âm đại diện cho mẫu từ âm cần nhận dạng Bốn bước xử lý mẫu âm cần nhận dạng giống hệt với bốn bước xử lý trình học Ta cần ý giá trị m Bước giá trị T Bước ba trình nhận dạng phải với giá trị m Bước giá trị T Bước ba trình học Bước năm: Trước tiên, ta lấy toàn liệu học để đem phục vụ trình xử lý nhận dạng Dữ liệu véctơ 𝐴̃ 𝐾𝑁 đại diện cho từ âm huấn luyện trình học Xây dựng véctơ hiệu đối xứng véctơ 𝐴̃ 𝐾𝑁 với véctơ đặc trưng mẫu cần nhận dạng sau khử nhiễu Cụ thể sau: Giả sử véctơ A đại diện cho ̃ véctơ 𝐴 𝐾𝑁𝑖 đó, véctơ đặc trưng B sau khử nhiễu đại diện cho mẫu cần nhận dạng Ta mở rộng công thức cho phép hiệu đối xứng tập kinh điển: 𝐴∇B = (A ∪ B)(A ∩ B) = (A ∩ 𝐵) ∪ (𝐴 ∩ B) để xây dựng phép hiệu đối xứng cho tập mờ Trong phép tính hợp ta chọn cơng thức định nghĩa hàm liên thuộc AB(x) cho hợp hai tập mờ mục 3.3.1; phép tính giao ta chọn công thức định nghĩa hàm liên thuộc AB(x) cho giao hai tập mờ mục 3.3.2 Ví dụ 1: Ta áp dụng cơng thức (i) phép tính hợp cơng thức (i) phép tính giao để tính véctơ hiệu đối xứng µ𝐴  𝐵 (𝑥) = 𝑀𝑎𝑥 (𝑀𝑖𝑛(µ𝐴 (𝑥), µ𝐵̅ (𝑥)), 𝑀𝑖𝑛(µ𝐴̅ (𝑥), µ𝐵 (𝑥))) = 𝑀𝑎𝑥 (𝑀𝑖𝑛(µ𝐴 (𝑥), − µ𝐵 (𝑥)), 𝑀𝑖𝑛(1 − µ𝐴 (𝑥), µ𝐵 (𝑥))) 𝑀𝑎𝑥 {µ𝐴 (𝑥), µ𝐵 (𝑥)} 𝑛ế𝑢 µ𝐴 (𝑥) + µ𝐵 (𝑥) ={ 𝑀𝑎𝑥 {1 − µ𝐴 (𝑥), − µ𝐵 (𝑥)} 𝑛ế𝑢 µ𝐴 (𝑥) + µ𝐵 (𝑥) > Ví dụ 2: Ta áp dụng cơng thức (iii) phép tính hợp cơng thức (i) phép tính giao để tính véctơ hiệu đối xứng µ𝐴  𝐵 (𝑥) = 𝑀𝑖𝑛(1, µ𝐴𝐵̅ (𝑥) + µ𝐴̅ 𝐵 (𝑥)) = 𝑀𝑖𝑛 (1, 𝑀𝑖𝑛(µ𝐴 (𝑥), µ𝐵̅ (𝑥)) + 𝑀𝑖𝑛(µ𝐴̅ (𝑥), µ𝐵 (𝑥))) = 𝑀𝑖𝑛 (1, 𝑀𝑖𝑛(µ𝐴 (𝑥), − µ𝐵 (𝑥)) + 𝑀𝑖𝑛(1 − µ𝐴 (𝑥), µ𝐵 (𝑥))) ={ 𝑀𝑖𝑛 {1, µ𝐴 (𝑥) + µ𝐵 (𝑥)} 𝑛ế𝑢 µ𝐴 (𝑥) + µ𝐵 (𝑥) − (µ𝐴 (𝑥) + µ𝐵 (𝑥)) 𝑛ế𝑢 µ𝐴 (𝑥) + µ𝐵 (𝑥) > Sau tính theo cơng thức hiệu đối xứng n véctơ 𝐴̃ 𝐾𝑁 với véctơ đặc trưng khử nhiễu mẫu cần nhận dạng, ta nhận nvéctơ hiệu đối xứng tương ứng Sau tính tốn véctơ hiệu đối xứng có dạng: ) 𝐴𝐻Đ𝑋 = (𝑎1𝐻Đ𝑋 , 𝑎2𝐻Đ𝑋 , … , 𝑎𝐻Đ𝑋 𝑇 Bước sáu: Tính độ cao  dựa véctơ hiệu đối xứng Độ cao  tính theo cách sau: •  = 𝑀𝑖𝑛(𝑎𝑖𝐻Đ𝑋 ) ∶ tức chọn giá trị  với giá trị phần tử nhỏ véctơ hiệu đối xứng ∑ 𝑎𝐻Đ𝑋 Hình Sơ đồ tổng quan q trình nhận dạng •  = 𝑖 ∶tức chọn giá trị trung bình cộng 𝑇 phần tử véctơ hiệu đối xứng ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 9(82).2014 Như véctơ hiệu đối xứng có độ cao i xác định Bước bảy: Xác định từ âm giống với mẫu âm đưa vào nhận dạng cách: Tính min = Min(i) Chọn từ âm có giá trị  = min Đây từ âm giống với mẫu âm đưa vào Thử nghiệm đánh giá 6.1 Thử nghiệm Chương trình thực nghiệm nhận dạng giọng nói Tiếng Việt sử dụng công cụ Logic mờ xây dựng chạy thử nghiệm máy tính cá nhân Các mẫu âm học nhận dạng truyền trực tiếp từ micro vào máy tính Chương trình thực nghiệm gồm module chính: Module học, module lưu trữ module nhận dạng Module học: Giải bước xử lý học Người sử dụng đọc lặp lặp lại liên tiếp rời rạc từ Tiếng Việt với số lần tùy ý vào micro Kết thúc trình này, hệ thống có liệu mờ từ mà người sử dụng vừa đọc Để cho hệ thống học tiếp từ khác người sử dụng lại lặp lại trình Module lưu trữ: Dữ liệu mờ tất từ hay âm sau học hệ thống tự động lưu trữ file nhị phân nhớ ngồi máy tính Module nhận dạng: Giải bước nhận dạng Người sử dụng đọc từ muốn nhận dạng vào micro Hệ thống tự động tính tốn, so sánh đánh giá từ muốn nhận dạng với tập liệu từ mờ hóa để đưa đối tượng giống với từ người sử dụng muốn nhận dạng lên hình 6.2 Đánh giá Tác giả xây dựng tập mẫu: Tập mẫu thứ gồm từ có phổ âm tương đối khác nhau; Tập mẫu thứ hai gồm 10 từ có phổ âm tương đối khác nhau; Tập mẫu thứ gồm từ có phổ âm gần giống • Ở bước học: từ tập mẫu đọc lặp lặp lại 10 lần • Ở bước nhận dạng: từ nói vào micro 10 lần để xác định tần suất nhận dạng xác 6.2.1 Tập mẫu Tác giả chọn từ: “Chữ”, “Số”, “Một”, “Hai”, “Năm” Đặc điểm từ có phổ âm tương đối khác Kết nhận dạng sau: Bảng Kết nhận dạng Tập mẫu Từ Chữ Số Một Hai Năm Số lượng mẫu huấn luyện 10 10 10 10 10 Số lượng mẫu nhận dạng 10 10 10 10 10 Kết nhận dạng 100% 100% 100% 100% 100% 6.2.2 Tập mẫu Tác giả chọn 10 từ: “Chữ”, “Số”, “Một”, “Hai”, “Năm”, “Sáu”, “Bảy”, “Tám”, “Chín”, “Mười” Đặc điểm 10 từ có phổ âm tương đối khác 69 Kết nhận dạng sau: Bảng Kết nhận dạng Tập mẫu Từ Chữ Số Một Hai Năm Sáu Bảy Tám Chín Mười Số lượng mẫu huấn luyện 10 10 10 10 10 10 10 10 10 10 Số lượng mẫu nhận dạng 10 10 10 10 10 10 10 10 10 10 Kết nhận dạng 90% 100% 90% 90% 80% 90% 100% 80% 100% 90% 6.2.3 Tập mẫu Tác giả chọn từ: “Một”, “Bốn”, “Cột”, “Trốn” Đặc điểm từ cặp từ “Một”, ”Bốn” “Cột”, “Trốn” có phổ âm tương đối giống Kết nhận dạng sau: Bảng Kết nhận dạng Tập mẫu Từ Một Bốn Cột Trốn Số lượng mẫu huấn luyện 10 10 10 10 Số lượng mẫu nhận dạng 10 10 10 10 Kết nhận dạng 50% 50% 40% 30% Kết luận đề xuất Như với tập từ Tiếng Việt hữu hạn có phổ tín hiệu âm tương đối khác nhau, hệ thống có khả nhận dạng lên đến 90% Với tập từ có phổ tín hiệu âm gần giống nhau, khả nhận dạng có Do trình huấn luyện ta phải đọc đọc lại từ vựng nhiều lần cần có phương pháp khử nhiễu, làm rõ tín hiệu phổ âm tốt Bài toán nhận dạng tiếng nói tốn nghiên cứu lớn khó lại có nhiều ứng dụng thực tiễn Phương pháp đề xuất báo ứng dụng Logic mờ toán nhận dạng giọng nói Tiếng Việt Tuy cịn nhiều hạn chế đáp ứng phần mục tiêu ban đầu đưa Ngồi việc tìm hiểu sở lý thuyết cho tốn nhận dạng giọng nói Tiếng Việt, tác giả xây dựng chương trình thực nghiệm cụ thể nhằm chứng minh tính đắn mơ hình lý thuyết thực tiễn Điều cho thấy việc ứng dụng Logic mờ toán nhận dạng giọng nói Tiếng Việt hướng mở xác Vì lý đó, ta đề xuất thêm nghiên cứu mức sâu vấn đề Do nắm yếu điểm phương pháp nhận dạng giọng nói nêu phổ tín hiệu âm mẫu tương đối giống dẫn đến việc nhận dạng có độ xác khơng cao Tác giả đề xuất nghiên cứu thêm số phương pháp lọc nhiễu làm rõ tín hiệu phổ âm thanh, nhằm phục vụ trình nhận dạng tốt Đây vấn đề cần phải nghiên cứu lĩnh vực nhận dạng tiếng nói Trần Đức Minh, Nguyễn Thiện Luận 70 TÀI LIỆU THAM KHẢO [1] Trần Khải Thiện, Văn Thế Quốc, Nguyễn Phạm Bảo Nguyên, Nguyễn Vũ Kiều Anh, Vũ Thanh Hiền, Xây dựng công cụ quản lý chi tiêu cá nhân điều khiển tiếng nói, Khoa CNTT, Đại học Huflit, Hội nghị khoa học Quốc gia lần thứ VII, 19-20 tháng 6/2014 [2] Trần Khải Thiện, Văn Thế Quốc, Nguyễn Phạm Bảo Nguyên, Nguyễn Vũ Kiều Anh, Vũ Thanh Hiền, Hệ thống tra cứu thông tin tuyển sinh Đại học HUFLIT tiếng nói, Khoa CNTT, Đại học Huflit, Hội nghị khoa học Quốc gia lần thứ VII, 19-20 tháng 6/2014 [3] Nguyễn Văn Giáp, Trần Việt Hồng, Kỹ thuật nhận dạng tiếng nói ứng dụng điều khiển, Đại học Bách khoa TP Hồ Chí Minh [4] Lê Tiến Thường, Hồng Đình Chiến, Vietnamese Speech Recognition Applied to Robot Communications, Au Journal of Technology, Volume No January 2004 [5] Chủ nhiệm: Hoàng Văn Kiếm, Tổng hợp nhận dạng tiếng nói ứng dụng vào nhập đọc liệu văn kiểm soát bảo vệ điều khiển hệ thống thơng tin máy tính, hỗ trợ xây dựng sản phẩm multi media dạy học sở Tiếng Việt, Đại học Khoa học tự nhiên, Đại học quốc gia TP Hồ Chí Minh, Giải thưởng Vifotech 1999 [6] Nghiên cứu mơ hình xử lý tín hiệu tiếng nói phục vụ cho việc nhận dạng Tiếng Việt nói liên tục, mã số 203806, Trường Đại học Công nghệ, Đai học Quốc Gia Hà Nội, 2006-2008 [7] Chủ nhiệm: Phạm Ngọc Hưng, Nghiên cứu kỹ thuật tổng hợp giọng nói ứng dụng đọc văn Tiếng Việt, Đại học Sư phạm kỹ thuật Hưng Yên, 2008 [8] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng, Nhận dạng phương ngữ Tiếng Việt sử dụng mơ hình Gauss hỗn hợp, Đại học sư phạm kỹ thuật Hưng Yên, Viện CNTT & TT Đại học Bách Khoa Hà Nội, 2014 [9] Vũ Đức Lung, Nguyễn Thái Ân, Đào Anh Nguyên, Tổng hợp phương pháp tách âm từ Tiếng Việt đề xuất phương pháp cải tiến, Đại học Công nghệ Thông tin, Đại học Quốc Gia HCM, Hội nghị khoa học Quốc gia lần thứ VII, 19-20 tháng 6/2014 [10] Lê Tiến Thường, Nhận dạng điệu tiếng nói Tiếng Việt mạng Nơron phân tầng, Tạp chí tin học điều khiển học, 2005 [11] Nguyễn Cao Q, Ứng dụng mơ hình Markov ẩn để nhận dạng tiếng nói FPGA, Tạp chí khoa học, Đại học Cần Thơ, 2013 [12] Đào Anh Ngun, Vũ Đức Lung, Nguyễn Thái Ân, Mơ hình nhận dạng giọng nói Tiếng Việt điều khiển theo góc độ từ riêng biệt, Đại học Công nghệ Thông tin, Đại học Quốc Gia HCM, Hội nghị khoa học Quốc gia lần thứ VII, 19-20 tháng 6/2014.s [13] Phùng Chí Dũng, Nhận dạng tiếng nói mạng Nơron nhân tạo, Tạp chí bưu viễn thơng, 2003 [14] PGS.TS Nguyễn Hữu Phương, Xử lý tín hiệu số, Nhà xuất Giao thông vận tải, 2000 (BBT nhận bài: 28/07/2014, phản biện xong: 07/08/2014) ... hiệu phổ âm tốt Bài tốn nhận dạng tiếng nói tốn nghiên cứu lớn khó lại có nhiều ứng dụng thực tiễn Phương pháp đề xuất báo ứng dụng Logic mờ toán nhận dạng giọng nói Tiếng Việt Tuy cịn nhiều hạn... Hình Nội dung phổ tín hiệu âm Bản chất tốn nhận dạng giọng nói Tiếng Việt báo nhận dạng phổ tín hiệu âm hay nhận dạng mẫu liệu âm

Ngày đăng: 27/02/2023, 07:47