Nhận dạng tiếng nói chữ số Việt áp dụng trong hệ thống nhập điểm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	566,54 KB

Nội dung

Bài báo trình bày bài toán tìm đặc trưng, huấn luyện và nhận dạng tiếng nói Việt, ứng dụng trong hệ thống nhập điểm. Các kết quả được kiểm nghiệm bằng các tiếng nói số rời rạc và tổ hợp ngắn, đồng thời tích hợp trong chương trình nhập điểm cho hệ thống hiện hành.

TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 NHẬN DẠNG TIẾNG NÓI CHỮ SỐ VIỆT ÁP DỤNG TRONG HỆ THỐNG NHẬP ĐIỂM ThS Thái Duy Q1 TĨM TẮT Nhận dạng tiếng nói người thu hút quan tâm nghiên cứu nhiều nhà khoa học mà công nghệ tự động hóa ngày có nhiều ứng dụng thực tiễn sống Nghiên cứu nhận dạng tiếng nói Việt quan tâm nghiên cứu nhiều năm gần đây, kết chưa thỏa mãn toán đặt từ thực tế sống tính chất phức tạp ngữ âm tiếng Việt Bài báo trình bày tốn tìm đặc trưng, huấn luyện nhận dạng tiếng nói Việt, ứng dụng hệ thống nhập điểm Các kết kiểm nghiệm tiếng nói số rời rạc tổ hợp ngắn, đồng thời tích hợp chương trình nhập điểm cho hệ thống hành Từ khóa: Nhận dạng tiếng nói Việt, nhận dạng chữ số, speech recognition, HMM, MFCC Đặt vấn đề 1.1 Giới thiệu Trong giao tiếp người với người, tiếng nói phương pháp trao đổi thơng tin tự nhiên hiệu Mục tiêu kỹ thuật nhận dạng tiếng nói theo nghĩa rộng tạo máy có khả nhận biết thơng tin tiếng nói hành động theo tiếng nói Nhận dạng tiếng nói phần trình tìm kiếm thơng tin để máy “nghe”, “hiểu” “hành động” theo thơng tin đồng thời “nói lại” để hồn tất việc trao đổi thơng tin Cho đến nay, vấn đề giao tiếp người máy tính cải thiện nhiều chủ yếu cịn thủ cơng thơng qua thiết bị nhập, xuất Giao tiếp với thiết bị máy tiếng nói phương thức giao tiếp văn minh tự nhiên Dấu ấn giao tiếp người - máy mà thay vào cảm nhận giao tiếp người với người, hồn thiện phương thức giao tiếp tiện lợi hiệu công việc [4] Mặc dù nhận dạng ngôn ngữ tiếng Anh nghiên cứu hồn thiện có khác biệt ngữ âm, ngữ nghĩa với tiếng Việt nên khó áp dụng chương trình nhận dạng khác hành để nhận dạng tiếng Việt Một hệ thống nhận dạng tiếng nói nước ta phải xây dựng tảng tiếng nói tiếng Việt [5] 1.2 Tổng quan tình hình nghiên cứu Các kỹ thuật nhận dạng tiếng nói giới có từ thập niên 60 đạt nhiều thành tựu đáng kể [1] Các hệ thống nhận dạng giọng nói tiếng Anh áp dụng nhiều lĩnh Trường Đại học Đà Lạt 144 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 vực xử lý văn tiếng nói, tự động hóa phân xưởng, hệ thống an ninh, dịch thuật, hệ thống trả lời tự động, robot thơng minh,… Tại Việt Nam, cịn tùy thuộc vào điều kiện nghiên cứu phức tạp ngữ âm tiếng Việt nên nghiên cứu hệ thống nhận dạng giọng nói tiếng Việt cịn nhiều hạn chế đến chưa có hệ thống hồn chỉnh [4] Mặc dù vậy, có nhiều cơng trình nghiên cứu nhà khoa học, kể đến PGS TS Lương Chi Mai (Viện Công nghệ Thông tin Hà Nội), PGS.TS Vũ Hải Quân (Đại học Khoa học Tự nhiên TP Hồ Chí Minh)… mang lại nhiều thành công lý thuyết ứng dụng Trong sản phẩm bật, có thành tựu sản phẩm VSpeech nhóm BK02 [9], tương tác giọng nói với chữ viết để điều kiển số chức máy tính Một số sản phẩm cơng ty tích hợp chức tìm đường đi, xăng, ATM,… hệ thống di động Mặc dù có nhiều nghiên cứu sản phẩm ứng dụng thực tế sản phẩm nhận dạng tiếng nói chưa có sản phẩm đáp ứng cho công việc nhập điểm, công việc thường xuyên nhà trường ISSN 2354-1482 1.3 Mục tiêu đề tài Đề tài nghiên cứu thử nghiệm hướng nhận dạng tiếng nói Việt dựa việc trích đặc trưng tiếng nói phương pháp MFCC (Mel Frequency Ceptrums Coefficients), nhận dạng mô hình HMM (Hidden Markov Models) Đồng thời chương trình nhận dạng tiếng nói Việt xây dựng với từ vựng nhỏ tiếng nói số, dùng hệ thống nhập điểm Chương trình xây dựng ngôn ngữ C# Net dựa vào số thư viện Các bước minh họa sử dụng số hàm ngôn ngữ Matlab Hệ thống nhận dạng tiếng nói Việt Về mặt tổng quát, hệ thống nhận dạng thường bao gồm hai phần huấn luyện (training) nhận dạng (recognition) thể hình Trong “Rút trích đặc trưng” q trình đưa đặc trưng thích hợp cho nhận dạng “Huấn luyện” trình hệ thống “học” “lưu trữ” mẫu chuẩn cung cấp, từ hình thành từ vựng hệ thống Và trình “nhận dạng” định xem mẫu đưa vào vào từ vựng huấn luyện 145 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 Hình 1: Tổng quan hệ thống nhận dạng Một hệ thống nhận dạng tiếng nói Tiếng nói sau thu từ micro theo quy tắc bước hệ lấy mẫu tín hiệu, mẫu tín nhận dạng tổng quát Tín hiệu thu vào hiệu thường biểu diễn dạng âm nói từ micro, đặc trưng sóng Hình mơ tả sóng âm số âm thường tiếng âm vị từ đến mười Đối với tín hiệu âm ngơn ngữ q trình huấn luyện thanh, mẫu lấy theo chu kỳ dựa tập tin âm thu vào thời gian, công thức lấy mẫu xác từ trước định công thức 1: Tiền xử lý X s (t )    x(t ) (t  nT ) (1) n   Hình 2: Mơ hình sóng âm số từ đến mười Tìn hiệu sau lấy xong thơng ồn, đâu tiếng nói khoảng lặng qua lọc tín hiệu Bộ lọc tín hai tiếng nói Một ví dụ hiệu bao gồm khử nhiễu, phương pháp dị tìm điểm cuối khơi phục tín hiệu biến dạng, dị mơ tả hình tìm điểm cuối để xác định đâu tiếng 146 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 Hình 3: Một ví dụ dị tìm điểm cuối sóng âm Hình 4: Các quy trình rút trích đặc trưng MFCC Rút trích đặc trưng Phần trích đặc trưng đưa Sau trình tiền xử lý có vector đặc trưng cho mơ hình cần nhận mẫu tiếng nói khử nhiễu dạng Có nhiều phương pháp trích đặc 147 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 trưng khác Wavelets, LPC, MFCC… Chúng chọn phương pháp trích đặc trưng MFCC (Thang tần số Mel) tốc độ tính tốn cao, độ tin cậy lớn sử dụng hiệu chương trình nhận dạng tiếng nói giới [4] Phương pháp rút trích đặc trưng MFCC mơ tả hình Trong mơ hình ta có bốn bước để rút trích đặc trưng như: làm rõ tín ISSN 2354-1482 hiệu, phân khung, lấy cửa sổ phân tích đặc trưng Chi tiết bước trình bày theo mục sau 4.1 Làm rõ tín hiệu Bước mục đích làm tăng tín hiệu rõ đặc trưng tín hiệu giúp nâng cao mức độ nhạy cảm bước sau [3] Bộ làm rõ tín hiệu có phương trình sai phân sau: ~ s  s (n)  as (n  1) (2) Hình Mơ hình bước sóng trước sau làm rõ tín hiệu 4.2 Phân khung ~ Trong bước này, s chia thành khung với M = N Nếu ta thành khung, khung gồm N ký hiệu khung thứ i xi(n) có tất mẫu, khoảng cách khung L khung tín hiệu tiếng nói thì: M mẫu Hình minh họa cách phân ~ xi (n)  s( M i  n) với n =0,1,…,N-1; i=0,1,…,L-1 (3) 148 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 Hình 6: Âm tiếng nói phân đoạn thành khung 4.3 Lấy cửa sổ Bước xử lý lấy cửa sổ tín hiệu ứng với khung để giảm thiểu gián đoạn tín hiệu đầu cuối khung Dãy tín hiệu lấy từ tín hiệu dài dài vơ hạn x(n) gọi cửa sổ tín hiệu Q trình quan sát tín hiệu x(n) đoạn x(N(n)) khoảng n0… (n0 + N – 1) tương đương với việc nhân x(n) với hàm cửa sổ w(n-n0) sau: xN (n)  x(n).w(n  n0 )    x( n) Trong nhận dạng tiếng nói, hàm cửa sổ thường hay dùng Hamming, có dạng công n0  n  n0  N 1 ( n n0 ) ( n  n0  N 1) (4) thức (5) Tín hiệu cửa sổ Hamming biểu diễn hình xN (n)  x(n).w(n  n0 )    0.54  0.46cos(2 n / N ) |n| N /2 |n|  N /2 (5) Hình 7: Mơ hình sóng cửa số Hamming 4.4 Trích chọn đặc trưng Bước cuối trích chọn đặc trưng MFCC bao gồm thực biến đổi Furier ngược dựa độ lớn logarit ngõ lọc 149 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 Hình 8: Các bước trích chọn đặc trưng MFCC Sau tín hiệu tiếng nói theo [4], chúng tơi định nghĩa trích đặc trưng từ đặc vector đặc trưng bao gồm 10 thành trưng ma trận hệ số thực Dựa phần sau: yt = [ft, ft-ft+1, et-emax, d, fmax, fmin, fmax-fst, fmin-fed, fmin-fst, fmax-fed] (6) đó: - ft tần số khung tín hiệu t - ft+1 tần số khung tín hiệu t+1 - et lượng khung tín hiệu t - emax lượng cực đại phần hữu (không phải nhiễu) - d số khung phần hữu - fmax tần số cực đại vùng hữu - fmin tần số cực tiểu vùng hữu - fst tần số khung vùng hữu - fed tần số khung cuối vùng hữu Do mơ hình HMM rời rạc ứng Sau thực xong phần rút dụng để nhận dạng nên vector trích đặc trưng, kết có sở đặc trưng phải ước lượng liệu vector đặc trưng tương ứng vector thành số codebook rời với từ Phần huấn luyện sử dụng rạc Phương pháp sử dụng để ước mơ hình Markov ẩn với liệu huấn lượng vector phương pháp K-means luyện vector đặc trưng có từ Huấn luyện cho mơ hình phần trước Ứng với từ cần nhận dạng sở liệu đặc trưng 150 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 từ lần đọc khác Sau ước mơ hình ngữ âm Bộ cơng cụ lượng thơng số mơ hình λ = (A, tiến hành nhận dạng tiếng nói dựa B, π) để xác suất P(O|λ) đạt cực đại, theo bước nêu tương ứng với từ λ xác định Bộ liệu dùng cho nhận dạng Để nhận dạng từ việc tính huấn luyện tập tin dạng wav, xác suất chuỗi quan sát từ ứng thu âm từ 100 người Do ứng cụng với λ huấn luyện chọn nhận dạng dựa chữ mẫu có xác suất lớn số nên xây dựng mơ hình từ vựng Thực nghiệm hệ thống nhập với chữ số như: không, một, hai, ba, điểm dựa vào tiếng nói bốn, năm, sáu, bảy, tám, chín, mười, Để thử nghiệm hệ thống nhận dạng, phẩy, lên, xuống sử dụng cơng cụ Sphinx Mơ hình ngơn ngữ sử dụng [7] Đây công cụ mã nguồn mở, bảng mã VIQR minh họa tích hợp chức huấn luyện bảng 1: nhận dạng hai mơ hình ngơn ngữ Bảng 1: Một số từ vựng, chữ số dùng huấn luyện Ý nghĩa Mơ hình từ vựng KHO^NG MO^T Khơng Một HAI Hai BA Ký tự cần nhận dạng Ý nghĩa Mơ hình từ vựng TA’M CHI’N Tám Chín Ký tự cần nhận dạng MU+O+`I Mười 10 Ba PHA^?Y Phẩy , BO^’N Bốn LE^N Lên Up NA(M Năm XUO^’NG Xuống SA’U Sáu VA(NG THI Vắng thi BA?Y Bảy Down VT Kết thử nghiệm thể nhận dạng (86%), có chữ số bị bảng Bảng cho thấy kết nhận dạng nhầm lẫn, trung bình kết nhận dạng: Có 12/15 chữ số nhận dạng 93.3% Bảng 2: Kết thực nghiệm Số Kết nhận dạng 100% 70% 100% 100% 100% 10 100% 50% Phẩy 100% 151 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 100% Lên 100% 100% Xuống 100% 80% 100% Vắng thi ISSN 2354-1482 100% Trung bình: 93.3% Bảng mơ tả kết nhầm lẫn cặp chữ số: Một - mười, ba - bảy, sáu - bốn Bảng 3: Mức độ nhầm lẫn ngữ âm số từ vựng Từ vựng Một Ba Từ bị nhận dạng nhầm Mười Bảy Tỉ lệ Sáu Bốn 20% Trong ứng dụng nhập điểm, chúng tơi xây dựng chương trình dựa số thư viện Sphinx [7], VSpeech.dll [9] System.speech [10] Dữ liệu đưa vào số từ đến yêu cầu phẩy, lên, xuống, vắng thi Để thuận tiện cho việc nhận dạng điểm lẻ, đưa vào 30% 50% số lẻ như: phẩy một, phẩy hai… Chương trình viết ngơn ngữ C# Net (hình 9), kết nhập điểm với độ xác 93.3% Do liệu huấn luyện cịn ít, nhận dạng, thiết lập thêm thêm gợi ý để nâng cao mức độ nhận dạng cho hệ thống nhập điểm Hình 9: Chương trình nhập điểm giọng nói Kết luận cho độ xác chấp nhận Mơ hình thử nghiệm nhận dạng (trên 90%) Nếu điều kiện cho tiếng nói chữ số tiếng Việt theo phép, nhóm tác giả tối ưu hóa hướng kết hợp MFCC HMM chương trình nhận dạng, đưa them cịn nhiều hạn chế đáp ứng nhiều liệu huấn luyện để đạt mục tiêu đề tài Chương trình kết cao tăng tốc độ thử nghiệm sử dụng để nhập xử lý hệ thống điểm lẻ với từ vựng nhỏ 152 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 04 - 2017 ISSN 2354-1482 TÀI LIỆU THAM KHẢO Thái Hùng Văn, Đỗ Xuân Đạt, Võ Văn Tuấn, (2003), Nghiên cứu đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Luận văn Đại học), Đại học Khoa học Tự nhiên TP Hồ Chí Minh Nguyễn Văn Giáp, Trần Việt Hùng (2006), Kỹ thuật nhận dạng tiếng nói ứng dụng điều khiển Nguyễn Hồng Quang (2004), Nhận dạng tiếng nói Việt, tìm hiểu ứng dụng, Trường Đại học Khoa học Tự nhiên http://bk02.sourceforge.net/vspeechsdk/vietnamese/ Phan Nguyễn Phục Quốc, Hà Thúc Phùng (2009), Hệ thống nhận dạng tiếng nói (Luận văn Đại học), Đại học Bách khoa TP Hồ Chí Minh CMUSphinx Wiki: http://cmusphinx.sourceforge.net/wiki/ http://msdn.microsoft.com Cao Xuân Hạo (1998), Tiếng Việt - vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, Nhà xuất Giáo dục Xuedong Huang, Alex Acero, Hsiao-wuen Hon (2001), Spoken language Processing, Carnegie Mellon University 10 Mikael Nilson, Marcus Ejnarson (2002), Speech recognition using Hidden Markov Model performance evaluation in noisy enviroment, ebook SPEECH RECOGNITION VIETNAMESE IN APPLYING TO INPUTTING SCORES ABSTRACT Speech recognition of the human voice has attracted the attention of many scientists while automation technology has been more and more applied to real life Researching Vietnamese speech recognitions has also been concerned in recent years, but so far the results have not yet satisfied the problems posed by real life complex because of the nature of phonological Vietnamese This paper presents the problem of finding features, training and applying Vietnamese speech recognition to inputting score The results are tested by the discrete and short voice digital while the application was built for the current system Keywords: Speech recognition, HMM, MFCC 153 ... số, dùng hệ thống nhập điểm Chương trình xây dựng ngôn ngữ C# Net dựa vào số thư viện Các bước minh họa sử dụng số hàm ngôn ngữ Matlab Hệ thống nhận dạng tiếng nói Việt Về mặt tổng quát, hệ thống. .. trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Luận văn Đại học), Đại học Khoa học Tự nhiên TP Hồ Chí Minh Nguyễn Văn Giáp, Trần Việt Hùng (2006), Kỹ thuật nhận dạng tiếng nói ứng dụng. .. thử nghiệm thể nhận dạng (86%), có chữ số bị bảng Bảng cho thấy kết nhận dạng nhầm lẫn, trung bình kết nhận dạng: Có 12/15 chữ số nhận dạng 93.3% Bảng 2: Kết thực nghiệm Số Kết nhận dạng 100% 70%

Ngày đăng: 14/05/2021, 17:23