Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo!
Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc, Trần Văn Hoàng Hoàng Trang Khoa Điện – Điện Tử Trường Đại Học Bách Khoa – ĐHQG TP Hồ Chí Minh Email: ducloc0506@gmail.com, tvhoang@hcmut.edu.vn, hoangtrang@hcmut.edu.vn Abstract — Trong báo này, mơ hình nhận dạng mẫu từ đơn tiếng Việt trình bày Tiếng nói trích đặc trưng giải thuật MFCC (Mel-Frequency Cepstral Coefficients) Giải thuật thời gian động DTW (Dynamic Time Warping) sử dụng để so sánh tiếng nói đầu vào với mẫu thu sẵn, từ chọn kết nhận dạng phù hợp với tiếng nói phát Hệ thống nhận dạng thực chạy board nhúng BeagleBone Black Texas Instruments sản xuất Kết nhận dạng cao phù hợp với lý thuyết dạng hệ thống thực nghiệm từ vựng từ 90.1% [9], 90.5% từ vựng gồm 10 từ [10] Trong báo chúng tôi, hệ thống nhận dạng tiếng nói sử dụng phương pháp nhận dạng DTW áp dụng với ngôn ngữ tiếng Việt với ưu điểm tốc độ nhận dạng nhanh, đơn giản, không yêu cầu nhớ lớn với độ xác cao (cao so với hệ thống thực ngôn ngữ tiếng anh [9-10]) phù hợp hệ thống điều khiển yêu cầu tốc độ đáp ứng nhanh tài nguyên phần cứng hạn chế Đặc biệt, việc huấn luyện mẫu cho từ yêu cầu lần đọc, làm cho tính linh động hệ thống cao Đồng thời, báo này, tiến hành thực nghiệm với người khác (không phải người huấn luyện) cho kết khả quan, chứng tỏ linh hoạt tiện dụng hệ thống áp dụng với ngôn ngữ tiếng Việt mà không cần phải huấn luyện với tất người dùng báo [11] Keywords — Nhận dạng từ đơn tiếng Việt, MFCC, DTW I GIỚI THIỆU Nhận dạng tiếng nói kỹ thuật có nhiều ứng dụng sống, việc điều khiển ưu điểm lớn tốc độ cao, tương tác cao trực quan với người Ở Việt Nam, nhận dạng tiếng nói nghiên cứu năm gần đạt nhiều thành [1-2] Bài báo trình bày mơ hình nhận dạng mẫu tiếng Việt đọc rời rạc với độ xác cao: sử dụng phương pháp trích đặc trưng đại MFCC kết hợp với phương pháp so sánh mẫu DTW đơn giản, không yêu cầu nhớ cao cho tốc độ nhận dạng nhanh Phần lại báo tổ chức sau: phần II, chúng tơi trình bày tổng quan hệ thống nhận dạng tiếng nói Quá trình bước thực hệ thống nhận dạng mô tả phần III Phần IV cung cấp kết đánh giá thực nghiệm phân tích kết đạt Cuối cùng, kết luận báo trình bày phần V Hệ thống nhận dạng tiếng nói thực năm gần Trong báo [3], phương pháp trích đăc trưng sử dụng phương pháp LPC (Linear Predictive Coding) Do đó, độ xác nhận dạng hệ thống không cao việc sử dụng phương pháp MFCC Trong báo [3-6], hệ thống nhận dạng thực dựa mơ hình Markov ẩn (Hidden Markov Model – HMM) Ưu điểm hệ thống nhận dạng sử dụng HMM cho độ xác nhận dạng cao, nhiên, kèm với phức tạp, khó khăn thực hệ thống tốc độ thực thi hệ thống chậm so với phương pháp DTW Trong báo [911], hệ thống nhận dạng thực dựa mơ hình DTW thực nghiệm ngôn ngữ tiếng Anh, độ xác nhận II TỔNG QUAN HỆ THỐNG NHẬN DẠNG TIẾNG NĨI A Mơ hình nhận dạng tiếng nói Sau tiếng nói thu từ microphone, trình phát điểm bắt đầu kết thúc từ diễn trước tiếng nói xử lý Giải thuật nhận dạng tiếng nói bao gồm phần Phần huấn luyện mẫu, phần q trình nhận dạng tiếng nói Sơ đồ khối mơ hình nhận dạng tiếng nói mơ tả Hình Nghiên cứu tài trợ Bộ Khoa Học Công Nghệ qua đề tài có mã số KC.01.23/11-15 ISBN: 978-604-67-0635-9 200 200 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hình Mơ hình trích đặc trưng MFCC Hình Mơ hình nhận dạng tiếng nói 1) Tiền nhấn tín hiệu B Phát điểm bắt đầu kết thúc Tiếng nói sau số hóa tiền nhấn (preemphasized) với lọc đáp ứng xung hữu hạn (finite impulse response – FIR) bậc pha tuyến tính thực thi đơn giản Việc sử dụng lọc pha tuyến tính quan trọng, pha của tín hiệu khơng bị thay đổi, có cường độ tín hiệu bị thay đổi, đặc điểm theo thời gian tín hiệu bảo tồn Do tiếng nói, thành tố thấp thường chứa đựng nhiều lượng hơn, xem xét mơ hình hóa so với thành tố cao Do đó, lọc pre-emphasis dùng để khuếch đại tín hiệu tần số cao Hàm truyền H(z) lọc cho bởi: Phát điểm bắt đầu kết thúc tiếng nói (tách tiếng nói khỏi khoảng lặng) thường dựa hàm lượng thời gian ngắn [7] Trong xử lý tiếng nói việc xác định bắt đầu xuất tín hiệu tiếng nói kết thúc q trình nói cần thiết quan trọng Nó tăng độ xác làm cho hệ thống tập trung vào việc phân tích so sánh xác mẫu tiếng nói, đồng thời hạn chế nhiễu môi trường khoảng lặng làm ảnh hưởng đến hệ thống [7-8] Mơ hình phát điểm bắt đầu kết thúc tín hiệu tiếng nói mơ tả Hình H ( z ) a * z 1 (2) Để tạo lọc thông thấp a > Thông thường, a chọn khoảng 0.9 đến Hình Mơ hình phát điểm bắt đầu kết thúc 2) Tách khung Hàm lượng thời gian ngắn tín hiệu tiếng nói tính cách chia tín hiệu tiếng nói thành khung, khung dài N mẫu Nếu hàm cửa sổ bắt đầu xét mẫu thứ m hàm lượng thời gian ngắn Em xác định sau: Em m N 1 [ x(n)] Bởi tín hiệu tiếng nói tín hiệu biến đổi chậm theo thời gian, hệ thống nhận dạng tiếng nói tiếng nói sau lấy mẫu nhóm thành khoảng thời gian ngắn khoảng từ 20 đến 40 ms gọi khung Để cho thơng số khung thay đổi, thơng thường có chồng lấp khung kế cận (1) nm 3) Bộ lọc cửa sổ C Thuật tốn trích đặc trưng MFCC Một cửa sổ thường ứng dụng để gia tăng tính liên tục khung kế cận Những cửa sổ thường gặp như: cửa sổ hình chữ nhật, cửa sổ Hamming, cửa sổ Hanning, cửa sổ Kaiser, … Cả hai cửa sổ Hanning Hamming có suy giảm cao nhiều so với cửa sổ hình chữ nhật Ở cửa sổ Hanning, đỉnh thứ suy giảm 31dB so với đỉnh chính, giảm 44dB cửa sổ Hamming Mặt khác, cửa sổ Hanning, đỉnh phụ suy giảm nhanh, cửa sổ Hamming khơng, đỉnh phụ gần không đổi tần số [7] Do thường sử dụng cửa sổ Hamming ứng dụng nhận diện giọng nói Các hệ số h(n) cửa số Hamming tính sau: Thuật tốn MFCC thuật tốn trích đặc trưng tiếng nói đại, sử dụng rộng rãi tính hiệu thơng qua phân tích hệ số cepstral theo thang đo Mel [7] Giải thuật MFCC xây dựng mơ hình mơ lại trình cảm nhận âm tai người, dựa nghiên cứu cảm nhận âm dải tần số khác Với tần số thấp (dưới 1000Hz), độ cảm nhận tai người tuyến tính Đối với tần số cao hơn, độ cảm nhận biến thiên theo hàm logarit Do đó, để thu đặc trưng tiếng nói, ta sử dụng lọc tuyến tính với dải tần thấp lọc có đặc tính logarit với dải tần số cao Mơ hình tính tốn hệ số MFCC mơ tả Hình 2 n 0.54 0.46 * cos h n N 201 201 (3) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) 4) Fast Fourier Transform (FFT) 6) Cepstrum Biến đổi Fourier nhanh (FFT) dùng để chuyển tín hiệu tiếng nói từ miền thời gian qua miền tần số Đó thực thi phép biến đổi Fourier rời rạc (DFT) đạt hiệu suất cao với điều kiện ràng buộc phổ đánh giá tần số rời rạc Thuật tốn FFT u cầu khối lượng tính tốn tỷ lệ với NlogN, DFT u cầu khối lượng tính tốn tỷ lệ với N2 Do đó, chiều dài mẫu N lớn, ưu FFT so với DFT thể rõ Độ phân giải tần số FFT bị giới hạn yếu tố: chiều dài tín hiệu chiều dài FFT Nếu tín hiệu tạo việc cộng hai tín hiệu sin mà tần số hai tín hiệu gần với nhau, để phân biệt hai tần số phải quan sát tín hiệu với phân đoạn đủ dài Đối với chiều dài FFT, phổ tần số tạo N điểm FFT bao gồm N/2 điểm cách phân bố đến phân nửa tần số lấy mẫu Vì để tách rời hai tần số có khoảng cách gần khoảng cách điểm phải nhỏ khoảng cách hai đỉnh 5) Bộ lọc Mel Bộ lọc Mel mơ hình hóa lại đáp ứng tần số ốc tai người Đáp ứng tuyến tính với tần số 1kHz tỉ lệ với logarit tần số cao Phương trình (4) dùng để biến đổi từ thang tần số thường sang thang tần số Mel phương trình (5) biến đổi từ thang tần số Mel thang tần số thường f Mel f 1125log 1 700 m 1 Mel m 700 e1125 1 (4) Tín hiệu tiếng nói mơ tả kết phép tích chập tín hiệu kích thích quản với đáp ứng xung bó âm Đáp ứng bó âm định đường bao phổ, phổ tín hiệu kích thích biểu diễn thành phần phổ tiếng nói Đối với nhận dạng tiếng nói, đường bao phổ hữu ích thành phần phổ [7] Cepstrum định nghĩa phép biến đổi cosin rời rạc (DCT), dùng để chuyển hệ số Mel sau lấy logarithm trở miền thời gian Kết phép biến đổi cho ta hệ số đường bao phổ tín hiệu tiếng nói K p Cnp log Snk' cos k 0.5 k k 1 (6) Trong (6), Cnp hệ số cepstrum bậc p khung n S’nk giá trị tần số Mel thứ k khung n Các hệ số cepstrum bậc thấp tượng trưng cho đường bao bó âm thanh, hệ số bậc cao tượng trưng cho thành phần kích thích Do đó, ứng dụng nhận dạng tiếng nói, sử dụng từ đến 16 hệ số cepstrum bậc thấp 7) Đạo hàm bậc bậc Các hệ số cepstrum Cnp mô tả đường bao bó âm theo khung tín hiệu p riêng biệt không mô tả tốc độ biến đổi âm theo thời gian Trong thực tế, tốc độ biến thiên hệ số theo thời gian chứa phần thông tin mà ta muốn truyền đạt [7] Để đặc trưng cho biến thiên đó, ta sử dụng hệ số đạo hàm bậc d n đạo hàm (5) Băng thông lọc thang đo Mel bao gồm lọc hình tam giác phân bố bên băng thơng tín hiệu Chúng cách thang Mel băng thông chúng thiết kế cho điểm 3dB nằm khoảng hai lọc kế cận (Hình 4) Trong nhận dạng tiếng nói, số lọc thông số mà ảnh hưởng đến độ xác nhận dạng hệ thống [7] bậc d (d n ) dn d (d n ) cn cn2 cn1 cn1 10 (7) d n d n2 d n1 d n1 10 (8) D Giải thuật thời gian động DTW Giải thuật DTW xây dựng dựa sở kỹ thuật lập trình động (Dynamic Programming Techniques) Giải thuật thực việc so trùng hai mẫu tín hiệu tiếng nói có đường bao tín hiệu khác phi tuyến tính theo trục thời gian tượng kéo dãn hay co rút [1] Hình Biến dạng thời gian mẫu tín hiệu Ở Hình 5, đường thẳng nối điểm từ chuỗi tín hiệu đến điểm tương ứng chuỗi tín hiệu kia, Hình Băng lọc Mel, theo thang tần số Mel (a) theo thang tần số thường (b) 202 202 Thảo Quốc Gia2015 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia vàCông CơngNghệ Nghệ Thơng (ECIT 2015) chuỗi tín hiệu giống hệt nhau, đường nối song song Sự biến dạng thời gian, làm cho tổng khoảng cách điểm tương ứng lớn lên làm cho việc nhận dạng bị sai lệch Giả sử có hai chuỗi tín hiệu Q C với chiều dài n m: Q q1 , q2 , q3 , , qn C c1 , c2 , c3 , , cm Hình Giải thuật tính DTW Để so sánh hai chuỗi tín hiệu, ma trận n x m hình thành với phần tử khoảng cách cục d(i,j) hai điểm qi cj Khoảng cách cục d(i,j) hai điểm tính đơn vị theo hệ Euclidean theo phương trình (9) Việc sử dụng hệ đơn vị Euclidean có ưu điểm dễ hiểu, dễ tính tốn, cho thấy rõ sai biệt lớn chuỗi tín hiệu, lại có khuyết điểm làm cho việc tính tốn tăng độ phức tạp so với hệ đo lường khác, đồng thời làm cho hệ thống nhạy cảm với nhiễu [1] d i, j (qi c j )2 Phương trình (10) thực phương pháp đệ quy Tuy nhiên, phương pháp tốn nhiều thời gian thực gây lãng phí nhớ Để cải tiến nhược điểm trên, phương pháp khác sử dụng hai vòng lặp hai mảng để lưu trữ cột ma trận thời gian – thời gian cột ma trận trước (Hình 6) III THỰC HIỆN HỆ THỐNG Mặc dù tai người nghe âm với tần số từ 20Hz tới 20KHz, tai người nhạy với tần số nhỏ 5kHz với chất lượng âm thoại có băng thơng giới hạn 4kHz Với lí này, chúng tơi sử dụng băng thơng 4KHz đề tài tần số lấy mẫu 8KHz (9) Sau đó, ta tính sai biệt tồn cục hai chuỗi tín hiệu Để tính tốn sai biệt tồn cục nhỏ hai tín hiệu, ta cần ước lượng tất khoảng cách có, cách khơng hiệu số lượng khoảng cách có dạng hàm mũ theo chiều dài tín hiệu ngõ vào Thay vào đó, ta xem xét ràng buộc tồn trình so trùng dùng ràng buộc để có giải thuật hiệu [1] Các ràng buộc thiết lập phải không phức tạp không hạn chế nhiều, sau: − Các khoảng cách so trùng thực việc lui − Mọi khung tín hiệu cần so trùng phải dùng trình so trùng − Các giá trị sai biệt cục kết hợp phương pháp cộng dồn vào giá trị sai biệt toàn cục A Phát điểm bắt đầu kết thúc Bước 1: Sau thu mẫu tín hiệu tiếng nói, ta chia chúng thành khung nhỏ để tiện cho việc tính tốn Chúng tơi sử dụng 80 mẫu khung chống lấp 50% khung với nhau, tương đương với 5ms cho khung tín hiệu (1) Bước 2: Ta tính lượng khung tín hiệu theo Bước 3: Ta thu tín hiệu tính giá trị ngưỡng so sánh sử dụng phương trình (11) threshold Gọi D(i,j), d(i,j) độ sai biệt toàn cục sai biệt cục vị trí (i,j) D(i,j) tính sau: D i, j D i 1, j 1 , D i 1, j , D i, j 1 d i, j (10) Với D(1,1) = d(1,1) giá trị khởi tạo ban đầu, giải thuật ứng dụng đệ qui vào việc tính tốn độ sai biệt D(i, j) Giá trị cuối D(n,m) giá trị chênh lệch tín hiệu mẫu tín hiệu cần so sánh N E j j 0 N * 1 µ (11) Giá trị ngưỡng chọn cao so với giá trị trung bình tín hiệu Trong đề tài này, chúng tơi chọn µ = 0.1 Bước 4: Sau có tín hiệu nền, ta bắt đầu thu phân tách tín hiệu Tất khung có mức lượng cao mức ngưỡng tiếng nói, khung có mức lượng thấp nhiễu khoảng lặng Việc sử dụng hệ số lượng làm ngưỡng để xác định điểm bắt đầu giảm nhiễu ngẫu nhiên thời gian ngắn, từ tiếng nói thơng thường dài 200ms, chúng tơi sử dụng thêm số lượng khung để làm ngưỡng loại bỏ nhiễu thời gian ngắn 203 203 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thơng Tin (ECIT 2015) B Trích đặc trưng thuật toán MFCC C So sánh mẫu giải thuật DTW Bước 1: Tiền nhấn tín hiệu theo phương trình (2) Trong đề tài này, sử dụng hệ số a = 0.97 Bước 1: Tính tốn phần tử ma trận DTW sai biệt cục điểm chuỗi cepstrum tín hiệu tiếng nói tín hiệu mẫu theo phương trình (9) Bước 2: Chúng tơi nhóm tín hiệu vào khung có chiều dài 25ms với 10ms chống lấn Với tốc độ mẫu 8kHz, ta có 200 mẫu khung với 80 mẫu chống lấn khung Bước 2: Tính cột 0, đáy mảng Giá trị sai biệt tồn cục đáy mảng sai biệt cục Sau đó, tính giá trị tồn cục khác mảng cách lấy giá trị cục cộng với sai biệt tồn cục ô Mảng đươc gọi cột trước Bước 3: Áp dụng cửa sổ Hamming 200 điểm lên tín hiệu tiếng nói wf n l f n l ham l Bước 3: Tính sai biệt tồn cục cột Sai biệt toàn cục sai biệt cục cộng với sai biệt tồn cục cột trước (12) fn(l) khung pre-emphasis thứ n, ham(l) thay cho cửa sổ Hamming, wfn(l) khung thứ n sau qua cửa sổ Hamming Bước 4: Tính sai biệt tồn cục cho cịn lại Bước 5: Cột tài trở thành cột trước lặp lại từ bước tất cột tính tốn xong Giá trị cuối cột cuối giá trị chênh lệch tín hiệu mẫu tín hiệu cần so sánh Bước 4: Khi frame cửa sổ hóa với chiều dài 200 điểm, chiều dài FFT thiết lập 256 điểm để đạt độ phân giải tần số tốt với khối lượng tính tốn chấp nhận thực thi thực tế Sau biến đổi FFT 256 điểm, có biên độ (căn bậc 2) 128 điểm dùng cho bước tính tốn tính chất đối xứng phép biến đổi FFT IV KẾT QUẢ THỰC NGHIỆM VÀ BÌNH LUẬN Các thí nghiệm thực với hệ thống nhận dạng tiếng nói có từ vựng từ, từ, từ 10 từ gồm từ “một”, “hai”, “ba”, “bốn”, “năm”, “sáu”, “bảy”, “tám”, “chín”, “mười” Mỗi từ thử nghiệm 100 lần đọc Các kết thí nghiệm bao gồm tỉ lệ nhận dạng người đọc người huấn luyện người khác (nam, người huấn luyện) thực mơi trường n tĩnh, có tiếng gió nhẹ từ quạt máy trình bày Hình 7, Hình 8, Hình 9, Hình 10 thời gian nhận dạng trình bày Bảng Bước 5: Chúng ta xác định hệ số Hn lọc phương trình (13) với f[n] tính từ phương trình (4) (5) 0 , k f m 1 2*(k f [m 1]) , f m 1 k f m ( f [m 1] f [m 1])*( f [m] f [m 1]) H m [k ] 2*( f [m 1] k ) , f m k f m 1 ( f [m 1] f [m 1])*( f [m 1] f [m]) , k f m 1 0 (13) Trong đề tài này, sử dụng Mel cho thang tần số từ 300Hz – 4000Hz để loại bỏ nhiễu tần số thấp 300Hz cho thiết bị thu âm gây Hệ thống nhận dạng tiếng nói chạy Kit BeagleBone Black dựa vi xử lý lõi đơn AM335x 1GHz ARM Cortex-A8, 512 MB DDR3 RAM Các kết đánh giá độ xác tốc độ nhận dạng thực hoàn toàn kit Bước 6: Tính hệ số cepstrum theo phương trình (6), đề tài sử dụng 13 hệ số cepstrum bậc thấp Người huấn luyện (Trung bình 96.25%) Người khác (Trung bình 91.25%) Bước 7: Tính đạo hàm bậc bậc theo phương trình (7) phương trình (8) 100 95 90 Tín hiệu tiếng nói trích đặc trưng giải thuật MFCC Đối với nhận dạng từ đơn, từ phát âm dài không 500ms tạo thành tối đa 24 khung tín hiệu, khung tín hiệu có 39 hệ số gồm 13 hệ số cepstrum, 13 hệ số đạo hàm bậc 13 hệ số đạo hàm bậc Do vec-tơ đặc trưng từ có tối đa 936 hệ số, hệ số lưu lại làm mẫu dùng làm ngõ vào tín hiệu so sánh với mẫu thu 85 80 "một" "hai" "ba" "bốn" Hình Độ xác nhận dạng hệ thống có từ vựng từ Hình biểu diễn độ xác nhận dạng hệ thống nhận dạng tiếng nói có từ vựng gồm từ: “một”, “hai”, “ba”, “bốn” Có thể nhận thấy rằng, độ xác nhận dạng hệ thống cao Đối với người thử nghiệm người huấn luyện, hệ thống đạt độ xác trung bình 96.25%, người thử nghiệm người khác (không 204 204 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) huấn luyện mơ hình) hệ thống đạt độ xác trung bình 91.25% huấn luyện) cho tỉ lệ cao Với kết này, cộng với việc hệ thống cần huấn luyện từ với lần đọc làm cho tính linh động hệ thống cao, dễ sử dụng linh hoạt, phù hợp với thiết bị điều khiển cầm tay với giới hạn tài nguyên phần cứng Người huấn luyện (Trung bình 95.83%) Người khác (Trung bình 91.83%) 100 98 96 94 92 90 88 86 84 82 Bảng cho thấy thời gian nhận dạng từ tăng dần từ vựng hệ thống tăng lên Điều từ vựng tăng, số mẫu cần so sánh, tham chiếu tăng lên, làm cho số lượng tính tốn tăng Tốc độ nhận dạng phụ thuộc vào cách phát âm người đọc Đọc chậm kéo dài dẫn đến thời gian nhận dạng lâu "một" "hai" "ba" "bốn" "năm" V KẾT LUẬN "sáu" Bài báo trình bày mơ hình nhận dạng từ đơn đơn giản, dễ thực phương pháp trích đặc trưng MFCC so sánh mẫu DTW Các kết thí nghiệm với thư viện nhỏ từ 10 từ trở xuống chứng minh mơ hình đem lại kết nhận dạng cao với ưu điểm bật thời gian nhận dạng nhanh Tuy nhiên, mơ hình nhận dạng bị phụ thuộc vào cách phát âm người nói, nên cần mở rộng thư viện, tương đồng từ làm hiệu suất nhận dạng bị giảm xuống Do đó, thư viện lớn hơn, cần kết hợp với phương pháp so sánh mẫu khác Mơ hình chuỗi Markov ẩn, phương pháp Mạng Nơtron để tăng hiệu suất nhận dạng Hình Độ xác nhận dạng hệ thống có từ vựng từ Người huấn luyện (Trung bình 90.875%) Người khác (Trung bình 85.375%) 100 95 90 85 80 75 70 "một" "hai" "ba" "bốn" "năm" "sáu" "bảy" "tám" TÀI LIỆU THAM KHẢO Hình Độ xác nhận dạng hệ thống có từ vựng từ Nguyễn Thanh Bình, Võ Nguyễn Quốc Bảo, "Xử Lý Âm Thanh Và Hình Ảnh", Học Viện Cơng Nghệ Bưu Chính Viễn Thơng, 2007 [2] Lê Tiến Thường, Hồng Đình Chiến, "Vietnamese Speech Recognition Applied to Robot Communications", Au Journal of Technology, Volume No January 2004 [3] V Amudha, B.Venkataramani, R Vinoth kumar, S Ravishankar: “Software/Hardware Co-Design of HMM based Isolated Digit Recognition System.” In: Journal of Computers, VOL 4, No 2, pp 154159, (2009) [4] Haitao Zhou, Xiaojun Han: “Design and Implementation of Speech Recognition System Based on Field Programmable Gate Array” In: Modern Applied Science, Vol 3, No 8, pp 106-111, August 2009 [5] Wei Han, Cheong-Fat Chan, Chiu-Sing Choy, Kong-Pang Pun: “An Efficient MFCC Extraction Method in Speech Recognition.” In: the 2006 IEEE International Symposium on Circuits and Systems (ISCAS), pp 145148, Greece (2006) [6] Wei Han: “A Speech Recognition IC with an Efficient MFCC Extraction Algorithm and Multi-mixture Models”, the Chinese University of Hong Kong, Doctor of philosophy thesis, September 2006 [7] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken language processing: A guide to theory, algorithm, and system development”, Prentice Hall PTR Upper Saddle River, NJ, USA ©2001 [8] Qi Li, Jinsong Zheng, Augustine Tsai, & Qiru Zhou, "Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition", IEEE Transactions On Speech And Audio Processing, Vol 10, No 3, March 2002 [9] Rajesh Makhijani, Ravindra Gupta, “Isolated Word Speech Recognition System Using Dynamic Time Warping” In: International Journal of Engineering Sciences & Emerging Technologies, VOL 6, Issue 3, pp: 352-367, (2013) [10] MarutiLimkar, RamaRao, VidyaSagvekar: “Isolated Digit Recognition Using MFCC and DTW” In: International Journal on Advanced Electrical and Electronics Engineering, Vol 1, Issue 3, pp 59-64, (2012) [11] Shivanker Dev Dhingra, Geeta Nijhawan, Poonam Pandit: “Isolated Speech Recognition Using MFCC And DTW”, In: International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering, Vol 2, Issue 8, pp 4085-4092, (2013) [1] Hình 10Độ xác nhận dạng hệ thống có từ vựng 10 từ Bảng Thời gian nhận dạng người huấn luyện người khác Số lượng mẫu mẫu mẫu mẫu 10 mẫu Thời gian nhận Thời gian nhận dạng trung bình dạng trung bình người huấn luyện người khác 0.384s 0.445s 0.47s 0.521s 0.593s 0.746s 0.648s 0.842s Như kết đưa Hình 7, Hình 8, Hình 9, Hình 10, ta nhận thấy từ vựng tăng dần lên độ xác nhận dạng hệ thống giảm dần Do đó, hệ thống nhận dạng sử dụng phương pháp DTW thích hợp ứng dụng với từ vựng nhỏ, điều khiển đơn giản với đáp ứng nhanh Ngoài ra, kết nhận dạng hệ thống với người khác (không phải người 205 205 ... xác nhận dạng hệ thống nhận dạng tiếng nói có từ vựng gồm từ: “một”, “hai”, “ba”, “bốn” Có thể nhận thấy rằng, độ xác nhận dạng hệ thống cao Đối với người thử nghiệm người huấn luyện, hệ thống. .. 7, Hình 8, Hình 9, Hình 10, ta nhận thấy từ vựng tăng dần lên độ xác nhận dạng hệ thống giảm dần Do đó, hệ thống nhận dạng sử dụng phương pháp DTW thích hợp ứng dụng với từ vựng nhỏ, điều khiển... tần số [7] Do thường sử dụng cửa sổ Hamming ứng dụng nhận diện giọng nói Các hệ số h(n) cửa số Hamming tính sau: Thuật tốn MFCC thuật tốn trích đặc trưng tiếng nói đại, sử dụng rộng rãi tính hiệu