Proceedings VCM 2012 75 thiết kế hệ thống nhận dạng khẩu lệnh tiếng việt

550 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh VCM2012 Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên nền các vi hệ thống với phép chuẩn hóa VTLN – MFCC Design of a Vietnamese voice control system for navigating devices based on system-on-chip with VTLN-MFCC Ngô Hoàng Huy 1 , Phạm Thượng Cát 1 , Nguyễn Trịnh Nguyên 2 , Nguyễn Tu Trung 1 , Ngô Trần Anh 1 (1) Viện Công nghệ Thông tin,Viện Khoa học và Công nghệ Việt Nam, (2) Đại học Nông lâm Tp. Hồ Chí Minh e-Mail: {nhhuy, ptcat, nttrung, trananh}@ioit.ac.vn, nguyentrinhnguyen.edu@gmail.com Tóm tắt Bài báo này trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị tự hành. Hệ thống nhận dạng tích hợp hoàn toàn trong một chip vi hệ thống điện năng thấp như họ PSoC5 lõi ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash hoặc họ OMAP3 lõi ARM7,128MB RAM, được phát triển dựa trên mô hình nhận dạng Markov ẩn kết hợp, mạng nơ ron dự báo. Ngoài ra hệ thống đã cải thiện được chất lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo độ dài bộ phận cấu âm (VTLN, vocal tract length normalisation), rất thích hợp với một ngôn ngữ có thanh điệu như tiếng Việt. Các kết quả thử nghiệm trong bài báo đã được áp dụng cho thực tế điều khiển robot hút bụi và xe lăn điện, chứng tỏ rằng hệ nhận dạng khẩu lệnh tiếng Việt đã đáp ứng được yêu cầu nhúng hoàn toàn trong một vi hệ thống với tài nguyên bộ nhớ và năng lực tính toán rất hạn chế cho xử lý tiếng nói, chuẩn hóa tốt biến thiên tần số của người nói mới và cho kết quả nhận dạng và thời gian đáp ứng so sánh được với cùng hệ thống chạy trên PC. Abstract In this study, results of a Vietnamese continuous speech recognition system controlling navigating devices were exprimented and presented. The speech recognition which is fully integrated in a mini system-on-chip such as PSoC5 with ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash, OMAP3530 with ARM7 chip 128MB RAM, is developed based on Hidden Markov Model and Predictive Neural Network. These results also show that the performance in recognizing new speakers in combinating with normalization VTLN is actually improved, which are quite compatible with tonal languages such as Vietnamese. These results are also applied in sucessfully controlling vacuum robots and electric wheel chairs. It is this shows that the Vietnamese continuous speech recognition system actually supply the requirements of fully embedded in a mini system with very limited memory resources and calculating for speech processing, and well normalize frequency variation of new speakers, providing likely results and time comparable with the same running in personal computer. Chữ viết tắt VTLN PSoC vocal tract length normal Programmable System on Chip MFCC Đặc trưng MFCC 1. Phần mở đầu Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu lệnh để điều khiển thiết bị đã được phát triển và ứng dụng rộng rãi. Một số hệ thống nhận dạng khẩu lệnh kết hợp với hiểu đối thoại hữu dụng như Siri đã trở nên quen thuộc với người sử dụng. Tuy nhiên hầu hết các hệ thống này đều chạy trên môi trường PC hoặc di động có lõi vi xử lý với tài nguyên bộ nhớ và năng lực tính toán mạnh. Hệ thống nhận dạng khẩu lệnh trên chip tiêu thụ điện năng thấp và tài nguyên hạn chế, đặc biệt là trên các chip vi hệ thống vẫn là vấn đề phức tạp, cần đầu tư nghiên cứu. PSoC một họ chip vi hệ thống nổi tiếng với tính năng tái cấu hình, được ứng dụng rộng rãi trong thiết kế các hệ thống đo và điều khiển, nhưng chưa có một giải pháp tích hợp hệ thống nhận dạng khẩu lệnh trên nó được công bố trên thế giới. Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 551 Mã bài: 128 tiếng Việt [7,8,10,12] với tiếp cận ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC [10,12] hoặc sử dụng các đặc trưng F0, các tần số formant và VTLN để hiệu chỉnh lại các đặc trưng MFCC dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người nói được cải thiện đáng kế [5, 8, 9,10]. Các hệ thống nhận dạng tiếng nói hiện nay hầu hết đều sử mô hình Markov ẩn HMM (Hidden Markov Model), khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM. Bài báo này trình bày phương pháp thiết kế hệ nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị di động như robot hút bui, xe lăn điện dựa trên chip vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so sánh được với cùng hệ thống trên PC. 2. Quy trình nhận dạng tiếng nói Để thiết kế một robot hút bụi có khả năng hội thoại bằng tiếng Việt (nhận biết khẩu lệnh và thực hiện cũng như hồi đáp bằng tiếng Việt) chúng ta cần nghiên cứu tích hợp các công nghệ điều khiển robot, nhận dạng và tổng hợp tiếng Việt trên một chip (system-on-chip), với tín hiệu thu nhận được là có nhiễu của môi trường văn phòng, nhà ở và độ ồn của chính robot hút bụi (âm lượng khoảng 80dB). H. 1 Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh nhất cũng bị hạn chế trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Trong quy trình nhận dạng tiếng nói, Tiền xử lý (thu nhận tiếng nói, khử nhiễu và tìm kiếm điểm đầu cuối tiếng nói), Trích chọn đặc trưng kết hợp với phép hiệu chỉnh biến thiên tần số của người nói mới là các khâu rất quan trọng để nâng cao độ 552 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh VCM2012 chính xác nhận dạng khẩu lệnh tiếng Việt trong khi các thiết bị đang hoạt động. 3. Thu nhận tiếng nói và lọc nhiễu trên họ PSOC Việc thu nhận mẫu tiếng nói thường được thực hiện thông qua một bộ ADC (Analog-Digital Converter). Các thông số quan trọng bao gồm số bit cho một mẫu (thông thường là từ 8 đến 16 bit), tần số lấy mẫu (thông thường từ 8Khz-16Khz). Những thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết kế cũng như kết quả nhận dạng của hệ thống nhúng. Với họ chip PSOC và OMAP3, vấn đề khó khăn chung khi thực hiện việc thu nhận tiếng nói vẫn là sự hạn chế về tài nguyên khi phải đảm bảo yêu câu về bộ nhớ và tốc độ thu lớn. H. 2 Mạch 2 mic thu nhận tiếng nói H. 3 Thu nhận tiếng nói dùng DMA trên PSoC5 Tiếng nói thu nhận trong môi trường tự nhiên (ngoại cảnh, trong văn phòng v.v ) và công nghiệp nơi thiết bị hoạt động thường chứa nhiều tạp âm. Không dễ gì có thể lọc được mọi thứ nhiễu do tính ngẫu nhiên của nhiễu và môi trường và đường truyền dẫn âm học như hiện tượng dội lại, mà ta chỉ tìm cách tối thiểu hoá chúng để có thể nâng cao chất lượng của hệ thống nhận dạng. Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự của PSoC5, trong quá trình thu nhận tiếng nói, hệ thống được xử lý nhiễu qua 2 pha: pha 1 là lọc tương tự, pha 2 là lọc số (như bộ lọc RASTA). Bảng 1: Bảng cấu hình GAIN kết hợp bộ lọc thông thấp. PGA Gain T ỉ lệ C1/C2 LPF Gain (dB) Đi ện áp LPF GAIN H ệ số GAIN cuối 24 3 8 3.16 75.84 24 4 12 3.9 8 95.52 24 5 14 5.01 120.24 24 6 15 5.62 134.95 Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 553 Mã bài: 128 H. 4 Tham số bộ lọc tín hiệu khi cấu hình cho PSoC H. 5 Phổ tín hiệu có nhiễu động cơ hút bụi và tín hiệu sạch 4. Phép chuẩn hóa VTLN cho các hệ số MFCC Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói (độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói. VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. H. 6 Hiệu chỉnh tần số VTL và trích chọn đặc trưng MFCC Phép hiệu chỉnh VTL hoạt động như sau: 554 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh VCM2012 Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí  k trong thang tần số mel: 1 1 1 1 1 1 , [ , ] ( ) , [ , ] k k k k k k k k k k k B                                    1 1 2 [ , ] ( ) ( ) ( ) k k k Y m B X           , 0mM-1 (*) MFCC(n) = 1 0 1 2 os log ( ) M m n m c Y m M            , 0nN- 1 Khi đó với phép hiệu chỉnh tần số có dạng ’=   () thì công thức (*) trở thành: 1 1 2 [ , ] ( ) ( ) ( ( )) k k k Y m B X             Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm   (), sử dụng hàm: ( ) 1127 ln 1 2 .700 s f z mel              , [0,] và f s là tần số lấy mẫu và 1 1 1 1 1 2 , 1 2 2 ( ) , , 1 1 2 , 1 l l u u a b c d                                                 Để giải quyết vấn đề hạn chế về tài nguyên tính toán và tài nguyên bộ nhớ, khi tích hợp hệ thống nhận dạng tiếng nói trên các vi hệ thống, việc tính toán các hệ số MFCC được xử lý hiệu quả với các phép tính chẫm tĩnh (fixed point) [15]. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC gồm hai phần: Huấn luyện và nhận dạng. 4.1. Huấn luyện với HMM Đầu vào gồm T frame các đặc trưng MFCC. Bước 1: Xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 1 1 ({ } ) arg max log ( , ) T T t t t t S s p O W       Bước 2: Hiệu chỉnh lại tham số mô hình HMM: * 1 arg max log ( , , ) T t t t p O s W      Bước 3: Đặt = * , lặp lại tới khi mô hình hội tụ. 4.2. Nhân dạng với HMM Đầu vào gồm T frame các đặc trưng MFCC. Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: 1 1 ( , { } ) argmax log ( , ) T T t t t t t W S s p O s       Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số  [ min ,  max ] có thể ước lượng trên từng phát âm tiếng nói đầu vào [2,3,10s] theo công thức sau: min ax 1 1 [ , ] 1 ( , { } ) argmax log ( , ) argmax log ( , ), ( ) m T T t t t t t T t t t t t W S s p O s p O s O O                            5. HMM với chuẩn hóa VTLN Để chuẩn hóa biến thiên tần số của người nói mới phép chuẩn hóa VTLN để được tích hợp trong mô hình nhận dạng HMM như sau: 5.1. Huấn luyện với HMM: Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame. Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 1 1 ({ } ) argmax log ( , ), ( ) T T t t t t t t S s p O W O O            Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 argmax log ( , ), ( ) m T t t t t t p O s O O               Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: * * * * 1 argmax log ( , , ), ( ) T t t t t t p O s W O O           Bước 4: Đặt =*, và = * , lặp lại tới khi mô hình hội tụ. 5.2. Nhận dạng với HMM Với một phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 555 Mã bài: 128 1 1 ( , { } ) argmax log ( , ) T T t t t t t W S s p O s       Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 argmax log ( , ), ( ) m T t t t t t p O s O O               Bước 3: Giải mã Viterbi lần nữa với tham số  * để xác định tập nhãn đầu ra: * * 1 arg max log ( , ) T t t t W p O s      Độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN 2 T), trong đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số  [ min ,  max ] (ở đây  min = 0.85,  max = 1.15, mức rời rạc hóa theo bước 0.0001), N là số trạng thái của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) ,T là số frame đầu vào [8]. Ngoài ra, để tích hợp hệ thống nhận dạng tiếng nói trên các vi hệ thống (SoC) với tài nguyên bộ nhớ hạn chế như PSoC chúng tôi cài đặt thêm phương pháp nhận dạng theo mô hình mạng Nơron dự báo tựa HMM như sau:  Ứng với tập mẫu huấn luyện của một lệnh, ta xây dựng một mạng Nơron 3 tầng, một tầng ra, một tầng vào và một tầng ẩn như sau:  Giả sử ta xây dựng mạng nơron NR x ứng với người nói x với tập M mẫu giọng T = (T 1 , T 2 , …, T M ).  Với mỗi file dữ liệu T j (j = 1, 2,…, M) ta tiến hành trích chọn đặc trưng bằng MFCC. Chúng ta có một tập M vector 12 chiều đầu vào.  Với mỗi đoạn, tại frame thứ i ta có vector đặc trưng P i ), ,,( 1110 iii aaa , frame thứ i + 1 ta có vector đặc trưng P i+1 ), ,,( 1 11 1 1 1 0  iii aaa . Mạng Nơron sẽ có đầu vào và đầu ra như sau:  Input: { ), ,,( 1110 iii aaa , ), ,,( 1 11 1 1 1 0  iii aaa }  Output: { ), ,,( 2 11 2 1 2 0  iii bbb }  Đầu ra của mạng Nơron dự báo sẽ là vector P’ i+2 ), ,,( 2' 11 2 1 2 0  iii bbb tương ứng với frame thứ i + 2.  Vector đặc trưng của frame thứ i + 2: P i+2 ), ,,( 2 11 2 1 2 0  iii aaa  Trọng số mạng được hiệu chỉnh dựa trên sai số ||e|| , với ||e|| 2 = ½(e 2 2 + e 3 2 +…+e 11 2 ) với e j = || 22   i j i j ba ||; j = 2, 3, …,11, và thuật toán lan truyền ngược.  Sai số của mạng Nơron là:  e 2 1 2     P e P j j , ở đây e j là sai số dự báo của frame j.  Lần lượt tính sai số của đoạn âm thanh kiểm tra trong mỗi mạng Nơron. Sai số nhỏ nhất ứng với mạng Nơron phù hợp nhất. 6. Điều khiển thiết bị tự hành bằng tiếng nói Để điều khiển xe lăn điện di chuyển, người điều khiển ngồi trên xe lăn và đọc vào một trong 14 lệnh như ở bảng 2 dưới đây. Để kiểm soát độ an toàn cho người điều khiển xe, hệ thống khẩu lệnh chỉ kích hoạt hành động khi người điều khiển đọc đúng câu lệnh khởi động “Kích hoạt hệ thống”, ngược lại khi người dùng ra lệnh nhanh “Tắt”, hệ thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp sau đó. Một khó khăn có thể gây ra nhận dạng nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích hoạt từ mệnh lệnh nhận dạng được có thể phát ra tiếng “cạch” có thể nhận dạng nhầm với khẩu lệnh “Tắt”. Chúng tôi đã tích hợp một thuật toán phân lớp hiệu quả đạt 100% độ chính xác dựa trên mạng nơron dự báo để phân biệt, và hệ thống đã phân biệt đúng các tín hiệu gây ồn của thiết bị với khẩu lệnh “Tắt”. Ngoài ra khẩu lệnh “Kích hoạt hệ thống” được chọn để đảm bảo hệ thống không nhận dạng nhầm khẩu lệnh khởi động này. Bảng 2: Khẩu lệnh điều khiển xe lăn. Tên khẩu lệnh Công dụng/Tên lệnh “Kích hoạt hệ thống” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc “Tắt” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh “Dừng” | “Dừng lại” Dừng xe “Tiếp tục” Tiếp tục chạy theo khẩu lệnh đã có “Tăng tốc” | “Tăng tốc độ” Tăng tốc độ “Giảm tốc” | “Giảm tốc độ” Giảm tốc độ “Tiến” | “Đi” Đi về phía trước “Lùi” | “Lùi lại” Lùi về sau “Sang trái” | ”Đi sang trái” Về phía trước theo hướng trái “Sang phải” | “Đi sang phải” Về phía trước theo hướng phải 556 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh VCM2012 “Lùi trái” |”Lùi sang trái” Về phía sau theo hướng trái “Lùi phải”|”Lùi sang phải” Về phía sau theo hướng phải “Quay trái” |”Xoay trái” Quay trái “Quay phải” |”Xoay phải” Quay phải H. 5 Điều khiển xe lăn điện bằng tiếng nói của nhóm tác giả [19] Bảng 3: Khẩu lệnh điều khiển Robot hút bụi. Tên khẩu lệnh Công dụng/Tên lệnh “Bật khẩu lệnh” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc “Tắt khẩu lệnh” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh “Tiến” | “Đi thẳng” Đi về phía trước “Lùi” | “Lùi lại” Lùi về sau “Quay trái” |”Xoay trái” Quay trái “Quay phải” |”Xoay phải” Quay phải “Bám tường” Đi men theo tường. Đi rích rắc Đi theo sơ đồ rích rắc Đi ngẫu nhiên Đi thẳng tới khi gặp vật cản, quay một góc ngẫu nhiên và đi tiếp Dừng | dừng lại Dừng lại Về trạm sạc Quay về trạm sạc Một thử nghiệm tương tự cũng đang được nhóm tác giả tiến hành cho robot hút bụi hoạt động trong môi trường trong nhà, văn phòng. Hệ thống nhận dạng tiếng nói được thiết kế cho họ PSoC5, luôn kiểm tra trạng thái hiện thời của robot hút bụi và tính tương thích của khẩu lệnh đưa vào để điều khiển robot hoạt động thay cho việc sử dụng các bảng điều khiển từ xa. Bảng 3 nêu trên là một số khẩu lệnh để điều khiển robot hút bụi di chuyển, phủ diện tích căn phòng và hút bụi. Bước đầu robot hút bụi được lập trình di chuyển theo chế độ đi ngẫu nhiên (đi thẳng, gặp vật cản thì xoay và bám tường v.v…) H. 7 Robot hút bụi được thiết kế bởi nhóm tác giả 7. Thử nghiệm Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài tiếng nói Việt Nam, dung lượng dữ liệu hơn 1GB, và chưa được gán nhãn ngữ âm. Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 30 lệnh đúng một lượt. Tín hiệu thu có tần số lấy mẫu 16000Hz, đơn kênh 16 bit và có nhiễu. Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu huấn luyện thích ứng. Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, kiểm thử và trích chọn đặc trưng MFCC thông thường. Để tich hợp cho các vi hệ thống như OMAP3, nhân của HTK 3.4 đã được sửa đổi ở các thuật toán trích chọn đặc trưng MFCC có hỗ trợ các phép toán fixed point và thuật toán dò tìm tiếng nói (End point detection) hiệu quả riêng của nhóm tác giả. Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện. Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 557 Mã bài: 128 Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. Bảng 4: Bảng kết quả thực nghiệm kiểm tra trên tập 10 người nói. Người đọc Đặc trưng chuẩn MFCC Đặc trưng MFCC + F0 VTLN- MFCC + F0 mức từ mức câu mức từ mức câu mức từ mức câu Nu1 98,3 96,5 99,5 96,0 98,7 96,8 Nu2 99,0 97,0 99,0 96,4 99,0 96,7 Nu3 98,5 96,8 98,4 96,0 98,4 97,0 Nu4 99,4 98,4 98,8 96,5 98,9 98,2 Nu5 98,5 96,1 98,9 96,5 99,2 97,5 Nu6 95,7 94,7 97,1 96,9 98,8 97,2 Nu7 98,7 96,6 98,6 97,5 99,1 97,5 Nam1 99,5 98,5 99,5 98,0 99,5 98,3 Nam2 98,3 96,0 98,5 96,4 98,7 97,7 Nam3 99,1 97,8 99,0 97,9 99,3 98,2 Trung bình 98,5 96,8 4 98,7 3 96,8 1 98,9 6 97,5 1 Quan sát bảng thực nghiệm 2, kết quả nhận dạng của “Nu6” thấp do đây là một giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc). 8. Kết luận và hướng phát triển Theo nội dung đã trình bày ở trên, các giá trị của đường F0 và độ dài bộ phận cấu âm của mỗi giọng nói đã ảnh hưởng đến kết quả nhận dạng khẩu lệnh tiếng Việt. Để tích hợp các giá trị này vào hệ thống nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần số trước khi tính các hệ số MFCC như thông thường, và chuyển tới bộ huấn luyện hoặc giải mã của các HMM. Phép chuẩn hóa cho phép một giọng nói mới được thích ứng nhanh với hệ thống nhận dạng tiếng nói mà không cần phải huấn luyện lại, thích hợp với thực tế sử dụng tiếng nói nhúng trong các vi hệ thống để điều khiển thiết bị tự hành. Ngoài ra chúng tôi cũng đã sử dụng được các đặc điểm mạnh về lọc nhiễu tín hiệu tương tự, tính năng DMA của họ PSoC để nâng cao chất lượng tín hiệu tiếng nói và tối ưu tốc độ xử lý. Hệ điều khiển tiếng nói đã có một quy trình sử dụng hợp lý để đảm bảo an toàn khi hoạt động, giảm thiểu ảnh hưởng của nhiễu môi trường dẫn đến nhận dạng nhầm, không cho phép điều thiết bị tự hành hoạt động nằm ngoài mong muốn. Ngoài ra Kết quả thực nghiệm được áp dụng vào vấn đề nhận dạng khẩu tiếng Việt đã chứng tỏ phương pháp đề xuất cải tiến được đáng kể kết quả nhận dạng của hệ thống nhận dạng khẩu lệnh tiếng Việt độc lập người nói. Tài liệu tham khảo [1] V. RODELLAR-BIARGE, C. GONZALEZ- CONCEJERO, E: MARTINEZ DE ICAYA, A. ALVAREZ-MARQUINA, and P. GÓMEZ- VILDA, Hardware Reusable Design of Feature Extraction for Distributed Speech Recognition, Proceedings of the 6th WSEAS International Conference on Applications of Electrical Engineering, Istanbul, Turkey, May 27-29, 2007. [2] Ravi Coote, Development of a Voice Control Interface for Navigating Robots and Evaluation in Outdoor Environments, Proceedings of the International Multiconference on Computer Science and Information Technology pp. 381– 388, ISBN 978-83-60810-27-9, ISSN 1896- 7094. [3] Daniel Elenius, Mats Blomberg, Dynamic vocal tract length normalization in speech recognition, Proceedings from Fonetik 2010 Lund, 2010, ISSN 0280-526X, 29-34. [4] Tadashi Emori, Koichi Shinoda, Rapid vocal tract length normalization using maximum likelihood estimation, EUROSPEECH 2001 – Scandinavia, Aalborg, Denmark, 2001. [5] Yuet-Ming Lam, Man-Wai Mak, Philip Heng- Wai Leong, FIXED-POINT IMPLEMENTATIONS OF SPEECH RECOGNITION SYSTEMS. [6] Chin-Hui Lee, Haizhou Li, Lin-shan Lee, Ren- Hua Wang, Qiang Huo, Advances In Chinese Spoken Language Processing, World Scientific Publishing Co.Pte.Ltd, 2007, ISBN-13 978-981- 256-904-2, (25-31). [7] Li Lee, Richard C. Rose. Speaker normalization using efficient frequency warping procedures. ICASSP 1996, Atlanta, Georgia, USA, 1996. [8] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011. [9] Sankaran Panchapagesan *, Abeer Alwan, Frequency warping for VTLN and speaker 558 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh VCM2012 adaptation by linear transformation of standard MFCC. Computer Speech and Language 23 (2009) , 42–64. [10] William R. Rodr´ıguez, Oscar Saz, Antonio Miguel and Eduardo Lleida On line vocal tract length estimation for speaker normalization in speech recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, FALA 2010, Vigo, Spain, 2010. [11]Juhani Saastamoinen, Evgeny Karpov, Ville Hautamäki, Pasi Fränti, Automatic Speaker Recognition for Series 60 Mobile Devices. SPECOM’2004: 9th Conference Speech and Computer St. Petersburg, Russia September 20- 22, 2004. [12]Engling Yeo, Automated Low-Power ASIC Design For Speech Processing. [13]Puming Zhan and Alex Waibel, “Vocal tract length normalization for large vocabulary continuous speech recognition”, Technical report, CMU-LTI-97-150, 1997. [14]Puming Zhan, Martin Westphal, Speaker normalization based on frequency warping, ICASSP 1997, Munich , Bavaria, Germany, 1997. [15] Jia-Ching Wang, Jhing-Fa Wang*, Yu-Sheng Weng, Chip design of MFCC extraction for speech recognition, INTEGRATION, the VLSI journal 32 (2002) 111–131. [16]Shizhen Wang, Yi-Hui Lee, Abeer Alwan, Bark- shift based nonlinear speaker normalization using the second subglottal resonance, INTERSPEECH 2009, Brighton UK,2009, (1619-1622). [17]Tài liệu kỹ thuật : PSoC® 5: CY8C55 Family Datasheet. Cypress. [18]Tài liệu kỹ thuật OMAP3530, http://www.ti.com/product/omap3530. [19]Đề tài cấp Bộ Thông tin và truyền thông 2011, Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng hội thoại tiếng nói tiếng Việt hai chiều tích hợp cho xe lăn điện thông minh. . báo này trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị tự hành. Hệ thống nhận dạng tích hợp hoàn toàn trong một chip vi hệ thống điện năng thấp. điều khiển xe lăn. Tên khẩu lệnh Công dụng/Tên lệnh “Kích hoạt hệ thống Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc “Tắt” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh “Dừng” | “Dừng lại”. Phần mở đầu Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu lệnh để điều khiển thiết bị đã được phát triển và ứng dụng rộng rãi. Một số hệ thống nhận dạng khẩu lệnh kết hợp với hiểu đối thoại

Định dạng
Số trang	9
Dung lượng	477,43 KB