Trong bài viết này, việc nhận dạng âm thanh được ứng dụng để xây dựng hệ thống điều khiển thiết bị bằng tiếng nói tiếng Việt. Dựa vào các tín hiệu âm thanh thu được, hệ thống nhận dạng sẽ nhận dạng câu lệnh của người điều khiển.
Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 Ứng dụng tảng nhúng Beagleboard C4 điều khiển thiết bị tiếng nói tiếng Việt Application of Beagleboard C4 Platform in Controlling Devices using Vietnamese Voice Recognition System Đào Trung Kiên, Phạm Thị Ngọc Yến Nguyễn Thị Lan Hương Abstract: In this paper, a device control system using voice recognition developed for the embedded platform Beagleboard C4 is introduced The system is able to recognize voice commands in Vietnamese obtained via a microphone, then realizes the corresponding control tasks Two applications are taken into experiment are a six-legged spider-like robot, and a fan The whole system including voice capturing, voice recognition, and device control modules are developed on a single board, which is limited in size, resources as well as computing power I GIỚI THIỆU Trong báo này, việc nhận dạng âm ứng dụng để xây dựng hệ thống điều khiển thiết bị tiếng nói tiếng Việt Dựa vào tín hiệu âm thu được, hệ thống nhận dạng nhận dạng câu lệnh người điều khiển Chương trình điều khiển sau tiếp nhận lệnh thực việc điều khiển thiết bị tương ứng với câu lệnh đọc Về mặt kỹ thuật, tiếng nói tín hiệu phức tạp có dư thừa thơng tin Để hệ thống nhận dạng tiếng nói hoạt động hiệu quả, thơng tin đặc trưng cần phải trích từ tín hiệu tiếng nói Q trình tạo chuỗi vector tham số, thường đặc trưng phổ Bộ trích chọn thơng số đặc trưng bao gồm hoạt động: số hố, lọc tăng cường, phân chia tín hiệu thành khung (20-30ms), nhân với hàm cửa sổ để giảm hiệu ứng không liên tục đầu cuối khung tín hiệu, tính tốn thơng số đặc trưng,… [1] Hiện kiểu vector đặc trưng MFCC (Mel-frequency cepstrum coefficients) sử dụng nhiều hệ thống nhận dạng, đặc biệt cho ứng dụng di động [2] Bên cạnh để giảm lượng tính tốn, vector đặc trưng lượng tử hóa sử dụng kỹ thuật lượng tử hóa vector [3] Một hướng tiếp cận khác với tốn nhận dạng tiếng nói sử dụng phương pháp quy hoạch động theo thời gian (DTW - dynamic time warping), hay biết đến thuật tốn lập trình động Phương pháp sử dụng để đo sai khác hai mẫu tín hiệu tiếng nói, thường áp dụng cho hệ thống nhận dạng từ rời rạc từ ghép [4], phù hợp cho hệ thống nhận dạng với số lượng từ nhỏ phụ thuộc người nói [3] Bên cạnh đó, mơ hình chuỗi Markov ẩn (HMM hidden Markov model) sử dụng phổ biến Đây mô hình thống kê áp dụng nhận dạng tiếng nói từ năm 1980 Hiện kỹ thuật HMM sử dụng rộng rãi hệ thống nhận dạng tiếng nói [5] HMM bậc Tiếng nói coi tín hiệu ngẫu nhiên, từ người phát âm tạo tín hiệu khác Ngay thân người phát âm từ tạo tín hiệu khác Với phương pháp DTW, hệ thống cần lưu trữ mẫu thể tiếng nói cần nhận dạng Điều đòi hỏi số lượng mẫu lưu trữ lớn Phương pháp không hiệu số lượng từ cần nhận dạng lớn tập người nói nhiều (cho ứng dụng độc lập người nói) Trong trường hợp sử dụng HMM hiệu hơn, cho phép mơ hình hóa tập thể mẫu tiếng nói mơ hình Trong nghiên cứu mô tả báo này, mô-đun nhận dạng điều khiển xây -5- Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT dựng tích hợp máy tính nhúng đơn Beagleboard C4 Hai ứng dụng thử nghiệm hệ thống giới thiệu robot nhện sáu chân, quạt điều khiển tiếng nói Kết thử nghiệm cho thấy hệ thống hoạt động tốt, cho kết nhận lệnh xác thời gian đáp ứng lệnh ngắn Các phần báo trình bày sau Cấu trúc tổng thể hệ thống giới thiệu Phần II Tiếp theo, Phần III Phần IV, hai ứng dụng điều khiển robot quạt trình bày Cuối cùng, kết thử nghiệm đánh giá phân tích thảo luận Phần V II CẤU TRÚC HỆ THỐNG VÀ HOẠT ĐỘNG Trong nghiên cứu này, tảng Beagleboard C4 sử dụng để thu nhận, xử lý âm điều khiển Đây bo mạch nhúng đơn nguồn điệp áp thấp (một chiều 5V) sản xuất hãng Texas Instruments Digi-Key, trang bị vi xử lý OMAP3530 (nhân ARM Cortex-A8 tốc độ 720 MHz), kèm theo số cổng vào/ra chuẩn phổ biến: USB, JTAG, HDMI, SD/MMC, vào/ra audio, RS-232 cổng vào/ra mở rộng gồm 28 chân Để tương tác với hệ thống, hệ điều hành Ubuntu 10.10 phiên nhúng cài đặt thẻ nhớ SD Đây phiên Linux, hệ điều hành mã nguồn mở miễn phí Chương trình cần xây dựng chạy hệ thống chia thành hai phần chính: (1) thu nhận nhận dạng tín hiệu âm từ microphone, (2) điều khiển thiết bị qua chân mở rộng Beagleboard Ngồi hệ thống có khả thể phản hồi với người dùng qua loa (tuỳ chọn) Nhờ khả lập trình dễ dàng, sử dụng hệ thống mã nguồn mở, khả kết nối giao tiếp mạnh mẽ với thiết bị ngoại vi, Beagleboard cho phép triển khai hệ thống điều khiển phức tạp mà tiêu thụ điện Ngồi ra, điều khiển thiết kế nhỏ gọn Beagleboard có kích thước 7,5×7,5cm2 Hệ thống nhận lệnh điều khiển từ microphone, đưa đến vi xử lý trung tâm để thực Tập V-1, Số (29), tháng 6/2013 trình nhận dạng lệnh điều khiển Do việc tương tác người hệ thống thực mơi trường bình thường (có nhiễu), nên để đảm bảo độ xác nhận dạng, tín hiệu tiếng nói từ microphone cần đưa qua khâu lọc số để xử lý phần nhiễu sau đưa vào xử lý trung tâm Bộ xử lý trung tâm thực cơng việc nâng cao chất lượng tiếng nói (giải nhiễu), nhận dạng từ điều khiển, phân tích thực lệnh điều khiển, đưa phản hồi hệ thống với người sử dụng thông qua tương tác tiếng nói Ngồi hệ thống có khả điều khiển thiết bị ngoại vi, trao đổi thông tin với hệ thống khác thông qua cổng vào/ra cổng truyền tin Có thể nói, với yêu cầu công việc cần thực hiện, khối xử lý trung tâm “bộ não” hệ thống nhúng tương tác tiếng nói Việc lựa chọn tảng phần cứng phần mềm cho hệ thống nhúng tương tác tiếng nói cần xem xét cho ứng dụng cụ thể, đặc biệt cần ý đến yếu tố ảnh hưởng như: - Số từ cần nhận dạng ứng dụng (quyết định dung lượng nhớ khối xử lý trung tâm), - Môi trường làm việc hệ thống (xem xét ảnh hưởng nhiễu mơi trường (nhiều hay ít, tỉ số tín hiệu nhiễu) lên kết nhận dạng hệ thống), - Tính thời gian thực (quyết định khả tính tốn khối xử lý trung tâm) Hiện nay, hãng sản xuất đưa dòng sản phẩm chuyên biệt phục vụ cho ứng dụng công nghệ xử lý tiếng nói DSP dấu phẩy động cho hệ thống tổng hợp hay nhận dạng Dung lượng nhớ ROM, RAM tăng đáng kể nên ứng dụng mở rộng Hình biểu diễn sơ đồ khối mơ-đun phần cứng hệ thống nhúng thiết bị giao tiếp (tương tác) tiếng nói Hệ thống nhận lệnh điều khiển từ microphone, đưa đến xử lý trung tâm để thực trình nhận dạng lệnh điều khiển Hệ thống bao gồm khối chức sau: -6- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 nhờ sử dụng mơ-đun phân tích văn mô-đun tổng hợp tiếng phát triển PC Bộ nhớ Timer - Mô-đun truyền tin: Căn hệ thống thiết bị xử lý trung tâm sản phẩm nhúng ta sử dụng cổng tryền tin theo mơ thơng qua mã hóa tín hiệu (codec), qua cổng truyển tin USB cổng UART ADC Khuếch đại microphone Nguồn DAC Lọc số Lọc Bộ xử lý PWM Cổng Vào/Ra Truyền tin Hình Sơ đồ khối mô-đun phần cứng hệ thống nhúng cho giao tiếp tiếng nói - Mơ-đun giao tiếp người-máy: Hệ thống tương tác người-máy vận hành theo chế hướng kiện sử dụng ngắt cứng ngắt mềm, quét theo chu kì định Việc nhận dạng thực liên tục, trường hợp chưa bắt đầu đối thoại, bắt đầu đối thoại, hệ thống cho phép/khơng cho phép nhận dạng để đảm bảo hạn chế nhận dạng nhầm nhiễu môi trường Mặt khác, tùy vào trình, trạng thái thiết bị, tập lệnh nhận bị hạn chế để tránh hậu nhận dạng nhầm dẫn đến điều khiển sai trình Sơ đồ điều khiển thiết bị tiếng nói giới thiệu khái quát Hình Việc điều khiển thực hai mô-đun chạy song song Môđun thứ dùng để điều khiển thiết bị mơđun thứ hai dùng để nhận dạng tiếng nói xác định lệnh điều khiển Hai mô-đun trao đổi thông tin với thông qua cờ_nghe, cờ_dừng_nghe tệp tin result.txt Hai biến cờ_nghe cờ_dừng_nghe hai biến kiểu boolean có giá trị sai để xác định kiện bắt đầu kết thúc trình lắng nghe lệnh điều khiển Kết nhận dạng lưu vào tệp tin result.txt để chương trình điều khiển thiết bị đọc lệnh điều khiển cho phép chương trình nhận dạng tiếp tục thu âm thực việc nhận dạng đồng thời thực lệnh điều khiển - Mơ-đun nhận dạng: Vấn đề nhận dạng tiếng nói xem vấn đề phân loại mang tính thống kê (các lớp khác nhau), giống hình thức nhận dạng mẫu cổ điển Một lớp định nghĩa tập từ cho phép từ điển đóng Một tham số cho tín hiệu tiếng nói chọn (như chuỗi vector đặc trưng âm học), xác suất điều kiện MAP (Maximum a Posteriori) - Mô-đun tổng hợp tiếng: Mô-đun nhận đầu vào đoạn văn cần tổng hợp tạo đầu tín hiệu tiếng nói Để xử lý đoạn văn đầu vào, chương trình cần phải có mơ-đun phân tích văn Vì mơ-đun tổng hợp phát triển ứng dụng nhúng, không cần phải đưa vào văn bản, mà văn đưa dạng cấu trúc, với mơ-đun xây dựng đầu vào đoạn văn cần tổng hợp mà file phân tích văn Tệp tin có -7- Hình Sơ đồ thuật tốn điều khiển Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT III ỨNG DỤNG ĐIỀU KHIỂN ROBOT NHỆN SÁU CHÂN Việc sử dụng robot làm thay người mơi trường có điều kiện khắc nghiệt, độc hại, nguy hiểm xu hướng trội lĩnh vực tự động hóa Với việc điều khiển trực tiếp robot tiếng nói, ứng dụng đưa khả tích hợp lực phân tích, quan sát trí thơng minh người vào robot để thực tác vụ phức tạp Việc điều khiển robot tiếng nói giúp cung cấp cho người dùng phương thức giao tiếp dễ dàng thuận tiện Hình Robot nhện sáu chân lắp ráp từ kit Bioloid Bảng Các đặc tính động AX-12 Đặc tính Đơn vị đo Điện áp 7V ÷ 10V (lý tưởng 9,6V) Góc hoạt động 300° Dịng cực đại 900mA Tỷ lệ bánh 1/254 Lực giữ tối đa 12 (7V) ÷ 16,5kgf.cm (10V) Vận tốc cực đại 223°/s (7V) ÷ 306°/s (10V) Góc quay cực tiểu 0,35° Khối lượng 55g Thơng tin phản Nhiệt độ, điện áp, tải, vị hồi trí,… Bảng Các đặc tính cảm biến AX-S1 Đặc tính Đơn vị đo Điện áp 7V ÷ 10V (lý tưởng 9,6V) Dòng điện cung cấp 40mA Độ phân giải 10 bit (1024 giá trị) Khối lượng 37g Thông tin phản hồi Nhiệt độ, điện áp,… Tập V-1, Số (29), tháng 6/2013 Trong ứng dụng này, mơ hình robot nhện sáu chân lựa chọn để điều khiển cho phép ứng dụng mơi trường mấp mơ, có nhiều vật cản nhỏ Mơ hình robot nhện sáu chân lắp ráp từ kit Bioloid [6] hãng Robotis Robot nhện sáu chân tích hợp với hệ thống nhận dạng tiếng nói cài đặt hệ thống nhúng giúp cho việc xây dựng ứng dụng điều khiển tiếng nói tích hợp gói gọn Việc lắp đặt robot nhện sáu chân thực với 18 động AX-12, cảm biến AX-S1, hộp điều khiển Tất thiết bị chi tiết khí lắp ráp lấy từ kit Bioloid Mỗi chân robot có động AX-12 tương ứng với bậc tự chân nhện Các đặc tính kỹ thuật động AX-12 cảm biến AX-S1 giới thiệu Bảng Bảng Động AX-12 thực tế mơ-đun đóng gói bao gồm bánh mạch điều khiển bên Do đó, động AX-12 sử dụng cách dễ dàng mô-đun lắp ghép mà không cần thêm mạch điều khiển công suất AX12 cịn động thơng minh phản hồi thông tin điều kiện làm việc động như: điện áp, nhiệt độ, tải,… Khi lắp ráp cho robot nhện, động AX-12 ghép nối tiếp với việc điều khiển động xác định nhờ vào ID quy định cho động Việc điều khiển robot di chuyển dựa nguyên lý di chuyển tam giác thay đổi Với cách này, sáu chân robot nhện chia thành hai nhóm xen kẽ di chuyển lệch pha Ở pha di chuyển, ba chân thuộc nhóm nhấc khỏi ba chân nhóm khác chạm để tạo thành tam giác vững cân nâng đỡ toàn robot Hai nhóm chân luân phiên nhấc lên tiếp đất để tạo nên bước nhịp nhàng cho robot Trong toán điều khiển robot nhện giới thiệu báo này, bước di chuyển xây dựng bao gồm: tiến trước, lùi sau, quay trái, quay phải Mỗi bước di chuyển chia thành bốn pha nhỏ với thay đổi góc quay ln phiên nhóm -8- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT ba chân nhện Về bản, bước di chuyển lùi sau bao gồm pha di chuyển tiến trước với thứ tự pha đảo ngược động quay theo chiều ngược lại Tương tự vậy, quay phải bao gồm pha di chuyển quay trái với thứ tự ngược lại pha chiều quay đảo ngược động Để di chuyển tiến trước, ba chân nhện nhóm thứ nhấc lên khỏi mặt đất pha thứ Trong pha thứ hai, ba chân nhện thứ hai (đang chạm đất) đẩy thân nhện phía trước Ở pha thứ ba, ba chân nhện thứ tiếp đất ba chân nhện thứ hai nhấc lên Đến pha cuối cùng, chân ba thứ đẩy thân nhện phía sau trước Nếu yêu cầu tiếp tục đến ba chân thứ lại nhấc lên ba chân thứ hai lại chạm đất pha thứ Chu trình lặp lặp lại tạo nên di chuyển liên tục robot tiến trước Để di chuyển quay trái, ba chân thứ robot tiếp đất, giữ thăng cho robot pha thứ thứ hai; đó, ba chân thứ hai robot chạm đất pha thứ ba thứ tư Ở pha thứ nhất, chân ba thứ hai nhấc lên khỏi mặt đất, cho phép chân ba thứ tự đẩy thân robot quay sang trái pha thứ hai Các chân ba thứ điều chỉnh lại vị trí cho cân với chân ba thứ pha thứ tư Chu trình thực liên tiếp tạo nên di chuyển quay trái nhịp nhàng robot Để xác định góc quay động tương ứng với vị trí tiếp đất robot bước đi, ta xây dựng toán động học thuận giải toán động học ngược cho robot nhện sáu chân lắp ráp Tương tác để điều khiển robot thực tiếng nói can thiệp nút nhấn hộp điều khiển Để điều khiển robot tiếng nói, việc thu thập số liệu âm thực với thu nhận tín hiệu âm không dây EM 300 G2 hãng Sennheiser Các điều kiện thu nhận âm tuân thủ với tần số lấy mẫu 8kHz, số bit lượng tử Tập V-1, Số (29), tháng 6/2013 hoá 16bit, truyền tin theo chuẩn sóng radio UHF tần số khoảng 518-554MHz Để tương tác điều khiển robot, người điểu khiển dùng tập lệnh điều khiển thiết kế sẵn Bảng Khi nhận câu lệnh điều khiển tập lệnh điều khiển này, robot thực tác vụ định nghĩa tương ứng Bảng Tập lệnh điều khiển robot nhện Câu lệnh Tác vụ thực tiến Robot tiến phía trước robot tiến lùi Robot lùi lại phía sau robot lùi quay phải Robot quay sang phải robot quay phải quay trái Robot quay sang trái robot quay trái dừng Robot dừng tất tác vụ thực hiện, trở trạng robot dừng thái sẵn sang IV ỨNG DỤNG ĐIỀU KHIỂN QUẠT Hình thể sơ đồ thiết bị hệ thống xây dựng Bo mạch nhúng cung cấp nguồn chung với quạt, dùng nguồn độc lập Hai cổng audio vào/ra nối tương ứng với microphone loa ngồi Để bật/tắt số quạt chương trình, rơ-le điện sử dụng tương ứng thay cho nút bấm có sẵn quạt Một đầu dây rơ-le số 1, 2, nối với chân cổng mở rộng bo mạch nhúng, tương ứng chân 18, 20, 22, đầu dây lại nối với chân số 28 Sơ đồ chân mở rộng bo mạch nhúng thể Hình Ngoại trừ hai chân 1, với điện cố định, 27, 28 nối đất, 25, 26 tương ứng với với RESET REGEN, chân đánh số nằm khoảng từ đến 24 lập trình để điều khiển Mỗi chân điều khiển để xác lập hai mức điện áp 1.8V Hình thể sơ đồ điều khiển hệ thống Tín hiệu âm từ người dùng sau thu từ -9- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 microphone xử lý nhận dạng thành câu lệnh Tương ứng với câu lệnh, chương trình chạy bo mạch nhúng điều khiển bật/tắt rơ-le tương ứng để tăng/giảm bật/tắt quạt, đồng thời thể phản hồi với người dùng qua loa (nếu nối) Chiếc quạt điều khiển có ba chế độ chạy 1, 2, từ thấp đến cao Ba rơ-le điện có đầu vào 5V thiết lập tương ứng với ba chế độ Tại thời điểm, có rơ-le bật tương ứng với chế độ chạy quạt, khơng có rơ-le bật quạt tắt Các câu lệnh thiết kế Bảng Hình Sơ đồ điều khiển quạt tiếng nói Bảng Tập lệnh điều khiển quạt Câu lệnh Tác vụ thực quạt số Bật quạt số 1: bật rơ-le số tắt rơ-le lại bật quạt số hai Bật quạt số 2: bật rơ-le số tắt rơ-le lại bật quạt số ba Bật quạt số 3: bật rơ-le số tắt rơ-le lại bật quạt tắt Tắt quạt: tắt hết rơ-le Bảng Mã GPIO chân cổng mở rộng Chân 10 12 14 16 18 20 22 24 Hình Sơ đồ thiết bị hệ thống điều khiển quạt Hình Các chân cổng mở rộng bo mạch nhúng Beagleboard C4 GPIO 140 142 143 141 158 162 161 159 156 157 168 Chân 11 13 15 17 19 21 23 GPIO 139 138 137 136 135 134 133 132 131 130 183 Hiệu điện chân cổng mở rộng điều khiển Beagleboard thiết lập điện áp 1.8V bật, kích lên 5V đầu để điều khiển rơle Cổng mở rộng bo mạch nhúng chân GPIO (general purpose input/output), chân tương ứng với số GPIO cho Bảng Việc điều khiển Ubuntu thiết lập hệ thống - 10 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 tệp giả lập đường dẫn /sys/class/gpio, với trình tự sau: V CHỈ TIÊU KỸ THUẬT VÀ KẾT QUẢ THỬ NGHIỆM, ĐÁNH GIÁ - Ghi giá trị N vào tệp tin giả lập /sys/class/gpio/ export để giữ quyền điều khiển chân có GPIO N Nếu thành cơng (khi chân chưa bị giữ chương trình khác), hệ thống tạo thư mục giả lập /sys/class/gpio/gpioN bao gồm tệp tin device, power, uevent, direction, subsystem, value Hệ thống kiểm chuẩn phòng nhiễu, hệ thống nhận dạng không phụ thuộc vào thông số môi trường nhiệt độ, độ ẩm Thiết bị kiểm định với 12 người Do đặc thù thay đổi giọng nói người, người thử nghiệm lựa chọn người có phương ngữ chuẩn miền Bắc, độ tuổi từ 20 đến 60 tuổi Người kiểm tra không nằm sở liệu để luyện hệ thống - Ghi giá trị N vào tệp tin giả lập /sys/class/gpio/ unexport muốn giải phóng quyền điều khiển Thư mục giả lập /sys/class/gpio/gpioN tệp tin bên bị xoá - Ghi chuỗi low vào tệp tin giả lập /sys/class/gpio/ gpioN/direction muốn thiết lập điện chân mức thấp (0V) - Ghi chuỗi high vào tệp tin giả lập /sys/class/gpio/ gpioN/direction muốn thiết lập điện chân mức cao (1.8V) - Để đọc tín hiệu vào từ chân, trước hết cần ghi chuỗi in vào tệp tin giả lập /sys/class/gpio/gpioN/ direction, sau đọc tín hiệu từ tệp tin giả lập /sys/class/gpio/gpioN/value Việc đọc/ghi vào tệp tin giả lập tương tự tệp tin đĩa thơng thường, thực ngơn ngữ lập trình, hay qua lệnh shell Linux Dùng chương trình lập trình sẵn bo mạch nhúng để điều khiển bật/tắt rơ-le điện thay bấm trực tiếp nút số quạt thơng thường Người dùng lệnh cho chương trình cách nói câu lệnh có sẵn vào microphone, mô tả Việc thu thập số liệu âm thực với thu nhận tín hiệu âm khơng dây EM300G2 hãng Sennheiser Điều kiện thu nhận âm thiết lập với tần số lấy mẫu 8kHz, số bit mẫu 16, truyền tin sóng radio UHF tần số khoảng 518-554MHz Đối với câu thử nghiệm, câu đọc 10 lần với tốc độ nói bình thường Căn hướng dẫn đánh giá trình bày độ khơng đảm bảo đo ĐLVN 131:2004 Sai số thiết bị đánh giá thông qua tỉ lệ sai tổng hợp nhóm người kiểm tra Tỉ lệ sai người tính theo cơng thức: γ i = N s N total (1) γ i sai số thử người thứ i, N s số lần sai (không phân biệt câu/từ điều khiển), N total tổng số lần thử Sai số thiết bị đánh giá theo cơng thức sai số bình qn quân phương (ước lượng phương sai) nhóm người thử nghiệm: γ tbi = tst N ∑γ i =1 i N ( N − 1) (2) γ tbi sai số thử nghiệm thiết bị thứ i, N số thử nghiệm, tst hệ số student ( tst = 1,80 với mức tin cậy 90%, số bậc tự 12 − = 11 ) Các bước tiến hành theo trình tự sau: - Bước 1: Kiểm tra hoạt động kết nối hệ thống với phần tử điều khiển - Bước 2: Kiểm tra hệ thống theo đối tượng điều khiển Kết thử nghiệm ghi vào bảng kết - 11 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT - Bước 3: Ước lượng sai số thiết bị theo công thức (1) (2) Bảng Kết thử nghiệm Ứng dụng Sai số thử nghiệm (%) Robot nhện 5,59 Quạt 8,33 Tỉ lệ nhận dạng (%) 93,15 91,67 Tập V-1, Số (29), tháng 6/2013 phương pháp đánh giá chất lượng độ tin cậy điều khiển Kết cho thấy hệ thống tương tác giao tiếp người máy tiếng nói hệ thống nhúng đáp ứng tốt yêu cầu đặt LỜI CẢM ƠN Cơ sở liệu dùng để huấn luyện mơ hình nhận dạng xây dựng với tổng số 62.846 câu tiếng nói, tương đương với 32 huấn luyện Kết thử nghiệm với 12 người, tổng kết Bảng 6, cho thấy tỉ lệ nhận dạng 90% sai số thử nghiệm 10% với hai ứng dụng robot nhện quạt Thời gian đáp ứng việc nhận dạng giây VI KẾT LUẬN Bài báo trình bày hệ thống tương tác người-máy giao tiếp tiếng nói cài đặt bo mạch nhúng Beagleboard C4 Do việc tương tác người hệ thống thực môi trường bình thường (có nhiễu), nên để đảm bảo độ xác nhận dạng, tín hiệu tiếng nói từ microphone cần đưa qua khâu lọc số để xử lý phần nhiễu sau đưa vào xử lý trung tâm Bộ xử lý trung tâm thực công việc nâng cao chất lượng tiếng nói (giải nhiễu), nhận dạng từ điều khiển, phân tích thực lệnh điều khiển, đưa phản hồi hệ thống với người sử dụng thông qua tương tác tiếng nói Ngồi hệ thống có khả điều khiển thiết bị ngoại vi, trao đổi thông tin với hệ thống khác thông qua cổng vào/ra cổng truyền tin Trên sở phân tích yêu cầu, tính kỹ thuật chủ yếu hệ tương tác, tảng phần cứng phần mềm cho hệ thống nhúng xem xét lựa chọn cho ứng dụng cụ thể Hai sản phẩm ứng dụng robot nhện quạt điều khiển tiếng nói phân tích, thiết kế hệ thống điều khiển, triển khai phương pháp tương tác tiếng nói Với sản phẩm ứng dụng, báo cáo đưa Cơng trình trình bày báo nằm khuôn khổ Đề tài NCKH trọng điểm cấp nhà nước mã số KC.03.15/06-10 mang tên “Nghiên cứu thiết kế chế tạo thiết bị hệ thống tự động hố thơng minh sử dụng tương tác người-máy tiếng nói điều khiển” TÀI LIỆU THAM KHẢO [1] Picone, J.W., Signal modeling techniques in speech recognition, Proceedings of the IEEE, 81(9), 12151247, 1993 [2] Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 [3] Huang, X., Spoken Language Processing: a Guide to Theory, Algorithm, and System Development Upper Saddle River NJ: Prentice Hall PTR, 2001 [4] Rabiner, L., Schmidt, C., Application of dynamic time warping to connected digit recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 377-388, 1980 [5] Benesty, J., Springer Processing Springer, 2008 Handbook of Speech [6] Thai, C.N., Paulishen, M., Using Robotis Bioloid systems for instructional robotics, Proceedings of IEEE Southeastcon, 300-306, 2011 Nhận ngày: 29/11/2011 - 12 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 SƠ LƯỢC VỀ CÁC TÁC GIẢ NGUYỄN THỊ LAN HƯƠNG ĐÀO TRUNG KIÊN VHiện viện phó Viện Điện, đồng thời tham gia nghiên cứu Viện nghiên cứu MICA, Đại học Bách khoa Hà Nội Sinh năm 1981 Vĩnh Phúc Tốt nghiệp đại học năm 2003 Đại học Cergy-Pontoise (Pháp), thạc sĩ năm 2005 Đại học Paris (Pháp) CNTT nhận tiến sĩ năm 2010 Đại học Dayeh (Đài Loan) Lĩnh vực nghiên cứu nay: tổng hợp thiết bị đo, xử lý tín hiệu đặc biệt tín hiệu đo lường, mơi trường thơng minh, mạng khí tự động hố Hiện công tác Viện nghiên cứu MICA, Đại học Bách khoa Hà Nội Lĩnh vực nghiên cứu: môi trường tương tác cảm thụ, hệ thống tự động cảm biến (không dây) Điện thoại quan: 0438683087 Email: lan-huong.nguyen@mica.edu.vn Điện thoại quan: 0438683087, 0986128481 Email: trung-kien.dao@mica.edu.vn PHẠM THỊ NGỌC YẾN Sinh năm 1959 Hiện Viện trưởng Viện nghiên cứu MICA, kiêm Trưởng Bộ môn Kỹ thuật đo Tin học công nghiệp thuộc Viện Điện, Đại học Bách khoa Hà Nội Lĩnh vực nghiên cứu nay: hệ thống tự động hóa điều khiển sử dụng tương tác người-máy, thiết bị đo cá nhân, môi trường cảm thụ Điện thoại: 0438683087 Email: ngoc-yen.pham@mica.edu.vn - 13 - ... tương tác, tảng phần cứng phần mềm cho hệ thống nhúng xem xét lựa chọn cho ứng dụng cụ thể Hai sản phẩm ứng dụng robot nhện quạt điều khiển tiếng nói phân tích, thiết kế hệ thống điều khiển, triển... lượng tiếng nói (giải nhiễu), nhận dạng từ điều khiển, phân tích thực lệnh điều khiển, đưa phản hồi hệ thống với người sử dụng thông qua tương tác tiếng nói Ngồi hệ thống có khả điều khiển thiết bị. .. trình, trạng thái thiết bị, tập lệnh nhận bị hạn chế để tránh hậu nhận dạng nhầm dẫn đến điều khiển sai trình Sơ đồ điều khiển thiết bị tiếng nói giới thiệu khái qt Hình Việc điều khiển thực hai