1. Trang chủ
  2. » Tất cả

Nhận dạng tiếng nói trên kit c6713 và ứng dụng trong điều khiển

24 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 640,32 KB

Nội dung

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP NHẬN DẠNG TIẾNG NÓI TRÊN KIT C6713 VÀ ỨNG DỤNG TRONG ĐIỀU KHIỂN NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆ[.]

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ VIỄN THƠNG ĐỒ ÁN TỐT NGHIỆP NHẬN DẠNG TIẾNG NĨI TRÊN KIT C6713 VÀ ỨNG DỤNG TRONG ĐIỀU KHIỂN NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG Hướng dẫn: ThS ĐẶNG PHƯỚC HẢI TRANG Mục Lục CHƯƠNG GIỚI THIỆU 1.1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.2 MỤC TIÊU ĐỀ TÀI .1 1.3 NHIỆM VỤ VÀ GIỚI HẠN ĐỀ TÀI 1.3.1 Nhiệm vụ .1 1.3.2 Giới hạn đề tài 1.4 PHƯƠNG PHÁP NGHIÊN CỨU CHƯƠNG TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 2.1 CÁC PHƯƠNG PHÁP TRÍCH ĐẶC TRƯNG TIẾNG NĨI 2.1.1 Phương pháp mã hóa dự đốn tuyến tính LPC .3 2.1.2 Phương pháp PLP 2.2 CÁC PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI 2.2.1 Mơ hình mạng nơ-ron 2.2.2 Lượng tử vector-VQ .6 CHƯƠNG NHẬN DẠNG TIẾNG NÓI DÙNG MFCC 3.1 NỘI DUNG 3.2 Q TRÌNH THỰC HIỆN THUẬT TỐN MFCC 3.2.1 Pre-emphasic .9 3.2.2 Framming .9 3.2.3 Windowing 10 3.2.4 FFT .11 3.2.5 Mel-Frequence wrapping 12 3.2.6 Cestrump 13 3.3 ƯU NHƯỢC ĐIỂM .14 CHƯƠNG THỰC HIỆN NHẬN DẠNG GIỌNG NÓI VÀ ỨNG DỤNG ĐIỀU KHIỂN TRÊN C6713 15 4.1 GIỚI THIỆU SƠ LƯỢT VỀ KIT C6713 15 4.3 LƯU ĐỒ MƠ PHỎNG CHƯƠNG TRÌNH .16 4.4 XÂY DỰNG MƠ HÌNH XE ĐIỀU KHIỂN .17 4.5 KẾT QUẢ THỰC HIỆN .17 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 21 5.1 KẾT LUẬN 21 5.1.1 Những mặt làm 21 5.1.2 Những mặt chưa làm 21 5.2 HƯỚNG PHÁT TRIỂN .21 CHƯƠNG GIỚI THIỆU 1.1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU Tiếng nói phương tiện giao tiếp người, sử dụng lời nói cách diễn đạt đơn giản hiệu người thường giao tiếp với thiết bị thông qua việc nhấn bàn phím, cơng việc cịn thủ công Đã từ lâu, người mơ ước đến hệ thống máy điều khiển tự động giao tiếp tiếng nói tự nhiên người Ngày nay, với phát triển khoa học kỹ thuật công nghệ, đặc biệt lĩnh vực tin học, hệ thống máy tự động dần thay người nhiều công việc Nhu cầu giao tiếp với thiết bị máy tiếng nói cần thiết, phương thức giao tiếp văn minh tự nhiên 1.2 MỤC TIÊU ĐỀ TÀI Mục đích đề tài xây dựng hệ thống nhận dạng tiếng Việt sử dụng phương pháp thuật trích đặc trưng MFCC (MelFrequency Ceptrums Coefficients) Đồng thời, thiết kế mơ hình điều khiển tiếng nói xây dựng với từ vựng gồm từ: tiến, lùi, trái, phải, dừng, thẳng mơ hình điều khiển xe tiếng nói ứng dụng thực tế mang tính thử nghiệm đề tài 1.3 NHIỆM VỤ VÀ GIỚI HẠN ĐỀ TÀI 1.3.1 Nhiệm vụ - Tìm hiểu đặc điểm tín hiệu tiếng nói - Xây dựng thuật tốn cắt khoảng lặng tín hiệu tiếng nói - Tìm hiểu phương pháp trích đặc trưng tín hiệu tiếng nói MFCC - Khảo sát thí nghiệm C6713DSK - Xây dựng hệ thống nhận dạng tiếng nói KIT C6713DSK sử dụng ngơn ngữ lập trình C++ - Xây dựng mơ hình điều khiển xe tiếng nói 1.3.2 Giới hạn đề tài - Đề tài chưa xét đến loại nhiễu ảnh hưởng đến tín hiệu tiếng nói - Do KIT C6713DSK khơng có port out nên khó cho phần thiết kế để điều khiển 1.4 PHƯƠNG PHÁP NGHIÊN CỨU + Thực cắt khoảng lặng sau thu liệu từ microphone phương pháp xét ngưỡng cắt khoảng lặng + Xử lý liệu: Thực trích đặc trưng tiếng nói phương pháp trích đặc trưng MFCC + Tính khoảng cách Eclid: tính khoảng cách hệ số MFCC liệu kiểm tra hệ số MFCC liệu mẫu người nghiên cứu thực KIT C6713DSK đưa kết dựa vào khoảng cách ngắn khoảng cách tính CHƯƠNG TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 2.1 CÁC PHƯƠNG PHÁP TRÍCH ĐẶC TRƯNG TIẾNG NĨI 2.1.1 Phương pháp mã hóa dự đốn tuyến tính LPC Là phương thức phân tích mạnh kỹ thuật phân tích dự đốn tuyến tính Phương pháp mạng lại ưu vượt trội cho việc ước lượng thơng số tiếng nói cao độ, formants, phổ,… mã hóa bít thấp để truyền dẫn lưu trữ Điều quan trọng phương pháp khả thực ước lượng thơng số cách xác mối liên hệ việc tính tốn tín hiệu tiếng nói Hình 2.1: Sơ đồ xử lý rút trích đặc trưng LPC 2.1.2 Phương pháp PLP Phương pháp kết hợp phương pháp MFCC LPC.5 Tính hiệu tiếng nói đưa qua khối Hình 2.2: Sơ đồ xử lý PLP 2.2 CÁC PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NĨI 2.2.1 Mơ hình mạng nơ-ron Mạng neural nhân tạo (Artificial Neural Network - ANN) mơ hình xử lý thơng tin dựa chế hoạt động hệ thống thần kinh sinh học, não Thành phần yếu mơ hình cấu trúc đặc biệt hệ thống Nó tập hợp số lượng lớn phần tử xử lý kết hợp nội (được gọi neuron) hoạt động hợp để giải tốn cụ thể Một ANN cấu hình cho ứng dụng cụ thể đó, ví dụ nhận dạng mơ hình phân loại liệu thơng qua q trình học Việc học hệ thống nhằm mục đích điều chỉnh kết nối thuộc kỳ tiếp hợp phân chia tế bào mà có sẵn neuron.6 Cấu trúc tổng quát nơ-ron: Hình 2.3:Mơ hình mạng nơ-ron Giải thích ký hiệu: - Tập đầu vào: tín hiệu vào (input signal) nơron, tín hiệu thường đưa dạng vector N chiều - Tập liên kết: Mỗi liên kết thể trọng số (gọi trọng số liên kết – Synaptic weight) Thông thường trọng số khởi tạo cách ngẫu nhiên thời điểm khởi tạo mạng cập nhật liên tục trình học mạng - Bộ tổng (Summing function): thường dùng để tính tổng tích đầu vào với trọng số liên kết - Ngưỡng (cịn gọi độ lệch – bias): Ngưỡng thường đưa vào thành phần hàm truyền - Hàm truyền (Transfer function): Hàm dùng để giới hạn phạm vi đầu nơron Nó nhận đầu vào kết hàm tổng ngưỡng cho - Đầu ra: Là tín hiệu đầu nơron, với nơron có tối đa đầu 2.2.2 Lượng tử vector-VQ Vector quantization (VQ) kĩ thuât lượng tử cổ điển từ xử lý tín hiệu. Ban đầu sử dụng để nén liệu . Nó hoạt động cách chia tập hợp lớn điểm ( vector ) vào nhóm có số điểm gần tới chúng  Mỗi nhóm đại diện bởi centroid  Hình 2.4:Ví dụ minh họa lượng tử vector VQ.8 Trong hình có hai giọng nói hai chiều khơng gian vector âm học trình bày Speaker (hình trịn) Speaker (hình tam giác) Khoảng cách từ vector aucoustic (sample) đến codeworld (centoid) gần Codebook gọi VQ distortion.Trong nhận dạng, đầu vào giọng nói khơng rõ "vector-lượng tử hóa" tổng độ VQ distortion tính lưu sở liệu Tiếng nói có khoảng cách tổng từ centroid đến sample nhỏ tương ứng với tiếng nói lưu sở liệu CHƯƠNG NHẬN DẠNG TIẾNG NÓI DÙNG MFCC 3.1 NỘI DUNG Trong toán nhận dạng mẫu nói chung, phương pháp trích chọn đặc trưng đóng vai trị định xác tốn Chính vậy, lựa chọn phương pháp trích chọn đặc trưng tốt điều cần quan tâm đặc biệt Như giới thiệu, có nhiều phương pháp trích chọn đặc trưng phương pháp có ưu nhược điểm riêng nó, phương pháp MFCC sử dụng phổ biến tương đối hiệu nhận dạng tiếng nói Trong chương này, nhóm giới thiệu cách chi tiết trích chọn đặc trưng MFCC MFCC viết tắt Mel-frequency cepstral coefficients Kỹ thuật dựa việc thực biến đổi để chuyển liệu âm đầu vào thang đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm 3.2 Q TRÌNH THỰC HIỆN THUẬT TỐN MFCC Tín hiệu tiếng nói đưa qua khối sau để lấy đặc trưng Pre-emphasic Frame – Blocking Windowing FFT Mel-frequence wrapping Cepstrum Hình 3.1:Lưu đồ MFCC 3.2.1 Pre-emphasic Để tăng độ xác hiệu q trình trích đặc trưng, tín hiệu tiếng nói thường trước xử lý trước trích xuất Quá trình tiền xử lý tiếng nói bao gồm lọc kỹ thuật số phát tín hiệu tiếng nói Bộ lọc có tác dụng khuếch đại tín hiệu lọc tiếng ồn xung quanh Pre-emphasizer thực lọc hệ số cố định thích ứng, nơi mà hệ số điều chỉnh theo thời gian với giá trị tương quan theo tiếng nói, thường lọc thơng cao Phương trình lọc: x [n] = x[n]−a.x[n−1] với đầu vào x [n] 0,9 ≤ a ≤ 1.0 (3.1) Và hàm chuyển đổi lọc Fir miền z: H ( Z ) = − α z−1, 0.9 ≤ α ≤ 1.0 Với a hệ số pre-emphasis (3.2) Mục đích giai đoạn để tăng lượng lượng tần số cao Sự sụt giảm lượng tần số (được gọi nghiêng quang phổ) chất xung hầu Tăng cường lượng tần số cao làm cho thông tin từ formant tốt cho mơ hình âm học 3.2.2 Framming Đầu tiên chia tín hiệu thành nhiều khung tín hiệu tiếng nói phức tạp khơng ổn định, việc phân tích phải thực đoạn ngắn khoảng (10-30)ms, phạm vi tín hiệu tiếng nói xem tương đối ổn định Hình 3.2:Minh họa cho trình Framming Windowing.8 Tín hiệu tiếng nói liên tục phân thành khung N mẫu, khung liền kề cách M mẫu Khung chứa N mẫu Khung thứ hai mẫu thứ M sau khung thứ chồng lắp M-N mẫu với khung thứ Quá trình tiếp tục tất tiếng nói xét nhiều khung Thường ta chọn N=256 (để cửa sổ xấp xỉ 30ms) M=100 Hình 3.3:Quá trình phân khung 3.2.3 Windowing Windowing thực để tránh gián đoạn tự nhiên tiếng nói, biến dạng phổ Trên thực tế có nhiều loại cửa sổ như: Rectangular window, Hamming window, Hann window, Cosine window, Lanczos window, Bartlett window (zero valued end-points), Triangular window (non-zero endpoints), Gauss windows Mỗi cửa sổ có ưu nhược điểm riêng Nhưng nhận dạng tiếng nói, loại cửa sổ thường sử dụng cửa sổ Hamming Cửa sổ Hamming w (n), định nghĩa công thức (2.4) Với định nghĩa cửa sổ w(n) theo công thức trên,0 ≤ n ≤ N −1 kết chia cửa sổ cho khung x(n): ~ xl =x l ( n ) w (n) với ≤ n ≤ N −1 (3.3) Việc việc nhân cửa sổ với tín hiệu tiếng nói có hai tác dụng: + Suy giảm biên độ hai đầu khoảng trích ra, để ngăn chặn thay đổi đột ngột diềm đầu cuối + Tạo tín hiệu có tần số chuẩn cho biến đổi Fourier hàm cửa sổ tạo phổ tiếng nói 3.2.4 FFT Phân tích phổ cho thấy âm sắc khác tín hiệu phát biểu tương ứng với phân phối lượng khác tần số Vì chúng tơi thực FFT để có đáp ứng tần số biên độ frame Qua phép biến đổi này, tín hiệu đưa khơng gian tần số Nếu tính tốn trực tiếp khơng hiệu phải thực khối lượng tính tốn lớn Để giảm bớt số phép toán độ phức tạp, người ta thường dùng phép biến đổi Fourier nhanh (FFT – Fast Fourier transform) có cơng thức sau: N−1 −2π jkn X ( n)= ∑ x k e N (3.4) k =0 Trong đó: X(n): số phức biểu diễn cường độ pha thành phần tần số tín hiệu gốc xk : giá trị mẫu thứ k frame N: số mẫu frame Vì X(n) số phức nên lấy modul: (3.5) 10 3.2.5 Mel-Frequence wrapping Thang Mel Các tín hiệu tiếng nói bao gồm tone với tần số khác Đối với tone có tần số thực tế tương ứng, đo Hz, khoảng khác đo quy mô Mel Thang mel-frequency tuyến tính với tần số 1000Hz logarit 1000Hz Chúng ta sử dụng cơng thức sau để tính tốn mels có tần số cho trước: mel (f) = 2595 * log10 (1 + f / 700).8 (3.6) Một cách tiếp cận để mô phổ trực tiếp sử dụng băng lọc, lọc cho thành phần tần số Mel Các ngân hàng lọc có đáp ứng tần số hình tam giác khoảng cách băng thông xác định khoảng mel-frequency khơng đổi Phân tích : Phân tích mel-frequency dựa thí nghiệm nhận thức người   Các thông tin mang thành phần tần số thấp tín hiệu tiếng nói quan trọng so với thành phần tần số cao Vì băng lọc tạo Băng lọc Mel khơng thống trục tần số, có nhiều lọc vùng tần số thấp số lọc vùng tần số cao   Hình 3.4: Các băng lọc 11 Sau có phổ (FFT cho tín hiệu cửa sổ), chúng tơi áp dụng băng lọc mel, tín hiệu xử lý giống phản ứng tai người: N ~ S ( l ) =∑ S ( k ) M l ( k ) (3.7) k =0 Trong đó: ~ + S ( l ): phổ Mel + S ( k ) : phổ gốc + M l (k ): Mel filterbank + L = 0, 1, , L-1, L tổng số lọc mel + N / size = Nửa FFT 3.2.6 Cestrump Trong bước cuối cùng, phổ log mel chuyển đổi trở lại thời gian Kết gọi hệ số tần số mel cepstrum (MFCCs) Biểu diễn phổ tiếng nói theo cepstrum cách biểu diễn tốt cho đặc điểm phổ tín hiệu đối việc phân tích frame Bởi hệ số phổ mel số thực, họ chuyển đổi sang miền thời gian cách sử dụng Discrete Cosine Transform (DCT)   Hình 3.5: Hệ số Mel Cepstrum Từ đây, tín hiệu tiếng nói tích chập biến đổi chậm đáp ứng xung quản (filter) thay đổi nhanh xung hầu (source), đó, quang 12 phổ tiếng nói bao gồm đường bao phổ (tần số thấp) chi tiết phổ(tần số cao) 3.3 ƯU NHƯỢC ĐIỂM - Ưu điểm: + Phương pháp MFCC tự động giảm số lượng thông tin biến đổi + Fourier khung tiếng nói + Loại bỏ bớt MFCCs làm mịn phổ tín hiệu + Làm giảm hệ số liệu - Nhược điểm: Gây thông tin 13 CHƯƠNG THỰC HIỆN NHẬN DẠNG GIỌNG NÓI VÀ ỨNG DỤNG ĐIỀU KHIỂN TRÊN C6713 4.1 GIỚI THIỆU SƠ LƯỢT VỀ KIT C6713 Hình 4.1:Sơ đồ khối C6713 DSK - Đặc trưng:9 Các tính bao gồm: + Bộ biến đổi tín hiệu AIC23 + Bốn cổng tín hiệu vào ra: MIC IN (Microphone input), LINE IN (line input), LINE OUT (line output) HEADPHONE (headphone putput) + Trạng thái led Dip Switch DSK cấu hình điều khiển theo nhu cầu người sử dụng + Cổng USB giao tiếp với PC Trên cổng thiết kế JTAG nhúng giúp ta sửa lỗi chương trình chạy chip mà khơng cần nối JTAG 14 + Cổng PRW (+5V) cung cấp nguồn cho board Cổng cung cấp điện áp +1.26V cho lõi chíp C6713 +3.3V để ni nhớ thiết bị ngoại vi khác + Bộ nhớ trong: mạch có 264kB nhớ (4 KB đệm liệu L1D; 4KB đệm chương trình L1P; 256 Kb nhớ L2) + Bộ nhớ ngồi: kít DSP có sẵn 16Mb nhớ ngồi (SDRAM (Synchronous Dynamic RAM)) + 512 KB nhớ Flash Ngồi kít bổ sung nhớ qua khe cắm mở rộng Với chiều dài ghi 32 bít, quản lý 4GB nhớ 4.3 LƯU ĐỒ MƠ PHỎNG CHƯƠNG TRÌNH Bắt đầu Chỉ số khoảng cách k=1, khoảng cách nhỏ DISTmin Khởi tạo thứ tự từ cần thu i=1 Thu liệu cần kiểm tra Tính MFCC liệu cần kiểm tra Thu liệu huấn luyện thứ i Tính MFCC liệu huấn luyện thứ i K=8( đủ khoảng cách Lưu hệ sô MFCC tăng i Xuất kết liệu thứ k liệu MFCC Đ S Tính khoảng cách MFCC huấn luyện thứ k MFCC cần kiểm tra(DISTk) S I=8(đủ từ) Đ Đ DISTk

Ngày đăng: 26/02/2023, 18:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w