thực hiện thuật toán phát hiện tiếng nói trên kit ezdsp5515

1 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO TỔNG KẾT ĐỀ TÀI CÁN BỘ TRẺ (DO TRƢỜNG ĐẠI HỌC BÁCH KHOA QUẢN LÝ) THỰC HIỆN THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI TRÊN KIT eZdsp5515 Mã số: T2011-02-CBT11 Chủ nhiệm đề tài: KS. Nguyễn Hải Triều Anh Đà Nẵng, 01/2012 2 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO TỔNG KẾT ĐỀ TÀI CÁN BỘ TRẺ (DO TRƢỜNG ĐẠI HỌC BÁCH KHOA QUẢN LÝ) THỰC HIỆN THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI TRÊN KIT eZdsp5515 Mã số: T2011-02-CBT11 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài (ký, họ và tên, đóng dấu) (ký, họ và tên) Đà Nẵng, 01/2012 3 Danh sách thành viên tham gia nghiên cứu đề tài: 1. Nguyen Hai Trieu Anh 2. Nguyen Duy Hien 3. Nguyen Ba Tong 4 Mục lục: CHƯƠNG 1: GIỚI THIỆU SƠ LƯỢC VỀ TÍN HIỆU TIẾNG NÓI 9 1.1 Mở đầu 9 1.2 Phân loại âm 9 1.3 Mô hình phát âm đơn giản 10 1.4 Đặc điểm của tiếng nói 13 1.4.1 Băng thông 13 1.4.2 Tần số cơ bản 14 1.4.3 Các đỉnh trong phổ 14 1.4.4 Đƣờng bao phổ công suất 14 1.5 Phân tích tiếng nói ngắn hạn 14 1.6 Kết luận 15 CHƯƠNG 2: KỸ THUẬT PHÁT HIỆN TIẾNG NÓI 16 2.1 Tổng quan 16 2.2 Giới thiệu về kĩ thuật VAD 16 2.3 Các giải pháp VAD tiêu chuẩn 17 2.3.1 VAD G.729 Annex B ITU-T 17 2.3.2 VAD ETSI ES 202 050 18 2.4. VAD sử dụng khoảng cách năng lƣợng của băng con 19 2.4.1 Sử dụng biến đổi DWT 19 2.4.2 Sử dụng biến đổi DFT 21 2.5 Kết luận 23 CHƯƠNG 3: THỰC HIỆN THUẬT TOÁN VAD FSDM-PF Ở THỜI GIAN THỰC TRÊN KIT ezDSP5515 24 3.1 Giới thiệu chƣơng 24 3.2 Giới thiệu về kit ezDSP5515 24 3.2.1 Các thành phần chính 25 3.2.2 Sơ đồ khối 26 3.2.3 Bộ xử lí TMS320C5515 26 3.3 Số học số dấu chấm tĩnh 27 3.3.1 So sánh xử lí số sử dụng dấu chấm động và xử lí số dấu chấm tĩnh 27 3.3.2 Giới thiệu định dạng của số dấu chấm tĩnh 28 3.3.3 Các phép toán trên số dấu chấm tĩnh 29 3.4. Thực hiện thuật toán VAD FSDM-PF trên kit ezDsp5515 30 3.4.1 Sơ đồ khối phần cứng 30 3.4.2 Thực hiện phân khung tín hiệu bằng bộ đệm triple 30 3.4.4 Trích thuộc tính 31 3.4.5 Quyết định tiếng nói 32 3.4.6 Khối tính và cập nhật ngƣỡng thích nghi 32 5 Danh mục bảng biểu: Hình 1.1 Hệ thống phát âm của con người 9 Hình 1.2 Mô hình hệ thống phát âm hữu thanh 10 Hình 1.3 Phổ âm „oh‟ và „ee‟ 11 Hình1.4a Phổ của tín hiệu từ dây thanh quản )( fP T 11 Hình 1.4b Phổ của tín hiệu )( fS và đường bao )( fH v 12 Hình 1.5 Spectrogram của đoạn âm thanh “Rice university”, màu đỏ là biên độ cao, màu xanh là biên độ thấp 12 Hình 1.6 Mô hình phát âm chi tiết. 13 Hình 1.7 Phân khung tín hiệu 15 Hình 2.1 Sơ đồ khối thực hiện VAD 16 Hình 2.2 Tín hiệu tiếng nói sạch và bị nhiễu 17 Hình 2.3 Sơ đồ khối VAD G.729B 18 Hình 2.4 Sơ đồ khối VAD ETSI-Nest 19 Hình 2.5 Các khung tín hiệu và DWT của mỗi khung tại các trường hợp 20 Hình 2.6 Sơ đồ khối VAD FSDM-PF 22 Hình 2.7 Tín hiệu âm thanh và 2 thuộc tính: WSDM và FSDM 23 Hình 3.1. Mặt trước của C5515 eZdsp Stick 24 Hình 3.2. Mặt sau của C5515 eZdsp Stick 25 Hình 3.3. Sơ đồ khối C5515 eZdsp Stick 26 Hình 3.4 Quan hệ vào ra của một hệ thống tuyến tính 27 Hình 3.5 So sánh xử lí số dùng số dấu chấm động và số dấu chấm tĩnh 28 Hình 3.6 Biểu diễn của số dấu chấm tĩnh 28 Hình 3.7 Cộng hai số dấu chấm tĩnh sẽ làm tăng số bit biểu diễn phần nguyên lên 1 bits 29 Hình 3.8 Nhân hai số dấu chấm tĩnh sẽ làm tăng số bits biểu diễn phần thập phân 29 Hình 3.9 Sơ đồ khối phần cứng 30 Hình 3.10 Đọc ghi dữ liệu từ bộ đệm xoay vào/ra triple 31 Hình 3.11 Sơ đồ khối của khối tính khoảng cách năng lượng 31 Hình 3.12 Đồ thị hành tansig 32 Hình 3.13 Sơ đồ khối quyết định tiếng nói 32 6 Từ viết tắt: Từ viết tắt Tiếng Anh Tiếng Việt VAD Voice activity detection DSP Digital signal processing WSDM Wavelet Subband Distance Measure FSDM-PF Fourier Subband Distance Measure based on Percentile Filter 7 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: Tên đề tài: THỰC HIỆN THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI TRÊN KIT eZdsp5515 - Mã số: T2011-02-CBT11 - Chủ nhiệm: Nguyễn Hải Triều Anh - Thành viên tham gia: Nguyễn Duy Hiển Nguyễn Bá Tòng - Cơ quan chủ trì: Trƣờng Đại Học Bách Khoa – Đại Học Đà Nẵng - Thời gian thực hiện: Từ tháng 4 năm 2011 đến tháng 10 năm 2011 2. Mục tiêu: - Xây dựng phần mềm thực hiện phát hiện tiếng nói sử dụng số thực dấu chấm tĩnh trên chip xử lí số C5515 ở thời gian thực. 3. Tính mới và sáng tạo: 4. Tóm tắt kết quả nghiên cứu: - Tìm hiểu vi xử lí TMS320C5515 và kit eZdsp. Định dạng số thập phân Q15. - Viết phần mềm thực hiện thuật toán VAD trên kit eZdsp5515. - Khắc phục các nhược điểm. Đưa ra hướng phát triển của đề tài. 5. Tên sản phẩm: Chương trình VAD FSDM-PF sử dụng số thực dấu chấm tĩnh Q15 trên chip DSP C5515. 6. Hiệu quả, phƣơng thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Sản phẩm của đề tài là demo cho ứng dụng của xử lí tín hiệu số trong thực tiễn. - Cơ sở để thực hiện các thuật toán, thiết bị điều khiển bằng giọng nói - Cơ hội cho các bạn sinh viên ứng dụng kiến thức đã học vào thực tiễn Ngày tháng năm Hội đồng KH&ĐT đơn vị (ký, họ và tên, đóng dấu) Chủ nhiệm đề tài (ký, họ và tên) XÁC NHẬN CỦA TRƢỜNG ĐẠI HỌC BÁCH KHOA TL. HIỆU TRƢỞNG TRƢỞNG PHÕNG KHOA HỌC, SĐH & HTQT 8 INFORMATION ON RESEARCH RESULTS 1. General information: Project title: IMPLEMENT VOICE ACTIVITY DECTION ALGORITHM ON eZdsp5515 KIT Code number: T2011-02-CBT11 Coordinator: Nguyen Hai Trieu Anh Member(s): Nguyen Duy Hien Nguyen Ba Tong Implementing institution: University of Technology – University of Danang Duration: from April, 2011 to October, 2011 2. Objective(s): 1. Implement software for voice activity detection (VAD) using fixed- point arithmetic on DSP chip C5515 in real-time. 3. Creativeness and innovativeness: 4. Research results:  Studying DSP processor TMS320C5515 and eZdsp5515 KIT. Q15 fraction format.  Programming VAD algorithm in C language and implementing on eZdsp5515 KIT.  Improve the software and system. Propose further recommendations. 5. Products: The VAD FSDM-PF software using Q15 fixed-point arithmetic on DSP processor C5515. 6. Effects, transfer alternatives of research results and applicability:  The application of this research is the demonstration for implementing DSP in the realistic.  Database for implementing voice-controlled algorithm and devices.  Opportunities for students to apply the knowledge for real applications 9 CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢC VỀ TÍN HIỆU TIẾNG NÓI 1.1 Mở đầu Tiếng nói, cũng như các âm thanh khác, đều là các sóng âm lan truyền trong một môi trường nhất định, và thường là không khí. Các sóng âm này lan truyền đến màn nhĩ, làm cho màn nhĩ dao động. Nếu các dao động này có tần số từ 16 Hz đến 20kHz thì chúng ta có thể cảm nhận được. Các sóng âm có tần số nhỏ hơn 16 Hz được gọi là sóng hạ âm, trong khi các sóng âm có tần số lớn hơn 20kHz được gọi là sóng siêu âm, con người không thể nghe được các sóng này. 1.2 Phân loại âm Hình 1.1 Hệ thống phát âm của con người Thông tin của lời nói được chứa trong tín hiệu tiếng nói, do đó muốn phân tích và xử lí tiếng nói chúng ta cần tìm hiểu về cơ chế tạo ra tiếng nói. Khi ta nói, không khí đi qua dây thanh âm, sau đó qua thanh quản và miệng. Tùy theo âm tiết mà ta nói, tín hiệu tiếng nói có thể được phân thành một trong ba loại sau:  Âm hữu thanh: là âm phát ra thì có tiếng, ví dụ như ta nói “i”, “a”, “o”. Các âm hữu thanh được tạo ra là do không khí qua thanh môn, làm các 10 dây thanh âm dao động. Ta có thể phân biệt bằng cách đặt tay lên cổ họng, nếu âm đó là âm hữu thanh thì ta sẽ cảm nhận được sự rung động.  Âm vô thanh: Là âm khi tạo ra tiếng thì hai dây thanh âm không dao động hoặc dao động ít, ví dụ “h”, “p”.  Âm bật: Để phát ra âm bật, đầu tiên cơ quan phát âm đóng kín, sau đó không khí được giải phóng một cách đột ngột, ví dụ “ch”, “t”. 1.3 Mô hình phát âm đơn giản Khi nói, lồng ngực mở rộng và thu hẹp, không khí được đẩy từ phổi vào khí quản, đi qua thanh môn do các dây thanh tạo thành. Luồng khí này được gọi là tín hiệu kích cho tuyến âm vì sau đó nó được đẩy qua tuyến âm và cuối cùng tán xạ ở môi. Tuyến âm có thể xem là hệ thống âm học với đầu vào là thanh môn và đầu ra là môi. Tuyến âm có dạng thay đổi theo thời gian. Người ta nhận thấy phương trình truyền sóng âm có thể được mô hình hóa một cách đơn giản bằng hệ thống tuyến tính. Đặc tính của hệ thống phát âm phụ thuộc vào chúng ta nói nguyên âm hay phụ âm , trong trường hợp ta phát âm hữu thanh, hệ thống có dạng Hình 1.2 Mô hình hệ thống phát âm hữu thanh Khi con người phát âm hữu thanh, không khí từ phổi sẽ tạo áp lực lên 2 dây thanh âm (vocal cords) làm chúng dao động, dao động này có thể biểu diễn bằng một hàm tuần hoàn gọi là )(tp T (trong đó T là chu kì cơ bản của tiếng nói). Tần số cơ bản của tiếng nói là T F 1 0  (1.1) Xung )(tp T đi qua thanh quản sẽ bị biến đổi dạng sóng phụ thuộc vào vị trí của lưỡi, răng môi. Tùy theo vị trí của lưỡi, răng và môi mà đáp ứng tần số của âm thanh sẽ có các đỉnh cộng hưởng khác nhau như ví dụ trong hình 1.3: [...]... CHƢƠNG 2: KỸ THUẬT PHÁT HIỆN TIẾNG NÓI 2.1 Tổng quan Ngày nay, kỹ thuật phát hiện tiếng nói (VAD) đã được ứng dụng rộng rãi trong các lĩnh vực của xử lý tiếng nói VAD thực hiện phân loại các thành phần có tiếng nói (speech) và không có tiếng nói (non-speech) trong tín hiệu âm thanh nhằm giảm tốc độ bit truyền trong mã hóa tiếng nói, nhận dạng tiếng nói tự động hay nâng cao chất lượng tiếng nói, Ngoài... thiệu thuật toán FSDM-PF, cách trích thuộc tính của nó và phương pháp xác định ngưỡng thích nghi Chương tiếp theo sẽ giới thiệu về việc thực hiện thuật toán này trên chip xử lí số dấu chấm tĩnh 23 500 CHƢƠNG 3: THỰC HIỆN THUẬT TOÁN VAD FSDM-PF Ở THỜI GIAN THỰC TRÊN KIT ezDSP5515 3.1 Giới thiệu chƣơng Chương này sẽ giới thiệu về kit ezDSP5515, giới thiệu phép toán số học dấu chấm tĩnh và việc thực thi thuật. .. động, truyền phát tiếng nói thời gian thực thông qua Internet, giảm nhiễu trong các thiết bị số trợ thính Có nhiều phương pháp VAD khác nhau, tuy nhiên trong báo cáo này chi giới thiệu thuật toán VAD dựa trên thuộc tính năng lượng giữa các băng con 2.2 Giới thiệu về kĩ thuật VAD Kỹ thuật phát hiện tiếng nói nhằm mục đích phát hiện những phần có tiếng nói con người trong tín hiệu âm thanh Nói cách khác,... cách khác, VAD dùng để phân loại phần có tiếng nói (speech) và phần không có tiếng nói (non-speech) Các bước thực hiện VAD được mô tả như trong hình 2.1 Hình 2.1 Sơ đồ khối thực hiện VAD Tín hiệu tiếng nói ban đầu sẽ được tiền xử lý và phân thành các khung (frame) sau đó thực hiện kỹ thuật VAD theo các bước: Trích thuộc tính: việc trích thuộc tính được thực hiện trên từng khung của tín hiệu đã được phân... băng con để ra quyết định VAD dựa trên ngưỡng thích nghi như ở WSDM-PF Nhờ thế, thuật toán mới phát triển vẫn giữ được tính ưu việt của thuật toán WSDM-PF là tốc độ tính toán nhanh do chỉ dùng một thuộc tính, hơn thế, thuật toán mới dùng biến đổi Fourier thay cho biến đổi Wavelet nên mức độ tính toán đơn giản hơn thuật toán cũ Việc phân loại của FSDM-PF vẫn được thực hiện nhờ bộ lọc PF để đưa ra ngưỡng... bộ mã hóa tiếng nói chất lượng cao, độ trễ thấp và tốc độ 8Kb/s gọi là G.729B Thuật toán này được thiết kế để đáp ứng nhu cầu trong kỹ thuật mã hóa tiếng nói nâng cao cho truyền thông đa phương tiện và các dịch vụ thông tin cá nhân Theo chuẩn này, để tiết kiệm băng thông, các đoạn không có tiếng nói trong tín hiệu được loại ra khỏi tín hiệu truyền đi Việc phát hiện 17 đâu là tín hiệu tiếng nói và đâu... và đang phát triển rất mạnh mẽ DSP hiện nay xuất hiện ở hầu như tất cả các thiết bị số Bao gồm các thiết bị như cameras, đầu đĩa DVD, cho đến các thiết bị chuẩn đoán y khoa, hệ thống dẫn đường tên lửa Hết tất cả các ứng dụng DSPs đều có khối thuật toán phức tạp đòi hỏi tài nguyên tính toán (tốc độ xử lí) lớn Mặt khác rất nhiều các ứng dụng DSP đòi hỏi thực hiện ở thời gian thực Những ràng buộc trên đòi... bộ đệm 0, ngắt DMA được phát sinh sẽ báo cho CPU biết, khi đó CPU sẽ thực hiện xoay bộ đệm, để bộ đệm đọc dữ liệu vào lúc này là bộ đệm 2, bộ đệm để đọc các mẫu ra là bộ đệm 0, và 1 Dữ liệu được đọc ra sẽ được nhân với cửa sổ Hamming để thực hiện phân khung Bộ đệm được thiết kế như vậy để thực hiện phân khung tín hiệu tiếng nói một cách hiệu quả và nhanh chóng trong thời gian thực 30 Hình 3.10 Đọc ghi... dấu chấm động phức tạp hơn giữa hai số dấu chấm tĩnh, phần cứng để thực hiện các phép tính trên cũng phức tạp hơn Vì lí do đó mà tốc độ xử lí của chip xử lí tín hiệu số sử dụng số dấu chấm động chậm hơn, trong khi giá thành cao hơn Tuy nhiên các thuật toán sử dụng chip này dễ dàng thực hiện hơn và độ chính xác cũng cao hơn so với thuật toán tương đương sử dụng số dấu chấm tĩnh Hình 3.5 So sánh xử lí... lượng ngưỡng và quyết đinh Ở khối này, căn cứ vào khoảng cách năng lượng băng con của khung hiện tại và mức ngưỡng mà ta phân loại khung đó có chứa tiếng nói hay không Nếu là khung tiếng nói thì LED sẽ được bật sáng lên và ngược lại Có thể xem sơ đồ khối quá trình xử lí của thuật toán ở hình 2.6 3.4.2 Thực hiện phân khung tín hiệu bằng bộ đệm triple Giả sử bộ đệm 0 đang được dùng để ghi dữ liệu vào, . CHƢƠNG 2: KỸ THUẬT PHÁT HIỆN TIẾNG NÓI 2.1 Tổng quan Ngày nay, kỹ thuật phát hiện tiếng nói (VAD) đã được ứng dụng rộng rãi trong các lĩnh vực của xử lý tiếng nói. VAD thực hiện phân loại. TỔNG KẾT ĐỀ TÀI CÁN BỘ TRẺ (DO TRƢỜNG ĐẠI HỌC BÁCH KHOA QUẢN LÝ) THỰC HIỆN THUẬT TOÁN PHÁT HIỆN TIẾNG NÓI TRÊN KIT eZdsp5515 Mã số: T2011-02-CBT11 Xác nhận của cơ quan chủ. chấm tĩnh 28 3.3.3 Các phép toán trên số dấu chấm tĩnh 29 3.4. Thực hiện thuật toán VAD FSDM-PF trên kit ezDsp5515 30 3.4.1 Sơ đồ khối phần cứng 30 3.4.2 Thực hiện phân khung tín hiệu bằng

Định dạng
Số trang	34
Dung lượng	1,08 MB