L ỜI MỞ ĐẦ U
3.2.1. Mô tả âm thanh và trích rút chuỗi đặc trưng
Hệ thống này sử dụng kiến trúc cơ bản là kỹ thuật chuỗi đặc trưng âm thanh để
mô tả xúc tích các tín hiệu âm thanh. Nó sử dụng các cửa sổ chồng của âm thanh đơn sắc từ đó rút ra những thuộc tính đáng quan tâm. Các cửa sổ chồng phải được sử
dụng để duy trì sự bất biến về thời gian cho cho các trường hợp trong đó sự liên kết thời gian chính xác chưa được biết. Sự hiển thị phổ của âm thanh có thể được xây dựng bằng nhiều cách: bằng cách đo năng lượng của MFCCs (Mel Frequency
Cepstrum Coefficients) hoặc BFCCs (Bark Frequency Cepstrum Coefficients). Trong nghiên cứu này sẽ sử dụng BFCCs. 33 dải BFCCs được sử dụng nằm trong thứ tự
300Hz-2000Hz. Với mỗi 11.6 mili giây một chuỗi đặc trưng con được tạo ra để bao hàm một frame dài 370 mili giây. Sự chồng lấp lớn trong các frame kế tiếp đảm bảo rằng các chuỗi đặc trưng con biến đổi chậm theo thời gian. Các chuỗi đặc trưng con 32 bit cho biết sự khác nhau trong việc tăng hay giảm các dải BFCCs liên tiếp trong các frame liên tiếp nhau. Đưa ra những chuỗi này làm sự so sánh trở nên đơn giản hơn. Khi đó sự khác nhau giữa các frame là khoảng cách Hamming của các chuỗi
đặc trưng. Các chuỗi đặc trưng con được sử dụng trong hệ thống là nhỏ gọn và được tính toán nhanh.
Ngoài ra hệ thống cũng sử dụng một phương pháp nghiên cứu nữa vào quá trình xử lý lựa chọn các thuộc tính. Đó là phương pháp nghiên cứu trên cơ sở Adaboost thường được dùng trong các ứng dụng computer vision, nó cho phép các tín hiệu âm thanh 1-D có thểđược xử lý như một hình ảnh khi quan sát trong sự hiển thị tần số
thời gian 2-D. Vấn đề cơ bản của việc lựa chọn các thuộc tính là khả năng tách bạch vùng hình chữ nhật được phân biệt giữa hai frame khi chúng giống nhau (đó là khi 1 trong 2 frame bị suy biến bởi tiếng ồn) và khi chúng khác nhau.