Dạng sóng của một đoạn thoại

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu vấn đề khôi phục mất gói cho thoại IP (Trang 58 - 59)

Hình 4 .2 Minh hoạ tính đối ngẫu giữa miền thời gian và miền tần số

Hình 4.3 Dạng sóng của một đoạn thoại

Trên hình 4.3 cho thấy, vùng màu thẫm bao gồm các đƣờng nét đậm là đƣờng dạng sóng của tín hiệu thoại. Giới hạn giữa đoạn vô thanh và hữu thanh biểu thị bằng đƣờng chấm chấm. Một đoạn âm thoại hữu thanh (bắt đầu của đoạn âm hữu thanh đến khi kết thúc đoạn âm hữu thanh đó, xem trên hình 4.3) gọi là một "talkspurt" 1(một luồng khí từ phổi đi qua thanh môn và cơ quan phát âm tạo nên một đoạn âm hữu thanh, một đoạn âm hữu thanh có thể ngắn dài khác nhau).

4.2 KHÁI NIỆM CO DÃN THANG THỜI GIAN

TSM là kỹ thuật thay đổi hay co dãn về mặt thời gian (ví dụ một đoạn thoại nói trong khoảng thời gian t nào đó nhƣng ở bộ thu đƣợc đọc ra trong khoảng thời gian là t'). Kỹ thuật này đƣợc sử dụng để tăng chất lƣợng thoại, nó làm thay đổi tốc độ cảm nhận về các đoạn đƣợc ghép nối mà không ảnh hƣởng đến "pitch" hoặc tính dễ hiểu của thoại. Sự co dãn theo thời gian có thể phân thành 2 loại: nén theo thời gian (hay tăng tốc độ phát lại đoạn thoại) và dãn theo thời gian (hay giảm tốc độ phát lại đoạn thoại).

Co dãn thang thời gian cho phép nghe nhanh hơn hoặc chậm hơn tốc độ ghi. Mục đích của dãn theo thời gian trong hầu hết các trƣờng hợp là để giảm tốc độ phát âm cho rõ ràng để giúp cho việc hiểu rõ hơn đoạn thoại với thông tin quan trọng nhƣ địa chỉ, số điện thoại. Với thoại IP, kỹ thuật TSM đã đƣợc sử dụng cho việc đọc ra thích nghi bởi phƣơng pháp co dãn theo thời gian đối với từng

gói thoại hay còn gọi thay đổi tốc độ đọc ra [11]. Nó cũng đƣợc sử dụn g để che dấu mất gói hoặc che dấu trễ cho ứng dụng thoại IP [29]. Hơn nữa, có thể thay đổi tốc độ phát lại của file audio nén theo chuẩn MPEG bằng kỹ thuật TSM.

Về mặt thực tế ta thấy, một đoạn thoại nói trong khoảng thời gian t nào đó, khi đƣợc đọc lại trong khoảng thời gian t' (tức là đã dãn ra nếu t<t' hoặc co lại nếu t>t') thì cảm nhận của ngƣời nghe về nội dung lời thoại vẫn rõ ràng (thực tế cho thấy khi nén đoạn thoại xuống 50% hay dãn ra 200% thì vẫn đạt chất lƣợng nghe tốt). Hơn nữa, nếu nhƣ trong một câu có từ nói nhanh, có từ nói chậm thì ngƣời nghe cũng không cảm nhận thấy sự bất bình thƣờng gì. Hình 4.4 cho thấy ý tƣởng che dấu mất gói dựa trên kỹ thuật TSM.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu vấn đề khôi phục mất gói cho thoại IP (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(106 trang)