Tín hiệu tiếng nói cũng giống nhƣ các tín hiệu thông thƣờng, có thể coi là là một hàm của thời gian s(t)(nếu xem xét tín hiệu tiếng nói liên tục, tiếng nói tự nhiên) hoặc s(n)
(nếu xem xét tin hiệu tiếng nói số, tiếng nói trong các hệ thống xử lý tín hiệu số). Trong khuôn khổ bài giảng này, chúng ta sẽ chỉ xem xét tín hiệu tiếng nói số s(n). s(n) là kết quả lấy mẫu và lƣợng tử hóa của s(t).
Khi thực hiện biểu diễn tín hiệu tiếng nói s(n) theo thời gian hoặc chỉ số thời gian, ngƣời ta gọi đó là biểu diễn dạng sóng tín hiệu trong miền thời gian, hay đơn giản là biểu diễn dạng sóng. Đây là phƣơng thức biểu diễn trực quan và đơn giản nhất. Biểu diễn này có thể cho biết đƣợc sự thay đổi về biên độ tín hiệu, sự dao động nhanh hay chậm của tín hiệu theo thời gian. Hình 1.14 minh họa một biểu diễn theo thời gian của cụm từ “không một”.
Hình 1.14 Biểu đồ dạng sóng của cụm từ “không một”
Từ biểu diễn trên, chúng ta có thể thấy có sự phân biệt tƣơng đối giữa các từ. Ở trƣớc, sau và giữa các từ có một khoảng tín hiệu ở đó biên độ rất nhỏ gần nhƣ bằng không, chúng ta gọi đó là các khoảng lặng (silent).
Khi quan sát đơn lẻ dạng sóng tín hiệu tiếng nói là phát âm của một từ, chẳng hạn cụm từ “không một” nhƣ minh họa trong hình 1.14, chúng ta thấy có một đoạn tín hiệu ngay sau khoảng lặng, phần bắt đầu của âm có biên độ khác không tuy nhiên rất nhỏ (chỉ cỡ 1/3 lần) so với phần chính của âm. Phần này tƣơng ứng với sự phát âm của âm vô thanh. Nói một cách khác, từ biểu đồ dạng sóng chúng ta có thể phân biệt đƣợc âm vô thanh và hữu thanh. Phần âm vô thanh tƣơng ứng với dạng tín hiệu có biên độ thấp,
không có dạng tuần hoàn mà có dạng ngẫu nhiên. Hình 1.15 minh họa sự khác biệt dạng sóng của âm vô thanh và hữu thanh.
Hình 1.15 Sự khác biệt dạng sóng tín hiệu âm hữu thanh và vô thanh
Cũng cần lƣu ý là việc phân biệt giữa khoảng lặng và âm vô thanh chỉ mang tính tƣơng đối và chỉ có thể cho kết quả chấp nhận đƣợc khi nhiễu đủ nhỏ. Điều này là bởi vì bản chất của nhiễu cũng có tính ngẫu nhiên, khi nhiễu có biên độ lớn (nhiễu lớn) có thể khiến ta quan sát nhầm giống nhƣ phần phát âm của âm vô thanh.
Chúng ta thƣờng cho rằng, giọng điệu tiếng nói của một ngƣời gần nhƣ không thay đổi: một ngƣời nói hay hai ngƣời cùng nói từ “một” thì nó luôn có nghĩa là “một” và dạng sóng tín hiệu của phát âm tƣơng ứng phải giống hệt nhau. Tuy nhiên, khi quan sát dạng sóng của những lần thu âm khác nhau thì điều này không đúng. Ta có thể thấy, ngay cùng với một từ và một ngƣời phát âm, nhƣng dạng sóng ở hai thời điểm khác nhau có sự khác nhau nhất định. Quan sát tƣơng tự cũng thấy khi hai ngƣời phát âm cùng một từ, dạng sóng cũng có sự khác nhau tƣơng đối.
Ngoài ra, dạng sóng tín hiệu tiếng nói cũng có sự khác biệt đáng kể khi sử dụng các thiết bị thu âm, mã hóa có chất lƣợng khác nhau.
Chính từ những khác nhau nhất định của dạng sóng này cho ta thấy ở chƣơng 5 việc nhận dạng bằng cách sử dụng trực tiếp dạng sóng, còn gọi là sử dụng dữ liệu thô, là không khả thi.
Dữ liệu dạng sóng tín hiệu tiếng nói số thƣờng đƣợc lƣu trữ trong máy tính dƣới nhiều định dạng, phổ biến nhất là *.wav. Tín hiệu này là kết quả của việc lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu phổ biến là 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz,…, với độ phân giải bít phổ biến là 8bit, 16bit, 24bit, … và có thể là một kênh (mono) hoặc hai kênh (stereo)