Chuyển từ tín hiệu tương tự sang tín hiệu số

Một phần của tài liệu nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm (Trang 28 - 31)

Tín hiệu tiếng nói là tín hiệu tương tự, do đó để lưu trữ và xử lý tín hiệu tiếng nói trong máy tính thì tín hiệu tiếng nói phải được chuyển từ tín hiệu tương tự sang tín hiệu số. Quá trình số hoá tín hiệu tiếng nói bao 3 quá trình:

- Quá trình lấy mẫu - Quá trình lượng tử hóa - Mã hóa

2.2.1.1. Lấy mẫu tín hiệu

Lấy mẫu là quá trình chuyển từ một tín hiệu tương tự liên tục theo thời gian sang tín hiệu rời rạc theo thời gian bằng cách "lấy mẫu" tức là lấy giá trị của tín hiệu tại những thời điểm cho trước.

Trong nhiều phương pháp được sử dụng để lấy mẫu tín hiệu tương tự, kiểu lấy mẫu hay được sử dụng nhất trong thực tế là lấy mẫu tuần hoàn. Việc lấy mẫu này được biểu diễn bởi quan hệ:

Trong đó x(n) là tín hiệu rời rạc theo thời gian nhận được bằng cách lấy mẫu tín hiệu tương tự xa(t) sau mỗi khoảng thời gian T giây. Khoảng thời gian T giữa hai lần lấy mẫu liên tiếp gọi là chu kỳ lấy mẫu và đại lượng nghịch đảo của nó gọi là số lấy mẫu Fs=1/T.

Khi lấy mẫu tín hiệu tương tự với tần số Fs cần đảm bảo việc khôi phục tín hiệu đó từ tín hiệu rời rạc tương ứng phải thực hiện được. Shanon đã đưa ra một định lý mà theo đó ta có thể xác định tần số lấy mẫu đảm bảo khả năng phục hồi tín hiệu với tần số Fs ≥ 2Fmax với Fmax là tần số lớn nhất của tín hiệu tương tự.

Hình 2.3. Ví dụ về lấy mẫu tín hiệu trên miền thời gian

Phổ tín hiệu tiếng nói trải rộng trong 12kHz, do đó theo định lý của Shanon thì tần số lấy mẫu tối thiểu là 24kHz.

2.2.1.2. Lượng tử hoá tín hiệu

Lượng tử hóa là quá trình chuyển từ một tín hiệu rời rạc về thời gian nhưng liên tục về biên độ sang tín hiệu rời rạc về biên độ. Mỗi giá trị của mẫu được biểu diễn lại bằng một giá trị được lựa chọn từ một tập hữu hạn các giá trị thích hợp.

Mục tiêu của lượng tử hóa hoặc là để truyền tải hoặc là để xử lý hiệu quả. Trong trường hợp thứ nhất mỗi mẫu tín hiệu được lượng tử hoá, mã hoá

rồi truyền đi. Bên thu nhận tín hiệu giải mã tín hiệu thu được tín hiệu tương tự. Tính thống kê của tín hiệu được bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán lượng tử hoá. Trong trường hợp xử lý tín hiệu, luật lượng tử hoá được quy định bởi hệ thống xử lý, nó có thể được biểu diễn bằng dấu phẩy tĩnh hoặc dấu phẩy động. Việc xử lý bằng dấu phẩy động cho phép thao tác với tín hiệu khá mềm dẻo mặc dù chi phí tính toán cao. Việc xử lý bằng dấu phẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặt chẽ đối với các thuật toán xử lý.

2.2.1.3. Mã hóa tín hiệu

Có hai phương pháp mã hóa: - Mã hoá trực tiếp tín hiệu.

Phương pháp mã hoá trực tiếp tín hiệu hay phổ tín hiệu cho phép biểu diễn một cách trung thực nhất tín hiệu. Mã hoá trực tiếp thực chất là biểu diễn mỗi mẫu tín hiệu hay phổ tín hiệu độc lập với các mẫu khác. Một hệ thống mã hoá trực tiếp tín hiệu khá phổ biến hiện nay là phương pháp mã hoá xung PCM (Pulse Code Mudulation ).

Biểu diễn số của tín hiệu có thể thực hiện trong cả miền tần số bằng cách mã hoá biến đổi Fourier của tín hiệu. Trong miền tần số, phép mã hoá trực tiếp ít áp dụng. Các kỹ thuật giảm bớt thông lượng được thực hiện bằng cách giảm độ dư thừa tự nhiên của tín hiệu tiếng nói trên phổ tín hiệu. Theo phương pháp này người ta dùng cách mã hoá băng thấp hay mã hoá thích nghi theo biến đổi ATC.

- Mã hoá tham số tín hiệu.

Có nhiều phương pháp cho phép đánh giá các tham số của mô hình tạo tiếng nói bao gồm hàm đặc trưng của tuyến âm và các đặc trưng của nguồn âm. Tín hiệu tiếng nói được coi gần như dừng trong khoảng thời gian 20ms, như vậy các tham số được tính toán lại sau 20ms và được thực hiện trong thời

gian thực. Người ta thấy rằng việc truyền tham số này cho phép thông lượng giảm xuống khoảng 2500 b/s. Phương pháp mã hoá này gọi là phương pháp mã hoá nguồn tham số tín hiệu.

Một tập hợp tham số khi truyền hay lưu trữ đặc trưng cho phổ thời gian ngắn, có nghĩa là nó chỉ được chấp nhận trong một thời gian hạn chế. Tai người rất nhạy cảm với phổ thời gian này, do đó có thể nói rằng tai người có thể phân biệt được một số hữu hạn các phổ thời gian ngắn. Giả sử M=2B. Như vậy với mỗi phổ thời gian ngắn, ta gán cho nó một giá trị biểu diễn bằng một từ B bit và từ này sẽ được truyền đi hay lưu trữ. Bằng cách này thông lượng có thể giảm xuống còn 1000b/s.

Tín hiệu tổng hợp bằng mã hoá theo tham số các tín hiệu tiếng nói thường không bảo đảm chất lượng trong hệ thống điện thoại thông thường. Giọng nói sẽ rất khó nhận ra trong trường hợp dùng phương pháp này. Do đó kỹ thuật mã hóa này chỉ ứng dụng trong diện thoại di động và quân sự…

Một phần của tài liệu nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm (Trang 28 - 31)

Tải bản đầy đủ (DOC)

(70 trang)
w