Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
622,67 KB
Nội dung
BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 1 CNT45DH GROUP TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀIGIẢNGMÔNHỌC XỬ LÝTIẾNGNÓIBÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 2 CNT45DH GROUP MỤC LỤC MỞ ĐẦU 2 CHƯƠNG I: NHẬP MÔN §1. TÍN HIỆU TIẾNGNÓI . 3 §2. XỬLÝ TÍN HIỆU . 4 §3. XỬLÝ TÍN HIỆU SỐ 5 §4. XỬLÝTIẾNGNÓI BẰNG SỐ . 6 CHƯƠNG II: CƠ SỞ XỬLÝ TÍN HIỆU SỐ §1. CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC . 9 §2. BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU . 11 §3. CƠ BẢN VỀ CÁC LỌC SỐ . 15 §4. LẤY MẪU 19 CHƯƠNG III: CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNGNÓI §1. NHẬP MÔN 22 §2. QUÁ TRÌNH TẠO TIẾNGNÓI . 23 § 3. LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNGNÓI . 29 §4. CÁC MÔ HÌNH ỐNG MẤT ÍT 40 §5. CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNGNÓI . 48 TÀI LIỆU THAM KHẢO . 52 BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 3 CNT45DH GROUP MỞ ĐẦU Tiếngnói là phƣơng tiện giao tiếp cơ bản nhất của loài ngƣời, nó hình thành và phát triển song song với quá trình tiến hóa của loài ngƣời. Đối với con ngƣời, sử dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ƣu điểm của việc giao tiếp bằng tiếngnói trƣớc tiên là ở tốc độ giao tiếp, tiếngnói từ ngƣời nói đƣợc ngƣời nghe hiểu ngay lập tức sau khi đƣợc phát ra. Bên cạnh đó, tiếngnói là cách giao tiếp đƣợc sử dụng rộng rãi nhất – bất cứ ai (dĩ nhiên là trừ những ngƣời khuyết tật) cũng có thể nói đƣợc. Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay chân. Tuy nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếngnói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếngnói càng bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di động, PC,… Để cho máy tính có thể nghe đƣợc nhiều ngƣời đã vật lộn với tín hiệu âm thanh trong hơn nửa thế kỷ qua trong lĩnh vực nhận dạng tiếng nói. Quá trình này đƣợc đánh dấu bằng các kết quả nghiên cứu đặc sắc trong lĩnh vực phân tích và xửlýtiếng nói, các ứng dụng thực tế khá hữu ích. Nhƣng dù sao, khả năng của máy vẫn vẫn còn trong khoảng giới hạn, còn cần phát triển hơn nữa để có thể thật sự đáp ứng nhu cầu thực sự của cuộc sống. BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 4 CNT45DH GROUP CHƯƠNG 1 NHẬP MÔN Trong bàigiảng này ta sẽ xét cách các kỹ thuật xửlý tín hiệu số có thể áp dụng vào các bài toán liên quan đến việc truyền tiếng nói. Do vậy, ở phần nhập môn này ta sẽ nói đến các vấn đề nhƣ bản chất của tín hiệu tiếng nói, các kỹ thuật xửlý tín hiệu số đóng vai trò thế nào trong việc họcxửlý tín hiệu tiếngnói và một vài lĩnh vực áp dụng quan trọng của việc truyền tiếngnói mà kỹ thuật xửlý tín hiệu số đƣợc sử dụng trong đó. §1. TÍN HIỆU TIẾNGNÓI Mục đích của tiếngnói là truyền thông tin. Có một số cách đặc trƣng cho việc truyền tiếng nói. Một cách tiếp cận có chất lƣợng cao là dùng các quan điểm của lý thuyết thông tin đƣa ra bởi Shannon năm 1968. Theo lý thuyết thông tin, tiếngnói có thể biểu diễn dƣới dạng nội dung thông báo hoặc thông tin. Một cách đặc trƣng khác là tiếngnói biểu diễn dƣới dạng tín hiệu mang thông tin thông báo. Mặc dù các quan điểm lý thuyết của thông tin đóng vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là biểu diễn tiếngnói dựa trên dạng sóng hoặc mô hình tham số đƣợc sử dụng chính trong các ứng dụng thực tế. Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo nhƣ một dạng trừu tƣợng nào đó trong óc ngƣời nói. Qua quá trình phức tạp tạo âm, thông tin trong thông báo này đƣợc chuyển trực tiếp thành tín hiệu âm học. Thông tin thông báo có thể đƣợc biểu diễn dƣới một số dạng khác nhau trong quá trình tạo tiếng nói. Chẳng hạn, thông tin thông báo lúc ban đầu đƣợc chuyển thành tập hợp các tín hiệu thần kinh điều khiển cơ chế phát âm (đó là chuyển động của lƣỡi, môi, dây thanh âm, v. v .). Bộ máy phát âm chuyển động tƣơng ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc. Thông tin đƣợc thông báo bằng tiếngnói về bản chất là rời rạc, có thể biểu diễn bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể đƣợc phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, con số mẫu mực là khoảng từ 30 đến 50. Ví dụ, tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị (chƣơng 3); tiếng Việt khoảng 33 âm vị (a, ă, â, b, c, d, đ, e, ê, f, g, h, i, j, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, w, x, y, z; 12 nguyên âm, 21 phụ âm). Trong lý thuyết thông tin ngƣời ta còn xét tốc độ truyền thông tin. Với tiếng nói, lƣu ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của tốc độ thông tin là con ngƣời tạo ra tiếngnói với tốc độ trung bình khoảng 10 âm vị trong 1 giây. Nếu mỗi âm vị biểu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu diễn tất cả các âm vị tiếng Anh. Với tốc độ trung bình 10 âm vị trên giây và bỏ qua tƣơng tác giữa các cặp âm vị liền kề, ta có ƣớc lƣợng 60 bit/giây cho tốc độ thông tin trung bình của tiếng nói. Nói cách khác là lƣợng viết ra của tiếngnói chứa thông tin tƣơng đƣơng với 60 bit/gy ở tốc độ nói chuẩn. Dĩ nhiên, cận dƣới của nội dung thông tin xác thực trong tiếngnói đƣợc coi là cao hơn tốc độ này. Ƣớc lƣợng trên không tính đến các nhân tố nhƣ trạng thái của ngƣời nói, tốc độ nói, âm hƣởng của tiếng nói, v. v . . BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 5 CNT45DH GROUP Trong hệ thống truyền tiếng nói, tín hiệu tiếngnói đƣợc truyền đi, lƣu giữ và xửlý bằng nhiều cách. Các giải pháp kỹ thuật cho ta nhiều cách biểu diễn tín hiệu tiếng nói. Có 2 cách chính: - Lƣu giữ nội dung thông báo trong tín hiệu tiếngnói - Biểu diễn tín hiệu tiếngnói dƣới dạng thuận tiện để truyền đi hoặc lƣu giữ, hoặc dƣới dạng linh động để có thể sửa chữa mà không ảnh hƣởng đến nội dung thông báo. Biểu diễn tín hiệu tiếngnói phải làm sao cho nội dung thông tin có thể dễ dàng lĩnh hội đƣợc bởi ngƣời nghe hoặc bằng máy tự động. Trong bàigiảng này ta sẽ thấy các biểu diễn của tín hiệu tiếngnói (chứ không phải là nội dung thông báo) có thể yêu cầu từ 500 đến trên 1 triệu bit/gy. Trong việc thiết kế và xửlý các biểu diễn này, các phƣơng pháp xƣ lý tín hiệu đóng vai trò cơ bản. §2. XỬLÝ TÍN HIỆU Các bài toán chung của thao tác và xửlý thông tin đƣợc vẽ ở hình 1.1. Trong trƣờng hợp các tín hiệu tiếng nói, ngƣời ta coi nguồn thông tin, đo đạc hoặc quan sát, nói chung, là có dạng sóng âm. Xửlý tín hiệu bao gồm trƣớc hết là nhận đƣợc biểu diễn tín hiệu dựa trên mô hình đã cho và sau đó là dùng biến đổi ở mức cao hơn để đặt tín hiệu vào dạng tiện dụng hơn. Bƣớc cuối cùng của xửlý là trích ra và sử dụng thông tin thông báo. Bƣớc này có thể thực hiện hoặc bởi ngƣời nghe hoặc tự động bằng máy. Lấy ví dụ là hệ thống có chức năng nhận biết tự động ngƣời nói từ một tập hợp ngƣời đã cho, có thể sử dụng biểu diễn phổ phụ thuộc thời gian của tín hiệu tiếng nói. Một biến đổi tín hiệu có thể dùng là phổ trung bình ở một câu đầy đủ, so sánh phổ trung bình với phổ trung bình đã lƣu trữ của mỗi ngƣời nói, rồi sau đó dựa trên số đo tƣơng tự của phổ mà nhận biết ngƣời nói. Ở ví dụ này, thông tin trong tín hiệu dùng để nhận dạng ngƣời nói. Hình 1.1. Các bài toán thao tác và xửlý thông tin Nhƣ vậy, xửlý các tín hiệu tiếng nói, nói chung, gồm 2 việc. Thứ nhất là phƣơng tiện để nhận đƣợc biểu diễn tín hiệu tiếngnóinói chung, hoặc dƣới dạng sóng âm hoặc dƣới dạng tham số. Thứ hai là xửlý tín hiệu, thực hiện việc chuyển tín hiệu thành các dạng khác ít tổng quan hơn nhƣng thích hợp hơn cho các ứng dụng. Nguồn Thông tin Trích ra và Sử dụng Thông tin Đo đạc hoặc Quan sát Biểu diễn tín hiệu Biến đổi tín hiệu hiÖuTÝn lýXö BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 6 CNT45DH GROUP §3. XỬLÝ TÍN HIỆU SỐ Mục đích của mônhọc là khám phá vai trò của kỹ thuật số trong xửlý các tín hiệu tiếng nói. Xửlý tín hiệu số tập trung vào 2 việc là nhận đƣợc các biểu diễn rời rạc của tín hiệu và lý thuyết, thiết kế, thực hiện các thủ tục số để xửlý các biểu diễn rời rạc này. Đối tƣợng của xửlý tín hiệu số là nhận biết các đối tƣợng trong xửlý tín hiệu tƣơng tự. Vì vậy, một câu hỏi có lý là vì sao các kỹ thuật xửlý tín hiệu số lại đƣợc dùng để nghiên cứu thông tin tiếng nói? Có thể nêu ra nhiều lý do để trả lời. Đầu tiên và quan trọng nhất là các hàm xửlý tín hiệu phức tạp có thể thực hiện bằng cách dùng kỹ thuật số. Các thuật toán sẽ xét trong bàigiảng là các thuật toán cho các hệ thống thời gian rời rạc. Ở nhiều trƣờng hợp, không thể coi các hệ thống này là hệ thống xấp xỉ của các hệ thống tƣơng tự. Các kỹ thuật xửlý tín hiệu số lúc đầu đƣợc dùng trong xửlýtiếngnói nhƣ mô phỏng các hệ thống tƣơng tự phức tạp. Quan điểm lúc ban đầu là phải mô phỏng các hệ thống tƣơng tự trên máy tính để tránh việc xây dựng các hệ thống để thực nghiệm. Khi các mô phỏng số của các hệ tƣơng tự đƣợc sử dụng, các tính toán đòi hỏi nhiều thời gian, chẳng hạn, cần khoảng 1 giờ để xửlý vài phút nói! Đến khoảng giữa những năm 1960 nổ ra cách mạng trong xửlý tín hiệu số. Các xúc tác chính là sự phát triển của máy tính nhanh hơn và các tiến bộ nhanh trong lý thuyết kỹ thuật xửlý tín hiệu số. Nhƣ vậy, rõ ràng là các hệ thống xửlý tín hiệu số đã có hiệu lực hơn ở khả năng mô phỏng các hệ thống tƣơng tự. Cộng thêm với các phát triển lý thuyết, các phát triển đồng thời trong phạm vi phần cứng số cũng làm mạnh lên ƣu thế của các kỹ thuật xửlý tín hiệu số so với các hệ thống tƣơng tự. Các hệ thống số đáng tin cậy và rất chặt chẽ. Công nghệ mạng tổng thể đã phát triển đến trạng thái mà các hệ thống cực kỳ phức tạp có thể hoạt động trên một chip đơn. Các thành công của lôgic là đủ nhanh để số lớn các tính toán thực tế trong nhiều hàm xửlý tín hiệu có thể thực hiện trong thời gian thực và ở tốc độ mẫu tiếng nói. Có nhiều lý do khác để dùng kỹ thuật số trong các hệ thống thông tin tiếng nói. Chẳng hạn, nếu mã hoá đƣợc dùng, tiếngnói dƣới dạng số hoá có thể truyền đi một cách tin cậy trên các kênh rất ồn. Cũng vậy, nếu tín hiệu tiếngnói ở dạng số thì nó đồng nhất với dữ liệu của các dạng khác. Do vậy, một lƣới thông tin có thể dùng để truyền cả tiếngnói và các dữ liệu khác mà không cần phân biệt chúng trừ việc giải mã. Ngoài ra, về yêu cầu bảo mật việc truyền các tín hiệu giọng nói, biểu diễn số có ƣu thế khác biệt so với các hệ thống tƣơng tự. Để bảo mật, các bit thông tin có thể đổi đi để cuối cùng có thể tái hiện lại ở ngƣời nhận. Với các lý do nêu trên và nhiều lý do khác nữa mà các kỹ thuật số đƣợc sử dụng ngày càng nhiều trong các bài toán truyền tiếng nói. BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 7 CNT45DH GROUP §4. XỬLÝTIẾNGNÓI BẰNG SỐ Khi xem xét ứng dụng của ký thuật xửlý tín hiệu số vào các bài toán truyền tiếng nói, ta phải chú ý đến 3 chủ đề chính: biểu diễn các tìn hiệu tiếngnói dƣới dạng số, thực hiện các kỹ thuật xửlý phức tạp và các lớp các ứng dụng dựa chủ yếu vào Xửlý tín hiệu số. Dĩ nhiên, việc biểu diễn các tín hiệu tiếngnói dƣới dạng số là chủ đề cơ bản. Về việc này, chúng ta đƣợc hƣớng dẫn bằng định lý lấy mẫu (Sampling Theorem, H. Nyquist, 1928) phát biểu là: tín hiệu giới hạn dải (bandlimited) có thể được biểu diễn bởi các mẫu lấy tuần hoàn theo thời gian, miễn là các mẫu được lấy ở tỷ lệ đủ cao. Nhƣ vậy, việc xửlý mẫu nằm trọn trong lý thuyết và ứng dụng của xửlýtiếngnói bằng số. Có nhiều cách biểu diễn rời rạc các tín hiệu tiếng nói. Nhƣ biểu diễn ở hình vẽ, các biểu diến này có thể phân thành 2 nhóm lớn gọi là biểu diễn dạng sóng (waveform representation) và biểu diễn tham số (parametric representation). Biểu diễn dạng sóng, nhƣ tên gọi chỉ ra, quan tâm đến việc bảo toàn đơn giản "dạng sóng" của tín hiệu tiếngnói tƣơng tự qua mẫu và xửlý về lƣợng. Các biểu diễn tham số, mặt khác, biểu diễn tín hiệu tiếngnói nhƣ đầu ra của mô hình tạo tiếng nói. Bƣớc thứ nhất để nhận đƣợc biểu diễn tham số thƣờng là biểu diễn dạng sóng bằng số, tín hiệu tiếngnói đƣợc lấy mẫu và lƣợng hoá, rồi sau đó đƣợc xửlý tiếp tục để nhận đƣợc các tham số của mô hình tạo tiếng nói. Các tham số của mô hình này đƣợc phân loại thích hợp thành các tham số kích thích (excitation parameter, liên quan đến nguồn của các âm tiếng nói) hoặc các tham số đáp ứng vết thanh âm (vocal tract response parameter, liên quan đến các âm tiếngnói đơn lẻ). Biểu diễn Tín hiệu tiếngnói Các biểu diễn Dạng Sóng Các biểu diễn Tham số Tham số Kích thích Tham số Đáp ứng vết Thanh âm Hình 1. 2. Các cách biểu diễn Tín hiệu tiếngnói Tốc độ dữ liệu (bits/giây) 200000 60000 20000 10000 500 75 Các phƣơng pháp Phân tích - Tổng hợp Tổng hợp từ Văn bản in (Không mã hoá nguồn) Biểu diễn Dạng Sóng (Mã hoá nguồn) Các biểu diễn Tham số Hình 1. 3. Thứ hạng các tốc độ bits cho một số kiểu biểu diễn tiếng nói. BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 8 CNT45DH GROUP Hình 1. 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếngnói theo tốc độ dữ liệu. Đƣờng ngăn cách là ở tốc độ dữ liệu khoảng 15000 tách biểu diễn dạng sóng tốc độ cao với các dạng tham số tốc độ thấp. Các ứng dụng của Thông tin tiếngnói Truyền và Lƣu giữ bằng số Tổng hợp tiếngnói Kiểm tra và Nhận biết ngƣời nói Thừa nhận tiếngnói Giúp đỡ ngƣời Tàn tật Tăng cƣờng chất lƣợng tín hiệu số Hình 1. 4. Vài ứng dụng của việc truyền tiếng nói. Hình 1. 4 cho một vài trong nhiều lĩnh vực ứng dụng của việc truyền tiếng nói. Sau đây là một trình bày ngắn gọn về mỗi phạm vi này. 4.1. Truyền và lưu giữ tiếngnói bằng số (Digital transmission and storage of speech): Một trong những ứng dụng sớm nhất và quan trọng nhất của xửlýtiếngnói là VOCODER hay mã hoá tiếngnói (voice coder) đƣa ra bởi Homer Dudlay vào năm 1930. Mục đích của VOCODER là thu gọn độ rộng băng cần thiết để truyền tín hiệu tiếng nói. Sự cần thiết phải thu hẹp độ rộng dải ở nhiều tình huống là do độ rộng dải đƣợc cung cấp bởi vệ tinh, bởi sóng âm và các hệ thống thông tin quang học bị tăng lên. 4.2. Hệ thống Tổng hợp tiếngnói (Speech synthesis system): Ngƣời ta dành nhiều chú ý cho các hệ thống tổng hợp tiếngnói là vì cần lƣu giữ tiếngnói bằng số cho các hệ thống đáp ứng tiếngnói của máy tính (computer voice response) một cách tiết kiệm. Hệ thống đáp ứng này do R. L. Rabiner và R. W. Schafer đề nghị năm 1976. Một hệ thống đáp ứng tiếngnói cơ bản là một dịch vụ thông tin tự động, số hoá hoàn toàn, có thể bị kích thích bởi ngƣời dùng bàn phím hoặc dữ liệu và đáp ứng với thông tin đòi hỏi bằng tiếng nói. 4.3. Các hệ thống kiểm tra và nhận biết người nói (Speaker verification and indentification systems): đƣợc B. S. Atal dề nghị năm 1976. Các kỹ thuật kiểm tra và nhận biết ngƣời nói dùng để nhận dạng tiếngnói hoặc nhận ra ngƣời nói trong một tập hợp lớn những ngƣời nói có thể có. Khi có một tiếngnói phát ra, ngƣời ta dựa vào các dữ liệu đã có để kiểm tra và nhận biết nguồn hoặc ngƣời phát ra tiếng nói. 4.4. Các hệ thống đoán nhận (recognition) tiếng nói: đƣợc D. R. Reddy đề nghị năm 1976. Việc đoán nhận tiếng nói, dƣới dạng chung nhất của nó, là chuyển đổi từ dạng sóng âm thành bản viết của thông tin thông báo. Bài toán đoán nhận tiếngnói phụ thuộc rất nhiều vào các ràng buộc đặt cho ngƣời nói, tình trạng nói và nội dung thông báo. Các ứng dụng lớn của các hệ thống đoán nhận tiếngnói rất nhiều và đa dạng, chẳng hạn nhƣ máy chữ điều khiển bằng tiếng nói, thông tin nói với các máy tính, v. v .Một hệ thống đoán nhận tiếngnói kết hợp với một hệ thống tổng hợp tiếngnói tạo ra một hệ thống truyền thông có tỉ lệ bit thấp tối đa (the ultimate low bit rate communica- tion system). 4.5. Các hệ thống giúp đỡ người tàn tật (Aids-to-the handicapped): Ứng dụng này tập trung vào quá trình xửlý tín hiệu tiếngnói làm thông tin có dạng thích hợp với các ngƣời BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 9 CNT45DH GROUP tàn tật, nhƣ ghi âm cho ngƣời mù; hiển thị hình ảnh của TTin tiếngnói để dạy cho ngƣời điếc do H. Levitt đề nghị năm 1973. 4.6. Tăng cường chất lượng tín hiệu (Enhancement of signal quality): Ở nhiều tình huống, tín hiệu tiếngnói bị suy giảm theo hƣớng hạn chế hiệu quả việc truyền đi, hoặc phải loại bỏ tiếng vang, tiếng ồn khi nói. Ở các tình huống này các kỹ thuật xửlý tín hiệu số đƣợc sử dụng để cải thiện chất lƣợng tiếng nói. Các ví dụ là khử bỏ nhiễu (hay tiếng ồn, tạp âm) trong tiếngnói hoặc khôi phục các âm. BÀIGIẢNGXỬLÝTIẾNGNÓI CAO QUYẾT THẮNG Trang 10 CNT45DH GROUP CHƯƠNG 2 CƠ SỞ XỬLÝ TÍN HIỆU SỐ §1. CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC Trong hầu nhƣ mỗi tình huống xửlý hoặc truyền thông tin, ngƣời ta phải bắt đầu bằng việc biểu diễn tín hiệu nhƣ mẫu biến đổi liên tục. Sóng âm phát ra cũng có bản chất nhƣ vậy. Về mặt toán học, có thể biểu diễn các mẫu biến đổi liên tục nhƣ vậy là hàm của biến liên tục t biểu diễn thời gian. Trong bàigiảng này, ta sẽ dùng ký hiệu x a (t) cho dạng sóng thời gian biến đổi liên tục (hoặc tƣơng tự). Cũng có thể biểu diễn tín hiệu tiếngnói nhƣ dãy các số. Nói chung, ta dùng ký hiệu x(n) để biểu diễn dãy số. Nếu dãy có thể coi là dãy các mẫu tín hiệu tƣơng tự xảy ra tuần hoàn với chu kỳ mẫu T thì ta sẽ dùng ký hiệu x a (nT). Hình 2.1 cho ví dụ tín hiệu tiếngnói biểu diễn ở cả 2 dạng tín hiệu tƣơng tự (analog) và dạng dãy các mẫu (samples) có tỉ lệ mẫu 8 kHz. Hình 2.1. Các biểu diễn của tín hiệu tiếng nói. Khi nghiên cứu các hệ thống xửlý tín hiệu tiếngnói ta sẽ sử dụng một số dãy số đƣợc vẽ ở hình 2.2. Mẫu đơn vị (unit sample) hay dãy xung đơn vị (unit impulse sequence) đƣợc định nghĩa (định nghĩa) là: (n) = 00 01 n n Dãy bước đơn vị (unit step sequence) là: u(n) = 00 01 <n n Dãy luỹ thừa (exponential sequence) có dạng: x(n) = a n Nếu a là số phức, t. l. a = r. 0 j e thì x(n) = r n . nj e 0 = r n (cos 0 n + j.sin 0 n) Nếu r = 1 và 0 0 thì x(n) là sinusoid phức; nếu 0 = 0, x(n) là số thực; còn nếu r < 1 và 0 0 thì x(n) là dãy dao động phân rã (exponentially decaying oscillatory sequence). Dãy kiểu này xuất hiện khi biểu diễn các hệ thống tuyến tính và khi mô hình dạng sóng tiếng nói. [...]... QUYẾT THẮNG Trang 22 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI CHƯƠNG 3 CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNGNÓI §1 NHẬP MÔN Để áp dụng các kỹ thuật xử lý tín hiệu số vào các bài toán truyền tiếng nói, phải hiểu thực chất của việc tạo, xửlý cũng nhƣ cơ sở của xửlý tín hiệu số Chƣơng này xét khái quát về lý thuyết âm học của việc tạo tiếngnói và đƣa ra cách biểu diễn trong lý thuyết này Đặc biệt, ta sẽ chú... nêu đều đƣợc dùng trong Xử LÝTIếNGNÓINói chung, với các ứng dụng lọc tuyến tính, dạng xếp chồng (cascade form) thể hiện cách xửlý cao cấp cho ồn đã gọt dũa (roundoff noise), cho các không chính xác của hệ số và cho sự ổn định CAO QUYẾT THẮNG Trang 19 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI §4 LẤY MẪU Để dùng các phƣơng pháp xửlý tín hiệu số trên tín hiệu tƣơng tự nhƣ tiếng nói, cần biểu diễn tín... nghiên cứu âm học tạo ra tiếngnói và có dữ liệu phong phú về đo đạc và mô hình của hệ thống âm Sách của Flanagan có phạm vi rộng hơn, chứa các mô hình vật lý về quá trình tạo ra và cách các mô hình này đƣợc sử dụng để biểu diễn và xửlý các tín hiệu Các tài liệu này là cần thiết cho các sinh viên học cẩn thận mônhọc truyền tiếngnói Trƣớc khi nghiên cứu lý thuyết âm học và các mô hình toán học cần thiết... xuống, bộ máy mũi gắn về mặt âm học với bộ máy phát âm tạo ra các âm mũi (nasal) của tiếngnói Hình 3 1 ảnh X quang bộ máy phát âm Trong việc nghiên cứu các quá trình tạo tiếng nói, ngƣời ta đã trừu tƣợng các nét quan trọng của hệ thống vật lý để đƣa đến mô hình toán học thực tế và dễ xửlý Bộ máy dƣới thanh môn này coi nhƣ là nguồn năng lƣợng để tạo ra tiếng nóitiếngnói coi đơn giản là sóng âm đƣợc... rạc cho các tín hiệu Các mô hình này đƣợc chứng minh là đúng theo lý thuyết âm học và đƣợc phát biểu theo các nguyên lý lọc số, dùng làm cơ sở để thảo luận về các kỹ thuật xửlý CAO QUYẾT THẮNG Trang 23 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI §2 QUÁ TRÌNH TẠO TIẾNGNÓI Các tín hiệu tiếngnói là tập hợp của dãy các âm Các âm này và các chuyển giọng (transitions) giữa chúng dùng làm biểu diễn ký hiệu thông... mặt phẳng Z và nằm trong miền hội tụ của X(Z) CAO QUYẾT THẮNG Trang 12 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI Có nhiều định lý và tính chất của biểu diễn ZT tiện dụng cho việc nghiên cứu các hệ thống thời gian rời rạc Danh sách các định lý quan trọng cho trong bảng 1 Về hình thức, các định lý này giống với các định lý tƣơng ứng của biến đổi Laplace cho các hàm thời gian liên tục Tuy nhiên, điều này... hình toán học cần thiết cho việc tạo ra tiếng nói, ta cần phải xét các kiểu âm khác nhau tạo ra tiếngnói của con ngƣời Do vậy, chƣơng này bắt đầu bằng nhập môn ngắn gọn vào việc phát âm, dƣới dạng tổng kết các âm vị của tiếng Anh Mỹ và thảo luận về vị trí và cách thức phát âm cho mỗi lớp âm vị (phoneme) chính Sau đó xét đến cơ sở của lý thuyết âm học tạo tiếngnói Các mục đƣợc xét đến bao gồm việc âm...CNT45DH GROUP BÀI GIẢNGXỬLÝTIẾNGNÓIXửlý tín hiệu đòi hỏi biến đổi tín hiệu thành dạng mong muốn theo một nghĩa nào đó Ta sẽ tập trung xét các hệ thống rời rạc, hay nói tƣơng đƣơng là các biến đổi dãy vào thành dãy ra Ta sẽ mô tả các phép biến đổi ấy bằng lƣợc đồ nhƣ ở hình 2.3a x(n) T[ ] T[ ] y(n)*T[x(n)] x(n) y(n)*T[x(n)] (b) (a) Hình 2.3 Lược đồ biểu diễn: (a) Hệ thống vào/ra đơn;... thức tƣơng đƣơng l : h (k )x (n y(n) = k ) = h(n)*x(n), k Các hệ thống LSI thƣờng dùng để lập các phép lọc trên các tín hiệu tiếngnói và, có lẽ quan trọng hơn là, chúng rất có ích cho các mô hình tạo ta tiếngnói CAO QUYẾT THẮNG Trang 11 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI §2 BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU Phân tích và thiết kế các hệ thống tuyến tính đƣợc thực hiện dễ dàng... (Digital - to - Analog Converter, DAC) đèu tìm cách xấp xỉ (18) CAO QUYẾT THẮNG Trang 20 CNT45DH GROUP BÀIGIẢNGXỬLÝTIẾNGNÓI 2 Cắt bỏ (decimation) và thêm vào (interpolation) các dạng sóng mẫu: ở nhiều ví dụ sẽ xét, ta phải thay đổi tỉ lệ mẫu của tín hiệu thời gian rời rạc Chẳng hạn, khi tiếngnói là mẫu dùng lƣợng tử vi phân 1-bit tại tỷ lệ mẫu cao (điều biến delta) đƣợc chuyển thành biểu diễn . BÀI GIẢNG XỬ LÝ TIẾNG NÓI CAO QUYẾT THẮNG Trang 1 CNT45DH GROUP TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC XỬ LÝ TIẾNG. . BÀI GIẢNG XỬ LÝ TIẾNG NÓI CAO QUYẾT THẮNG Trang 5 CNT45DH GROUP Trong hệ thống truyền tiếng nói, tín hiệu tiếng nói đƣợc truyền đi, lƣu giữ và xử lý