1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm Hiểu Các Phương Pháp Phân Tích Đặc Trưng Tiếng Nói.doc

55 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

B́a in 2 màu LỜI NÓI ĐẦU Mục đích của báo cáo này là Tìm hiểu phương pháp phân tích đặc trưng tiếng nói Phân tích và thử nghiệm một ứng dụng liên quan nhận dạng tiếng nói Trích chọn các tham số đặc tr[.]

LỜI NĨI ĐẦU Mục đích báo cáo Tìm hiểu phương pháp phân tích đặc trưng tiếng nói Phân tích thử nghiệm ứng dụng liên quan nhận dạng tiếng nói Trích chọn tham số đặc trưng bước có ý nghĩa định tới kết chương trình nhận dạng tiếng nói Có nhiều phương pháp trích chọn tham số đặc trưng nhìn chung phương pháp dựa hai chế: Mơ lại q trình cảm nhận âm tai người Mơ lại q trình tạo âm quan phát âm Dưới hướng dẫn tận tình Cơ Nguyễn Hồng Lan em cố gắn hoàn thành tốt tiểu luận Nhưng trình thực khơng tránh khỏi nhữnh sai sót, mong thày góp ý để tiểu luận hồn thiện Em xin chân thành cảm ơn ! Hà Nội, tháng năm 2010 Học Viên: Nguyễn Ngọc Đăng Tiểu luận môn học: Truyền thông đa phương tiện NHD:TS Nguyễn Hoàng Lan HV: Nguyễn Ngọc Đăng Học Viên: Nguyễn Ngọc Đăng PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI I Bộ máy phát âm người Cơ chế phát âm Sơ đồ hệ thống phát âm người minh họa hình vẽ: Hình 1: Bộ máy phát âm (1) Khoang mũi, (2) Vòm miệng cứng, (3) Ổ răng, (4) Vòm miệng mềm, (5)-(6)-(8) Lưỡi, (7) Lưỡi gà, (9) Họng, (10) Nắp quản, (11)-(12) Dây âm, (13) Học Viên: Nguyễn Ngọc Đăng Tiểu luận môn học: Truyền thông đa phương tiện NHD:TS Nguyễn Hoàng Lan Thanh quản, (14) Thực quản, (15) Khí quản Hệ thống phát âm người bao gồm: phổi (lung), khí quản (trachea), quản (thanh quản), khoang miệng (oral cavity) khoang mũi (nasal cavity) Thanh quản chứa hai nếp gấp gọi dây âm (vocal cords), kéo căng phát tiếng nói Khoang miệng gồm ống âm (acoustic tube) dài khoảng 17 cm người nam, phần trước kết thúc môi phần sau kết thúc dây âm quản Khoang miệng đóng vai trị hộp cộng hưởng động, thể tích điều khiển máy phát âm ( mơi, lưỡi, quai hàm, vịm miệng mềm) Khoang mũi ống dài khoảng 12 cm người nam, kết thúc lỗ mũi vòm miệng mềm Vòm miệng mềm (velum) điều khiển phát theo đường miệng đường mũi Đối với âm không theo giọng mũi (non-nasalised), vịm miệng mềm đóng khoang mũi phát theo đường miệng Đối với âm có giọng mũi, vịm miệng mềm dịch chuyển xuống phía dưới, đóng đường miệng phát theo đường mũi Trường hợp thứ ba phát theo hai đường Quá trình phát âm: nói, phổi chứa đầy khơng khí Lượng khơng khí đẩy qua khí quản mơn (glottis) Luồng khơng khí qua mơn kích thích dây âm dao động tạo phát âm Âm truyền qua Học Viên: Nguyễn Ngọc Đăng khoang miệng khoang mũi Các khoang có tác dụng lọc làm suy hao vài tần số cho tần số khác qua Đặc trưng vật lý - Độ cao: Là mức độ cao thấp âm, phụ thuộc vào chấn động nhanh hay chậm khơng khí khoảng thời gian định, gọi tần số dao động Tần số dao động lớn âm cao - Độ mạnh: Thường gọi cường độ, biên độ dao động định Trong ngôn ngữ, phụ âm thường mạnh nguyên âm, đặc điểm góp phần nhận diện khác biệt phụ âm nguyên âm âm tiếng nói - Độ dài: Là trường độ âm, phụ thuộc vào chấn động lâu hay mau phần tử khơng khí Độ dài sử dụng để phân biệt nguyên âm dài ngắn, phân biệt “a” với “ă”, “ơ” với “â” tiếng Việt - Âm sắc: Học Viên: Nguyễn Ngọc Đăng Tiểu luận môn học: Truyền thông đa phương tiện NHD:TS Nguyễn Hoàng Lan Là sắc thái riêng âm cá thể khác tạo Âm sắc nguyên nhân gây khác biệt giọng nói người với người khác Âm sắc có tượng cộng hưởng - Tiếng ồn tiếng thanh: Tiếng ồn chuyển động không nhịp nhàng (khơng có chu kỳ ổn định) phần tử khơng khí gây Tiếng chuyển động nhịp nhàng (có chu kỳ ổn định) phần tử khơng khí gây Phân loại tiếng nói - Âm hữu thanh: Được tạo dây âm căng lên rung áp suất khơng khí tăng lên, làm cho mơn mở đóng lại luồng khơng khí qua Bộ phận phát âm hoạt động giống hộp cộng hưởng, khuyếch đại thành phần hài làm suy giảm thành phần hài khác để tạo âm hữu Mức độ rung dây âm tùy thuộc vào áp suất khơng khí phổi sức căng dây âm Người nói điều khiển yếu tố để thày đổi chu kì (được gọi pitch) âm Ở người đàn ông, tần số khoảng từ 50÷250 Hz, phụ nữ thường rơi vào khoảng 120÷500 Hz Trong ngơn ngữ, ngun âm chất âm học âm hữu Học Viên: Nguyễn Ngọc Đăng - Âm vô thanh: Được tạo dây âm khơng rung Có hai loại âm vô bản: âm xát âm bật  Đối với âm xát, ví dụ nói “s”, “x”, số điểm phận phát âm bị co lại luồng khơng khí ngang qua nó, hỗn loạn xảy tạo nên nhiễu ngẫu nhiên Bởi điểm co thường phía trước miệng, cộng hưởng phận phát âm có ảnh hưởng nhỏ đến đặc tính âm xát  Đối với âm bật hơi, ta nói ‘h’ ₡hùng?, hỗn loạn xảy gần môn dây âm bị giữ nhẹ phần Trường hợp này, cộng hưởng phận phát âm biến điệu phổ nhiễu ngẫu nhiên Hiệu ứng nghe rõ nói thầm Cấu tạo phụ âm ngôn ngữ âm vơ Ngồi hai loại âm trên, cịn có loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, gọi bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ ‘u’ từ ‘ai’, ‘âu’ - Âm bật hơi: Khi phát âm này, máy phát âm đóng lại hồn tồn điểm máy phát âm Ap suất khơng khí máy phát âm tăng lên tức thời Học Viên: Nguyễn Ngọc Đăng Tiểu luận môn học: Truyền thông đa phương tiện NHD:TS Nguyễn Hồng Lan giải phóng cách đột ngột Sự giải nhanh chóng áp suất tạo nên kích thích tạm thời máy phát âm Mơ hình lọc nguồn tạo tiếng nói (Hình 2) minh họa mơ hình đơn giản phận phát nguyên âm “e” ống có chiều dài L, đầu nguồn âm thanh(dây âm) đầu mở ra(môi) Ống cộng hưởng tần số lẻ f 0, 3f0, 5f0… với f0=c/4L với c vận tốc âm khơng khí Ví dụ, L=17cm, c=300m/s, cộng hưởng tần số: 500Hz, 1500Hz, 2500Hz,… đỉnh cộng hưởng gọi Formant Bộ phận phát âm nhiều dạng khác tạo đỉnh cộng hưởng khác hay giá trị Formant khác nên âm phát khác Trong tiếng nói, tần số Formant thay đổi từ âm sang âm khác Hình 2: Mơ hình ống phận phát âm Q trình hình thành tiếng nói biểu diễn mơ hình Source-filter: Học Viên: Nguyễn Ngọc Đăng Hình 3: Tạo tiếng nói theo mơ hình lọc nguồn Tín hiệu vào tín hiệu từ nguồn âm thanh(cũng có chu kì hay nhiễu) lọc lọc có tính chất cộng hưởng tương tự với phận phát âm Phổ tín hiệu tiếng nói thu cách nhân phổ lọc với phổ tín hiệu AV, AN độ lợi biểu thị cường độ âm cường độ nhiễu Một phận phát âm có số hữu hạn Formant, cần quan tâm đến hay Formant băng tần từ 100Hz đến 3.5kHz biên độ Formant cao bị suy giảm gần hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vơ thanh, phổ tương đối phẳng, số lượng Formant đủ tiếng nói vơ có băng tần mở rộng lên đến 7-8kHz Ngoài ra, ảnh hưởng xạ miệng nên biên độ tăng lên chừng 6dB/octave băng tần 0-3kHz Chình mà đến phần tiền xử lý tín hiệu ta phải dùng lọc tiền nhấn để bù thêm +6dB/octave Học Viên: Nguyễn Ngọc Đăng Tiểu luận môn học: Truyền thông đa phương tiện II NHD:TS Nguyễn Hoàng Lan Cơ quan thính giác người: Cấu tạo Hình 4: Cấu tạo quan thính giác Tai ngồi: Bao gồm có vành tai lỗ tai, lỗ tai dẫn tín hiệu âm đến màng nhĩ làm cho màng nhĩ rung lên Độ lệch màng nhĩ khoảng chừng vài nanomet tiếng nói thầm tạo độ lệch phần mười bán kính ngun tử hydro Tai giữa: Có xương nhỏ gọi xương búa áp sát vào màng nhĩ Trong lúc màng nhĩ rung lên, xương búa liên kết với xương khác, gọi xương đe, làm xương Học Viên: Nguyễn Ngọc Đăng 10

Ngày đăng: 30/06/2023, 14:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w