Chuyên đề mã hóa tiếng nói trong di động

16 385 0
Chuyên đề mã hóa tiếng nói trong di động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI MỞ ĐẦU Trong thời đại ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật nhu cầu trao đổi thông tin người ngày tăng lên.từ lúc đầu giao tiếp ,tương tác thông qua văn giấy tờ, ngày nhu cầu sử dụng tiếng nói truyền thông, tương tác người máy trở nên cấp thiết hơn.Vì lĩnh vực kỹ thuật đời, hóa tiếng nói Tiếng nói phương tiện sử dụng hàng ngày,nhờ có tiếng nói ta biểu tâm tư, tình cảm, suy nghĩ ,giúp giao tiếp,làm việc với người xung quanh.Khi phương pháp hóa đời đạt thành tựu đáng kể ứng dụng việc hóa tiếng nói áp dụng nhiều lĩnh vực khác xã hội ta không kể đến việc hóa tiếng nói thông tin di động ngày nay.Việc hoá tiếng nói cần thiết ,giúp giảm thiểu số lượng tín hiệu đường truyền đảm bảo chất lượng gọi Trong tiểu luận này,em xin trình bày nội dung sau: • • • • Chương 1: Tổng quan tiếng nói Chương 2: Các phương pháp hóa tiếng nói Chương 3: Bộ hóa giải tiếng nói hệ thống GSM THUẬT NGỮ VIẾT TẮT A/D Analog to Digital AbS ADPCM D/A DM DPCM Analysis by Synthesis Adaptive Differently PCM Digital to Analog Delta Modulation Differential PCM Global System For Mobile Communications Linear Prediction Linear Prediction Coding Long Term Predictor GSM LP LPC LTP Tương tự sang số Phân tích tổng hợp Điều chế xung vi sai thích ứng Số sang tương tự Điều chế Delta Điều chế xung vi sai Hệ thống thông tin di động toàn cầu Dự đoán tuyến tính hoá dự đoán tuyến tính Dự đoán dài hạn MPE-LTP PCM PDF RELP Multi-Pulse Excited LPC Codec with Long term Predictor Pulse Code Modulation Probability Density Function Residual Excited Linear Prediction Regular Pulse Excitation RPE RPE-LTP Regular Pulse Excited Long Term Prediction SNR STP Signal to Noise Ratio Short term Predictor Dự đoán tuyến tính kích thích đa xung với dự đoán dài hạn Điều chế xung Hàm mật độ xác suất Dự đoán tuyến tính kích thích tín hiệu sau dự đoán Kích thích xung Kích thích xung - Dự đoán dài hạn Tỉ số tín hiệu nhiễu Dự đoán ngắn hạn DANH MỤC HÌNH VẼ Hình 1.1: Bộ máy phát âm người Hình 1.2: Một đoạn điển hình âm hữu Hình 1.3: Một đoạn điển hình âm vô Hình 2.1: Các phương pháp hóa tiếng nói Hình 2.2: Mô hình toán học LPC Hình 3.1: Quá trình hóa giải thông tin di động Hình 3.2: Bộ hóa dựa giải thuật RPE-LTP Hình 3.3: Sơ đồ khối mô tả trình giải tiếng theo RPE-LTP • CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI Quá trình tạo tiếng nói Tiếng nói âm mang mục đích diễn đạt thông tin,rất uyển chuyển đặc biệt.Là công cụ tư trí tuệ,tiếng nói mang đặc trưng loài người.Nhờ có ngôn ngữ tiếng nói loài người sống thành xã hội tiến bộ, có văn hóa, văn minh ngày nay.Trong trình giao tiếp người nói có nhiều câu nói Mỗi câu gồm nhiều từ, tiếng Việt ,số từ thường sử dụng vào khoảng 6700 âm tiết Tiếng nói thường xuất nhiều hình thức ta gọi đàm thoại, việc đàm thoại thể kinh nghiệm người Đàm thoại trình gồm nhiều người, có hiểu biết chung nghi thức luân phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếng nói mình, tiếng nói phương tiện giao tiếp lúc đàm thoại Tiếng nói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ý cần diễn đạt biểu gương mặt, cử , điệu Vì đặc tính tác động qua lại, nên tiếng nói sử dụng nhu cầu giao tiếp nhanh chóng Sóng âm thoại sóng áp suất âm tạo từ nhừng chuyển động có điều khiển phận thể người hình thành nên hệ thống tạo âm thoại Một cấu trúc đơn giản hệ thống tạo âm thoại minh họa hình vẽ 1.1 Cơ bản, thoại tạo sóng âm từ hốc mũi miệng không khí bị bật từ phổi với kết luồng không khí bị xáo trộn co thắt bên thể người Nguồn lượng nằm môn, Tuyến âm kích thích nguồn lượng môn Tiếng nói tạo sóng âm học kích thích từ môn phát đẩy không khí có phổi lên tạo thành dòng khí va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi, môi tạo tiếng nói • • • • Thanh quản chứa hai dây dao động tạo cộng hưởng trình tạo thành âm Ống dẫn âm ống không đồng dạng môi, kết thúc dây thanh quản Ống có độ dài khoảng 17cm người bình thường Khoang mũi ống không đồng dạng thuộc vùng cố định mũi, kết thục vòm miệng, người bình thường khoang mũi có độ dài 12 cm Khoang miệng nếp da chuyển động điều khiển ghép âm khoang miệng khoang mũi Trong trình phát âm, âm mũi vòm miệng hạ thấp dòng khí qua đường mũi, âm thường vòm miệng mở, đường mũi khép lại dòng khí theo khoang miệng môi • • • • • • • • • • • • • • • Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Khí quản Hình 1.1 Bộ máy phát âm người 1.2 Các đặc điểm tiếng nói 1.2.1 Đặc tính vật lý âm Âm giới tự nhiên chất sóng âm tạo từ dao động vật thể truyền môi trường truyền âm định Âm tiếng nói, tương tự, sóng âm tạo từ dao động phận máy phát âm truyền môi trường truyền âm (thường không khí) Những sóng âm truyền đến tai người nghe, đập vào màng nhĩ - màng mỏng nhạy cảm tai người – làm cho màng nhĩ dao động, dây thần kinh màng nhĩ nhận cảm giác âm tần số dao động sóng đạt đến độ lớn định người nghe nhận biết lời nói Liên lạc thông tin tiếng nói truyền thông tin từ não người nói sang não người nghe Có thể xem tiếng nói (thoại) trường hợp riêng phổ biến âm Âm có tham số đánh giá đặc trưng sau đây: Tần số: Tần số âm đơn số lần dao động không khí truyền dẫn âm đơn vị thời gian giây Tần số biểu thị độ cao (pitch) âm Tần số lớn âm cao ngược lại Ðơn vị để đo tần số âm Hertz (viết tắt Hz) Tai người cảm thụ dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Dải tần số từ 16Hz đến 20000Hz gọi dải tần số âm hay âm tần sóng âm Những âm có tần số nhỏ 16Hz gọi sóng hạ âm, âm có tần số lớn 20000 Hz gọi sóng siêu âm người không cảm nhận sóng âm có nhiều loài vật cảm nhận (ví dụ loài dơi nghe sóng siêu âm) Sóng âm, sóng siêu âm hạ âm không truyền không khí lan truyền tốt môi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc nay.Ứng với tần số dao động f, có chu kỳ dao động T bước sóng l âm xác định theo biểu thức l = c.T (c tốc độ lan truyền âm không khí = 340m/s) Do đó, bước sóng âm dải âm tần từ 21.25m đến 0.017m.Trong thực tế, âm phát thường âm đơn âm phức bao gồm âm đơn số âm hài có tần số gấp 2, 4… lần âm đơn Ngoài ra, dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ 300Hz đến 3000Hz tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz Tiếng nói người thường có dải tần số từ 300Hz đến 3400Hz Áp suất âm thanh: Áp suất âm hay gọi áp Âm truyền lan đến đâu làm thay đổi áp suất không khí Áp suất âm tạo thêm điểm gọi áp điểm Đơn vị đo áp bar Một bar áp tác động lên diện tích 1cm2 lực 1dyn bar = 1dyn/cm2 Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo áp bar = 10 Kpa; Pa = N/m2 Công suất âm thanh: Là lượng âm qua diện tích S thời gian giây Công suất âm P tính biểu thức: P = p.S.v (1.1) Trong p áp, v tốc độ dao động phần tử không khí S diện tích Công suất âm tính theo đơn vị oát (W) Thông thường máy bay phản lực có công suất âm 10.000W; ô tô vận tải phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W Cường độ âm thanh: Cường độ âm I công suất âm qua đơn vị diện tích 1cm2 I=P/S= p.v (1.2) Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm gắn liền với Cả ba biểu thị độ lớn nhỏ âm Âm có lượng lớn công suất, cường độ áp suất âm lớn Ðộ mạnh (Intensity): Do biên độ dao động vật thể định Biên độ dao động trị số lớn dao động đạt tới nửa chu kì Biên độ dao động lớn, âm vang to ngược lại Ðơn vị đo độ mạnh âm décibel (viết tắt dB) Trong lời nói người, độ mạnh âm yếu tố tạo nên âm lượng âm trọng âm từ Ðộ dài (Length): Do thời gian dao động vật thể định Ðộ dài âm tạo nên tương phản phận lời nói, yếu tố tạo nên trọng âm, tạo nên nguyên âm đối lập độ dài Hai từ "tang" "tăng" tiếng Việt có đối lập âm a dài (trong "tang") âm a ngắn (trong "tăng") Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài độ mạnh tham gia bổ sung vào thành phần kết cấu âm Ðây vẻ riêng biệt âm Âm sắc định bởi: thể chất vật thể dao động, tính chất phức hợp tượng cộng hưởng âm phương pháp làm cho vật thể dao động Một âm có độ cao, độ mạnh, độ dài phát từ dây tơ khác với từ dây đồng; từ ống sáo to dài, khác với từ ống sáo nhỏ, ngắn; từ việc gẩy khác với từ việc gõ, búng, cọ xát thổi Âm sắc sắc thái riêng âm Âm sắc định vật thể dao động theo chu kì đặn hay không đặn; dao động theo chu kì đặn tạo âm vang(sonants), chu kì không đặn tạo âm ồn hay âm có nhiều tiếng động (non - sonants bruyants) 1.2.2 Các đặc tính âm học âm Tín hiệu tiếng nói tín hiệu tương tự biểu diễn cho thông tin mặt ngôn ngữ mô tả âm vị khác Tuỳ theo ngôn ngữ cụ thể số lượng âm vị nhiều hay Thông thường số lượng âm vị vào khoảng 20 – 30 nhỏ 50 ngôn ngữ Đối với loại âm vị có đặc tính âm khác Các âm vị chia thành hai loại nguyên âm phụ âm Tổ hợp âm vị tạo nên âm tiết Âm tiết đóng vai trò từ trọn vẹn mang ngữ nghĩa 1.2.2.1.Nguyên âm: Nguyên âm tạo cộng hưởng dây dòng khí môn đẩy lên Khoang miệng tạo lập thành nhiều hình dạng định tạo thành nguyên âm khác Số lượng nguyên âm phụ thuộc vào ngôn ngữ định Mỗt nguyên âm đặc trưng formant đầu tiên, formant thường mang thông tin 1.2.2.2.Phụ âm: Phụ âm tạo dòng khí hỗn loạn phát gần điểm co thắt đường dẫn âm cách phát âm tạo thành Dòng không khí chỗ đóng vòm miệng tạo phụ âm tắc Những phụ âm xát phát từ chỗ co thắt lớn âm tắc xát tạo từ khoảng Phụ âm có đặc tính hữu vô tuỳ thuộc việc dây có dao động để tạo thành cộng hưởng không Đặc tính phụ âm tuỳ thuộc vào tính chu kỳ dạng sóng, phổ tần số, thời gian tồn truyền dẫn âm 1.2.2.3.Tỷ suất thời gian: Trong nói chuyện, khoảng nói chuyện khoảng nghỉ xen kẽ Phần trăm thời gian nói tổng số thời gian nói nghỉ gọi tỷ xuất thời gian Giá trị biến đổi tuỳ thuộc vào tốc độ nói từ ta phân loại thành nói nhanh, nói chậm hay nói bình thường 1.2.2.4 Hàm lượng thời gian ngắn: Hàm lượng thời gian ngắn tiếng nói tính cách chia tín hiệu tiếng nói thành nhiều khung chứa N mẫu tính diện tích trung bình tổng mẫu tín hiệu khung Các khung đưa qua cửa sổ có dạng hàm sau: Thông thường có ba dạng cửa sổ sử dụng cửa sổ chữ nhật, cửa sổ Hamming cửa sổ Hanning 1.2.2.5 Tần số vượt qua điểm không Tần suất vượt qua điểm không số lần biên độ tín hiệu tiếng nói vượt qua giá trị không khoảng thời gian cho trước Thông thường giá trị âm vô lớn âm hữu đặc tính ngẫu nhiên âm vô Do đo tần suất vượt qua điểm không tham số quan trọng để phân loại âm hữu âm vô 1.2.2.6.Phát điểm cuối Trong xử lý tiếng nói việc xác định bắt đầu xuất tín hiệu tiếng nói kết thúc trình nói cần thiết quan trọng Trong môi trường nhiều tiếng ồn (nhiễu ) môi trường nhiều người nói việc phát điểm kết thúc khó khăn.Đã có phương pháp phát điểm cuối tiếng nói 1.2.2.7 Tần số Dạng sóng tiếng nói gồm hai phần: Phần gần giống nhiễu biên độ biến đổi ngẫu nhiên phần tuần hoàn Phần tín hiệu có tính chu kỳ chứa thành phần tần số có dạng điều hòa Tần số thấp tần số tần số dao động dây dây Đối với người nói khác nhau, tần số khác Tần số trẻ em thường cao so với người lớn nữ giới cao so với nam giới Bảng 1: Một số giá trị tần số tương ứng với giới tính tuổi: Người nói Giá trị tần số Nam 80-200Hz Nữ 150-450Hz Trẻ em 200-600HZ Đối với hai âm có cường độ, độ cao phân biệt tính tuần hoàn Một âm hữu có tín hiệu gần tuần hoàn phân tích phổ xuất vạch vùng tần số thấp Vạch đặc trưng cho tính tuần hoàn âm tần số âm Trong giao tiếp bình thường tần số thay đổi liên tục tạo nên ngữ điệu cho tiếng nói 1.2.2.8 Formant Trong phổ tần số tín hiệu tiếng nói, đỉnh có biên độ cao xét khoảng (còn gọi cực trị địa phương) xác định formant Ngoài tần số, formant xác định biên độ dải thông chúng Về mặt vật lý tần số formant tương ứng với tần số cộng hưởng tuyến âm Trong xử lý tiếng nói tổng hợp tiếng nói để mô lại tuyến âm người ta phải xác định tham số formant loại âm vị, việc đánh giá, ước lượng formant có ý nghĩa quan trọng Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant Đồng thời, formant phụ thuộc âm vị trước sau Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạnh kích thước tuyến âm Thông thường phổ tần số tín hiệu có khoảng formant có formant ảnh hưởng quan trọng đến đặc tính âm vị, formant lại có ảnh hưởng song Các formant có giá trị tần số xê dịch từ vài trăm đến vài nghìn Hz Tần số formant đặc trưng cho nguyên âm biến đổi tuỳ thuộc vào người nói điều kiện phát âm định Mặc dù phạm vi tần số formant tương ứng với nguyên âm trùng lên vị trí formant không đổi xê dịch formant song song Ngoài formant, âm mũi có tần số bị suy giảm gọi phản formant (antiformant) Phản formant tạo nên luồng khí qua khoang mũi Các formant tương ứng nói điểm cực hàm truyền đạt lân cận điểm cực giá trị hàm truyền đạt lớn, tương tự anti-formant tương ứng với điểm không hàm truyền đạt • Phân loại đơn giản dạng sóng tiếng nói Phần gần tuần hoàn lặp lại chu kỳ gọi tiếng nói hữu (voiced speech) Chu kỳ lặp lại gọi chu kì T nghịch đảo T0 tần số F0 Âm hữu phát luồng khí cực mạnh từ môn thổi qua dây làm dung dây thanh, dao động dây tạo nên nguồn tuần hoàn Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu Vùng âm hữu chiếm thành phần chủ yếu sóng tiếng nói, chứa đựng lượng tin nhiều thời gian lớn trình nói Phần tín hiệu có dạng giống tập âm nhiễu có biên độ ngẫu nhiên gọi tiếng nói vô (unvoiced speech) Tiếng nói vô tạo co thắt theo dạng tuyến âm luồng khí chạy qua chỗ thắt với tộc độ lớn tạo nên nhiễu loạn, ví dụ lúc ta nói thào (cần phân biệt thầm với thào, theo từ điển tiếng Việt thào nói chuyện với nhỏ tựa gió thoảng qua tai thầm nói chuyện với không để người nghe thấy) Năng lượng nguồn nhiễu loạn tạo kích thích tuyến âm tạo nên tiếng nói vô thanh, lượng tiếng nói vô nhỏ so với tiếng nói hữu Ta phát tiếng nói hữu nói dây rung Còn âm vô nói dây không rung Nói thào xa không nghe lượng âm vô nhỏ tiếng thào âm vô tạo nên Các âm bật - nổ (plosive sound): tạo có đóng hoàn toàn cuống họng, áp suất không khí hình thành phía sau giải phóng đột ngột.-> phụ âm Một số âm không xem thuộc vào ba loại âm nói trên, nhiên chúng hỗn hợp Ví dụ âm xát (phụ âm xát rít – cọ xát) hình thành có rung động dây âm khe hẹp cuống họng hình thành Hình 1.2 Một đoạn điển hình âm hữu Hình 1.3 Một đoạn điển hình âm vô CHƯƠNG II: TỔNG QUAN VỀ HÓA TIẾNG NÓI Trong vài thập kỷ vừa qua, có nhiều kỹ thuật hoá nén tiếng nói đưa ra, phân tích phát triển Trong chương , giới thiệu số kỹ thuật sử dụng Thông thường hoá tiếng nói chia làm ba phương pháp là: hoá dạng sóng (waveform coder) hoá nguồn (source coder) (hay gọi hoá thông số) hóa lai (hybrid coder) hoá dạng sóng thực tốc độ bít cao cho chất lượng hoá tiếng nói tốt hoá nguồn thực tốc độ bít thấp, có xu hướng tạo tiếng nói có chất lượng nhân tạo, hoá lai (hybrid coder), kỹ thuật hoá tổng hợp phương pháp hoá dạng sóng hoá nguồn, cho chất lượng tiếng nói tốt thực tốc độ bít trung bình wop8412.tmpMicrosoft_Visio_2003-2010_Drawing.vsd Hình 2.1 Các phương pháp hóa tiếng nói 2.1 hóa dạng sóng hoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào tiếng nói Nó thường chia thành tín hiệu độc lập dùng để hoá nhiều loại tín hiệu Thông thường, phương pháp hoá có độ phức tạp thấp nhiên lại cho chất lượng cao với tốc độ bít cao (lớn khoảng 16kbps) hoá dạng sóng thực miền tần số miền thời gian 2.1.1 hóa miền thời gian hoá miền thời gian thực việc hóa khoảng thời gian lấy mẫu tín hiệu Các phương pháp hoá miền thời gian thường dùng gồm có: Điều chế xung (PCM), điều chế xung thích ứng (APCM), điều chế xung vi phân (DPCM), điều chế xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế Delta thích ứng, hoá dự đoán thích ứng (APC) Tiếp theo ta xem xét vài phương pháp hoá quan trọng miền thời gian hóa PCM Điều chế xung phương pháp đơn giản hoá dạng sóng Điểm cốt yếu phương pháp trình lượng tử hóa Bất dạng lượng tử hoá vô hướng sử dụng phương pháp này, dạng hay dùng lượng tử hoá logarit Uỷ ban tư vấn điện thoại điện báo quốc tế giới thiệu G.711 phương pháp chuẩn cho việc hoá tiếng nói thoại Chuẩn G.711 xác định bit theo luật μ luật A PCM hoá dùng luật μ có lợi việc thực cho tỉ số tín hiệu nhiễu bé hoá DPCM ADPCM PCM không giả định tính tự nhiên dạng sóng hóa, làm việc tốt với tín hiệu tiếng nói Tuy nhiên, hoá tiếng nói có tương quan lớn mẫu cạnh Sự tương quan sử dụng để khôi phục tốc độ bít kết Một phương pháp đơn giản để thực việc truyền sai khác mẫu Tín hiệu khác biệt có phạm vi dao động nhỏ so với tín hiệu tiếng nói ban đầu, lượng tử hoá cách hiệu việc sử dụng vector lượng tử hoá với mức xây dựng lại thấp Trong phương pháp trên, mẫu trước sử dụng để dự đoán giá trị mẫu Sự dự đoán cải thiện ta sử dụng khối lớn tín hiệu tiếng nói cho việc dự đoán Phương pháp gọi điều chế hoá xung vi phân (DPCM) Một phiên phát triển DPCM điều chế xung thích ứng ADPCM Trong ADPCM, dự đoán lượng tử hoá thích ứng với đặc tính tín hiệu đầu vào Có số chuẩn ITU giới thiệu cho việc hoá tín hiệu âm dựa vào giải thuật ADPCM (với dải thông hẹp khoảng 8kHz) ví dụ G.726 thực tốc độ bít 40, 32, 24 16 kbps Độ phức tạp ADPCM thực thấp hoá ADPCM cho tín hiệu tín hiệu nhiễu cao (vào khoảng 30 đến 35 dB) 2.1.2 hóa miền tần số hoá dạng sóng miền tần số chia tín hiệu thành thành phần tần số khác tiến hành hoá thành thành phần Số bít sử dụng để hoá thành phần tần số thay đổi hoá miền tần số chia làm hai nhóm là: hoá băng (subband) hoá biến đổi (transform) hoá băng (subband) hoá băng sử dụng số lọc dải thông để chia tín hiệu đầu vào thành tín hiệu (subband signal) hoá Tại thu tín hiệu giải cộng lại nhằm khôi phục lại tín hiệu ban đầu Ưu điểm phương pháp hoá băng nhiễu lượng tử hoá sinh dải tần bị hạn chế dải tần Hiệp hội viễn thông quốc tế ITU đưa chuẩn G.722 hoá băng (subband) để truyền thông với tốc độ 48, 56 64 kbps hoá biến đổi (transform) Kỹ thuật cần có khối chuyển đổi cửa sổ tín hiệu đầu vào thành thành phần tần số, vài miền tương tự hoá thích ứng sau hoàn thành cách phân bổ thêm bít vào thành phần hệ số quan trọng Tại thu giải thực việc chuyển đổi ngược để thu lại tín hiệu cần khôi phục Ta sử dụng số phép biến đổi như: phép biến đổi Fourier rời rạc (DFT) phép biến đổi cosine rời rạc (DCT) 2.2 hóa nguồn hóa ADPCM cho chất lượng tốt tốc độ bit giảm 16 Kbps Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói Từ đây, người ta có khái niệm hóa nguồn hay gọi hóa dựa mô hình Ở đây, hóa nguồn hoạt động sử dụng mô hình nguồn tín hiệu tạo cố gắng trích chọn từ tín hiệu hóa tham số mô hình truyền chúng tới giải Các hóa nguồn cho tín hiệu thoại gọi Vocoder (Voice + Coder) Ưu điểm loại hóa có hiệu âm thoại, dễ hiểu, lại có nhược điểm phức tạp nhiều so với phương pháp hóa dạng sóng xử lý tiếng nói người hóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps) tiếng nói tái tạo lại hoàn toàn dễ hiểu chúng lại khác nhiều so với giọng nói tự nhiên người 2.2.1 Nguyên tắc hóa Vocoder hóa Vocoder kiểu hóa tiếng nói dựa tham số mô máy phát âm, khác với hóa dạng sóng tiếng nói tương tự, gọi hóa nguồn( Vocoder).Nguyên lý dựa việc tuyến âm thay đổi từ từ trạng thái cấu hình chúng thời điểm mô cách gần tập nhỏ tham số Nhờ việc tuyến âm có tốc độ thay đổi từ từ cho phép tập tham số đại diên cho trạng thái qua khoảng thời gian 25ms.Hầu hết hóa Vocoder biểu diễn đặc tính nguồn kích thích tuyến âm tập tham số Nó gồm khoảng 10 đến 15 hệ số lọc để định nghĩa đặc tính cộng hưởng tuyến âm, tham số, hai giá trị đơn giản để nguồn phát âm âm vô hay âm hữu thanh, tham số lượng kích thích tham số chu kì ( âm săc, có với âm hữu thanh) Trạng thái tuyến âm suy cách phân tích dạng sóng tiếng nói khoảng thời gian 10 đến 25ms tính toán tập tham ( khung liệu) phần cuối khoảng thời gian Khung liệu truyền sau dung để điều khiển việc tổng hợp lại tiếng nói hóa Vocoder có khả chuyển hai kiểu nguồn kích thích nguồn xung âm hữu thành cà nhiều trắng âm vô Bên phía tống hợp dùng hai nguồn cho qua lọc gồm hệ số khung liệu để tổng hợp tiếng nói Ngoài việc đạt tốc độ bít thấp, Vocoder có ưu điểm phân tích tham số nguồn kích thích Bít biểu thị âm sắc,âm lượng,âm hữu âm vô Bản thân bít khung dự liệu, nên thay đổi chúng sửa đổi trước tổng hợp Vì ta biến âm hữu thành thành lời thầm đặt lại giá trị bit âm hữu thanh/ vô Cũng thay đổi thân câu nói cách sửa đổi tham số cộng hưởng Nhược điểm phương pháp tiếng nói có dạng tổng hợp,khó có khả nhận dạng người nói 2.2.2 Mô hình LPC hóa tham số (parametric coding) hay gọi Vocoder Ở đây, tín hiệu thoại giả thiết tạo từ mô hình (giống mô hình tạo tiếng nói từ quan phát âm người), mô hình điều khiển vài tham số chức Trong trình hóa, tham số mô hình suy (ước đoán) từ tín hiệu thoại đầu vào Kiểu hóa không bảo toàn hình dạng sóng ban đầu tín hiệu nên dùng tỷ số tín hiệu nhiễu SNR để đánh giá Chất lượng nhận thức (cảm nhận) tín hiệu thoại sau giải liên quan trực tiếp đến độ xác mô hình Do hạn chế này, hóa tham số có hiệu thấp tín hiệu tín hiệu thoại Có số mô hình đề xuất cho hóa tham số thành công mô hình dự đoán tuyến tính Theo cách tiếp cận này, chế tạo tiếng nói người thực việc sử dụng lọc biến đổi theo thời gian với tham số lọc xây dựng dựa thủ tục phân tích dự đoán tuyến tính Bộ hóa tham số làm việc tốt với tốc độ bit thấp từ đến Kbps ví dụ điển hình hóa tham số hóa dự đoán tuyến tính LPC (Linear Prediction Coding) hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation Linear Prediction) Mô hình toán học hóa dự đoán tuyến tính minh họa hình vẽ đây: wop848F.tmpMicrosoft_Visio_2003-2010_Drawing1.vsd Hình 2.2 Mô hình toán học LPC Ở tín hiệu thoại số đầu lọc số - lọc LPC có đầu vào dãy xung chuỗi nhiễu trắng Nói cách khác, cuống họng đặc trưng lọc biến đổi theo thời gian bị kích thích với nguồn nhiễu trắng khác cho phân đoạn thoại vô dãy xung phân tách theo chu kỳ âm cho âm hữu Do thông tin phải gửi đến giải tham số đặc trưng cho lọc; âm vô thanh/hữu thanh; thay đổi cần thiết tín hiệu kích thích, chu kỳ âm Quá trình cập nhật liên tục 10–20 ms theo chất không dừng (nonstationary) tín hiệu thoại Các tham số mô hình xác định hóa theo số cách khác sử dụng kỹ thuật miền thời gian tần số Đồng thời thông tin hóa để truyền dẫn theo cách khác Mối quan hệ mô hình toán học mô hình vật lý – quan phát âm thoại người mô tả đây: Cuống họng H(z) ( Bộ lọc LPC) Không khí u(n) Dao động dây âm V ( Các âm hữu thanh) Chu kỳ dao động day âm T ( Độ cao âm thanh) Các âm vô UV ( Vô thanh) Lượng không khí G ( Độ tăng ích) Hàm truyền đạt lọc xác định theo biểu thức (2.1): (2.1) Điều tương đương với việc quan hệ vào lọc tuân theo phương trinh vi phân tuyến tính: Mô hình LPC biểu diễn lại dạng vecto sau: (2.2) (2.3) A thay đổi theo chu kỳ 20ms, tần số mẫu 8KHz, chu kỳ 20 ms tương đương với 160 mẫu Do tín hiệu thoại phân chia thành khung có kích cỡ 20ms hau có 50 khung/sec Mô hình A theo biểu thức (2.3) tương đương với: S=(s(0),s(1),…,s(159)) (2.4) Cho nên 160 giá trị S đại diện tương ứng 13 giá trị A 2.3 hóa lai hoá lai (hybrid coder) phương pháp tổng hợp phương pháp hóa dạng sóng hoá nguồn, nhằm khắc phục nhược điểm hai phương pháp Như ta nói hóa dạng sóng cho chất lượng tốt với tốc độ bít vào khoảng 16kbps, hoá nguồn thực tốc độ bít thấp (vào khoảng 2.4 kbps) đưa chất lượng tự nhiên Mặc dù có số dạng hóa lai khác tồn tại, nhiên phương pháp thành công sử dụng rộng rãi phương pháp hoá miền tần số Analysys - by – Synthesis (AbS) Phương pháp sử dụng mô hình lọc dự đoán tuyến tính Tuy nhiên, thay áp dụng mô hình đơn giản gồm có hai trạng thái hữu thanh/vô (voiced / unvoiced) để tìm đầu vào cần thiết cho lọc, tín hiệu kích thích chọn cho tín hiệu khôi phục gần với tín hiệu ban đầu Một mô hình chung hóa AbS đưa t AbS giới thiệu lần vào năm 1982 Atal Remde, ban đầu gọi hóa kích thích đa xung (MPE), sau RPE CELP đưa Nhiều CELP khác chuẩn hoá, gồm có G.723.1 hoạt động tốc độ bít 6.3/5.3 kbps, G.729 kbps, G.728 16 kbps tất chuẩn hoá mạng thoại di động GSM, IS – 54, IS – 95, IS – 136 CHƯƠNG III HÓA VÀ GIẢI TIẾNG NÓI TRONG HỆ THỐNG GSM 3.1 Quá trình hóa giải tiếng thông tin di động Quá trình hóa giải tiếng thông tin di động cho hình 3.1 Tín hiệu tiếng MS đưa qua lọc thông thấp, qua biến đổi ADC để hóa PCM đồng sau tín hiệu đưa lên hóa Ở đầu ADC ta luồng số phân đoạn thành khối 20ms Nếu tín hiệu dầu vào mạng thông tin di động lấy từ mạng PSTN trước hết tín hiệu bit PCM luật A biến đổi thành luồng bit hóa đồng ,sau đưa đoạn 20ms lên hóa Ở phía thu trình thực theo hướng ngược lại: wop8668.tmpMicrosoft_Visio_2003-2010_Drawing2.vsd Ký hiệu: 1: Micro; 2: PCM luật A, 8000 mẫu/bit (từ mạng PSTN); 3: Loa; 4: PCM loại A (từ mạng PSTN); LPF: Bộ lọc thông thấp; ADC: Bộ biến đổi tương tự/số; DAC: biến đổi số/tương tự Hình 3.1 Quá trình hóa giải tiếng nói thông tin di động 3.2 Các hóa tiếng nói hệ thống GSM 3.2.1 SBC-APCM SBC-APCM codec hoá băng với PCM thích nghi theo khối Codec sử dụng lọc gương cầu phương QMF () để phân tách tín hiệu lối vào thành 16 băng rộng 250 Hz, hai băng cao số không truyền Ấn định bit thích nghi sử dụng băng sở tỷ lệ công suất loạt băng tạo thành nên thông tin biên cần truyền Tốc độ truyền dẫn tổng cộng tín hiệu băng 10 kbps, thông tin biên 3kbps chúng bảo vệ độ dư thừa 3kbps sửa lỗi hướng FEC (Forward Error Correction) 3.2.2 SBC-ADPCM SBC-ADPCM codec hoá băng với PCM delta thích nghi Trong sơ đồ này, tiếng nói lối vào chia thành băng con, số có băng truyền Các tín hiệu băng hoá vi sai với đánh giá ngược thích nghi để đổi lại với SBC-APCM đề nghị, đánh giá thuận thích nghi sử dụng Ấn định bit băng đặt cố định, thông tin biên truyền đi, nhờ làm cho hệ thống thích nghi với tạp nhiễu nhiều không cần FEC Tốc độ codec 15 kbps 3.2.3 MPE-LTP MPE-LTP (Multi-Pulse Excited LPC codec with Long Term Predictor) codec dự doán tuyến tính kích thích đa xung với dự đoán dài hạn Việc thực hoá giải tiếng nói cụ thể sử dụng thử nghiệm để so sánh đòi hỏi tốc độ truyền dẫn 13.2 kbps hoá FEC gắn vào với tốc độ 2.8 kbps sử dụng để bảo vệ bit quan trọng hoá giải tiếng nói 3.2.4 RPE-LPT RPE-LPT( Regular Pulse Excited – Long Term Prediction) codec LTP kich thích xung Bộ hóa dựa tảng kích thích xung với dự đoán dài hạn liên quan đến hai hóa tiếng nói khác là: RELP (Redidual Excited Linear Prediction) MPE-LPC ( Multi Pulse Excited LPC) Lợi REPL không phức tạp sử dụng hóa dải tần gốc Bộ hóa MPE-LTP phức tạp cung cấp mức độ hiệu cao Bộ hóa RPE – LTP cho kết tốt,cân hiệu tính phức tạp 3.3 Bộ hóa giải RPE-LTP GSM hóa tiếng GSM thực tốc độ 13kbit/s (toàn tốc) 6,5kbit/s (bán tốc).Sơ đồ hóa tiếng GSM tốc độ 13kbit/s dựa giải thuật RPE-LTP (Regular Pulse Excited – Long Term Prediction : kích thích xung đều- dự đoán dài hạn) cho hình 3.1.Tín hiệu hóa PCM đồng 13bit/8000 mẫu/s nhấn mạnh trước phân đoạn thành đoạn 20ms/160 mẫu/13 bit đưa vào đầu vào hóa Nguyên lý chung hóa dựa sở để tiết kiệm băng thông, người ta gửi thông số cần thiết để khôi phục lại tiếng nói đầu thu : thông số quan phát âm xung kích phận wop8698.tmpMicrosoft_Visio_2003-2010_Drawing3.vsd Hình 3.2 Bộ hóa dựa giải thuật RPE –LTP Để người ta sử dụng hai kiểu hóa kết hợp : hóa kiểu phát âm (Vocoder) hóa dạng sóng (PCM đồng đều) Để thực hóa kiểu phát âm, đoạn tiếng 20ms nói đưa qua lọc LPC ( Linear Prediction Coding : lọc hóa dự đoán tuyến tính) có đặc tính đảo so với quan phát âm người để nhận xung kích thích Trong trình thông số lọc LPC phân tích gửi Bộ lọc phân tích LPC lọc tuyến tính bậc n thực tổ hợp tín hiệu thời với tín hiệu trễ 1,2,3, …, n mẫu tần số 8KHz để mô quan phát âm Các tham số lọc thay đổi từ khối đến khối khác gửi khung tiếng Do đoạn liên tiếp tiếng nói giống nhau, nên thực tế ta cần gửi khác ( tín hiệu dư) đoạn liên tiếp Quá trình lấy tín hiệu dư sau Sau LPC chuỗi kích thích chia thành khối 5ms/40 mẫu đưa qua lọc LTP (Long Term Prediction: lọc dự đoán dài hạn) Bộ lọc thực trừ đoạn tín hiệu thời với đoạn trễ mẫu nhân với hệ số Các giá trị truyền khung tiếng 5ms lần.Trễ vào khoảng 40 đến 120 mẫu (5 đến 15 ms) để tương ứng với tần số tiếng nói ( tùy thuộc vào người nói) Sau LTP ta tín hiệu dư giống với xung kích thích Để lấy chuỗi kích thích, tín hiệu dư sau LTP đưa qua lọc thông thấp lấy mẫu (RPE : Regular Pulse Excitation) với tần số lấy mẫu 8/3 KHz Quá trình giống hóa dạng sóng Theo lý thuyết xử lý tín hiệu có thông tin chuỗi kích thích có tần số thấp 1,3KHz gửi Tương ứng ta có 13 mẫu khoảng 5ms Pha mẫu 8/3KHz gửi khung tiếng 5ms lần.Các mẫu hóa điều xung thích ứng APCM Ở hóa biên độ cực đại tỉ số mẫu với biên độ cực đại hóa riêng biệt Các thông số LPC+LTP =3,6kbps Các thông số RPE: 9,4 kbps 3.2: Giải tiếng kỹ thuật RPE-LTP bao gồm giai đoạn sau thể hình • Tạo lại mẫu 8kHz cách bổ sung 27 mẫu không vào 13 mẫu tiếng khối 5ms • Lọc LTP( đảo so với phía phát) bao gồm mẫu khối 5ms thời ba khối trước • Lọc ( đảo so với phía phát) theo thông số truyền • Khử nhấn mạnh wop86DD.tmpMicrosoft_Visio_2003-2010_Drawing4.vsd Hình 3.3 Sơ đồ khối mô tả trình giải tiếng nói theo RPE-LTP KẾT LUẬN hóa dạng sóng hóa sản phẩm tiếng nói người thành tín hiệu số truyền chuổi bit giá trị mẫu hóa nguồn( hay gọi hóa tham số) việc hóa thông số kích thích, tham số lọc mô hình tạo tiếng nói thành tín hiệu số truyền chuỗi bit thông số sang bên thu hoá lai (hybrid coder) phương pháp tổng hợp phương pháp hóa dạng sóng hoá nguồn Và ta thấy hóa tiếng nói GSM hóa tiếng nói dạng lai LPC vocoder hóa dạng sóng.Trong mô hình lọc từ cấu hình Vocoder giữ nguyên xong tham số kích thích lại cải thiện.Nghĩa phần chủ yếu tham số truyền liên quan đến chuỗi kích thích Quy trình hóa tiếng nói hóa tiếng nói tóm gọn sau:Tín hiệu tiếng nói đầu vào chia thành khung 20ms để biến đổi thành tín hiệu số.Các bước trình hóa bao gồm: Lọc dự đoán tuyến tính LPC,lọc dự đoán dài hạn LTP hóa kích thích xung RPE Các thông số hóa bao gồm bit thông số LPC, LTP RPE Do thời gian kiến thức có hạn nên tiểu luận em không tránh khỏi thiếu sót, em mong nhận xét, đánh giá, góp ý thầy để tạo cho em tiền đề để làm tốt luận văn tốt nghiệp sau Cuối cùng,em xin gửi lời cảm ơn chân thành,một lời chúc sức khỏe đến thầy TÀI LIỆU THAM KHẢO [1] Giáo trình Thông tin di dộng - TS Nguyễn Phạm Anh Dũng [2] Giáo trình Xử lý âm hình ảnh - Lê Nhật Thăng [3] Đồ án hoá tiếng nói GSM - Nguyễn Đại Hoà [4] Đồ án Kỹ thuật hoá tiếng nói dự đoán phân tích nhờ tổng hợp - Cao Tiến Việt [6] Một số nguồn Internet khác ... chuẩn mã hoá mạng thoại di động GSM, IS – 54, IS – 95, IS – 136 CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM 3.1 Quá trình mã hóa giải mã tiếng thông tin di động Quá trình mã hóa giải... giải mã tiếng nói theo RPE-LTP KẾT LUẬN Mã hóa dạng sóng mã hóa sản phẩm tiếng nói người thành tín hiệu số truyền chuổi bit mã giá trị mẫu Mã hóa nguồn( hay gọi mã hóa tham số) việc mã hóa thông... Bộ mã hóa dựa giải thuật RPE –LTP Để người ta sử dụng hai kiểu mã hóa kết hợp : Mã hóa kiểu phát âm (Vocoder) mã hóa dạng sóng (PCM đồng đều) Để thực mã hóa kiểu phát âm, đoạn tiếng 20ms nói

Ngày đăng: 14/05/2017, 22:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan