Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
555,3 KB
Nội dung
LỜI MỞ ĐẦU Trong thời đại ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật nhu cầu trao đổi thông tin người ngày tăng lên.từ lúc đầu giao tiếp ,tương tác thông qua văn giấy tờ, ngày nhu cầu sử dụng tiếngnói truyền thông, tương tác người máy trở nên cấp thiết hơn.Vì lĩnh vực kỹ thuật đời, mãhóatiếngnóiTiếngnói phương tiện sử dụng hàng ngày,nhờ có tiếngnói ta biểu tâm tư, tình cảm, suy nghĩ ,giúp giao tiếp,làm việc với người xung quanh.Khi phương pháp mãhóa đời đạt thành tựu đáng kể ứng dụng việc mãhóatiếngnói áp dụng nhiều lĩnh vực khác xã hội ta không kể đến việc mãhóatiếngnói thông tin diđộng ngày nay.Việc mãhoátiếngnói cần thiết ,giúp giảm thiểu số lượng tín hiệu đường truyền đảm bảo chất lượng gọi Trong tiểu luận này,em xin trình bày nội dung sau: • • • • Chương 1: Tổng quan tiếngnói Chương 2: Các phương pháp mãhóatiếngnói Chương 3: Bộ mãhóa giải mãtiếngnói hệ thống GSM THUẬT NGỮ VIẾT TẮT A/D Analog to Digital AbS ADPCM D/A DM DPCM Analysis by Synthesis Adaptive Differently PCM Digital to Analog Delta Modulation Differential PCM Global System For Mobile Communications Linear Prediction Linear Prediction Coding Long Term Predictor GSM LP LPC LTP Tương tự sang số Phân tích tổng hợp Điều chế mã xung vi sai thích ứng Số sang tương tự Điều chế Delta Điều chế mã xung vi sai Hệ thống thông tin diđộng toàn cầu Dự đoán tuyến tính Mãhoá dự đoán tuyến tính Dự đoán dài hạn MPE-LTP PCM PDF RELP Multi-Pulse Excited LPC Codec with Long term Predictor Pulse Code Modulation Probability Density Function Residual Excited Linear Prediction Regular Pulse Excitation RPE RPE-LTP Regular Pulse Excited Long Term Prediction SNR STP Signal to Noise Ratio Short term Predictor Dự đoán tuyến tính kích thích đa xung với dự đoán dài hạn Điều chế xung mã Hàm mật độ xác suất Dự đoán tuyến tính kích thích tín hiệu sau dự đoán Kích thích xung Kích thích xung - Dự đoán dài hạn Tỉ số tín hiệu nhiễu Dự đoán ngắn hạn DANH MỤC HÌNH VẼ Hình 1.1: Bộ máy phát âm người Hình 1.2: Một đoạn điển hình âm hữu Hình 1.3: Một đoạn điển hình âm vô Hình 2.1: Các phương pháp mãhóatiếngnói Hình 2.2: Mô hình toán học LPC Hình 3.1: Quá trình mãhóa giải mã thông tin diđộng Hình 3.2: Bộ mãhóa dựa giải thuật RPE-LTP Hình 3.3: Sơ đồ khối mô tả trình giải mãtiếng theo RPE-LTP • CHƯƠNG I: TỔNG QUAN VỀ TIẾNGNÓI Quá trình tạo tiếngnóiTiếngnói âm mang mục đích diễn đạt thông tin,rất uyển chuyển đặc biệt.Là công cụ tư trí tuệ,tiếng nói mang đặc trưng loài người.Nhờ có ngôn ngữ tiếngnóimà loài người sống thành xã hội tiến bộ, có văn hóa, văn minh ngày nay.Trong trình giao tiếp người nói có nhiều câu nói Mỗi câu gồm nhiều từ, tiếng Việt ,số từ thường sử dụng vào khoảng 6700 âm tiết Tiếngnói thường xuất nhiều hình thức mà ta gọi đàm thoại, việc đàm thoại thể kinh nghiệm người Đàm thoại trình gồm nhiều người, có hiểu biết chung nghi thức luân phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếngnói mình, tiếngnói phương tiện giao tiếp lúc đàm thoại Tiếngnói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ý cần diễn đạt biểu gương mặt, cử , điệu Vì đặc tính tác động qua lại, nên tiếngnói sử dụng nhu cầu giao tiếp nhanh chóng Sóng âm thoại sóng áp suất âm tạo từ nhừng chuyểnđộng có điều khiển phận thể người hình thành nên hệ thống tạo âm thoại Một cấu trúc đơn giản hệ thống tạo âm thoại minh họa hình vẽ 1.1 Cơ bản, thoại tạo sóng âm từ hốc mũi miệng không khí bị bật từ phổi với kết luồng không khí bị xáo trộn co thắt bên thể người Nguồn lượng nằm môn, Tuyến âm kích thích nguồn lượng môn Tiếngnói tạo sóng âm học kích thích từ môn phát đẩy không khí có phổi lên tạo thành dòng khí va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi, môi tạo tiếngnói • • • • Thanh quản chứa hai dây dao động tạo cộng hưởng trình tạo thành âm Ống dẫn âm ống không đồng dạng môi, kết thúc dây thanh quản Ống có độ dài khoảng 17cm người bình thường Khoang mũi ống không đồng dạng thuộc vùng cố định mũi, kết thục vòm miệng, người bình thường khoang mũi có độ dài 12 cm Khoang miệng nếp da chuyểnđộng điều khiển ghép âm khoang miệng khoang mũi Trong trình phát âm, âm mũi vòm miệng hạ thấp dòng khí qua đường mũi, âm thường vòm miệng mở, đường mũi khép lại dòng khí theo khoang miệng môi • • • • • • • • • • • • • • • Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Khí quản Hình 1.1 Bộ máy phát âm người 1.2 Các đặc điểm tiếngnói 1.2.1 Đặc tính vật lý âm Âm giới tự nhiên chất sóng âm tạo từ dao động vật thể truyền môi trường truyền âm định Âm tiếng nói, tương tự, sóng âm tạo từ dao động phận máy phát âm truyền môi trường truyền âm (thường không khí) Những sóng âm truyền đến tai người nghe, đập vào màng nhĩ - màng mỏng nhạy cảm tai người – làm cho màng nhĩ dao động, dây thần kinh màng nhĩ nhận cảm giác âm tần số dao động sóng đạt đến độ lớn định người nghe nhận biết lời nói Liên lạc thông tin tiếngnói truyền thông tin từ não người nói sang não người nghe Có thể xem tiếngnói (thoại) trường hợp riêng phổ biến âm Âm có tham số đánh giá đặc trưng sau đây: Tần số: Tần số âm đơn số lần dao động không khí truyền dẫn âm đơn vị thời gian giây Tần số biểu thị độ cao (pitch) âm Tần số lớn âm cao ngược lại Ðơn vị để đo tần số âm Hertz (viết tắt Hz) Tai người cảm thụ dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Dải tần số từ 16Hz đến 20000Hz gọi dải tần số âm hay âm tần sóng âm Những âm có tần số nhỏ 16Hz gọi sóng hạ âm, âm có tần số lớn 20000 Hz gọi sóng siêu âm người không cảm nhận sóng âm có nhiều loài vật cảm nhận (ví dụ loài dơi nghe sóng siêu âm) Sóng âm, sóng siêu âm hạ âm không truyền không khí mà lan truyền tốt môi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc nay.Ứng với tần số dao động f, có chu kỳ dao động T bước sóng l âm xác định theo biểu thức l = c.T (c tốc độ lan truyền âm không khí = 340m/s) Do đó, bước sóng âm dải âm tần từ 21.25m đến 0.017m.Trong thực tế, âm phát thường âm đơn mà âm phức bao gồm âm đơn số âm hài có tần số gấp 2, 4… lần âm đơn Ngoài ra, dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ 300Hz đến 3000Hz tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz Tiếngnói người thường có dải tần số từ 300Hz đến 3400Hz Áp suất âm thanh: Áp suất âm hay gọi áp Âm truyền lan đến đâu làm thay đổi áp suất không khí Áp suất âm tạo thêm điểm gọi áp điểm Đơn vị đo áp bar Một bar áp tác động lên diện tích 1cm2 lực 1dyn bar = 1dyn/cm2 Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo áp bar = 10 Kpa; Pa = N/m2 Công suất âm thanh: Là lượng âm qua diện tích S thời gian giây Công suất âm P tính biểu thức: P = p.S.v (1.1) Trong p áp, v tốc độ dao động phần tử không khí S diện tích Công suất âm tính theo đơn vị oát (W) Thông thường máy bay phản lực có công suất âm 10.000W; ô tô vận tải phóng nhanh: 0.12W; nóichuyện bình thường: 0.0003W Cường độ âm thanh: Cường độ âm I công suất âm qua đơn vị diện tích 1cm2 I=P/S= p.v (1.2) Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm gắn liền với Cả ba biểu thị độ lớn nhỏ âm Âm có lượng lớn công suất, cường độ áp suất âm lớn Ðộ mạnh (Intensity): Do biên độ dao động vật thể định Biên độ dao động trị số lớn mà dao động đạt tới nửa chu kì Biên độ dao động lớn, âm vang to ngược lại Ðơn vị đo độ mạnh âm décibel (viết tắt dB) Trong lời nói người, độ mạnh âm yếu tố tạo nên âm lượng âm trọng âm từ Ðộ dài (Length): Do thời gian dao động vật thể định Ðộ dài âm tạo nên tương phản phận lời nói, yếu tố tạo nên trọng âm, tạo nên nguyên âm đối lập độ dài Hai từ "tang" "tăng" tiếng Việt có đối lập âm a dài (trong "tang") âm a ngắn (trong "tăng") Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài độ mạnh tham gia bổ sung vào thành phần kết cấu âm Ðây vẻ riêng biệt âm Âm sắc định bởi: thể chất vật thể dao động, tính chất phức hợp tượng cộng hưởng âm phương pháp làm cho vật thể dao động Một âm có độ cao, độ mạnh, độ dài phát từ dây tơ khác với từ dây đồng; từ ống sáo to dài, khác với từ ống sáo nhỏ, ngắn; từ việc gẩy khác với từ việc gõ, búng, cọ xát thổi Âm sắc sắc thái riêng âm Âm sắc định vật thể dao động theo chu kì đặn hay không đặn; dao động theo chu kì đặn tạo âm vang(sonants), chu kì không đặn tạo âm ồn hay âm có nhiều tiếngđộng (non - sonants bruyants) 1.2.2 Các đặc tính âm học âm Tín hiệu tiếngnói tín hiệu tương tự biểu diễn cho thông tin mặt ngôn ngữ mô tả âm vị khác Tuỳ theo ngôn ngữ cụ thể mà số lượng âm vị nhiều hay Thông thường số lượng âm vị vào khoảng 20 – 30 nhỏ 50 ngôn ngữ Đối với loại âm vị mà có đặc tính âm khác Các âm vị chia thành hai loại nguyên âm phụ âm Tổ hợp âm vị tạo nên âm tiết Âm tiết đóng vai trò từ trọn vẹn mang ngữ nghĩa 1.2.2.1.Nguyên âm: Nguyên âm tạo cộng hưởng dây dòng khí môn đẩy lên Khoang miệng tạo lập thành nhiều hình dạng định tạo thành nguyên âm khác Số lượng nguyên âm phụ thuộc vào ngôn ngữ định Mỗt nguyên âm đặc trưng formant đầu tiên, formant thường mang thông tin 1.2.2.2.Phụ âm: Phụ âm tạo dòng khí hỗn loạn phát gần điểm co thắt đường dẫn âm cách phát âm tạo thành Dòng không khí chỗ đóng vòm miệng tạo phụ âm tắc Những phụ âm xát phát từ chỗ co thắt lớn âm tắc xát tạo từ khoảng Phụ âm có đặc tính hữu vô tuỳ thuộc việc dây có dao độngđể tạo thành cộng hưởng không Đặc tính phụ âm tuỳ thuộc vào tính chu kỳ dạng sóng, phổ tần số, thời gian tồn truyền dẫn âm 1.2.2.3.Tỷ suất thời gian: Trongnói chuyện, khoảng nóichuyện khoảng nghỉ xen kẽ Phần trăm thời gian nói tổng số thời gian nói nghỉ gọi tỷ xuất thời gian Giá trị biến đổi tuỳ thuộc vào tốc độ nói từ ta phân loại thành nói nhanh, nói chậm hay nói bình thường 1.2.2.4 Hàm lượng thời gian ngắn: Hàm lượng thời gian ngắn tiếngnói tính cách chia tín hiệu tiếngnói thành nhiều khung chứa N mẫu tính diện tích trung bình tổng mẫu tín hiệu khung Các khung đưa qua cửa sổ có dạng hàm sau: Thông thường có ba dạng cửa sổ sử dụng cửa sổ chữ nhật, cửa sổ Hamming cửa sổ Hanning 1.2.2.5 Tần số vượt qua điểm không Tần suất vượt qua điểm không số lần biên độ tín hiệu tiếngnói vượt qua giá trị không khoảng thời gian cho trước Thông thường giá trị âm vô lớn âm hữu đặc tính ngẫu nhiên âm vô Do đo tần suất vượt qua điểm không tham số quan trọngđể phân loại âm hữu âm vô 1.2.2.6.Phát điểm cuối Trong xử lý tiếngnói việc xác định bắt đầu xuất tín hiệu tiếngnói kết thúc trình nói cần thiết quan trọngTrong môi trường nhiều tiếng ồn (nhiễu ) môi trường nhiều người nói việc phát điểm kết thúc khó khăn.Đã có phương pháp phát điểm cuối tiếngnói 1.2.2.7 Tần số Dạng sóng tiếngnói gồm hai phần: Phần gần giống nhiễu biên độ biến đổi ngẫu nhiên phần tuần hoàn Phần tín hiệu có tính chu kỳ chứa thành phần tần số có dạng điều hòa Tần số thấp tần số tần số dao động dây dây Đối với người nói khác nhau, tần số khác Tần số trẻ em thường cao so với người lớn nữ giới cao so với nam giới Bảng 1: Một số giá trị tần số tương ứng với giới tính tuổi: Người nói Giá trị tần số Nam 80-200Hz Nữ 150-450Hz Trẻ em 200-600HZ Đối với hai âm có cường độ, độ cao phân biệt tính tuần hoàn Một âm hữu có tín hiệu gần tuần hoàn phân tích phổ xuất vạch vùng tần số thấp Vạch đặc trưng cho tính tuần hoàn âm tần số âm Trong giao tiếp bình thường tần số thay đổi liên tục tạo nên ngữ điệu cho tiếngnói 1.2.2.8 Formant Trong phổ tần số tín hiệu tiếng nói, đỉnh có biên độ cao xét khoảng (còn gọi cực trị địa phương) xác định formant Ngoài tần số, formant xác định biên độ dải thông chúng Về mặt vật lý tần số formant tương ứng với tần số cộng hưởng tuyến âm Trong xử lý tiếngnói tổng hợp tiếngnóiđể mô lại tuyến âm người ta phải xác định tham số formant loại âm vị, việc đánh giá, ước lượng formant có ý nghĩa quan trọng Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant Đồng thời, formant phụ thuộc âm vị trước sau Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạnh kích thước tuyến âm Thông thường phổ tần số tín hiệu có khoảng formant có formant ảnh hưởng quan trọng đến đặc tính âm vị, formant lại có ảnh hưởng song Các formant có giá trị tần số xê dịch từ vài trăm đến vài nghìn Hz Tần số formant đặc trưng cho nguyên âm biến đổi tuỳ thuộc vào người nói điều kiện phát âm định Mặc dù phạm vi tần số formant tương ứng với nguyên âm trùng lên vị trí formant không đổi xê dịch formant song song Ngoài formant, âm mũi có tần số bị suy giảm gọi phản formant (antiformant) Phản formant tạo nên luồng khí qua khoang mũi Các formant tương ứng nói điểm cực hàm truyền đạt lân cận điểm cực giá trị hàm truyền đạt lớn, tương tự anti-formant tương ứng với điểm không hàm truyền đạt • Phân loại đơn giản dạng sóng tiếngnói Phần gần tuần hoàn mà lặp lại chu kỳ gọi tiếngnói hữu (voiced speech) Chu kỳ lặp lại gọi chu kì T nghịch đảo T0 tần số F0 Âm hữu phát luồng khí cực mạnh từ môn thổi qua dây làm dung dây thanh, dao động dây tạo nên nguồn tuần hoàn Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu Vùng âm hữu chiếm thành phần chủ yếu sóng tiếng nói, chứa đựng lượng tin nhiều thời gian lớn trình nói Phần tín hiệu có dạng giống tập âm nhiễu có biên độ ngẫu nhiên gọi tiếngnói vô (unvoiced speech) Tiếngnói vô tạo co thắt theo dạng tuyến âm luồng khí chạy qua chỗ thắt với tộc độ lớn tạo nên nhiễu loạn, ví dụ lúc ta nói thào (cần phân biệt thầm với thào, theo từ điển tiếng Việt thào nóichuyện với nhỏ tựa gió thoảng qua tai thầm nóichuyện với không để người nghe thấy) Năng lượng nguồn nhiễu loạn tạo kích thích tuyến âm tạo nên tiếngnói vô thanh, lượng tiếngnói vô nhỏ so với tiếngnói hữu Ta phát tiếngnói hữu nói dây rung Còn âm vô nói dây không rung Nói thào xa không nghe lượng âm vô nhỏ tiếng thào âm vô tạo nên Các âm bật - nổ (plosive sound): tạo có đóng hoàn toàn cuống họng, áp suất không khí hình thành phía sau giải phóng đột ngột.-> phụ âm Một số âm không xem thuộc vào ba loại âm nói trên, nhiên chúng hỗn hợp Ví dụ âm xát (phụ âm xát rít – cọ xát) hình thành có rung động dây âm khe hẹp cuống họng hình thành Hình 1.2 Một đoạn điển hình âm hữu Hình 1.3 Một đoạn điển hình âm vô CHƯƠNG II: TỔNG QUAN VỀ MÃHÓATIẾNGNÓITrong vài thập kỷ vừa qua, có nhiều kỹ thuật mãhoá nén tiếngnói đưa ra, phân tích phát triển Trong chương , giới thiệu số kỹ thuật sử dụng Thông thường mãhoátiếngnói chia làm ba phương pháp là: mãhoá dạng sóng (waveform coder) mãhoá nguồn (source coder) (hay gọi mãhoá thông số) mãhóa lai (hybrid coder) Mãhoá dạng sóng thực tốc độ bít cao cho chất lượng mãhoátiếngnói tốt Mãhoá nguồn thực tốc độ bít thấp, có xu hướng tạo tiếngnói có chất lượng nhân tạo, mãhoá lai (hybrid coder), kỹ thuật mãhoá tổng hợp phương pháp mãhoá dạng sóng mãhoá nguồn, cho chất lượng tiếngnói tốt thực tốc độ bít trung bình wop8412.tmpMicrosoft_Visio_2003-2010_Drawing.vsd Hình 2.1 Các phương pháp mãhóatiếngnói 2.1 Mãhóa dạng sóng Mãhoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào tiếngnói Nó thường chia thành tín hiệu độc lập dùng đểmãhoá nhiều loại tín hiệu Thông thường, phương pháp mãhoá có độ phức tạp thấp nhiên lại cho chất lượng cao với tốc độ bít cao (lớn khoảng 16kbps) Mãhoá dạng sóng thực miền tần số miền thời gian 2.1.1 Mãhóa miền thời gian Mãhoá miền thời gian thực việc mãhóa khoảng thời gian lấy mẫu tín hiệu Các phương pháp mãhoá miền thời gian thường dùng gồm có: Điều chế mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân (DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế Delta thích ứng, mãhoá dự đoán thích ứng (APC) Tiếp theo ta xem xét vài phương pháp mãhoá quan trọng miền thời gian Mãhóa PCM Điều chế mã xung phương pháp đơn giản mãhoá dạng sóng Điểm cốt yếu phương pháp trình lượng tử hóa Bất dạng lượng tử hoá vô hướng sử dụng phương pháp này, dạng hay dùng lượng tử hoá logarit Uỷ ban tư vấn điện thoại điện báo quốc tế giới thiệu G.711 phương pháp chuẩn cho việc mãhoátiếngnói thoại Chuẩn G.711 xác định bit theo luật μ luật A PCM Mãhoá dùng luật μ có lợi việc thực cho tỉ số tín hiệu nhiễu bé Mãhoá DPCM ADPCM PCM không giả định tính tự nhiên dạng sóng mã hóa, làm việc tốt với tín hiệu màtiếngnói Tuy nhiên, mãhoátiếngnói có tương quan lớn mẫu cạnh Sự tương quan sử dụng để khôi phục tốc độ bít kết Một phương pháp đơn giản để thực việc truyền sai khác mẫu Tín hiệu khác biệt có phạm vi dao động nhỏ so với tín hiệu tiếngnói ban đầu, lượng tử hoá cách hiệu việc sử dụng vector lượng tử hoá với mức xây dựng lại thấp Trong phương pháp trên, mẫu trước sử dụng để dự đoán giá trị mẫu Sự dự đoán cải thiện ta sử dụng khối lớn tín hiệu tiếngnói cho việc dự đoán Phương pháp gọi điều chế mãhoá xung vi phân (DPCM) Một phiên phát triển DPCM điều chế mã xung thích ứng ADPCM Trong ADPCM, dự đoán lượng tử hoá thích ứng với đặc tính tín hiệu đầu vào Có số chuẩn ITU giới thiệu cho việc mãhoá tín hiệu âm dựa vào giải thuật ADPCM (với dải thông hẹp khoảng 8kHz) ví dụ G.726 thực tốc độ bít 40, 32, 24 16 kbps Độ phức tạp ADPCM thực thấp Mãhoá ADPCM cho tín hiệu tín hiệu nhiễu cao (vào khoảng 30 đến 35 dB) 2.1.2 Mãhóa miền tần số Mãhoá dạng sóng miền tần số chia tín hiệu thành thành phần tần số khác tiến hành mãhoá thành thành phần Số bít sử dụng đểmãhoá thành phần tần số thay đổi Mãhoá miền tần số chia làm hai nhóm là: mãhoá băng (subband) mãhoá biến đổi (transform) Mãhoá băng (subband) Mãhoá băng sử dụng số lọc dải thông để chia tín hiệu đầu vào thành tín hiệu (subband signal) màmãhoá Tại thu tín hiệu giải mã cộng lại nhằm khôi phục lại tín hiệu ban đầu Ưu điểm phương pháp mãhoá băng nhiễu lượng tử hoá sinh dải tần bị hạn chế dải tần Hiệp hội viễn thông quốc tế ITU đưa chuẩn G.722 mãhoá băng (subband) để truyền thông với tốc độ 48, 56 64 kbps Mãhoá biến đổi (transform) Kỹ thuật cần có khối chuyển đổi cửa sổ tín hiệu đầu vào thành thành phần tần số, vài miền tương tự Mãhoá thích ứng sau hoàn thành cách phân bổ thêm bít vào thành phần hệ số quan trọng Tại thu giải mã thực việc chuyển đổi ngược để thu lại tín hiệu cần khôi phục Ta sử dụng số phép biến đổi như: phép biến đổi Fourier rời rạc (DFT) phép biến đổi cosine rời rạc (DCT) 2.2 Mãhóa nguồn Mãhóa ADPCM cho chất lượng tốt tốc độ bit giảm 16 Kbps Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếngnói Từ đây, người ta có khái niệm mãhóa nguồn hay gọi mãhóa dựa mô hình Ở đây, mãhóa nguồn hoạt động sử dụng mô hình nguồn tín hiệu tạo cố gắng trích chọn từ tín hiệu mãhóa tham số mô hình truyền chúng tới giải mã Các mãhóa nguồn cho tín hiệu thoại gọi Vocoder (Voice + Coder) Ưu điểm loại mãhóa có hiệu âm thoại, dễ hiểu, lại có nhược điểm phức tạp nhiều so với phương pháp mãhóa dạng sóng xử lý tiếngnói người Mãhóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps) tiếngnói tái tạo lại hoàn toàn dễ hiểu chúng lại khác nhiều so với giọng nói tự nhiên người 2.2.1 Nguyên tắc mãhóa Vocoder Mãhóa Vocoder kiểu mãhóatiếngnói dựa tham số mô máy phát âm, khác với mãhóa dạng sóng tiếngnói tương tự, gọi mãhóa nguồn( Vocoder).Nguyên lý dựa việc tuyến âm thay đổi từ từ trạng thái cấu hình chúng thời điểm mô cách gần tập nhỏ tham số Nhờ việc tuyến âm có tốc độ thay đổi từ từ cho phép tập tham số đại diên cho trạng thái qua khoảng thời gian 25ms.Hầu hết mãhóa Vocoder biểu diễn đặc tính nguồn kích thích tuyến âm tập tham số Nó gồm khoảng 10 đến 15 hệ số lọc để định nghĩa đặc tính cộng hưởng tuyến âm, tham số, hai giá trị đơn giản để nguồn phát âm âm vô hay âm hữu thanh, tham số lượng kích thích tham số chu kì ( âm săc, có với âm hữu thanh) Trạng thái tuyến âm suy cách phân tích dạng sóng tiếngnói khoảng thời gian 10 đến 25ms tính toán tập tham ( khung liệu) phần cuối khoảng thời gian Khung liệu truyền sau dung để điều khiển việc tổng hợp lại tiếngnóiMãhóa Vocoder có khả chuyển hai kiểu nguồn kích thích nguồn xung âm hữu thành cà nhiều trắng âm vô Bên phía tống hợp dùng hai nguồn cho qua lọc gồm hệ số khung liệu để tổng hợp tiếngnói Ngoài việc đạt tốc độ bít thấp, Vocoder có ưu điểm phân tích tham số nguồn kích thích Bít biểu thị âm sắc,âm lượng,âm hữu âm vô Bản thân bít khung dự liệu, nên thay đổi chúng sửa đổi trước tổng hợp Vì ta biến âm hữu thành thành lời thầm đặt lại giá trị bit âm hữu thanh/ vô Cũng thay đổi thân câu nói cách sửa đổi tham số cộng hưởng Nhược điểm phương pháp tiếngnói có dạng tổng hợp,khó có khả nhận dạng người nói 2.2.2 Mô hình LPC Mãhóa tham số (parametric coding) hay gọi Vocoder Ở đây, tín hiệu thoại giả thiết tạo từ mô hình (giống mô hình tạo tiếngnói từ quan phát âm người), mô hình điều khiển vài tham số chức Trong trình mã hóa, tham số mô hình suy (ước đoán) từ tín hiệu thoại đầu vào Kiểu mãhóa không bảo toàn hình dạng sóng ban đầu tín hiệu nên dùng tỷ số tín hiệu nhiễu SNR để đánh giá Chất lượng nhận thức (cảm nhận) tín hiệu thoại sau giải mã liên quan trực tiếp đến độ xác mô hình Do hạn chế này, mãhóa tham số có hiệu thấp tín hiệu tín hiệu thoại Có số mô hình đề xuất cho mãhóa tham số thành công mô hình dự đoán tuyến tính Theo cách tiếp cận này, chế tạo tiếngnói người thực việc sử dụng lọc biến đổi theo thời gian với tham số lọc xây dựng dựa thủ tục phân tích dự đoán tuyến tính Bộ mãhóa tham số làm việc tốt với tốc độ bit thấp từ đến Kbps ví dụ điển hình mãhóa tham số mãhóa dự đoán tuyến tính LPC (Linear Prediction Coding) mãhóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation Linear Prediction) Mô hình toán học mãhóa dự đoán tuyến tính minh họa hình vẽ đây: wop848F.tmpMicrosoft_Visio_2003-2010_Drawing1.vsd Hình 2.2 Mô hình toán học LPC Ở tín hiệu thoại số đầu lọc số - lọc LPC có đầu vào dãy xung chuỗi nhiễu trắng Nói cách khác, cuống họng đặc trưng lọc biến đổi theo thời gian bị kích thích với nguồn nhiễu trắng khác cho phân đoạn thoại vô dãy xung phân tách theo chu kỳ âm cho âm hữu Do thông tin phải gửi đến giải mã tham số đặc trưng cho lọc; âm vô thanh/hữu thanh; thay đổi cần thiết tín hiệu kích thích, chu kỳ âm Quá trình cập nhật liên tục 10–20 ms theo chất không dừng (nonstationary) tín hiệu thoại Các tham số mô hình xác định mãhóa theo số cách khác sử dụng kỹ thuật miền thời gian tần số Đồng thời thông tin mãhóađể truyền dẫn theo cách khác Mối quan hệ mô hình toán học mô hình vật lý – quan phát âm thoại người mô tả đây: Cuống họng H(z) ( Bộ lọc LPC) Không khí u(n) Dao động dây âm V ( Các âm hữu thanh) Chu kỳ dao động day âm T ( Độ cao âm thanh) Các âm vô UV ( Vô thanh) Lượng không khí G ( Độ tăng ích) Hàm truyền đạt lọc xác định theo biểu thức (2.1): (2.1) Điều tương đương với việc quan hệ vào lọc tuân theo phương trinh vi phân tuyến tính: Mô hình LPC biểu diễn lại dạng vecto sau: (2.2) (2.3) A thay đổi theo chu kỳ 20ms, tần số mẫu 8KHz, chu kỳ 20 ms tương đương với 160 mẫu Do tín hiệu thoại phân chia thành khung có kích cỡ 20ms hau có 50 khung/sec Mô hình A theo biểu thức (2.3) tương đương với: S=(s(0),s(1),…,s(159)) (2.4) Cho nên 160 giá trị S đại diện tương ứng 13 giá trị A 2.3 Mãhóa lai Mãhoá lai (hybrid coder) phương pháp tổng hợp phương pháp mãhóa dạng sóng mãhoá nguồn, nhằm khắc phục nhược điểm hai phương pháp Như ta nóimãhóa dạng sóng cho chất lượng tốt với tốc độ bít vào khoảng 16kbps, mãhoá nguồn thực tốc độ bít thấp (vào khoảng 2.4 kbps) đưa chất lượng tự nhiên Mặc dù có số dạng mãhóa lai khác tồn tại, nhiên phương pháp thành công sử dụng rộng rãi phương pháp mãhoá miền tần số Analysys - by – Synthesis (AbS) Phương pháp sử dụng mô hình lọc dự đoán tuyến tính Tuy nhiên, thay áp dụng mô hình đơn giản gồm có hai trạng thái hữu thanh/vô (voiced / unvoiced) để tìm đầu vào cần thiết cho lọc, tín hiệu kích thích chọn cho tín hiệu khôi phục gần với tín hiệu ban đầu Một mô hình chung mãhóa AbS đưa t AbS giới thiệu lần vào năm 1982 Atal Remde, ban đầu gọi mãhóa kích thích đa xung (MPE), sau RPE CELP đưa Nhiều CELP khác chuẩn hoá, gồm có G.723.1 hoạt động tốc độ bít 6.3/5.3 kbps, G.729 kbps, G.728 16 kbps tất chuẩn mãhoá mạng thoại diđộng GSM, IS – 54, IS – 95, IS – 136 CHƯƠNG III MÃHÓA VÀ GIẢI MÃTIẾNGNÓITRONG HỆ THỐNG GSM 3.1 Quá trình mãhóa giải mãtiếng thông tin diđộng Quá trình mãhóa giải mãtiếng thông tin diđộng cho hình 3.1 Tín hiệu tiếng MS đưa qua lọc thông thấp, qua biến đổi ADC đểmãhóa PCM đồng sau tín hiệu đưa lên mãhóa Ở đầu ADC ta luồng số phân đoạn thành khối 20ms Nếu tín hiệu dầu vào mạng thông tin diđộng lấy từ mạng PSTN trước hết tín hiệu bit PCM luật A biến đổi thành luồng bit mãhóađồng ,sau đưa đoạn 20ms lên mãhóa Ở phía thu trình thực theo hướng ngược lại: wop8668.tmpMicrosoft_Visio_2003-2010_Drawing2.vsd Ký hiệu: 1: Micro; 2: Mã PCM luật A, 8000 mẫu/bit (từ mạng PSTN); 3: Loa; 4: Mã PCM loại A (từ mạng PSTN); LPF: Bộ lọc thông thấp; ADC: Bộ biến đổi tương tự/số; DAC: biến đổi số/tương tự Hình 3.1 Quá trình mãhóa giải mãtiếngnói thông tin diđộng 3.2 Các mãhóatiếngnói hệ thống GSM 3.2.1 SBC-APCM SBC-APCM codec mãhoá băng với PCM thích nghi theo khối Codec sử dụng lọc gương cầu phương QMF () để phân tách tín hiệu lối vào thành 16 băng rộng 250 Hz, hai băng cao số không truyền Ấn định bit thích nghi sử dụng băng sở tỷ lệ công suất loạt băng tạo thành nên thông tin biên cần truyền Tốc độ truyền dẫn tổng cộng tín hiệu băng 10 kbps, thông tin biên 3kbps mà chúng bảo vệ độ dư thừa 3kbps mã sửa lỗi hướng FEC (Forward Error Correction) 3.2.2 SBC-ADPCM SBC-ADPCM codec mãhoá băng với PCM delta thích nghi Trong sơ đồ này, tiếngnói lối vào chia thành băng con, số có băng truyền Các tín hiệu băng mãhoámã vi sai với đánh giá ngược thích nghi để đổi lại với SBC-APCM đề nghị, đánh giá thuận thích nghi sử dụng Ấn định bit băng đặt cố định, thông tin biên truyền đi, nhờ làm cho hệ thống thích nghi với tạp nhiễu nhiều không cần mã FEC Tốc độ mã codec 15 kbps 3.2.3 MPE-LTP MPE-LTP (Multi-Pulse Excited LPC codec with Long Term Predictor) codec dự doán tuyến tính kích thích đa xung với dự đoán dài hạn Việc thực mãhoá giải mãtiếngnói cụ thể sử dụng thử nghiệm để so sánh đòi hỏi tốc độ truyền dẫn 13.2 kbps mãhoá FEC gắn vào với tốc độ 2.8 kbps sử dụng để bảo vệ bit quan trọngmãhoá giải mãtiếngnói 3.2.4 RPE-LPT RPE-LPT( Regular Pulse Excited – Long Term Prediction) codec LTP kich thích xung Bộ mãhóa dựa tảng kích thích xung với dự đoán dài hạn liên quan đến hai mãhóatiếngnói khác là: RELP (Redidual Excited Linear Prediction) MPE-LPC ( Multi Pulse Excited LPC) Lợi REPL không phức tạp sử dụng mãhóa dải tần gốc Bộ mãhóa MPE-LTP phức tạp cung cấp mức độ hiệu cao Bộ mãhóa RPE – LTP cho kết tốt,cân hiệu tính phức tạp 3.3 Bộ mãhóa giải mã RPE-LTP GSM Mãhóatiếng GSM thực tốc độ 13kbit/s (toàn tốc) 6,5kbit/s (bán tốc).Sơ đồ mãhóatiếng GSM tốc độ 13kbit/s dựa giải thuật RPE-LTP (Regular Pulse Excited – Long Term Prediction : kích thích xung đều- dự đoán dài hạn) cho hình 3.1.Tín hiệu mãhóa PCM đồng 13bit/8000 mẫu/s nhấn mạnh trước phân đoạn thành đoạn 20ms/160 mẫu/13 bit đưa vào đầu vào mãhóa Nguyên lý chung mãhóa dựa sở để tiết kiệm băng thông, người ta gửi thông số cần thiết để khôi phục lại tiếngnói đầu thu : thông số quan phát âm xung kích phận wop8698.tmpMicrosoft_Visio_2003-2010_Drawing3.vsd Hình 3.2 Bộ mãhóa dựa giải thuật RPE –LTP Để người ta sử dụng hai kiểu mãhóa kết hợp : Mãhóa kiểu phát âm (Vocoder) mãhóa dạng sóng (PCM đồng đều) Để thực mãhóa kiểu phát âm, đoạn tiếng 20ms nói đưa qua lọc LPC ( Linear Prediction Coding : lọc mãhóa dự đoán tuyến tính) có đặc tính đảo so với quan phát âm người để nhận xung kích thích Trong trình thông số lọc LPC phân tích gửi Bộ lọc phân tích LPC lọc tuyến tính bậc n thực tổ hợp tín hiệu thời với tín hiệu trễ 1,2,3, …, n mẫu tần số 8KHz để mô quan phát âm Các tham số lọc thay đổi từ khối đến khối khác gửi khung tiếng Do đoạn liên tiếp tiếngnói giống nhau, nên thực tế ta cần gửi khác ( tín hiệu dư) đoạn liên tiếp Quá trình lấy tín hiệu dư sau Sau LPC chuỗi kích thích chia thành khối 5ms/40 mẫu đưa qua lọc LTP (Long Term Prediction: lọc dự đoán dài hạn) Bộ lọc thực trừ đoạn tín hiệu thời với đoạn trễ mẫu nhân với hệ số Các giá trị truyền khung tiếng 5ms lần.Trễ vào khoảng 40 đến 120 mẫu (5 đến 15 ms) để tương ứng với tần số tiếngnói ( tùy thuộc vào người nói) Sau LTP ta tín hiệu dư giống với xung kích thích Để lấy chuỗi kích thích, tín hiệu dư sau LTP đưa qua lọc thông thấp lấy mẫu (RPE : Regular Pulse Excitation) với tần số lấy mẫu 8/3 KHz Quá trình giống mãhóa dạng sóng Theo lý thuyết xử lý tín hiệu có thông tin chuỗi kích thích có tần số thấp 1,3KHz gửi Tương ứng ta có 13 mẫu khoảng 5ms Pha mẫu 8/3KHz gửi khung tiếng 5ms lần.Các mẫu mãhóa điều xung mã thích ứng APCM Ở mãhóa biên độ cực đại tỉ số mẫu với biên độ cực đại mãhóa riêng biệt Các thông số LPC+LTP =3,6kbps Các thông số RPE: 9,4 kbps 3.2: Giải mãtiếng kỹ thuật RPE-LTP bao gồm giai đoạn sau thể hình • Tạo lại mẫu 8kHz cách bổ sung 27 mẫu không vào 13 mẫu tiếng khối 5ms • Lọc LTP( đảo so với phía phát) bao gồm mẫu khối 5ms thời ba khối trước • Lọc ( đảo so với phía phát) theo thông số truyền • Khử nhấn mạnh wop86DD.tmpMicrosoft_Visio_2003-2010_Drawing4.vsd Hình 3.3 Sơ đồ khối mô tả trình giải mãtiếngnói theo RPE-LTP KẾT LUẬN Mãhóa dạng sóng mãhóa sản phẩm tiếngnói người thành tín hiệu số truyền chuổi bit mã giá trị mẫu Mãhóa nguồn( hay gọi mãhóa tham số) việc mãhóa thông số kích thích, tham số lọc mô hình tạo tiếngnói thành tín hiệu số truyền chuỗi bit mã thông số sang bên thu Mãhoá lai (hybrid coder) phương pháp tổng hợp phương pháp mãhóa dạng sóng mãhoá nguồn Và ta thấy mãhóatiếngnói GSM mãhóatiếngnói dạng lai LPC vocoder mãhóa dạng sóng.Trong mô hình lọc từ cấu hình Vocoder giữ nguyên xong tham số kích thích lại cải thiện.Nghĩa phần chủ yếu tham số truyền liên quan đến chuỗi kích thích Quy trình mãhóatiếngnóimãhóatiếngnói tóm gọn sau:Tín hiệu tiếngnói đầu vào chia thành khung 20ms để biến đổi thành tín hiệu số.Các bước trình mãhóa bao gồm: Lọc dự đoán tuyến tính LPC,lọc dự đoán dài hạn LTP mãhóa kích thích xung RPE Các thông số mãhóa bao gồm bit mã thông số LPC, LTP RPE Do thời gian kiến thức có hạn nên tiểu luận em không tránh khỏi thiếu sót, em mong nhận xét, đánh giá, góp ý thầy để tạo cho em tiền đềđể làm tốt luận văn tốt nghiệp sau Cuối cùng,em xin gửi lời cảm ơn chân thành,một lời chúc sức khỏe đến thầy TÀI LIỆU THAM KHẢO [1] Giáo trình Thông tin didộng - TS Nguyễn Phạm Anh Dũng [2] Giáo trình Xử lý âm hình ảnh - Lê Nhật Thăng [3] Đồ án Mãhoátiếngnói GSM - Nguyễn Đại Hoà [4] Đồ án Kỹ thuật mãhoátiếngnói dự đoán phân tích nhờ tổng hợp - Cao Tiến Việt [6] Một số nguồn Internet khác ... chuẩn mã hoá mạng thoại di động GSM, IS – 54, IS – 95, IS – 136 CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM 3.1 Quá trình mã hóa giải mã tiếng thông tin di động Quá trình mã hóa giải... giải mã tiếng nói theo RPE-LTP KẾT LUẬN Mã hóa dạng sóng mã hóa sản phẩm tiếng nói người thành tín hiệu số truyền chuổi bit mã giá trị mẫu Mã hóa nguồn( hay gọi mã hóa tham số) việc mã hóa thông... Bộ mã hóa dựa giải thuật RPE –LTP Để người ta sử dụng hai kiểu mã hóa kết hợp : Mã hóa kiểu phát âm (Vocoder) mã hóa dạng sóng (PCM đồng đều) Để thực mã hóa kiểu phát âm, đoạn tiếng 20ms nói