Trong bài báo này, chúng tôi đề xuất một số cải tiến kỹ thuật trong việc xử lý chuyển đổi mã hóa tiếng nói giữa băng rộng và băng hẹp, đã triển khai áp dụng thành công trên mạng viễn thông di động Viettel.
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/329528147 Một số cải tiến kỹ thuật chuyển đổi mã hóa tiếng nói băng rộng băng hẹp áp dụng mạng viễn thông di động Viettel Conference Paper · December 2018 CITATIONS READS 55 authors, including: Duc-Tan Tran Vietnam National University, Hanoi 180 PUBLICATIONS 256 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Miscellaneous Signal Processing View project 3-DOF Accelerometer View project All content following this page was uploaded by Duc-Tan Tran on 10 December 2018 The user has requested enhancement of the downloaded file Một Số Cải Tiến Kỹ Thuật Trong Chuyển Đổi Mã Hóa Tiếng Nói Băng Rộng Và Băng Hẹp Áp Dụng Trên Mạng Viễn Thông Di Động Viettel Đinh Văn Phong1, Nguyễn Thế Hiếu1, Nguyễn Huy Tình1, Đinh Viết Quân1 Trần Đức Tân2 Trung Tâm Nghiên Cứu Công Nghệ Mạng Viettel Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội Email: phongdv6@viettel.com.vn mẫu 16/24/32/48kHz Các mã hóa tiếng nói gọi mã hóa băng rộng Tóm tắt — Cơng nghệ di động sau vài thập niên phát triển đến (2018) trải qua hệ 2G, 3G, 4G tới 5G Mỗi hệ bao gồm bên loạt công nghệ cải tiến áp dụng Một cơng nghệ cơng nghệ mã hóa tiếng nói (speech coding) cải tiến dần qua hệ Trong hệ 2G, 3G, với mục đích tiết kiệm băng thơng vơ tuyến, việc mã hóa tiếng nói thực sở tín hiệu tiếng nói lấy mẫu 8kHz, gọi lấy mẫu băng hẹp Tuy nhiên, hệ 4G, 5G, băng thơng khơng tốn khó khăn, việc mã hóa tiếng nói thực sở tín hiệu tiếng nói lấy mẫu tần số cao như: 16 kHz, 24 kHz, 32 kHz…còn gọi lấy mẫu băng rộng Cách làm giúp nâng cao chất lượng thoại, phổ tín hiệu tiếng nói mở rộng hơn, nhiên đặt thách thức việc xử lý chuyển đổi mã hóa tiếng nói (transcoding) tín hiệu lấy mẫu băng rộng băng hẹp Trong báo này, đề xuất số cải tiến kỹ thuật việc xử lý chuyển đổi mã hóa tiếng nói băng rộng băng hẹp, triển khai áp dụng thành công mạng viễn thông di động Viettel Trong mạng viễn thông di động, thiết bị di động A thực gọi tới thiết bị di động B sử dụng chuẩn mã hóa tiếng nói mà hỗ trợ Tương tự, thiết bị di động B nhận gọi sử dụng chuẩn mã hóa tiếng nói mà hỗ trợ Khi chuẩn mã hóa tiếng nói thiết bị A thiết bị B khác nhau, cần chuyển đổi (transcoder) [5] chúng đặt hệ thống mạng lõi nhà mạng để giúp thiết bị A giải mã liệu thiết bị B ngược lại Ngoài ra, chuẩn mã hóa khác băng rộng băng hẹp, chuyển đổi cần thực thêm kỹ thuật xử lý đa tốc (multirate) [10] để loại bỏ hồn tồn phổ tần số khơng mong muốn xuất tín hiệu Trong báo này, chúng tơi trình bày chi tiết phương pháp chuyển đổi mã hóa tiếng nói (transcoding) tín hiệu băng rộng băng hẹp đồng thời đề xuất số cải tiến kỹ thuật trình thực hiện, bao gồm: Thiết kế lọc nửa dải phù hợp cho môi trường dấu phẩy động dấu phẩy tĩnh giúp cải thiện hiệu tính tốn Cải tiến phép nhân chập (convolution) thực với gói liệu rời rạc môi trường IP Xây dựng qui trình cân lượng tín hiệu sau xử lý chuyển đổi mã hóa tiếng nói Nội dung báo trình bày thành 04 phần: phần II, chúng tơi trình bày kỹ thuật transcoding có xử lý đa tốc Trong phần III, chúng tơi trình bày chi tiết vấn đề kỹ thuật gặp phải đề xuất cải tiến kỹ thuật Phần IV cung cấp kết thực nghiệm đánh giá chất lượng mạng di động Viettel Cuối cùng, kết luận định hướng mục tiêu nghiên cứu phần V Từ khóa- Mã hóa tiếng nói, băng rộng, băng hẹp, lọc nửa dải, đa tốc, tăng tốc, giảm tốc, nhân chập I GIỚI THIỆU Công nghệ di động sau vài thập niên phát triển đến (2018) trải qua hệ 2G, 3G, 4G tới 5G Mỗi hệ bao gồm bên loạt công nghệ cải tiến áp dụng Một cơng nghệ cơng nghệ mã hóa tiếng nói (speech coding) cải tiến dần qua hệ Trước hệ 2G, chuẩn mã hóa tiếng nói G.711 (PCMA/PCMU) [1] sử dụng mạng PSTN Trong hệ 2G, chuẩn GSM-FR [2], GSM-HR [3], GSMEFR [4], GSM-AMR [5] công bố sử dụng Trong hệ 3G, GSM-AMR nâng cấp thành chuẩn UMTS AMR, UMTS AMR2 [5] Tất chuẩn dải tần tiếng nói từ 300 – 3.400 Hz, lấy mẫu tốc độ kHz đáp ứng yêu cầu theo Nyquist/Shannon [6] Trong hệ 4G (LTE) tới 5G, chuẩn mã hóa AMR-WB [7], AMR-WB+ [8], EVS [9] sử dụng tần số lấy mẫu cao hơn, nhằm biểu diễn chi tiết âm sắc tiếng nói ngồi dải tần bản, giúp nâng cao chất lượng thoại AMR-WB sử dụng tần số lấy mẫu 16 kHz, AMR-WB+ EVS sử dụng tần số lấy II CÁC KỸ THUẬT NỀN TẢNG Kỹ thuật transcoding Một mã hóa tiếng nói bao gồm 02 thành phần chính: mã hóa giải mã Kỹ thuật transcoding thực việc giải mã với chuẩn mã hóa thân liệu sau mã hóa lại theo chuẩn mã hóa Hình 136 01 minh họa việc thực transcoding 02 thiết bị đầu cuối A B Thiết bị A sử dụng chuẩn mã hóa loại A, giải mã giải mã loại A, liệu sau giải mã liệu dạng PCM 16 bit, liệu sau mã hóa lại theo chuẩn mã hóa điện thoại B, sử dụng mã hóa loại B Chiều người lại thực tương tự Khi thiết bị A B thưc đàm thoại bình thường khác chuẩn mã hóa Dữ liệu PCM Bộ mã hóa Điện thoại A x'3(n) x'2(n) 8kHz Lọc nửa dải x'1(n) 16kHz CODEC A 8kHz Bộ giải mã CODEC B 16kHz Điện thoại B Hình Mơ hình transcode kết hợp giảm tốc liệu Theo lý thuyết xử lý đa tốc [10], trước thực giảm tốc cần sử dụng lọc thông thấp để chống tượng chồng phổ xảy L 1 Bộ giải mã Điện thoại A x '2 (n) h(k ) x '1 (n k ) Điện thoại B Bộ mã hóa Trong h(k ) lọc nửa dải độ dài L Dữ liệu PCM Bộ mã hóa (4) x '3 (n) x '2 (2n) Như vậy, mô hình việc tăng tốc giảm tốc cần sử dụng lọc nửa dải h(k ) Hình mơ tả đáp ứng tần số lọc nửa dải, đường nét liền mơ tả đáp ứng tần số biên độ lý tưởng, đường nét đứt mô tả đáp ứng tần số biên độ thực tế thiết kế Việc thiết kế tính tốn hệ số lọc nửa dải thực phương pháp như: phương pháp cửa sổ, phương pháp Parks-McClellan…hoặc công cụ Fdatool Matlab Kết sau thiết kế, lọc thường có khn dạng mảng chiều với hệ số dạng dấu phẩy động Bộ giải mã CODEC B CODEC A Hình Mơ tả kỹ thuật transcoding Kỹ thuật chuyển đổi tần số lấy mẫu băng rộng băng hẹp Tiếp tục với ví dụ bên trên, giả thiết codec A codec băng hẹp lấy mẫu 8kHz codec B codec băng rộng lấy mẫu 16kHz Lúc này, việc transcoding cần bổ sung thêm kỹ thuật xử lý đa tốc (multirate) [10] Xét chiều liệu từ điện thoại A tới điện thoại B, tín hiệu tiếng nói lấy mẫu 8kHz chuyển đổi thành tín hiệu lấy mẫu 16kHz thông qua tăng tốc (upsample) số Mơ hình thực hình Dữ liệu PCM x1(n) Bộ giải mã 8kHz Điện thoại A x2(n) Lọc nửa dải 16kHz x3(n) 16kHz CODEC A 8kHz (3) k 0 Bảng Ví dụ lọc nửa dải chiều dài L = 21 thiết kế float H1[21] = {0, 0.0340, 0, -0.0333, 0, 0.0545, 0, -0.1004, 0, 0.3164, 0.5000, 0.3164, 0, -0.1004, 0, 0.0545, 0, -0.0333, 0, 0.0340, 0}; Bộ mã hóa CODEC B 16kHz Điện thoại B Hình Mơ hình transcode kết hợp tăng tốc liệu n x ( ), n 0, 2, 4,6 x2 (n) (1) n 1,3,5, Sau tăng tốc, liệu bắt buộc qua lọc nửa dải để loại bỏ phổ ảnh khơng mong muốn, đồng thời hoạt động nội suy giá trị vừa chèn thêm: Hình Đáp ứng tần số biên độ lọc nửa dải L 1 x3 (n) h(k ) x2 (n k ) (2) k 0 III Trong h(k ) lọc nửa dải (half-band filter) độ dài L Ở chiều ngược lại từ điện thoại B tới điện thoại A, tín hiệu tiếng nói lấy mẫu 16kHz chuyển đổi thành tín hiệu lấy mẫu 8kHz thơng qua giảm tốc (downsample) hệ số Mơ hình thực hình CÁC KỸ THUẬT ĐƯỢC CẢI TIẾN CHO MẠNG VIỄN THÔNG VIETTEL Thực thi hệ số lọc theo dấu phẩy tĩnh Bộ lọc nửa dải kỹ thuật transcoding triển khai môi trường sau: Môi trường dấu phẩy động: Unix, Linux sử dụng dòng CPU Intel 137 Mơi trường dấu phẩy tĩnh: Các dòng chip DSP Texas Instrument, FreeScale… Tuy nhiên, thuật toán triển khai dạng dấu phẩy tĩnh chứng minh chạy nhanh triển khai dạng dấu phẩy động [11] Trong thử nghiệm chúng tôi, xây dựng lọc môi trường Linux, Intel CPU, thuật toán với đầu vào khung liệu PCM 16bit, chiều dài 20ms, lấy mẫu 8kHz, lọc có chiều dài L = 21 Chúng tơi chạy thử thuật toán 02 trường hợp: hệ số lọc dạng dấu phẩy tĩnh hệ số lọc dạng dấu phẩy động sau đo số xung nhịp CPU MCPS (Mega Cycles Per Second) cần để chạy hết thuật toán lọc Kết thể bảng IP/TDM UE MCPS (dấu phẩy động) 32.586 32.784 IP NodeB IP/TDM IP BSC/ RNC UE NodeB Mạng vơ tuyến Hệ thống mạng lõi Hình Mơ hình giản lược hệ thống viễn thơng di động Bảng Kết so sánh lọc dấu phẩy động dấu phẩy tĩnh Lần chạy BSC/ RNC Bảng Một số codec mạng lõi viễn thông MCPS (dấu phẩy tĩnh) 21.635 21.475 Codec G711(PCMA/P CMU) GSM-FR GSM-HR GSM-EFR AMR AMR-WB AMR-WB+ EVS Có thể nhận thấy rằng, hệ số lọc dạng dấu phẩy tĩnh, thuật toán đạt hiệu cao 33% so với sử dụng dấu phẩy động Do đó, trường hợp cần thực thi hiệu tính tốn, việc chuyển đổi hệ số lọc từ dấu phẩy động sang dạng dấu phẩy tĩnh cần thiết Việc chuyển đổi hệ số lọc từ dạng dấu phẩy động sang dạng dấu phẩy tĩnh thực việc dịch phải dấu “.” hệ số lọc, tương đương việc nhân hệ số lọc với 10N Trong N số bước dịch phải (5) h '(n) h(n)10N Tần số lấy mẫu (kHz) Chiều dài gói (ms) Kích thước gói (byte) 10 80 8 8 16 8/16/24/32 8/16/24/32 20 20 20 20 20 20 20 33 14 31 12 – 31 17 - 60 15 - 120 15 - 320 Việc thực nhân chập liệu gói rời rạc áp dụng trực tiếp công thức (2)(3)(6) mà cần cải tiến kỹ thuật xử lý phù hợp Chúng đề xuất cải tiến phép nhân chập cho gói rời rạc với 03 bước sau: Bước 1: Thực lưu trữ giá trị lọc chiều dài L chuỗi giá trị tín hiệu x(n) chiều dài M 02 buffers Tuy nhiên, cách làm gây tràn số x3 (n) thực phép nhân chập mô tả (1) Để loại bỏ điều phép nhân chập (1) thay đổi sau: L 1 x3 (n) N h(k ) x2 (n k ) (6) 10 k riêng biệt có kích thước L L M tương ứng Đối với buffer chứa x(n) , L giá trị khởi tạo Bước 2: Thực phép nhân vector giá trị 02 buffers, dịch buffer lọc sang phải lặp lại bước M lần đến buffer chứa x(n) L giá trị Bước 3: Không thực việc nhân chập hết chiều dài tín hiệu x(n) mà giữ lại L giá trị cuối cùng, L giá trị Thực thi phép nhân chập cho xử lý gói liệu miền IP Các công thức nhân chập (2)(3)(6) mô tả x(n) dạng tín hiệu liên tục kéo dài vô hạn miền thời gian Đối với hệ thống viễn thông di động, giả thiết không thực tế Một hệ thống viễn thông di động rút gọn mơ tả Hình Tại giao diện mạng vơ tuyến, tín hiệu tiếng nói liên tục miền thời gian, nhiên truyền dẫn xử lý hệ thống mạng lõi, tín hiệu đóng gói thành gói tin theo chuẩn TCP/IP Kỹ thuật transcoding thường thực hệ thống MSC (Mobile Switching Center) GMSC (Gate Mobile Switching Center) thuộc hệ thống mạng lõi Tại hệ thống này, tín hiệu tiếng nói x(n) chia thành gói liệu IP tương ứng với loại codec chép vào L giá trị buffer chứa chuẩn bị cho việc xử lý gói liệu x ( n) L+M x(n) B1 h(n) L Sao chép L giá trị bước n, lưu trữ để xử lý cho bước n+1 x(n) B2 h(n) Lặp lại việc dịch lọc sang phải thực phép nhân x(n) B3 h(n) Hình Quy trình thực nhân chập cho gói rời rạc 138 xuống thấp: Rất tốt, Tốt, Khá, Xấu Chất lượng tiếng nói gọi “Đạt” có điểm đánh giá từ mức “Khá” trở lên Chúng bắt thử số mẫu tiếng nói mạng lưới cho việc thử nghiệm, điểm MOS đo thời điểm trước sau thực chuyển đổi mã hóa tiếng nói từ 8kHz sang 16kHz, kết cho bảng Quy trình cân lượng tín hiệu sau chuyển đổi mã hóa tiếng nói Việc chuyển đổi hệ số lọc từ dấu phẩy động sang dấu phẩy tĩnh, áp dụng phép nhân chập lên tín hiệu q trình xử lý làm thay đổi biên độ lượng tín hiệu trước sau xử lý Sự thay đổi tác động trực tiếp đến cảm nhận người nghe như: âm trở nên to nhỏ Để xử lý vấn đề này, chúng tơi thực đo lượng gói liệu trước sau xử lý, từ tính hệ số khuếch đại cần thiết để điều chỉnh mức lượng tín hiệu đầu Hình mơ tả cách thức thực qui trình x(n) Đo lượng gói P1 x(n) Xử lý transcode, multirate, lọc y(n) Đo lượng gói P2 Bảng Kết so sánh MOS trước sau chuyển đổi tần số lấy mẫu Mẫu thử test1_8kHz_20ms.pcma test2_8kHz_40ms.pcma test3_8kHz_60ms.pcmu test4_8kHz_80ms.pcmu test5_8kHz_100ms.amr test6_8kHz_160ms.amr x’(n) y(n) Gain Gain = P2/ (P1+1) MOS (sau chuyển tốc độ sang 16kHz) Rất tốt Rất tốt Rất tốt Rất tốt Tốt Tốt Từ điểm MOS đo thấy rằng, chất lượng tiếng nói bảo tồn khơng bị thay đổi q trình thực kỹ thuật xử lý chuyển đổi tiếng nói từ băng hẹp (8kHz) sang băng rộng (16kHz) ngược lại Hình Quy trình xử lý cân lượng tín hiệu Tuy nhiên, gói liệu đến trải qua qui trình đo lượng làm giảm hiệu hệ thống, việc đo lượng gói liệu thực N giây Hiện chưa có logic mặt học thuật để xác định giá trị N, nhiên giá trị bị ràng buộc việc đạt hiệu hệ thống cân lượng tín hiệu, xác định dựa kết thực nghiệm Trong test thực nghiệm chúng tôi, việc đặt N = đạt yêu cầu hiệu hệ thống đặt IV MOS (trước chuyển tốc độ 8kHz) Rất tốt Rất tốt Rất tốt Rất tốt Tốt Tốt V KẾT LUẬN Trong báo này, đề xuất số cải tiến việc thực kỹ thuật transcoding tín hiệu băng rộng băng hẹp, áp dụng thành công mạng viễn thông Viettel cho phép hệ thống thực chuyển đổi chuẩn mã hóa tiếng nói mạng 2G, 3G, 4G 5G Việc thực thi thực tiễn cho kết tốt phù hợp với những kết báo Tuy nhiên, kết thực 02 tần số lấy mẫu 8kHz 16kHz Xa hơn, chúng tơi có kế hoạch tiếp tục nghiên cứu cho việc chuyển đổi nhiều tần số lấy mẫu khác 24kHz, 32kHz, 48kHz… Những cải tiến kỹ thuật kết hợp với kỹ thuật mã hóa thơng tin cho ứng dụng đặc thù [14][15] KẾT QUẢ Trong hình mơ tả dạng tín hiệu thu mạng lưới Viettel sau trình transcoding codec UMTS AMR2 (8kHz) UMTS AMR-WB (16kHz) Lời cảm ơn: Kết báo phần đề tài nghiên cứu Tập đoàn Viettel “Nghiên cứu phát triển hệ thống Gate MSC hỗ trợ TDM” mã số 002-18-TĐ-RĐP-DS Chúng xin gửi lời cảm ơn tới Trung tâm nghiên cứu công nghệ mạng Viettel (VTTEK) Tổng Công ty mạng lưới Viettel (VTNET) hỗ trợ thực thử nghiệm kết đề tài Hình Tiếng nói trước 8kHz sau chuyển đổi sang 16kHz (so sánh số lượng mẫu 02 tín hiệu trước sau chuyển đổi) Từ tín hiệu thu mạng lưới dễ dàng nhận thấy số lượng mẫu liệu liệu lấy mẫu 16kHz nhiều gấp 02 lần so với trước chuyển đổi (lấy mẫu 8kHz) Các tín hiệu cho cảm nhận nghe tốt từ người nghe mạng lưới Viettel Để định lượng xác chất lượng tín hiệu tiếng nói, chúng tơi sử dụng phần mềm đo kiểm chất lượng thoại GL VQT (Voice Quality Testing) [12] theo tiêu chuẩn ITU P.862/P863 [13] Phần mềm xếp loại chất lượng tiếng nói theo điểm MOS (mean opinion square) với mức từ cao TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] 139 ITU G.711 : Pulse code modulation (PCM) of voice frequencies; ITU-T Recommendation (11/1988), Retrieved on 2009-07-08 ETSI EN 300 961 V8.1.1 (2000-11) - (GSM 06.10 version 8.1.1 Release 1999), Retrieved on 2009-07-08 ETSI, EN 300 969 - Half rate speech transcoding (GSM 06.20 version 8.0.1 Release 1999), Retrieved on 2009-07-11 RFC 3551 - GSM-EFR (GSM 06.60), Retrieved on 2009-07-08 3GPP TS 26.090 - Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions" 3GPP Retrieved 2010-07-21 [11] Steven W.Smith, “The Scientist and Engineer's Guide to Digital Signal Processing” [12] Voice Quality Testing (VQT) Software (POLQA, PESQ), https://www.gl.com/voicequality-testing-pesq-polqa.html, access: June 26, 2018 [13] ITU P.863 “Perceptual objective listening quality prediction”, March 2018 [14] Tam Vu Van,Tran Duc-Tan, Phan Trong Hanh (2017) Data embedding in audio signal using multiple bit marking layers method Multimedia Tools and Applications, 76(9), 11391-11406 [15] Vu, V T., Tran, D T., Nguyen, D T., Nguyen, T T., & Phan, T H (2015) Data embedding in audio signal by a novel bit marking method International Journal of Advancements in Computing Technology, 7(1) [6] Marks, R.J.(II): Introduction to Shannon Sampling and Interpolation Theory, Springer-Verlag, 1991 [7] ITU-T (2003) ITU-T Recommendation G.722.2 Page i Retrieved on 2009-06-17 [8] 3GPP TS 26.290; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions, Page 10, Retrieved on 2009-07-08 [9] Atti, V.; Sinder, D J.; Subasingha, S.; Rajendran, V.; Dewasurendra, D.; Chebiyyam, V.; Varga, I.; Krishnan, V.; Schubert, B (2015-0401) "Improved error resilience for volte and VoIP with 3GPP EVS channel aware coding" 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 5713– 5717 doi:10.1109/ICASSP.2015.7179066 [10] Ljiljana milic, “Multirate filtering for digital signal processing: matlab applications”, 2009 140 View publication stats ... băng hẹp Trong báo này, đề xuất số cải tiến kỹ thuật việc xử lý chuyển đổi mã hóa tiếng nói băng rộng băng hẹp, triển khai áp dụng thành công mạng viễn thông di động Viettel Trong mạng viễn thông. . .Một Số Cải Tiến Kỹ Thuật Trong Chuyển Đổi Mã Hóa Tiếng Nói Băng Rộng Và Băng Hẹp Áp Dụng Trên Mạng Viễn Thông Di Động Viettel Đinh Văn Phong1, Nguyễn Thế Hiếu1,... EVS sử dụng tần số lấy II CÁC KỸ THUẬT NỀN TẢNG Kỹ thuật transcoding Một mã hóa tiếng nói bao gồm 02 thành phần chính: mã hóa giải mã Kỹ thuật transcoding ln thực việc giải mã với chuẩn mã hóa thân