Giải pháp nâng cao hiệu năng hệ thống mã hóa giải mã tiếng nói dựa trên tính chất thưa của dữ liệu tiếng nói trong miền thời gian

Giải pháp nâng cao hiệu hệ thống mã hóa, giải mã tiếng nói dựa tính chất thưa liệu tiếng nói miền thời gian Đinh Văn Phong1, Nguyễn Thế Hiếu1, Nguyễn Huy Tình1, Đinh Viết Quân1, Phạm Văn Tăng2 Trần Đức Tân3 Tổng công ty Công nghiệp Công nghệ cao Viettel, Học Viện Hậu Cần, Trường Đại học Phenikaa Email: phongdv6@viettel.com.vn, tan.tranduc@phenikaa-uni.edu.vn Tóm tắt — Trong hệ thống chuyển mạch kênh di động, hai loại liệu xử lý liệu báo hiệu liệu tiếng nói Dữ liệu báo hiệu tin có kích thước nhỏ, tần suất xuất không lớn gọi, chiếm khơng q 10%, 90% cịn lại liệu tiếng nói người dùng Vì vậy, việc thao tác xử lý với liệu tiếng nói ảnh hưởng lớn tới hiệu hệ thống Một thao tác cần phải làm với liệu tiếng nói thực thuật tốn mã hóa, giải mã theo tiêu chuẩn ban hành ITU, 3GPP G711, G722, AMR, GSMFR, GSMHR… Các thuật tốn thực thi tồn thời gian đàm thoại người dùng Trong thực tế, liệu tiếng nói có tính chất thưa miền thời gian, có nghĩa nhiều khoảng thời gian đàm thoại người dùng, liệu khơng chứa tiếng nói hữu ích mà liệu trắng (rỗng), liệu tiếng nói hữu ích xuất xen kẹp khoảng liệu trắng Từ đặc điểm này, chúng tơi đề xuất giải pháp xử lý có chọn lọc liệu tiếng nói hữu ích bỏ qua việc xử lý liệu trắng giúp tiết kiệm chi phí tính tốn, nâng cao hiệu hệ thống Từ khóa- Mã hóa, giải mã, lượng tín hiệu, liệu thưa I GIỚI THIỆU Trong hệ thống chuyển mạch kênh di động, hai loại liệu xử lý liệu báo hiệu liệu tiếng nói Dữ liệu báo hiệu tin có kích thước nhỏ, tần suất xuất khơng lớn gọi, chiếm không 10%, 90% cịn lại liệu tiếng nói người dùng Vì vậy, việc thao tác xử lý với liệu tiếng nói ảnh hưởng lớn tới hiệu hệ thống Một thao tác cần phải làm với liệu tiếng nói thực thuật tốn mã hóa, giải mã theo tiêu chuẩn ban hành ITU, 3GPP G711 [1], G722 [2], AMR [3], AMR-WB [4], GSMFR [5], GSMHR [6]…Các thuật tốn thực thi tồn thời gian đàm thoại người dùng dạng liệu trắng (rỗng), liệu tiếng nói hữu ích xuất xen kẹp khoảng liệu trắng [Hình 1] Đối với mã hóa/giải mã mạng di động 2.5G trở lên AMR, AMRWB, GSMFR, GSMHR việc xử lý khoảng liệu trắng thiết bị đầu cuối thực hiện, thiết bị đầu cuối nhận diện khoảng trắng sau đó, thay gửi khung giá trị liệu trắng thiết bị gửi gói đánh dấu khoảng trắng diễn ra, kỹ thuật gọi SID (Silent Identification) [3][4], gói có kích thước nhỏ (5 bytes) giúp tiết kiệm băng thông truyền dẫn vô tuyến Tuy nhiên, mã hóa/giải mã cũ G711, G722 dùng hệ thống PSTN [7], VoIP [8], SID khơng sử dụng Ngồi ra, nhà cung cấp viễn thơng di động tắt hỗ trợ SID mạng lưới số trường hợp để tránh lỗi dịch vụ Vì vậy, liệu tiếng nói với khoảng trắng dư thừa khơng chứa thơng tin tồn mạng di động Các liệu xử lý mã hóa/giải mã bình thường đoạn liệu mang thông tin khác, gây lãng phí lực tính tốn hệ thống mạng lõi viễn thông Trong điều kiện vậy, báo đề xuất phương pháp xử lý mã hóa/giải mã có chọn lọc đoạn liệu tiếng nói Trong đoạn liệu tiếng nói mang thơng tin nhận diện theo mức lượng thực mã hóa/giải mã theo tiêu chuẩn ITU/3GPP, đoạn liệu trắng nhận diện xử lý nhanh khơng qua mã hóa/giải mã, qua tiết kiệm tài ngun (CPU, RAM) dùng cho tính tốn, giúp nâng cao hiệu hệ thống Trong nội dung báo, chúng tơi trình bày số kiến thức mã hóa/giải tính chất thưa miền thời gian tiếng nói phần II Giải pháp mã hóa/giải mã có chọn lọc liệu mô tả phần III kết thử nghiệm chứng minh cải thiện hiệu hệ thống áp dụng giải pháp đề xuất mô tả phần IV báo II Hình 1: Các khoảng đánh dấu đỏ mơ tả khoảng trắng liệu tiếng nói Trong thực tế, liệu tiếng nói có tính chất thưa miền thời gian, có nghĩa nhiều khoảng thời gian đàm thoại người dùng, liệu không chứa tiếng nói hữu ích mà KIẾN THỨC NỀN TẢNG Mã hóa giải mã tiếng nói Mã hóa tiếng nói dạng mã nguồn liệu, tiếng nói nguyên gốc ban đầu biểu diễn giá trị với kích thước (dung lượng) nhỏ kích thước ban đầu giúp tiết kiệm băng thơng truyền dẫn Giải mã trình ngược lại 163 liệu mã hóa tái tạo dạng nguyên gốc phát âm thơng qua thiết bị loa Trong trình phát triển công nghệ di động 2G, 3G, 4G, loạt tiêu chuẩn mã hóa/giải mã tiếng nói phát triển G.711 (PCMA/PCMU) [1], GSM-FR [5], GSM-HR [6], GSM-EFR [9], GSM-AMR [3], AMR-WB [4], EVS [10] Mỗi loại thiết bị đầu cuối hỗ trợ tất tiêu chuẩn mã hóa/giải mã Khi 02 thiết bị đầu cuối có tiêu chuẩn mã hóa/giải mã khác thực đàm thoại với nhau, cần thiết bị trung gian hệ thống mạng lõi viễn thông thực chuyển đổi tiêu chuẩn mã hóa (transcoding) để 02 thiết bị nghe liệu Thiết bị thường hệ thống MSC (Mobile Switching Center) GMSC (Gate Mobile Switching Center) Hình 02 minh họa việc thực transcoding 02 thiết bị đầu cuối A B Thiết bị A sử dụng chuẩn mã hóa loại A, giải mã giải mã loại A, liệu sau giải mã liệu PCM 16 bit, liệu sau mã hóa lại theo chuẩn mã hóa điện thoại B, sử dụng mã hóa loại B Chiều người lại thực tương tự Khi thiết bị A B thưc đàm thoại bình thường khác chuẩn mã hóa Bộ giải mã Điện thoại A Bộ mã hóa CODEC A Hình 3: Tín hiệu tiếng nói thưa miền thời gian Giả sử tín hiệu tiếng nói thưa hình chia thành khung liệu 20ms Dễ dàng nhận thấy tồn nhiều khung có liệu dạng x(n) = {0,0,0….0} kích thước N phần tử, hồn tồn khơng chứa giá trị hữu ích mang thơng tin tiếng nói Nếu đoạn liệu x(n) đưa vào mã hóa tốn hiệu tính tốn vơ ích để liệu y(n) = {0,0,0…0} kích thước M phần tử (M < N) III GIẢI PHÁP ĐỀ XUẤT NÂNG CAO HIỆU NĂNG Ý tưởng giải pháp Ý tưởng thực việc nhận diện phân loại khung liệu tiếng nói thành 02 dạng: + Dữ liệu chứa thơng tin có ích: Thực mã hóa/ giải mã liệu cách bình thường + Dữ liệu nằm khoảng lặng (trắng): Khơng thực mã hóa/giải mã liệu mà gán trực tiếp kết đầu chắn biết liệu sau mã hóa/giải mã khung liệu trắng Việc nhận diện gói liệu thực thơng qua việc tính giá trị lượng khung liệu theo công thức: Điện thoại B Dữ liệu PCM Bộ mã hóa Thơng thường hội thoại, người sử dụng khơng nói liên tục, mà có khoảng thời gian yên lặng để nghe người phía đối diện nói Khi biểu diễn tín hiệu tiếng nói, tín hiệu thường chứa khoảng lặng xen kẽ, chúng tơi gọi tín hiệu thưa miền thời gian Bộ giải mã CODEC B Hình 2: Mơ tả kỹ thuật transcoding Tín hiệu tiếng nói sau microphone thiết bị đầu cuối tín hiệu liên tục miền thời gian Trước qua mã hóa/giải mã tiếng nói, tín hiệu chia thành khung liệu với độ dài 10 – 20ms Các khung truyền mạng IP biểu diễn thành gói (packet) liệu với độ dài tương ứng Bảng mô tả độ dài khung kích thước số loại gói liệu tiếng nói theo tiêu chuẩn ITU, 3GPP P= G711(PCMA/PCMU) GSM-FR GSM-HR GSM-EFR AMR AMR-WB AMR-WB+ EVS Tần số lấy mẫu (kHz) 8 8 16 8/16/24/32 8/16/24/32 Chiều dài gói (ms) Kích thước gói (byte) 10 20 20 20 20 20 20 20 80 33 14 31 12 – 31 17 - 60 15 - 120 15 - 320 x ( n) (1) n =0 P mức lượng đo khung liệu, N số phần tử khung liệu Việc định nghĩa ngưỡng giá trị Pthreshold cho phép xác định x(n) có chứa giá trị hữu ích hay khơng Trên thực tế, phương trình (1) đơn giản hóa sau để giảm bớt số lượng phép tính mà giữ ngun ý nghĩa tính tốn: Psimple = Bảng 1: Một số mã hóa/giải mã mạng lõi viễn thơng Codec N N x ( n) (2) n =0 Triển khai giải pháp Một tính tốn so sánh lượng tín hiệu với Ptheshold ln triển khai trước mã hóa/giải mã (xem hình 4) Copy thay pattern đầu Dữ liệu đầu vào x(n) N Đo lượng frame liệu P Lớn P_threshold ? Y Bộ mã hóa/giải mã Hình 4: Lưu đồ triển khai giải pháp Tính chất thưa liệu tiếng nói vấn đề gặp phải 164 Dữ liệu đầu y(n) Giải pháp triển khai dạng giải thuật sau: Int16 *InputBuffer; /*Con trỏ đến khung liệu cần tính tốn*/ B1: Tính tốn mức lượng khung liệu theo kích thước P = 0; /* Khởi tạo mức lượng P = 0*/ N = PacketSize; /*N kích thước liệu đầu vào*/ M = OutSize; /*M kích thước liệu đầu ra*/ P_LEVEL = P_threshold; for(i = 0; i < N; i++) { P = P + InputBuffer[i]*InputBuffer[i]; } B2: So sánh mức lượng đo với mức ngưỡng định nghĩa trước if(P >= P_LEVEL) { /* Thực hàm mã hóa/giải mã liệu */; } else /*Thực thiết lập đầu mức lượng thấp ngưỡng*/ { memset(OutputBuffer,0,M); } B3: Lặp lại B1 cho khung liệu IV Bộ mã hóa - Lớn P_threshold ? Bộ mã hóa Y Copy thay pattern đầu Đo lượng frame liệu Ghi liệu đầu ra file P Lớn P_threshold ? Bộ giải mã Y Hình 6: Mã hóa, giải mã file liệu theo phương pháp đề xuất Kết Chất lượng file tín hiệu sau mã hóa, giải mã 02 mơ hình kiểm tra hiển thị phần mềm Audacity hình 7: Hình 7: Tín hiệu file tiếng nói đầu 02 mơ hình so sánh phần mềm Audacity Ghi liệu đầu ra file Đánh giá cảm quan, định tính Audacity cho thấy 02 file có biên độ giá trị liệu giống tọa độ thời gian Kiểm tra phần mềm VQT cho mức điểm MOS đạt mức cao “xuất sắc (Excellent)” Điều chứng minh việc thực giải pháp đề xuất mã hóa/giải mã chọn lọc gói liệu tiếng nói khơng làm ảnh hưởng tới chất lượng tiếng nói Với 02 mơ hình này, chúng tơi thay đổi độ dài file đầu vào theo bước nhảy 30s, sau đo thời gian mã hóa + giải mã file tương ứng theo mốc +30s, cho kết bảng Hình 5: Mã hóa, giải mã file liệu theo mơ hình thơng thường - Dữ liệu sau mã hóa P N KẾT QUẢ Bộ giải mã Copy thay pattern đầu N Đo lượng frame liệu Thiết lập mơ hình thử nghiệm Đầu vào: Chuẩn bị 01 file liệu đầu vào input.pcm chiều dài phút, máy tính sử dụng CPU Intel Core i7, 2.2GHz, thư viện mã hóa/giải mã chuẩn AMRNB Thiết lập mơ hình 1: Thực mã hóa + giải mã file liệu đầu vào theo lưu đồ thông thường, đo thời gian xử lý máy tính (xem hình 5) Đọc liệu đầu vào x(n) từ 01 file pcm theo frame 20ms Đọc liệu đầu vào x(n) từ 01 file pcm theo frame 20ms Bảng 2: So sánh thời gian xử lý 02 mô hình thử nghiệm Thiết lập mơ hình đề xuất (xem hình 6): Thực mã hóa + giải mã file liệu đầu vào theo lưu đồ xử lý có chọn lọc, đo thời gian xử lý máy tính Mức ngưỡng cho mã hóa thiết lập P_ENC = 500 giải mã P_DEC = 2500 Yêu cầu với kết phép đo so sánh: Chất lượng liệu tiếng nói file khơi phục áp dụng 02 mơ hình phải giống Trên miền thời gian, sử dụng phần mềm Audacity [11] để phân tích định tính mắt, so sánh, đảm bảo mẫu liệu giống Sử dụng công cụ VQT (Voice Quality Test) mua từ GL Communication [12] để đánh giá định lượng chất lượng thoại dựa điểm MOS (Mean Opinion Square) theo tiêu chuẩn ITU P.863 [13] 165 Thời gian xử lý (s) Độ dài file (s) 30 60 90 120 150 180 210 240 270 300 330 360 Mơ hình Mơ hình đề xuất 0.23 0.47 0.7 0.94 1.19 1.42 1.66 1.9 2.14 2.38 2.61 2.86 0.16 0.33 0.5 0.67 0.85 1.02 1.19 1.36 1.54 1.71 1.87 2.04 390 420 450 3.1 3.33 3.57 [2] 2.21 2.38 2.58 [3] Với kết so sánh thời gian xử lý 02 mơ hình bên chứng minh phương pháp đề xuất nhóm tác giả cho tốc độ xử lý nhanh ~30% so với mơ hình mã hóa/giải mã thơng thường khơng cần thực thi mã hóa, giải mã tiếng nói khoảng thời gian tín hiệu trắng, khơng mang liệu có ích Nhóm nghiên cứu tiếp tục thực nhiều đoạn âm khác thu kết tương tự việc tăng hiệu xử lý (dao động từ 26% tới 31%) V [5] [6] [7] [8] KẾT LUẬN Các kết đo kiểm thử nghiệm báo chứng minh phương pháp đề xuất đem lại hiệu tốt hai khía cạnh: chất lượng tiếng nói hiệu hệ thống Về chất lượng tiếng nói, phương pháp đề xuất khơng làm ảnh hưởng đến chất lượng tiếng nói so với việc mã hóa/giải mã tiếng nói thơng thường, hiệu lại giúp tăng nhanh tốc độ xử lý hệ thống ~30% Đối với hệ thống lõi di động có lượng phần cứng triển khai lớn MSC, GMSC, việc tăng tốc độ xử lý ~30% đáng kể Việc tăng tốc độ xử lý đồng nghĩa với việc tiết kiệm 30% phần cứng xử lý để đạt mức hiệu trước Trên sở nghiên cứu thực [14-17], định hướng nghiên cứu tiếp theo, dự kiến thực tối ưu việc tính lượng tín hiệu phép tính có thể, từ tiếp tục nâng mức cải thiện hiệu hệ thống lên 35 – 40% Lời cảm ơn: Kết báo phần đề tài “Nghiên cứu phát triển hệ thống Gate MSC hỗ trợ TDM” mã số 002-18-TĐ-RĐP-DS Chúng xin gửi lời cảm ơn tới đồng nghiệp Trung tâm Công nghệ Chuyển mạch, TCT Công nghiệp Công nghệ cao Viettel hỗ trợ thực thử nghiệm kết đề tài [9] [10] [11] [12] [13] [14] [15] [16] [17] TÀI LIỆU THAM KHẢO [1] [4] ITU G.711 : Pulse code modulation (PCM) of voice frequencies; ITU-T Recommendation (11/1988), Retrieved on 2009-07-08 166 ITU-T (2003) ITU-T Recommendation G.722.2 Page i Retrieved on 2009-06-17 3GPP TS 26.090 - Mandatory Speech Codec speech processing functions; Adaptive Multi-Rate (AMR) speech codec; Transcoding functions" 3GPP Retrieved 2010-07-21 3GPP TS 26.290; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions, Page 10, Retrieved on 2009-07-08 ETSI EN 300 961 V8.1.1 (2000-11) - (GSM 06.10 version 8.1.1 Release 1999), Retrieved on 2009-07-08 ETSI, EN 300 969 - Half rate speech transcoding (GSM 06.20 version 8.0.1 Release 1999), Retrieved on 2009-07-11 Kushnick, Bruce (7 January 2013) "What Are the Public Switched Telephone Networks, 'PSTN' and Why You Should Care?" Huffington Post Blog Retrieved 11 April 2014 Nespeca, Claudio (August 18, 2018) "What Is VoIP" Epik Networks Retrieved August 18, 2018 RFC 3551 - GSM-EFR (GSM 06.60), Retrieved on 2009-07-08 Atti, V.; Sinder, D J.; Subasingha, S.; Rajendran, V.; Dewasurendra, D.; Chebiyyam, V.; Varga, I.; Krishnan, V.; Schubert, B (2015-04-01) "Improved error resilience for volte and VoIP with 3GPP EVS channel aware coding" 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 5713–5717 doi:10.1109/ICASSP.2015.7179066 Audacity, https://www.audacityteam.org/, access: October 10th 2019 Voice Quality Testing (VQT) Software (POLQA, PESQ), https://www.gl.com/voicequality-testing-pesq-polqa.html, access: June 26, 2018 ITU P.863 “Perceptual objective listening quality prediction”, March 2018 Dinh Van, Phong and Nguyen The, Hieu and Nguyen Huy, Tinh and Dinh Viet, Quan and Tran Duc, Tan (2018) Một Số Cải Tiến Kỹ Thuật Trong Chuyển Đổi Mã Hóa Tiếng Nói Băng Rộng Và Băng Hẹp Áp Dụng Trên Mạng Viễn Thông Di Động Viettel In: Hội nghị Quốc gia lần thứ XXI Điện tử, Truyền thông Công nghệ Thông tin, 14-15 / 12 / 2018, Ha noi, Viet nam Dinh Van, Phong and Nguyen The, Hieu and Nguyen Huy, Tinh and Dinh Viet, Quan and Tran Duc, Tan (2019) Removing Long Echo Delay Using Combination of Jitter Buffer and Adaptive Filter In: International Conference on Recent Advances in Signal Processing, Telecommunications & Computing (SigTelCom), 21-22 March, 2019, Hanoi, Vietnam Tam Vu Van,Tran Duc-Tan, Phan Trong Hanh (2017) Data embedding in audio signal using multiple bit marking layers method Multimedia Tools and Applications, 76(9), 11391-11406 Vu, V T., Tran, D T., Nguyen, D T., Nguyen, T T., & Phan, T H (2015) Data embedding in audio signal by a novel bit marking method International Journal of Advancements in Computing Technology, 7(1), pp 67-76 ... bình thường khác chuẩn mã hóa Bộ giải mã Điện thoại A Bộ mã hóa CODEC A Hình 3: Tín hiệu tiếng nói thưa miền thời gian Giả sử tín hiệu tiếng nói thưa hình chia thành khung liệu 20ms Dễ dàng nhận... III GIẢI PHÁP ĐỀ XUẤT NÂNG CAO HIỆU NĂNG Ý tưởng giải pháp Ý tưởng thực việc nhận diện phân loại khung liệu tiếng nói thành 02 dạng: + Dữ liệu chứa thơng tin có ích: Thực mã hóa/ giải mã liệu. .. trước mã hóa /giải mã (xem hình 4) Copy thay pattern đầu Dữ liệu đầu vào x(n) N Đo lượng frame liệu P Lớn P_threshold ? Y Bộ mã hóa /giải mã Hình 4: Lưu đồ triển khai giải pháp Tính chất thưa liệu tiếng

Định dạng
Số trang	4
Dung lượng	536,9 KB