Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	4,19 MB

Nội dung

Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. Bài báo này trình bày một tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên các thiết bị di động và các hệ thống tài nguyên hạn chế.

Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt hệ thống tài nguyên hạn chế Nguyễn Tu Trung Ngơ Hồng huy Viện CNTT, Viện Hàn Lâm KH&CN VN Hà Nội, Việt Nam nttrung@ioit.ac.vn Viện CNTT, Viện Hàn Lâm KH&CN VN Hà Nội, Việt Nam nhhuy@ioit.ac.vn hệ thống có tài nguyên khiêm tốn loại chip với khả lưu trữ tính tốn thấp Tóm tắt— Xử lý tiếng nói nói chung tổng hợp tiếng nói nói riêng Việt Nam giới đạt thành tựu đáng khích lệ Khi mà nhu cầu giao tiếp thiết bị di động hệ thống tài nguyên hạn chế tăng nhanh, nhà nghiên cứu giới tiếp tục tối ưu thành phần để xây dựng hệ xử lý tiếng nói hệ thống dạng Do đặc thù hệ thống tài nguyên hạn chế, hệ tổng hợp chạy hệ thống cần sử dung lượng nhớ chí phí tính toán đủ nhỏ Các nhà nghiên cứu giới đạt thành công hệ thống có tài nguyên khiêm tốn loại chip với khả lưu trữ tính tốn thấp Bài báo trình bày tiếp cận tối ưu lưu trữ tính tốn tín hiệu tiếng nói cho hệ tổng hợp tiếng Việt dựa ghép nối để đáp ứng thiết bị di động hệ thống tài nguyên hạn chế Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói hệ thống tài nguyên hạn chế xuất số năm gần Các đề tài nghiên cứu việc chuyển hệ xử lý tiếng nói lên hệ thống di động cầm tay hệ thống nhúng triển khai minh chứng cho nhu cầu Việc tích hợp hệ thống tổng hợp tiếng nói vào hệ thống tài nguyên hạn chế gặp phải vấn đề nhớ u cầu tính tốn Burileanu [4] sử dụng mã hóa A-law để nén CSDL đơn vị tiếng nói họ 80% thời gian tính tốn nằm khâu chuẩn hóa văn chuyển văn âm vị Sheikhzadeh cộng [9] thiết kế hệ thống tổng hợp tiếng nói theo phương pháp ghép nối sử dụng thuật toán TDPSOLA chip DSP với DAC 16bit, tần số tối đa MHz Dey cộng [6] đưa kiến trúc TTS nhúng theo phương pháp tổng hợp ghép nối cho chip ARM Trong nghiên cứu này, chúng tơi trình bày tiếp cận tối ưu lưu trữ tính tốn tín hiệu tiếng nói cho hệ tổng hợp tiếng Việt dựa ghép nối để đáp ứng thiết bị di động hệ thống tài nguyên hạn chế Từ khóa— tổng hợp tiếng nói, tài nguyên hạn chế, ADPCM, PSOLA I GIỚI THIỆU Xử lý tiếng nói nghiên cứu tiếng nói người dạng tín hiệu phương pháp xử lý tín hiệu Tín hiệu tiếng nói thường thể dạng số, tức “số hóa” Do đó, xử lý tiếng nói coi giao xử lý tín hiệu số xử lý ngơn ngữ tự nhiên Trên giới, xử lý tiếng nói nghiên cứu từ lâu Ở Việt Nam, khoảng chục năm trở lại có số sản phẩm đời tổng hợp nhận dạng tiếng nói Các phần cịn lại báo trình bày sau Phần trình bày khái quát hệ tổng hợp tiếng nói dựa ghép nối Phần trình bày vấn đề tổng hợp tiếng nói hệ thống có tài nguyên hạn chế Giải pháp tối ưu lưu trữ tính tốn cho hệ tổng hợp tiếng nói dựa ghép nối hệ thống tài nguyên hạn chế Thử nghiệm đánh giá trình bày phần Phần kết luận báo Khi mà xử lý tiếng nói máy tính đạt thành tựu khả quan, người ta nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói hệ thống có tài nguyên hạn chế để đáp ứng mục đích giao tiếp tiếng nói hệ thống Do đặc thù hệ thống tài nguyên hạn chế, hệ tổng hợp chạy hệ thống cần sử dụng lượng nhớ chí phí tính tốn đủ nhỏ Và nhà nghiên cứu giới đạt thành công ISBN: 978-604-67-0349-5 432 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) II TỔNG HỢP TIẾNG NÓI DỰA TRÊN GHÉP NỐI Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn mơ tả hình Nói chung, mơ đun xử lý tín hiệu số chọn âm vị thông tin ngôn điệu từ đầu mô đun xử lý ngôn ngữ tự nhiên đưa chúng thành tín hiệu tiếng nói Các kỹ thuật sử dụng mơ đun xử lý tín hiệu số: tổng hợp theo luật, tổng hợp ghép nối tổng hợp dựa thống kê Hình Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế đơn vị tổng hợp ghép nối đơn vị sinh tiếng nói Dutoit [7] cho tổng hợp tiếng nói ghép nối cách tiếp cận đơn giản hiệu Hơn nữa, hệ thống tổng hợp chủ yếu theo phương pháp ghép nối đơn vị Vì vậy, tổng hợp ghép nối, việc lựa chọn đơn vị tiêu chuẩn sinh tiếng nói chất lượng cao Các đơn vị tiếng nói chọn cho cực tiểu lỗi ghép nối làm trơn biên độ đoạn tiếng nói Thơng thường, đơn vị tiếng nói lưu trữ sở liệu lớn Hình Lưu đồ trình ghép nối [2] III Việc tích hợp hệ thống tổng hợp tiếng nói vào hệ thống tài nguyên hạn chế gặp phải vấn đề nhớ yêu cầu tính tốn Burileanu [4] sử dụng mã hóa A-law để nén CSDL đơn vị tiếng nói họ 80% thời gian tính tốn nằm khâu chuẩn hóa văn chuyển văn âm vị Họ sử dụng tính tốn chấm tĩnh cho mạng nơron dùng để chuyển đổi văn sang âm vị Toàn dung lượng nhớ dùng xấp xỉ 1MB Sơ đồ hệ thống thể hình Các mơ hình dùng tổng hợp ghép nối thường dựa công cụ xử lý tiếng nói số phương pháp biểu diễn tổng hợp LPC (Linear Predictive Coding), Harmonic/Stochastic (H/S), cộng chồng đồng (PSOLA) cộng chồng đồng miền thời gian (TD-PSOLA) Sau giai đoạn sinh ngữ điệu văn bản, ta thu danh sách bán âm tiết có thứ tự (các phụ âm đầu phần vần) tham số ngữ điệu tương ứng Ở giai đoạn sinh tín hiệu (hình 2), hệ thống tiến hành duyệt bán âm tiết Với bán âm, hệ thống tìm CSDL đoạn tín hiệu âm tương ứng Khi này, kết hợp thông tin ngữ điệu, hệ thống thực việc thay đổi độ dài cao độ tần số bán âm phù hợp với qui luật ngữ cảnh ngữ âm Công việc thực việc sử dụng thuật tốn PSOLA Sau đó, hệ thống tiến hành làm trơn biên ghép nối bán âm tiết ISBN: 978-604-67-0349-5 TỔNG HỢP TIẾNG NÓI TRÊN HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ Sheikhzadeh cộng [9] thiết kế hệ thống tổng hợp tiếng nói theo phương pháp ghép nối sử dụng thuật toán TD-PSOLA chip DSP với DAC 16bit, tần số tối đa MHz Hệ thống gồm mô đun liên kết với host, giải nén CSDL đơn vị âm tiếng nói xử lý chấm tĩnh cộng chồng đồng TD-PSOLA Với tính khơng có chuẩn hóa văn với nhân DSP hệ thống chạy mức 1.28MHz, tiêu thụ điện thấp 433 Hội thảo quốc gia 2014 Điện tử, Truyền thông Cơng nghệ thơng tin (ECIT2014) Hình 3: Kiến trúc hệ thống TTS đơn giản [4] Dey cộng [6] đưa kiến trúc TTS nhúng (hình 4) theo phương pháp tổng hợp ghép nối cho chip ARM với đầy đủ mơ đun phân tích ngơn ngữ văn đầu vào, chuyển đổi văn sang âm vị, điều khiển ngôn điệu Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói hệ thống tài nguyên hạn chế xuất số năm gần Các đề tài nghiên cứu việc chuyển hệ xử lý tiếng nói lên hệ thống di động cầm tay hệ thống nhúng triển khai minh chứng cho nhu cầu Hình 4: Lưu đồ q trình sinh tiếng nói Theo lưu đồ trên, sau lấy liệu âm thô dạng ADPCM bán âm từ CSDL, hệ tổng hợp cần thực việc giải mã để nhận tín hiệu dạng PCM Từ đây, tín hiệu PCM thay đổi trường độ cao độ tần số với thuật tốn PSOLA tối ưu Sau đó, thủ tục làm trơn khơng cần tính tốn đỉnh tiếng nói ứng với đoạn cuối bán âm trước đoạn đầu bán âm sau mà cần tải từ CSDL thực việc làm trơn Như vây, thấy để xây dựng hệ tổng hợp tiếng nói hệ thống có tài nguyên hạn chế hệ cần đảm bảo yêu cầu sau:  Kích thước lưu trữ nhỏ (1)  Tính tốn đơn giản, khơng sử dụng thao tác phức tạp (2)  Chất lượng giọng tổng hợp đảm bảo nghe (3) IV A Nén tín hiệu tiếng bán âm tiết với ADPCM Hiện nay, có nhiều phương pháp mã hóa khác với tỉ lệ nén tín hiệu tốt mã chất lượng khơng suy giảm nhiều Có phương pháp trình nén giải nén cần thực hàm tốn học phức tạp với chi phí tính tốn khơng nhỏ, khơng phù hợp cho hệ thống tài nguyên hạn chế Tuy nhiên, lại có phương pháp có tỉ lệ nén khơng hẳn tối ưu bù lại tiêu tốn lượng chi phí tính tốn khơng lớn Một phương pháp ADPCM (Adaptive Differential Pulse Code Modulation) TỐI ƯU HỐ LƯU TRỮ VÀ TÍNH TỐN Dựa thuật tốn sinh tiếng nói ghép nối hình 2, chúng tơi đề xuất sinh tiếng nói với lưu đồ hình với kết hợp việc nén tín hiệu bán âm tối ưu thuật tốn ghép nối Với mã hóa, đầu vào PCM đươc chuyển đổi thành PCM thống Một tín hiệu lệch thu ISBN: 978-604-67-0349-5 434 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thơng tin (ECIT2014) cách trừ ước lượng tín hiệu đầu vào từ tín hiệu đầu vào Một lượng tử hóa 31-, 15-, 7-, 4-mức thích ứng dùng để gán 5, 4, 3, số nhị phân tương ứng để giá trị tín hiệu lệch truyền tới giải mã Một lượng tử đảo ngược sinh tín hiệu lệch lượng tử hóa từ 5, 4, số nhị phân Ước lượng tín hiệu cộng vào tín hiệu lệch lượng tử hóa để sinh phiên tín hiệu đầu vào tạo lại Cả tín hiệu tạo lại tín hiệu lệch lượng tử hóa điều khiển dự báo thích ứng, mà sinh ước lượng tín hiệu đầu vào, hồn thành vịng lặp phản hồi cuối đoạn không đổi 16ms vô thanh, t2 điểm đánh dấu cao độ tần số sát x2(n) với đoạn hữu cách điểm đoạn không đổi 16ms vô Điểm đánh dấu cao độ tần số đỉnh tiếng nói Như vậy, phải tìm đỉnh tiếng nói cuối bán âm tiết trước đầu bán âm tiết sau Thao tác dị tìm đỉnh tiếng nói phức tạp phải dùng đến thuật tốn riêng để giải Như vậy, chi phí tính tốn thuật tốn khơng nhỏ Nếu với đoạn tiếng nói bán âm tiết lưu CSDL, ta tìm trước đỉnh tiếng nói lưu vào CSDL chi phí tính tốn sinh tiếng nói giảm nhiều Tôi sử dụng phần mềm Praat [10] để xác định đỉnh tiếng nói ứng với bán âm tiết lưu vào CSDL Như vậy, trường hợp xấu nhất, kích thước liệu ADPCM giảm xuống 2/3 (phải dùng bit cho vi sai) so với liệu PCM gốc (8 bit) Còn trường hợp tốt nhất, liệu ADPCM giảm xuống cịn ¼ (phải dùng bit cho vi sai) so với liệu PCM gốc Hai nửa cửa sổ Hanning phân tích tương ứng Ah1(n-t1+P1) Ah2(n-t2+P1): Thông thường PC, nhà nghiên cứu lưu sẵn đoạn âm dạng PCM Chúng ta hoàn tồn lưu tín hiệu đoạn âm dạng ADPCM Trước sinh tiếng nói, ta phải thêm thao tác chuyển đổi từ ADPCM sang PCM Tuy nhiên, chất giải mã cộng tích lũy phí tính tốn không nhiều Ah1 (n)  0.5  0.5 cos( P1 ), n  P1 = (N1 - 1)/2 Ah2 (n)  0.5  0.5 cos( P2 n P2 ), n  P2 = (N2 - 1)/2 Hai nửa cửa sổ Hanning tổng hợp tương ứng Sh1(n-t1+P) Sh2(n-t2), có độ rộng gấp đơi giá trị P: Sh1 (n)  0.5  0.5 cos( n ), P  n  2P P Sh2 (n)  0.5  0.5 cos( n ),0  n  P P P = 0.5 (P1 + P2) (3) Biểu thức tín hiệu tổng hợp sau: ), n  P2 = (N2 - 1)/2  x1 (n) Ah1 (n  t1  P)  x2 (n  P) Ah2 (n  t ) , t1  n  t1  P Sh1 (n  t1  P)  Sh2 (n  t )  x1 (n),0  n  t1  x2 (n), t1  P  n (4) (1) Thao tác cửa sổ tính tốn với cơng thức đơn giản chi phí để tính hàm cos khơng nhỏ hệ thống có tài nguyên hạn chế Để giải vấn đề này, lưu sẵn giá trị hàm cửa sổ Chúng ta biết frame tiếng nói có độ dài lf từ Trong đó, P1, P2 hai chu kì cao độ tần số hai điểm nối N1, N2 số điểm lấy mẫu cửa sổ tương ứng t1 điểm đánh dấu cao độ tần số sát cuối x1(n) với đoạn hữu cách điểm ISBN: 978-604-67-0349-5 Ah2 (n)  0.5  0.5 cos( Trong đó, P1, P2 hai chu kì cao độ tần số hai điểm nối N1, N2 số điểm lấy mẫu cửa sổ tương ứng Giả sử hai bán âm tiết x1(n) x2(n) phân đoạn đồng cao độ tần số với tín hiệu x2(n) điểm cuối x1(n) Hai nửa cửa sổ Hanning phân tích tương ứng Ah1(n-t1+P1) Ah2(n-t2+P1): Ah1 (n)  0.5  0.5 cos( ), n  (2) B Tối ưu tính tốn thuật tốn ghép nối tín hiệu Trước ghép nối ta cần thực hai thao tác: thay đổi cao độ tần số với PSOLA [8] làm trơn biên ghép nối PSOLA có sử dụng thao tác cửa sổ hóa cịn làm trơn sử dụng đỉnh tiếng nói đầu cuối đoạn âm n P1 P1 = (N1 - 1)/2 Trong báo này, chuyển đổi lưu trữ đoạn tín hiệu bán âm từ dạng PCM 16bit dạng ADPCM 4bit Như vậy, kích thước liệu giảm bốn lần Khi này, CSDL lưu liệu âm thô dạng ADPCM Khi tổng hợp, sau lấy liệu tương ứng với bán âm tiết, hệ tổng hợp thực việc giải mã để thu tín hiệu dạng PCM n n 435 Hội thảo quốc gia 2014 Điện tử, Truyền thông Công nghệ thông tin (ECIT2014) 10ms – 30ms để đảm bảo giả thiết tuần hoàn Số mẫu N frame tính theo cơng thức: N lf * fs 1000 số ngun Điều làm cho việc tính tốn thuận lợi tốc độ nhanh nhiều Nếu phương pháp dấu phảy động phù hợp với chương trình chạy PC với hệ thống tài nguyên hạn chế, phương pháp biểu diễn với dấu phảy tĩnh lại cho thấy hợp lý (5) Trong trường hợp tôi, tần số lấy mẫu fs 11 kHz, frame có độ dài lf 20ms Khi này, tính N 220 dễ dàng lưu lại 220 giá trị hàm cửa sổ w(n) V THỬ NGHIỆM A Xây dựng hệ tổng hợp VnPDA thiết bị di động Hình minh họa hình giao diện thiết kế mô với Emulator Trong hệ tổng hợp thử nghiệm này, báo không áp dụng giải pháp tối ưu cực tiểu kích thước lưu trữ đoạn tín hiệu thơ bán âm tiết VnPDA áp dụng giải pháp nén tín hiệu dạng ADPCM với việc lưu tất thể điệu cho vần Điều nghĩa có khoảng 822 bán âm tiết lưu Với thiết kế xây dựng trên, hệ tổng hợp thử nghiệm VnPDA sử dụng máy Pocket PC chạy Windows Mobile Các giá trị thực biểu diễn dạng số dấu chấm tĩnh phép toán liên quan thao tác số dấu chấm tĩnh C Biểu diễn số dấu chấm tĩnh Trong C có hai kiểu float (4 byte) double (8 byte) để biểu diễn số thực Một câu hỏi đặt liệu biểu diễn số thực với byte khơng? Câu trả lời có phương pháp biểu diễn dấu chấm tĩnh giải vấn đề Một số thập phân x với a bit cho phần nguyên, b bit cho phần lẻ Trong đó, giá trị a bit phần nguyên p, giá trị b bit phần lẻ q Khi này, ta có: x=p+ q , với

Ngày đăng: 31/10/2020, 10:19