Kịch bản thu

Một phần của tài liệu tổng hợp tiếng việt chất lượng tốt (Trang 75 - 79)

4. Xây dựng cơ sở dữ liệu

4.2. Kịch bản thu

Khi đã có danh sách đầy đủ các âm tiết cần thiết, việc xây dựng kịch bản thu nhằm đảm bảo các đơn vị âm được thu cho kết quả tốt nhất.

Đối với các tổ hợp âm cuối, chúng tôi thực hiện ghép thêm âm /n/ hoặc /t/ vào đầu các âm này. Thí dụ, để có tổ hợp âm cuối ưỡng, oan dùng cho tổ hợp ta sẽ ghi âm các âm tiết tưỡng, toan hoặc nưỡng, noan. Cách làm này giúp quá trình tách các âm tiết và đơn vị âm sẽ được thực hiện tự động hoặc bán tự động. Để giảm tới mức thấp nhất hiện tượng đồng cấu âm giữa các âm tiết, danh sách các âm tiết cần thu sẽ được hiển thị một cách độc lập trên màn hình máy tính. Tại mỗi thời điểm chỉ cho phép một âm tiết cần thu được hiển thị và thời gian hiển thị một âm tiết là 1s.

4.3. Thu âm

Thiết bị thu là dụng cụ CSL Model 4500(Computerized Speech Lab, Model 4500) của KayPENTAX chuyên dùng để thu và phân tích tiếng nói. Môi trường thu được cách ly với tiếng ồn bên ngoài phòng thu. Quá trình thu âm được thực hiện tại phòng thu của Phòng Thí nghiệm Thiết kế Điện tử , Trường Đại học Bách khoa Hà Nội. Tín hiệu thu được lấy mẫu ở tần số 16000Hz và 16 bit cho một mẫu. Người phát âm sẽ đọc đều, rõ ràng và dứt khoát các âm tiết cần thu. Với tốc độ nói trung bình là 250ms cho một âm tiết, tổng thời gian thu liên tục kéo dài trong 244000ms (tức 244s).

Bước đầu, chúng tôi đã tiến hành ghi âm cho ba giọng: một giọng nam, một giọng nữ và một giọng trẻ em. Thời gian thu mỗi bộ 976 âm tiết liên tục là 20 phút (tính cả thời gian nghỉ giữa các âm tiết). Tổng dung lượng của 1015 âm tiết là 10MB cho mỗi giọng. Đây là cơ sở dữ liệu chúng tôi xây dựng để phục vụ cho mục đích nghiên cứu. Với các ứng dụng thực tế, sau khi tách lấy đơn vị âm đầu hoặc đơn vị âm cuối dùng cho tổng hợp, phần còn lại sẽ được cắt bỏ. Khi đó dung lượng sẽ giảm chỉ còn khoảng 5,8MB. Theo kết quả tính toán, tỷ số tín hiệu trên nhiễu của cơ sở dữ liệu đã được xây dựng trung bình là 21dB. Đây là kết quả tốt chấp nhận được.

5. Kết luận

Trên đây, chúng tôi đã trình bày phương pháp xây dựng bộ cơ sở dữ liệu phục vụ cho tổng hợp tiếng Việt chất lượng tốt. Các kết quả tổng hợp bước đầu cho thấy chất lượng tiếng nói tổng hợp là khả quan. Có thể thấy rằng, việc xây dựng cơ sở dữ liệu theo phương pháp này tạo điều kiện thuận lợi để thực hiện bộ tổng hợp tiếng Việt giọng địa phương. Ngoài ra, cơ sở dữ liệu do chúng tôi xây dựng vẫn có thể sử dụng tốt cho các ứng dụng tổng hợp khác, đặc biệt là tổng hợp tiếng Việt bằng phương pháp ghép nối.

Tài liệu tham khảo

[1] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc. Building a large Vietnamese Speech Database. Tạp chí Khoa học và Công nghệ (ISBN 0868- 3980) Vol 46/47, February 2004, pp 13-17.

[2] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan. Influence of F0 on Vietnamese syllable perception. Proc. of Interspeech 2005, Lisbon, pp 1697-1700, 2006.

[3] Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Trịnh Văn Loan, Lê Xuân Hùng. Linear F0 Contour Model for Vietnamese Tones and Vietnamese

Syllable Synthesis with TD-PSOLA. Proc. TAL 2006, La Rochelle, April 2006. [4] Lã Thế Vinh, TRịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133-137.

[5] Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219.

[6] Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki , Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”,

EuroSpeech 2003 – GENEVA.

[7] Nguyễn Hữu Quỳnh, Ngữ Pháp Tiếng Việt; Nhà xuất bản từ điển Bách Khoa, tr.11-86, HN, 2001.

PHỤ LỤC C – Bài báo 2 “TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT” Tác giả: Ts. Trịnh Văn Loan, Đinh Đồng Lưỡng

Bài báo dự kiến gửi đăng tạp chí “Công nghệ thông tin và truyền thông”.

Tóm tắt

Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu. Dựa vào đặc trưng này, chúng tôi đề xuất cách tiếp cận mới về tổng hợp tiếng Việt, trong đó yếu tố chất lượng tổng hợp thanh điệu được đưa lên hàng đầu trong quá trình xây dựng cơ sở dữ liệu cũng như tổng hợp. Hơn thế nữa, để nâng cao chất lượng tổng hợp bằng phương pháp ghép nối, chúng tôi đã đề xuất cách làm trơn các tham số tín hiệu tiếng nói tổng hợp tại vị trí ghép nối. Trong đó, phương pháp làm trơn phổ tại vị trí ghép nối do chúng tôi đề xuất là mới đối với tiếng Việt.

Từ khóa: chất lượng tốt, trơn phổ, cân bằng biên độ, cần bằng F0, cơ sở dữ liệu tiếng Việt, tổng hợp ghép nối,…

Astract

Vietnamese is a monosyllabic and tonal language. Based on these characteristics, we propose a new approach to synthesize Vietnamese in which quality of tone synthesis is mainly interest in building Vietnamese database and synthesis. Furthermore, in order to enhance quality of synthesized Vietnamese using concatenation method, we present algorithms to reduce discontinuities of parameters at concatenation point. One of them, the algorithm proposed by our to smooth spectrum is new method for Vietnamese.

Keyword: good quality synthesis of Vietnamese, smoothing spectrum, balancing energy, balancing pitch, Vietnamese databases, concatenation synthesis,…

1. Giới thiệu

Gần đây, xử lý ngôn ngữ tiếng Việt nói chung và tổng hợp tiếng Việt nói riêng được các nhà khoa học hàng đầu trong lĩnh vực công nghệ thông tin ở trong nước quan tâm. Hiện nay, đã có một số sản phẩm tổng hợp tiếng Việt như vnVoice, VietVoice, VieTTS hay VnSpeech là kết những quả nghiên cứu của

người Việt và một số người Việt Nam ở nước ngoài. Song vì nhiều lý do mà các sản phẩm chưa được sử dụng phổ biến, một trong những lý do là có quá ít các nghiên cứu cơ sở, nền tảng về tiếng Việt hoặc nếu có thì thường là những nghiên cứu ngắn hạn, đơn lẻ dưới dạng các đề tài, thiếu sự kế thừa và thiếu trang thiết bị. Chính vì thế, vấn đề nâng cao chất lượng tổng hợp tiếng Việt là một trong những mục tiêu mà ta cần hướng tới. Theo chúng tôi, để tổng hợp tiếng Việt chất lượng tốt nhất thiết phải tổng hợp được các thanh điệu sao cho càng gần với tiếng nói tự nhiên càng tốt. Nói cách khác, các tham số của tín hiệu tiếng nói được tổng hợp là xấp xỉ với các tham số tín hiệu của tiếng nói tự nhiên. Từ ý tưởng này, chúng tôi sẽ xây dựng cơ sở dữ liệu và phương pháp tổng hợp đảm bảo được mục đích đề ra là tổng hợp tiếng Việt chất lượng tốt.

2. Xây dựng cơ sở dữ liệu

Xây dựng cơ sở dữ liệu là bước rất quan trọng trong quá trình xây dựng bộ tổng hợp tiếng Việt chất lượng tốt. Để xây dựng được bộ cơ sở dữ liệu tốt, hai vấn đề lớn được chúng tôi quan tâm. Đó là cơ sở dữ liệu được xây dựng sẽ cho phép tổng hợp được các thanh điệu giống với tiếng nói tự nhiên và chất lượng tín hiệu tiếng nói ghi âm trong cơ sở dữ liệu phải tốt. Ngoài ra, chúng ta cũng cần giải quyết các vấn đề như xây dựng ngữ liệu đầy đủ thỏa mãn theo yêu cầu đề ra, chọn giọng để thu và tổ chức kịch bản thu. Theo kết quả của [1] có 1015 đơn vị âm cần thu. Trong đó, mỗi đơn vị âm được thu bởi một âm tiết và được lưu thành tập tin riêng có định dạng *.wav.

Sau thu âm, cần tách đơn vị âm trong các âm tiết ghi âm tương ứng. Việc này có ảnh hưởng trực tiếp đến chất lượng tiếng nói tổng hợp. Chính vì vậy, ngay từ khi thu âm, chúng tôi đã phải tính đến vấn đề này và đã xây dựng kịch bản chi tiết sao cho có thể dễ dàng thực hiện việc tách các đơn vị âm một cách dễ dàng nhất. Thí dụ, đối với các đơn vị âm đầu, chúng tôi chọn các âm tiết được bắt đầu bằng ”t” hoặc “n” khi thu. Sỡ dĩ chọn âm t vì thời gian phát âm t trong âm tiết là

rất ngắn, nên khi tách ta cũng dễ dàng ước lượng được phần tín hiệu của âm này trong âm tiết cần thu. Còn đối với phụ âm “n” ta rất dễ nhận ra phần tín hiệu của âm “n” nên việc tách cũng trở lên dễ dàng và đảm bảo tính chính xác cao. Hơn thế nữa, cơ sở dữ liệu xây dựng nhằm mục đích cho nghiên cứu, nên thông tin về điểm cắt của các đơn vị âm trong âm tiết ghi âm được chúng tôi xác định và lưu ở một tập tin khác được định dạng sẵn (* .pim), còn tập tin ghi âm tương ứng ban đầu vẫn được bảo toàn nguyên vẹn. Chính vì điều này mà thông tin về điểm cắt sau khi được xác định có thể điều chỉnh lại nếu cần nhằm nâng cao chất lượng tiếng nói tổng hợp.

Cơ sở dữ liệu được xây dựng gồm các đơn vị âm đầu và đơn vị âm cuối với tổng là 1015 đơn vị âm, tương ứng với 1015 tập tin ghi âm (*.wav) và 1015 tập tin dữ liệu(*.pim) chứa các thông tin như điểm cắt, thông tin F0, số các điểm cực trị, …

Một phần của tài liệu tổng hợp tiếng việt chất lượng tốt (Trang 75 - 79)

Tải bản đầy đủ (PDF)

(90 trang)