Tổng hợp tiếng việt hất lượng tốt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Tổng Hợp Tiếng Việt Chất Lượng Tốt
Tác giả	Đinh Đồng Lưỡng
Người hướng dẫn	TS. Trịnh Văn Loan
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Xử Lý Thông Tin & Truyền Thông
Thể loại	Luận Văn Thạc Sĩ Khoa Học
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	95
Dung lượng	5,94 MB

Cấu trúc

CHƯƠNG 1: KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1. Tổng quan về xử lý ngôn ngữ tiếng Việt (8)
- 1.2. Các nghiên cứu về tổng hợp tiếng Việt (9)
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NÓI 2.1. Quá trình phát âm (10)
- 2.2. Đặc tính âm học của tiếng nói (11)
  - 2.2.1. Âm hữu thanh và âm vô thanh (11)
    2.2.1.1. Âm hữu thanh (11)
    2.2.1.2. Âm vô thanh (11)
  - 2.2.2. Âm vị (12)
  - 2.2.3. Nguyên âm (12)
  - 2.2.4. Phụ âm (12)
  - 2.2.5. Các đặc tính khác (12)
    2.2.5.1. Tỷ suất thời gian (12)
    2.2.5.2. Hàm năng lượng thời gian ngắn (13)
    2.2.5.3. Tần số cơ bản (13)
    2.2.5.4. Formant (14)
- 2.3. Biểu diễn tín hiệu tiếng nói (14)
  - 2.3.1. Tín hiệu tiếng nói trên miền thời gian (15)
  - 2.3.2. Tín hiệu tiếng nói trên miền tần số (15)
  - 2.3.3. Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp (16)
- 2.4. Mô hình tạo tiếng nói (16)
- 2.5. Xử lý tín hiệu tiếng nói (22)
  - 2.5.1. Tổng hợp tiếng nói (23)
    2.5.1.1. Tổng hợp trực tiếp (23)
    2.5.1.2. Tổng hợp dựa trên mô hình (23)
  - 2.5.2. Nhận dạng tiếng nói (23)
    2.5.2.1. Nhận dạng ngữ nghĩa (23)
    2.5.2.2. Nhận dạng người nói (0)
- 2.6. Một số dặc điểm của ngữ âm tiếng Việt (0)
- 2.7. Cấu trúc âm tiết tiếng Việt (25)
  - 2.7.1. Hệ thống âm đầu (26)
  - 2.7.2. Hệ thống âm đệm (26)
  - 2.7.3. Hệ thống âm chính (26)
  - 2.7.4. Hệ thống âm cuối và thanh điệu (27)
- 3.1. Dẫn nhập (28)
- 3.2. Các phương pháp tổng hợp tiếng nói (28)
  - 3.2.1. Phương pháp mô phỏng hệ thống phát âm (28)
  - 3.2.2. Phương pháp tổng hợp Formant (29)
  - 3.2.3. Phương pháp LPC (30)
  - 3.2.4. Phương pháp ghép nối (31)
- 3.3. Mô hình tổng hợp tiếng nói từ văn bản (33)
  - 3.3.1. Tổng hợp mức cao (34)
  - 3.3.2. Tổng hợp mức thấp (36)
- 3.4. So sánh các phương pháp tổng hợp tiếng nói (37)
- 3.5. Thuật giải PSOLA trong tổng hợp tiếng nói (38)
  - 3.5.1. Phân tích PSOLA (39)
  - 3.5.2. Tổng hợp PSOLA (41)
  - 3.5.3. Giải thuật PSOLA (42)
CHƯƠNG 4: ĐỀ XUẤT VÀ XÂY DỰNG BỘ TỔNG HỢP TIẾNG VIỆT CHẤT LƯỢNG TỐT 4.1. Đề xuất phương án xây dựng bộ tổng hợp tiếng Việt chất lượng tốt (44)
- 4.2. Xây dựng cơ sở dữ liệu (45)
  - 4.2.1. Xây dựng danh sách các âm tiết cần thu (45)
  - 4.2.2. Xây dựng kịch bản thu (46)
  - 4.2.3. Thu âm (47)
  - 4.2.4. Tách lấy âm tiết (48)
  - 4.2.5. Tách lấy đơn vị âm (50)
  - 4.2.6. Xử lý các điểm cắt và lưu trữ dữ liệu (52)
- 4.3. Xử lý và phân tích văn bản (54)
  - 4.3.1. Phân tích văn bản tiếng Việt thành các âm tiết (54)
  - 4.3.2. Xác định câu trong văn bản (54)
  - 4.3.3. Phân tích câu thành các âm tiết (55)
  - 4.3.4. Tách âm tiết thành các đơn vị âm (0)
- 4.4. Tổng hợp tiếng Việt chất lượng tốt (56)
  - 4.4.1. Tổng hợp tiếng Việt bằng phương pháp ghép nối (56)
  - 4.4.2. Một số đề xuất nhằm nâng cao chất lượng tổng hợp (58)
    4.4.2.1. Cân bằng biên độ (59)
    4.4.2.2. Cân bằng tần số cơ bản F0 (60)
    4.4.2.3. Làm trơn phổ (62)
- 4.5. Đánh giá chất lượng tiếng nói tổng hợp (0)
  - 4.5.1. Xây dựng kịch bản đánh giá (66)
  - 4.5.2. Kết quả đánh giá chất lượng tiếng Việt tổng hợp (67)
- 5.1. Kết quả đạt được của luận văn (70)
- 5.2. Hạn chế và hướng phát triển (71)
TÀI LIỆU THAM KHẢO (72)

Nội dung

Trên thế giới có khá nhiều ngôn ngữ được tổng hợp thành công với chất lượng khá tốt như tiếng Anh, tiếng Pháp,… Ở Việt Nam, vấn đề xử lý tiếng nói mới được chú trọng và nghiên cứu trong

KHÁI QUÁT VỀ CÁC NGHIÊN CỨU TỔNG HỢP TIẾNG VIỆT 1.1 Tổng quan về xử lý ngôn ngữ tiếng Việt

Các nghiên cứu về tổng hợp tiếng Việt

Trong nước, nhiều tập thể đã đạt được kết quả nghiên cứu đáng chú ý về tổng hợp tiếng Việt, bao gồm Viện Công nghệ Thông tin, Khoa Công nghệ Thông tin, và Trung tâm MICA - Đại học Bách khoa Hà Nội Nhiều đề tài tốt nghiệp, thạc sĩ, và tiến sĩ tại các trường đại học cũng đã đóng góp vào lĩnh vực này Nghiên cứu về xử lý ngôn ngữ đã được theo đuổi từ lâu bởi các tổ chức như Đại học Bách khoa Hà Nội và Đại học Khoa học Tự nhiên thành phố.

Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, và Công ty Lạc Việt đã tham gia vào đề tài cấp Nhà nước “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt” trong giai đoạn 2001-2004 thuộc chương trình quốc gia KC-01 Ngoài ra, nhóm nghiên cứu tại Canada do tiến sĩ Lê Tang dẫn dắt cũng đóng góp quan trọng cho lĩnh vực này.

Vietvoice là phần mềm tổng hợp tiếng Việt, được phát triển với sự hỗ trợ của các cán bộ và nghiên cứu sinh Việt Nam tại Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST).

Xử lý ngôn ngữ và tổng hợp tiếng nói tiếng Việt là nhiệm vụ quan trọng chỉ có thể thực hiện tốt bởi người Việt Hiện tại, một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS và VnSpeech đã được phát triển bởi người Việt trong và ngoài nước, đạt được những kết quả bước đầu Tuy nhiên, mục tiêu cuối cùng vẫn là nâng cao chất lượng tổng hợp cho người dùng Sau nhiều năm nghiên cứu và tìm hiểu, chúng tôi hướng tới việc xây dựng hệ thống tổng hợp tiếng Việt chất lượng cao, đặc biệt chú trọng vào việc cải thiện chất lượng thanh điệu.

CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ TIẾNG NÓI 2.1 Quá trình phát âm

Đặc tính âm học của tiếng nói

2.2.1 Âm hữu thanh và âm vô thanh

2.2.1.1 Âm hữu thanh Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời, chúng rung động ở chế ộ dãn, khi không khí t ng lên làm thanh môn mở ra và sau ó thanh đ ă đ môn xẹp xuống do không khí chạy qua

Dây thanh tạo ra sóng âm có dạng tuần hoàn hoặc gần như tuần hoàn, ảnh hưởng đến âm thanh phát ra Phổ của âm hữu thanh chứa nhiều thành phần hài, tương ứng với các bội số của tần số cộng hưởng, được gọi là tần số cơ bản (pitch).

Âm vô thanh được tạo ra khi dây thanh không cộng hưởng, bao gồm hai loại cơ bản là âm xát và âm tắc Âm xát, như âm "s", hình thành khi có sự co thắt tại một số điểm trong đường đi của âm thanh, khiến không khí qua điểm co thắt tạo ra chuyển động hỗn độn giống như nhiễu ngẫu nhiên Thông thường, điểm co thắt xảy ra gần miệng, do đó sự cộng hưởng của tuyến âm ít ảnh hưởng đến đặc tính của âm xát Ngược lại, âm tắc, ví dụ như âm "p", được hình thành khi tuyến âm đóng lại tại một số điểm, làm tăng áp suất không khí và giải phóng đột ngột, tạo ra kích thích nhất thời Kích thích này có thể xảy ra với hoặc không có sự cộng hưởng của dây thanh, tương ứng với âm tắc hữu thanh hoặc vô thanh.

Tín hiệu tiếng nói là biểu hiện tự nhiên của thông tin ngôn ngữ, được cấu thành từ các âm vị khác nhau Âm vị là đơn vị nhỏ nhất trong ngôn ngữ, với số lượng âm vị thường dưới 50, tùy thuộc vào từng ngôn ngữ cụ thể Các âm vị được phân chia thành hai loại chính: nguyên âm và phụ âm.

Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được đẩy lên qua thanh môn Khoang miệng được tạo lập thành nhiều hình dạng khác nhau, tạo thành các nguyên âm riêng biệt Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ, tạo nên sự đa dạng trong cách phát âm và phân biệt các ngôn ngữ khác nhau.

Phụ âm được hình thành từ dòng khí hỗn loạn phát ra gần các điểm co thắt của đường dẫn âm thanh Tính chất hữu thanh hay vô thanh của phụ âm phụ thuộc vào sự dao động của dây thanh, tạo ra cộng hưởng Dòng không khí tại vòm miệng tạo ra phụ âm tắc, trong khi phụ âm xát được phát ra từ vị trí co thắt lớn nhất.

Trong giao tiếp, thời gian nói và thời gian nghỉ thường xuyên đan xen Tỷ lệ phần trăm thời gian nói so với tổng thời gian nói và nghỉ được gọi là tỷ suất thời gian Giá trị này thay đổi tùy thuộc vào tốc độ nói, từ đó cho phép phân loại thành các kiểu nói nhanh, nói chậm hoặc nói bình thường.

2.2.5.2 Hàm năng lượng thời gian ngắn

Hàm năng lượng thời gian ngắn của tiếng nói được xác định bằng cách chia tín hiệu thành nhiều khung, mỗi khung bao gồm một mẫu Các khung này sau đó được xử lý thông qua một cửa sổ với dạng hàm cụ thể.

Hàm năng lượng ngắn tại mẫu thứ đưm ợc tính theo công thức sau:

Có ba loại cửa sổ phổ biến được sử dụng trong phân tích tín hiệu âm thanh: cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật Trong phân tích hàm năng lượng thời gian ngắn, âm thanh hữu thanh thường có năng lượng lớn hơn so với âm thanh vô thanh.

Dạng sóng của tiếng nói bao gồm hai phần chính: phần gần giống nhiễu với biên độ biến đổi ngẫu nhiên và phần có tính chu kỳ với các tín hiệu lặp lại gần như tuần hoàn Phần tín hiệu chu kỳ chứa các thành phần tần số có dạng điều hòa, trong đó tần số thấp nhất được gọi là tần số cơ bản, tương ứng với tần số dao động của dây thanh Tần số cơ bản này có sự khác biệt giữa các người nói khác nhau, và dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và độ tuổi.

Bảng 2.1: Giá trị tần số F0 phụ thuộc người nói Giá trị tần số cơ bản Ng ời nói ư

Trong tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất trong một khoảng tần số nhất định được gọi là formant Formant không chỉ được xác định bởi tần số mà còn bởi biên độ và dải thông Về mặt vật lý, các formant tương ứng với các tần số cộng hưởng của tuyến âm Trong xử lý và tổng hợp tiếng nói, việc xác định các tham số formant cho từng âm vị là rất quan trọng, do đó, việc đánh giá và ước lượng các formant trở nên cần thiết.

Tần số formant của âm thanh phụ thuộc vào giới tính người nói và các âm vị liên quan Nó cũng bị ảnh hưởng bởi các âm vị trước và sau đó Cấu trúc tự nhiên của tần số formant có mối liên hệ chặt chẽ với hình dạng và kích thước của tuyến âm Trong phổ tín hiệu tiếng nói, thường có khoảng 5 formant, nhưng chỉ 3 formant đầu tiên có ảnh hưởng quan trọng đến các đặc tính của âm vị, trong khi các formant còn lại có ảnh hưởng rất ít.

Tần số formant đặc trưng cho các nguyên âm biến đổi tùy thuộc vào người nói trong điều kiện phát âm cụ thể Mặc dù phạm vi tần số formant của mỗi nguyên âm có thể chồng lấp lên nhau, nhưng vị trí giữa các formant vẫn không đổi do sự xê dịch của chúng diễn ra song song.

Biểu diễn tín hiệu tiếng nói

Tín hiệu có thể được biểu diễn trên miền thời gian hoặc miền tần số, hoặc kết hợp cả hai Trong miền thời gian, tín hiệu tiếng nói được coi là ổn định trong khoảng thời gian ngắn (5-100ms), nhưng lại không ổn định khi xét trong khoảng thời gian dài hơn (0,5s) do sự thay đổi âm thanh Để phân tích tín hiệu tiếng nói và xác định các đặc trưng riêng cho từng âm, cần có các phương pháp biểu diễn tín hiệu hiệu quả.

2.3.1 Tín hiệu tiếng nói trên miền thời gian

Hình 2.2 – Biểu diễn tín hiệu tiếng nói trên miền thời gian

Trong miền thời gian, tín hiệu tiếng nói được thể hiện qua đồ thị biên độ tại các thời điểm khác nhau Mặc dù trong tự nhiên tín hiệu này là liên tục, nhưng khi được xử lý trong máy tính, tín hiệu tiếng nói đã được số hóa, dẫn đến việc nó trở thành rời rạc cả về mặt thời gian lẫn tần số.

2.3.2 Tín hiệu tiếng nói trên miền tần số

Tín hiệu tiếng nói không chỉ bao gồm một tần số duy nhất mà là sự kết hợp của nhiều tần số khác nhau, với tần số cao nhất có thể vượt quá 10 kHz Mỗi thành phần tần số này có mức độ tham gia khác nhau Việc biểu diễn tín hiệu tiếng nói trong miền thời gian không đủ thông tin để phân tích các thành phần tần số, vì vậy cần sử dụng dạng biểu diễn trong miền tần số, hay còn gọi là phổ tín hiệu.

Ví dụ về phổ tín hiệu tiếng nói cho trên hình 2.3

Hình 2.3 – Biểu diễn tín hiệu tiếng nói trên miền tần số 2.3.3 Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp

Trong nghiên cứu tiếng nói, việc biểu diễn tín hiệu nhằm thu thập thông tin là rất quan trọng Một trong những phương pháp phổ biến là biểu diễn tín hiệu trên miền kết hợp thời gian và tần số Phương pháp này cho phép biểu diễn tín hiệu trên miền tần số thông qua các đoạn tín hiệu ổn định trong khoảng thời gian ngắn Các giá trị biên độ được thể hiện bằng màu sắc, giúp dễ dàng nhận diện các đặc điểm của tín hiệu Hình 2.3 minh họa cho phương pháp biểu diễn này.

Mô hình tạo tiếng nói

Để đơn giản hóa quá trình phân tích và nghiên cứu bộ máy phát âm, người ta phân chia nó thành hai phần chính: nguồn âm và hệ thống áp ứng.

• Hệ thống đáp ứng bao gồm thanh môn, tuyến âm, môi và mũi Việc mô hình hoá này sử dụng hàm truyền ạt trong biến đ đổi Z

Âm hữu thanh phát ra từ nguồn âm có dạng sóng tuần hoàn đặc trưng, được mô phỏng bởi phản ứng của bộ lọc thông thấp với hai điểm cực thực và tần số cắt khoảng 100 Hz.

Hình 2.5 – Mô hình hoá nguồn âm đối với âm hữu thanh

Trong ó đ α β, là các hằng số đặc trưng cho nguồn âm với α

Ngày đăng: 22/01/2024, 17:09

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. Lê Trung Dũng, “Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng Việt dùng TD-PSOLA” , Luận văn Cao học, Đại học Bách khoa, năm 2007

Sách, tạp chí

Tiêu đề:	Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiếng Việt dùng TD"-PSOLA

[2]. Nguyễn Hữu Quỳnh, “Ngữ Pháp Tiếng Việt” Nhà xuất bản từ điển Bách khoa, tr.11 86, HN, 2001. -

Sách, tạp chí

Tiêu đề:	Ngữ Pháp Tiếng Việt
Nhà XB:	Nhà xuất bản từ điển Bách khoa

[3]. Lã Thế Vinh “Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760” Luận văn cao học, Đại học Bách khoa, năm 2007

Sách, tạp chí

Tiêu đề:	Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T"-Engine SH7760

[5]. Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan. “Influence of F0 on Vietnamese syllable perception”. Proc. of Interspeech 2005, Lisbon, pp 1697 1700, 2006. -

Sách, tạp chí

Tiêu đề:	Influence of F0 on Vietnamese syllable perception
Tác giả:	Trần Đỗ Đạt, Eric Castelli, Serignat Jean-Francois, Lê Xuân Hùng, Trịnh Văn Loan
Nhà XB:	Proc. of Interspeech 2005
Năm:	2006

[6]. Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc, “Building a large Vietnamese Speech Database”. Tạp chí Khoa học và Công nghệ (ISBN 0868- 3980) Vol 46/47, February 2004, pp 13-17

Sách, tạp chí

Tiêu đề:	Building a large Vietnamese Speech Database
Tác giả:	Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc
Nhà XB:	Tạp chí Khoa học và Công nghệ
Năm:	2004

[9]. Hansjửrg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Mai Chi Luong, “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, EuroSpeech 2003 – GENEVA

Sách, tạp chí

Tiêu đề:	Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese
Tác giả:	Hansjửrg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Mai Chi Luong
Nhà XB:	EuroSpeech
Năm:	2003

[11]. Lã Thế Vinh, Trịnh Văn Loan, “Vietnamese Recognition and Synthesis with T-engine Embedded System”, Proceeding of the 2 nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp133- 137

Sách, tạp chí

Tiêu đề:	Vietnamese Recognition and Synthesis with T-engine Embedded System

[4]. Baris Bozkurt, Thierry Dutoit, Romain Prudon, Christophe D’Alessandro, Vincent , “Improving quality of mbrola synthesis for non-uniform units synthesis“, Park, B 7000 Mons, Belgium. -

Khác

[10]. Nguyen Thanh Kien, Nguyen Duc Thang, Le Thai Hoa, Trinh Van Loan,”DSP-based Embedded System for Text to Speech Synthesis of Vietnamese”, Proceeding of the 2 nd Asia Pacific International Conference on Information Science and Technology, Hanoi, December 2007 pp 215-219

Khác

[13]. Xuedong Huang, Alejandro Acero, Hsiao Wuen Hon,” PH Spoken - Language Processing - A Guide to Theory, Algorithm and System Developmen”October 2000

Khác