Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản và tiếng nói để có t

Trang 1

NGUYỄN HỒNG QUÂN

PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP

TIẾNG NÓI TIẾNG VIỆT

LUẬN VĂN THẠC SỸ

Người hướng dẫn: PGS.TS Lương Chi Mai

Hà nội - 2006

Trang 2

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ 5

LỜI NÓI ĐẦU 6

Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 8

1.1 Modul NLP 10

1.1.1 Phân tích văn bản 10

1.1.2 Modul LTS 10

1.1.3 Phát sinh ngôn điệu 11

1.2 Modul DSP 11

1.2.1 Tổng hợp theo cấu âm 12

1.2.2 Tổng hợp tiếng nói theo quy luật Formant 14

1.2.3 Tổng hợp xích chuỗi 15

1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC 18

1.3 Các ứng dụng của TTS 22

Chương 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT 24

2.1 Ngữ âm học 24

2.1.1 Cơ sở vật lí 24

2.1.2 Các đặc trưng về âm tiết tiếng Việt 24

2.1.3 Âm vị 26

2.1.4 Hiện tượng biến đổi ngữ âm 30

2.2 Đặc điểm của từ 31

2.2.1 Định nghĩa từ 31

2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt 32

2.2.3 Phương thức cấu tạo từ 32

2.3 Chữ viết và chính tả tiếng Việt 33

Chương 3 PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 39

3.1 Các modul 39

3.2 Từ điển 41

3.3 Xác định cấu trúc văn bản 41

3.3.1 Các tiêu đề của chương, mục 42

3.3.2 Danh sách 43

3.3.3 Các đoạn 44

3.3.4 Câu 45

3.3.5 Email 45

3.3.6 Trang Web 46

3.3.7 Hoạt động hội thoại 46

3.4 Chuẩn hoá văn bản 46

Trang 3

3.4.1 Chuẩn hoá y-i 47

3.4.2 Chuẩn hoá dấu thanh 47

3.4.5 Chữ viết tắt và các kí hiệu khác 48

3.4.4 Các con số 48

3.4.5 Ngày tháng 49

3.4.6 Thời gian 49

3.5 Phân tích ngôn ngữ 50

3.5.1 Tách từ 50

3.5.2 Gán nhãn từ loại 50

3.5.3 Phân tích cú pháp 51

3.5.4 Phân tích ngữ nghĩa 52

Chương 4 BÀI TOÁN TÁCH TỪ 53

4.1 Các khó khăn trong nhận dạng từ tiếng Việt 53

4.2 Một số phương pháp tách từ 54

4.2.1 Dựa theo luật 54

4.2.2 Dùng thống kê 55

4.2.3 Các cách khác 55

4.3 Đề xuất mới 58

4.3.1 Từ điển 58

4.3.2 Các giả thiết 59

4.3.3 Giải pháp tách từ 63

4.4 Xử lí tên riêng 66

4.4.1 Tên người, tên địa lí 66

4.4.2 Tên tổ chức 67

4.4.3 Các tên riêng khác 67

4.5 Tách đoạn – Tách câu 68

4.6 Nhận xét đánh giá 68

4.6.1 Tập ngữ liệu thô 68

4.6.2 Nhận xét 70

Chương 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ 73

5.1 Chương trình thử nghiệm 73

5.1.1 Yêu cầu về cấu hình hệ thống 73

5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu 73

5.1.3 Giao diện chương trình 73

5.2 Cấu trúc chương trình 74

5.3 Các kết quả thực nghiệm 75

5.3.1 Kết quả phân tích 75

5.3.2 Đánh giá tốc độ thực hiện 77

Kết luận và định hướng nghiên cứu 79

Tài liệu tham khảo 80

Trang 4

DANH MỤC TỪ VIẾT TẮT

5 LTS Letter To Sound – Biến đổi chữ viết thành dạng phát âm được

Trang 5

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1 Hệ thống âm đầu 27

Bảng 2.2 Hệ thống âm chính 29

Bảng 4.1: Kết quả đánh giá phân tách từ 70

Bảng 5.1 Kết quả đánh giá phân tích văn bản 75

Bảng 5.1 Kết quả tốc độ thực hiện 77

DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS 8

Hình 1.2 Modul NLP của một hệ thống TTS 9

Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật 14

Hình 1.4 Mô hình tuyến tính tạo tiếng nói 15

Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi 16

Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói 19

Hình 1.7 Mô hình tổng hợp LPC 20

Hình 2.1- Cấu trúc âm tiết 25

Hình 3.1 Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm 39

Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 43

Hình 3.3 Ví dụ về một danh sách được đánh dấu 43

Hình 3.4 Ví dụ về một đánh dấu câu 44

Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML 46

Hình 3.6: Phân tích cú pháp 51

Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ 59

Hình 4.2 Thuật toán tách từ 65

Hình 5 1: Giao diện chính 73

Hình 5.2 Mô hình ứng dụng 74

Trang 6

LỜI NÓI ĐẦU

Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận dạng tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật đã được hoàn thiện Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản

và tiếng nói để có thể đạt được những kết quả so sánh được với các ngôn ngữ khác

là hoàn toàn hiện thực Tổng hợp tiếng nói từ văn bản có chức năng ngược với nhận dạng tiếng nói Nó có rất nhiều ứng dụng quan trọng trong khoa học công nghệ và đời sống Một hệ tổng hợp tiếng nói bao gồm hai quá trình xử lí chính là : Xử lí ngôn ngữ tự nhiên và Xử lí tín hiệu số Trong đó phân tích văn bản là một giai đoạn quan trọng của quá trình xử lí ngôn ngữ tự nhiên, nó bao gồm các nhiệm vụ chính sau:

tự nhiên Cho đến nay đã có khá nhiều phương pháp tách từ được đưa ra : các phương pháp dựa theo luật, các phương pháp theo mô hình xác suất thống kê, các phương pháp lai Tuy nhiên đối với từng ngôn ngữ cụ thể và phụ thuộc vào đặc điểm của ngôn ngữ mà mỗi phương pháp có kết quả thực hiện với độ chính xác khác nhau

Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc phân tách từ tiếng Việt, đó là cường độ liên kết từ Qua một số khảo sát thực nghiệm, kết quả thu về là đáng khích lệ

Nội dung của luận văn được trình bày cụ thể trong 5 chương

Chương 1: Tổng quan về tổng hợp tiếng nói

Chương 2: Cơ sở ngôn ngữ tiếng Việt

Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

Chương 4 : Bài toán tách từ tiếng Việt

Trang 7

Chương 5: Cài đặt và đánh giá thử nghiệm

Những công việc được thực hiện trong luận văn này chưa phải là nhiều Phần thực hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên quan đến phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung

Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã tận tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu hoàn thành luận văn này

Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên, chia sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này

Hà Nội, ngày 2 tháng 1 năm 2006

Nguyễn Hồng Quân

Trang 8

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

- Các hình thức ngôn ngữ

- Các mô tơ suy diễn

- Các suy luận logic

TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

Tiếng nói là phương tiện truyền thông chính giữa con người với nhau Một hệ thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính

có khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về mặt ngữ âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra

Dữ liệu về tiếng nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và được lưu giữ trước ở trong bộ nhớ Văn bản có thể được nhập vào máy tính từ bàn phím, hoặc bằng hệ thống nhận dạng chữ viết, hoặc nhận được từ một CSDL nào đó hay tải về từ Internet[14]

Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng tiếng nói Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc làm đơn giản Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ phổ biến nhất trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu các tên riêng, các từ viết tắt vẫn phát sinh hàng ngày Mặt khác để tiếng nói được sinh ra một cách tự nhiên thì ngữ điệu của câu cần được kết hợp một cách hợp lý

Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14] Giống như việc đọc của con người, hệ thống bao gồm:

 Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn

bản đầu vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ

Trang 9

điệu và nhịp điệu mong muốn (thường được gọi là ngôn điệu)

 Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở

dạng ký hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra Các thuật toán và các hình thức được áp dụng để xử lí thường được dựa vào các tri thức của các mô hình ngữ âm và toán học để phát triển Tính chất quan trọng nhất của hệ thống tổng hợp tiếng nói là chất lượng tiếng nói đầu ra Các tiếp cận hiện nay thường bỏ qua một số bước xử lí nào đó do bị hạn chế về vấn đề thời gian thực và tài nguyên của hệ thống Điều này dẫn đến chất lượng bị hạn chế trong cách phát âm cũng như tính biểu cảm, ít nhất là so với con người

1.1 Modul NLP

Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ TTS [14]

HỆ THỐNG

XỬ

LÝ NGÔN NGỮ

TỰ NHIÊN

Bộ tiền xử lý

Bộ phân tích hình thái

Bộ phân tích ngữ cảnh

Bộ phân tích cú pháp, ngôn điệu

Hình 1.2 Modul NLP của một hệ thống TTS

Trang 10

1.1.1 Phân tích văn bản

Khối phân tích văn bản bao gồm các thành phần sau:

Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách

các từ có khả năng xử lí được Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt , các thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết Một vấn

đề quan trọng mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng của các dấu chấm câu (bao gồm cả trường hợp chuẩn khi hết câu) Ở một vài phạm

vi có có thể được giải quyết nhờ các văn phạm chính quy cơ bản

Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ

loại cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng Những từ ghép, từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị

cơ bản (hình thái) nhờ các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và phụ tố Module này là cần thiết cho xử lí các ngôn ngữ có hình thái

Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong

ngữ cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả thuyết có thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận Vấn đề này này có thể được giải quyết theo :

- Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo

dạng otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một phạm vi nhỏ hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra các luật viết theo ngữ cảnh

- Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia ngôn ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện với các kỹ thuật cây hồi quy và phân loại (CART)

Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không

gian tìm kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng thành mệnh đề và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới thể hiện hiện ngôn điệu thực sự của nó

1.1.2 Module LTS:

Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản

Trang 11

nhận được Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu , đây là một module quan trọng vì có nhiều phiên âm không được đề cập đến trong

từ điển Tuy nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục trong từ diển được giảm bớt rất nhiều

1.1.3 Phát sinh ngôn điệu

Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng

nói liên quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ dài của âm tiết Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp bằng tiếng nói Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh Ví dụ, có các sự kiện nào đó về cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc nhóm cấu trúc cú pháp có chứa âm tiết đó một cách không trực tiếp sẽ được làm nổi bật như một yếu tố quan trọng hay yếu tố mới chuyển tải ý nghĩa của lời nói Sự có mặt của dấu trọng âm có thể có những hiệu quả khác nhau như sự tương phản, phụ thuộc vào vị trí mà trọng âm xuất hiện hoặc ngữ cảnh ngữ nghĩa của lời nói

Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các nhóm âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi lớn hơn Một số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết được liên kết với nhau theo vài cách khác nhau Hiệu quả của việc nhóm như vậy có tính chất phân cấp, mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài, cao độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật

về ngữ điệu của một ngôn ngữ Đó là việc xác định vị trí trọng âm của từ được phát

âm Lên xuống giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v v

và xác định các biến thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát

âm trong một ngữ lưu liên tục Bước này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nó hoặc đọc một văn bản Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho bộ tổng hợp tiếng nói

1.2 Module DSP

Theo hình 1.1 thì giao diện giữa hai khối NLP và DSP được định nghĩa rõ ràng và việc nghiên cứu về hai quá trình có thể được thực hiện riêng rẽ, độc lập với

Trang 12

nhau Bây giờ ta giả thiết rằng thông tin chất lượng cao nhất đã được cung cấp tại đầu vào của bộ phẩn xử lí tín hiệu số (DSP) giống như những gì con người đọc cảm nhận được Phần DSP trên phương diện nào đó phải xét đến các hạn chế phát âm, bởi vì ta đã biết sự biến đổi ngữ âm (phần động, chuyển tiếp giữa các âm) quan trọng đối với việc hiểu lời nói hơn là phần tĩnh của lời nói Tổng hợp tiếng nói có thể đạt được dựa trên cơ bản theo hai phương pháp sau :

- Phương pháp thứ nhất được thực hiện dựa trên một loạt các quy tắc mô tả một cách chính thức các âm vị, sự ảnh hưởng lẫn nhau giữa các âm vị khi phát

ra một âm

- Phương pháp thức hai là lưu giữ các mẫu âm vị, biến đổi âm vị và đồng thời phát âm vào CSDL tiếng nói và sử dụng chúng như chúng vốn có là các đơn vị

âm học cơ bản (ở vị trí của âm vị)

Hai hệ thống TTS đã xuất hiện từ hai phương pháp trên Cả hai phương pháp này nhanh chóng trở thành hai triết lí tổng hợp với sự khác biệt thể hiện trong nội dung và mục tiêu của chúng Đó là tổng hợp bằng quy luật và tổng hợp xích chuỗi

Một số các phương pháp tổng hợp tiếng nói hiện nay

1.2.1 Tổng hợp theo cấu âm

Tổng hợp theo cấu âm sử dụng mô hình mô phỏng sinh học Trong mô hình này tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây danh Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc nhiều loạn không khí) và trở thành kháng đầu vào và thay đổi theo thời gian của ống thanh Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống

Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số hóa được hình khối ống thanh và ống mũi, phải lựa chọn được mô hình được mô hình để mô tả sự lan truyền của sóng ống thanh và mô hình hóa nguồn âm (chấn động dây thành và dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh Phương pháp này hiện nay chỉ mới hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh học chưa có thông tin đầy đủ để mô phỏng theo cấu âm

Lan truyền sóng trong ống thanh:

Trang 13

Trong nhiều cách tính đặc trưng truyền song trong ống thanh thì phương pháp

ma trận chuỗi được áp dụng nhiều nhất Ma trận chuỗi, còn được gọi là ma trận ABCD, thể hiện ống thanh ở miền tần số Với bất kỳ phần nào của ống thanh hay ống mũi ta có hệ phương trình truyền sóng như sau:

out

U

P K U

P x D C

B A U

Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh Tính các phần tử của K rất đơn giản nếu ống có mặt cắt không đổi

Nguyên lý tổng hợp cấu âm:

Thuật toán tổng hợp cấu âm theo mô hình cấu âm gồm các bước sau: Từ đặc

tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi Sau đó tính hàm truyền và trở khánh đầu vào từ các phần tử A,B,C,D của ma trận Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian Sau đó tính áp suất p=ps-p1 Giá trị áp suất này tác động vào

bộ phận cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói

Như vậy ngoài việc mô hình hóa cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật là luật ngôn ngữ và luật vật lí Luật vật lí mô tả như

ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một âm vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này với cơ quan khác Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan, nên trong cùng một thời điểm cơ quan phát âm cơ thể được xác định chp âm vị khác Theo cách này thì tổng hợp tiếng nói theo cấu âm có thể tạo ta các gải pháp hoàn hảo cho các trường hợp ngữ

âm khó như cụm phụ âm, nguyên âm ba Hiện nay chúng ta chưa có kiến thức đầy

đủ về từng chi tiết của hai loại luật nói trên Mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói được tổng hợp theo cấu âm còn rất thấp Phương pháp

Trang 14

tổng hợp cấu âm hiện này mới chỉ dừng ở trong phòng thí nghiệm hay các sản phẩm mẫu mà chưa được ứng dụng thực tế Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn các giải pháp lâu dài và hoàn thiện nhất để tổng hợp tiếng nói giống như tiếng nói tự nhiên của con người

1.2.2 Tổng hợp tiếng nói theo quy luật Formant

Quy trình xây dựng tổng hợp tiếng nói theo luật Formant được trình bày trên hình 1.3 Bao gồm hai quá trình riêng biệt là :

- Phân tích âm thanh tiếng nói để tìm ra quy luật

- Tổng hợp lại tiếng nói dựa vào các quy luật đã tìm thấy

Phân tích tìm quy luật

Quá trình phân ích được tiến hành trên CSDL tiếng nói tự nhiên, chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm-nguyên âm) hay C-V-C (phụ âm-nguyên âm-phụ âm) của nhiều giọng nói CSDL này tốt nhất phải được bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ

Thuật toán tiên đoán tuyến tính LPC được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0của tín hiệu tiếng nói Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng Đó là các giá trị đích để tạo ra một

Ngữ âm

Âm vị và ngôn điệu

Tiếng nói Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật

Trang 15

âm vị Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn

là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại

(C-V và (C-V-C) Tần số formant chuyển tiếp từ âm vị này sang âm vị kia được mô hình hóa và tạo thành các quy luật tổng hợp cho kỹ thuật tổng hợp formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác Hệ thống quy luật gồm có:

- Luật để xác định vị trí đích của các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó

- Luật để làm trơn các formant đích

- Luật để chuyển đổi các hàm thời gian thành dạng sóng âm thanh

Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với các thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo ra các âm đoạn tính

Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh Vì vậy bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn

A(v)

Mô hình xung thanh quản G(z)

A(n)

Mô hình ống thanh V(z)

Mô hình tán xạ V(z)

Hình 1.4 Mô hình tuyến tính tạo tiếng nói

Trang 16

Nghiên cứu về tổng hợp tiếng nói và cách xích chuỗi các đơn vị âm được khởi đầu từ những năm đầu 50 thế kỉ trước Harris trong công trình tiên phong để “xây các khối tiếng nói” đã đề xuất tổng hợp tiếng nói bằng cách xích chuỗi các đơn vị

âm cơ sở Nguyên tắc này vẫn còn tạo ra nền tảng cho các hệ thống xích chuỗi hiện nay

Hệ thống tổng hợp xích chuỗi hoàn chỉnh đầu tiên do Josph Olive phát triển

và được trình diễn năm 1997 Phương pháp xích chuỗi nhằm vượt qua sự không thoả đáng của các hệ thống sử dụng quy luật bằng cách loại bỏ sự cần thiết của một

số quy luật, thậm chí là tất cả các quy luật Để thực hiện điều này, cách hiệu quả nhất là lưu trữ trong kho dữ liệu không phải hệ thống quy luật mô tả các đơn vị hay các quy luật của các tham số để tạo ra đơn vị âm mà trực tiếp từng đoạn âm của âm thanh tiếng nói

Tạo âm thanh

Phân âm đoạn

Phân tích tín hiệu

Mã hoá

Giải mã

Tạo danh sách âm đoạn

Trang 17

Phương pháp tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính So sánh về chất lượng trong các phương pháp

đã nói trên thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo ra tiếng nói không chỉ để nghe mà còn đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Phần lớn các hệ thống TTS chất lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi

Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL Các đơn vị

âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hóa bằng một phương pháp mã hóa tiếng nói nào đó tạo thành các mẫu cho một đơn vị

âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp

Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,

hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau Thông thường một hệ thống tổng hợp xích chuỗi có ít nhất một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số

và cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau (chúng chỉ được trích ra từ tín hiệu tiếng nói trong các ngữ cảnh khác nhau) cho nên khi tổng hợp, hệ thống tổng hợp xích chuỗi phải thực hiện hai công việc

- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn

- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để bảo đảm chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên

Giả sử hai âm đoạn được xích chuỗi là L và R Chúng ta xem xét tập hợp P của các tham số {p1, p2,…,pn}, các giá trị PL0

là ở điểm cuối cùng của đoạn L và PR0

là điểm đầu tiên của đoạn R Làm trơn được thực hiện tuyến tính phân bố đều khoảng cách (PL0

-PR0) cho số ML vectơ {PL-(ML-1), ,PL-1,PL0} của đoạn L và MRvectơ { PL0

,PL1 ,…,PL(ML-1)} Với P’ là tham số sau khi làm trơn thì nội suy được bằng công thức tính như sau:

Trang 18

L L R L L

M

i M P P P

P

2

)(

'1 1 0  0 

R

L R L j R j

L

M

M P P P

P

2

)1()(

- Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được mô tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng đến chất lượng cảm thụ của âm đó

- Thuật toán xích chuỗi mà mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được xích chuỗi

Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện mã hóa tham số tiếng nói Với các thể hiện bằng tham số, đặc trưng phổ của ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm đơn vị cơ bản Phương pháp mã hóa tham số đặc trưng nhất là mã hóa tiên đoán tuyến tính LPC và các biến thể của chúng

1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên toán tuyến tính LPC

Lý thuyết mã tiên đoán tuyến tính LPC đã được áp dụng rất thành công vào các kỹ thuật xử lí tiếng nói từ nhiều năm nay không chỉ trong phân tích nhận dạng

mà còn cả trong tổng hợp tiếng nói

Mô hình LPC

Ý tưởng cơ bản của mô hình LPC là một mẫu tiếng nói s(n) ở thời điểm n, được xấp xỉ bằng tổng tuyến tính có trọng số của p mẫu trước nó với công thức:

Trang 19

s(n)  a 1 s(n-1 )+ a 2 s(n-2)+…+a p s(n-p) (1.3) Trong dó a1, a2,…, ap được giả thiết là các hằng số trong khung thời gian tiến hành phân tích và còn được gọi là hệ số tiên đoán tuyến tính LPC

Thay đổi công thức nằy bằng cách thêm nguồn kích Gu(n) ,ta có:

n

s

1

)()()

z

S

1

)()()

Và hàm truyền

) (

1 1

1 )

(

) ( )

(

1

z A z a z

GU

z S z

i

i i

Từ công thức này có thể xây dựng mô hình tiên đoan tuyến tính như sau :

Theo mô hình này, nguồn kích u(n) được khuyếch đại với hệ số G là đầu vào tác động vào một hệ thống lọc toàn cục có hàm truyền

)(

1)

(

z A z

Sẽ tạo ra tiếng nói

Nguồn kích là bộ tạo tần số cơ bản cho các âm hữu thanh hay tạo nhiều ngẫu nhiên cho âm vô thanh Từ đo, mô hình tổng hợp tiếng nói dựa trên LPC được thể hiện như hình 1.8 Các tham số thay đổi chậm tho thời gian để điều khiển mô hình bao gồm một bit để phân biệt âm hữu thanh/vô thanh ; chu kỳ cao độ tần số cơ bản

F0 cho âm hữu thanh, hệ số khuyếch đại G và các hệ số tiên đoan tuyến tính của bộ

Trang 20

lọc thay đổi theo thời gian {ap} Quá trình LPC thực tế là để tính các hệ số của mô hình này

Xác định hệ số LPC

Dựa trên cơ sở mô hình tổng hợp LPC, ta có mối quan hệ giữa s(n) và u(n) như sau :

)()()

(

1

n Gu k n s a n

s

p k

s

1

) (

n s n s n s

n

e

1

)()

()(

~)()

S

z E z A

1

1)(

)()

đổi theo thời gian, hệ số tiên đoán ở thời điểm n phải tính từ các đoạn âm xung

quanh của thời điểm đó Chính vì vậy hướng tiếp cận là tìm các tập hế số tiên đoán

Bộ tạo xung

Bộ lọc số thay đổi theo thời gian Tham số ống thanh

Vô thanh Hữu thanh

G

F0

Hình 1.7 Mô hình tổng hợp LPC

Trang 21

sao cho sai số trung bình bình phương ở khung thời gian đó là nhỏ nhất

Ta định nghĩa tiếng nói thời gian ngắn và sai số ở thời điểm n là :

)()

(

)()

(

m n e

n

e

m n s m

)()

(

p k n k n

()

0

i R m s i m

)()(

)()

()

i

R

1

)(ˆ)

Trang 22

Hay dưới dạng ma trận :   R i R i k ai

) ( )

Vì là các hàm tự tương quan nên ta có R(i-k)=r(k-i) Ma trận [R(i-k)] là đối xứng, tất cả các phần từ của trục đối xứng bằng nhau Đó chính là dạng của ma trận Toplitz Do vậy tính các hệ số tiên đóa trở nên đơn giản hơn nhiêu Đây là phương pháp tự tương quan để tính hệ số tiên đoán tuyến tính

Tổng hợp tiên đoán tuyến tính

Quá trình tổng hợp tiên đoán tuyến tính được thực hiện theo hình 1.8 phần trên Một vấn đề cần phải giải quyết khi tổng hợp lại tín hiệu tiếng nói là xác định

hệ số khuyếch đại G sao cho biên độ tín hiệu tổng hợp có mức gần như biên độ tín

hiệu nguyên thủ Có thể tính được G từ giá trị bình phương của e(m) trong khoảng

m=0 và m=M theo công thức sau :

n M

E

1

)()

0

Phương pháp LPC thực hiện việc thay đổi ngôn điệu một cách trực tiếp tương đối mềm dẻo Tần số âm cơ bản là một tham số hiện cho mô hình tổng hợp LPC Việc thay đổi cao độ tần số cơ bản được thực hiện bằng cách thay đổi tần số cơ bản

F0 như mong muốn trước khi đưa vào lọc Độ dài được thay đổi bằng cách cập nhật các tham số cho bộ tổng hợp tiếng nói theo tần số nhanh hơn với tần số phân tích khi giảm độ dài và chậm hơn khi kéo dài âm đó ra

1.3 Các ứng dụng của TTS

TTS được sử dụng cho nhiều ứng dụng khác nhau Một số lĩnh vực áp dụng chính của TTS như sau [14]:

Các dịch vụ viễn thông : Các hệ thống TTS đã được sử dụng chính thức trong

ứng dụng trả lời tự động trực tuyến trên nhiều mạng viễn thống hiện đại Tiêu biểu

là dự án MIVA với các dịch vụ điện thọi kích hoạt bằng âm thanh đa ngữ trực tuyến Các hệ thống thông tín tích hợp có khả năng đọc tự động nội dung các thư điện tử, nội dung các bức fax và các thông tin trên Internet qua máy điện thoại cố

Trang 23

định và di động thông thường Truy cập thông tin, CSDL qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều

Giáo dục ngôn ngữ : Một bộ TTS chất lượng cao có thể được tích hợp với

một hệ thống học được hỗ trợ máy tính qua đó cung cấp một công cụ hữu ích để học một ngôn ngữ mới

Hỗ trợ người khuyết tật : Những người mù có thể được lợi nhiều qua các hệ

thống TTS Họ nhận được các thông tin cần thiết và nếu được phối hợp với một hệ thống quang học nhận dạng chữ viết OCR thì khả năng truy cập thông tin càng cao hơn

Sách điện tử và đồ chơi biết nói : Đây là một thị trường rộng lớn cho các

nhà sản xuất Thực tế đã có nhiều loại đồ chơi kiểu này xuất hiện

Đa phương tiện, giao tiếp người-máy : Trong một thời gian dài, sự phát triển

của các hệ thống TTS chất lượng cao là một bước cần thiết về phía trung gian thông tin giữa con người và máy tính hoàn thiện hơn Đa phương tiện là một sự chuyển dịch đầu tiên và đầy hứa hẹn theo hướng này

Trang 24

Chương 2

CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT

Đây là phần cơ sở lý thuyết quan trọng làm nền tảng cho việc phân tích ngữ

âm cũng như chính tả tiếng Việt Trên cơ sở phân tích một số đặc điểm riêng của tiếng Việt phục vụ cho việc phân tích văn bản

2.1 Ngữ âm học

2.1.1 Cơ sở vật lý

Ngôn ngữ là một hệ thống tín hiệu, khi nói vỏ vật chất của tín hiệu là âm thanh, khi viết nó được thể hiện bằng chữ Không phải chữ viết lúc nào cũng phản ảnh chính xác các âm tố tương ứng Vì vậy các âm tố được biểu diễn bằng những ký hiệu đặc biệt gọi là phiên âm

Âm thanh của tiếng nói được tạo thành nhờ bộ máy phát âm của con người bao gồm: môi, răng, lưỡi, khoang miêng, khoang mũi, yết hầu, thanh hầu, phổi Mỗi âm được phân biệt bằng các yếu tố sau:

- Độ cao (pitch): phụ thuộc vào tần số dao động Tần số càng lớn thì âm thanh

càng cao Tai người có thể ghe được trong giới hạn từ 16-20.Hz

- Độ vang (loudness): phụ thuộc vào biên độ dao động Biên độ càng lớn thì

độ vang càng to Cường độ âm thanh trong ngôn ngữ bảo đảm sự xác minh trong giao tiếp và là cơ sở để tạo thành các kiểu trọng âm khác nhau

- Độ dài (duration): là khoảng thời gian kéo dài của âm thanh

- Âm sắc: là sắc thái riêng của âm Âm nói chung là hợp thể của nhiều âm cơ

bản, trong đó âm cơ bản có tần số thấp và các họa âm có tần số bằng bội số của tần số âm cơ bản Âm sắc khác nhau do số lượng và tính chất của các họa

âm, mà tính chất của các họa âm bị tác động nhiều bởi hiện tượng cộng hưởng

2.1.2 Các đặc trưng về âm tiết tiếng Việt

Âm tiết tiếng Việt có cấu trúc chặt chẽ

Âm tiết tiếng Việt không phải là một khối không thể chia cắt được mà là một cấu trúc chặt chẽ [4] Các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu

Trang 25

tạo từ ba thành tố độc lập là : thanh điệu, phần đầu, phần sau:

Thanh điệu là thành phần có chức năng phân biệt các âm tiết với nhau về cao

độ Nó là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt Tính độc lập về mặt ngữ

âm của thanh điệu ở chô nó có đường nét và trường độ tương đối ổn định tùy thuộc vào các loại hình âm tiết

Phần đầu của âm tiết được xác định là Âm đầu, vì ở vị trí này chỉ có một âm

vị tham gia cấu tạo Phụ âm đầu là yếu tố mở đầu của âm tiết Tính chất độc lập của phụ âm đầu thể hiện ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết

Phần sau của âm tiết được gọi là phần Vần Nó có từ một đến 3 yếu tố được gọi là âm đệm, âm chính và âm cuối Âm đệm là một bán nguyên âm chiếm vị trí trung gian giữa âm đầu và phần còn lại Âm chính là một nguyên âm âm tiết tính

Âm cuối là một phụ âm hoặc bán nguyên âm cuối có vai trò kết thúc âm tiết Để đảm bảo cho tính chất cố định về trường độ của âm tiết, các yếu tố của phần sau có

sự đắp đổi cho nhau về trường độ: nếu nguyên âm dài thì phụ âm hay bán nguyên

âm cuối ngắn và ngược lại nếu nguyên âm ngắn thì âm cuối sẽ dài Các yếu tố của phần sau không có một trường độ cố định và do đó mức độ độc lập về mặt ngữ âm của chúng thấp hơn so với phụ âm mở đầu âm tiết

Hình 2.1- Cấu trúc âm tiết

Tóm lại các yếu tố của âm tiết tiếng Việt có mức độ độc lập khác nhau chia làm hai bậc [4]:

o Bậc 1 là bậc của những yếu tố kết hợp với nhau lỏng lẻo có thể tách rời nhau ra về mặt hình thái học Đó là thanh điệu, âm đầu và phần vần

o Bậc 2 là bậc của những yếu tố kết hợp với nhau khá chặt chẽ, có tính độc lập thấp Đó là các yếu tố của phần vần: âm đệm, âm chính và âm cuối

THANH ĐIỆU

ÂM ĐẦU

VẦN

Âm đệm

Âm chính

Âm cuối

Trang 26

Các yếu tố này gắn liền với nhau về mặt ngữ âm do tính chất cố định về trường độ của âm tiết và chỉ được tách ra bằng những ranh giới thuần túy

về mặt ngữ âm học

Số lượng âm tiết trên lí thuyết của tiếng Việt là 11.900, còn số lượng thực tế

là 6.100 So với một số ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3.000-5.000 Ví dụ, tiếng Trung Quốc có số lượng âm tiết theo lý thuyết là 1.620, trên thực tế là 1.255 [7] Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn và chính vì thế nên ít có hiện tượng đồng âm gây trở ngại cho việc nhận diện âm tiết

Âm tiết tiếng Việt có khả năng biểu hiện ngữ nghĩa

Trong tiếng Việt , tuyệt đại đa số các âm tiết đều có nghĩa Số lượng âm tiết tự thân mang nghĩa chiếm tuyệt đại đa số , gần như toàn bộ các âm tiết đều hoạt động như từ Ở đây mối quan hệ giữa âm và nghĩa trong âm tiết cũng chặt chẽ và thường xuyên như trong từ của các ngôn ngữ chấu Âu Điều này làm nên nét đặc trưng chủ loại hình chủ đạo của tiếng Việt [4]

Âm tiết tiết Việt có tính độc lập cao

Trong tiếng Việt, các âm tiết được phát ra hết sức rành rọt, rõ cho nên người nghe có thể nhận biết một cách dễ dàng ranh giới của chúng và số lượng âm tiết trong một câu nói [4] So với các âm tiết trong các ngôn ngữ châu Âu, âm tiết tiếng Việt có tính độc lập cao hơn hẳn (không có hiện tượng bị nhược hóa: nối âm, biến dạng âm trong lời nói)

2.1.3 Âm vị

Âm vị là đơn vị doạn tính nhỏ nhất có chức năng phân biệt nghĩa Âm vị có thể được so sánh như những viên gạch trong việc xác định mỗi ngôn ngữ Các viên gạch thường giống nhau, nhưng các âm vị về nguyên tắc phải khác nhau, ít nhất ở một đặc trưng nào đó Sự khác biệt này tạo ra khác biệt về hình thức âm thanh của hình vị và từ, tạo ra tín hiệu khác biệt đổi với sựa cảm thụ của con người Âm vị có hai chức năng cơ bản là chức năng khu biệt (vỏ âm thanh của hình vị và từ) và chức năng cấu tạo

Hệ thống âm vị của tiếng Việt

Trang 27

2.1.3.1 Hệ thống âm đầu

Tiếng Việt có tất cả 22 phụ âm làm nhiệm vụ âm đầu So với các thành phần khác như âm đệm, âm chính , âm cuối thì âm đầu có số lượng lớn nhất , do đó âm đầu có chức năng khu biệt lớn hơn cả [4] Dựa vào thành phần này người ta dễ nhận diện âm tiết hơn là dựa vào các thành phần khác

Bảng 2.1 Hệ thống âm đầu

Trong danh sách kể trên, các âm vị /p,r/ không được kể đến trong các âm vị đầu của tiếng Việt vì chúng chỉ tồn tại ở các từ phiên âm tiếng nước ngoài như “ parabol”, “pêlixilin”,”rađiô” Riêng âm /r/ được phát âm rung đầu lưỡi chỉ tồn tại ở một số địa phương nhưng phạm vi rất hạn chế

Trong phát âm tiếng Hà Nội không có loạt âm quặt lưỡi /ƫ,ʐ,ʂ/ Nhưng các

âm này rất phổ biến ở miền Trung và miền Nam, vì vậy không thể không đưa chúng

Trang 28

vào hệ thống

Hiện nay hệ thống phụ âm đầu được sử dụng thực tế trong nhà trường và trong các văn bản chung cho các phương ngữ là hệ thống phụ âm đầu được hình thành trên cơ sở phát âm Hà Nội với sự phân biệt các phụ âm ch-tr, x-s gi-r gồm 22 phụ âm sau:/b,m,f,v,t,th

,d,n,s,z,l,/

Hệ thống phụ âm đầu của tiếng địa phương miền Bắc mà cơ sở là phát âm Hà Nội có 19 phụ âm (kể cả âm tắc thanh hầu /ʔ/) Trong phát âm Hà Nội không có loạt phụ âm uốn lưỡi /t,s,z/ Các phụ âm này đều được chuyển thành các âm đầu lưỡi hoặc mặt lưỡi tương ứng /c,s,z/ Ví dụ:

“cha” và “tra” đều được phát âm “cha”/ca/

“sa” và “xa” đều được phát âm thành “xa’ /sa/

Một số âm như k và q, gh và g, ngh và ng là cùng âm vị Tuy nhiên, do khi hình thành chữ quốc ngữ, ngữ âm tiếng Việt chưa được nghiên cứu đầy đủ nên các giáo sĩ đã phải mượn nhiều con chữ ghép trong chữ Bồ Đào Nha, Hi lạp, Pháp dẫn đến sự không đồng nhất khi biểu diễn âm vị

2.1.3.2 Hệ thống âm đệm

Trong tiếng Việt chỉ có một âm đệm là /-u-/ thể hiện trên chữ viết là hai chữ

“u” và “o” Âm đệm có chức năng tu chỉnh, hoàn thiện thêm, làm trầm hóa âm sắc của âm tiết Khác với âm chính luôn nằm ở trên đỉnh âm tiết, quyết định âm sắc chủ yếu của âm tiết Âm đệm trái lại chỉ nằm ở sườn cong đi lên đỉnh âm tiết Trong phát âm Hà Nội, các loạt phụ âm môi như /b,m.v.f/ không phân bố trước âm đệm /u/

vì chúng có cấu âm môi giống nhau Ngoài ra sau các phụ âm /n, ૪/ cũng rất ít xuất hiện trước âm đệm, chỉ vài từ trong “noãn cầu”, “góa ”

2.1.3.3 Hệ thống âm chính

Tiếng Việt có tất cả 13 nguyên âm đơn và 3 nguyên âm đôi làm âm chính [4]

Có 10 nguyên âm được thể hiện bằng một chữ viết, 5 nguyên âm với hai cách thể hiện và nguyên âm đôi /ie/ có tới 4 cách thể hiện

Trang 29

Bảng 2.2 Hệ thống âm chính

có thể kết thúc bằng động tác khép lại của bộ máy phát âm với một phụ âm tắc (mũi hoặc miệng) Hệ thống âm cuối trong tiếng Việt ngoài âm cuối zêrô gồm 2 bán âm cuối là /-u, -i/ và 6 phụ âm bao gồm /m, p, n, t,ŋ, k/ [4]

Sự thể hiện bằng chữ viết: Ngoài âm cuối zêro không được ghi lại trên chữ

viết thì cần chú ý 4 trường hợp sau:

- Phụ âm /k/ được ghi bằng ch khi xuất hiện trong những âm tiết có các vần

ich, êch, ach, tức là nó đi sau /i,e, ɛ/ ví dụ: chêch, thích, sạch Ở các âm tiết

khác nó được ghi bằng c, ví dụ: bóc, được, việc, lạc

- Phụ âm /ŋ/ được ghi bằng nh trong những âm tiết có các vần inh, ênh, anh,

Trang 30

tức là khi nó đi sau /i,e, ɛ/, ví dụ: mình, khênh, bánh Nó được ghi bằng ng trong các trường hợp khác như vùng vằng, không, hàng

- Bán nguyên âm /-u/ được viết bằng o trong các âm tiết có vần ao, eo, tức là khi nó đi sau /a,ɛ/ như leo cao, trèo, vào Trong các trường hợp khác nó được ghi bằng u như kêu cứu, tiu nghỉu, bêu riếu

- Bán nguyên âm /-i/ được ghi bằng y ở những âm tiết có vần ay, ây như trong mây bay Còn trong các trường hợp khác nó được ghi là i như nói, dài,

rồi

Quy luật phân bố của các âm cuối sau âm chính: Về mặt phân bố, các bán

nguyên âm cuối /-u, -i/ chỉ xuất hiện sau các nguyên âm không cùng âm sắc với nó Bán nguyên âm cuối /-i/ chỉ xuất hiện sau các nguyên âm hàng sau (không trong

môi và tròn môi) như trong : gửi, nơi, ấy, túi Bán nguyên âm /-u/ chỉ xuất hiện sau các bán nguyên âm không tròn môi ví dụ: rêu rao,lâu, keo Sự kết hợp giữa nguyên

âm và bán nguyên âm cuối giống như sự kết hợp giữa âm đệm và nguyên âm làm

âm chính, tuân theo quy luật dị hoá Theo đó, các âm có cấu âm giống nhau hoặc gần nhau không bao giờ được phân bố cạnh nhau

2.1.4 Hiện tƣợng biến đổi ngữ âm

Khái niệm âm tiết liên quan chặt chẽ tới sự biến hóa ngữ âm vì các âm tố lời nói không phát âm đơn lập trong dòng lời nói liên tục Bởi vậy các âm tố có thể ảnh hưởng lẫn nhau , đặc biệt là những âm tố lân cận được phát âm trong cùng một âm tiết, hoặc ở những âm tiết đi liền nhau

Một số hiện tượng biến âm thường gặp trong tiếng Việt:

Hiện tượng thích nghi: Xuất hiện giữa phụ âm và nguyên âm đứng cạnh

nhau Nếu âm tố sau biến đổi cho giống âm tố đi trước, đó là thích nghi xuôi Nếu

âm tố sau biến đổi cho giống âm tố đi sau là thích nghi ngược Trong tiếng Việt, nguyên âm và phụ âm cuối kết hợp với nhau rất chặt chẽ tạo thành vần của âm tiết Hiện tượng thích nghi biểu hiện rõ rệt trong những vần có nguyên âm dòng trước và dòng sau trong môi kết hợp với phụ âm cuối “ng” và “c”

Hiện tượng đồng hóa: cũng là hiện tượng thích nghi như xảy ra giữa các âm

cùng loại: nguyên âm với nguyên âm, phụ âm với phụ âm Trong tiếng Việt hiện

Trang 31

tượng đồng hoá thường gặp ở các thanh điệu Ví dụ : muôn vạn ->muôn vàn( âm

tiết thứ hai chuyển từ một thanh trắc sang một thanh bằng để gần với âm tiết thứ nhất)

Hiện tượng dị hóa: là hiện tượng hai nguyên âm hoặc hai phụ âm có cấu âm

gần nhau, một âm biến đi để cho chúng trở nên khác nhau Trong tiếng Việt hiện tượng dị hoá thường xảy ra ở các từ láy theo một quy luật khá chặt chẽ: /p/->/m/, /t/-

>/n/, /k/->/ŋ/ Ví dụ: chiếp chiếp-> chiêm chiếp, rét rét-> ren rét, cạch cạch-> cành

cạch

2.2 Đặc điểm của từ

2.2.1 Định nghĩa từ

Cho đến nay, trong ngôn ngữ học, các định nghĩa về từ đã được đưa ra không

ít Các định nghĩa ấy về mặt này hay mặt kia đều đúng, nhưng đều không đủ và không bao gồm được hết tất cả các sự kiện được coi là từ trong các ngôn ngữ và ngay cả trong một ngôn ngữ cũng vậy [4] Nếu không đòi hỏi thật nghiêm ngặt và chấp nhận một cách nhìn để làm việc thì quan niệm về từ có thể được phát biểu như sau:

"Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh,

có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu" [4]

Có thể rút ra các đặc điểm chính của từ nói chung như sau :

- Về hình thức, từ phải là một khối về cấu tạo (chính tả, ngữ âm )

- Về nội dung, từ phải có ý nghĩa hoàn chỉnh

- Về khả năng, từ có khả năng hoạt động tự do và độc lập về cú pháp

Đối với các từ trong tiếng Việt, ta có thể rút ra những đặc điểm của từ tiếng Việt so với các ngôn ngữ thuộc loại hình khác Tiếng Việt là một ngôn ngữ đơn lập với các đặc điểm chính sau :

- Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp nằm ở ngoài từ

- Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư

- Tồn tại một đơn vị đặc biệt là hình tiết mà vỏ ngữ âm của nó trùng khít với

âm tiết Đơn vị đó còn được gọi là "tiếng"

Trang 32

- Không có hiện tượng cấu tạo từ bằng cách ghép thêm phụ tố vào gốc từ

2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt

Đối với từ trong tiếng Việt, dến nay có một số quan điểm sau:

- Coi mọi tiếng đều là từ (Nguyễn Thiện Giáp) Điều này thuận tiện trong xử lí nhưng không đúng với tiêu chí ngôn ngữ học đại cương vì có nhiều tiếng không có nghĩa như "phê " trong "cà phê", "bù" trong "bù nhìn",

- Coi tiếng chưa hẳn là từ (phần lớn các nhà Việt ngữ học có quan điểm này)

- Xem tiếng châu Âu (Anh, Pháp ) cái nào là từ thì trong tiếng Việt cái đó là

từ Quan điểm này chưa xét đến sự khác biệt về sự từ vựng hóa giữa hai ngôn ngữ do sự khác biệt về văn hóa

Theo quan điểm ngôn ngữ học đại cương, từ được cấu tạo bởi các hình vị và hình vị chính là các đơn vị có nghĩa nhỏ nhất Vì vậy, từ trong tiếng Việt cũng phải được cấu tạo bởi các hình vị nêu trên, nhưng có điều khác là các hình vị thành phần

ở đây không hoàn toàn giống khái niệm hình vị của ngôn ngữ học đại cương mà là

"hình vị tiếng Việt" hay còn gọi là "hình tiết" (morphemsyllable) hay "tiếng" (vì chỉ tiếng Việt mới có đơn vị tiếng đặc biệt như vậy)

2.2.3 Phương thức cấu tạo từ

Tài liệu vật chất trực tiếp hay là đơn vị cơ sở của cấu tạo từ Việt là tiếng

Tiếng có thể có nghĩa đủ rõ, tiếng có thể mang nghĩa đã phai mờ và tiếng có thể tự mình không có nghĩa [1] Từ tiếng Việt được cấu tạo hoặc là bằng cách dùng một tiếng, hoặc là tổ hợp các tiếng lại theo một cách nào đó

Từ đơn: Phương thức dùng một tiếng làm một từ cho ta từ đơn Vậy từ đơn ở

đây được hiểu là những từ được cấu tạo bằng một tiếng Ví dụ: cây, nhà, người, đi,

chạy

Từ ghép: Phương thức tổ hợp (ghép) các tiếng lại cho ta từ ghép Dựa vào

tính chất của mối quan hệ về nghĩa giữa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt như sau:

- Từ ghép đẳng lập: đây là những từ mà thành tố cấu tạo có quan hệ

bình đẳng với nhau về nghĩa, ví dụ: ăn ở, cá mú, xe cộ, áo xống Từ

ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp Đây là đặc điểm

Trang 33

chỉnh để phân biệt nó với từ ghép chính phụ

- Từ ghép chính phụ: là những từ ghép mà có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia Thành tố phụ có vai trò phân loại,

chuyên biệt hoá và sắc thái hoá cho thành tố chính Ví dụ: tầu hoả, lão

hoá, đỏ rực

Từ láy: Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta từ

láy Số lượng từ láy trong tiếng Việt rất lớn, khoảng 4.000 từ Mỗi từ láy do cách cấu tạo đặc thù của mình đều gồm có hai phần: phần gốc là phần làm cơ sở cho sự láy, và phần láy là phần lặp lại của phần gốc Quan hệ ngữ âm trong từ láy thể hiện

ở hai mặt:

1 Tương ứng về yếu tố siêu đoạn tính (thanh điệu)

2 Tương ứng về yếu tố âm đoạn tính (phụ âm đầu, vần và các yếu tố trong vần)

Các thành tố của từ láy thường phải có thanh thuộc cùng một âm vực hoặc thuộc âm vực cao (ngang, hỏi, sắc); hoặc thuộc âm vực thấp (huyền, ngã, nặng) Các từ láy có nhiều kiểu, bao gồm láy toàn bộ và láy bộ phận (láy vần, láy phụ âm đầu) Luật hài thanh của mỗi kiểu láy có đặc điểm riêng:

- Trong các từ láy toàn bộ, âm tiết đầu thường là một trong các thành bằng (1,2), còn âm tiết thứ hai thường là một trong các thanh trắc (3, 4, 5, 6) cùng

- Trong các từ láy phụ âm đầu, thanh điệu của hai âm tiết không bắt buộc phải giống nhau, chỉ cần hai thanh điệu ở hai âm tiết cùng âm vực là được

2.3 Chữ viết và chính tả tiếng Việt

Chính tả là sự chuẩn hoá hình thức chữ viết của ngôn ngữ Đó là một hệ thống

Trang 34

các quy tắc về các viết các âm vị, âm tiết, từ, cách dùng các dấu câu, lối viết hoa Chuẩn chính tả có những đặc điểm chính sau [4]:

1 Tính chất bắt buộc Chữ viết có thể chưa hợp lí nhưng khi đã được thừa nhận là chuẩn chính tả thì người viết không được tự ý viết khác

đi Đối với chính tả, tiêu chuẩn cao nhất là cách viết thống nhất, thống nhất trong mọi văn bản, mọi người và mọi địa phương

2 Tính chất ổn định Do có tính chất bắt buộc nên chuẩn chính tả ít bị thay đổi như các chuẩn mực khác của ngôn ngữ Sự tồn tại hàng trăm năm của chuẩn chính tả gây nên một cách viết bảo thủ lạc hậu với sự phát triển của ngữ âm Đây là nguyên nhân chính làm cho chính tả trở nên rắc rối

3 Ngữ âm phát triển, chính tả không thể giữ mãi tính chất cố hữu của mình mà cũng dần có một sự biến động nhất định Do đó bên cạnh các chuẩn mực chính tả hiện có mà có thể xuất hiện một cách viêt mới tồn

tại song song với nó Ví dụ, cách viết fẩm zá, fi fàm bên cạnh phẩm giá

1 Trong chính tả hiện nay đang có những trường hợp cùng một âm vị nhưng viết tuỳ tiện theo hai cách khác nhau Đó là cách viết lung tung

i/y và d/gi Ví dụ hi sinh/hy sinh, giàn/dàn, vật lí/ vật lý Đây là hai

trường hợp được viết không thống nhất ở nhiều người, thậm chí trong một người ở những thời điểm khác nhau, trên những văn bản khác nhau

2 Cách viết không thống nhất đối với những âm tiết khó xác định một chuẩn mực phát âm cụ thể, tức là những tiếng chưa có cách phát âm ổn định và những tiếng có vài ba biến thể phát âm địa phương khác nhau,

ví dụ: chưng/trưng bày, nhất định/nhứt định, bảy/bẩy, lĩnh/lãnh

Trang 35

3 Lối viết hoa tuỳ tiện Cụ thể như sau:

- Viết hoa tên người: Phan Vũ Diễm Hằng/ Phan vũ diễm Hằng/ Phan

vũ Diễm Hằng

- Viết hoa tên đất: Hải phòng/ Hải Phòng

- Viết hoa tên các cơ quan, tổ chức, xí nghiệp: Bộ chính trị/ Bộ Chính

trị/ Bộ Chính Trị/ bộ Chính Trị

4 Vấn đề tên riêng nước ngoài (tên người, tên đất) và các thuật ngữ khoa học kĩ thuật càng phức tạp Các tên này trong các văn bản tiếng Việt thường được viết theo nhiều cách khác nhau:

Dịch nghĩa: biển Đen/ Hắc Hải

Chuyển tự: Mockba->Moskva

Phiên âm: Mêhicô, Napôlêông

5 Vấn đề dùng dấu nối hay không dùng dấu nối: Hải Phòng/ Hải-Phòng,

Rumani/Ru-ma-ni

Những cách viết không thống nhất trên đòi hỏi phải được chuẩn hoá càng nhanh càng tốt Sau đây là một số quy định đã được đông đảo các nhà nghiên cứu ủng hộ [4]:

1.Thống nhất viết nguyên âm – âm chính /i/ bằng chữ cái "i" Ví dụ: lí

luận, kĩ thuật, Khi cần phân biệt ui với uy như trong túi với tuý thì vẫn

viết như cũ i hoặc y đứng một mình hoặc đứng đầu âm tiết vẫn viết theo thói quen cũ, ví dụ: ý kiến, ầm ĩ, yêu

2.Khi trong thực tế đang tồn tại hai hình thức chính tả mà chưa xác định được một chuẩn duy nhất thì có thể chấp nhận cả hai hình thức ấy, ví dụ:

eo sèo/eo xèo; sứ mạng/ sứ mệnh

4 Về việc dùng dấu nối:

- Dùng dấu nối trong các liên danh như : cách mạng khoa học-kĩ thuật

- Dùng dấu nối khi chỉ giới hạn về không gian, thời gian, số lượng , ví

dụ: chuyến tàu Hà Nội - Lao Cai, thời kì 1945-1954, sản lượng 5-7

tấn

- Khi cần phân biệt ngày tháng năm: 2-9-1945, 30-4

Về qui tắc viết chữ hoa

Trang 36

Viết hoa tên người:

-Tên người Việt Nam, Trung Quốc (đọc theo âm Hán – Việt) bao gồm tên thật, tên tự, tên hiệu, đều viết hoa tất cả các chữ đầu của âm tiết và không dùng

gạch nối Ví dụ: Trần Quốc Tuấn; Nguyễn Du, tự Tố Như, hiệu Thanh Hiên

-Một số tên gọi vua chúa, quan lại, trí thức Việt Nam, Trung Quốc thời phong kiến được cấu tạo theo kiểu danh từ chung (đế vương, hoàng hậu, tông, tổ, hầu, tử, phu tử, ) kết hợp với danh từ riêng thì viết hoa tất cả các chữ đầu của âm tiết, ví

dụ: Mai Hắc Đế, Đinh Tiên Hoàng, Hùng Vương, Lạc Long Quân, Bố Cái Đại

Vương, Lê Thái Tổ, Lê Thánh Tông, Phù Đổng Thiên Vương, Khổng Tử, La Sơn Phu Tử

- Một số tên người Việt Nam cấu tạo bằng cách kết hợp một danh từ chung (ví dụ: ông, bà, thánh, cả hoặc từ chỉ học vị, chức tước, ) với một danh từ riêng dùng

để gọi, làm biệt hiệu, thì danh từ chung đó cũng viết hoa Ví dụ: Bà Trưng, Ông

Gióng, Cả Trọng, Đề Thám, Lãnh Cồ, Cử Trị, Nghè Tân, Trạng Lường, Đồ Chiểu,

Tú Xương, Đội Cấn,

Viết hoa tên địa lí:

-Tên địa lí Việt Nam và tên địa lí đọc theo âm Hán - Việt viết hoa các chữ đầu

của âm tiết và không dùng gạch nối, ví dụ: Hà Nội, Trung Quốc, Trường Giang,

- Tên địa lí thế giới phiên gián tiếp qua tiếng Hán và đọc theo âm Hán - Việt

cũng viết hoa tất cả các chữ cái đầu của âm tiết và không dùng gạch nối, ví dụ: Hà

Lan, Phần Lan, Na Uy, Thuỵ Điển, Đan Mạch, Ai Cập, Bồ Đào Nha,

- Từ chỉ phương hướng kết hợp với từ chỉ phương hướng hoặc một từ chung đơn tiết nào đó dùng để chỉ một vùng, một miền, một khu vực nhất định thì viết hoa

tất cả các thành phần của nó, ví dụ: Tây Bắc Kỳ, Đông Nam Kỳ, Bắc Trung Bộ, Nam

Trung Bộ, Bắc Hà, Nam Hà, Đàng Trong, Đàng Ngoài, Đông Nam Bộ, Trường Sơn Tây, Bắc Bán Cầu, Nam Bán Cầu, Bắc Cực, Trung Phi, Cận Đông, khu Đông Bắc, vùng Tây Nam, quan hệ Đông - Tây, đối thoại Bắc - Nam, các nước phương Đông, văn học phương Tây,

- Địa danh Việt Nam cấu tạo bằng cách kết hợp danh từ chung (biển, cửa, bến, vũng, lạch, vàm, buôn, bản, vv.) với danh từ riêng (thường chỉ có một âm tiết

Trang 37

thì viết hoa tất cả các chữ đầu tạo nên địa danh đó, ví dụ: Cửa Lò, Bến Nghé, Vũng

Tàu, Lạch Trường, Vàm Cỏ, Vàm Láng, Buôn Hồ, Bản Keo, Sóc Trăng,

Tên các tổ chức:

- Tên các tổ chức được viết hoa chữ đầu của thành tố đầu và các từ, cụm từ

cấu tạo đặc trưng (nét khu biệt) của tổ chức và tên riêng nếu có Ví dụ: Chính phủ

Việt Nam, Quốc hội Việt Nam, Mặt trận Tổ quốc Việt Nam, Đảng Cộng sản Việt Nam, Trường Đại học Tổng hợp Hà Nội, Nhà Xuất bản Từ điển bách khoa, Đài Truyền hình Việt Nam, Ban Tổ chức Trung ương, nước Cộng hoà Hồi giáo Pakixtan

Viết hoa các trường hợp khác:

-Tên các năm âm lịch: viết hoa cả hai âm tiết Ví dụ: năm Kỉ Tị, Cách mạng

Tân Hợi, Cuộc chính biến Mậu Tuất, Tết Mậu Thân

-Tên các ngày tiết và ngày tết: viết hoa âm tiết thứ nhất Ví dụ: tiết Lập xuân,

tiết Đại hàn, tết Đoan ngọ, tết Trung thu, tết Nguyên đán

-Từ chỉ số trong những đơn vị là tên gọi các sự kiện lịch sử: không viết bằng

con số mà viết bằng chữ hoa Ví dụ: Cách mạng tháng Tám, Cách mạng Xã hội chủ

nghĩa tháng Mười

- Tên gọi một số thời kì lịch sử, sự kiện lịch sử có ý nghĩa quan trọng: viết

hoa âm tiết đầu Ví dụ: thời kì Phục hưng, Chiến tranh thế giới I, phong trào Cần

vương

- Viết hoa tên các ngành, lớp, bộ, họ, giống (chi) trong phân loại sinh vật Ví

dụ: họ Kim giao; bộ Mười chân, lớp Thân mềm; chi Tôm he; lớp Nhện; cây họ Đậu;

họ Dâu tằm

- Tên các niên đại địa chất: viết hoa chữ đầu của âm tiết thứ nhất, ví dụ: đại

Cổ sinh, kỉ Cacbon, loài người xuất hiện từ đầu kỉ Đệ tứ

- Tên gọi các huân chương, huy chương, danh hiệu vinh dự, viết như sau:

huân chương Độc lập, Sao vàng, Cờ đỏ, Lênin, Hồ Chí Minh; huân chương Quân công, Chiến công, Kháng chiến, Chiến sĩ vẻ vang; Kỉ niệm chương; Tổ quốc ghi công; Bảng vàng danh dự; giải thưởng Nhà nước; danh hiệu Nghệ sĩ nhân dân, Nhà giáo nhân dân, Thầy thuốc nhân dân, Anh hùng lao động

Trang 38

- Tên gọi các tôn giáo, giáo phái viết bằng tiếng Việt hoặc Hán - Việt: viết

hoa tất cả các chữ đầu của âm tiết, ví dụ: Tin Lành, Cơ Đốc, Thiên Chúa, Hoà Hảo,

Cao Đài, Bà La Môn, Tiểu Thừa, Đại Thừa, Mật Tông, Thiền Tông, Chú ý: Nho giáo, Thiên Chúa giáo, đạo Hồi, Hồi giáo

- Tên các tác phẩm, sách báo, văn kiện, để trong ngoặc kép và viết hoa như sau:

+ Nếu tên người, tên địa lí, tên triều đại, dùng làm tên tác phẩm thì viết

hoa tên người, tên địa lí, tên triều đại đó, ví dụ: “Thạch Sanh”, “Hồ Chí

Minh toàn tập”, “Nghệ An” , “Lĩnh Nam chích quái”, “Việt sử lược”,

“Hậu Hán thư”, “Tam Quốc chí”

+ Ngoài các trường hợp trên, chỉ viết hoa âm tiết thứ nhất, ví dụ: “Làm gì”,

báo “Nhân dân”, tạp chí “Khảo cổ học”, “Dư địa chí”, “Hiến pháp nước Cộng hoà Xã hội chủ nghĩa Việt Nam”, “Luật tổ chức Quốc hội và Hội đồng Nhà nước”

- Tên chức vụ, học vị chung không viết hoa, ví dụ: tổng thống, chủ tịch, tổng

bí thư, đại sứ, thái thú, tổng đốc, tiến sĩ, cử nhân, viện sĩ,

Trong việc chuẩn hoá chỉnh tả và cải tiến chữ viết còn nhiều vấn đề cần tiếp

tục thảo luận, nghiên cứu, chẳng hạn viết d/gi thống nhất bằng z; dùng f thay cho

ph; bỏ h trong gh, ngh; thống nhất dùng một trong ba cách viết c, k, q

Ngoài ra việc không thống nhất trong việc bỏ dấu các thanh điệu cũng gây nhầm lẫn trong quá trình xử lí

Trang 39

Một bộ phân tích văn bản điển hình được mô dun hóa thành các thành phần như sau [15]:

3.1 Các modul

Bộ phân tích văn bản chịu trách nhiệm về tất cả vấn đề về văn bản, thực hiện

sự phân tích ngữ nghĩa và cú pháp tỉ mỉ để xác định các tính chất trợ giúp cho quá trình phân tích ngữ âm hiệu quả từ đó có thể thể hiện được sự phát âm chính xác và phát sinh ngôn điệu một cách hợp lý

Xác định cấu trúc văn bản

Chuẩn hóa văn bản

Phân tích ngôn ngữ

Modul phân tích văn bản

Văn bản thô

Văn bản được gán nhãn

Văn bản được gán nhãn Hình 3.1 Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm

Từ điển

Trang 40

Trong hình 3.1, phân tích văn bản cho TTS đòi hỏi 3 quá trình liên quan sau [15]:

- Xác định cấu trúc văn bản: cấu trúc văn bản là rất quan trọng nhằm cung

cấp một ngữ cảnh cho tất cả các quá trình sau đó Một số thành phần của cấu trúc văn bản như ngắt câu và các đoạn có thể trực tiếp liên quan đến ngôn điệu

- Chuẩn hóa văn bản: Chuẩn hóa văn bản là biến đổi từ nhiều ký hiệu khác

nhau như con số, các thực thể phi chính tả khác của văn bản thành một phiên

âm chính tả nói chung phù hợp cho biến đổi thành chuỗi ngữ âm

- Phân tích ngôn ngữ học: phân tích ngôn ngữ là xác định các điều khoản cú

pháp và các đặc trưng ngữ nghĩa về từ , cụm từ, mệnh đề và câu mà quan trọng cho cả phát âm và ngôn điệu trong các quá trình tiếp theo

Nhiệm vụ của phân tích ngữ âm là biến đổi các ký hiệu chính tả từ vựng thành âm vị cùng với các thông tin về dấu thanh có thể có như vị trí của trọng âm Phân tích ngữ âm thường quy về biến đổi tự vị thành âm vị Mục đích là rõ ràng, vì các âm vị là đơn vị cơ bản của âm thanh như đã mô tả trong chương 2 Biến đổi tự

vị thành âm vị là bình thường cho các ngôn ngữ mà có quan hệ đơn giản giữa chính

tả và âm vị học Có 3 dịch vụ sau cần thiết để sản sinh ra các phát âm chính xác:

- Xử lí nhập nhằng từ đồng dạng: modul này là rất quan trọng cho các ngôn

ngữ Ấn-Âu khi có nhiều từ đồng dạng nhưng phát âm có thể là khác nhau như object (/ah b jh eh k t/ là một động từ hoặc như một danh từ /â b jh eh k t/) Với tiếng Việt tỏ ra không quan trọng, bởi vì với tiếng Việt là ngôn ngữ ghi âm, viết như thế nào sẽ đọc như thế

- Phân tích hình vị : Phân tích các hình vị cung cấp tín hiệu quan trọng để đạt

được các phát âm cho chuyển điệu và tìm ra nguồn gốc các từ Trong tiếng Việt không có sự biến đổi về hình vị từ Phương pháp ngữ pháp nằm ngoài

từ Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư

- Biến đổi chữ viết về dạng phát âm: Giai đoạn cuối cùng của phân tích ngữ

âm nói chung bao gồm các quy tắc hoặc modul LTS và một từ điển để cho đầu ra là các phát âm chính xác cho bất kỳ một từ nào Như đã nói , tiếng Việt là ngôn ngữ ghi âm , nên không khó khăn trong việc đưa từ tự vị về dạng âm vị để phát âm cho chính xác

Tất cả các quá trình trên trong các pha phân tích ngữ âm và phân tích văn bản

Định dạng
Số trang	81
Dung lượng	1,5 MB