Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản và tiếng nói để có t
Trang 1NGUYỄN HỒNG QUÂN
PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP
TIẾNG NÓI TIẾNG VIỆT
LUẬN VĂN THẠC SỸ
Người hướng dẫn: PGS.TS Lương Chi Mai
Hà nội - 2006
Trang 2MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 5
LỜI NÓI ĐẦU 6
Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 8
1.1 Modul NLP 10
1.1.1 Phân tích văn bản 10
1.1.2 Modul LTS 10
1.1.3 Phát sinh ngôn điệu 11
1.2 Modul DSP 11
1.2.1 Tổng hợp theo cấu âm 12
1.2.2 Tổng hợp tiếng nói theo quy luật Formant 14
1.2.3 Tổng hợp xích chuỗi 15
1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC 18
1.3 Các ứng dụng của TTS 22
Chương 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT 24
2.1 Ngữ âm học 24
2.1.1 Cơ sở vật lí 24
2.1.2 Các đặc trưng về âm tiết tiếng Việt 24
2.1.3 Âm vị 26
2.1.4 Hiện tượng biến đổi ngữ âm 30
2.2 Đặc điểm của từ 31
2.2.1 Định nghĩa từ 31
2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt 32
2.2.3 Phương thức cấu tạo từ 32
2.3 Chữ viết và chính tả tiếng Việt 33
Chương 3 PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 39
3.1 Các modul 39
3.2 Từ điển 41
3.3 Xác định cấu trúc văn bản 41
3.3.1 Các tiêu đề của chương, mục 42
3.3.2 Danh sách 43
3.3.3 Các đoạn 44
3.3.4 Câu 45
3.3.5 Email 45
3.3.6 Trang Web 46
3.3.7 Hoạt động hội thoại 46
3.4 Chuẩn hoá văn bản 46
Trang 33.4.1 Chuẩn hoá y-i 47
3.4.2 Chuẩn hoá dấu thanh 47
3.4.5 Chữ viết tắt và các kí hiệu khác 48
3.4.4 Các con số 48
3.4.5 Ngày tháng 49
3.4.6 Thời gian 49
3.5 Phân tích ngôn ngữ 50
3.5.1 Tách từ 50
3.5.2 Gán nhãn từ loại 50
3.5.3 Phân tích cú pháp 51
3.5.4 Phân tích ngữ nghĩa 52
Chương 4 BÀI TOÁN TÁCH TỪ 53
4.1 Các khó khăn trong nhận dạng từ tiếng Việt 53
4.2 Một số phương pháp tách từ 54
4.2.1 Dựa theo luật 54
4.2.2 Dùng thống kê 55
4.2.3 Các cách khác 55
4.3 Đề xuất mới 58
4.3.1 Từ điển 58
4.3.2 Các giả thiết 59
4.3.3 Giải pháp tách từ 63
4.4 Xử lí tên riêng 66
4.4.1 Tên người, tên địa lí 66
4.4.2 Tên tổ chức 67
4.4.3 Các tên riêng khác 67
4.5 Tách đoạn – Tách câu 68
4.6 Nhận xét đánh giá 68
4.6.1 Tập ngữ liệu thô 68
4.6.2 Nhận xét 70
Chương 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ 73
5.1 Chương trình thử nghiệm 73
5.1.1 Yêu cầu về cấu hình hệ thống 73
5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu 73
5.1.3 Giao diện chương trình 73
5.2 Cấu trúc chương trình 74
5.3 Các kết quả thực nghiệm 75
5.3.1 Kết quả phân tích 75
5.3.2 Đánh giá tốc độ thực hiện 77
Kết luận và định hướng nghiên cứu 79
Tài liệu tham khảo 80
Trang 4DANH MỤC TỪ VIẾT TẮT
5 LTS Letter To Sound – Biến đổi chữ viết thành dạng phát âm được
Trang 5DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Hệ thống âm đầu 27
Bảng 2.2 Hệ thống âm chính 29
Bảng 4.1: Kết quả đánh giá phân tách từ 70
Bảng 5.1 Kết quả đánh giá phân tích văn bản 75
Bảng 5.1 Kết quả tốc độ thực hiện 77
DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS 8
Hình 1.2 Modul NLP của một hệ thống TTS 9
Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật 14
Hình 1.4 Mô hình tuyến tính tạo tiếng nói 15
Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi 16
Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói 19
Hình 1.7 Mô hình tổng hợp LPC 20
Hình 2.1- Cấu trúc âm tiết 25
Hình 3.1 Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm 39
Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 43
Hình 3.3 Ví dụ về một danh sách được đánh dấu 43
Hình 3.4 Ví dụ về một đánh dấu câu 44
Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML 46
Hình 3.6: Phân tích cú pháp 51
Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ 59
Hình 4.2 Thuật toán tách từ 65
Hình 5 1: Giao diện chính 73
Hình 5.2 Mô hình ứng dụng 74
Trang 6LỜI NÓI ĐẦU
Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận dạng tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật đã được hoàn thiện Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản
và tiếng nói để có thể đạt được những kết quả so sánh được với các ngôn ngữ khác
là hoàn toàn hiện thực Tổng hợp tiếng nói từ văn bản có chức năng ngược với nhận dạng tiếng nói Nó có rất nhiều ứng dụng quan trọng trong khoa học công nghệ và đời sống Một hệ tổng hợp tiếng nói bao gồm hai quá trình xử lí chính là : Xử lí ngôn ngữ tự nhiên và Xử lí tín hiệu số Trong đó phân tích văn bản là một giai đoạn quan trọng của quá trình xử lí ngôn ngữ tự nhiên, nó bao gồm các nhiệm vụ chính sau:
tự nhiên Cho đến nay đã có khá nhiều phương pháp tách từ được đưa ra : các phương pháp dựa theo luật, các phương pháp theo mô hình xác suất thống kê, các phương pháp lai Tuy nhiên đối với từng ngôn ngữ cụ thể và phụ thuộc vào đặc điểm của ngôn ngữ mà mỗi phương pháp có kết quả thực hiện với độ chính xác khác nhau
Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc phân tách từ tiếng Việt, đó là cường độ liên kết từ Qua một số khảo sát thực nghiệm, kết quả thu về là đáng khích lệ
Nội dung của luận văn được trình bày cụ thể trong 5 chương
Chương 1: Tổng quan về tổng hợp tiếng nói
Chương 2: Cơ sở ngôn ngữ tiếng Việt
Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Chương 4 : Bài toán tách từ tiếng Việt
Trang 7Chương 5: Cài đặt và đánh giá thử nghiệm
Những công việc được thực hiện trong luận văn này chưa phải là nhiều Phần thực hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên quan đến phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung
Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã tận tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu hoàn thành luận văn này
Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên, chia sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này
Hà Nội, ngày 2 tháng 1 năm 2006
Nguyễn Hồng Quân
Trang 8XỬ LÝ NGÔN NGỮ TỰ NHIÊN
- Các hình thức ngôn ngữ
- Các mô tơ suy diễn
- Các suy luận logic
TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
Tiếng nói là phương tiện truyền thông chính giữa con người với nhau Một hệ thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính
có khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về mặt ngữ âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra
Dữ liệu về tiếng nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và được lưu giữ trước ở trong bộ nhớ Văn bản có thể được nhập vào máy tính từ bàn phím, hoặc bằng hệ thống nhận dạng chữ viết, hoặc nhận được từ một CSDL nào đó hay tải về từ Internet[14]
Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng tiếng nói Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc làm đơn giản Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ phổ biến nhất trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu các tên riêng, các từ viết tắt vẫn phát sinh hàng ngày Mặt khác để tiếng nói được sinh ra một cách tự nhiên thì ngữ điệu của câu cần được kết hợp một cách hợp lý
Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14] Giống như việc đọc của con người, hệ thống bao gồm:
Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn
bản đầu vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ
Trang 9điệu và nhịp điệu mong muốn (thường được gọi là ngôn điệu)
Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở
dạng ký hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra Các thuật toán và các hình thức được áp dụng để xử lí thường được dựa vào các tri thức của các mô hình ngữ âm và toán học để phát triển Tính chất quan trọng nhất của hệ thống tổng hợp tiếng nói là chất lượng tiếng nói đầu ra Các tiếp cận hiện nay thường bỏ qua một số bước xử lí nào đó do bị hạn chế về vấn đề thời gian thực và tài nguyên của hệ thống Điều này dẫn đến chất lượng bị hạn chế trong cách phát âm cũng như tính biểu cảm, ít nhất là so với con người
1.1 Modul NLP
Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ TTS [14]
HỆ THỐNG
XỬ
LÝ NGÔN NGỮ
TỰ NHIÊN
Bộ tiền xử lý
Bộ phân tích hình thái
Bộ phân tích ngữ cảnh
Bộ phân tích cú pháp, ngôn điệu
Hình 1.2 Modul NLP của một hệ thống TTS
Trang 101.1.1 Phân tích văn bản
Khối phân tích văn bản bao gồm các thành phần sau:
Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách
các từ có khả năng xử lí được Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt , các thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết Một vấn
đề quan trọng mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng của các dấu chấm câu (bao gồm cả trường hợp chuẩn khi hết câu) Ở một vài phạm
vi có có thể được giải quyết nhờ các văn phạm chính quy cơ bản
Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ
loại cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng Những từ ghép, từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị
cơ bản (hình thái) nhờ các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và phụ tố Module này là cần thiết cho xử lí các ngôn ngữ có hình thái
Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong
ngữ cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả thuyết có thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận Vấn đề này này có thể được giải quyết theo :
- Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo
dạng otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một phạm vi nhỏ hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra các luật viết theo ngữ cảnh
- Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia ngôn ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện với các kỹ thuật cây hồi quy và phân loại (CART)
Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không
gian tìm kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng thành mệnh đề và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới thể hiện hiện ngôn điệu thực sự của nó
1.1.2 Module LTS:
Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản
Trang 11nhận được Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu , đây là một module quan trọng vì có nhiều phiên âm không được đề cập đến trong
từ điển Tuy nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục trong từ diển được giảm bớt rất nhiều
1.1.3 Phát sinh ngôn điệu
Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng
nói liên quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ dài của âm tiết Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp bằng tiếng nói Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh Ví dụ, có các sự kiện nào đó về cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc nhóm cấu trúc cú pháp có chứa âm tiết đó một cách không trực tiếp sẽ được làm nổi bật như một yếu tố quan trọng hay yếu tố mới chuyển tải ý nghĩa của lời nói Sự có mặt của dấu trọng âm có thể có những hiệu quả khác nhau như sự tương phản, phụ thuộc vào vị trí mà trọng âm xuất hiện hoặc ngữ cảnh ngữ nghĩa của lời nói
Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các nhóm âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi lớn hơn Một số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết được liên kết với nhau theo vài cách khác nhau Hiệu quả của việc nhóm như vậy có tính chất phân cấp, mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài, cao độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật
về ngữ điệu của một ngôn ngữ Đó là việc xác định vị trí trọng âm của từ được phát
âm Lên xuống giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v v
và xác định các biến thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát
âm trong một ngữ lưu liên tục Bước này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nó hoặc đọc một văn bản Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho bộ tổng hợp tiếng nói
1.2 Module DSP
Theo hình 1.1 thì giao diện giữa hai khối NLP và DSP được định nghĩa rõ ràng và việc nghiên cứu về hai quá trình có thể được thực hiện riêng rẽ, độc lập với
Trang 12nhau Bây giờ ta giả thiết rằng thông tin chất lượng cao nhất đã được cung cấp tại đầu vào của bộ phẩn xử lí tín hiệu số (DSP) giống như những gì con người đọc cảm nhận được Phần DSP trên phương diện nào đó phải xét đến các hạn chế phát âm, bởi vì ta đã biết sự biến đổi ngữ âm (phần động, chuyển tiếp giữa các âm) quan trọng đối với việc hiểu lời nói hơn là phần tĩnh của lời nói Tổng hợp tiếng nói có thể đạt được dựa trên cơ bản theo hai phương pháp sau :
- Phương pháp thứ nhất được thực hiện dựa trên một loạt các quy tắc mô tả một cách chính thức các âm vị, sự ảnh hưởng lẫn nhau giữa các âm vị khi phát
ra một âm
- Phương pháp thức hai là lưu giữ các mẫu âm vị, biến đổi âm vị và đồng thời phát âm vào CSDL tiếng nói và sử dụng chúng như chúng vốn có là các đơn vị
âm học cơ bản (ở vị trí của âm vị)
Hai hệ thống TTS đã xuất hiện từ hai phương pháp trên Cả hai phương pháp này nhanh chóng trở thành hai triết lí tổng hợp với sự khác biệt thể hiện trong nội dung và mục tiêu của chúng Đó là tổng hợp bằng quy luật và tổng hợp xích chuỗi
Một số các phương pháp tổng hợp tiếng nói hiện nay
1.2.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình mô phỏng sinh học Trong mô hình này tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây danh Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc nhiều loạn không khí) và trở thành kháng đầu vào và thay đổi theo thời gian của ống thanh Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số hóa được hình khối ống thanh và ống mũi, phải lựa chọn được mô hình được mô hình để mô tả sự lan truyền của sóng ống thanh và mô hình hóa nguồn âm (chấn động dây thành và dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh Phương pháp này hiện nay chỉ mới hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh học chưa có thông tin đầy đủ để mô phỏng theo cấu âm
Lan truyền sóng trong ống thanh:
Trang 13Trong nhiều cách tính đặc trưng truyền song trong ống thanh thì phương pháp
ma trận chuỗi được áp dụng nhiều nhất Ma trận chuỗi, còn được gọi là ma trận ABCD, thể hiện ống thanh ở miền tần số Với bất kỳ phần nào của ống thanh hay ống mũi ta có hệ phương trình truyền sóng như sau:
out
out
U
P K U
P x D C
B A U
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh Tính các phần tử của K rất đơn giản nếu ống có mặt cắt không đổi
Nguyên lý tổng hợp cấu âm:
Thuật toán tổng hợp cấu âm theo mô hình cấu âm gồm các bước sau: Từ đặc
tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi Sau đó tính hàm truyền và trở khánh đầu vào từ các phần tử A,B,C,D của ma trận Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian Sau đó tính áp suất p=ps-p1 Giá trị áp suất này tác động vào
bộ phận cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói
Như vậy ngoài việc mô hình hóa cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật là luật ngôn ngữ và luật vật lí Luật vật lí mô tả như
ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị Khi cấu âm cho một âm vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này với cơ quan khác Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan, nên trong cùng một thời điểm cơ quan phát âm cơ thể được xác định chp âm vị khác Theo cách này thì tổng hợp tiếng nói theo cấu âm có thể tạo ta các gải pháp hoàn hảo cho các trường hợp ngữ
âm khó như cụm phụ âm, nguyên âm ba Hiện nay chúng ta chưa có kiến thức đầy
đủ về từng chi tiết của hai loại luật nói trên Mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói được tổng hợp theo cấu âm còn rất thấp Phương pháp
Trang 14tổng hợp cấu âm hiện này mới chỉ dừng ở trong phòng thí nghiệm hay các sản phẩm mẫu mà chưa được ứng dụng thực tế Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn các giải pháp lâu dài và hoàn thiện nhất để tổng hợp tiếng nói giống như tiếng nói tự nhiên của con người
1.2.2 Tổng hợp tiếng nói theo quy luật Formant
Quy trình xây dựng tổng hợp tiếng nói theo luật Formant được trình bày trên hình 1.3 Bao gồm hai quá trình riêng biệt là :
- Phân tích âm thanh tiếng nói để tìm ra quy luật
- Tổng hợp lại tiếng nói dựa vào các quy luật đã tìm thấy
Phân tích tìm quy luật
Quá trình phân ích được tiến hành trên CSDL tiếng nói tự nhiên, chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm-nguyên âm) hay C-V-C (phụ âm-nguyên âm-phụ âm) của nhiều giọng nói CSDL này tốt nhất phải được bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ
Thuật toán tiên đoán tuyến tính LPC được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0của tín hiệu tiếng nói Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng Đó là các giá trị đích để tạo ra một
Ngữ âm
Âm vị và ngôn điệu
Tiếng nói Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật
Trang 15âm vị Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn
là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại
(C-V và (C-V-C) Tần số formant chuyển tiếp từ âm vị này sang âm vị kia được mô hình hóa và tạo thành các quy luật tổng hợp cho kỹ thuật tổng hợp formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác Hệ thống quy luật gồm có:
- Luật để xác định vị trí đích của các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó
- Luật để làm trơn các formant đích
- Luật để chuyển đổi các hàm thời gian thành dạng sóng âm thanh
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với các thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo ra các âm đoạn tính
Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh Vì vậy bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn
A(v)
Mô hình xung thanh quản G(z)
A(n)
Mô hình ống thanh V(z)
Mô hình tán xạ V(z)
Hình 1.4 Mô hình tuyến tính tạo tiếng nói
Trang 16Nghiên cứu về tổng hợp tiếng nói và cách xích chuỗi các đơn vị âm được khởi đầu từ những năm đầu 50 thế kỉ trước Harris trong công trình tiên phong để “xây các khối tiếng nói” đã đề xuất tổng hợp tiếng nói bằng cách xích chuỗi các đơn vị
âm cơ sở Nguyên tắc này vẫn còn tạo ra nền tảng cho các hệ thống xích chuỗi hiện nay
Hệ thống tổng hợp xích chuỗi hoàn chỉnh đầu tiên do Josph Olive phát triển
và được trình diễn năm 1997 Phương pháp xích chuỗi nhằm vượt qua sự không thoả đáng của các hệ thống sử dụng quy luật bằng cách loại bỏ sự cần thiết của một
số quy luật, thậm chí là tất cả các quy luật Để thực hiện điều này, cách hiệu quả nhất là lưu trữ trong kho dữ liệu không phải hệ thống quy luật mô tả các đơn vị hay các quy luật của các tham số để tạo ra đơn vị âm mà trực tiếp từng đoạn âm của âm thanh tiếng nói
Tạo âm thanh
Phân âm đoạn
Phân tích tín hiệu
Mã hoá
Giải mã
Tạo danh sách âm đoạn
Trang 17Phương pháp tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính So sánh về chất lượng trong các phương pháp
đã nói trên thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo ra tiếng nói không chỉ để nghe mà còn đạt được độ tự nhiên gần với tiếng nói của con người hơn cả Phần lớn các hệ thống TTS chất lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi
Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL Các đơn vị
âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hóa bằng một phương pháp mã hóa tiếng nói nào đó tạo thành các mẫu cho một đơn vị
âm thanh Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,
hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau Thông thường một hệ thống tổng hợp xích chuỗi có ít nhất một hoặc hai mẫu cho mỗi một đơn vị cơ bản Do các tham số
và cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau (chúng chỉ được trích ra từ tín hiệu tiếng nói trong các ngữ cảnh khác nhau) cho nên khi tổng hợp, hệ thống tổng hợp xích chuỗi phải thực hiện hai công việc
- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn
- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để bảo đảm chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên
Giả sử hai âm đoạn được xích chuỗi là L và R Chúng ta xem xét tập hợp P của các tham số {p1, p2,…,pn}, các giá trị PL0
là ở điểm cuối cùng của đoạn L và PR0
là điểm đầu tiên của đoạn R Làm trơn được thực hiện tuyến tính phân bố đều khoảng cách (PL0
-PR0) cho số ML vectơ {PL-(ML-1), ,PL-1,PL0} của đoạn L và MRvectơ { PL0
,PL1 ,…,PL(ML-1)} Với P’ là tham số sau khi làm trơn thì nội suy được bằng công thức tính như sau:
Trang 18L L R L L
M
i M P P P
P
2
)(
)(
'1 1 0 0
R
L R L j R j
L
M
M P P P
P
2
)1()(
- Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được mô tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng đến chất lượng cảm thụ của âm đó
- Thuật toán xích chuỗi mà mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được xích chuỗi
Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện mã hóa tham số tiếng nói Với các thể hiện bằng tham số, đặc trưng phổ của ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm đơn vị cơ bản Phương pháp mã hóa tham số đặc trưng nhất là mã hóa tiên đoán tuyến tính LPC và các biến thể của chúng
1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên toán tuyến tính LPC
Lý thuyết mã tiên đoán tuyến tính LPC đã được áp dụng rất thành công vào các kỹ thuật xử lí tiếng nói từ nhiều năm nay không chỉ trong phân tích nhận dạng
mà còn cả trong tổng hợp tiếng nói
Mô hình LPC
Ý tưởng cơ bản của mô hình LPC là một mẫu tiếng nói s(n) ở thời điểm n, được xấp xỉ bằng tổng tuyến tính có trọng số của p mẫu trước nó với công thức:
Trang 19s(n) a 1 s(n-1 )+ a 2 s(n-2)+…+a p s(n-p) (1.3) Trong dó a1, a2,…, ap được giả thiết là các hằng số trong khung thời gian tiến hành phân tích và còn được gọi là hệ số tiên đoán tuyến tính LPC
Thay đổi công thức nằy bằng cách thêm nguồn kích Gu(n) ,ta có:
n
s
1
)()()
z
S
1
)()()
Và hàm truyền
) (
1 1
1 )
(
) ( )
(
1
z A z a z
GU
z S z
i
i i
Từ công thức này có thể xây dựng mô hình tiên đoan tuyến tính như sau :
Theo mô hình này, nguồn kích u(n) được khuyếch đại với hệ số G là đầu vào tác động vào một hệ thống lọc toàn cục có hàm truyền
)(
1)
(
z A z
Sẽ tạo ra tiếng nói
Nguồn kích là bộ tạo tần số cơ bản cho các âm hữu thanh hay tạo nhiều ngẫu nhiên cho âm vô thanh Từ đo, mô hình tổng hợp tiếng nói dựa trên LPC được thể hiện như hình 1.8 Các tham số thay đổi chậm tho thời gian để điều khiển mô hình bao gồm một bit để phân biệt âm hữu thanh/vô thanh ; chu kỳ cao độ tần số cơ bản
F0 cho âm hữu thanh, hệ số khuyếch đại G và các hệ số tiên đoan tuyến tính của bộ
Trang 20lọc thay đổi theo thời gian {ap} Quá trình LPC thực tế là để tính các hệ số của mô hình này
Xác định hệ số LPC
Dựa trên cơ sở mô hình tổng hợp LPC, ta có mối quan hệ giữa s(n) và u(n) như sau :
)()()
(
1
n Gu k n s a n
s
p k
s
1
) (
n s n s n s
n
e
1
)()
()(
~)()
S
z E z A
1
1)(
)()
đổi theo thời gian, hệ số tiên đoán ở thời điểm n phải tính từ các đoạn âm xung
quanh của thời điểm đó Chính vì vậy hướng tiếp cận là tìm các tập hế số tiên đoán
Bộ tạo xung
Bộ tạo xung
Bộ lọc số thay đổi theo thời gian Tham số ống thanh
Vô thanh Hữu thanh
G
F0
Hình 1.7 Mô hình tổng hợp LPC
Trang 21sao cho sai số trung bình bình phương ở khung thời gian đó là nhỏ nhất
Ta định nghĩa tiếng nói thời gian ngắn và sai số ở thời điểm n là :
)()
(
)()
(
m n e
n
e
m n s m
)()
(
p k n k n
()
0
i R m s i m
)()(
)()
()
i
R
1
)(ˆ)
Trang 22Hay dưới dạng ma trận : R i R i k ai
) ( )
Vì là các hàm tự tương quan nên ta có R(i-k)=r(k-i) Ma trận [R(i-k)] là đối xứng, tất cả các phần từ của trục đối xứng bằng nhau Đó chính là dạng của ma trận Toplitz Do vậy tính các hệ số tiên đóa trở nên đơn giản hơn nhiêu Đây là phương pháp tự tương quan để tính hệ số tiên đoán tuyến tính
Tổng hợp tiên đoán tuyến tính
Quá trình tổng hợp tiên đoán tuyến tính được thực hiện theo hình 1.8 phần trên Một vấn đề cần phải giải quyết khi tổng hợp lại tín hiệu tiếng nói là xác định
hệ số khuyếch đại G sao cho biên độ tín hiệu tổng hợp có mức gần như biên độ tín
hiệu nguyên thủ Có thể tính được G từ giá trị bình phương của e(m) trong khoảng
m=0 và m=M theo công thức sau :
n M
E
1
)()
0
Phương pháp LPC thực hiện việc thay đổi ngôn điệu một cách trực tiếp tương đối mềm dẻo Tần số âm cơ bản là một tham số hiện cho mô hình tổng hợp LPC Việc thay đổi cao độ tần số cơ bản được thực hiện bằng cách thay đổi tần số cơ bản
F0 như mong muốn trước khi đưa vào lọc Độ dài được thay đổi bằng cách cập nhật các tham số cho bộ tổng hợp tiếng nói theo tần số nhanh hơn với tần số phân tích khi giảm độ dài và chậm hơn khi kéo dài âm đó ra
1.3 Các ứng dụng của TTS
TTS được sử dụng cho nhiều ứng dụng khác nhau Một số lĩnh vực áp dụng chính của TTS như sau [14]:
Các dịch vụ viễn thông : Các hệ thống TTS đã được sử dụng chính thức trong
ứng dụng trả lời tự động trực tuyến trên nhiều mạng viễn thống hiện đại Tiêu biểu
là dự án MIVA với các dịch vụ điện thọi kích hoạt bằng âm thanh đa ngữ trực tuyến Các hệ thống thông tín tích hợp có khả năng đọc tự động nội dung các thư điện tử, nội dung các bức fax và các thông tin trên Internet qua máy điện thoại cố
Trang 23định và di động thông thường Truy cập thông tin, CSDL qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều
Giáo dục ngôn ngữ : Một bộ TTS chất lượng cao có thể được tích hợp với
một hệ thống học được hỗ trợ máy tính qua đó cung cấp một công cụ hữu ích để học một ngôn ngữ mới
Hỗ trợ người khuyết tật : Những người mù có thể được lợi nhiều qua các hệ
thống TTS Họ nhận được các thông tin cần thiết và nếu được phối hợp với một hệ thống quang học nhận dạng chữ viết OCR thì khả năng truy cập thông tin càng cao hơn
Sách điện tử và đồ chơi biết nói : Đây là một thị trường rộng lớn cho các
nhà sản xuất Thực tế đã có nhiều loại đồ chơi kiểu này xuất hiện
Đa phương tiện, giao tiếp người-máy : Trong một thời gian dài, sự phát triển
của các hệ thống TTS chất lượng cao là một bước cần thiết về phía trung gian thông tin giữa con người và máy tính hoàn thiện hơn Đa phương tiện là một sự chuyển dịch đầu tiên và đầy hứa hẹn theo hướng này
Trang 24Chương 2
CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT
Đây là phần cơ sở lý thuyết quan trọng làm nền tảng cho việc phân tích ngữ
âm cũng như chính tả tiếng Việt Trên cơ sở phân tích một số đặc điểm riêng của tiếng Việt phục vụ cho việc phân tích văn bản
2.1 Ngữ âm học
2.1.1 Cơ sở vật lý
Ngôn ngữ là một hệ thống tín hiệu, khi nói vỏ vật chất của tín hiệu là âm thanh, khi viết nó được thể hiện bằng chữ Không phải chữ viết lúc nào cũng phản ảnh chính xác các âm tố tương ứng Vì vậy các âm tố được biểu diễn bằng những ký hiệu đặc biệt gọi là phiên âm
Âm thanh của tiếng nói được tạo thành nhờ bộ máy phát âm của con người bao gồm: môi, răng, lưỡi, khoang miêng, khoang mũi, yết hầu, thanh hầu, phổi Mỗi âm được phân biệt bằng các yếu tố sau:
- Độ cao (pitch): phụ thuộc vào tần số dao động Tần số càng lớn thì âm thanh
càng cao Tai người có thể ghe được trong giới hạn từ 16-20.Hz
- Độ vang (loudness): phụ thuộc vào biên độ dao động Biên độ càng lớn thì
độ vang càng to Cường độ âm thanh trong ngôn ngữ bảo đảm sự xác minh trong giao tiếp và là cơ sở để tạo thành các kiểu trọng âm khác nhau
- Độ dài (duration): là khoảng thời gian kéo dài của âm thanh
- Âm sắc: là sắc thái riêng của âm Âm nói chung là hợp thể của nhiều âm cơ
bản, trong đó âm cơ bản có tần số thấp và các họa âm có tần số bằng bội số của tần số âm cơ bản Âm sắc khác nhau do số lượng và tính chất của các họa
âm, mà tính chất của các họa âm bị tác động nhiều bởi hiện tượng cộng hưởng
2.1.2 Các đặc trưng về âm tiết tiếng Việt
Âm tiết tiếng Việt có cấu trúc chặt chẽ
Âm tiết tiếng Việt không phải là một khối không thể chia cắt được mà là một cấu trúc chặt chẽ [4] Các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu
Trang 25tạo từ ba thành tố độc lập là : thanh điệu, phần đầu, phần sau:
Thanh điệu là thành phần có chức năng phân biệt các âm tiết với nhau về cao
độ Nó là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt Tính độc lập về mặt ngữ
âm của thanh điệu ở chô nó có đường nét và trường độ tương đối ổn định tùy thuộc vào các loại hình âm tiết
Phần đầu của âm tiết được xác định là Âm đầu, vì ở vị trí này chỉ có một âm
vị tham gia cấu tạo Phụ âm đầu là yếu tố mở đầu của âm tiết Tính chất độc lập của phụ âm đầu thể hiện ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết
Phần sau của âm tiết được gọi là phần Vần Nó có từ một đến 3 yếu tố được gọi là âm đệm, âm chính và âm cuối Âm đệm là một bán nguyên âm chiếm vị trí trung gian giữa âm đầu và phần còn lại Âm chính là một nguyên âm âm tiết tính
Âm cuối là một phụ âm hoặc bán nguyên âm cuối có vai trò kết thúc âm tiết Để đảm bảo cho tính chất cố định về trường độ của âm tiết, các yếu tố của phần sau có
sự đắp đổi cho nhau về trường độ: nếu nguyên âm dài thì phụ âm hay bán nguyên
âm cuối ngắn và ngược lại nếu nguyên âm ngắn thì âm cuối sẽ dài Các yếu tố của phần sau không có một trường độ cố định và do đó mức độ độc lập về mặt ngữ âm của chúng thấp hơn so với phụ âm mở đầu âm tiết
Hình 2.1- Cấu trúc âm tiết
Tóm lại các yếu tố của âm tiết tiếng Việt có mức độ độc lập khác nhau chia làm hai bậc [4]:
o Bậc 1 là bậc của những yếu tố kết hợp với nhau lỏng lẻo có thể tách rời nhau ra về mặt hình thái học Đó là thanh điệu, âm đầu và phần vần
o Bậc 2 là bậc của những yếu tố kết hợp với nhau khá chặt chẽ, có tính độc lập thấp Đó là các yếu tố của phần vần: âm đệm, âm chính và âm cuối
THANH ĐIỆU
ÂM ĐẦU
VẦN
Âm đệm
Âm chính
Âm cuối
Trang 26Các yếu tố này gắn liền với nhau về mặt ngữ âm do tính chất cố định về trường độ của âm tiết và chỉ được tách ra bằng những ranh giới thuần túy
về mặt ngữ âm học
Số lượng âm tiết trên lí thuyết của tiếng Việt là 11.900, còn số lượng thực tế
là 6.100 So với một số ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3.000-5.000 Ví dụ, tiếng Trung Quốc có số lượng âm tiết theo lý thuyết là 1.620, trên thực tế là 1.255 [7] Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn và chính vì thế nên ít có hiện tượng đồng âm gây trở ngại cho việc nhận diện âm tiết
Âm tiết tiếng Việt có khả năng biểu hiện ngữ nghĩa
Trong tiếng Việt , tuyệt đại đa số các âm tiết đều có nghĩa Số lượng âm tiết tự thân mang nghĩa chiếm tuyệt đại đa số , gần như toàn bộ các âm tiết đều hoạt động như từ Ở đây mối quan hệ giữa âm và nghĩa trong âm tiết cũng chặt chẽ và thường xuyên như trong từ của các ngôn ngữ chấu Âu Điều này làm nên nét đặc trưng chủ loại hình chủ đạo của tiếng Việt [4]
Âm tiết tiết Việt có tính độc lập cao
Trong tiếng Việt, các âm tiết được phát ra hết sức rành rọt, rõ cho nên người nghe có thể nhận biết một cách dễ dàng ranh giới của chúng và số lượng âm tiết trong một câu nói [4] So với các âm tiết trong các ngôn ngữ châu Âu, âm tiết tiếng Việt có tính độc lập cao hơn hẳn (không có hiện tượng bị nhược hóa: nối âm, biến dạng âm trong lời nói)
2.1.3 Âm vị
Âm vị là đơn vị doạn tính nhỏ nhất có chức năng phân biệt nghĩa Âm vị có thể được so sánh như những viên gạch trong việc xác định mỗi ngôn ngữ Các viên gạch thường giống nhau, nhưng các âm vị về nguyên tắc phải khác nhau, ít nhất ở một đặc trưng nào đó Sự khác biệt này tạo ra khác biệt về hình thức âm thanh của hình vị và từ, tạo ra tín hiệu khác biệt đổi với sựa cảm thụ của con người Âm vị có hai chức năng cơ bản là chức năng khu biệt (vỏ âm thanh của hình vị và từ) và chức năng cấu tạo
Hệ thống âm vị của tiếng Việt
Trang 272.1.3.1 Hệ thống âm đầu
Tiếng Việt có tất cả 22 phụ âm làm nhiệm vụ âm đầu So với các thành phần khác như âm đệm, âm chính , âm cuối thì âm đầu có số lượng lớn nhất , do đó âm đầu có chức năng khu biệt lớn hơn cả [4] Dựa vào thành phần này người ta dễ nhận diện âm tiết hơn là dựa vào các thành phần khác
Bảng 2.1 Hệ thống âm đầu
Trong danh sách kể trên, các âm vị /p,r/ không được kể đến trong các âm vị đầu của tiếng Việt vì chúng chỉ tồn tại ở các từ phiên âm tiếng nước ngoài như “ parabol”, “pêlixilin”,”rađiô” Riêng âm /r/ được phát âm rung đầu lưỡi chỉ tồn tại ở một số địa phương nhưng phạm vi rất hạn chế
Trong phát âm tiếng Hà Nội không có loạt âm quặt lưỡi /ƫ,ʐ,ʂ/ Nhưng các
âm này rất phổ biến ở miền Trung và miền Nam, vì vậy không thể không đưa chúng
Trang 28vào hệ thống
Hiện nay hệ thống phụ âm đầu được sử dụng thực tế trong nhà trường và trong các văn bản chung cho các phương ngữ là hệ thống phụ âm đầu được hình thành trên cơ sở phát âm Hà Nội với sự phân biệt các phụ âm ch-tr, x-s gi-r gồm 22 phụ âm sau:/b,m,f,v,t,th
,d,n,s,z,l,/
Hệ thống phụ âm đầu của tiếng địa phương miền Bắc mà cơ sở là phát âm Hà Nội có 19 phụ âm (kể cả âm tắc thanh hầu /ʔ/) Trong phát âm Hà Nội không có loạt phụ âm uốn lưỡi /t,s,z/ Các phụ âm này đều được chuyển thành các âm đầu lưỡi hoặc mặt lưỡi tương ứng /c,s,z/ Ví dụ:
“cha” và “tra” đều được phát âm “cha”/ca/
“sa” và “xa” đều được phát âm thành “xa’ /sa/
Một số âm như k và q, gh và g, ngh và ng là cùng âm vị Tuy nhiên, do khi hình thành chữ quốc ngữ, ngữ âm tiếng Việt chưa được nghiên cứu đầy đủ nên các giáo sĩ đã phải mượn nhiều con chữ ghép trong chữ Bồ Đào Nha, Hi lạp, Pháp dẫn đến sự không đồng nhất khi biểu diễn âm vị
2.1.3.2 Hệ thống âm đệm
Trong tiếng Việt chỉ có một âm đệm là /-u-/ thể hiện trên chữ viết là hai chữ
“u” và “o” Âm đệm có chức năng tu chỉnh, hoàn thiện thêm, làm trầm hóa âm sắc của âm tiết Khác với âm chính luôn nằm ở trên đỉnh âm tiết, quyết định âm sắc chủ yếu của âm tiết Âm đệm trái lại chỉ nằm ở sườn cong đi lên đỉnh âm tiết Trong phát âm Hà Nội, các loạt phụ âm môi như /b,m.v.f/ không phân bố trước âm đệm /u/
vì chúng có cấu âm môi giống nhau Ngoài ra sau các phụ âm /n, ૪/ cũng rất ít xuất hiện trước âm đệm, chỉ vài từ trong “noãn cầu”, “góa ”
2.1.3.3 Hệ thống âm chính
Tiếng Việt có tất cả 13 nguyên âm đơn và 3 nguyên âm đôi làm âm chính [4]
Có 10 nguyên âm được thể hiện bằng một chữ viết, 5 nguyên âm với hai cách thể hiện và nguyên âm đôi /ie/ có tới 4 cách thể hiện
Trang 29Bảng 2.2 Hệ thống âm chính
có thể kết thúc bằng động tác khép lại của bộ máy phát âm với một phụ âm tắc (mũi hoặc miệng) Hệ thống âm cuối trong tiếng Việt ngoài âm cuối zêrô gồm 2 bán âm cuối là /-u, -i/ và 6 phụ âm bao gồm /m, p, n, t,ŋ, k/ [4]
Sự thể hiện bằng chữ viết: Ngoài âm cuối zêro không được ghi lại trên chữ
viết thì cần chú ý 4 trường hợp sau:
- Phụ âm /k/ được ghi bằng ch khi xuất hiện trong những âm tiết có các vần
ich, êch, ach, tức là nó đi sau /i,e, ɛ/ ví dụ: chêch, thích, sạch Ở các âm tiết
khác nó được ghi bằng c, ví dụ: bóc, được, việc, lạc
- Phụ âm /ŋ/ được ghi bằng nh trong những âm tiết có các vần inh, ênh, anh,
Trang 30tức là khi nó đi sau /i,e, ɛ/, ví dụ: mình, khênh, bánh Nó được ghi bằng ng trong các trường hợp khác như vùng vằng, không, hàng
- Bán nguyên âm /-u/ được viết bằng o trong các âm tiết có vần ao, eo, tức là khi nó đi sau /a,ɛ/ như leo cao, trèo, vào Trong các trường hợp khác nó được ghi bằng u như kêu cứu, tiu nghỉu, bêu riếu
- Bán nguyên âm /-i/ được ghi bằng y ở những âm tiết có vần ay, ây như trong mây bay Còn trong các trường hợp khác nó được ghi là i như nói, dài,
rồi
Quy luật phân bố của các âm cuối sau âm chính: Về mặt phân bố, các bán
nguyên âm cuối /-u, -i/ chỉ xuất hiện sau các nguyên âm không cùng âm sắc với nó Bán nguyên âm cuối /-i/ chỉ xuất hiện sau các nguyên âm hàng sau (không trong
môi và tròn môi) như trong : gửi, nơi, ấy, túi Bán nguyên âm /-u/ chỉ xuất hiện sau các bán nguyên âm không tròn môi ví dụ: rêu rao,lâu, keo Sự kết hợp giữa nguyên
âm và bán nguyên âm cuối giống như sự kết hợp giữa âm đệm và nguyên âm làm
âm chính, tuân theo quy luật dị hoá Theo đó, các âm có cấu âm giống nhau hoặc gần nhau không bao giờ được phân bố cạnh nhau
2.1.4 Hiện tƣợng biến đổi ngữ âm
Khái niệm âm tiết liên quan chặt chẽ tới sự biến hóa ngữ âm vì các âm tố lời nói không phát âm đơn lập trong dòng lời nói liên tục Bởi vậy các âm tố có thể ảnh hưởng lẫn nhau , đặc biệt là những âm tố lân cận được phát âm trong cùng một âm tiết, hoặc ở những âm tiết đi liền nhau
Một số hiện tượng biến âm thường gặp trong tiếng Việt:
Hiện tượng thích nghi: Xuất hiện giữa phụ âm và nguyên âm đứng cạnh
nhau Nếu âm tố sau biến đổi cho giống âm tố đi trước, đó là thích nghi xuôi Nếu
âm tố sau biến đổi cho giống âm tố đi sau là thích nghi ngược Trong tiếng Việt, nguyên âm và phụ âm cuối kết hợp với nhau rất chặt chẽ tạo thành vần của âm tiết Hiện tượng thích nghi biểu hiện rõ rệt trong những vần có nguyên âm dòng trước và dòng sau trong môi kết hợp với phụ âm cuối “ng” và “c”
Hiện tượng đồng hóa: cũng là hiện tượng thích nghi như xảy ra giữa các âm
cùng loại: nguyên âm với nguyên âm, phụ âm với phụ âm Trong tiếng Việt hiện
Trang 31tượng đồng hoá thường gặp ở các thanh điệu Ví dụ : muôn vạn ->muôn vàn( âm
tiết thứ hai chuyển từ một thanh trắc sang một thanh bằng để gần với âm tiết thứ nhất)
Hiện tượng dị hóa: là hiện tượng hai nguyên âm hoặc hai phụ âm có cấu âm
gần nhau, một âm biến đi để cho chúng trở nên khác nhau Trong tiếng Việt hiện tượng dị hoá thường xảy ra ở các từ láy theo một quy luật khá chặt chẽ: /p/->/m/, /t/-
>/n/, /k/->/ŋ/ Ví dụ: chiếp chiếp-> chiêm chiếp, rét rét-> ren rét, cạch cạch-> cành
cạch
2.2 Đặc điểm của từ
2.2.1 Định nghĩa từ
Cho đến nay, trong ngôn ngữ học, các định nghĩa về từ đã được đưa ra không
ít Các định nghĩa ấy về mặt này hay mặt kia đều đúng, nhưng đều không đủ và không bao gồm được hết tất cả các sự kiện được coi là từ trong các ngôn ngữ và ngay cả trong một ngôn ngữ cũng vậy [4] Nếu không đòi hỏi thật nghiêm ngặt và chấp nhận một cách nhìn để làm việc thì quan niệm về từ có thể được phát biểu như sau:
"Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh,
có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu" [4]
Có thể rút ra các đặc điểm chính của từ nói chung như sau :
- Về hình thức, từ phải là một khối về cấu tạo (chính tả, ngữ âm )
- Về nội dung, từ phải có ý nghĩa hoàn chỉnh
- Về khả năng, từ có khả năng hoạt động tự do và độc lập về cú pháp
Đối với các từ trong tiếng Việt, ta có thể rút ra những đặc điểm của từ tiếng Việt so với các ngôn ngữ thuộc loại hình khác Tiếng Việt là một ngôn ngữ đơn lập với các đặc điểm chính sau :
- Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp nằm ở ngoài từ
- Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư
- Tồn tại một đơn vị đặc biệt là hình tiết mà vỏ ngữ âm của nó trùng khít với
âm tiết Đơn vị đó còn được gọi là "tiếng"
Trang 32- Không có hiện tượng cấu tạo từ bằng cách ghép thêm phụ tố vào gốc từ
2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt
Đối với từ trong tiếng Việt, dến nay có một số quan điểm sau:
- Coi mọi tiếng đều là từ (Nguyễn Thiện Giáp) Điều này thuận tiện trong xử lí nhưng không đúng với tiêu chí ngôn ngữ học đại cương vì có nhiều tiếng không có nghĩa như "phê " trong "cà phê", "bù" trong "bù nhìn",
- Coi tiếng chưa hẳn là từ (phần lớn các nhà Việt ngữ học có quan điểm này)
- Xem tiếng châu Âu (Anh, Pháp ) cái nào là từ thì trong tiếng Việt cái đó là
từ Quan điểm này chưa xét đến sự khác biệt về sự từ vựng hóa giữa hai ngôn ngữ do sự khác biệt về văn hóa
Theo quan điểm ngôn ngữ học đại cương, từ được cấu tạo bởi các hình vị và hình vị chính là các đơn vị có nghĩa nhỏ nhất Vì vậy, từ trong tiếng Việt cũng phải được cấu tạo bởi các hình vị nêu trên, nhưng có điều khác là các hình vị thành phần
ở đây không hoàn toàn giống khái niệm hình vị của ngôn ngữ học đại cương mà là
"hình vị tiếng Việt" hay còn gọi là "hình tiết" (morphemsyllable) hay "tiếng" (vì chỉ tiếng Việt mới có đơn vị tiếng đặc biệt như vậy)
2.2.3 Phương thức cấu tạo từ
Tài liệu vật chất trực tiếp hay là đơn vị cơ sở của cấu tạo từ Việt là tiếng
Tiếng có thể có nghĩa đủ rõ, tiếng có thể mang nghĩa đã phai mờ và tiếng có thể tự mình không có nghĩa [1] Từ tiếng Việt được cấu tạo hoặc là bằng cách dùng một tiếng, hoặc là tổ hợp các tiếng lại theo một cách nào đó
Từ đơn: Phương thức dùng một tiếng làm một từ cho ta từ đơn Vậy từ đơn ở
đây được hiểu là những từ được cấu tạo bằng một tiếng Ví dụ: cây, nhà, người, đi,
chạy
Từ ghép: Phương thức tổ hợp (ghép) các tiếng lại cho ta từ ghép Dựa vào
tính chất của mối quan hệ về nghĩa giữa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt như sau:
- Từ ghép đẳng lập: đây là những từ mà thành tố cấu tạo có quan hệ
bình đẳng với nhau về nghĩa, ví dụ: ăn ở, cá mú, xe cộ, áo xống Từ
ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp Đây là đặc điểm
Trang 33chỉnh để phân biệt nó với từ ghép chính phụ
- Từ ghép chính phụ: là những từ ghép mà có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia Thành tố phụ có vai trò phân loại,
chuyên biệt hoá và sắc thái hoá cho thành tố chính Ví dụ: tầu hoả, lão
hoá, đỏ rực
Từ láy: Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta từ
láy Số lượng từ láy trong tiếng Việt rất lớn, khoảng 4.000 từ Mỗi từ láy do cách cấu tạo đặc thù của mình đều gồm có hai phần: phần gốc là phần làm cơ sở cho sự láy, và phần láy là phần lặp lại của phần gốc Quan hệ ngữ âm trong từ láy thể hiện
ở hai mặt:
1 Tương ứng về yếu tố siêu đoạn tính (thanh điệu)
2 Tương ứng về yếu tố âm đoạn tính (phụ âm đầu, vần và các yếu tố trong vần)
Các thành tố của từ láy thường phải có thanh thuộc cùng một âm vực hoặc thuộc âm vực cao (ngang, hỏi, sắc); hoặc thuộc âm vực thấp (huyền, ngã, nặng) Các từ láy có nhiều kiểu, bao gồm láy toàn bộ và láy bộ phận (láy vần, láy phụ âm đầu) Luật hài thanh của mỗi kiểu láy có đặc điểm riêng:
- Trong các từ láy toàn bộ, âm tiết đầu thường là một trong các thành bằng (1,2), còn âm tiết thứ hai thường là một trong các thanh trắc (3, 4, 5, 6) cùng
- Trong các từ láy phụ âm đầu, thanh điệu của hai âm tiết không bắt buộc phải giống nhau, chỉ cần hai thanh điệu ở hai âm tiết cùng âm vực là được
2.3 Chữ viết và chính tả tiếng Việt
Chính tả là sự chuẩn hoá hình thức chữ viết của ngôn ngữ Đó là một hệ thống
Trang 34các quy tắc về các viết các âm vị, âm tiết, từ, cách dùng các dấu câu, lối viết hoa Chuẩn chính tả có những đặc điểm chính sau [4]:
1 Tính chất bắt buộc Chữ viết có thể chưa hợp lí nhưng khi đã được thừa nhận là chuẩn chính tả thì người viết không được tự ý viết khác
đi Đối với chính tả, tiêu chuẩn cao nhất là cách viết thống nhất, thống nhất trong mọi văn bản, mọi người và mọi địa phương
2 Tính chất ổn định Do có tính chất bắt buộc nên chuẩn chính tả ít bị thay đổi như các chuẩn mực khác của ngôn ngữ Sự tồn tại hàng trăm năm của chuẩn chính tả gây nên một cách viết bảo thủ lạc hậu với sự phát triển của ngữ âm Đây là nguyên nhân chính làm cho chính tả trở nên rắc rối
3 Ngữ âm phát triển, chính tả không thể giữ mãi tính chất cố hữu của mình mà cũng dần có một sự biến động nhất định Do đó bên cạnh các chuẩn mực chính tả hiện có mà có thể xuất hiện một cách viêt mới tồn
tại song song với nó Ví dụ, cách viết fẩm zá, fi fàm bên cạnh phẩm giá
1 Trong chính tả hiện nay đang có những trường hợp cùng một âm vị nhưng viết tuỳ tiện theo hai cách khác nhau Đó là cách viết lung tung
i/y và d/gi Ví dụ hi sinh/hy sinh, giàn/dàn, vật lí/ vật lý Đây là hai
trường hợp được viết không thống nhất ở nhiều người, thậm chí trong một người ở những thời điểm khác nhau, trên những văn bản khác nhau
2 Cách viết không thống nhất đối với những âm tiết khó xác định một chuẩn mực phát âm cụ thể, tức là những tiếng chưa có cách phát âm ổn định và những tiếng có vài ba biến thể phát âm địa phương khác nhau,
ví dụ: chưng/trưng bày, nhất định/nhứt định, bảy/bẩy, lĩnh/lãnh
Trang 353 Lối viết hoa tuỳ tiện Cụ thể như sau:
- Viết hoa tên người: Phan Vũ Diễm Hằng/ Phan vũ diễm Hằng/ Phan
vũ Diễm Hằng
- Viết hoa tên đất: Hải phòng/ Hải Phòng
- Viết hoa tên các cơ quan, tổ chức, xí nghiệp: Bộ chính trị/ Bộ Chính
trị/ Bộ Chính Trị/ bộ Chính Trị
4 Vấn đề tên riêng nước ngoài (tên người, tên đất) và các thuật ngữ khoa học kĩ thuật càng phức tạp Các tên này trong các văn bản tiếng Việt thường được viết theo nhiều cách khác nhau:
Dịch nghĩa: biển Đen/ Hắc Hải
Chuyển tự: Mockba->Moskva
Phiên âm: Mêhicô, Napôlêông
5 Vấn đề dùng dấu nối hay không dùng dấu nối: Hải Phòng/ Hải-Phòng,
Rumani/Ru-ma-ni
Những cách viết không thống nhất trên đòi hỏi phải được chuẩn hoá càng nhanh càng tốt Sau đây là một số quy định đã được đông đảo các nhà nghiên cứu ủng hộ [4]:
1.Thống nhất viết nguyên âm – âm chính /i/ bằng chữ cái "i" Ví dụ: lí
luận, kĩ thuật, Khi cần phân biệt ui với uy như trong túi với tuý thì vẫn
viết như cũ i hoặc y đứng một mình hoặc đứng đầu âm tiết vẫn viết theo thói quen cũ, ví dụ: ý kiến, ầm ĩ, yêu
2.Khi trong thực tế đang tồn tại hai hình thức chính tả mà chưa xác định được một chuẩn duy nhất thì có thể chấp nhận cả hai hình thức ấy, ví dụ:
eo sèo/eo xèo; sứ mạng/ sứ mệnh
4 Về việc dùng dấu nối:
- Dùng dấu nối trong các liên danh như : cách mạng khoa học-kĩ thuật
- Dùng dấu nối khi chỉ giới hạn về không gian, thời gian, số lượng , ví
dụ: chuyến tàu Hà Nội - Lao Cai, thời kì 1945-1954, sản lượng 5-7
tấn
- Khi cần phân biệt ngày tháng năm: 2-9-1945, 30-4
Về qui tắc viết chữ hoa
Trang 36Viết hoa tên người:
-Tên người Việt Nam, Trung Quốc (đọc theo âm Hán – Việt) bao gồm tên thật, tên tự, tên hiệu, đều viết hoa tất cả các chữ đầu của âm tiết và không dùng
gạch nối Ví dụ: Trần Quốc Tuấn; Nguyễn Du, tự Tố Như, hiệu Thanh Hiên
-Một số tên gọi vua chúa, quan lại, trí thức Việt Nam, Trung Quốc thời phong kiến được cấu tạo theo kiểu danh từ chung (đế vương, hoàng hậu, tông, tổ, hầu, tử, phu tử, ) kết hợp với danh từ riêng thì viết hoa tất cả các chữ đầu của âm tiết, ví
dụ: Mai Hắc Đế, Đinh Tiên Hoàng, Hùng Vương, Lạc Long Quân, Bố Cái Đại
Vương, Lê Thái Tổ, Lê Thánh Tông, Phù Đổng Thiên Vương, Khổng Tử, La Sơn Phu Tử
- Một số tên người Việt Nam cấu tạo bằng cách kết hợp một danh từ chung (ví dụ: ông, bà, thánh, cả hoặc từ chỉ học vị, chức tước, ) với một danh từ riêng dùng
để gọi, làm biệt hiệu, thì danh từ chung đó cũng viết hoa Ví dụ: Bà Trưng, Ông
Gióng, Cả Trọng, Đề Thám, Lãnh Cồ, Cử Trị, Nghè Tân, Trạng Lường, Đồ Chiểu,
Tú Xương, Đội Cấn,
Viết hoa tên địa lí:
-Tên địa lí Việt Nam và tên địa lí đọc theo âm Hán - Việt viết hoa các chữ đầu
của âm tiết và không dùng gạch nối, ví dụ: Hà Nội, Trung Quốc, Trường Giang,
- Tên địa lí thế giới phiên gián tiếp qua tiếng Hán và đọc theo âm Hán - Việt
cũng viết hoa tất cả các chữ cái đầu của âm tiết và không dùng gạch nối, ví dụ: Hà
Lan, Phần Lan, Na Uy, Thuỵ Điển, Đan Mạch, Ai Cập, Bồ Đào Nha,
- Từ chỉ phương hướng kết hợp với từ chỉ phương hướng hoặc một từ chung đơn tiết nào đó dùng để chỉ một vùng, một miền, một khu vực nhất định thì viết hoa
tất cả các thành phần của nó, ví dụ: Tây Bắc Kỳ, Đông Nam Kỳ, Bắc Trung Bộ, Nam
Trung Bộ, Bắc Hà, Nam Hà, Đàng Trong, Đàng Ngoài, Đông Nam Bộ, Trường Sơn Tây, Bắc Bán Cầu, Nam Bán Cầu, Bắc Cực, Trung Phi, Cận Đông, khu Đông Bắc, vùng Tây Nam, quan hệ Đông - Tây, đối thoại Bắc - Nam, các nước phương Đông, văn học phương Tây,
- Địa danh Việt Nam cấu tạo bằng cách kết hợp danh từ chung (biển, cửa, bến, vũng, lạch, vàm, buôn, bản, vv.) với danh từ riêng (thường chỉ có một âm tiết
Trang 37thì viết hoa tất cả các chữ đầu tạo nên địa danh đó, ví dụ: Cửa Lò, Bến Nghé, Vũng
Tàu, Lạch Trường, Vàm Cỏ, Vàm Láng, Buôn Hồ, Bản Keo, Sóc Trăng,
Tên các tổ chức:
- Tên các tổ chức được viết hoa chữ đầu của thành tố đầu và các từ, cụm từ
cấu tạo đặc trưng (nét khu biệt) của tổ chức và tên riêng nếu có Ví dụ: Chính phủ
Việt Nam, Quốc hội Việt Nam, Mặt trận Tổ quốc Việt Nam, Đảng Cộng sản Việt Nam, Trường Đại học Tổng hợp Hà Nội, Nhà Xuất bản Từ điển bách khoa, Đài Truyền hình Việt Nam, Ban Tổ chức Trung ương, nước Cộng hoà Hồi giáo Pakixtan
Viết hoa các trường hợp khác:
-Tên các năm âm lịch: viết hoa cả hai âm tiết Ví dụ: năm Kỉ Tị, Cách mạng
Tân Hợi, Cuộc chính biến Mậu Tuất, Tết Mậu Thân
-Tên các ngày tiết và ngày tết: viết hoa âm tiết thứ nhất Ví dụ: tiết Lập xuân,
tiết Đại hàn, tết Đoan ngọ, tết Trung thu, tết Nguyên đán
-Từ chỉ số trong những đơn vị là tên gọi các sự kiện lịch sử: không viết bằng
con số mà viết bằng chữ hoa Ví dụ: Cách mạng tháng Tám, Cách mạng Xã hội chủ
nghĩa tháng Mười
- Tên gọi một số thời kì lịch sử, sự kiện lịch sử có ý nghĩa quan trọng: viết
hoa âm tiết đầu Ví dụ: thời kì Phục hưng, Chiến tranh thế giới I, phong trào Cần
vương
- Viết hoa tên các ngành, lớp, bộ, họ, giống (chi) trong phân loại sinh vật Ví
dụ: họ Kim giao; bộ Mười chân, lớp Thân mềm; chi Tôm he; lớp Nhện; cây họ Đậu;
họ Dâu tằm
- Tên các niên đại địa chất: viết hoa chữ đầu của âm tiết thứ nhất, ví dụ: đại
Cổ sinh, kỉ Cacbon, loài người xuất hiện từ đầu kỉ Đệ tứ
- Tên gọi các huân chương, huy chương, danh hiệu vinh dự, viết như sau:
huân chương Độc lập, Sao vàng, Cờ đỏ, Lênin, Hồ Chí Minh; huân chương Quân công, Chiến công, Kháng chiến, Chiến sĩ vẻ vang; Kỉ niệm chương; Tổ quốc ghi công; Bảng vàng danh dự; giải thưởng Nhà nước; danh hiệu Nghệ sĩ nhân dân, Nhà giáo nhân dân, Thầy thuốc nhân dân, Anh hùng lao động
Trang 38- Tên gọi các tôn giáo, giáo phái viết bằng tiếng Việt hoặc Hán - Việt: viết
hoa tất cả các chữ đầu của âm tiết, ví dụ: Tin Lành, Cơ Đốc, Thiên Chúa, Hoà Hảo,
Cao Đài, Bà La Môn, Tiểu Thừa, Đại Thừa, Mật Tông, Thiền Tông, Chú ý: Nho giáo, Thiên Chúa giáo, đạo Hồi, Hồi giáo
- Tên các tác phẩm, sách báo, văn kiện, để trong ngoặc kép và viết hoa như sau:
+ Nếu tên người, tên địa lí, tên triều đại, dùng làm tên tác phẩm thì viết
hoa tên người, tên địa lí, tên triều đại đó, ví dụ: “Thạch Sanh”, “Hồ Chí
Minh toàn tập”, “Nghệ An” , “Lĩnh Nam chích quái”, “Việt sử lược”,
“Hậu Hán thư”, “Tam Quốc chí”
+ Ngoài các trường hợp trên, chỉ viết hoa âm tiết thứ nhất, ví dụ: “Làm gì”,
báo “Nhân dân”, tạp chí “Khảo cổ học”, “Dư địa chí”, “Hiến pháp nước Cộng hoà Xã hội chủ nghĩa Việt Nam”, “Luật tổ chức Quốc hội và Hội đồng Nhà nước”
- Tên chức vụ, học vị chung không viết hoa, ví dụ: tổng thống, chủ tịch, tổng
bí thư, đại sứ, thái thú, tổng đốc, tiến sĩ, cử nhân, viện sĩ,
Trong việc chuẩn hoá chỉnh tả và cải tiến chữ viết còn nhiều vấn đề cần tiếp
tục thảo luận, nghiên cứu, chẳng hạn viết d/gi thống nhất bằng z; dùng f thay cho
ph; bỏ h trong gh, ngh; thống nhất dùng một trong ba cách viết c, k, q
Ngoài ra việc không thống nhất trong việc bỏ dấu các thanh điệu cũng gây nhầm lẫn trong quá trình xử lí
Trang 39Một bộ phân tích văn bản điển hình được mô dun hóa thành các thành phần như sau [15]:
3.1 Các modul
Bộ phân tích văn bản chịu trách nhiệm về tất cả vấn đề về văn bản, thực hiện
sự phân tích ngữ nghĩa và cú pháp tỉ mỉ để xác định các tính chất trợ giúp cho quá trình phân tích ngữ âm hiệu quả từ đó có thể thể hiện được sự phát âm chính xác và phát sinh ngôn điệu một cách hợp lý
Xác định cấu trúc văn bản
Chuẩn hóa văn bản
Phân tích ngôn ngữ
Modul phân tích văn bản
Văn bản thô
Văn bản được gán nhãn
Văn bản được gán nhãn Hình 3.1 Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm
Từ điển
Trang 40Trong hình 3.1, phân tích văn bản cho TTS đòi hỏi 3 quá trình liên quan sau [15]:
- Xác định cấu trúc văn bản: cấu trúc văn bản là rất quan trọng nhằm cung
cấp một ngữ cảnh cho tất cả các quá trình sau đó Một số thành phần của cấu trúc văn bản như ngắt câu và các đoạn có thể trực tiếp liên quan đến ngôn điệu
- Chuẩn hóa văn bản: Chuẩn hóa văn bản là biến đổi từ nhiều ký hiệu khác
nhau như con số, các thực thể phi chính tả khác của văn bản thành một phiên
âm chính tả nói chung phù hợp cho biến đổi thành chuỗi ngữ âm
- Phân tích ngôn ngữ học: phân tích ngôn ngữ là xác định các điều khoản cú
pháp và các đặc trưng ngữ nghĩa về từ , cụm từ, mệnh đề và câu mà quan trọng cho cả phát âm và ngôn điệu trong các quá trình tiếp theo
Nhiệm vụ của phân tích ngữ âm là biến đổi các ký hiệu chính tả từ vựng thành âm vị cùng với các thông tin về dấu thanh có thể có như vị trí của trọng âm Phân tích ngữ âm thường quy về biến đổi tự vị thành âm vị Mục đích là rõ ràng, vì các âm vị là đơn vị cơ bản của âm thanh như đã mô tả trong chương 2 Biến đổi tự
vị thành âm vị là bình thường cho các ngôn ngữ mà có quan hệ đơn giản giữa chính
tả và âm vị học Có 3 dịch vụ sau cần thiết để sản sinh ra các phát âm chính xác:
- Xử lí nhập nhằng từ đồng dạng: modul này là rất quan trọng cho các ngôn
ngữ Ấn-Âu khi có nhiều từ đồng dạng nhưng phát âm có thể là khác nhau như object (/ah b jh eh k t/ là một động từ hoặc như một danh từ /â b jh eh k t/) Với tiếng Việt tỏ ra không quan trọng, bởi vì với tiếng Việt là ngôn ngữ ghi âm, viết như thế nào sẽ đọc như thế
- Phân tích hình vị : Phân tích các hình vị cung cấp tín hiệu quan trọng để đạt
được các phát âm cho chuyển điệu và tìm ra nguồn gốc các từ Trong tiếng Việt không có sự biến đổi về hình vị từ Phương pháp ngữ pháp nằm ngoài
từ Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư
- Biến đổi chữ viết về dạng phát âm: Giai đoạn cuối cùng của phân tích ngữ
âm nói chung bao gồm các quy tắc hoặc modul LTS và một từ điển để cho đầu ra là các phát âm chính xác cho bất kỳ một từ nào Như đã nói , tiếng Việt là ngôn ngữ ghi âm , nên không khó khăn trong việc đưa từ tự vị về dạng âm vị để phát âm cho chính xác
Tất cả các quá trình trên trong các pha phân tích ngữ âm và phân tích văn bản