Trong phƣơng pháp tổng hợp cấu âm thì việc thu thập dữ liệu và cài đặt tập luật theo dữ liệu chuẩn rất phức tạp. Nó hầu nhƣ không thể mô hình hóa đƣợc đa số sự cử động của lƣỡi hoặc đặc trƣng khác của hệ thống phát âm một cách đầy đủ.Do vậy, phƣơng pháp này cực kỳ phức tạp.
Trong phƣơng pháp tổng hợp Formant, tập luật điều khiển các tần số formant, biên độ và các đặc trƣng nguồn kích thích là lớn. Hạn chế của phƣơng pháp này là giọng nói nghe không rõ, máy móc, không tự nhiên đặc biệt với các âm mũi. Hơn nữa, vì là tổng hợp theo luật nên không thể có đƣợc tập luật đầy đủ bao hết đƣợc mọi giọng nói. Ƣu điểm nổi bật của phƣơng pháp này là khả năng thay đổi giọng ngƣời nói chỉ bằng việc điều khiển các tham số. Một số hệ thống tổng hợp sử dụng phƣơng pháp tổng hợp formant nhƣ hệ tổng hợp Klatt, Mutivox, DECtalk.
Trong luận văn chủ yếu quan tâm vào cải tiến cho tổng hợp ghép nối nên đặc biệt chú ý những nhƣợc điểm của phƣơng pháp này. Tổng hợp ghép nối đƣợc sử dụng phổ biến nhất do tiếng nói tự nhiên. Tuy nhiên, nó cũng có một số
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhƣợc điểm chính sau đây: đòi hỏi cơ sở dữ liệu tiếng nói lớn (chi phí về thu âm và phân tích cơ sở dữ liệu tiếng nói rất lớn), khi ghép nối các thành phần âm thanh đã phân đoạn thì kết quả thƣờng không thỏa mãn vì sự gián đoạn ở biên của âm thanh làm nhiễu. Sự gián đoạn có thể xảy ra theo một số yếu tố sau đây:
● Biên độ:
Sự gián đoạn biên độ có thể nhìn thấy trên miền thời gian. Chúng có thể rất dài, nếu biên độ ở cuối phát âm và ở đầu âm tiết thì các âm tiếp theo mạnh rõ rệt. Có thể nghe rõ nhƣ là bị vỡ. Hình 1.2 biểu diễn gián đoạn biên độ trong miền thời gian.
Hình 2.2: Gián đoạn biên độ. ● Năng lượng
Sự không liên tục của năng lƣợng sinh ra âm lƣợng khác nhau của tiếng nói. Sự thay đổi lớn thƣờng tồn tại theo thời gian. Hình biểu diễn sự gián đoạn của năng lƣợng trong miền thời gian và hình 1.3 là năng lƣợng theo thời gian.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 2.3: Gián đoạn năng lƣợng (miền thời gian).
Hình 2.4: Gián đoạn năng lƣợng.
Khả năng của tổng hợp ghép nối sinh tiếng nói chất lƣợng cao còn phụ thuộc vào chất lƣợng đoạn tiếng nói trong cơ sở dữ liệu. Các đoạn tiếng nói thể hiện một số tính chất cơ bản:
- Cho phép tính toán những ảnh hƣởng của các phát âm khác, - Dễ kết nối, hạn chế việc làm trơn trong ghép nối,
- Không mất thông tin, cơ sở dữ liệu không lớn
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
hơn.
Việc dùng đơn vị dài hơn làm giảm lỗi ghép nối dẫn đến cơ sở dữ liệu lớn hơn trong khi ứng dụng yêu cầu giảm bộ nhớ. Vì vậy cần phải cân bằng giữa hai yếu tố.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG 3
CHUẨN HOÁ VĂN BẢN VÀ THUẬT TOÁN PHÂN TÍCH VĂN BẢN 3.1 Tổng quan
Chuẩn hóa văn bản giúp cho bộ tổng hợp tiếng nói có khả năng hiểu đƣợc cấu trúc và thành phần văn bản cũng nhƣ đƣợc hƣớng dẫn về cách đọc văn bản. Các yếu tố nhập nhằng trong văn bản là khó khăn chính cho việc chuẩn hóa.Chƣơng 3 sẽ đƣa ra giải pháp để giải quyết các vấn đề của bài toán chuẩn hóa văn bản trong tiếng Việt.
3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt
3.2.1 Bài toán chuẩn hóa văn bản tiếng Anh
Mô hình chuẩn hóa văn bản cho tiếng anh đƣa ra trong báo cáo cuối cùng của trƣờng đại học Johns Hopkins University tại Johns Hopkins University Summer Workshop 1999Error! Reference source not found. đã giải quyết bài toán chuẩn hóa văn bản cho tiếng Anh nói riêng. Nhƣng mô hình này đã trở thành một mô hình cơ bản mà nhiều nghiên cứu trên các ngôn ngữ khác đều lấy để tham khảo nhƣ tiếng Trung, Nhật, Hindi và Bangla.
Hình 3-1 Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Error! Reference source not found..
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Theo mô hình này, văn bản đầu vào đƣợc đƣa qua một bộ phân tách từ là Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc này là các token đã đƣợc phân tách sẽ đƣợc đƣa qua bộ Splitter để chia các token phức ra thành các token nhỏ hơn. Khi các token đã đƣợc phân tách hoàn toàn, chúng đƣợc đƣa qua bộ Classifier để phân loại. Đầu ra của Classifier là một dãy các token đã đƣợc tag (đánh dấu) tƣơng ứng với loại của NSW mà nó thuộc về. Bộ phận có tên Tag Expanders sẽ sinh ra một tập ứng viên đầu ra cho mỗi NSW. Cuối cùng mô hình ngôn ngữ Language Model sẽ đƣợc sử dụng để lựa chọn ứng viên thích hợp nhấtError! Reference source not found..
3.2.2 Đặc điểm văn bản tiếng Việt
Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chƣa áp dụng ngay đƣợc cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã trình bày ở chƣơng 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết tắt khác nhau của tiếng Việt và tiếng Anh. Nhƣng trình tự và thành phần các mô-đun trong mô hình này có thể đƣợc tham khảo và sửa đổi để ứng dụng phù hợp cho tiếng Việt, vừa giải quyết đƣợc các vấn đề chung của bài toán chuẩn hóa văn bản, vừa đáp ứng đƣợc những yêu cầu riêng trong tiếng Việt.
3.2.3.Sự tổ chức không có quy chuẩn của một token
Trong văn bản tiếng Việt có nhiều trƣờng hợp một tổ hợp chữ (hay một token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ nhƣ trong các loại số điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi trình bày bị viết tách nhau ra nhƣ “ngày 1/ 5”… Do đó không thể áp dụng việc dùng dấu cách để xác định các token ngay đƣợc. Những trƣờng hợp nhƣ trên cần phải đƣợc nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443”, “100000” hoặc “100.000” và “1/5”.
Ngoài những trƣờng hợp phải gộp lại, còn có những trƣờng hợp khác có nhiều hơn 1 token bị “dính” vào nhau nhƣ ở giao giữa hai câu “phƣờng Định
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Công,Hà Nội”, ở đây đúng chính tả là “phƣờng Định Công, Hà Nội” và để tiện cho việc tách token bằng dấu cách thì có thể viết thành “phƣờng Định Công , Hà Nội”, nhƣng việc thêm dấu cách đó lại không nên áp dụng cho trƣờng hợp địa chỉ email hay url, ví dụ alex@gmail.com thì không nên tách thành alex@gmail . com, sẽ làm mất ý nghĩa của token.
Nhƣ vậy, để có thể tách đƣợc chính xác các token trong tiếng Việt thì cần phải nhận biết đƣợc những trƣờng hợp nào cần tách ra, trƣờng hợp nào cần nhóm lại trƣớc khi tiến hành phân tách token. Do đó cần thiết thêm vào bƣớc “Chuẩn phân tách” trong mô-đun Tokenizer. Bƣớc chuẩn hóa phân tách này cần nhận ra đƣợc các nhóm số để gộp chúng lại thành một token, nhận ra url, email để không tách chúng ra thành nhiều token, nhận ra các trƣờng hợp viết “dính” vào nhau của các token để tách chúng ra, ngoài ra các trƣờng hợp có nhiều hơn một dấu trắng phân cách là trƣờng hợp sai chính tả sẽ đƣợc loại bớt dấu trắng đi.
3.2.3.1 Sự phức tạp của NSW
Trong văn bản tiếng Việt có những trƣờng hợp phải tách một token ra để có thể đọc lên đƣợc bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trƣờng hợp phải tách ra nhƣ thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên âm các thành phần của nó, khi bản thân token đó đã đƣợc nhận ra nhƣng chƣa thể phiên âm đƣợc. Đó là các trƣờng hợp chỉ thời gian (12:00-3:00), tiền tệ ($975K- $1,595,000) hay các loại đơn vị khác. Vì vậy trong mô hình chuẩn hóa tiếng Việt cần có công đoạn nhận dạng, đánh dấu và phân tách các NSW phức này.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.2.3.2 Xử lý các NSW khác nhau
NSW trong văn bản rất đa dạng. Mỗi loại NSW lại có cách xử lý khác nhau. Có phân loại đúng các NSW thì mới đƣa ra đƣợc cách đọc đúng cho văn bản. Lấy ví dụ trong tiếng Việt, nếu token “8/3” thuộc loại ngày tháng, nó sẽ đƣợc đọc là “mồng tám tháng ba”, nhƣng nếu thuộc loại phân số, nó sẽ đƣợc đọc là “tám phầm ba”, nếu thuộc loại tỷ lệ, nó sẽ đọc là “tám trên ba”. Tiếng Anh cũng có sự nhập nhằng tƣơng tự. Vì vậy việc phân loại đúng đƣợc các NSW để xử lý về sau là vấn đề rất quan trọng trong bài toán chuẩn hóa văn bản các ngôn ngữ. Mô hình chuẩn hóa của tiếng Anh dùng mô-đun Classifier để phân loại cho các NSW mà bỏ qua việc xác định các NSW. Trong bộ chuẩn hóa văn bản tiếng Việt, bƣớc xác định NSW sẽ đƣợc bổ xung vào trƣớc khi phân loại chúng.
3.2.3.3 Vấn đề phân loại NSW
Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số thuộc tính độc lập đƣợc thể hiện ở bản thân nó, đó là độ dài token, thành phần token có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ viết hoa không, có đƣợc viết hoa toàn bộ hay không. Những thuộc tính này cũng đƣợc áp dụng để xét cho một khung nhìn bao gồm 2 token liền trƣớc và 2 token liền sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc nhƣ tính ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ đƣa ra một hệ thống phân loại chi tiết cho các NSW
3.2.3.4.Vấn đề mở rộng NSW
Trong bƣớc Tag Expander xác định cách đọc thì việc xác định cách đọc cho từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các trƣờng hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt nhƣng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công đoạn này thành một bƣớc riêng.
Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa phù hợp cho văn bản tiếng Việt nhƣ sẽ trình bày ở mục 2.3 sau đây.
3.3.Giải pháp đề xuất
Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết đƣợc những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc thù trong tiếng Việt. Đó là phải xử lý đƣợc những trƣờng hợp không thể áp dụng luật phiên âm để đƣa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc nhƣ một dãy kí tự (WTO, NATO, TP, TS…), các từ mƣợn (karaoke, auto,
version…), các từ phức nhƣ 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ URL…
Việc xử lý các NSW trong tiếng Việt có nhiều vấn đề phức tạp vì sự phong phú và các thuộc tính địa phƣơng của nó. Nhiều phân loại nhỏ đƣợc sử dụng có cách phiên âm dựa trên những tiếng cơ bản khá khác với cách phát âm ban đầu trong từ điển. Thêm vào đó có một mức độ nhập nhằng khá cao trong việc phát âm khiến cho nhiều trƣờng hợp có hơn một cách phát âm, và việc phát âm sao cho đúng phụ thuộc vào ngữ cảnh của từ đó. Trƣờng hợp điển hình là một số “2010” có thể đọc nhƣ một số số học là “hai nghìn không trăm mƣời” hoặc nhƣ dãy số trong một mã là “hai không một không”. Các từ viết tắt cũng có nhiều sự nhập nhằng khi ứng với mỗi từ viết tắt cũng có nhiều ứng cử viên cho từ đầy đủ của nó. Những sự nhập nhằng và phức tạp đó đòi hỏi phải xét tới yếu tố ngữ cảnh trong văn bản đầu vào. Và vì thế mô hình cần có khả năng học dựa trên ngữ cảnh xuất hiện các NSW.
3.3.1.Phân loại các từ chƣa chuẩn hóa cho tiếng Việt
Để đáp ứng yêu cầu này trƣớc tiên cần phải có một hệ thống phân loại rõ ràng các NSW để có biện pháp xử lý riêng rẽ với từng loại NSW đảm bảo nội dung
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
văn bản đƣợc hiểu một cách đúng đắn. Dƣới đây là bảng phân loại các NSW cho các NSW tiếng Việt.
Bảng 3-1 Bảng phân loại NSW
Nhóm Loại Mô tả Ví dụ
Số
NTIM Thời gian giờ 1:30
NDAT Ngày tháng năm 17/3/87, 1/3/2010
NDAY Ngày và tháng 17/3, 03-05/3
NMON Tháng và năm 3/88, 5/2011
NNUM Số số học 2009, 70.000
NTEL Số điện thoại 0915.334.577
NCODE Số hiệu, mã số VN534
NSCR Tỉ số Tỉ số là 3-5
NRNG Miền giá trị Từ 3-5 ngày
NPER Số phần trăm 93%, 30-40%,
NFRC Phân số 34/6, 6/145
NCOM Hỗn hợp 2x2x3, 18+, 2*3
NADD Địa chỉ Ngách 128/27/2A
NSIG Kí hiệu m2, m3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Nhóm Loại Mô tả Ví dụ
LSEQ Dãy các ký tự ODA, GDP
GREE Số Hi Lạp I, II
LABB Viết tắt TS (tiến sĩ)
Khác
PUNC Dấu câu đọc đƣợc … ( ) [ ] „ ‟ “ ” - /
SENT Dấu phân tách câu . ? ! …
PARA Dấu phân tách
đoạn
Dấu enter
URLE Địa chỉ url, email http://soict.hut.vn
MONY Tiền tệ 2$, $2, 100 ¥,
DURA Trƣờng độ (nghỉ) “-” in scores (2-3)
NONE Bỏ qua asscii art…
Các NSW ban đầu đƣợc chia vào ba nhóm chính là nhóm Số, nhóm Chữ, và nhóm Khác.
Nhóm số đƣợc bao gồm những token có chứa ký tự là số. Nó bao gồm các loại nhỏ hơn là:
- NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tƣơng ứng với “chín giờ ba mƣơi phút”)
- NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tƣơng ứng với “ngày mƣời bảy tháng ba năm một nghìn chin trăm tám mƣơi bảy/một chin tám bảy/tám bảy”)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- NDAY chỉ ngày và tháng (“17/03” hay “17/3” tƣơng ứng với “ngày mƣời bảy tháng ba”)
- NMON chỉ tháng và năm (“03/87” hay “3/87” tƣơng ứng với “tháng ba năm tám mƣơi bảy”)
- NNUM là số số học (“200.000” hay “200 000” tƣơng ứng với “hai trăm nghìn”) - NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tƣơng ứng với “ba tám (nghỉ) sáu tám (nghỉ) ba chin (nghỉ) ba chin”)
- NCODE cho dãy số chỉ kí hiệu (“mã số 999” tƣơng ứng là “mã số chin chin