tóm tắt luận văn thạc sĩ kỹ thuật NGHIÊN cứu một số PHƯƠNG PHÁP TỔNG hợp TIẾNG nói

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP NGUYỄN ĐỨC THỌ NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN 2013 BẢNG TÓM TẮT LUẬN VĂN CAO HỌC Ngành : Kỹ thuật điện tử - Khóa 13 1. Tên luân văn NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 2. Người thực hiện: KS.Nguyễn Đức Thọ 3. Thông tin liên quan Email: nguyenductho404@gmail.com Điện thoại di động: 0982108055 4. Tóm tắt nội dung: CHƯƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI 1.1.Giới thiệu về tổng hợp tiếng nói 1.1.1.khái niệm về tổng hợp tiếng nói Tổng hợp tiếng nói là việc tạo ra tiếng nói con người từ đầu vào là văn bản hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tương ứng. Tổng hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận dạng và tổng hợp tiếng nói. Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang tín hiệu tiếng nói. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ giống nhau của nó với giọng nói con người. Ứng dụng của Hệ thống tổng hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống này trong các hệ thống, thiết bị sử dụng tương tác người máy bằng tiếng nói (robot thông minh, hệ thống dẫn đường, hệ thống khai thác thông tin), hệ thống hỗ trợ cho người khiếm thị, người khuyết tật mất khả năng nói. Nhiều hệ điều hành đã bao gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980. 1.1.2.Mô hình của một bộ tổng hợp tiếng nói - 1 - Hình 1.1:Mô hình hệ thống TTS 1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên Hình 1.2: Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói. * Phân tích văn bản Phân tích văn bản là một thành phần ngôn ngữ độc lập trong hệ thống tổng - 2 - hợp. Mục đích của bước phân tích văn bản là diễn giải được văn bản đầu vào thành một chuỗi văn bản để máy có thể hiểu và đọc đúng theo phiên đó. Quá trình này bao gồm ba bước chính: - Tiền xử lý: Mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ. Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần đến. - Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ riêng lẻ dựa vào các cách phát âm cơ bản. - Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng trong từng ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để phiên âm phù hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó. * Chuyển ký tự thành âm thanh Mô đun này xác định phiên âm âm vị của văn bản đầu vào. Trong phần này có hai kiểu mô đun phổ biến nhất là mô đun dựa trên từ điển và mô đun dựa trên luật. * Sinh ngôn điệu Thuật ngữ ngôn điệu liên quan đến tính chất nào đó của tín hiệu tiếng nói mà liên quan đến thay đổi pitch, độ to nhỏ, độ dài âm tiết. 1.1.2.2. Thành phần xử tín hiệu số Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo luật hoặc tổng hợp ghép dựa trên ghép nối. * Tổng hợp dựa trên luật - 3 - Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hưởng của các âm vị lên một âm vị khác và hầu như nó rất phù hợp với các nhà ngữ âm học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng tạo ra máy phiên âm âm vị theo luật. * Tổng hợp ghép nối 1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển nhân công 10 bộ cộng hưởng bằng các phóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Các ứng dụng này tập trung ở các lĩnh vực sau: • Học ngoại ngữ • Trợ giúp người tàn tật • Truyền thông tin bằng âm thanh • Trong lưu trữ và khai thác dữ liệu • Trong viễn thông - 4 - CHƯƠNG 2: CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 2.1 Phương pháp tổng hợp theo cấu âm. Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh. Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống. 2.2 Phương pháp tổng hợp theo formant. ● Luật nhằm làm trơn các formant đích. ● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh. 2.3 Phương pháp Tổng hợp ghép nối 2.4 Phương pháp tổng hợp theo ghép chuỗi. - 5 - CHƯƠNG 3 CHUẨN HOÁ VĂN BẢN VÀ THUẬT TOÁN PHÂN TÍCH VĂN BẢN 3.1 Tổng quan Chuẩn hóa văn bản giúp cho bộ tổng hợp tiếng nói có khả năng hiểu được cấu trúc và thành phần văn bản cũng như được hướng dẫn về cách đọc văn bản. Các yếu tố nhập nhằng trong văn bản là khó khăn chính cho việc chuẩn hóa.Chương 3 sẽ đưa ra giải pháp để giải quyết các vấn đề của bài toán chuẩn hóa văn bản trong tiếng Việt. 3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt 3.2.1 Bài toán chuẩn hóa văn bản tiếng Anh Hình 3-1 Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Error: Reference source not found. Theo mô hình này, văn bản đầu vào được đưa qua một bộ phân tách từ là Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc - 6 - này là các token đã được phân tách sẽ được đưa qua bộ Splitter để chia các token phức ra thành các token nhỏ hơn. Khi các token đã được phân tách hoàn toàn. 3.2.2 Đặc điểm văn bản tiếng Việt Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chưa áp dụng ngay được cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã trình bày ở chương 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết tắt khác nhau của tiếng Việt và tiếng Anh. Nhưng trình tự và thành phần các mô- đun trong mô hình này có thể được tham khảo và sửa đổi để ứng dụng phù hợp cho tiếng Việt, vừa giải quyết được các vấn đề chung của bài toán chuẩn hóa văn bản, vừa đáp ứng được những yêu cầu riêng trong tiếng Việt. 3.2.3.Sự tổ chức không có quy chuẩn của một token Trong văn bản tiếng Việt có nhiều trường hợp một tổ hợp chữ (hay một token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ như trong các loại số điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi trình bày bị viết tách nhau ra như “ngày 1/ 5”… Do đó không thể áp dụng việc dùng dấu cách để xác định các token ngay được. Những trường hợp như trên cần phải được nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443” 3.2.3.1 Sự phức tạp của NSW Trong văn bản tiếng Việt có những trường hợp phải tách một token ra để có thể đọc lên được bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trường hợp phải tách ra như thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên - 7 - âm các thành phần của nó, khi bản thân token đó đã được nhận ra nhưng chưa thể phiên âm được. Đó là các trường hợp chỉ thời gian (12:00-3:00), tiền tệ ($975K- $1,595,000) hay các loại đơn vị khác. Vì vậy trong mô hình chuẩn hóa tiếng Việt cần có công đoạn nhận dạng, đánh dấu và phân tách các NSW phức này. 3.2.3.2 Xử lý các NSW khác nhau NSW trong văn bản rất đa dạng. Mỗi loại NSW lại có cách xử lý khác nhau. Có phân loại đúng các NSW thì mới đưa ra được cách đọc đúng cho văn bản. Lấy ví dụ trong tiếng Việt, nếu token “8/3” thuộc loại ngày tháng, nó sẽ được đọc là “mồng tám tháng ba”, nhưng nếu thuộc loại phân số, nó sẽ được đọc là “tám phầm ba”, nếu thuộc loại tỷ lệ, nó sẽ đọc là “tám trên ba”. Tiếng Anh cũng có sự nhập nhằng tương tự. Vì vậy việc phân loại đúng được các NSW để xử lý về sau là vấn đề rất quan trọng trong bài toán chuẩn hóa văn bản các ngôn ngữ. Mô hình chuẩn hóa của tiếng Anh dùng mô-đun Classifier để phân loại cho các NSW mà bỏ qua việc xác định các NSW. Trong bộ chuẩn hóa văn bản tiếng Việt, bước xác định NSW sẽ được bổ xung vào trước khi phân loại chúng. 3.2.3.3 Vấn đề phân loại NSW Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số thuộc tính độc lập được thể hiện ở bản thân nó, đó là độ dài token, thành phần token có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ viết hoa không, có được viết hoa toàn bộ hay không. Những thuộc tính này cũng được áp dụng để xét cho một khung nhìn bao gồm 2 token liền trước và 2 token liền sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc như tính ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ đưa ra một hệ thống phân loại chi tiết cho các NSW - 8 - 3.2.3.4.Vấn đề mở rộng NSW Trong bước Tag Expander xác định cách đọc thì việc xác định cách đọc cho từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các trường hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt nhưng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công đoạn này thành một bước riêng. Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa phù hợp cho văn bản tiếng Việt như sẽ trình bày ở mục 2.3 sau đây. 3.3.Giải pháp đề xuất Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết được những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc thù trong tiếng Việt. Đó là phải xử lý được những trường hợp không thể áp dụng luật phiên âm để đưa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc như một dãy kí tự (WTO, NATO, TP, TS…), các từ mượn (karaoke, auto, version…), các từ phức như 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ URL… 3.3.1.Phân loại các từ chưa chuẩn hóa cho tiếng Việt - Nhóm số được bao gồm những token có chứa ký tự là số. Nó bao gồm các loại nhỏ hơn là: - NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tương ứng với “chín giờ ba mươi phút”) - NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tương ứng với “ngày mười bảy tháng ba năm một nghìn chin trăm tám mươi bảy/một chin tám bảy/tám bảy”) - NDAY chỉ ngày và tháng (“17/03” hay “17/3” tương ứng với “ngày mười bảy tháng - 9 - [...]... 97,32% KẾT LUẬN VÀ HƯƠNG PHÁT TRIỂN Kết quả đạt được Qua thời gian nghiên cứu và cài đặt, luận văn đã đóng góp được những vấn đề sau: - Giúp người đọc hiểu được chi tiết các thành phần cơ bản của hệ tổng hợp tiếng nói, - Giới thiệu và đánh giá một số phương pháp tổng hợp tiếng nói hiện nay, - Trình bày được các cách phương pháp nâng cao chất lượng tiếng nói tổng hợp, đặc biệt giới thiệu các kỹ thuật phân... tiến chất lượng tiếng nói, -Thử nghiệm đưa ra được tập luật cho việc thay đổi biên độ, năng lượng, trường độ và tần số cơ bản trong hệ tổng hợp tiếng Việt, cải thiện đáng kể chất lượng của TTS Hướng phát triển Do thời gian làm luận văn có hạn nên chưa thực hiện được mọi khía cạnh để có thể nâng cao chất lượng tiếng nói tổng hợp Những định hướng tiếp theo của đề tài là: - Tiếp tục nghiên cứu quy luật biến... các tổ hợp thuộc nhóm số, URLE bởi các nhóm này sẽ được xử lý riêng Tiếp đó các dấu trắng thừa trong văn bản được loại bỏ, thêm dấu trắng vào trước và sau các dấu câu, các khoảng trắng trong một tổ hợp số được thay bởi dấu chấm “.” để tiện cho việc xử lý về sau.Các câu trong văn bản được phân tách và đánh dấu, phục vụ cho việc khai thác ngữ cảnh và đưa ra nhịp điệu đọc phù hợp cho tiếng nói tổng hợp. Việc... xuất hiện một cụm từ thì mô hình ngôn ngữ chữ cái tính xác suất xuất hiện một từ (từ được hiểu theo cách gọi của người Anh, trong bài này được hiểu là một token được phân cách bởi dấu cách) 3.4.4 .Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến Các tác giả ở trường đại học Harvard bằng thực nghiệm đã kết luận rằng phương pháp làm trơn mô hình ngôn ngữ Kneser-Ney cho kết quả tối ưu nhất Theo phương pháp này,... năm tám mươi bảy”) - NNUM là số số học (“200.000” hay “200 000” tương ứng với “hai trăm nghìn”) - NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tương ứng với “ba tám (nghỉ) sáu tám (nghỉ) ba chin (nghỉ) ba chin”) - NCODE cho dãy số chỉ kí hiệu (“mã số 999” tương ứng là “mã số chin chin chin”) - NSCR cho tỉ số (“tỉ số 2-3” tương ứng là “tỉ số hai (nghỉ) ba”) -NRNG cho số chỉ miền giá trị (“từ 2-3... dựa trên các loại nhỏ của NSW này 3.4.Các kỹ thuật và giải thuật Biểu thức chính quy có những cú pháp nhất định phải tuân theo và một tập các tập hợp đã được định nghĩa sẵn.Các tập định nghĩa sẵn này khác nhau cho - 13 - những dạng mãy khác nhau của văn bản Kỹ thuật biểu thức chính quy được hỗ trợ trong nhiều ngôn ngữ lập trình như PHP, NET, Java, Pearl 3.4.1 .Tổng quan về cây quyết định Tuổi Tuổi ?... ngoặc đơn">) Văn bản đầu vào Chuẩn phân tách Tách các token Tách câu Tách NSW phức Phát hiện NSW So khớp với các từ điển Phân loại NSW Phân nhóm Phân loại nhóm số Phân loại nhóm chữ Phân loại nhóm khác Mở rộng cách đọc Khôi phục từ viết tắt Mở rộng cho các NSW Văn bản đã chuẩn hóa Hình 3-2 Mô hình chuẩn hóa văn bản tiếng Việt - 12 - 3.3.3.Chuẩn phân tách Văn bản đầu vào trước hết được... phương pháp này, 3 tham số D1, D2, D3+ sẽ được lựa chọn để làm trọng số cho 3 mô hình monogram, digram và trigram: 3.5.Kết chương Trong chương 3 trình bày về giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt Quy trình chuẩn hóa được chia làm bốn bước chuẩn phân tách, phát hiện NSW, phân loại NSW và mở rộng cách đọc Chương tiếp theo sẽ cài đặt thử nghiêm modul chuẩn hóa văn bản cho tiếng Việt - 17 - CHƯƠNG... n, nh, - Thử nghiệm mô hình Xu [TLTK] trong việc hiệu chỉnh đường F0, mô hình này đã áp dụng được cho tiếng Trung Quốc, - Xây dựng cơ sở dữ liệu tiếng nói lớn để ứng dụng mô hình markov ẩn trong việc lựa chọn đơn vị tổng hợp trong các ngữ cảnh khác nhau Đây là cách tiếp cận mang hứa hẹn đem lại tiếng nói có chất lượng cao - 20 - - 21 - ... g g có có có Điểm số? Điểm số? Xuất sắc khôn Hình 3-3 Minh họa về cây quyết định khôn có có g g - 14 - Trung bình có có 3.4.2.Các bước xây dựng cây quyết định 3.4.2.2.Độ đo thuộc tính Bảng 3-2 Bảng giá trị thuộc tính 3.4.2.3.Rút luật phân lớp từ cây quyết định − − − − Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luật Mỗi cặp giá trị thuộc tính trên một đường dẫn tạo nên một sự liên Nút lá . ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP NGUYỄN ĐỨC THỌ NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN 2013 BẢNG TÓM TẮT LUẬN VĂN CAO HỌC Ngành : Kỹ thuật. dung: CHƯƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI 1.1.Giới thiệu về tổng hợp tiếng nói 1.1.1.khái niệm về tổng hợp tiếng nói Tổng hợp tiếng nói là việc tạo ra tiếng nói con người từ đầu vào là văn bản. gồm cả nhận dạng và tổng hợp tiếng nói. Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang tín hiệu tiếng nói. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức

Định dạng
Số trang	22
Dung lượng	610,5 KB