Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

12 4 0
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích văn cho tổng hợp tiếng nói tiếng Việt Luận văn ThS Công nghệ thông tin Nguyễn Hồng Quân MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU Chương TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 1.1 Modul NLP 10 1.1.1 Phân tích văn 10 1.1.2 Modul LTS 10 1.1.3 Phát sinh ngôn điệu 11 1.2 Modul DSP 11 1.2.1 Tổng hợp theo cấu âm 12 1.2.2 Tổng hợp tiếng nói theo quy luật Formant 14 1.2.3 Tổng hợp xích chuỗi 15 1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đốn tuyến tính LPC 18 1.3 Các ứng dụng TTS 22 Chương CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT 24 2.1 Ngữ âm học 24 2.1.1 Cơ sở vật lí 24 2.1.2 Các đặc trưng âm tiết tiếng Việt 24 2.1.3 Âm vị 26 2.1.4 Hiện tượng biến đổi ngữ âm 30 2.2 Đặc điểm từ 31 2.2.1 Định nghĩa từ 31 2.2.2 Các quan niệm hình vị từ tiếng Việt 32 2.2.3 Phương thức cấu tạo từ 32 2.3 Chữ viết tả tiếng Việt 33 Chương PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 39 3.1 Các modul 39 3.2 Từ điển 41 3.3 Xác định cấu trúc văn 41 3.3.1 Các tiêu đề chương, mục 42 3.3.2 Danh sách 43 3.3.3 Các đoạn 44 3.3.4 Câu 45 3.3.5 Email 45 3.3.6 Trang Web 46 3.3.7 Hoạt động hội thoại 46 3.4 Chuẩn hoá văn 46 3.4.1 Chuẩn hoá y-i 47 3.4.2 Chuẩn hoá dấu 47 3.4.5 Chữ viết tắt kí hiệu khác 48 3.4.4 Các số 48 3.4.5 Ngày tháng 49 3.4.6 Thời gian 49 3.5 Phân tích ngơn ngữ 50 3.5.1 Tách từ 50 3.5.2 Gán nhãn từ loại 50 3.5.3 Phân tích cú pháp 51 3.5.4 Phân tích ngữ nghĩa 52 Chương BÀI TOÁN TÁCH TỪ 53 4.1 Các khó khăn nhận dạng từ tiếng Việt 53 4.2 Một số phương pháp tách từ 54 4.2.1 Dựa theo luật 54 4.2.2 Dùng thống kê 55 4.2.3 Các cách khác 55 4.3 Đề xuất 58 4.3.1 Từ điển 58 4.3.2 Các giả thiết 59 4.3.3 Giải pháp tách từ 63 4.4 Xử lí tên riêng 66 4.4.1 Tên người, tên địa lí 66 4.4.2 Tên tổ chức 67 4.4.3 Các tên riêng khác 67 4.5 Tách đoạn – Tách câu 68 4.6 Nhận xét đánh giá 68 4.6.1 Tập ngữ liệu thô 68 4.6.2 Nhận xét 70 Chương CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ 73 5.1 Chương trình thử nghiệm 73 5.1.1 Yêu cầu cấu hình hệ thống 73 5.1.2 Ngôn ngữ lập tình sở liệu 73 5.1.3 Giao diện chương trình 73 5.2 Cấu trúc chương trình 74 5.3 Các kết thực nghiệm 75 5.3.1 Kết phân tích 75 5.3.2 Đánh giá tốc độ thực 77 Kết luận định hướng nghiên cứu 79 Tài liệu tham khảo 80 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Nội dung CART Clasification And Regression Tree CSDL Cơ sở liệu DSP Digital Sigal Procesing - Xử lí tín hiệu số HMM Hidden Markov Model LTS Letter To Sound – Biến đổi chữ viết thành dạng phát âm MMM Maximal Matching Model NLP Natural Language Processing -Xử lí ngơn ngữ tự nhiên TBL Tranformation Based Learning TTS Text To Speech - Tổng hợp tiếng nói 10 WFST Weigthed Finite State Transducer 11 MMM Maximal Matching Model STT Từ viết tắt Nội dung 12 TAM Text Analyzer Modul DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Hệ thống âm đầu 27 Bảng 2.2 Hệ thống âm 29 Bảng 4.1: Kết đánh giá phân tách từ 70 Bảng 5.1 Kết đánh giá phân tích văn 75 Bảng 5.1 Kết tốc độ thực 77 DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ Hình 1.1 Sơ đồ chức tổng quát hệ thống TTS Hình 1.2 Modul NLP hệ thống TTS Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật 14 Hình 1.4 Mơ hình tuyến tính tạo tiếng nói 15 Hình 1.5 Mơ hình qui trình tổng hợp tiếng nói theo xích chuỗi 16 Hình 1.6 Mơ hình tiên đốn tuyến tính tiếng nói 19 Hình 1.7 Mơ hình tổng hợp LPC 20 Hình 2.1- Cấu trúc âm tiết 25 Hình 3.1 Cấu trúc modun hóa phân tích văn ngữ âm 39 Hình 3.2 Ví dụ thích XML sách 43 Hình 3.3 Ví dụ danh sách đánh dấu 43 Hình 3.4 Ví dụ đánh dấu câu 44 Hình 3.5: Ví dụ e-mail đánh dấu thẻ đánh dấu XML 46 Hình 3.6: Phân tích cú pháp 51 Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng từ 59 Hình 4.2 Thuật tốn tách từ 65 Hình 1: Giao diện 73 Hình 5.2 Mơ hình ứng dụng 74 LỜI NÓI ĐẦU Trong năm gần đây, giới nhiều hệ thống tổng hợp nhận dạng tiếng nói cho nhiều ngơn ngữ Anh, Pháp, Nhật hồn thiện Sự phát triển cơng nghệ xử lí tiếng nói giới buộc phải thừa nhận việc nghiên cứu tiếng Việt cách tồn diện ngơn ngữ , văn tiếng nói để đạt kết so sánh với ngôn ngữ khác hồn tồn thực Tổng hợp tiếng nói từ văn có chức ngược với nhận dạng tiếng nói Nó có nhiều ứng dụng quan trọng khoa học công nghệ đời sống Một hệ tổng hợp tiếng nói bao gồm hai q trình xử lí : Xử lí ngơn ngữ tự nhiên Xử lí tín hiệu số Trong phân tích văn giai đoạn quan trọng trình xử lí ngơn ngữ tự nhiên, bao gồm nhiệm vụ sau: - Xác định cấu trúc văn - Chuẩn hố văn - Phân tích ngơn ngữ Với nhiệm vụ Phân tích ngơn ngữ loạt toán cần giải quyết: phân tách từ, gán nhãn từ loại, phân tích cú pháp phân tích ngữ nghĩa Trong tốn phân tách từ tương đối quan trọng, chưa giải tốn ta khơng thể tiến xa thêm bước xử lí ngơn ngữ tự nhiên Cho đến có nhiều phương pháp tách từ đưa : phương pháp dựa theo luật, phương pháp theo mơ hình xác suất thống kê, phương pháp lai Tuy nhiên ngôn ngữ cụ thể phụ thuộc vào đặc điểm ngôn ngữ mà phương pháp có kết thực với độ xác khác Trong phạm vi luận văn xin đề xuất yếu tố việc phân tách từ tiếng Việt, cường độ liên kết từ Qua số khảo sát thực nghiệm, kết thu đáng khích lệ Nội dung luận văn trình bày cụ thể chương Chương 1: Tổng quan tổng hợp tiếng nói Chương 2: Cơ sở ngơn ngữ tiếng Việt Chương 3: Phân tích văn cho tổng hợp tiếng nói tiếng Việt Chương : Bài toán tách từ tiếng Việt Chương 5: Cài đặt đánh giá thử nghiệm Những công việc thực luận văn chưa phải nhiều Phần thực bước đầu nghiên cứu tổng hợp tiếng nói vấn đề liên quan đến phân tích văn xử lí ngơn ngữ tự nhiên nói chung Tơi xin bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người tận tình hướng dẫn giúp đỡ tạo điều kiện thuận lợi cho cơng tác nghiên cứu hồn thành luận văn Xin ghi nhớ công lao người thân gia đình ln động viên, chia sẻ, giúp đỡ để tơi hồn thành khố học luận văn Hà Nội, ngày tháng năm 2006 Nguyễn Hồng Quân Chương TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI Tiếng nói phương tiện truyền thơng người với Một hệ thống tổng hợp tiếng nói (Text To Speech – TTS) hệ thống dựa máy tính có khả đọc to văn nào, bao gồm việc chuyển đổi mơ tả mặt ngữ âm ngữ điệu văn đầu vào thành dạng sóng tiếng nói đầu Dữ liệu tiếng nói mã hóa hay tham số hóa dạng lưu giữ trước nhớ Văn nhập vào máy tính từ bàn phím, hệ thống nhận dạng chữ viết, nhận từ CSDL hay tải từ Internet[14] Cơng việc hệ thống TTS xem ngược lại với nhận dạng tiếng nói Việc chuyển từ dạng chữ viết thành tiếng nói khơng phải việc làm đơn giản Thậm chí lưu trữ từ điển khổng lồ cho từ phổ biến tiếng Việt hệ thống TTS cần phải đối mặt với hàng triệu tên riêng, từ viết tắt phát sinh hàng ngày Mặt khác để tiếng nói sinh cách tự nhiên ngữ điệu câu cần kết hợp cách hợp lý BỘ TỔNG HỢP TIẾNG NĨI XỬ LÝ TÍN HIỆU SỐ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Văn - Các hình thức ngơn ngữ Các mơ tơ suy diễn Các suy luận logic Ngơn điệu Các mơ hình tốn học Các thuật tốn Các q trình tính tốn - Tiếng nói Hình 1.1 Sơ đồ chức tổng quát hệ thống TTS Hình 1.1 giới thiệu sơ đồ tổng hợp TTS nói chung [14] Giống việc đọc người, hệ thống bao gồm:  Modul xử lí ngơn ngữ tự nhiên (NLP): Có chức phân tích văn đầu vào để sinh biến đổi ngữ âm cho việc đọc văn với ngữ điệu nhịp điệu mong muốn (thường gọi ngôn điệu)  Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi thông tin dạng ký hiệu mà nhận đầu vào thành tiếng nói đầu Các thuật tốn hình thức áp dụng để xử lí thường dựa vào tri thức mơ hình ngữ âm tốn học để phát triển Tính chất quan trọng hệ thống tổng hợp tiếng nói chất lượng tiếng nói đầu Các tiếp cận thường bỏ qua số bước xử lí bị hạn chế vấn đề thời gian thực tài nguyên hệ thống Điều dẫn đến chất lượng bị hạn chế cách phát âm tính biểu cảm, so với người 1.1 Modul NLP Hình 1.2 giới thiệu sơ đồ làm việc modul NLP tổng quát cho nhiệm vụ TTS [14] Văn Bộ tiền xử lý Bộ phân tích hình thái HỆ THỐNG Bộ phân tích Bộ phân tích ngữ cảnh XỬ văn 1.1.1 Phân tích văn Khối phân tích văn bao gồm thành phần sau: Module tiền xử lí: có nhiệm vụ tổ chức câu đầu vào thành danh sách từ có khả xử lí Nó có nhiệm vụ nhận biết số, chữ viết tắt , thành ngữ biến đổi chúng thành dạng văn đầy đủ cần thiết Một vấn đề quan trọng mà phải đối mặt mức xử lí kí tự là: nhập nhằng dấu chấm câu (bao gồm trường hợp chuẩn hết câu) Ở vài phạm vi có giải nhờ văn phạm quy Module phân tích hình thái: có nhiệm vụ đưa tất khả từ loại cho cách viết riêng biệt từ sở từ tả chúng Những từ ghép, từ có nhiều biến tố, từ dẫn xuất tách thành đơn vị tự vị (hình thái) nhờ văn phạm quy đơn giản sử dụng từ vựng gốc từ phụ tố Module cần thiết cho xử lí ngơn ngữ có hình thái Module phân tích ngữ cảnh: có nhiệm vụ xem xét từ xuất ngữ cảnh, từ cho phép giảm bớt danh sách từ loại để hạn chế số lượng giả thuyết xảy nhiều, cho biết từ loại tương ứng từ lân cận Vấn đề này giải theo : - Mơ hình n-grrams: theo phụ thuộc cú pháp cục biểu diễn theo dạng otomat hữu hạn trạng thái xác suất, tức mơ hình Markov, phạm vi nhỏ với mạng nơron nhiều tầng huấn luyện để phát luật viết theo ngữ cảnh - Tập văn phạm cục bộ, không ngẫu nhiên cung cấp chuyên gia ngôn ngữ suy diễn cách tự động từ tập liệu huấn luyện với kỹ thuật hồi quy phân loại (CART) Module phân tích cú pháp- ngơn điệu: có nhiệm vụ rà sốt khơng gian tìm kiếm cịn lại cấu trúc văn tìm thấy (tức tổ chức chúng thành mệnh đề thành phần giống cụm từ) có liên quan mật thiết nhiều tới thể hiện ngơn điệu thực 1.1.2 Module LTS: Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn nhận Đối với ngơn ngữ có biến đổi hình thái hệ ngôn ngữ Ấn- Âu , module quan trọng có nhiều phiên âm khơng đề cập đến từ điển Tuy nhiên, chữ viết tiếng Việt loại chữ ghi âm nên số lượng mục từ diển giảm bớt nhiều 1.1.3 Phát sinh ngôn điệu Thuật ngữ ngôn điệu dùng để thuộc tính định tín hiệu tiếng nói liên quan đến khả nghe rõ thay đổi độ cao thấp; độ to nhỏ độ dài âm tiết Các đặc trưng ngôn điệu có chức cụ thể giao tiếp tiếng nói Hiệu rõ ràng ngơn điệu nhấn mạnh Ví dụ, có kiện cao độ làm cho âm tiết bật lời nói, từ nhóm cấu trúc cú pháp có chứa âm tiết cách không trực tiếp làm bật yếu tố quan trọng hay yếu tố chuyển tải ý nghĩa lời nói Sự có mặt dấu trọng âm có hiệu khác tương phản, phụ thuộc vào vị trí mà trọng âm xuất ngữ cảnh ngữ nghĩa lời nói Các đặc trưng ngơn điệu tạo phân đoạn chuỗi tiếng nói thành nhóm âm tiết, chúng làm cho nhóm âm tiết nhóm từ thành chuỗi lớn Một số đặc trưng ngôn điệu thể quan hệ hai hay nhiều nhóm âm tiết liên kết với theo vài cách khác Hiệu việc nhóm có tính chất phân cấp, khơng cần phải giống hệt cấu trúc cú pháp lời nói Như q trình tiên đốn ngữ điệu từ văn phải xác định độ dài, cao độ tần số ngữ đoạn tổng hợp cho phù hợp với quy luật ngữ điệu ngơn ngữ Đó việc xác định vị trí trọng âm từ phát âm Lên xuống giọng vị trí khác câu, đầu câu, cuối câu,v v xác định biến thể kác âm phụ thuộc vào ngữ cảnh phát âm ngữ lưu liên tục Bước bao gồm việc xác định điểm dừng nghỉ lấy phát âm, đọc văn Từ tạo thơng tin để điều khiển ngữ điệu thích hợp cho tổng hợp tiếng nói TÀI LIỆU THAM KHẢO Tiếng Việt [1] Diệp Quang Ban, Hoàng Văn Thung (2004), Ngữ pháp tiếng Việt 1, NXB Giáo Dục, Hà Nội [2] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt 2, NXB Giáo Dục, Hà Nội [3] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội [4] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Ngọc Phiến, (2005) Cơ sở ngơn ngữ học tiếng Việt, NXB Giáo Dục, Hà Nội [5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia lần thứ nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thông (ICT.rda 2003), Nhà xuất Khoa học kĩ thuật, Hà nội [6] Đoàn Thiện Thuật (1999), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Hà Nội [7] Đỗ Xuân Thảo, Lê Hữu Tỉnh (1997), Giáo trình tiếng Việt 2, NXB Giáo Dục, Hà Nội Tiếng Anh [8] Chen, K J., & Liu, S H (1992), Word identification for Mandarin Chinese sentences Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92 [9] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, Proceedings of NLPRS’01 ,Tokyo, Japan, 11/2001 [10] Dinh Dien , Pham Phu Hoi, Ngo Quoc Hung (2004), Some Lexical Issues in Building Electronic VietnameseDictionary [11] Chih Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, [On- line] Available: http://technology.chtsai.org/wordlist/ [12] Jianfeng Gao, Mu Li, and Chang-Ning Huan (2003), Improved source-chanel models for Chinese word segmentation [13] Le An Ha, A method for word segmentation in Vietnamese (2004), [14] Thiery Dutoit (1997), High quality text to speech synthesis: an overview, Faculte Polytechnique de Món, TCTS Lab [15] Xuedong Huang, Alex Acero, Hsiao Wuen Hon (2001), Spoken Language Procesing, Prentice-Hall Internation (UK) Limited , London ... Chương 1: Tổng quan tổng hợp tiếng nói Chương 2: Cơ sở ngơn ngữ tiếng Việt Chương 3: Phân tích văn cho tổng hợp tiếng nói tiếng Việt Chương : Bài toán tách từ tiếng Việt Chương 5: Cài đặt đánh... làm việc modul NLP tổng quát cho nhiệm vụ TTS [14] Văn Bộ tiền xử lý Bộ phân tích hình thái HỆ THỐNG Bộ phân tích Bộ phân tích ngữ cảnh XỬ văn 1.1.1 Phân tích văn Khối phân tích văn bao gồm thành... việc nghiên cứu tiếng Việt cách tồn diện ngơn ngữ , văn tiếng nói để đạt kết so sánh với ngôn ngữ khác hồn tồn thực Tổng hợp tiếng nói từ văn có chức ngược với nhận dạng tiếng nói Nó có nhiều

Ngày đăng: 19/09/2016, 05:00

Tài liệu cùng người dùng

Tài liệu liên quan