Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói

116 479 1
Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN BỘ MÔN CÔNG NGHỆ TRI THỨC  LUẬN VĂN TỐT NGHIỆP CỬ NHÂN CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Giáo viênhướng dẫn: Th.S Thái Hùng Văn Sinh viên thực hiện: Đỗ Xuân Đạt –9912540 Võ Văn Tuấn –9912737 Thành phố Hồ Chí Minh, tháng 7 năm 2003 i LờiCảmƠn Hoàn thành luận văn này, chúng em xin chân thành cảm ơn thầy Thái Hùng Văn ñã trực tiếp hướng dẫn và tạo ñiều kiện cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú. Chúng em xin gởi lời cảm ơn ñến các thầy cô trong trường, ñặc biệt là các thầy cô bộ môn Công Nghệ Tri Thức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật ñã truyền ñạt cho chúng em nhiều kiến thức bổ ích. Chúng tôi cũng không thể không nhắc ñến sự ñộng viên chăm sóc của gia ñình, sự cộng tác giúp ñỡ và ủng hộ tinh thần của bạn bè, ñặc biệt là bạn Nguyễn Tấn Dũng và anh Đặng Hoàng Vũ. Chúng tôi xin ghi ơn tất cả. Thành phố Hồ Chí Minh, tháng 7 năm 2003. Đỗ Xuân Đạt-Võ Văn Tuấn ii LờiGiớiThiệu Trong quá trính tiến hoá, con người ñã trở thành ñộng vật mạnh nhất, cao cấp nhất nhờ vào hai thứ: lao ñộng và tiếng nói. Lao ñộng tạo ra tư duyvà tiếng nói giúp con người kết hợp với nhau. Cùng với thời gian, các phương tiện giao tiếp-thông tin của con người ñã phát triển rất phong phú ña dạng. Tuy nhiên, dù ña dạng ñến ñâu cũng không thể thay thế ñược vai trò của tiếng nói. Tiếng nói là một phương tiện giao tiếp ñặc biệt hiệu quả và cực kỳ phổ dụng, là một chức năng vô cùng quý giá của con người [L.V.Lợi-99]. Sự phát triển vượt bậc của con người chính là nhờ ở tốc ñộ và khả năng giao tiếp phong phú của tiếng nói. Ngày nay, nhờ sự phát triển củakhoa học kỹ thuật, máy móc dần dần thay thế các lao ñộng tay chân. Tuy nhiên ñể ñiều khiển máy móc, con người phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải ñược ñào tạo. Điều này gây trở ngại không ít ñối với việc sử dụng các máy móc, thànhtựu khoa học kỹ thuật. Chúng ta hãy tưởng tượng trong nhà có một người máy giúp việc. Khi ta muốn người máy làm việc, ta phải lục tìm ñĩa chương trình tương ứng, phải nạp chương trình, … phải chạy lăng xăng làm một danh sách các công việc trong khi lúc ñóta ñang ngồi bên bàn làm việc, ñang phải tập trung suy nghĩ vào một vấn ñề cần giải quyết. Và ta hãy tưởng tượng xem nếu người máy ñó “nghe hiểu” ñược những gì ta nói. Lúc ñó ta chỉ cần “nhờ vả” một câu, mọi việc sẽ trở nên dễ dàng! Đi tìm giải pháp giúpcho máy có thể “nghe hiểu” ñược, con người ñã bước vào lĩnh vực nhận dạng tiếng nói. Hơn nửa thế kỷ trôi qua, con người ñã thu ñược những thành tựu ñáng kể, có những ứng dụng khá hữu ích vào ñời sống. Nhưng dù sao, khả năng “nghe hiểu” của máy vẫn còn mộtkhoảng cách khá xa so với thực tế. Mặt khác, các hệ thống nhân dạng hiện nay cũng chỉ ñược phát triển tương ñối tốt ñối với một số ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Hoa,… Còn ñối với nước ta, nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ. Đến nay tuy cũng ñã ñạt ñược một số thành tựu và ñã có những ứng dụng nhất ñịnh, nhưng nhìn chung, nhận dạng tiếng Việt vẫn chưa ñạt ñược kết quả cần thiết ñể có thể tạo ra một sản phẩm thực tế hoàn chỉnh. Khó khăn nằm ở tính phức tạp của vấn ñề và mức ñộñầu tư cũng như kế thừa chưa cao. Các nghiên cứu chủ yếu vẫn là nhận iii dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các ñặc tính riêng của tiếng Việt. Các hệ nhận dạng trước ñây hầu hết không phân biệt ñược từ ñồng âm như: a, á, à, ả,ã, ạ… Hơnnữa kích thước từ ñiển (số từ nhận biết ñược) còn nhỏ, thời gian học mẫu khá lâu, và nhận dạng mang tính phụ thuộc người nói khá cao. Vấn ñề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn- 00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống các ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truyền tin… và dĩ nhiên có cả công nghệ thông tin. Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều ñặc trưng âm học tiếng Việt hơn, từ ñó dùng nhiều ñặc trưng hơn ñể nhận dạng giúp nâng cao ñộ chính xác và phân biệt ñược các từ ñồng âm góp phần nâng kích thước từ ñiển lên lớn hơn. Nội dung luận văn ñược trình bày thành các chương như sau: Chương 1: Tiếng nói và ngữ âm tiếng Việt. Chương thứ nhất tóm tắt về tiếng nói và trình bày một số ñặc ñiểm ngữ âm tiếng Việt. Trong số ñó, luận văn quan tâm nhiều ñến thanh ñiệu, là ñặc ñiểm khác biệt của tiếng Việt so với nhiều ngôn ngữ khác. Chương 2: Xử lý tín hiệu số -phân tích tiếng nói: Trình bày một số kiến thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói. Chương 3: Nhận dạng tiếng nói. Chương này mô tả một hệ nhận dạng tiếng nói tổng quát, và ñi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hình Markov ẩn liên tục. Chương 4: Một số khảo sát về thanh ñiệu tiếng Việt. Đây là các khảo sát của người viết về thanh ñiệu tiếng Việt. Kết quả khảo sát sẽ ñược kết hợp, so sánh với các nghiên cứu về ngữ âm tiếng Việt trước ñây ñể rút ra các ñặc ñiểm ngữ âm tiếng Việt, làm cơ sở cho việc xây dựng một hệ nhận dạng tiếng Việt theo mô tả của luận văn. Chương 5: Xây dựng môhình nhận dạng thanh ñiệu tiếng Việt. Nhận dạng thanh ñiệu là bước ñầu tiên ứng dụng các nghiên cứu nói trên vào một hệ iv nhận dạng tiếng Việt của luận văn. Bắt ñầu từ ñặc tính ñặc trưng của tiếng Việt là thanh ñiệu. Chương 6: Thiết kế mô hình nhận dạng tiếng Việt. Phần này là thiết kế của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô ñun nhận dạng thanh ñiệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh. Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt. Chương cuối cùng là các cài ñặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt. Phần phụ lục 1: giới thiệu về một số ñặc ñiểm ngữ âm tiếng Việt. Trong ñó, luận văn chú ý nhiều ñến ñặc ñiểm thanh ñiệu ñược dùng ñể ứng dụng trong phân lớp tiếng Việt. Phần phụ lục 2: Giới thiệu vai trò củatần số cơ bản trong tiếng nói và một số phương pháp rút trích tần số cơ bản. v Mục Lục Lời Cảm Ơn i Lời Giới Thiệu ii Mục Lục v Chương 1.Tiếng nói và ngữ âm tiếng Việt 1 1.1.Giới thiệu tiếng nói 1 1.1.1.Sự phân bố về biên ñộ 1 1.1.2.Sự phân bố về tần số 2 1.1.3.Sự biến ñổicác tần số cơ bản 2 1.1.4.Tỷ số tiếng nói 2 1.2.Ngữ âm tiếng Việt (Tham khảo phụ lục 1) 2 1.2.1.Thanh ñiệu 2 1.2.2.Âm vị 3 1.2.3.Trường ñộ 3 Chương 2.Xử lý tín hiệu số -phân tích tín hiệu tiếng nói 7 2.1.Xử lý tín hiệu số 7 2.1.1.Lấy mẫu tín hiệu 7 Hàm lấy mẫu: 7 2.1.1.1.Phổ của các tín hiệu ñược lấy mẫu 8 2.1.1.2.Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian 9 2.1.2.Dãy xung 10 2.1.3.Biến ñổi Fourier rời rạc 11 2.1.3.1.Biến ñổi Fourier rời rạc 12 vi 2.1.3.2.Biến ñổi Fourier nhanh 13 2.1.4.Biến ñổi cosin rời rạc 13 2.1.5.Các bộ lọc 14 2.1.6.Cửa sổ tín hiệu 15 2.2.Phân tích tín hiệu tiếng nói 20 2.2.1.Phương pháp dãy bộ lọc 20 2.2.2.Trích ñặc trưng MFCC 28 2.2.3.Phương pháp mã hóa dự báo tuyến tính (LPC) 32 2.2.3.1.Làm rõ tín hiệu 34 2.2.3.2.Phân ñoạn thành các frame 34 2.2.3.3.Lấy cửa sổ 35 2.2.3.4.Phân tích tự tương quan 36 2.2.3.5.Phân tích LPC 36 2.2.3.6.Chuyển các hệ số LPC thành các hệ số cepstral 37 2.2.3.7. Đặt trọng số cho các hệ số cepstral 37 2.3.Phát hiện chu kỳ tiếng nói–phương pháp tìm tần số cơ bản (Tham khảo phụ lục 2) 38 2.3.1.Các kỹ thuật theo miền thời gian 39 2.3.2.Các kỹ thuật phân tích phổ hữu hạn 39 2.3.3.Mô tả tín hiệu 40 2.3.3.1.Tiếng nói thô 40 2.3.3.2.Lỗi dự báo tuyến tính 40 2.3.4.Một số phương pháp cài ñặt các kỹ thuậttrích F0: 41 2.3.4.1.Phương pháp dùng cepstral: 41 2.3.4.2.Phương pháp tự tương quan: 41 2.3.4.3.Phương pháp CLIP (center clipping pitch detector) 42 vii 2.3.4.4.Phương pháp SIFT (Simplified Inverse Filter Tracking)43 2.3.4.5.Hàm AMDF (Average Magnitude Difference Function)43 2.3.4.6.Phương pháp so khớp biên ñộ 43 Chương 3.Nhận dạng tiếng nói 46 3.1.Tổng quan một hệ nhận dạng: 46 3.2.Tổng quan một hệ nhận dạng tiếng nói: 46 3.3.Những thuận lợi và khó khăn của nhận dạng tiếng nói: 49 3.4.Nhận dạng tiếng nói sử dụng mô hình Markov ẩn 50 3.4.1.Mô hình Markov ẩn và các bài toán cần giải quyết: 50 3.4.1.1.Giải quyết bài toán thứ nhất: 51 3.4.1.2.Giải quyết bài toán thứ hai: 52 3.4.1.3.Giải quyết bài toán thứ ba: 52 3.4.2.Mô hình Markov ẩn liên tục (CDHMM-Continuous Densities Hidden Markov Model) 55 Chương 4.Một số khảo sát về thanh ñiệu tiếng Việt 59 4.1.Thanh 1 (Thanh ngang) 59 4.2.Thanh 2 (Thanh huyền) 60 4.3.Thanh 3 (Thanh ngã) 61 4.4.Thanh 4 (Thanh hỏi) 63 4.5.Thanh 5 (Thanh sắc) 64 4.6.Thanh 6 (Thanh nặng) 66 Chương 5.Xây dựng môhình nhận dạng thanh ñiệu tiếng Việt 66 5.1.Tiền xử lý 66 5.2.Trích F0 từ tín hiệu tiếng nói (pitch extraction) 69 5.3.Tạo vector ñặc trưng từ vector V(F0) 71 5.4.Huấn luyện cho mô hình 72 viii 5.5.Nhậndạng 73 5.6.Một số kết quả nhận dạng thanh ñiệu tiếng Việt 74 Chương 6.Thiết kế mô hình nhận dạng tiếng nói tiếng Việt 77 6.1.Công ñoạn huấn luyện 77 6.2.Công ñoạn nhận dạng 79 Chương 7.Hiện thựchoá mô hình nhận dạng tiếng Việt 80 7.1.Nhận dạng tiếng ñơn 80 7.2.Nhận dạng câu 82 Chương 8.Kết luận 84 8.1.Kết luận 84 8.2.Hướng phát triển: 85 Tài liệu tham khảo 86 Phụ lục 1: Ngữ âm tiếng Việt 87 Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tầnsố cơ .100 1 Chương 1. Tiếng nói và ngữ âm tiếng Việt 1.1.Gii thiu ting nói Tiếng nói là một loại sóng âm. Khi ta nói, tiếng nói ñược truyền ñi mang theo thông tin dưới dạng các dao ñộng cùng phương truyền ñến tai người nhận. Mức ñộ truyền tin của tiếng nói ñược xem là nhanh nhất trong các khả năng tự nhiên của con người. Khác với sách báo, thư tín… chỉ tryền tin một chiều, tiếng nói giúp ta truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin ñể sau này ñọc lại, nhưng tiếng nói giúp ta thể hiện bản thân hơn. Thông qua cách nói chuyện, khả năng ứng xử, ta có thể ñánh giá ñược trình ñộ và nhân cách của môt người. Tiếng nói là phương tiện truyền tin nhanh nhất và hiệu quả nhất của con người. Tiếng nói có rất nhiều ñặc tính: Đặc tínhcủa sóng âm gồm các ñặc tính sinh lý, vật lý như: cường ñộ, tần số, biên ñộ, năng lượng, âm sắc, ñộ cao, ñộ to… Đặc tính xã hội như: ngữ ñiệu, sắc thái tình cảm, ñịa phương… Số từ ñược sử dụng thường xuyên trong giao tiếp hằng ngày của một người dao ñộngtrong khoảng từ 2000 ñến 3000 từ. Số từ người ta sử dụng trung bình khoảng 5000 ñến 10000 từ. [5] Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu ñến tần số, biên ñộ (hay năng lượng). Tiếng nói có miền tần số cơ bản nằm trong khoảng80–8000 Hz. [11] 1.1.1.Sự phân bố về biên ñộ Khi thống kê với khoảng 80 người (4 người/ ngôn ngữ), người ta nhận thấy rằng biên ñộ tối ña ñạt ñược của một tiếng nói có thể lớn hơn 50dB [5]. Trong một chuỗi tiếng nói, biên ñộ tiếng nói sẽ phân bố liên tục theodạng hình sin. [...]... trên ñã th y, m i nhánh c a mô hình dãy l c l c hình 2.9 tính toán x p x năng lư ng ti ng nói trong băng t n ñư c ph b i các b l c thông d i c a nhánh ñó Tuy nhiên, trong nhi u h th ng nh n d ng, ta thư ng b sung vào t p ñ c trưng này các b ñ m s ñi m c t zero k t xu t c a m i b l c thông d i, như ñư c trình bày hình 2.11 Do vi c ñưa vào h th ng thông tin v s ñi m c t zero nên s ñ c trưng tăng lên g p... cũng nh n th y trong chu i ti ng nói c a con ngư i, các kho ng l ng chèn vào gi a các t có tác d ng làm cho ti ng nói c a chúng ta nghe êm hơn, và t n s c a chúng n ñ nh trong mi n có ñ bi n thiên kho ng 10 Hz 1.1.4 T s ti ng nói Trong chu i ti ng nói c a chúng ta, có th d dàng nh n th y ngo i tr các ti ng, còn có các kho ng tr ng ñư c chèn vào, và t s gi a ño n có ti ng nói th c s so v i kho ng th i... ng bi u di n tích ch p cho phép toán l c ñ bi u di n tư ng minh si(n), ta g i si(n) là tín hi u ti ng nói ñư c l c thông d i B i vì m c ñích c a b phân tích dãy l c là cho ra ñánh giá v năng lư ng tín hi u ti ng nói trong m t băng t n cho trư c, nên m i tín hi u ñư c l c thông d i si(n) s ñư c ñưa ti p qua m t b tính toán phi tuy n, ch ng h n b n n ch nh B tính toán phi tuy n s chuy n ph tín hi u sang... ng nói c a chúng ta theo t n s là m t ñư ng cong có ñ d c kho ng -10dB/Octave 1.1.3 S bi n ñ i các t n s cơ b n Th ng kê theo th i gian v s bi n ñ i các t n s trong gi ng nói con ngư i cho th y giá tr trung bình và ñ l ch t n s cơ b n trong gi ng nói n thư ng g p ñôi nam Quá trình kh o sát cũng cho th y 18% trong s các bi n ñ i v t n s cơ b n là bi n ñ i tăng, và 50% là gi m Ngư i ta cũng nh n th y trong. .. hài âm ti ng nói trong m t băng t n h p, nói chung thư ng kho ng 20-30 Hz Vì v y hai bư c x lý cu i cùng trong mô hình dãy b l c mô hình 2.9 là làm gi m t c ñ l y m u, trong ñó tín hi u qua l c thông th p ti(n) ñư c l y m u l i t c ñ kho ng 40-60 Hz, và nén d i r ng c a tín hi u b ng b nén biên ñ (thư ng là b nén logarit) Lo i dãy b l c thông d ng nh t ñư c s d ng trong nh n d ng ti ng nói là dãy b l... c ng c a chu i âm ñư c g i là t s ti ng nói Th c nghi m ch ng minh khi chúng ta tăng t c ñ nói thì kho ng tr ng gi a các ti ng b gi m nhi u Và ngư c l i, khi gi m t c ñ nói thì các kho ng tr ng gi a các t b dài ra 1.2 Ng âm ti ng Vi t (Tham kh o ph l c 1) 1.2.1 Thanh ñi u Thanh ñi u là ñ c tính ñ c trưng c a ti ng Vi t nói riêng và các ngôn ng có thanh ñi u nói chung so v i các ngôn ng khác như ti... lư ng tính toán l n Ngư i ta thư ng dùng m t phương pháp hi u qu hơn ñó là bi n ñ i Fourier nhanh (Fast Fourier Transform – FFT) Bi n ñ i Fourier nhanh 2.1.3.2 Nguyên t c cơ b n c a t t c các thu t toán FFT là d a trên vi c phân tích cách tính DFT c a m t dãy N s thành phép tính DFT c a các dãy nh hơn (s ñi m tính DFT nh hơn) M t trong nh ng thu t toán FFT thông d ng hi n nay là thu t toán FFT cơ s... ra t p các tín hi u ui(n), 1 i Q, m i ui(n) bi u di n m t ư c lư ng năng lư ng c a tín hi u ti ng nói trong m i băng t n Đ hi u rõ các hi u ng khi ñưa si(n) qua b tính toán phi tuy n và b l c thông th p, chúng ta hãy gi s si(n) là tín hi u hình sin v i t n s i, t c là: Gi thi t này ñúng cho ti ng nói trong trư ng h p nó là các âm h u thanh có tr ng thái n ñ nh khi băng thông c a b l c ñ h p ñ ch có... c, còn g i là âm khép, s làm cho trư ng ñ c a ti ng nói gi m do s t c thanh qu n 3 Chương 2 X lý tín hi u s - phân tích tín hi u ti ng nói 2.1 X lý tín hi u s Hi u m t cách ñơn gi n thì tín hi u (signal) là t t c các bi n có mang ho c ch a m t lo i thông tin nào ñ y mà ta có th bi n ñ i, hi n th ho c gia công Các tín hi u trong th gi i th c như ti ng nói (voice), âm thanh (sound), hình nh (image)… ñ... s d ng b n n ch nh full-wave, t c là: thì có th bi u di n k t xu t c a b tính toán phi tuy n như sau: 21 v i w( n) neu s i ( n ) 0 neu s i ( n ) 0 1 1 Như ñư c minh h a trong hình 2.10(a) – 2.10(c) Vì k t xu t b tính phi tuy n có th ñư c xem như là bi n ñi u theo th i gian, nên trong mi n t n s , ta nh n ñư c k t qu : Trong ñóVi(ejw), Si(ejw), W(ejw) là các bi n ñ i Fourier c a các tín hi u vi(n), . 43 Chương 3 .Nhận dạng tiếng nói 46 3.1.Tổng quan một hệ nhận dạng: 46 3.2.Tổng quan một hệ nhận dạng tiếng nói: 46 3.3.Những thuận lợi và khó khăn của nhận dạng tiếng nói: 49 3.4 .Nhận dạng tiếng nói. dụng các nghiên cứu nói trên vào một hệ iv nhận dạng tiếng Việt của luận văn. Bắt ñầu từ ñặc tính ñặc trưng của tiếng Việt là thanh ñiệu. Chương 6: Thiết kế mô hình nhận dạng tiếng Việt. Phần. kế của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô ñun nhận dạng thanh ñiệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh. Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt.

Ngày đăng: 14/08/2014, 15:07

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan