Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron

84 1.8K 0
Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI NÓI ĐẦU Xử âm thanh nhận dạng tiếng nói có một ý nghĩa quan trọng thiết thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, nhiều lĩnh vực khác. Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học, toán học, điều khiển, điện tử, sinh học Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người máy. Chính sự quan trọng đặc biệt này mà em đã chọn âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích của đồ án Nghiên cứu, tìm hiểu mạng Neuron ứng dụng trong nhận dạng tiếng nói tiếng Việt trên tập từ hữu hạn với hưóng nghiên cứu mới trên quan điểm xem xét từ ngữ tiếng Việt dưới góc độ phân tách thành phụ âm nguyên âm trên tập các đặc trưng LPC, Cepstral, Cosin. 2. Ý nghĩa Hướng nghiên cứu xem xét từ ngữ trên cơ sở phân tách thành phụ âm nguyên âm là một hướng mới, đơn giản hơn cả về mặt cấu trúc thiết kế cơ sở dữ liệu cũng như quá trình nhận dạng sau này,mà vẫn đảm bảo được những yêu cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng tất cả các từ trong tiếng Việt. 1 3. Nhiệm vụ của đồ án. Nghiên cứu tìm hiểu thuyết về tiếng nói hình mạng Neuron. Ứng dụng mạng neuron để nhận dạng tiếng Việt theo hướng nhận dạng nguyên âm phụ âm, xây dựng chương trình phỏng nhận dạng nguyên âm phụ âm tiếng Việt. 4. Phạm vi nghiên cứu Đề tài thực hiện trong phạm vi nghiên cứu nhận dạng âm thanh tiếng Việt phát âm rời rạc trên tập từ hữu hạn theo hướng nhận dạng phụ âm nguyên âm cấu tạo nên từ, xét trên tập từ 11 chữ số tiếng Việt: không, một, hai… mười với dữ liệu là các File âm thanh WAVE 8 bit, mono,11025Hz. 2 MỤC LỤC LỜI NÓI ĐẦU 1 CHƯƠNG I: ÂM THANH SỐ HOÁ ÂM THANH 3 1. ĐẶC TRƯNG SÓNG ÂM 3 1.1 Các đặc trưng 3 1.2 Đơn vị vật của âm thanh 4 2. QÚA TRÌNH SỐ HOÁ ÂM THANH 6 CHƯƠNG 2: TIẾNG VIỆT CÁC ĐẶC TRƯNG 14 1 QUÁ TRÌNH PHÁT ÂM 14 2 NGỮ ÂM TIẾNG VIỆT 15 CHƯƠNG III: MẠNG NEURAL ỨNG DỤNG TRONG 47 NHẬN DẠNG ÂM THANH TIẾNG VIỆT 47 2. CẤU TRÚC MẠNG NEURON NHÂN TẠO 51 2.3 Những vấn đề quan trọng trong mạng Neural lan truyền ngược 63 2.4 THIẾT KẾ MẠNG NEURAL 70 MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 36 – 25 – 8. 70 71 MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 108 – 85 – 11. 71 MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 198 – 155 – 11. 72 72 CHƯƠNG IV THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG 72 CHƯƠNG I: ÂM THANH SỐ HOÁ ÂM THANH 1. Đặc trưng sóng âm 1.1 Các đặc trưng 1.1.1 Tần số 3 là tốc độ mà các dạng sóng riêng biệt lặp lại theo hàm thời gian, tần số phụ thuộc vào chấn động nhanh hay chậm của không khí trong một thời gian nhất định. 1.1.2 Biên độđộ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính quan trọng góp phần nhận diện sự khác biệt giữa nguyên âm phụ âm trong âm thanh lời nói. 1.1.3 Dạng sóng là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản của âm thanh, trên thuyết nếu chúng ta có thể tổng hợp một tập hợp các sóng hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào. Mỗi âm có một tần số riêng đơn vị tính là héc (Hz). 1.2 Đơn vị vật của âm thanh. - Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động màng nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ cao của âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về âm: 1.2.1Quãng độ cao (quãng tần số). Độ cao của âm là một đặc tính sinh của âm, nó dựa vào đặc tính của âm là tần số. Những âm có tần số khác nhau gây cho ta những cảm giác khác nhau, âm có tần số lớn gọi là âm cao hoặc thanh, âm có tần số nhỏ gọi là âm thấp hoặc trầm. Quãng tần số của hai âm là khoảng cách của hai âm đó. Nếu một âm tần số là f 1 , một âm khác tần số là f 2 (f 2 > f 1 ) thì f 2 /f 1 =2 x . Khi x=1 thì f 2 /f 1 =2 gọi là một quãng tần số (một ốc-ta) Khi x=½ thì f 2 /f 1 = 1.41 gọi là nửa ốc-ta. 4 Khi x=1/3 thì f 2 /f 1 = 1.26 gọi là 1/3 ốc-ta. -> Mức áp suất của một ốc-ta bằng mức áp suất âm của ½ ốc-ta cộng thêm 3db. Cao độ được tiếp nhận phần lớn là do quy định bởi tần số cơ bản của sóng âm một phạm vi nhỏ hơn bởi cường độ của âm. Nhưng mối quan hệ giữa cao độ tần số cơ bản lại không mang tính chất tuyến tính thường thay đổi cùng với tần số đi kèm. Vì quãng tần số của một âm quy định độ cao của âm đó nên còn gọi là quãng độ cao (quãng 8 – bát bộ). 1.2.2 Độ mạnh. Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động càng lớn âm phát ra càng mạnh. Độ mạnh còn gọi là cường độ. Cường độ âm được biểu thị qua năng lượng được sóng âm truyền trong một đơn vị thời gian qua một đơn vị diện tích vuông góc với phương truyền âm (W/m 2 ). Đối với con người, giá trị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỷ đối của I với một giá trị I 0 nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm L là logarit thập phân của tỷ số I/I 0 . L(B) = lg(I/I 0 ) hoặc L(dB) = 10lg(I/I 0 ) với 1B = 10dB. Trong thực tế người ta thường dùng đơn vị dB (deciben) hơn B, khi đó L= 1dB thì lớn gấp 1,26 lần I 0 . Đó là mức cường độ nhỏ nhất mà tai ta có thể nghe được. 1.2.3 Độ dài. Độ dài hay trường độ của âm phụ thuộc vào sự chấn động lâu hay chóng của các phần tử không khí. 1.2.4 Âm sắc. 5 Âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Thực chất, âm sắc là chất lượng tiếp nhận trong các âm phức. Cùng một nốt nhạc nhưng âm thanh của các loại đàn khác nhau sẽ có những sắc thái khác nhau. Âm sắc là một đặc tính sinh của âm, được hình thành trên cơ sở các đặc tính vật của âm là tần số biên độ. thực nghiệm chứng tỏ rằng khi một nhạc cụ hoặc một người phát ra một âm có tần số f 1 thì đồng thời cũng phát ra các âm có tần số f 2 =2f 1 , f 3 =3f 1 ,… Âm có tần số f 1 gọi là âm cơ bản hay hoạ âm thứ nhất, các âm có tần số f 2 , f 3 , … gọi là các hoạ âm thứ hai, thứ ba … Tuỳ theo cấu trúc từng nhạc cụ hoặc cổ họng từng người, mà trong số các hoạ âm cái nào có biên độ khá lớn, cái nào có biên độ nhỏ, cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra là sự tổng hợp của âm cơ bản các hoạ âm, nó có tần số f 1 của âm cơ bản nhưng đường biểu diễn của nó không còn là đường hình sin mà trở thành một đường phức tạp có chu kỳ. Đó là sự khác nhau về âm sắc, do: è Vật tạo ra âm khác nhau. è Cách làm cho vật phát âm khác nhau. è Hiện tượng cộng hưởng khác nhau. 2. Qúa trình số hoá âm thanh 2.1 Quá trình lấy mẫu âm thanh tương tự Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian. Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được lấy mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu phải 6 chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần số lấy mẫu phải là 10kHz hoặc lớn hơn. Hình: Quá trình số hoá thành dạng sóng file Wave 2.2 Quá trình lượng tử hoá Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự. Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu biểu diễn các biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét hai kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) giá trị lớn nhất của chất lượng âm (quality). è Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per second) số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố định 7 nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe trung thực với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn của tín hiệu tương tự tại mỗi thời điểm lấy mẫu, do đó ảnh hưởng đến chất lượng âm thanh cần thu). è Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều này đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm số phải nghe giống sóng âm tương tự ban đầu được số hoá. Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông tin (hay còn gọi là lỗi lượng tử hoá) gây ra nhiễu. Hệ số nhiễu tín hiệu (Signal – to – noise) được dùng để đánh giá chất lượng âm thanh, được tính theo công thức: ∑ ∑ = = N i N i ie ix 1 2 1 2 )( )( Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó. Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta xem xét các loại file phổ biến sau. 3. Cấu trúc file WAVE 3.1 Các loại file âm thanh: 8 Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”, “.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” . Dạng file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ các âm thanh lúc khởi động tắt Window). Chất lượng âm thanh rất tốt nhưng kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn. 3.2.Cấu trúc file WAVE (1) Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu một chunk dữ liệu có chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”. 9 Dạng Header WAVE bắt đầu cùng với RIFF header offset Size Name Description 0 4 ChunkID Có chứa các chữ cái “RIFF” 4 4 ChunkSize 36+SubChunk2Size, chính xác hơn: 4+(8+SubChunk1Size) +(8+SubChunk2Size). Kích thước phần 10 [...]... dạng tiếng Việt cần phải được quan tâm nghiên cứu nhiều hơn nữa Dưới góc độ nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói nhận dạng với các phát âm từ đơn nghiên cứu các nguyên âm phụ âm trong Tiếng Việt Quá trình phát âm của con người có thể được tả như sau: + Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm + Khi dây thanh quản rung tạo ra các xung âm thanh và. .. là khoảng lặng nhiễu Vì hệ thống nhận dạng được thiết kế theo hình thức so khớp tìm ra mẫu giống nhất nên dù dữ liệu thu được không phải là tiếng nói mà được đưa vào thì hệ thống vẫn gán đó là một trong các tiếng đã học mẫu dẫn đến sai hoàn toàn Trong mọi tín hiệu, dù có tiếng nói hoặc không có tiếng nói, thì luôn luôn có âm nền Khác biệt chủ yếu khi có tiếng nói là âm thanh tiếng nói sẽ là âm thanh... bây giờ là từ Việt, nhờ đó việc phiên âm để đọc tiếng nước ngoài đơn giản hơn 20 Trong phạm vi nghiên cứu của luận văn này tôi đã đi theo quan điểm thứ hai để nghiên cứu áp dụng cho nhận dạng các nguyên âm phụ âm trong tiếng Việt 3 Tiền xử tín hiệu tiếng nói Tín hiệu tiếng nói khi đã được số hoá, trước khi trích lọc đặc trưng phải thực hiện tiền xử lý: Lọc nhiễu, chuẩn hoá biên độ, căn chỉnh thời... phân tích, nghiên cứu tiếng Việt ở nhiều khía cạnh khác nhau như vần, điệu, ngữ pháp, ngữ nghĩa, cách phát âm, v.v Tuy nhiên với cách quan niệm trên làm cho chúng ta gặp nhiều khó khăn về thuật toán như làm tăng dung tích bộ nhớ, tăng thời gian xử Do đó để đơn giản hoá khi nghiên cứu nhận dang tiếng Việt người ta có thể quan niệm toàn bộ tiếng Việt được xây dựng từ một bảng gồm 26 phụ âm 620 nguyên... tiếng kêu (voiced sound) + Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm (Unvoice) + Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác nhau 14 + Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms + Lượng khí từ phổi đẩy ra xác định âm lượng phát ra Cách tạo ra tiếng nói như trên là nguyên cơ bản cho các tiếng nói chung trên thế giới nhưng đi sâu vào nghiên. .. trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác nhau có điểm chung điểm riêng biệt khác nhau, chính điểm riêng biệt khác nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước khác nhau Vì vậy cần phải hiểu rõ cấu trúc ngữ âm tiếng Việt 2 Ngữ âm tiếng Việt 2.1 Khái niệm âm tiết Chuỗi lời nói của con người được chia ra thành... hiệu về 1 khoảng nhất định nào đó Giả sử dãy tín hiệu s(n)= { s(1), s(2),… s(n) } có n mẫu được chuẩn hoá thời gian về dãy mới có N mẫu Thuật toán như sau: For(i=1; i . trong tiếng Việt. 1 3. Nhiệm vụ của đồ án. Nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng Neuron. Ứng dụng mạng neuron để nhận dạng tiếng Việt theo hướng nhận dạng nguyên âm và phụ. và máy. Chính sự quan trọng đặc biệt này mà em đã chọn âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích của đồ án Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng trong nhận dạng tiếng nói tiếng. nhiều hơn nữa. Dưới góc độ nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói và nhận dạng với các phát âm từ đơn và nghiên cứu các nguyên âm và phụ âm trong Tiếng Việt. Quá trình

Ngày đăng: 18/06/2014, 22:20

Từ khóa liên quan

Mục lục

  • LỜI NÓI ĐẦU

  • CHƯƠNG I: ÂM THANH VÀ SỐ HOÁ ÂM THANH

    • 1. Đặc trưng sóng âm

      • 1.1 Các đặc trưng

      • 1.2 Đơn vị vật lý của âm thanh.

    • 2. Qúa trình số hoá âm thanh

  • CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG

    • 1 Quá trình phát âm

    • 2 Ngữ âm tiếng Việt

  • CHƯƠNG III: MẠNG NEURAL VÀ ỨNG DỤNG TRONG

  • NHẬN DẠNG ÂM THANH TIẾNG VIỆT

    • 2. Cấu trúc mạng neuron nhân tạo

      • 2.3 Những vấn đề quan trọng trong mạng Neural lan truyền ngược

    • 2.4 Thiết kế mạng Neural

  • Mạng học đặc trưng LPC-COSIN: cấu trúc 36 – 25 – 8.

  • Mạng học đặc trưng LPC-COSIN: cấu trúc 108 – 85 – 11.

  • Mạng học đặc trưng LPC-COSIN: cấu trúc 198 – 155 – 11.

  • CHƯƠNG IV THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan