Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	75
Dung lượng	2,7 MB

Nội dung

1. Mạng Nơron 53 3.1 Luật học có giám sát 55 3.2 Luật học không giám sát 56 3.3 Luật học tăng cường 57 Kết luận 74 GIỚI THIỆU Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo” như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữ đến xử lý thông tin. Và nó thực sự đã trở thành nền tảng cho việc xây dựng các thế hệ máy thông minh hiện đại. Cũng với mục đích đó, nhưng dựa trên quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý thuyết mạng neuron. Tiếp thu các thành tựu về thần kinh sinh học, mạng neuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chức thần kinh trong bộ não con người. Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếng nói). Ngoài sức mạnh vốn có, mạng neuron còn thể hiện ưu điểm của mình trong việc nhận dạng thông qua khả năng mềm dẻo, dễ thích nghi với môi trường. Chính vì vậy, có thể coi mạng neuron trước tiên là một công cụ để nhận dạng. Nhiều công trình nghiên cứu, nhiều ứng dụng thực nghiệm đã được thực hiện trên mạng neuron với mục đích nhận dạng và đã thu được những thành công to lớn. Trước sự quyến rũ của các ứng dụng trí tuệ nhân tạo, cùng bản tính tò mò trước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khích của thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu ban 1 đầu về lý thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn đề nhận dạng tiếng nói. Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, và nhiều lĩnh vực khác. Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học, toán học, điều khiển, điện tử, sinh học Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người và máy. Chính sự quan trọng đặc biệt này mà tôi đã chọn nhận dạng âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích, nhiệm vụ của đồ án. Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng mạng Neuron trong nhận dạng giọng nói trên tập từ hữu hạn. Nghiên cứu nhận dạng trên quan điểm xem xét tín hiệu giọng nói dưới góc độ phân tách thành một tập các tham số được trích rút từ mỗi khung(N=240) tín hiệu giọng nói bao gồm: Các hệ số tự tương quan( { } q i iR 0 )( = với q=12), Tần số phổ vạch( { } p i i LSF 1= , p=10), Dải năng lượng đầy(E f ), Dải năng lượng thấp(E l ), Tỉ lệ qua điểm không(ZC). 2. Ý nghĩa. Hướng nghiên cứu áp dụng module VAD trong nhận dạng giọng nói là một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũng 2 như quá trình nhận dạng sau này, mà vẫn đảm bảo được những yêu cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng giọng nói chính xác tỉ lệ cao. 3. Một số mục tiêu chính trong đồ án. • Tổng quan về hệ thống nhận dạng tiếng nói và đặc điểm âm thanh tiếng việt. • Các vấn đề phân tích dữ liệu tiếng nói. o Mô tả chung mã hóa tín hiệu giọng nói. o Mô tả các hàm thực hiện mã hóa. o Thuật toán VAD trong xác định vùng âm thanh. • Tìm hiểu mạng neuron cho nhận dạng giọng nói(cụ thể với mạng LVQ- learnned Vecter Quantization hay Kohonen.) • Xây dựng chương trình nhận dạng giọng nói sử dụng mạng neuron LVQ. • Kết luận và hướng phát triển tiếp theo của đồ án. 3 Phần 1: Tổng quan về hệ thống nhận dạng giọng nói 1. Nguồn gốc âm thanh. Âm thanh là do vật thể rung động, phát ra tiếng ra tiếng và lan truyền đi trong không khí. Sở dĩ tai ta nghe được âm thanh là nhờ có màng nhĩ. Màng nhĩ nối liền với hệ thống thần kinh. Làn sóng âm thanh từ vật thể rung động phát ra, được lan truyền trong không khí, tới tai ta làm rung động màng nhĩ theo đúng nhịp điệu rung động của vật thể đã phát ra tiếng. Nhờ đó, tai ta nghe được âm thanh. Không khí là môi trường truyền dẫn âm thanh, tuy nhiên, không phải tất cả các âm thanh đều được con người thu nhận mà chỉ những âm thanh có tần số trong một phạm vi nhất định. Như vậy bản chất âm thanh là một dao động có tần số, con người có thể cảm nhận được từ dao động này. Nếu dao động có biên độ càng lớn thì âm lượng càng lớn và ngược lại. Tần số dao động của các âm thanh trong tự nhiên có phạm vi rộng, tuy nhiên con người chỉ cảm nhận trong một phạm vi nhất định. Âm thanh được lan truyền trong các chất khí, lỏng, rắn…nhưng không lan truyền được trong khoảng chân không. Một số chất truyền dẫn âm kém. Các chất dẫn âm kém thường là loại mềm, xốp như bong, dạ, cỏ khô. Các chất này gọi là chất hút âm, được dung lót tường các rạp hát, phòng cách âm…để hút âm, giảm tiếng vang. Vận tốc truyền lan của âm thanh phụ thuộc vào chất truyền âm, ví dụ tốc đọ truyền âm trong không khí là 340 m/s, trong nước là 1480 m/s, trong sắt là 4 5000 m/s. Trong quá trình truyền lan, nếu gặp phải các vật chướng ngại như tường, núi đá,…thì phần lớn năng lượng của âm thanh sẽ bị phản xạ trở lại, một phần nhỏ tiếp tục truyền lan về phía trước. Còn một phần nhỏ nữa của năng lượng âm thanh bị cọ sát với vật chướng ngại biến thành nhiệt năng tiêu tan đi. 2. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người. Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người. Hình 1.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói/nhận thức tiếng nói của con người. Quá trình sản xuất tiếng nói bắt đầu từ khi người nói tạo ra một thông điệp(trong ý nghĩ của anh ta) và muốn chuyển tải nó cho người nghe thông qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thông điệp. Bước tiếp theo của quá trình là chuyển đổi thông điệp sang dạng một mã ngôn ngữ. Điều này gần như tương đương với việc chuyển đổi các biểu diễn văn bản của thông điệp thành một chuỗi các âm vị tương ứng với những âm thanh 5 tạo nên các từ; Đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm cao thấp của âm thanh. Khi một mã ngôn ngữ được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âm thanh phát ra một chuỗi các âm thanh. Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học. Các lệnh thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi, … Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá trình thu nhận tiếng nói(hay nhận dạng tiếng nói) bắt đầu. Đầu tiên, người nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả năng cung cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinh thính giác, có thể coi đây như một quá trình lấy ra các đặc trưng. Bằng một phương pháp đặc biệt(chưa được hiểu một cách thấu đáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý cấp cao hơn bên trong bộ não, và cuối cùng là việc hiểu được nội dung thông điệp. Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thần kinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứng dụng mạng neuron nhân tạo trong việc mô phỏng một số tổ chức thần kinh như một phần của hệ thần kinh thính giác. 6 3. Khái quát về ngữ âm tiếng việt. 3.1 Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói tiếng việt. Trong thời gian gần đây, các hệ nhận dạng tiếng nói phát triển theo hướng tiếp cận ngữ âm học kết hợp với hướng tiếp cận nhận dạng theo mẫu thống kê truyền thống. Việc kết hợp hướng nhận dạng thống kê và sử dụng các tri thức về ngữ âm học để tạo ra các hệ nhận dạng hoạt động giống với cách thức mà con người nghe và hiểu tiếng nói nhất. Vì vậy, các nghiên cứu về ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhận dạng trở nên mang ý nghĩa quan trọng. Công việc nghiên cứu này có ý nghĩa riêng biệt trên từng ngôn ngữ (vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài những điểm chung). Vì vậy, muốn xây dựng tốt hệ nhận dạng tiếng nói tiếng Việt, trước tiên chúng ta phải nghiên cứu ngữ âm tiếng Việt để biết được đặc điểu âm học của Tiếng Việt. 3.2 Các đặc tính cơ bản của tiếng việt. • Âm tiếng việt tương đối tách biệt: Trong tiếng việt các âm của các từ trong một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát âm hoàn toàn độc lập, không có hiện tượng đọc nối nhau như trong tiếng Anh. • Tiếng việt tương đối nhất quán giữa cách phát âm và cách viết: Nguyên tắc chính của chữ tiếng việt là ký âm, nghĩa là đọc sao viết vậy. Nhưng sau các nghiên cứu trên tiếng việt đã chỉ ra một số bất đồng trong hệ 7 thống chữ viết, mặc dù vậy nhìn chung tiếng việt vẫn nhất quán giữa đọc và viết . • Hiện tượng môi hoá: Trong tiếng việt có một số âm môi như: ô,u . Các phụ âm đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện tượng môi hoá . 4. Âm tố. Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được. Chúng không mang chức năng phân biệt nghĩa hay nhận diện từ. Âm tố thường tương ứng với âm vị. Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát âm khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát âm của mỗi cá nhân,… Chính vì vậy người ta không liệt kê được có bao nhiêu âm tố trong các ngôn ngữ. 4.1. Phân loại âm tố theo cấu âm. Âm tố cơ bản được chia làm hai loại: Nguyên âm và phụ âm. Về mặt chức năng, các nguyên âm thường là hạt nhân(hay đỉnh) của âm tiết-thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và ngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm. Phụ âm, ngược lại thường là yếu tố đi kèm không tạo thành âm tiết(trừ các phụ âm vang). Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của nguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thường chỉ đi kèm với nguyên âm khác để tạo âm tiết. 8 4.2 Phân loại âm tố về mặt âm học. 4.2.1. Các đặ c t r ưng âm họ c Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm phổ. Các máy phân tích âm phổ cho chúng ta các phổ đồ(phổ hình), qua đó các âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo các đặc trưng sau:  Nguyên âm – Không nguyên âm Đặc trưng nguyên âm: được thể hiện bằng các cấu trúc formant. Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng nguyên âm là các âm ồn.  Phụ âm – Không phụ âm Đặc trưng âm học của phụ âm là có mức năng lượng thấp. Nếu có mức năng lượng cao là nguyên âm. Có đặc trưng phụ âm là các phụ âm vang và ồn.  Bổng - Trầm Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới của phổ. Âm bổng gồm các nguyên âm hàng trước, phụ âm răng, các phụ âm lưỡi trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các phụ âm môi và phụ âm lưỡi sau. 9  Loãng - Đặc Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi trước, lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi cao (nguyên âm khép), những phụ âm răng, phụ âm môi ([i], [u], [ư] trong tiếng Việt).  Ngắt - Không ngắt Ðó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và vắng mặt của âm thanh. “Các phụ âm xát thường có khởi âm từ từ. Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng im lặng hoàn toàn” (R. Jacobson, G. Fant và M. Halle, 1962) Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ âm xát, phụ âm mũi) là những âm không ngắt.  Gắt - Không gắt Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm gắt có vùng tối thay đổi sắc thái rõ rệt. Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc - xát, bật hơi, phụ âm rung. Những loại hình âm còn lại là những âm không gắt.  Căng - Lơi Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh cộng hưởng thể hiện rõ trên phổ hình. Âm căng bao gồm các phụ âm mạnh và các nguyên âm đặc. Âm lơi bao gồm những phụ âm yếu và các nguyên âm 10 [...]... luỹ và đồng thời được phân loại theo sự tương ứng mẫu tốt nhất Tiếp cận nhận dạng mẫu thường được lựa chọn cho các ứng dụng nhận dạng tiếng nói bởi ba lý do sau: 1 Tính dễ sử dụng và dễ hiểu trong thuật toán 2 Tính bất biến và khả năng thích nghi đối với những từ vựng, người sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắc quyết định khác nhau 3 Khẳng định tính năng cao trong. .. vài) đơn vị ngữ âm Sau đó gán một(hoặc nhiều) nhãn ngữ âm cho mỗi vùng phân đoạn dựa theo các thuộc tính âm học Bước thứ hai của tiếp cận là giai đoạn thực sự nhận dạng tiếng nói Nhiệm vụ chính của bước này là cố gắng xác định một từ hợp lệ(hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu được từ bước thứ nhất đựa trên cơ sở các ràng buộc(về từ vựng và cú pháp) của tác vụ cần nhận dạng tiếng nói. .. thêm 1 mẫu nữa và chèn vào sau mẫu đó Biến Stereo  Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải Lúc này từ File Stereo ta được 2 File MonoLeft và MonoRight 6 Các tiếp cận nhận dạng giọng nói Về cơ bản, có ba tiếp cận nhận dạng giọng nói chính như sau: 1 Tiếp cận âm thanh – ngữ âm 2 Tiếp cận nhận dạng mẫu 3 Tiếp cận trí tuệ nhân tạo 24 Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn... cao trong thực tế Từ những mô tả trên về tiếp cận nhận dạng mẫu cho nhận dạng tiếng nói, chúng ta có thể nhận ra nhiều điểm tương đồng về lý thuyết đối với các bài toán được giải quyết bằng công cụ mạng neuron Điểm khác biệt chính ở đây nằm ở khái niệm lưu trữ các mẫu tích luỹ Đối với mạng neuron, các mẫu lưu trữ được mã hóa thành các trọng số synapse và các hệ số hiệu chỉnh của mạng thông qua quá... nói Tiếp cận nhận dạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp các mẫu tiếng nói( speech pattern-đoạn tín hiệu tiếng nói cần nhận dạng) mà không cần xác định rõ các đặc trưng và cũng không cần phân đoạn tín hiệu như đối với tiếp cận âm thanh-ngữ âm Phương pháp này cũng gồm hai bước, tích luỹ các mẫu tiếng nói, và nhận dạng mẫu thông qua so sánh mẫu “Kiến thức” về tiếng nói được đưa vào hệ thống... dụng trí thông minh của mình trong việc quan sát, phân tích và thực hiện những quyết định trên các đặc trưng âm học của tín hiệu Một trong những kỹ thuật được xây dựng theo quan điểm này là việc sử dụng một hệ chuyên gia cho việc phân đoạn và gán nhãn tín hiệu, hay việc học và thích 26 nghi theo thời gian… Xét trên khía cạnh mô phỏng trí tuệ con người thì việc ứng dụng mạng neuron phần nào mang tính chất... bằng cách lọc sai số giữa LP số dư và LP trích rút, điều này tương đương trừ đáp ứng đầu vào rỗng của lọc tổng hợp có trọng số từ các tín hiệu giọng nói có trọng số Đáp ứng xung h(n) của lọc tổng hợp có trọng số được tính toán Phân tích chu kỳ đóng được thực hiện sau đó (tìm kiếm codebook giữ chậm và năng lượng thích ứng) , sử dụng x(n) đích và đáp ứng xung h(n) bằng cách tìm kiếm xung quanh giá trị của... đủ ở dạng Wave có thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn b) Cấu trúc file WAVE Một trong những cấu trúc đơn giản nhất, cơ bản trong việc lưu trữ dữ liệu âm thanh là tập tin dạng wave Tập tin dạng wave là tập tin lưu trữ dữ liệu dạng waveform, dữ liệu khi thu âm được lưu giữ trực tiếp vào tập tin, nên tốc độ mã và giải mã dữ liệu dạng này rất nhanh Sau đây là cấu trúc file wave: Định dạng. .. đổi sang cặp phổ vạch(LSP) và lượng tử hóa sử dụng 2 giai đoạn lượng tử vectơ(VQ) với 18 bits Tín hiệu kích thích được lựa chọn bằng cách sử dụng một phân tích thủ tục tìm kiếm tổng hợp sai số giữa giọng nói ban đầu(gốc) và giọng nói khôi phục lại là nhỏ nhất theo trọng số Các tham số trích rút(các tham số codebook cố định và thích ứng) được xác định trên khung phụ 5 ms(tương ứng 40 mẫu) Các hệ số lọc... trình “so sánh mẫu” cũng được trìu tượng hóa bằng việc đưa các mẫu không biết qua đầu vào của mạng rồi sau đó thực hiện quyết định “so sánh” trên các đầu ra của mạng Tiếp cận nhận dạng tiếng nói cuối cùng được bàn đến ở đây là tiếp cận trí tuệ nhân tạo mà dường như khai thác quan điểm của hai tiếp cận kể trên Tiếp cận này cố gắng “máy móc hóa” chức năng nhận dạng theo cách mà con người áp dụng trí thông . chọn nhận dạng âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích, nhiệm vụ của đồ án. Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng mạng Neuron trong nhận dạng giọng nói trên tập từ hữu hạn. Nghiên. thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn đề nhận dạng tiếng nói. Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết thực trong nhiều lĩnh vực như: nhận. tiếng nói. o Mô tả chung mã hóa tín hiệu giọng nói. o Mô tả các hàm thực hiện mã hóa. o Thuật toán VAD trong xác định vùng âm thanh. • Tìm hiểu mạng neuron cho nhận dạng giọng nói( cụ thể với mạng LVQ-

Ngày đăng: 19/06/2014, 21:06

Xem thêm