Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
2,7 MB
Nội dung
1. Mạng Nơron 53 3.1 Luật học có giám sát 55 3.2 Luật học không giám sát 56 3.3 Luật học tăng cường 57 Kết luận 74 GIỚI THIỆU Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo” như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữ đến xử lý thông tin. Và nó thực sự đã trở thành nền tảng cho việc xây dựng các thế hệ máy thông minh hiện đại. Cũng với mục đích đó, nhưng dựa trên quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý thuyết mạng neuron. Tiếp thu các thành tựu về thần kinh sinh học, mạngneuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chức thần kinh trong bộ não con người. Một trong những ứngdụng kinh điển của mạngneuron là lớp các bài toán nhậndạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếng nói). Ngoài sức mạnh vốn có, mạngneuron còn thể hiện ưu điểm của mình trong việc nhậndạng thông qua khả năng mềm dẻo, dễ thích nghi với môi trường. Chính vì vậy, có thể coi mạngneuron trước tiên là một công cụ để nhận dạng. Nhiều công trình nghiêncứu, nhiều ứngdụng thực nghiệm đã được thực hiện trênmạngneuron với mục đích nhậndạngvà đã thu được những thành công to lớn. Trước sự quyến rũ của các ứngdụng trí tuệ nhân tạo, cùng bản tính tò mò trước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khích của thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu ban 1 đầu về lý thuyết mạngneuron với một mục đích cụ thể là ứngdụng nó vào vấn đề nhậndạng tiếng nói. Xử lý âm thanh vànhậndạng tiếng nói có một ý nghĩa quan trọngvà thiết thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, và nhiều lĩnh vực khác. Nhậndạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học, toán học, điều khiển, điện tử, sinh học Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhậndạng càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người và máy. Chính sự quan trọng đặc biệt này mà tôi đã chọn nhậndạng âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích, nhiệm vụ của đồ án. Nghiêncứu,tìmhiểumạngNeuronvàứngdụngmạngNeurontrongnhậndạnggiọngnóitrêntậptừhữu hạn. Nghiên cứu nhậndạngtrên quan điểm xem xét tín hiệugiọngnói dưới góc độ phân tách thành một tập các tham số được trích rút từ mỗi khung(N=240) tín hiệugiọngnói bao gồm: Các hệ số tự tương quan( { } q i iR 0 )( = với q=12), Tần số phổ vạch( { } p i i LSF 1= , p=10), Dải năng lượng đầy(E f ), Dải năng lượng thấp(E l ), Tỉ lệ qua điểm không(ZC). 2. Ý nghĩa. Hướng nghiên cứu áp dụng module VAD trongnhậndạnggiọngnói là một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũng 2 như quá trình nhậndạng sau này, mà vẫn đảm bảo được những yêu cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhậndạnggiọngnói chính xác tỉ lệ cao. 3. Một số mục tiêu chính trongđồ án. • Tổng quan về hệ thống nhậndạng tiếng nóivà đặc điểm âm thanh tiếng việt. • Các vấn đề phân tích dữ liệu tiếng nói. o Mô tả chung mã hóa tín hiệugiọng nói. o Mô tả các hàm thực hiện mã hóa. o Thuật toán VAD trong xác định vùng âm thanh. • Tìmhiểumạngneuron cho nhậndạnggiọng nói(cụ thể với mạng LVQ- learnned Vecter Quantization hay Kohonen.) • Xây dựng chương trình nhậndạnggiọngnói sử dụngmạngneuron LVQ. • Kết luận và hướng phát triển tiếp theo của đồ án. 3 Phần 1: Tổng quan về hệ thống nhậndạnggiọngnói 1. Nguồn gốc âm thanh. Âm thanh là do vật thể rung động, phát ra tiếng ra tiếng và lan truyền đi trong không khí. Sở dĩ tai ta nghe được âm thanh là nhờ có màng nhĩ. Màng nhĩ nối liền với hệ thống thần kinh. Làn sóng âm thanh từ vật thể rung động phát ra, được lan truyền trong không khí, tới tai ta làm rung động màng nhĩ theo đúng nhịp điệu rung động của vật thể đã phát ra tiếng. Nhờ đó, tai ta nghe được âm thanh. Không khí là môi trường truyền dẫn âm thanh, tuy nhiên, không phải tất cả các âm thanh đều được con người thu nhận mà chỉ những âm thanh có tần số trong một phạm vi nhất định. Như vậy bản chất âm thanh là một dao động có tần số, con người có thể cảm nhận được từ dao động này. Nếu dao động có biên độ càng lớn thì âm lượng càng lớn và ngược lại. Tần số dao động của các âm thanh trongtự nhiên có phạm vi rộng, tuy nhiên con người chỉ cảm nhậntrong một phạm vi nhất định. Âm thanh được lan truyền trong các chất khí, lỏng, rắn…nhưng không lan truyền được trong khoảng chân không. Một số chất truyền dẫn âm kém. Các chất dẫn âm kém thường là loại mềm, xốp như bong, dạ, cỏ khô. Các chất này gọi là chất hút âm, được dung lót tường các rạp hát, phòng cách âm…để hút âm, giảm tiếng vang. Vận tốc truyền lan của âm thanh phụ thuộc vào chất truyền âm, ví dụ tốc đọ truyền âm trong không khí là 340 m/s, trong nước là 1480 m/s, trong sắt là 4 5000 m/s. Trong quá trình truyền lan, nếu gặp phải các vật chướng ngại như tường, núi đá,…thì phần lớn năng lượng của âm thanh sẽ bị phản xạ trở lại, một phần nhỏ tiếp tục truyền lan về phía trước. Còn một phần nhỏ nữa của năng lượng âm thanh bị cọ sát với vật chướng ngại biến thành nhiệt năng tiêu tan đi. 2. Quá trình sản xuất tiếng nóivà thu nhận tiếng nói của con người. Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người. Hình 1.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói/nhận thức tiếng nói của con người. Quá trình sản xuất tiếng nói bắt đầu từ khi người nói tạo ra một thông điệp(trong ý nghĩ của anh ta) và muốn chuyển tải nó cho người nghe thông qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thông điệp. Bước tiếp theo của quá trình là chuyển đổi thông điệp sang dạng một mã ngôn ngữ. Điều này gần như tương đương với việc chuyển đổi các biểu diễn văn bản của thông điệp thành một chuỗi các âm vị tương ứng với những âm thanh 5 tạo nên các từ; Đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài, sự nhấn mạnh, vàtrọng âm cao thấp của âm thanh. Khi một mã ngôn ngữ được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âm thanh phát ra một chuỗi các âm thanh. Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học. Các lệnh thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi, … Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá trình thu nhận tiếng nói(hay nhậndạng tiếng nói) bắt đầu. Đầu tiên, người nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả năng cung cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinh thính giác, có thể coi đây như một quá trình lấy ra các đặc trưng. Bằng một phương pháp đặc biệt(chưa được hiểu một cách thấu đáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý cấp cao hơn bên trong bộ não, và cuối cùng là việc hiểu được nộidung thông điệp. Từ sự minh họa quá trình nhậndạng tiếng nói thông qua hệ thống thần kinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứngdụngmạngneuronnhân tạo trong việc mô phỏng một số tổ chức thần kinh như một phần của hệ thần kinh thính giác. 6 3. Khái quát về ngữ âm tiếng việt. 3.1 Ý nghĩa của các nghiên cứu ngữ âm trongnhậndạng tiếng nói tiếng việt. Trong thời gian gần đây, các hệ nhậndạng tiếng nói phát triển theo hướng tiếp cận ngữ âm học kết hợp với hướng tiếp cận nhậndạng theo mẫu thống kê truyền thống. Việc kết hợp hướng nhậndạng thống kê và sử dụng các tri thức về ngữ âm học để tạo ra các hệ nhậndạng hoạt động giống với cách thức mà con người nghe vàhiểu tiếng nói nhất. Vì vậy, các nghiên cứu về ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhậndạng trở nên mang ý nghĩa quan trọng. Công việc nghiên cứu này có ý nghĩa riêng biệt trên từng ngôn ngữ (vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài những điểm chung). Vì vậy, muốn xây dựngtốt hệ nhậndạng tiếng nói tiếng Việt, trước tiên chúng ta phải nghiên cứu ngữ âm tiếng Việt để biết được đặc điểu âm học của Tiếng Việt. 3.2 Các đặc tính cơ bản của tiếng việt. • Âm tiếng việt tương đối tách biệt: Trong tiếng việt các âm của các từtrong một câu phát âm hầu như tách biệt nhau, nghĩa là các từđó được phát âm hoàn toàn độc lập, không có hiện tượng đọc nối nhau như trong tiếng Anh. • Tiếng việt tương đối nhất quán giữa cách phát âm và cách viết: Nguyên tắc chính của chữ tiếng việt là ký âm, nghĩa là đọc sao viết vậy. Nhưng sau các nghiên cứu trên tiếng việt đã chỉ ra một số bất đồng trong hệ 7 thống chữ viết, mặc dù vậy nhìn chung tiếng việt vẫn nhất quán giữa đọc và viết . • Hiện tượng môi hoá: Trong tiếng việt có một số âm môi như: ô,u . Các phụ âm đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện tượng môi hoá . 4. Âm tố. Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được. Chúng không mang chức năng phân biệt nghĩa hay nhận diện từ. Âm tố thường tương ứng với âm vị. Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát âm khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát âm của mỗi cá nhân,… Chính vì vậy người ta không liệt kê được có bao nhiêu âm tố trong các ngôn ngữ. 4.1. Phân loại âm tố theo cấu âm. Âm tố cơ bản được chia làm hai loại: Nguyên âm và phụ âm. Về mặt chức năng, các nguyên âm thường là hạt nhân(hay đỉnh) của âm tiết-thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và ngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm. Phụ âm, ngược lại thường là yếu tố đi kèm không tạo thành âm tiết(trừ các phụ âm vang). Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của nguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thường chỉ đi kèm với nguyên âm khác để tạo âm tiết. 8 4.2 Phân loại âm tố về mặt âm học. 4.2.1. Các đặ c t r ưng âm họ c Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm phổ. Các máy phân tích âm phổ cho chúng ta các phổ đồ(phổ hình), qua đó các âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo các đặc trưng sau: Nguyên âm – Không nguyên âm Đặc trưng nguyên âm: được thể hiện bằng các cấu trúc formant. Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng nguyên âm là các âm ồn. Phụ âm – Không phụ âm Đặc trưng âm học của phụ âm là có mức năng lượng thấp. Nếu có mức năng lượng cao là nguyên âm. Có đặc trưng phụ âm là các phụ âm vang và ồn. Bổng - Trầm Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới của phổ. Âm bổng gồm các nguyên âm hàng trước, phụ âm răng, các phụ âm lưỡi trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các phụ âm môi và phụ âm lưỡi sau. 9 Loãng - Đặc Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi trước, lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi cao (nguyên âm khép), những phụ âm răng, phụ âm môi ([i], [u], [ư] trong tiếng Việt). Ngắt - Không ngắt Ðó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và vắng mặt của âm thanh. “Các phụ âm xát thường có khởi âm từ từ. Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng im lặng hoàn toàn” (R. Jacobson, G. Fant và M. Halle, 1962) Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ âm xát, phụ âm mũi) là những âm không ngắt. Gắt - Không gắt Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm gắt có vùng tối thay đổi sắc thái rõ rệt. Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc - xát, bật hơi, phụ âm rung. Những loại hình âm còn lại là những âm không gắt. Căng - Lơi Những âm căng là những âm có độdài lớn, năng lượng lớn và có thanh cộng hưởng thể hiện rõ trên phổ hình. Âm căng bao gồm các phụ âm mạnh và các nguyên âm đặc. Âm lơi bao gồm những phụ âm yếu và các nguyên âm 10 [...]... luỹ và đồng thời được phân loại theo sự tương ứng mẫu tốt nhất Tiếp cận nhậndạng mẫu thường được lựa chọn cho các ứngdụngnhậndạng tiếng nói bởi ba lý do sau: 1 Tính dễ sử dụngvà dễ hiểutrong thuật toán 2 Tính bất biến và khả năng thích nghi đối với những từ vựng, người sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắc quyết định khác nhau 3 Khẳng định tính năng cao trong. .. vài) đơn vị ngữ âm Sau đó gán một(hoặc nhiều) nhãn ngữ âm cho mỗi vùng phân đoạn dựa theo các thuộc tính âm học Bước thứ hai của tiếp cận là giai đoạn thực sự nhậndạng tiếng nói Nhiệm vụ chính của bước này là cố gắng xác định một từ hợp lệ(hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu được từ bước thứ nhất đựa trên cơ sở các ràng buộc(về từ vựng và cú pháp) của tác vụ cần nhậndạng tiếng nói. .. thêm 1 mẫu nữa và chèn vào sau mẫu đó Biến Stereo Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải Lúc này từ File Stereo ta được 2 File MonoLeft và MonoRight 6 Các tiếp cận nhận dạnggiọngnói Về cơ bản, có ba tiếp cận nhận dạnggiọngnói chính như sau: 1 Tiếp cận âm thanh – ngữ âm 2 Tiếp cận nhậndạng mẫu 3 Tiếp cận trí tuệ nhân tạo 24 Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn... cao trong thực tế Từ những mô tả trên về tiếp cận nhậndạng mẫu cho nhậndạng tiếng nói, chúng ta có thể nhận ra nhiều điểm tương đồng về lý thuyết đối với các bài toán được giải quyết bằng công cụ mạngneuron Điểm khác biệt chính ở đây nằm ở khái niệm lưu trữ các mẫu tích luỹ Đối với mạng neuron, các mẫu lưu trữ được mã hóa thành các trọng số synapse và các hệ số hiệu chỉnh của mạng thông qua quá... nói Tiếp cận nhậndạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp các mẫu tiếng nói( speech pattern-đoạn tín hiệu tiếng nói cần nhận dạng) mà không cần xác định rõ các đặc trưng và cũng không cần phân đoạn tín hiệu như đối với tiếp cận âm thanh-ngữ âm Phương pháp này cũng gồm hai bước, tích luỹ các mẫu tiếng nói, vànhậndạng mẫu thông qua so sánh mẫu “Kiến thức” về tiếng nói được đưa vào hệ thống... dụng trí thông minh của mình trong việc quan sát, phân tích và thực hiện những quyết định trên các đặc trưng âm học của tín hiệu Một trong những kỹ thuật được xây dựng theo quan điểm này là việc sử dụng một hệ chuyên gia cho việc phân đoạn và gán nhãn tín hiệu, hay việc họcvà thích 26 nghi theo thời gian… Xét trên khía cạnh mô phỏng trí tuệ con người thì việc ứngdụngmạngneuron phần nào mang tính chất... bằng cách lọc sai số giữa LP số dư và LP trích rút, điều này tương đương trừ đáp ứng đầu vào rỗng của lọc tổng hợp có trọng số từ các tín hiệugiọngnói có trọng số Đáp ứng xung h(n) của lọc tổng hợp có trọng số được tính toán Phân tích chu kỳ đóng được thực hiện sau đó (tìm kiếm codebook giữ chậm và năng lượng thích ứng) , sử dụng x(n) đích và đáp ứng xung h(n) bằng cách tìm kiếm xung quanh giá trị của... đủ ở dạng Wave có thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn b) Cấu trúc file WAVE Một trong những cấu trúc đơn giản nhất, cơ bản trong việc lưu trữ dữ liệu âm thanh là tập tin dạng wave Tập tin dạng wave là tập tin lưu trữ dữ liệu dạng waveform, dữ liệu khi thu âm được lưu giữ trực tiếp vào tập tin, nên tốc độ mã và giải mã dữ liệu dạng này rất nhanh Sau đây là cấu trúc file wave: Định dạng. .. đổi sang cặp phổ vạch(LSP) và lượng tử hóa sử dụng 2 giai đoạn lượng tử vectơ(VQ) với 18 bits Tín hiệu kích thích được lựa chọn bằng cách sử dụng một phân tích thủ tục tìm kiếm tổng hợp sai số giữa giọngnói ban đầu(gốc) vàgiọngnói khôi phục lại là nhỏ nhất theo trọng số Các tham số trích rút(các tham số codebook cố định và thích ứng) được xác định trên khung phụ 5 ms(tương ứng 40 mẫu) Các hệ số lọc... trình “so sánh mẫu” cũng được trìu tượng hóa bằng việc đưa các mẫu không biết qua đầu vào của mạng rồi sau đó thực hiện quyết định “so sánh” trên các đầu ra của mạng Tiếp cận nhậndạng tiếng nói cuối cùng được bàn đến ở đây là tiếp cận trí tuệ nhân tạo mà dường như khai thác quan điểm của hai tiếp cận kể trên Tiếp cận này cố gắng “máy móc hóa” chức năng nhậndạng theo cách mà con người áp dụng trí thông . chọn nhận dạng âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích, nhiệm vụ của đồ án. Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng mạng Neuron trong nhận dạng giọng nói trên tập từ hữu hạn. Nghiên. thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn đề nhận dạng tiếng nói. Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết thực trong nhiều lĩnh vực như: nhận. tiếng nói. o Mô tả chung mã hóa tín hiệu giọng nói. o Mô tả các hàm thực hiện mã hóa. o Thuật toán VAD trong xác định vùng âm thanh. • Tìm hiểu mạng neuron cho nhận dạng giọng nói( cụ thể với mạng LVQ-