nhan dang giong

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	70
Dung lượng	6,98 MB

Nội dung

nhan dang giong tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các lĩnh vực kinh tế, kin...

Đề tài: “Nhận dạng giọng nói bằng mạng Neural hồi quy” BÁO CÁO ĐỒ ÁN TỐT NGHIỆP Đăt vấn đề (1/2)  Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai.  Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn.  Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học… 2/26 Đăt vấn đề (2/2)  Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System.  Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng giọng nói (Speech Recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo và cũng đã có những thành công nhất định. 3/26 Mục đích – Yêu cầu (1/1)  Mục đích:  Trên cơ sở những phương pháp đã được sử dụng để nhận dạng tiếng nói của một số nước như tiếng anh, tiếng arập…, nghiên cứu thử nghiệm đối với Tiếng việt.  Yêu cầu:  Nghiên cứu, tìm hiểu mạng neural và cấu trúc ngôn ngữ Tiếng việt.  Xây dựng chương trình nhận dạng 10 chữ số và một số nút lệnh cơ bản như thêm, sữa, xóa… 4/26 Nội dung báo cáo (1/1)  Tổng quan về hệ thống nhận dạng giọng nói và cấu trúc ngôn ngữ Tiếng việt.  Kỹ thuật phân tích dữ liệu giọng nói  Mạng Neural cho nhận dạng giọng nói  Cài đặt chương trình và đánh giá kết quả 5/26 I. Tổng quan về hệ thống nhận dạng giọng nói (1/3)  Nhận dạng giọng nói là quá trình thu nhận và xử lý tín hiệu giọng nói nhằm mục đích nhận biết nội dung văn bản của nó.  Quá trình phát âm của con người là giống nhau nhưng tiếng nói của các nước khác nhau thì có những điểm chung và khác.  Chính điểm khác nhau này là yếu tố quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước. 6/26 I. Tổng quan về hệ thống nhận dạng tiếng nói (2/3)  Âm tiếng việt tương đối tách biệt.  Tương đối nhất quán trong cách phát âm và cách viết  Âm tiết là đơn vị phát âm nhỏ nhất.  Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố siêu đoạn tính.  Đặc điểm riêng của Tiếng việt là đơn âm và mang thanh điệu. 7/26 I. Tổng quan về hệ thống nhận dạng tiếng nói (3/3)  Các hướng nghiên cứu nhận dạng tiếng nói  Sử dụng tập mẫu  Sử dụng mô hình thống kê  Sử dụng mạng Neural nhân tạo 8/26 1. Trích rút tham số  Tiền xử lý  Trích chọn tham số LP (Linear Prediction)  Chuyển đổi LP thành LSP (Line Spectral Pair)  Chuyển đổi LSP thành LSF (Line Spectral Frequency) 2. Thuật toán VAD (Voice Activity Detection) II. Kỹ thuật phân tích dữ liệu tiếng nói (1/1) 9/26 Trích rút tham số (1/7) 1. Tiền xử lý Tín Dê Barbari Alpine Bách Thảo Heo Ỉ Heo Móng Cái Mường Khương Heo Mèo Heo Ba Xuyên Heo Thuộc Nhiêu Heo Yorkshire Heo Landrace Heo Duroc Heo Pietrain MỤC LỤC 1 LỜI NÓI ĐẦU Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai. Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn. Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học… Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System. Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng giọng nói (Speech Recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo và cũng đã có những sản phẩm thương mại. Tuy nhiên những kết quả đó độ chính xác chưa cao. Vì vậy trong đồ án tốt nghiệp của mình em đã chọn đề tài “Nhận dạng giọng nói bằng mạng neural hồi quy” để có thể hiểu thêm về công nghệ xử lý âm thanh và các ứng dụng thực tế của nó. Mục tiêu của đồ án là tìm hiểu được đặc điểm của tiếng Việt, các phương pháp trích chọn đặc trưng, nghiên cứu về mạng Neural và xây dựng một ứng dụng nhận dạng một số từ tiếng Việt. Đồ án được trình bày trong bốn chương với bố cục như sau: - Chương 1: Âm thanh và số hóa âm thanh. - Chương 2: Tiếng việt và các đặc trưng. 2 - Chương 3: Mạng neural và ứng dụng trong nhận dạng giọng nói. - Chương 4: Thiết kế chương trình nhận dạng. Trong quá trình thực hiện em xin chân thành cảm ơn thầy giáo đã tận tình hướng dẫn, chỉ bảo từng nội dung của đề tài, các thầy, cô giáo trong khoa Công Nghệ Thông Tin đã có nhiều giúp đỡ chuyên sâu về công nghệ xử lý tiếng nói, để em có thể hoàn thành nội dung đồ án. 3 CHƯƠNG 1: ÂM THANH VÀ SỐ HÓA ÂM THANH 1.1. Đặc trưng sóng âm 1.1.1.Các đặc trưng a. Tần số Tần số là tốc độ mà các dạng sóng riêng biệt lặp lại theo hàm thời gian, tần số phụ thuộc vào chấn động nhanh hay chậm của không khí trong một thời gian nhất định. b. Biên độ Biên độ là độ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính quan trọng góp phần nhận diện sự khác biệt giữa nhiễu nền và giọng nói. c. Dạng sóng Dạng sóng là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các sóng hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào. Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz). 1.1.2. Đơn vị vật lý của âm thanh Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động màng nhĩ tai gây cảm giác về âm. Âm thanh có những đặc 1. Mạng Nơron 53 3.1 Luật học có giám sát 55 3.2 Luật học không giám sát 56 3.3 Luật học tăng cường 57 Kết luận 74 GIỚI THIỆU Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo” như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữ đến xử lý thông tin. Và nó thực sự đã trở thành nền tảng cho việc xây dựng các thế hệ máy thông minh hiện đại. Cũng với mục đích đó, nhưng dựa trên quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý thuyết mạng neuron. Tiếp thu các thành tựu về thần kinh sinh học, mạng neuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chức thần kinh trong bộ não con người. Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếng nói). Ngoài sức mạnh vốn có, mạng neuron còn thể hiện ưu điểm của mình trong việc nhận dạng thông qua khả năng mềm dẻo, dễ thích nghi với môi trường. Chính vì vậy, có thể coi mạng neuron trước tiên là một công cụ để nhận dạng. Nhiều công trình nghiên cứu, nhiều ứng dụng thực nghiệm đã được thực hiện trên mạng neuron với mục đích nhận dạng và đã thu được những thành công to lớn. Trước sự quyến rũ của các ứng dụng trí tuệ nhân tạo, cùng bản tính tò mò trước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khích của thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu ban 1 đầu về lý thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn đề nhận dạng tiếng nói. Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, và nhiều lĩnh vực khác. Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học, toán học, điều khiển, điện tử, sinh học Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người và máy. Chính sự quan trọng đặc biệt này mà tôi đã chọn nhận dạng âm thanh tiếng Việt là đề tài nghiên cứu. 1. Mục đích, nhiệm vụ của đồ án. Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng mạng Neuron trong nhận dạng giọng nói trên tập từ hữu hạn. Nghiên cứu nhận dạng trên quan điểm xem xét tín hiệu giọng nói dưới góc độ phân tách thành một tập các tham số được trích rút từ mỗi khung(N=240) tín hiệu giọng nói bao gồm: Các hệ số tự tương quan( { } q i iR 0 )( = với q=12), Tần số phổ vạch( { } p i i LSF 1= , p=10), Dải năng lượng đầy(E f ), Dải năng lượng thấp(E l ), Tỉ lệ qua điểm không(ZC). 2. Ý nghĩa. Hướng nghiên cứu áp dụng module VAD trong nhận dạng giọng nói là một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũng 2 như quá trình nhận dạng sau này, mà vẫn đảm bảo được những yêu cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng giọng nói chính xác tỉ lệ cao. 3. Một số mục tiêu chính trong đồ án. • Hướng dẫn sử dụng tính năng nhận dạng giọng nói trong Windows 7 Việc ra lệnh bằng giọng nói và công nghệ nhận dạng giọng nói không chỉ dành riêng cho smartphone, ngày nay người dùng đang có xu hướng áp dụng trên cả những chiếc PC của họ. Hành động này có thể giúp mọi người tránh stress lặp đi lặp lại, tăng hiệu quả công việc và cảm thấy thú vị hơn. Bạn hoàn toàn có thể khởi động các chương trình, sai khiến văn bản, cuộn trang web và hơn thế nữa chỉ bằng giọng nói. Bài viết sau sẽ hướng dẫn các bạn chi tiết cách thực hiện. Bước 1 Kích Start > Control Panel > Ease of Access > Speech Recognition, tại đây chọn "Start Speech Recognition." Bước 2 Nhấn Next để chạy trình Speech Recognition Wizard, chọn kiểu microphone bạn sử dụng và đọc to một câu làm ví dụ. Bước 3 Sau khi hoàn thành Wizard theo hướng dẫn, chúng tôi khuyến cáo bạn chọn tiếp menu Take Speech Tutorial. Mặc dù có chút dài dòng nhưng mục này sẽ giúp bạn tìm hiểu về cách sử dụng tính năng nhận dạng giọng nói, trong khi đó cũng “đào tạo” máy tính của mình tìm hiểu cách chủ nhân nói chuyện. Nó sẽ dạy cho bạn những điều cơ bản, chính tả, ra lệnh, và làm việc với Windows. Bước 4 Cuối cùng bạn sẽ thấy một cửa sổ trạng thái của tính năng nhận dạng giọng nói trên màn hình. Trong phiên làm việc của user hiện hành, các thông tin hữu ích sẽ hiển thị trong cửa sổ trạng thái này. Bạn chỉ cần kích chuột vào biểu tượng microphone để kích hoạt hoặc vô hiệu hóa nhận dạng giọng nói. Bước 5 Để tiếp tục “huấn luyện” máy tính khả năng nhận dạng giọng nói của mình, bạn trở lại Control Panel > Ease of Access > Speech Recognition và chọn "Train your computer to better understand you." Điều này sẽ chạy qua một loạt các câu để bạn đọc to. Bước 6 Nếu bạn quên cách sử dụng phần nào đó của tính năng nhận dạng giọng nói, có thể kích Open the Speech Reference Card để được hướng dẫn: Thủ thuật: bạn có thể dùng để thay thế các phím tắt thường xuyên sử dụng, chẳng hạn nói "press F5" để làm tươi lại trình duyệt hoặc "press Control Tab" để chuyển đổi các tab. Tuy nhiên bạn cần lưu ý đọc tiếng Anh sao cho đủ lớn và rõ ràng để máy tính dễ nhận biết. Ứng dụng nhận dạng giọng nói đỉnh cho Smartphone (VTC News) - Ứng dụng nhận dạng giọng là một trợ lí đắc lực cho chủ nhân của smartphone với những công việc như đặt chỗ, phiên dịch, tìm nhà hàng…Tất cả chỉ bằng mệnh lệnh giọng nói. 1. Google Mobile Ứng dụng Google Mobile là ứng dụng miễn phí, hoạt động trên hệ điều hành Android, BlackBerry, iOS. Ngoài ra, người dùng có thể sử dụng thêm chức năng tìm kiếm nhanh nhờ Google Quick Search Box nếu họ sử dụng hệ điều hành Android. Google Mobile giúp người dùng sử dụng hiệu quả giọng nói của mình trong việc lướt web mà không cần phải động một ngón tay. Lướt web nhanh bằng giọng nói 2. Bing Google Mobile không phải là ứng dụng tìm kiếm bằng giọng nói duy nhất, vì ứng dụng Bing của Microsoft cũng thực hiện chức năng này. So với Google Mobile thì Bing có các chức năng tương tự nhưng giao diện sang trọng hơn, tương tác tốt hơn. Tuy nhiên, Bing chỉ dùng trên hệ điều hành Android và iOS. Đây cũng là ứng dụng miễn phí. Giao diện sang trọng với Bing 3. Vlingo Vlingo là ứng dụng chạy trên các hệ điều hành Android, BlackBerry, iOS, Nokia, Windows Phone. Vlingo được ví như một người trợ lí trên smartphone, thực hiện các chức năng như cập nhật thông tin trên Facebook, soạn thảo văn bản hoặc lướt web chỉ bằng mệnh lệnh giọng nói. Người dùng không phải trả tiền đối với những phiên bản cơ bản, nhưng khi sử dụng những phiên bản nâng cấp thì họ sẽ phải trả tiền với mức giá tùy theo từng loại hệ điều hành. Nhiều thao tác có thể thực hiện bằng giọng nói 4.Siri Assistant Ứng dụng Siri Assistant là một trợ lí đắc lực cho người sử dụng smartphone giống Vlingo. Nhưng ứng dụng này chuyên thực hiện các công việc như tìm kiếm nhà hàng, đặt chỗ, đặt vé xem phim, đặt taxi. Giống như người trợ lí trong đời thực, “trợ lí” Siri cần mất một khoảng thời gian để ghi nhớ các sở thích của chủ nhân. Người dùng Siri Assistant không phải trả tiền và chỉ chạy được trên hệ điều hành iOS. Trợ lí không phải chỉ có nhà giàu mới có 5. DriveSafe.ly Pro Vừa lái xe vừa soạn tin nhắn là một việc nguy hiểm, và chưa kể ở nhiều nơi, việc đó bị cấm. Tuy nhiên, người dùng vẫn có thể vừa đọc tin, nhắn tin mà không phải động tay vào điện thoại với ứng dụng DriveSafe.ly Pro. Ứng dụng này giúp đọc tin nhắn và soạn tin nhắn hay trả lời tin nhắn ngay lập tức bằng giọng nói. DriveSafe.ly Pro hoạt động trên hệ điều hành Android, BlackBerry, iOS. Người dùng ứng dụng này phải trả 13,95 USD/ năm nhưng ứng dụng sẽ được miễn phí nếu người dùng sử dụng hệ điều hành Android. Nhắn tin mà vẫn lái xe an toàn 6.Dragon Dragon là ứng dụng hoạt động trên hệ điều hành Android, BlackBerry, iOS. Tùy từng chức năng người sử dụng yêu cầu mà họ phải trả với các mức tiền khác nhau. Nếu họ sử dụng các chức năng như kiểm soát thiết bị của iOS (Dragon Diction) hay soạn thư điện tử (Dragon for Email) thì không mất tiền nhưng họ sẽ phải trả tiền nếu sử dụng FlexT9 ( tích hợp 4 phương thức nói, viết, tap, trace). Ứng dụng Dragon có nhiều chức năng thú vị 7. ChaCha Answers Lướt web để tìm câu trả lời chỉ dễ dàng đối với những vấn đê mang tính phổ quát, khi đi vào những vấn đề hẹp và không thông dụng thì lướt web có vẻ không được hiệu quả. Nhưng với ứng dụng ChaCha Answers, việc tìm kiếm các câu trả lời cho những vấn đề hẹp, đòi hỏi kiến thức chuyên môn vẫn hoàn toàn khả thi. ChaCha Answers trả lời được cả những câu hỏi như bạn nặng bao nhiêu cân khi trên sao Thổ. Ứng dụng này hoàn toàn miễn phí và chỉ chạy trên hệ điều hành Android. Trở thành "giáo sư biết tuốt" với ChaCha Answers 8. Jibbigo Jibbigo là ứng dụng phiên dịch với giá từ 4,99 USD trở lên. Ứng dụng này có thể dịch được tiếng nói của người sử dụng

Ngày đăng: 04/10/2017, 01:23

Xem thêm

nhan dang giong