KỸ THUẬT NHẬN DẠNG GIỌNG NÓI
Internal use only – Do not distribute TIỂU LUẬN ROBOT CÔNG NGHIỆP KỸ THUẬT NHẬN DẠNG GIỌNG NÓI Content – N i Dungộ 2 1. Mở đầu 2. Lý thuyết âm thanh và tiếng nói 3. Lý thuyết nhận dạng tiếng nói 4. Nhận dạng tiếng nói trong tiếng Việt và những ứng dụng 5. Kết luận Ngày nay, cùng v i s phát tri n c a ngành đi n t và ớ ự ể ủ ệ ử tin h c, các h th ng máy t đ ng đã d n thay th con ọ ệ ố ự ộ ầ ế ng i trong nhi u công đo n c a công vi c. Máy có ườ ề ạ ủ ệ kh năng làm vi c hi u qu và năng su t cao h n con ả ệ ệ ả ấ ơ ng i r t nhi u. Song cho đ n nay, v n đ giao ti p ườ ấ ề ế ấ ề ế ng i – máy tuy đã đ c c i thi n nhi u nh ng v n ườ ượ ả ệ ề ư ẫ còn r t th công: thông qua bàn phím và các thi t b ấ ủ ế ị nh p d li u khác. Giao ti p v i thi t b máy b ng ậ ữ ệ ế ớ ế ị ằ ti ng nói s là ph ng th c giao ti p văn minh và t ế ẽ ươ ứ ế ự nhiên nh t, d u n giao ti p ng i – máy s m t đi ấ ấ ấ ế ườ ẽ ấ mà thay vào đó là c m nh n c a s giao ti p gi a ả ậ ủ ự ế ữ ng i v i ng i, n u đ c hoàn thi n thì đây s là ườ ớ ườ ế ượ ệ ẽ m t ph ng th c giao ti p ti n l i và hi u qu nh t.ộ ươ ứ ế ệ ợ ệ ả ấ 3 Mở đầu Đăc biêt khi Vi t Nam tham gia d án Astar do Vi n Nghiên ̣ ̣ ệ ự ệ c u Phát tri n Công ngh cao Nh t B n kh i x ng năm ứ ể ệ ậ ả ở ướ 2008, v i s tham gia c a 9 n c châu Á, g m: Vi t Nam, ớ ự ủ ướ ồ ệ Nh t B n, Trung Qu c, Singapore, Hàn Qu c, n Đ , Thái ậ ả ố ố Ấ ộ Lan, Malaysia và Philippines. Theo đó, các n c cùng xây ướ d ng ph n m m nh n d ng âm thanh ngôn ng n c mình ự ầ ề ậ ạ ữ ướ đ tích h p ph ng th c nh n d ng âm thanh vào h th ng ể ợ ươ ứ ậ ạ ệ ố nh n d ng âm thanh chung c a d án. H th ng s d ch ậ ạ ủ ự ệ ố ẽ ị sang ngôn ng đích và g i đ n s đi n tho i ng i g i đ ữ ử ế ố ệ ạ ườ ử ể phát âm b ng th ti ng h c n. Khi đó, ai cũng có th d ằ ứ ế ọ ầ ể ễ dàng giao d ch b ng các th ti ng thông d ng châu Âu, ị ằ ứ ế ụ ở châu Á nh ti ng Anh, ti ng Trung Qu c, tiếng Viêt Nam… ư ế ế ố ̣ dù ch a bi t ngo i ng .ư ế ạ ữ 4 Mở đầu ́ng du ng ky thuât nhân dang tiếng nói trong ̃Ư ̣ ̣ ̣ ̣ đàm thoai đa ngôn ng ̣̃ ư 5 NHÂN DANG TIẾNG NÓI LÀ GÌ?̣ ̣ 6 win stranlation LÝ THUY T ÂM THANH VÀ TI NG NÓIẾ Ế 7 Nguồn gốc âm thanh: Âmthanhlàdovậtthểdaođộngcơhọcmàphátra.Âmthanhphátra dướidạngsóngâm.Sóngâmlàsựbiếnđổicáctínhchấtcủamôi trườngđànhồikhinănglượngâmtruyềnqua.Âmthanhtruyềnđược đếntaingườilàdomôitrườngdẫnâm.Sóngâmcóthểtruyềnđược trongchấtrắn,chấtlỏng,khôngkhí.Cóchấtdẫnâmrấtkémgọilà chấthútâmnhư:len,da,chấtxốp…Sóngâmkhôngthểtruyềntrong môitrườngchânkhông. Khikíchthíchdaođộngâmtrongmốitrườngkhôngkhíthìnhữnglớpkhí sẽbịnénvàdãn.Trạngtháinéndãnlầnlượtđượclantruyềntừnguồn âmdướidạngsóngdọctớinơithuâm.Nếucườngđộnguồnâmcàng lớnthìâmthanhtruyềnđicàngxa. LÝ THUY T ÂM THANH VÀ TI NG NÓIẾ Ế 8 Các đại lượng đặc trưng cho âm thanh: a/ Tần số của âm thanh: làsốlầndaođộngcủaphầntửkhítrongmộtgiây. ĐơnvịlàHz,kíhiệu:f b/ Chu kì của âm thanh: làthờigianmàâmthanhđóthựchiệnmộtdaođộnghoàntoàn.Đơnvị làthờigian,kíhiệulàT. c/ Tốc độ truyền âm: làtốcđộtruyềnnănglượngâmtừnguồntớinơithu. Đơnvịm/s.Tốcđộtruyềnâmtrongkhôngkhíởnhiệtđộtừ0-200Cthườnglà331–340m/s. d/ Cường độ âm thanh: lànănglượngđượcsóngâmtruyềntrongmộtđơnvị thờigianquamộtđơnvịdiệntíchđặtvuônggócvớiphươngtruyềnâm. e/ Thanh áp: làlựctácdụngvàotaingườinghehoặctạimộtđiểmnàođócủatrườngâmthanh. Đơnvị:1pa=1N/m2hoặc1bar=1dyn/cm2. f/ Âm sắc: Trongthànhphầncủaâmthanh,ngoàitầnsốcơbảncòncócácsónghài,sốlượng sónghàibiểudiễnsắcthàicủaâm.Âmsắclàmộtđặctínhcủaâmnhờđómàtaphânbiệtđược tiếngtrầm,bổngkhácnhau,phânbiệtđượctiếngnhạccụ,tiếngnamnữ,tiếngngườinàyvới ngườikhác. k/ Âm lượng: làmứcđộtonhỏcủanguồn.ĐơnvịlàW. LÝ THUY T ÂM THANH VÀ TI NG NÓIẾ Ế 9 Các tần số của âm thanh: Fogọilàtầnsốcơbảncủaâmthanh.Namgiớifo=150Hz.Nữgiới:fo =250Hz. Giọngnamtrầm80–320Hz Giọngnamtrung100–400Hz Giọngnamcao130–480Hz Giọngnữthấp160–600Hz Giọngnữcao260–1200Hz Côngsuấtcủatiếngnói,khinóitonhỏcũngkhácnhau.Khinóithầm côngsuất10-3mW,nóibìnhthường10mW,nóito103mW. LÝ THUY T ÂM THANH VÀ TI NG NÓIẾ Ế 10 Cáccơquanphátâmcủaconngườichủyếugồmphổi,khíquản,thanh quản,bộphậnmũivàmiệng.Thanhquảncóhainếpgấpgọilàdâythanh âm,dâythanhâmsẽrungkhiluồngkhôngkhíđiquakhethanhmônlà khegiữahaidâythanhâm.Bộphậnmiệnglàmộtốngâmkhôngđều.Bộ phậnmũicũnglàmộtốngâmhọckhôngđềucódiệntíchvàchiềudàicố định,bắtđầutừlỗmũiđếnvòmmiệngmềm. Quátrìnhtạoraâmphimũi:vòmmiệngmềmngănchặnbộphậnmũi vàâmthanhphátrathôngquamôi.Đốivớiquátrìnhtạoraâmmũi:vòm miệngmềmhạxuốngvàbộphậnmũiliênkếtbộphậnmiệng,lúcnàyphía trước của bộ phận miệng khép lại hoàn toàn và âm thanh ra thông qua mũi.Đốivớiâmthanhnóigiọngmũi,âmthanhphátracảmũivàmôi. Cơ chế tạo lập tiếng nói của con người: [...]... NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói 17 LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói 18 Các hệ thống nhận dạng tiếng nói có thể được phân loại như sau: • Nhận dạng từ phát âm rời rạc/liên tục; • Nhận dạng tiếng nói phụ thuộc người nói/ không phụ thuộc người nói; • Hệ thống nhận dạng từ điển cỡ nhỏ (dưới 20 từ)/từ điển cỡ lớn (hàng nghìn từ); • Nhận dạng tiếng nói trong môi trường có nhiễu thấp/cao;... • Nhận dạng người nói LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói 19 Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ trong câu. Trong hệ nhận dạng tiếng nói liên tục không đòi hỏi điều này. Tùy thuộc vào quy mô và phương pháp nhận dạng, ta có các mô hình nhận dạng tiếng nói khác nhau. Hình 3 là mô hình tổng quát của một hệ nhận dạng tiếng nói điển hình ... ngôn ngữ ở mức cao hơn LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Các nguyên tắc cơ bản trong nhận dạng tiếng nói 21 ♣Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn ♣ Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các kí hiệu ngữ âm ♣ Nhận dạng tiếng nói là một quá trình nhận thức LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Các quá trình nhận dạng tiếng nói: 22 Hình sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng ... định các tham số hệ thống LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói 20 Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữ nghĩa của lời nói. Về bản chất, đây là quá trình biến đổi tín hiệu âm thanh thu được của người nói qua Micro, đường dây điện thoại hoặc các thiết bị khác thành một chuỗi các từ. Kết quả của quá trình nhận dạng có thể được ứng dụng trong điều khiển ... thành mã ngôn ngữ và hiểu được thông điệp LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Tổng quan về nhận dạng tiếng nói 16 Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữ nghĩa của lời nói. Về bản chất, đây là quá trình biến đổi tín hiệu âm thanh thu được của người nói qua Micro, đường dây điện thoại hoặc các thiết bị khác thành một chuỗi các từ. Kết quả của quá trình nhận dạng có thể được ứng dụng trong điều khiển ... THUYẾT ÂM THANH VÀ TIẾNG NÓI Quá trình sản xuất tiếng nói và thu nhận tiếng nói của 14 con người: Sơ đồ biểu diễn quá trình thu nhận tiếng nói của con người LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI Quá trình sản xuất tiếng nói và thu nhận tiếng nói của 15 con người: Quá trình sản xuất tiếng nói bắt đầu khi người nói muốn chuyển tải thông điệp của mình cho người nghe thông qua tiếng nói. Tổ chức thần kinh sẽ chịu trách nhiệm chuyển đổi thông điệp sang dạng mã ngôn ... XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI 34 Hình 1 Sơ đồ tổng quát hệ thống nhận dạng tiếng nói. XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRONG MÔ HÌNH ĐIỀU KHIỂN XE HƠI 35 Thực hiện mô-đun 1: Nhiệm vụ của mô-đun này là thu tín hiệu từ micro, dùng kỹ thuật xử lý đầu cuối để phát hiện phần tín hiệu tiếng nói và phần tín hiệu nhiễu. Từ đó ta có thể tách tiếng nói ra khỏi nền nhiễu (chỉ ... ứng dụng tổng hợp nhằm xây dựng phần ngữ điệu trong tiếng nói tổng hợp Mô hình Markov ẩn Mô hình Markov mà mỗi một trạng thái tương ứng với một sự kiện quan sát được mở rộng bằng cách các quan sát (observation) tương ứng với các trạng thái là một hàm xác suất của các trạng thái LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI Các phương pháp nhận dạng tiếng nói Mô hình mạng Neuron: 28 Mạng Neuron cũng được ứng dụng trong nhận dạng tiếng nói. Ưu điểm của mạng neuron trong nhận dạng tiếng nói là: ... Mạng Neuron cũng được ứng dụng trong nhận dạng tiếng nói. Ưu điểm của mạng neuron trong nhận dạng tiếng nói là: thứ nhất về tốc độ huấn luyện cũng như tốc độ nhận dạng tỏ ra vượt trội,có thể mở rộng bộ từ vững. Do đó mạng neuron có tính linh hoạt ,mềm dẻo dễ thích nghi với môi trường LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI TRONG TIẾNG VIÊT ̣ 29 Những thuận lợi và khó khăn trong nhận dạng tiếng Việt Ưu điểm: • Tiếng Việt là ngôn ngữ đơn âm, số lượng âm tiết không ... là âm vị siêu đoạn tính, đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành phần khác của âm tiết • Cách phát âm tiếng việt thay đổi theo từng vùng địa lý • Hệ thống ngữ pháp ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu năng nhận dạng. Hệ thống phiên âm cũng chưa thống nhất • Các nghiên cứu nhận dạng cũng chưa nhiều và ít phổ biến LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI TRONG TIẾNG . NG NÓIẾ Ậ Ạ Ế 17 Tổng quan về nhận dạng tiếng nói LÝ THUY T NH N D NG TI NG NÓIẾ Ậ Ạ Ế 18 Tổng quan về nhận dạng tiếng nói Cáchệthống nhận dạng tiếng nói cóthểđượcphânloạinhưsau: • Nhận dạng từphátâmrờirạc/liêntục; • Nhận dạng tiếng nói phụthuộcngười nói/ khôngphụthuộc người nói; •Hệthống nhận dạng từđiểncỡnhỏ(dưới20từ)/từđiểncỡlớn (hàngnghìntừ); • Nhận dạng tiếng nói trongmôitrườngcónhiễuthấp/cao; • Nhận dạng người nói. LÝ. nói Cáchệthống nhận dạng tiếng nói cóthểđượcphânloạinhưsau: • Nhận dạng từphátâmrờirạc/liêntục; • Nhận dạng tiếng nói phụthuộcngười nói/ khôngphụthuộc người nói; •Hệthống nhận dạng từđiểncỡnhỏ(dưới20từ)/từđiểncỡlớn (hàngnghìntừ); • Nhận dạng tiếng nói trongmôitrườngcónhiễuthấp/cao; • Nhận dạng người nói. LÝ THUY T NH N D NG TI NG NÓIẾ Ậ Ạ Ế 19 Tổng quan về nhận dạng tiếng nói Tínhiệutiếng nói saukhithu nhận đượclượngtửhóasẽbiếnđổi thànhmộttậpcácvectorthamsốđặctrưngvớicácphânđoạncó độdàitrongkhoảng10-30ms.Cácđặctrưngnàyđượcdùngcho đốisánhhoặctìmkiếmcáctừgầnnhấtvớimộtsốràngbuộcvề âmhọc,từvựngvàngữpháp.Cơsởdữliệutiếng nói đượcsử dụngtrongquátrìnhhuấnluyện(môhìnhhóa/phânlớp)đểxác địnhcácthamsốhệthống. Tronghệ nhận dạng tiếng nói vớicáchphátâmrờirạccókhoảng lặnggiữacáctừtrongcâu.Tronghệ nhận dạng tiếng nói liêntục khôngđòihỏiđiềunày.Tùythuộcvàoquymôvàphươngpháp nhận dạng, tacócácmôhình nhận dạng tiếng nói khácnhau.Hình 3làmôhìnhtổngquátcủamộthệ nhận dạng tiếng nói điểnhình. LÝ. nói Tínhiệutiếng nói saukhithu nhận đượclượngtửhóasẽbiếnđổi thànhmộttậpcácvectorthamsốđặctrưngvớicácphânđoạncó độdàitrongkhoảng10-30ms.Cácđặctrưngnàyđượcdùngcho đốisánhhoặctìmkiếmcáctừgầnnhấtvớimộtsốràngbuộcvề âmhọc,từvựngvàngữpháp.Cơsởdữliệutiếng nói đượcsử dụngtrongquátrìnhhuấnluyện(môhìnhhóa/phânlớp)đểxác địnhcácthamsốhệthống. Tronghệ nhận dạng tiếng nói vớicáchphátâmrờirạccókhoảng lặnggiữacáctừtrongcâu.Tronghệ nhận dạng tiếng nói liêntục khôngđòihỏiđiềunày.Tùythuộcvàoquymôvàphươngpháp nhận dạng, tacócácmôhình nhận dạng tiếng nói khácnhau.Hình 3làmôhìnhtổngquátcủamộthệ nhận dạng tiếng nói điểnhình. LÝ THUY T NH N D NG TI NG NÓIẾ Ậ Ạ Ế 20 Tổng quan về nhận dạng tiếng nói Nhận dạng tiếng nói làmộthệthốngtạokhảnăngđể máy nhận biếtngữnghĩacủalời nói. Vềbảnchất,đây làquátrìnhbiếnđổitínhiệuâmthanhthuđượccủa người nói quaMicro,đườngdâyđiệnthoạihoặccác thiếtbịkhácthànhmộtchuỗicáctừ.Kếtquảcủaquá trình nhận dạng cóthểđượcứngdụngtrongđiềukhiển thiếtbị,nhậpdữliệu,soạnthảovănbảnbằnglời,quay sốđiệnthoạitựđộnghoặcđưatớimộtquátrìnhxửlý ngônngữởmứccaohơn.