Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt

129 1 0
Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO VIỆNHÀNLÂMKHOAHỌC VÀCÔNGNGHỆVIỆTNAM HỌCVIỆNKHOAHỌCVÀC Ô NGNGHỆ NGUYỄNTHỊTHUHIỀN NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH TRONGNHẬNDẠNGTIẾNGNÓITIẾNGVIỆT LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH HÀN Ộ I -2023 NGUYỄNTHỊTHUHIỀN NGHIÊNC Ứ U P H Ư Ơ N G P H Á P C H U Ẩ N H O Á V Ă N B Ả N VÀN H Ậ N DẠNGTHỰCTHỂĐỊNHDANH TRONGNHẬNDẠNGTIẾNGNĨITIẾNGVIỆT LUẬNÁNTIẾNSĨNGÀNHMÁYTÍNH Chuyênngành:HệthốngthôngtinMã số:9480104 XácnhậncủaHọcviệnK hoahọcvàCôngnghệ Ngườihướngdẫn1 Ngườihướngdẫn2 (Ký,ghirõhọtên) (Ký,ghirõhọtên) HÀN Ộ I -2023 LỜICAMĐOAN Tôix i n c a m đ o a n đ â y l c ô n g t r ì n h n g h i ê n c ứ u c ủ a r i ê n g t ô i C c k ế t q u ả đư ợc viết chung với tác giả khác đồng ý đồng tác giảtrướck h i đ a v o l u ậ n n C c k ế t q u ả n ê u t r o n g l u ậ n n l tr ungt h ự c v ch ưatừngđượccơngbốtrongcáccơngtrìnhnào khác Tácgiả NguyễnThịThuHiền LỜICẢM ƠN Luậná n c ủ a t c g i ả đ ợ c t h ự c h i ệ n t i H ọ c v i ệ n K h o a h ọ c v C ô n g nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam, hướng dẫntận tìnhcủaPGS.TS Lương Chi Mai TS Nguyễn Thị Minh Huyền Tơixin bày tỏ lịng biết ơn sâu sắc đến hai Cô định hướng nghiêncứu, động viên hướng dẫn tận tình giúp tơi vượt qua khó khăn đểhồnthànhluậnánnày Tơi xin gửi lời cảm ơn chân thành đến nhà khoa học, đồngtác giả cơng trình nghiên c ứu trích dẫn luận án Đâylànhữngtư liệuqbáucóliênquangiúptơihồnthànhluậnán Tơi xin chân thành cảm ơn đến Ban lãnh đạo Học viện Khoa học vàCông nghệ, Viện Công nghệ Thông tin tạo điều kiện thuận lợi cho tơi trongqtrìnhhọctập,nghiêncứu Tơixinchân thànhcảm nBan giámhi ệu tr ờng Đại học Sư phạm-ĐH Thái Ngun,KhoaTốn,BộmơnKhoahọcmáytính-Hệthốngthơngtin đồng nghiệp giúp đỡ tạo điều kiện thuận lợi để tơi thựchiệnkếhoạchnghiêncứu,hồnthànhluậnán Tơi xin bày tỏ tìnhcảmvà lịng biết ơn vơ hạn tới ngườithân Gia đình, người ln dành cho tơi độngviên, khích l ệ, sẻchia,giúpđỡ trongnhữnglúckhókhăn Tácgiả NguyễnThịThuHiền MỤCLỤC Trang LỜICAMĐOAN i LỜICẢMƠN .ii MỤC LỤC iii DANHMỤC TỪVIẾT TẮT .v DANHMỤC BẢNGBIỂU vii DANHMỤCHÌNHVẼ .viii MỞĐẦU CHƯƠNG1:T ỔNG QU AN V Ấ N Đ Ề NGHIÊ NC Ứ U 1.1 Xửlý ngônngữtựnhiên 1.2 Nhậndạngtiếngnói .11 1.3 Chuẩnhóavănbản 16 1.4 Nhậndạngthựcthểđịnhdanh 24 1.5 Tổng quanvềdữliệu .34 1.6 KếtluậnChương 36 CHƯƠNG2:KIẾNTHỨCCƠ SỞ 37 2.1 Mơhìnhxửlýchuỗi .37 2.2 Mơhìnhbiểudiễntừ 44 2.3 Mơhình gánnhãnchuỗi 50 2.4 Học đatácvụ 53 2.5 Kết luậnchương 56 CHƯƠNG3:CHUẨNHÓAVĂNBẢNĐẦURAC Ủ A H Ệ T H Ố N G NHẬNDẠNG TIẾNGNÓITIẾNGVIỆT 57 3.1 Bàitoán 57 3.2 Xâydựngdữliệu 58 3.3 Kiếntrúcmơhình 60 3.4 Kết quảthựcnghiệm .68 3.5 KếtluậnChương 73 CHƯƠNG4:NHẬNDẠNGTHỰCTHỂĐỊNHDANHCHOVĂNBẢNĐẦURACỦ AHỆTHỐNGN H Ậ N DẠNGTIẾNGNÓ ITIẾNGVIỆT 75 4.1 Bàitoán 75 4.2 Tổng quan dữliệu 76 4.3 Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnĐườngống 77 4.4 Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnE2E 87 4.5 KếtluậnChương 98 KẾTLUẬN 99 DANHMỤCCƠNGTRÌNHCỦATÁCGIẢ .101 TÀILIỆUTHAMKHẢO 103 DANHMỤCTỪVIẾTTẮT STT Từviết tắt ASR TừtiếngAnh Ý nghĩa tiếngViệt AutomaticSpeech Nhậndạngtiếng nói tự Recognition động BidirectionalEncoder BERT Representations fromTransformers BiLSTM BPE CaPu Mơhìnhbộnhớngắn-dài TermMemory hạnhai chiều Byte-Pair-Encoding Mãhoácặpbyte Capitalization andPunctuationmodel CBOW CNN CRF chiềudựatrênTransformers BidirectionalLongShort Recovering Mã hóa biểu diễn hai Mơhìnhkhơiphụcdấucâuvàc hữhoa ContinuousBagof Mơhìnhnhúngtừ“Túitừ Words liêntục” ConvolutionalNeural Network Mạngnơ-rontíchchập ConditionalRandom Trườngngẫunhiên cóđiều Fields kiện DL DeepLearning Họcsâu 10 DNN DeepNeuralNetworks Mạngnơ-ronsâu 11 ELMO Embeddingsfrom Nhúngtừtừmơhìnhngơn LanguageModel ngữ 12 E2E End-to-End Mơ hìnhđầu-cuối 13 GloVe GlobalVéc-tơsforWord Mơhìnhnhúngtừdựatrên Representation biểudiễntừ 14 GRU GatedRecurrentUnit Mạnghồitiếpcócổng Generativepre-trained Mơ hìnhbiếnđổiđược huấn transformer luyệntrước HMM HiddenMarkovModel MơhìnhMarkovẩn 17 LM LanguageModel Mơhìnhngơnngữ 18 LSTM LongShortTerm Mơhìnhbộnhớngắn-dài Memory hạn 19 ME MaximumEntropy MơhìnhEntropycựcđại 20 MEMM MaximumEntropy MơhìnhMarkovEntropy MarkovModel cực đại 21 MTL Multi-TaskLearning Họcđatácvụ 22 NER NamedEntity Nhậndạngthựcthểđịnh Recognition danh 23 OOV Out-of-Vocabulary Từnằmngoàitừđiển 24 RNN 25 Seq2seq 26 SLU 27 SVM 28 VLSP 29 XLNNTN 30 TTS TextToSpeech 31 WER WordErrorRate 15 GPT 16 RecurrentNeural Network Sequence-to-Sequence SpokenLanguage Understanding Mạngnơ-ronhồi quy Mơhìnhánhxạtừ chuỗi sangchuỗi Hiểungơnngữnói SupportVéc-tơMachine Máyvéc-tơhỗtrợ VietnameseLanguage Hộithảoxửlýngơnngữvà andSpeechProcessing tiếng nóitiếngViệt Xửlý ngơnngữtựnhiên Hệthống chuyển vănbản sangtiếng nói Tỉlệ lỗitừ DANHMỤC BẢNGBIỂU Bảng1 : Đ i ể m k h c b i ệ t g i ữ a v ă n b ả n đ ầ u r a A S R v v ă n b ả n v i ế t d n g chu ẩn .13 Bảng 1.2:Tỉlệlỗitừcủa mộtsốhệthốngnhậndạngtiếngnói tiếngViệt 15 Bảng3.1:Thôngtinbộdữliệu 59 Bảng3.2:Sốlượngthamsốcủacácmơhình 69 Bảng3.3:Cácthamsốhuấnluyệnmơhình 69 Bảng3.4:SosánhkếtquảmơhìnhTransformerEncoder- CRFkhiápdụngvàkhơngáp dụnghợpnhất chồnglấn 71 Bảng3.5:So sánhtốcđộxửlý(tokens/second) 73 Bảng4.1:ThamsốcấutrúcvàhuấnluyệnmơhìnhViBERT 81 Bảng4.2:Thốngkêbộ dữliệuNER củaVLSP2018 83 Bảng4 : Đ n h g i c c m h ì n h N E R d ự a t r ê n b ộ d ữ l i ệ u N E R c ủ a V L S P 2018 85 Bảng4.4:ĐánhgiámơhìnhNERđềxuấttheocáchtiếpcậnđườngốngvớicáckiểuvă nbảnđầuvàokhácnhau 85 Bảng4.5:TỉlệlỗicủaTTS-ASRvàREC-ASRtrêndữliệukiểusố,dữliệungoạilại vàcáclỗi khác 95 Bảng4.6:Đánhgiá mơhìnhNERđềxuất theocáchtiếpcậnE2E vớicác kiểuvănbảnđầuvàokhácnhau .97 Bảng4.7:SosánhmơhìnhE2Evớimơhìnhđườngống 97 DANHMỤCHÌNHVẼ Hình1.1:MinhhọacácvấnđềcầnthựchiệnđểtăngchấtlượngvănbảnđầuracủaASR 14 Hình1.2:MơhìnhNERdựatrênhọcsâu .30 Hình2.1:MơhìnhTransformer[34] .40 Hình2.2:MinhhoạhoạtđộngcủaCBOWvàShip-Gram 45 Hình2.3:TổngthểquytrìnhtiềnhuấnluyệnvàtinhchỉnhchoBERT[35].48Hình 2.4:TinhchỉnhBERTchonhiệmvụNER [35] .49 Hình2.5:MơhìnhConditionalRandomFields 51 Hình2.6: Mơhìnhphươngphápchiasẻthamsốcứng 54 Hình2.7: Mơhìnhphươngpháp chiasẻthamsốmềm 55 Hình3.1:Minhhoạđầuvào,đầuracủakhơiphụcdấucâu,chữhoađốivớivăn bảnđầuraASR 58 Hình3.2:Kiếntrúcmơhình 60 Hình3.3:Mơhìnhxửlýchuỗiđầuvào,đầurathơngthường 61 Hình3.4:Đềxuấtmơ hìnhphânchia/hợpnhấtđoạnchồnglấn 62 Hình3.5:Mơtảphân chia đoạnchồnglấn 63 Hình3.6:Vídụphânchia đoạnchồnglấnvớil = 10vàk =5 63 Hình3.7:Mơtảcáchghépnối .64 Hình3.8:Hợpnhấtcácđoạnchồngchéodựatrênthamsốc 65 Hình 3.9: Mơ hình CaPu đềxuất chovănbản đầuracủaASRtiếngViệt 66 Hình3.10:Mơtảđầu nhậndạngdạngvănbảnvàdạngnhãn 68 Hình3.11:Kếtquảcủacácmơhìnhsửdụngvàkhơngsửdụnghợpnhấtđoạnchồnglấn 70 Hình3.12:Kếtquảcủacácmơhìnhvớiđầur a l dạngv ă n b ả n h o ặ c dạng nhãn 71 Hình3.13:MatrậnlỗichomơhìnhTransformerEncoder-CRF 72 Hình4.1:Mơtả kiếntrúc NERtổngqttheocáchtiếpcậnđườngống 78

Ngày đăng: 19/09/2023, 11:01