1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ án môn học ( xử lý NGÔN NGỮ tự NHIÊN ) CHỈNH sửa và KHÔI PHỤC dấu THANH TRONG văn bản TIẾNG VIỆT BẰNG PHƯƠNG PHÁP học sâu

16 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TR×˝NG I H¯C KHOA H¯C TÜ NHI N TP.HCM CAO H¯C KH´A 30 Chuy¶n ng nh: KHOA H¯C DÚ LI U ỗ Ăn mổn hồc: ( X Lị NGN NG TÜ NHI N ) CH NH SÛA V KH˘I PHÖC D U THANH TRONGV NB NTI NGVI TB NG PH×ÌNG PH P HC S U GiÊng viản hữợng dÔn: Danh s¡ch nhâm: PGS.TS inh i•n Ph⁄m …nh Duy Ph⁄m Phi Nhung Nguy„n M⁄nh Phó MSHV: 20C29005 MSHV: 20C29031 MSHV: 20C29032 TP Hỗ Ch Minh, thĂng 03 nôm 2021 Mửc lửc T˚NG QUAN: 1.1 1.2 1.3 Giỵi thi»u b i to¡n: CĂc hữợng tip cn: Ph⁄m vi b i to¡n thüc hi»n: KI N THÙC CÌ S—: 2.1 2.2 2.3 2.4 Ch‰nh t£ Mæ h…nh ngæn ngœ N-gram Håc s¥u (Deep learning) Recurrent Neural Network v bi‚n th” LSTM 2.4.1 RNN 2.4.2 LSTM (Long Short Term Memory) Nhóng tł - Word Embedding Accuracy 2.5 2.6 PH×ÌNG PH PXU T v K T QU THÜC NGHI M: 3.1 Mæ t£ dœ li»u 3.2 Ti•n xò lỵ d liằu 3.3 X¥y düng mỉ h…nh: 3.4 K‚t qu£ 3.5 K‚t qu£ tr¶n t“p test: 3.6 Ănh giĂ v nh hữợng phĂt trin T ILI UTHAMKH O i Danh s¡ch h…nh v‡ 2.1 2.2 2.3 2.4 2.5 v‰ dö Trigam Language Models Mng nỡ-ron, ữổc t chức theo lợp bao gỗm mºt t“p hỉp c¡c nót k‚t nŁi vỵi c§u tróc cıa RNN c§u tróc cıa LSTM m¢ hâa v gi£i m¢ v«n b£n th nh ma tr“n 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 ThŁng k¶ s lữổng d i ca cƠu b d li»u ThŁng k¶ N-grams düa tr¶n bº dœ li»u Mæ h…nh Deep Learning vỵi lỵp LSTM Kt quÊ thò nghiằm sau epoch u tiản K‚t qu£ thß nghi»m sau 50 epochs K‚t qu£ sau 300 epochs Kt quÊ sau huĐn luyằn trản on u v o mỵi Kt quÊ chy thò nghiằm vợi ni dung truy»n ng›n 6 7 10 10 11 11 12 12 12 Ch÷ìng T˚NG QUAN: Nºi dung ÷ỉc tr…nh b y chữỡng bao gỗm giợi thiằu chung vã b i toĂn, cĂc hữợng  tip cn v ã xuĐt gi£i ph¡p 1.1 Giỵi thi»u b i to¡n: Ch‰nh t£ cõ mt vai trặ quan trồng i vợi mỉi cĂ nhƠn v cÊ cng ỗng x hi VĐn ã vit úng chnh tÊ luổn luổn ữổc t nƠng cao hiằu quÊ sò dửng ting Viằt Tuy nhiản,  t lƠu, v nhiãu l khĂc nhau, mc lỉi chnh tÊ Â tr th nh mt côn bằnh trm kha ca nhiãu ngữới Viằt, ngữới lợn mc, trà em mc, ngữới hồc t mc, ngữới hồc nhiãu cụng mc, iãu õ Ênh hững khổng nhọ tợi hiằu quÊ giao ti‚p v l m m§t i sü s¡ng cıa ti‚ng Vi»t B£ng 1.1 l mºt sŁ v‰ dö cho thĐy cĂc lỉi chnh tÊ thữớng gp liản quan n dĐu V vĐn ã khõ nhĐt Ơy l ng÷íi vi‚t sai ch‰nh t£ hå th÷íng khỉng bi‚t m…nh sai v lØi sai bà l°p l⁄i nhi•u ln s d dÔn n tr th nh thõi quen BÊng 1.1: V dử vã sai dĐu 1.2 CĂc hữợng tip cn: Trong nhng nôm u th k 21, nhiãu phữỡng phĂp ã xuĐt cho viằc tỹ ng khổi phửc cĂc dĐu vôn bÊn Ting viằt, bao gỗm [3]: ã Vietpad (Quan,2002)  sò dửng tin lữu tr tĐt cÊ cĂc t ting Viằt (tł i”n): hå sß dưng t»p Dictio Nary v tłng t khổng cõ dĐu ữổc Ănh x 1-1 th nh t cõ dĐu Xò lỵ ngổn ng tỹ nhiản Tuy nhiản, t in cụng lữu tr nhng t ng him ữổc sò dửng nản mt s trữớng hổp VietPad vÔn cõ sai sõt ( º ch‰nh x¡c kho£ng 60-85% v phư thuºc tịy theo vôn bÊn tữỡng ứng) ã AMPAD(TAM,2008) cụng l mt cổng cử ữổc xƠy dỹng phửc hỗi dĐu ting Viằt Vợi ỵ tững sò dửng tn s thng kả ca cĂc t khổng dĐu v sò dửng thut toĂn lỹa chồn nhm ữa cĂc t cõ xĂc suĐt cao nh§t ( º ch‰nh x¡c kho£ng 80% ho°c cao hìn Łi vỵi c¡c b…nh lu“n ch ‰nh trà v lắnh vỹc khoa hồc, 50% i vợi t i liằu chuyản ng nh hoc thỡ cõ cĐu trúc) ã VietEditor(LAN,2005) ỵ tững vợi Vietpad mức c£i thi»n hìn Nâ sß dưng t“p tł i”n v lữu tr cĂc cửm t thữớng ữổc sò dửng giúp chữỡng trnh kim tra thảm tm t thch hổp nhĐt ã Viaccent (Truyen et al., 2008) mổ hnh hữợng n tc khổi phử dĐu vôn bÊn ị tững chnh l sò dửng mổ hnh ngổn ng N-gram ( ÷ỉc b¡o c¡o ð the conference PRICAI 2008 (The Pacific Rim International Conference on Artificial Intelligence) • The VnMark (Toan, 2008)  sò dửng mổ hnh GUAGE N-Gram to tằp t in, iãu n y cho thĐy khÊ nông xuĐt hiằn hoc sò dửng cĂc cửm Ơm tit v«n b£n ti‚ng Vi»t 1.3 Ph⁄m vi b i toĂn thỹc hiằn: Do giợi hn vã thới gian v lữổng kin thức, ã t i ch yu giÊi quyt viằc chnh sòa v khổi phửc cĂc dĐu ting Viằt, hữợng n o to mổ hnh hồc sƠu ” tü ºng hâa y¶u cƒu b i to¡n Trong õ, chuỉi lợp LSTM ữổc chồn vợi xĐp x 1.5 triằu tham s ữổc huĐn luyằn vợi d liằu u v o l tằp tin 150MB gỗm cĂc b i vit tin tức ữổc vit bng ting Viằt vợi cĂc quĂ trnh xò lỵ cỡ bÊn v ữổc khoÊng 97% ch nh xĂc so vợi thỹc t Chữỡng KI N THÙC CÌ S—: Nºi dung cıa ch÷ìng xoay quanh c¡c kh¡i ni»m, ki‚n thøc cì b£n li¶n quan 2.1 n ã t i Chnh tÊ nh nghắa: Ch‰nh t£: ÷ỉc hi”u l "ph†p vi‚t óng" ho°c "lŁi vi‚t hỉp vỵi chu'n" Nâi c¡ch kh¡c th… ch‰nh t£ l ti¶u chu'n chœ vi‚t cıa mºt ngỉn ngœ Y¶u cƒu cì b£n cıa ch‰nh t£ l ph£i thŁng nh§t c¡ch vi‚t cư th” tr¶n ph⁄m vi to n quŁc v tĐt cÊ cĂc loi hnh vôn bÊn vit [2] T¡c h⁄i cıa vi»c sai ch‰nh t£: Sai chnh tÊ d d ng dÔn tợi sỹ hiu lm vã ni dung ữổc trao i hoc ữổc ã cp vôn bÊn Ngo i ra, tn suĐt sai chnh t£ hay vi»c vi‚t sai ch‰nh t£ th” hi»n ÷ỉc mức tữ v trnh vôn hõa ca ngữới ang sò dửng ting viằt iãu n y cụng l m gi£m møc º uy t‰n v £nh h÷ðng ‚n sü tin t÷ðng cıa ng÷íi kh¡c.[1] 2.2 Mỉ h…nh ngæn ngœ N-gram Mæ h…nh ngæn ngœ Mæ h…nh ngæn ng l mt phƠn b xĂc suĐt trản cĂc vôn bÊn, nõ cho bit xĂc suĐt mt cƠu (hoc cưm tł) thuºc mºt ngỉn ngœ l bao nhi¶u Mỉ hnh ngổn ng ữổc Ăp dửng nhiãu lắnh vỹc xò lỵ ngổn ng tỹ nhiản nhữ: kim tra lỉi ch‰nh t£, dàch m¡y hay ph¥n o⁄n tł Mỉ h…nh ngỉn ngœ N-gram Nhi»m vư ch‰nh cıa mỉ h…nh ngổn ng l cho bit xĂc suĐt ca mt cƠu w 1w2:::wm l bao nhi¶u Düa theo cỉng thøc Bayes: P (AB) = P (BjA) P (A), th…: P (w1w2:::wm) = P (w1) P (w2jw1) P (w3jw1w2) ::: P (wmjw1w2:::wm Những trữớng hổp n y cn sò dửng lữổng lợn vũng nhợ lữu cĂc xĂc suĐt ca c¡c chuØi º d i nhä hìn m V… v“y, ngữới ta ã xuĐt sò dửng xĐp x Markov bc n Thu“t to¡n ” t‰nh x¡c su§t xu§t hi»n cıa xi câ ph¥n bŁ l : P (Xi = xi j Xi = xi ; X i = xi 1) vợi cĂc bữợc: Khi to i = v x0 = x = L§y gi¡ trà x¡c su§t xi tł cỉng thøc P (Xi = xijXi 2; Xi = xi 1) Xß lỵ ngổn ng tỹ nhiản 3 Nu xi = STOP th… ta tr£ v¶ ’ chuØi x1 : : : xi Ng÷ỉc l⁄i, ta g¡n i = i + v quay li bữợc Mổ hnh ngổn ngœ N-gram l danh tł chung ” ch¿ c¡c mæ h…nh ngỉn ngœ sß dưng dœ li»u ƒu v o dữợi dng N-gram (bao gỗm N Ơm tit) Hnh dung tữỡng tỹ vợi Trigram Language Models Hnh 2.1: v dử Trigam Language Models 2.3 Håc s¥u (Deep learning) Håc s¥u l mºt nh¡nh quan trång cıa m¡y håc, d⁄y m¡y t‰nh l m nhœng vi»c ng÷íi thüc hi»n mºt c¡ch tü nhi¶n v ch‰nh x¡c: håc tł c¡c v‰ dử m ngữới cung cĐp cho mĂy tnh Hồc s¥u l mºt cỉng ngh» quan trång ‹ng sau ỉ tỉ khỉng ng÷íi l¡i, cho ph†p chóng nh“n bi”n bĂo dng hoc phƠn biằt ngữới i b vợi ct n Ơy l cha khõa iãu khin bng giồng nõi cĂc thit b tiảu dũng nhữ iằn thoi, mĂy tnh bÊng, TV Hồc sƠu ang ữổc ỵ rĐt nhiãu gn Ơy bi nõ  v ang t ữổc nhng kt qa trữợc Ơy khổng th thỹc hiằn ÷ỉc Trong håc s¥u, m¡y t‰nh håc c¡ch thüc hi»n cĂc nhiằm vử phƠn loi t hnh Ênh, vôn bÊn hoc Ơm thanh, cõ th t ữổc chnh xĂc tt, ổi vữổt quĂ hiằu suĐt cĐp ng÷íi C¡c mỉ h…nh ÷ỉc o t⁄o b‹ng c¡ch sò dửng mt hổp lợn d liằu cõ nhÂn v kin trúc mng nỡ-ron nhiãu lợp Khi hồc sƠu ln u tiản ữổc ữa lỵ thuyt v o nhng nôm 1980, cõ hai lỵ chnh khin nõ ch tr nản hu ch gn Ơy: ã Yảu cu mt lữổng lợn d liằu ữổc gn nhÂn V dử: phĂt trin ổ tổ khổng ngữới lĂi ặi họi h ng tri»u h…nh £nh v h ng ngh…n gií video ã ặi họi khÊ nông tnh toĂn Ăng k GPU hi»u su§t cao câ ki‚n tróc song song hi»u qu£ cho viằc hồc sƠu Khi ữổc kt hổp vợi cĂc cửm hoc iằn toĂn Ăm mƠy, iãu n y cho ph†p c¡c nhâm ph¡t tri”n gi£m thíi gian o t⁄o cho mºt m⁄ng håc s¥u tł v i tuƒn xuŁng cặn v i giớ hoc t hỡn Thut ng "sƠu" thữớng ã cp n s lữổng cĂc lợp 'n mng nỡ-ron Mng nỡ-ron truyãn thng ch chứa 1-2 lợp 'n, mng sƠu cõ th cõ tợi h ng trôm lợp 2.4 Recurrent Neural Network v bin th LSTM Tng quan vã RNN: NeurMổ hnh mng nỡ-ron nhƠn t⁄o truy•n thflng (Feedforward Neural Network) v CNN íi  ữổc Ăp dửng cho nhiãu b i toĂn lắnh vỹc mĂy hồc v hồc sƠu Tuy nhiản, nhng mỉ h…nh n y l⁄i ho⁄t ºng k†m ÷ỉc cung c§p mºt bº dœ li»u chuØi Câ th” th§y rng mng nỡ-ron nhƠn to truyãn thflng v CNN lĐy º d i cŁ ành l m ƒu v o (input), i vợi d liằu l vôn bÊn gỗm nhiãu cƠu, d thĐy rng khổng phÊi tĐt cÊ cĂc cƠu ãu cõ chiãu d i Trong nhng mổ hnh mng nỡ-ron truyãn thổng,  giÊ nh r‹ng t§t c£ c¡c ƒu v o v ƒu (output) c lp vợi nhau, nghắa l chúng khổng liản kt th nh chuỉi vợi Chnh iãu n y l m cho nhng mổ hnh truyãn thng tr nản k†m hi»u qu£ Łi vỵi vi»c gi£i quy‚t c¡c b i to¡n câ dœ Li»u tuƒn tü v… chóng hƒu nh÷ khỉng th” bi”u ÷ỉc ngœ c£nh cıa ƒu v o  cho RNN ữổc sinh giÊi quyt vĐn ã n y Xò lỵ ngổn ng tỹ nhiản Hnh 2.2: Mng nỡ-ron, ữổc t chức theo lợp bao gỗm mt hổp cĂc nút kt ni vợi 2.4.1 RNN Mng nỡ-ron hỗi quy (RNN - Recurrent Neural Network) l mt thut toĂn ữổc ỵ rĐt nhiãu thíi gian gƒn ¥y bði c¡c k‚t qu£ tŁt thu ữổc lắnh vỹc xò lỵ ngổn ng tỹ nhiản ị tững chnh ca RNN l sò dửng chuỉi cĂc thổng tin Trong cĂc mng nỡ-ron truyãn thng tĐt c£ c¡c ƒu v o v c£ ƒu l c lp vợi nhau, chúng khổng liản kt th nh chuỉi vợi Những cĂc mổ h nh n y khổng phũ hổp rĐt nhiãu b i toĂn Mổ hnh ữổc gồi l hỗi quy (Recurrent) bi l chúng thüc hi»n cịng mºt t¡c vư cho t§t c£ c¡c phn tò ca mt chuỉi vợi u phử thuc v o cÊ cĂc php tnh trữợc õ Nõi cĂch khĂc, RNN cõ khÊ nông nhợ cĂc thổng tin ữổc tnh toĂn trữợc õ Trản lỵ thuyt, mổ hnh cõ th sò dửng ữổc thổng tin ca mt vôn bÊn rĐt d i, nhiản thỹc t th nõ ch cõ th nhợ ữổc mt v i bữợc trữợc õ Mng nỡ-ron, ữổc t chức theo lợp bao gỗm mt t“p hỉp c¡c nót k‚t nŁi vỵi Mºt RNN cõ Hnh 2.3: cĐu trúc ca RNN thã nhn v o mt chuỉi cõ chiãu d i bĐt ký v to mt chuỉi nhÂn cõ chiãu d i tữỡng ứng Viằc tnh toĂn ữổc thỹc hiằn nhữ sau: • xt l chuØi ƒu v o t⁄i t ã U; W; V l cĂc ma trn trồng sỗ ã st l trng thĂi n ti bữợc t st = f (U xt + W st 1) Trong â f th÷íng l mºt h m phi tuy‚n t‰nh nh÷ vỵi ot = softmax (V st) ot l ƒu ti bữợc t Xò lỵ ngổn ng tỹ nhiản 2.4.2 LSTM (Long Short Term Memory) Mºt i”m nŒi b“t ca mng nỡ-ron n y l ỵ tững kt ni cĂc thổng tin pha trữợc dỹ oĂn cho hiằn ti Viằc n y tữỡng tỹ nhữ ta sò dửng cĂc cÊnh trữợc ca b phim hiu ữổc cÊnh hi»n thíi Th“t khỉng may vỵi kho£ng c¡ch c ng lỵn dƒn th… m⁄ng nì-ron b›t ƒu khỉng th” nhợ v hồc ữổc na Ơy ữổc gồi l vĐn • phư thuºc xa (Long-term Dependency) cıa RNN, hay cỈn cõ tản gồi khĂc l mng b nhợ d i-ngn (Long Short Term Memory Networks), th÷íng ÷ỉc gåi l LSTM - ¥y l mºt d⁄ng °c bi»t cıa RNN, nâ cõ khÊ nông hồc ữổc cĂc phử thuc xa LSTM ữổc thit k trĂnh ữổc vĐn ã phử thuc xa (long-term dependency) Vi»c nhỵ thỉng tin suŁt thíi gian d i l °c t‰nh m°c ành cıa mæ hnh iãu n y mang ỵ nghắa cõ khÊ nông ghi nhợ ữổc m khổng cn bĐt k can thiằp n o Ch…a khâa cıa LSTM l tr⁄ng th¡i t‚ b o (cell state) - ch‰nh ÷íng ch⁄y thỉng ngang pha trản ca sỡ ỗ hnh v Trng thĂi t b o l mt dng ging nhữ chuyãn Nõ chy xuyản sut tĐt cÊ cĂc mt xch (cĂc nút m⁄ng) v ch¿ t÷ìng t¡c tuy‚n t‰nh ỉi chót V… v“y m c¡c thæng tin câ th” d„ d ng truy•n i thỉng suŁt m khỉng sỉ bà thay Œi Bản cnh õ cặn cõ cng khĂc l forget gate v input gate Trong õ: ã Tng cng quản (forget gate) gióp quy‚t ành xem thỉng tin n o cƒn bä i tł tr⁄ng th¡i t‚ b o Quy‚t ành n y ÷ỉc ÷a bði h m sigmoid • Tƒng cŒng v o (input gate) sß dưng sigmoid ” quy‚t ành gi¡ trà n o ta s‡ c“p nh“t H…nh 2.4: c§u tróc cıa LSTM CuŁi cịng c¡c gi¡ trà ƒu s‡ düa v o tr⁄ng th¡i t‚ b o nh÷ng s‡ ÷ỉc ti‚p tưc s ng lồc rỗi quyt nh phn n o ca trng thĂi t b o ữổc xuĐt 2.5 Nhúng t - Word Embedding Trong cĂc ứng dửng vã Xò lỵ ngổn ngœ tü nhi¶n v m¡y håc, c¡c thu“t to¡n khỉng th” hi”u dœ li»u ƒu v o l ngæn ngœ tü nhi¶n, thay v o â, ta cƒn chuy”n c¡c tł ngœ sang ngæn ngœ m¡y Kÿ thu“t n y ÷ỉc gåi l Word Embedding - nhóng tł, ph÷ìng ph¡p nhúng t ữổc nhõm sò dửng b i toĂn l chuyn cĂc kỵ tỹ sang chuỉi vợi l tr‰ t÷ìng øng v ð c¡c v tr cặn li Hnh 2.5: m hõa v giÊi m vôn bÊn th nh ma trn Xò lỵ ngổn ngœ tü nhi¶n 2.6 Accuracy Accuracy ( º ch‰nh x¡c) l º o ìn gi£n nh§t ” ¡nh gi¡ mºt mổ hnh phƠn lợp CĂch Ănh giĂ n y ỡn gi£n t ‰nh t¿ l» giœa sŁ i”m ÷ỉc dü o¡n óng v tŒng sŁ i”m t“p dœ li»u kim thò Chữỡng PHìèNG PH P XU T v K T QU THÜC NGHI M: Trong khn khŒ • t i n y, nhâm chån nghi¶n cøu b i toĂn trung vã cĂc dĐu ca cƠu, bng viằc b sung cĂc dĐu cƠu cặn thiu hoc chnh sòa li cƠu õ theo úng chnh tÊ 3.1 Mổ t£ dœ li»u ” o t⁄o mỉ h…nh håc s¥u, nhõm sò dửng lữổng lợn vôn bÊn ting Viằt bao gỗm cõ dĐu v khổng cõ dĐu Lữổng data n y ÷ỉc thu th“p ÷ỉc khäang 23000 b i b¡o tł trang tin tøc lỵn cıa Vi»t Nam http://vnexpress.net/ v http://kenh14.vn/ (hy vồng) bao gỗm nhiãu th loi vôn bÊn Viằt Nam thổng dửng Trong õ vợi bº dœ li»u ÷ỉc thu th“p tł mºt sŁ trang web sau â chóng tỉi bä c¡c d§u, d§u cƠu, k cÊ cĂc dĐu ca kỵ tỹ ổ chuyn th nh o, ¶ chuy”n th nh e, v thảm v o d liằu huĐn luyằn nhm tông thảm tnh cĐu trúc vôn bÊn 3.2 Tiãn xò lỵ d liằu Tiãn xò lỵ d liằu l mt nhng bữợc quan trồng nhĐt xò lỵ ngổn ng tỹ nhiản, c biằt vợi d liằu vôn bÊn ữổc thu th“p tł c¡c trang web b¡o i»n tß Trong t“p d liằu chúng tổi thu thp, tỗn ti nhiãu cƠu, o⁄n, tł ngœ khỉng ch‰nh thŁng, khỉng phị hỉp vỵi tiảu chu'n thổng thữớng ca Ting Viằt Do õ, tiãn xò lỵ d liằu cõ th giúp loi bọ nhiu d liằu u tiản, chúng tổi vit thữớng tĐt cÊ cĂc kỵ tỹ v loi bọ dĐu cƠu, cĂc kỵ tỹ c biằt, biu tữổng nhữ !@?(), , loi bä c¡c chœ sŁ v… gƒn nh÷ khỉng cƒn thi‚t Mc dũ tĐt cÊ cĂc b i bĂo ữổc lĐy tł trang web Ti‚ng Vi»t H…nh 3.1: ThŁng k¶ sŁ lữổng d i ca cƠu b d liằu Xò lỵ ngổn ng tỹ nhiản vÔn tỗn t⁄i mºt t¿ l» nhä c¡c b i b¡o câ lÔn cĂc ngổn ng khĂc nhữ Ting Anh, ting Trung, ti‚ng H n, Do â qu¡ tr…nh ti•n xò lỵ d liằu, tĐt cÊ cĂc dng n y ãu ữổc loi bọ Trong õ, chúng tổi thng kả t d liằu  ữổc ã cp, bao gỗm tĐt c£ 1,5 tri»u c¥u Düa theo k‚t qu£ h…nh 3.3 cho thĐy s lữổng cƠu b d liằu cõ d i ch yu t - 200 kỵ tỹ, sau õ sò dửng phữỡng phĂp N-gram to c¡c dœ li»u ƒu v o cho mæ h…nh Theo mæ h…nh tham kh£o tł [4], th… mæ h…nh gram hoc gram ữổc sò dửng s phũ hổp hìn Cư th”, düa theo k‚t qu£ tł h…nh 3.2, chúng tổi cõ xĐp x 12 triằu 5-gram vợi cĂc d i tữỡng ứng 15-25 kỵ tỹ Hnh 3.2: Thng kả N-grams dỹa trản b d liằu Tông cữớng th¶m dœ li»u: Ph⁄m vi b i to¡n cıa nhâm t“p trung ph⁄m vi ch¿nh sßa v bŒ sung dĐu Do õ cõ thảm d liằu huĐn luyằn õ l lĐy vôn bÊn ting Viằt cõ dĐu v sau õ bọ dĐu thảm v o b d liằu huĐn luyằn 3.3 XƠy dỹng mổ hnh: Sò dửng b thữ viằn Keras xƠy dỹng mổ hnh Deep Learning lỵp LSTM vỵi kho£ng 1,5 tri»u tham sŁ H…nh 3.3: Mỉ h…nh Deep Learning vỵi lỵp LSTM Xò lỵ ngổn ng tỹ nhiản 3.4 Kt quÊ t chnh xĂc 50% sau epoch u tiản (vã mt k thut l 1/100 epoch), thò vợi cƠu "co gai den tu hom qua" Tł h…nh 3.4, ta th§y câ vĐn ã v mổ hnh  t dĐu sai cho cƠu trản, ngo i Hnh 3.4: Kt quÊ thò nghiằm sau epoch u tiản chnh xĂc cụng chữa ¡p øng mong æi, v… v“y câ th” k‚t lu“n rng cn huĐn luyằn thảm nhiãu hỡn T kt quÊ h…nh 3.5, nh“n ÷ỉc ƒu nh“n ÷ỉc k‚t qu£ óng ð epoch thø 12 v ho n ch¿nh sau 22 epochs Quan s¡t kÿ hìn, mỉ h…nh nh“n t§t cÊ phử Ơm sau epochs v tĐt cÊ cĂc nguyản Ơm cỡ bÊn sau epochs, chnh xĂc ÷ỉc c£i thi»n l¶n 95% sau epoch thø 50 H…nh 3.5: K‚t qu£ thß nghi»m sau 50 epochs CuŁi cịng, sau 300 epochs (h…nh 3.6 mæ h…nh ⁄t º ch‰nh x¡c 97% v h m loss gi£m xuŁng 0.07 Do giợi hn vã phn cứng ca mĂy cụng nhữ giợi hn vã thới gian, quĂ trnh huĐn luyằn ữổc dng l⁄i 3.5 K‚t qu£ tr¶n t“p test: K‚t thóc qu¡ tr…nh train v ¡nh gi¡, nhâm chån mºt o⁄n v«n hoc cĂc cƠu là (hnh 3.8) phặ thữ tữong r soat viec chặ formosa thuả Đt 70 nam i vợi cĂc dỹ Ăn ang tỗn ti v hoat ong trản l Ânh th Viằt Nam khổng riãng Formosa s cặ k‚ ho⁄ch ki”m tra r soat ¡nh gi¡ l⁄i theo tinh thn sai phm la phÊi x lỵ Ta nhn thĐy mổ hnh khổng hot ng tt trản cĂc t khỉng ph£i ti‚ng Vi»t (nh m¡y Formosa Fomosa) Thß nghi»m vợi cĂc kt quÊ khĂc: Ni dung sau Ơy ữổc tr‰ch tł "Cho tỉi xin mºt v† i tuŒi thì" Do b d liằu huĐn liằu ữổc lĐy t Vnexpress hay Kenh14 cõ ni dung v lắnh vỹc khĂc vợi phong c¡ch vi‚t cıa nh v«n truy»n Nguy„n Nh“t nh Xò lỵ ngổn ng tỹ nhiản Hnh 3.6: Kt quÊ sau 300 epochs H…nh 3.7: K‚t qu£ sau hu§n luyằn trản on u v o mợi cho tổi xin mºt v† i tuŒi thì’ ’tâm l⁄i l ¢ h‚t mºt ng y’ ’mºt ng y’ ’s‡ câ k‚ ho⁄ch ki”m tra’ ’tỉi chỉt nh“n th§y cuºc sŁng th“t l buỗn chĂn v tà nht nôm õ tổi tui on trản ữổc input vợi cĂc giĂ tr l tng dặng cƠu rới tữỡng ứng kt quÊ mổ hnh hin t⁄i h… nh 3.8 H…nh 3.8: K‚t qu£ chy thò nghiằm vợi ni dung truyằn ngn Xò lỵ ngổn ng tỹ nhiản 3.6 Ănh giĂ v nh hữợng ph¡t tri”n K‚t qu£ thüc nghi»m cho th§y sü m§t cƠn bng gia cĂc ni dung cho thĐy vĐn ã thĂch thức vã lữổng d liằu ữổc huĐn luyằn chữa bao quĂt tĐt cÊ cĂc lắnh vỹc cõ th xuĐt hiằn ting Viằt Tông thảm d liằu bng cĂch c o th¶m dœ li»u tł c¡c trang b¡o m⁄ng khĂc, m rng tợi cĂc lắnh vỹc nhữ b nh lu“n tł c¡c ng÷íi dịng Facebook, ¡nh gi¡ s£n ph'm Thò nghiằm cĂc mổ hnh SOTA cho xò lỵ ngổn ng tỹ nhiản mt sòa lỉi chnh tÊ v m rng lản sòa lỉi sai chnh tÊ, khổng giợi h⁄n ð d§u T i li»u tham kh£o [1] Phan Th Hỗng XuƠn Mt s giÊi phĂp khc phửc lỉi chnh tÊ ca ngữới sò dửng Ting Viằt, Tp ch‰ Khoa håc HQGHN: Nghi¶n cøu gi¡o dưc, sŁ (2017) 68-74 [2] Lả A, ỉ XuƠn ThÊo, Lả Hu T¿nh,Gi¡o tr…nh ti‚ng Vi»t 2, NXB ⁄i håc S÷ ph⁄m, 2014 [3] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen Vietnamese Text Accent Restoration With Statistical Machine Translation PACLIC-27 [4] Le Binh, vietnamese-accent-model [5] Nguyen Van Cuong, Le Huy Khiem, Tran Minh Anh, Binh Thanh Nguyen, An Efficient Framework for Vietnamese Sentiment Classification, SoMeT 2020 [6] Pham Thi Thuy, Nguyen Thao Nhu, Pham Hong Quang, Cao Ky Han, Binh Thanh Nguyen, Viet-namese Punctuation Prediction Using Deep Neural Networks, SOFSEM 2020, Cyprus, January 20-24 2020 14 ... mt cƠu w 1w2:::wm l bao nhiảu Dỹa theo cổng thøc Bayes: P (AB) = P (BjA) P (A), th…: P (w1w2:::wm) = P (w 1) P (w2jw 1) P (w3jw1w 2) ::: P (wmjw1w2:::wm Nh÷ng tr÷íng hỉp n y cƒn sò dửng lữổng lợn... ti bữợc t st = f (U xt + W st 1) Trong â f th÷íng l mºt h m phi tuy‚n tnh nhữ vợi ot = softmax (V st) ot l u ti bữợc t Xò lỵ ngổn ng tü nhi¶n 2.4.2 LSTM (Long Short Term Memory) Mºt i”m ni bt... o (input), i vợi d liằu l vôn bÊn gỗm nhiãu cƠu, d thĐy rng khổng phÊi tĐt cÊ cĂc cƠu ãu cõ chiãu d i Trong nhng mổ hnh mng nỡ-ron truyãn thổng,  gi£ ành r‹ng t§t c£ c¡c ƒu v o v u (output)

Ngày đăng: 10/12/2022, 07:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w