ViӋc khôi phөc lҥi nhӳQJWK{QJWLQÿѭӧFOѭXWUӳ Gѭӟi dҥng hình ҧnh, ÿLӇn hình tӯ cuӕn tӯ ÿLӇn TiӃng ViӋWPDQJÿӃn tҫPTXDQWURQJÿӕi vӟi tiӃng ViӋt khi có thӇ OѭXJLӳ và bҧo tӗQFK~QJGѭӟi dҥQJYăQEҧn
Trang 1&KX\rQQJjQK.+2$+Ӑ&0È<7Ë1+
0mVӕ 8.48.01.01
/8Ұ19Ă17+Ҥ&6Ƭ
TP+Ӗ&+Ë0,1+WKiQJQăP
Trang 2&Ð1*75Î1+ĈѬӦ&+2¬17+¬1+7Ҥ, 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ - Ĉ+4*- HCM
&iQEӝKѭӟQJGүQNKRDKӑF 3*67648Ҧ17+¬1+ 7+Ѫ
&iQEӝFKҩPQKұQ[pW: GS.TS 3+$17+ӎ7ѬѪ,
&iQEӝFKҩPQKұQ[pW: PGS.TS 1*8<ӈ17+$1++,Ç1
/XұQYăQVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0ngày 22 WKiQJQăP
Thành phҫn Hӝi ÿӗng ÿinh giá luұn văn thҥc sƭ gӗm:
&+Ӫ7ӎ&++Ӝ,ĈӖ1* 75ѬӢ1*.+2$ KHMT
3*676'ѬѪ1*78Ҩ1$1+
Trang 3ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1*ĈҤ,+Ӑ&%È&+KHOA
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝFOұS- 7ӵGR- +ҥQKSK~F
II 1+,ӊ09Ө9¬1Ӝ,'81* 1JKLrQFӭXNӻWKXұWKӑFVkXYjP{KuQKQJ{n
QJӳÿӇÿӅ[XҩWP{KuQKVӱDOӛLFKtQKWҧPӝWFiFKKLӋXTXҧFKRFKӳYLӃWWLӃQJ9LӋWӬQJGөQJYjRWKӵFQJKLӋPFKRYLӋFVӱDOӛLFKtQKWҧWUrQFXӕQWӯÿLӇQWLӃQJ9LӋWYjÿiQKJLiKLӋXTXҧFӫDP{KuQKÿӅ[XҩW
Trang 4/Ӡ,&È0Ѫ1
ĈӇKRjQWKjQKÿѭӧFÿӅWjLOXұQYăQWKҥFVƭQj\W{L[LQEj\WӓVӵFҧPNtFKÿһFELӋWFNJQJQKѭOӡLFҧPѫQFKkQWKjQKÿӃQQJѭӡLWKҫ\FӫDW{L3*6764XҧQ7KjQK7KѫQJѭӡL ÿm ÿӏQK KѭӟQJ WUӵF WLӃS dìu GҳW Yj WұQ WuQK FKӍ EҧR FKR W{L WURQJ VXӕW quá WUuQKWKӵFKLӋQXin chân thành cҧPѫQQKӳQJEjLJLҧQJQKӳQJEXәLWKҧROXұQYӅWѭ GX\Yj SKѭѫQJSKiS WKӵF KLӋQÿm giúp tôi Fy ÿѭӧFWKrPQKLӅXNLӃQWKӭF TXêJLiWURQJYLӋFKRjQWKjQKWӕWOXұQYăQQj\ĈӗQJWKӡLWKҫ\FNJQJOjQJѭӡLOX{QFKRW{L NK{QJFKӍ QKӳQJOӡLNKX\rQY{FQJTXêJLiYӅ NLӃQWKӭFFKX\rQP{QPjFzQOjVӵWұQWkPWURQJTXiWUuQKJLҧQJGҥ\ 0ӝWOҫQQӳDW{L[LQJӱLOӡLFҧPѫQÿӃQWKҫ\EҵQJWҩWFҧWҩPOzQJYjVӵELӃWѫQFӫDPuQK
Tôi FNJQJ [LQ FKkQ WKjQK FҧP ѫQ TXê 7Kҫ\ &{ ӣ KRD KRD +ӑF 0i\ 7tQK ± 7UѭӡQJĈҥL+ӑF%iFK.KRD73+&0ÿmFQJYӟLWULWKӭFYjWkPKX\ӃWFӫDPuQKÿӇWUX\ӅQÿҥWNLӃQWKӭF quý báu FKRQKӳQJKӑFYLrQFDRKӑFQKѭW{LWURQJVXӕWWKӡLJLDQKӑFWұSYjQJKLrQFӭX
Sau cùng, tôi xin FҧPѫQJLDÿuQKDQKFKӏEҥQEqFiFEҥQKӑFYLrQQKӳQJQJѭӡLÿmJL~SÿӥKӛWUӧW{LFNJQJQKѭJySêFKRW{LTXiWUuQKWKӵFKLӋQYjKRjQWKjQKÿӅWjLOXұQYăQWKҥFVƭQj\
Trang 57Ï07Ҳ7/8Ұ19Ă17+Ҥ&6Ƭ
Ngày nay các loҥLViFKEiRWѭOLӋu cҫQÿѭӧFOѭXWUӳ Gѭӟi dҥQJYăQEҧn sӕ rҩt phә biӃn Qua thӡi gian thì chҩWOѭӧQJYăQEҧn in giҩy sӁ NpPÿLQKѭQJYăQEҧn sӕ vүn không bӏ hӓng ViӋc khôi phөc lҥi nhӳQJWK{QJWLQÿѭӧFOѭXWUӳ Gѭӟi dҥng hình ҧnh, ÿLӇn hình tӯ cuӕn tӯ ÿLӇn TiӃng ViӋWPDQJÿӃn tҫPTXDQWURQJÿӕi vӟi tiӃng ViӋt khi có thӇ OѭXJLӳ và bҧo tӗQFK~QJGѭӟi dҥQJYăQEҧn sӕ Tuy nhiên viӋc chuyӇn ÿәi này không phҧLO~FQjRFNJQJOX{QPDQJÿӃn sӵ chính xác tuyӋWÿӕi, ÿLӅXÿyGүn ÿӃn xuҩt hiӋn nhӳng lӛi sai chính tҧ WURQJYăQEҧn sӕ làm cho kӃt quҧ NK{QJÿҥWQKѭmong muӕn
MөFÿtFKFӫa nghiên cӭu này là thӵc hiӋn hұu xӱ lý cho quá trình trên nhҵm cҧi tiӃn chҩWOѭӧQJFKRYăQEҧn sӕ ÿҫu ra tӯ Eѭӟc chuyӇQÿәi Trong phҥm vi cӫa luұn án, tôi thӵc hiӋn các cách tiӃp cұn sau :
x Thӵc hiӋn chuyӇQÿәi thông tin tӯ hình ҧQKVDQJYăQEҧn sӕ GѭӟLÿӏnh dҥng phù hӧp gӗm mөc tӯ và thân tӯ QKѭFXӕn tӯ ÿLӇn gӕc
x Xây dӵng bӝ sӱa lӛi dӵa trên mô hình ngôn ngӳ mӭc kí tӵ nhҵm sӱa lӛi chính tҧ cho tiӃng ViӋt Mӣ rӝng thêm vӟi nhӳQJ SKѭѫQJ WKӭc nhҵm WăQJFѭӡng khҧ QăQJVӱa lӛi cho mô hình
x ĈӅ xuҩt chiӃQOѭӧc cho mô hình ngôn ngӳ trong viӋFÿiQKJLá kí tӵ nguyên
âm trên lӛi sai nhҵm phù hӧp vӟi thӵc tӃ bài toán Bên cҥQKÿyGQJFiFNƭthuұt nghiӋPVX\KHXULVWLF ÿӇ bә trӧ cho viӋc sӱa lӛi nhҵPÿHPOҥi kӃt quҧ tӕt nhҩt
.ӃWTXҧWKӵFQJKLӋPFKRWKҩ\P{KuQKÿӅ[XҩWPDQJWtQKӭQJGөQJFDRNKLJL~SFҧLWKLӋQFKҩWOѭӧQJFKR NӃWTXҧ WKXÿѭӧFWӯYLӋF FKX\ӇQ ÿәLKuQKҧQKVDQJYăQEҧQWUrQFXӕQWӯÿLӇQ7LӃQJ9LӋW 6DXFQJOXұQYăQÿѭDUDKѭӟQJPӣUӝQJFKRÿӅWjLNKLFyWKӇSKiWWULӇQP{KuQKQj\QKҵP ÿҥWNӃWTXҧWӕWKѫQKRһFVӱGөQJYjRQKӳQJQJKLrQFӭXNKiFOLrQTXDQÿӃQVӱDOӛLFKtQKWҧWLӃQJ9LӋW
Trang 6ABSTRACT
Nowadays, many types of books, newspapers and documents that need to be archived in digital documents are very popular Over time the quality of printed documents will deteriorate, but digital documents will not deteriorate Recovering information stored in images, typically from a Vietnamese dictionary, brings importance to Vietnamese as it is possible to store and preserve them in digital text format However, this conversion does not always bring absolute accuracy, which leads to misspellings in digital documents, which make the results not as expected The purpose of this study is to do post-processing stage for the above process to improve the quality of digital text output from the conversion step In the scope of the thesis, I take the following approaches:
x Convert information from images to digital text in a suitable format including entries and word bodies like the original dictionary
x Building a character-based language model to correct spelling mistakes for Vietnamese Extend with methods to increase perfomance for the model
x Proposing a strategy for language model in evaluating vowel characters in error in order to match the reality of the problem Besides, using heuristic techniques to complement the error correction to bring the best results
The experimental results show that the proposed model is highly applicable when it helps to improve the quality of the results obtained from converting images into text
in Vietnamese dictionary Finally, the thesis gives an extension to the topic when it
is possible to develop this model to get better results or use it in other studies related
to correct Vietnamese spelling errors
Trang 7/Ӡ,&$0Ĉ2$1
7{L[LQFDPÿRDQOXұQYăQYӅÿӅWjL³.ӃWKӧSKӑFVkXYjP{KuQKQJ{QQJӳÿӇQKұQGҥQJFKӳYLӃWWLӃQJ9LӋWWӯKuQKҧQK´OjF{QJWUuQKQJKLrQFӭXFiQKkQFӫDW{LWURQJWKӡLJLDQTXD0ӑLVӕOLӋXVӱGөQJSKkQWtFKWURQJOXұQYăQYjNӃWTXҧQJKLrQFӭXOj
do tôLWӵWuPKLӇXSKkQWtFKPӝWFiFKNKiFKTXDQWUXQJWKӵFFyQJXӗQJӕFU}UjQJYj FKѭD ÿѭӧF F{QJ Eӕ GѭӟL EҩW NǤ KuQK WKӭF QjR 7{L [LQ FKӏX KRjQ WRjQ WUiFKQKLӋPQӃXFyVӵNK{QJWUXQJWKӵFWURQJWK{QJWLQVӱGөQJWURQJF{QJWUuQKQJKLrQFӭXQj\
1JѭӡLFDP ÿRDQ
1JX\ӉQĈuQK'X\
Trang 80Ө&/Ө&
'DQKPөFKuQKҧQK x
'DQKPөFEҧQJELӇX xii
0ӢĈҪ8 1
*LӟLWKLӋXÿӅWjL 1
0өFWLrXYjSKҥPYLÿӅWjL 2
0өFWLrX 2
3KҥPYLÿӅWjL 2
7tQKӭQJGөQJFӫDÿӅWjL 3
&ҩXWU~FOXұQYăQ 4
7Ә1*48$1 5
2.1 Các công trình liên quan 5
7KiFKWKӭFFӫDEjLWRiQ 6
+ѭӟQJJLҧLTX\ӃW 6
&Ѫ6Ӣ/é7+8<ӂ7 8
7әQJTXDQYӅ7HVVHUDFW 8
0ҥQJ Qѫ-URQKӗLTX\511 12
3.3 LSTM 18
0{KuQKQJ{QQJӳ- Language model 21
&iFWKXұWWRiQGzWuPKӛWUӧ 25
.KRҧQJFiFK/HYHQVKWHLQ 25
&k\WuPNLӃP7ULH 26
+,ӊ17+Ӵ&0Ð+Î1+ 29
7KXWKұSGӳOLӋX 29
;k\GӵQJ P{KuQKQJ{QQJӳPӭFNtWӵ 30
7+Ӵ&1*+,ӊ09¬ĈÈ1+*,È.ӂ748Ҧ 41
7KӵFKLӋQ2&5 41
ĈһFÿLӇPOӛL 43
+ѭӟQJWLӃSFұQ 46
'QJP{KuQKQJ{QQJӳYӟLSKѭѫQJSKiSKӛWUӧ 46
'QJWKXұQWRiQGzWuPFKROӛLPөFWӯYjWKkQWӯ 51
ĈiQKJLiNӃWTXҧ 56
Trang 90ӝWVӕKҥQFKӃFӫDP{KuQK 58
.ӂ7/8Ұ19¬.,ӂ11*+ӎ+ѬӞ1*0Ӣ5Ӝ1*Ĉӄ7¬, 59
.ӃWOXұQ 59
+ѭӟQJPӣUӝQJÿӅWjL 59
'DQKPөF WjLOLӋXWKDPNKҧR 61
Trang 10'DQKPөFKuQKҧQK
+uQK7UDQJEuDFXӕQ7ӯÿLӇQ7LӃQJ9LӋW± +RjQJ3KrFKӫELrQ 3
+uQK2&5WUrQPӝWWӡJLҩ\FNJYjFKX\ӇQÿәLVDQJYăQEҧQVӕ 8
Hình 3.2: Quá trình OCR (Optical Character Recognition process) 9
+uQK.LӃQWU~F7HVVHUDFW2&5 11
Hình 3.4: Mô hình PҥQJ Neural Network thông WKѭӡQJ 12
Hình .LӃQWU~FFѫEҧQPҥQJ511 13
Hình 3.6: One-to-one RNN 14
Hình 3.7: One-to-many RNN 14
Hình 3.8: Many-to-one RNN 15
Hình 3.9: Many-to-PDQ\511ORҥL 15
Hình 3.10: Many-to-PDQ\511ORҥL 16
Hình 3.1.LӃQWU~FFӫD/670 18
Hình 3.12: LSTM ± FәQJIRUJHW 19
Hình 3.13: LSTM ± FәQJLQSXWYjOӟSWDQK 20
Hình 3.14: LSTM ± FұSQKұWWUҥQJWKiLWӃEjRFHOOVWDWH 20
Hình 3.15: LSTM ± OӟSRXWSXW 20
Hình +uQKҧQKWKDQKWuPNLӃPWUrQ*RRJOH 21
+uQK0{KuQKPҥQJRQH-to-many RNN 23
+uQK0{KuQKÿѫQJLҧQWKӇKLӋQêWѭӣQJKXҩQOX\ӋQ/0YӟL511 24
+uQK&ҩXWU~FGӳOLӋXFk\WULH 27
+uQK0{KuQK+ӑF6kX'HHS/HDUQLQJ VӱGөQJFKR1/3 30
+uQK.LӃQWU~FP{KuQKQJ{QQJӳPӭFNtWӵÿѭӧF[k\GӵQJ 32
+uQK;iFVXҩW[XҩWKLӋQNtWӵWURQJSKѭѫQJSKiSVӱDWK{QJWKѭӡQJ 33
+uQK&iFEѭӟFNLӇPWUDSKiWKLӋQOӛLWURQJSKѭѫQJSKiSWK{QJWKѭӡQJ 34
+uQK.ӃWTXҧVӱDOӛLYӟLSKѭѫQJSKiSVӱDWK{QJWKѭӡQJ 34
+uQK6ѫÿӗVӱDOӛLWURQJSKѭѫQJSKiSWK{QJWKѭӡQJ 35
+uQK.ӃWTXҧVӱDOӛLWăQJFѭӡQJYӟLSKѭѫQJSKiS1-lookahead 37
+uQK6ѫÿӗVӱDOӛLWăQJFѭӡQJYӟLSKѭѫQJSKiS1-lookahead 38
Trang 11+uQK.ӃWTXҧVӱDOӛLEӣLNӃWKӧp hai mô hình Left-to-Right và Right-to-Left 39
+uQK4XiWUuQK2&5FKRYLӋFWKӵFKLӋQFXӕQWӯÿLӇQ7LӃQJ9LӋW 41
+uQK0ӝWWUDQJҧQKÿѭӧFWLӅQ[ӱOêYjFҳWÿ{L 42
+uQK&iFEѭӟFFKtQKWURQJYLӋFWLӅQ[ӱOêKuQKҧQKÿӇWKӵFKLӋQ2&5 42
+uQK7{ÿӓYăQEҧQÿӇVӱDOӛL 43
+uQK7ӍOӋSKkQEӕFiF/ӟSOӛL 45
+uQK7ӍOӋSKkQEӕFiFWRiQWӱWURQJ/ӟSOӛLYj/ӟSOӛL 45
+uQK7әQJTXDQYӅP{KuQKWLӃSFұQEjLWRiQ 46
Hình 5.8: Trích [XҩWPөFWӯILOH;0/ÿӇWKӵFKLӋQYLӋFNLӇPWUDFKpR 52
Trang 12'DQKPөFEҧQJELӇX
%ҧQJ7KӕQJNrFKLWLӃWEӝ GӳOLӋX:LNLSHGLDWLӃQJ9LӋW 30
%ҧQJ6LQKFKXӛLÿӇÿѭDYjRP{KuQK 31
%ҧQJ%ҧQJYtGөYӅSKkQORҥLOӛL 44
%ҧQJ;ӱOêOѭXYăQEҧQFҫQVӱDYjR'DWD)UDPHÿӇVӱDOӛLSKҫQWKkQWӯ 47
%ҧQJ%ҧQJNtWӵQJX\rQkPYjWәKӧSӭQJYӟLNtWӵ 47
%ҧQJ%ҧQJNtWӵQJX\rQkPFKӭDGҩXYjWәKӧSӭQJYӟLNtWӵ 50
%ҧQJ;ӱOêOѭXYăQEҧQFҫQVӱDYjR'DWD)UDPHÿӇVӱDOӛLSKҫQPөFWӯ 52
%ҧQJ%ҧQJWKӕQJNrNӃWTXҧGӵDWUrQSKkQORҥLWKjQKPөFWӯYjWKkQWӯ 56
%ҧQJ%ҧQJWKӕQJNrNӃWTXҧFKLWLӃWWUrQPӛLWұSÿiQKJLiNKLSKkQORҥLWKjQK PөFWӯYjWKkQWӯ 57
%ҧQJ%ҧQJWKӕQJNrNӃWTXҧFKLWLӃWWUrQOӛLWKkQWӯNK{QJ[pWOӛL/ӟS 57
%ҧQJ%ҧQJWKӕQJNrNӃWTXҧFKLWLӃWFKRWRiQWӱ7KD\WKӃWUrQOӛLWKkQWӯ 58
%ҧQJ%ҧQJWKӕQJNrNӃWTXҧORҥLOӛLKӧSQKҩW 58
Trang 130ӢĈҪ8
1.1 *LӟLWKLӋX ÿӅWjL
Ngày nay các loҥLViFKEiRWѭOLӋu cҫQÿѭӧFOѭXWUӳ Gѭӟi dҥQJYăQEҧn sӕ rҩt phә biӃQ 9ăQ Eҧn sӕ Fy ѭX ÿLӇP QKѭ Fұp nhұt, sӱa chӳD FNJQJ QKѭ WUDR ÿәi nhanh chóng KѫQ VR YӟL YăQ Eҧn in giҩy truyӅn thӕng Mһt khác, qua thӡi gian thì chҩt OѭӧQJYăQEҧn in giҩy sӁ NpPÿLQKѭQJYăQEҧn sӕ vүn không bӏ hӓng Tӯ ÿyQҧy sinh vҩQ ÿӅ OjP FiFK QjR ÿӇ khôi phөc lҥi nhӳng thông tin cӫa sách báo Wѭ OLӋu Gѭӟi dҥQJYăQEҧn sӕ ÿӇ có thӇ tái bҧQĈk\OjPӝt nhiӋm vө thӵc tӃ trong nhiӅu OƭQKYӵc, chҷng hҥQQKѭWURQJFiFWKѭYLӋn và nhà xuҩt bҧn
Có mӝt sӕ FiFKNKiFQKDXÿӇ giҧi quyӃt bài toán chuyӇQÿәi trên Mӝt biӋn pháp dӉ thӵc hiӋn nhҩt là nhұp lҥi nӝi dung cӫDYăQEҧn thông qua bàn phím Mһc dù vұy, ÿk\OjPӝt công viӋc thӫ công trong thao tác chӃ bҧn nên nӃu sӕ OѭӧQJYăQEҧn là quá lӟn và mҩt nhiӅu thӡi gian sӁ dүn tӟi nhiӅu sai sót Giҧi pháp khác là tҥo ra mӝt FKѭѫQJWUuQKQKұn dҥQJYăQEҧn tӵ ÿӝQJ7KHRKѭӟng này, tӯ ÿLӇn, sách, báo« ÿѭӧFPi\TXpWOѭXWUӳ Gѭӟi dҥng ҧnh sӕFKѭѫQJWUuQKFyFKӭFQăQJQKұn dҥng ký
tӵ, tӯ ÿyFKX\ӇQÿәLWKjQKYăQEҧn sӕ Tuy nhiên viӋc chuyӇQÿәi này không phҧi O~FQjRFNJQJOX{QPDQJÿӃn sӵ FKtQK[iFÿLӅXÿyGүQÿӃn xuҩt hiӋn nhӳng lӛi sai chính tҧ WURQJYăQEҧn sӕ làm cho kӃt quҧ NK{QJÿҥWQKѭPRQJPXӕn Vì vұy viӋc thӵc hiӋn hұu xӱ lý (post-processing) cho quá trình trên là mӝt công viӋc quan trӑng và cҫn thiӃWÿӇ cҧi tiӃn chҩWOѭӧng FKRYăQEҧn sӕ ÿҫu ra tӯ Eѭӟc chuyӇQÿәi
Nhұn thҩy viӋc ӭng dөng công viӋc trên cho mӝt bӝ tӯ ÿLӇn tiӃng ViӋt là mӝt chӫ ÿӅ
ÿiQJÿѭӧc quan tâm, qua tìm hiӇu và nghiên cӭu tôi xin thӵc hiӋQÿӅ tài : KӃt hӧp hӑc sâu và mô hình ngôn ngӳ ÿӇ nhұn dҥng chӳ viӃt tiӃng ViӋt tӯ hình ҧnh ĈӅ
WjL Qj\ sӁ WuP KLӇX WәQJ TXDQ FiFK WLӃS FұQ GӵD WUrQ FiF Nƭ WKXұt +ӑF Sâu (Deep Learning) ÿӇ JLҧL EjL WRiQ 7URQJ ÿy bên cҥnh NKҧ QăQJ iS GөQJ F{QJ QJKӋ nhұn dҥng ký tӵ quang hӑc (OCR ± Optical Character Recognition) giúp chuyӇQÿәi chӳ
Trang 14viӃW YăQ Eҧn sӕ tӯ hình ҧnh, WKu Eѭӟc WuP KLӇX FiF SKѭѫQJ SKiS [ӱ Oê QJ{Q QJӳWLӃQJ9LӋWYjVӱ dөng mô hình ngôn ngӳ ÿӇ sӱa lӛi chính tҧ là phҫn công viӋc chính yӃu cҫQ KѭӟQJ ÿӃn 7ӯ ÿy ÿѭD UD FiFK WLӃS FұQ [k\ GӵQJ FKLӃQ OѭӧF SK KӧS ӣ công viӋc hұu xӱ lý nhҵm giúp giҧPÿӝ lӛi cӫDTXiWUuQK2&5EDQÿҫu
1.2 0өFWLrX YjSKҥPYLÿӅWjL
0өFtiêu
0өFWLrXFӫDÿӅWjLQj\OjWuPKLӇXSKѭѫQJWKӭFWUtFK[XҩWWK{QJWLQWӯKuQKҧQKÿӇVLQK UD Nê Wӵ YăQ EҧQ Vӕ WK{QJ TXD YLӋF QKұQ GҥQJ Nê Wӵ TXDQJ KӑF 2&5 FKRWLӃQJ9LӋW ӢEѭӟFVDXWUtFK[XҩWÿӅ[XҩWFiFNӻWKXұWPӟLWURQJ;ӱ/ê1J{Q1Jӳ7ӵ 1KLrQ 1/3 YjR 7LӃQJ 9LӋW Yj KXҩQ OX\ӋQ P{ KuQK QJ{Q QJӳ ÿӇ VӱD VDL OӛLFKtQKWҧÿRҥQYăQEҧQÿѭӧFVLQKUD6DXFQJWKӵFKLӋQYLӋFVRViQKNӃWTXҧӣ EѭӟFWUtFK[XҩWWK{QJWLQYăQEҧQWӯKuQKҧQKYjNӃWTXҧVDXNKLTXDP{KuQKVӱDOӛLÿӇiSGөQJP{KuQKÿҥWKLӋXTXҧQKҩW
7әQJTXiWOҥLPөFWLrXFӫDÿӅWjLEDRJӗP
x ĈӅ[XҩWYjKXҩQOX\ӋQP{KuQKVӱDOӛLFKREѭӟFKұX[ӱOê
x 7KӵFKLӋQFiFWKӱQJKLӋPYjVRViQKNӃWTXҧWUѭӟFYjVDXNKLTXDP{KuQKVӱDOӛL
Trang 15x ÈSGөQJP{KuQKNӃWKӧSYӟLQKӳQJSKѭѫQJWKӭFKӛWUӧ ÿӇVӱDOӛLFKtQKWҧ FKRQKӳQJÿӏQKGҥQJSKKӧS SRViQKNӃWTXҧFNJQJQKѭOӵDFKӑQP{KuQKSKKӧSgiúp ÿHPOҥLNӃWTXҧWӕWQKҩWFKREjLWRiQ
3KҫQ FKtQK FӫD OXұQ YăQ Qj\ VӁ WұS WUXQJ YjR P{ KuQK VӱD OӛL FiF SKѭѫQJ SKiSJL~SWăQJFѭӡQJKLӋXVXҩWFӫDP{KuQKVӱDOӛL 'RÿyOXұQYăQVӁNK{QJWұSWUXQJQKLӅXYӅYLӋFiSGөQJFiFNƭWKXұWÿӇFҧLWKLӋQÿӝFKtQK[iFӣEѭӟFQKұQGҥQJNtWӵTXDQJKӑF2&5FNJQJQKѭSKѭѫQJWKӭFJL~SSKiWKLӋQOӛLWURQJYăQEҧQÿѭӧFVLQK
ra
1.3 7tQKӭQJGөQJFӫDÿӅWjL
ĈӅWjLQj\JL~SEҧQWKkQW{LFӫQJFӕ ÿѭӧFNLӃQWKӭFNKRDKӑFWURQJYLӋFQJKLrQFӭXYӅ;ӱ/ê1J{Q1Jӳ7ӵ1KLrQEҵQJNƭWKXұW+ӑF6kX 7K{QJTXDÿyW{LFyWKӇӭQJGөQJÿѭӧFFiFSKѭѫQJSKiS³VWDWHRIWKHDUW´- WKӏQKKjQKQKҩW- YjRP{KuQKÿӇ[ӱOêFKRQJ{QQJӳFөWKӇOjWLӃQJ9LӋW JL~SPDQJWtQKӭQJGөQJYjRWKӵFWLӉQ 9ӟLYLӋFQJKLrQFӭXYj[ӱOêWUӵFWLӃS WUrQFXӕQ7ӯĈLӇQ7LӃQJ9LӋW1Kj[XҩWEҧQĈj1ҹQJQăPHoàng Phê FKӫELrQ W{LÿmFyWKӇWKӵFKLӋQPӝWÿӅWjLYӟLWtQKӭQJGөQJFDRJL~SFҧLWKLӋQ FKҩWOѭӧQJFKRFXӕQWӯÿLӇQVӕÿҫXUDVDX EѭӟFFKX\ӇQ ÿәLÿLӅXÿyJySSKҫQOѭXJLӳYjEҧRWӗQYăQEҧQVӕFKRWӯQJӳWLӃQJ9LӋWWK{QJTXDFXӕQWӯÿLӇQQj\ 1JRjLUDYLӋFWKӵFKLӋQ m{KuQKVӱDOӛLQj\FyWtQKWәQJTXiWFDR
và FyWKӇÿѭӧFGQJOҥLFKRFiFQJKLrQ FӭXOLrQTXDQYӅ[ӱOêQJ{QQJӳWLӃQJ9LӋWsau này
Hình 1.17UDQJEuDFXӕQ7ӯÿLӇQ7LӃQJ9LӋW± +RjQJ3KrFKӫELrQ
Trang 16&ҩXWU~FOXұQYăQ
1KӳQJQӝLGXQJFKLWLӃWKѫQWURQJTXiWUuQKWKӵFKLӋQÿӅWjLVӁÿѭӧFWUuQKEj\WURQJFiF FKѭѫQJWLӃSWKHR 7UѭӟFWLrQFác công trình QJKLrQFӭXOLrQ TXDQ ÿѭӧFWUuQKEj\ӣFKѭѫQJ7LӃS ÿӃQ trong FKѭѫQJVӁÿӅFұSÿӃQWәQJTXDQYӅEѭӟFQKұQGҥQJNtWӵTXDQJKӑFQKѭWKѭYLӋQYjF{QJFөVӱGөQJErQFҥQKÿyOjtrình bày YӅFѫVӣOêWKX\ӃWFӫDKӑFVkXYjP{KuQKQJ{QJӳӢFKѭѫQJW{LVӁÿLVkX YӅYLӋF[k\GӵQJYjKLӋQWKӵFP{KuQK VӱDOӛL 6DXÿҩ\ÿӃQ FKѭѫQJVӁ trình bày FKLWLӃWYӅFiFKWLӃSFұQÿiQKJLiYjEjQOXұQNӃWTXҧFӫDÿӅWjL &XӕLFQJW{LWәQJNӃWOҥLFiFYҩQÿӅWURQJTXiWUuQKWKӵFKLӋQÿӗQJWKӡLQrXUDFiFKѭӟQJSKiWWULӇQFӫDÿӅWjLWURQJWѭѫQJODL ӣFKѭѫQJ
Trang 177Ә1*48$1
2.1 Các công trình liên quan
9ӅYLӋFiSGөQJFiFNƭWKXұWWURQJ[ӱOêQJ{QQJӳWӵQKLrQ FKRNLӇPWUDYjVӱDOӛLFKtQKWҧWLӃQJ9LӋWWUѭӟFÿk\ÿmFyQKӳQJQJKLrQFӭXÿѭӧFFKӭQJPLQKEӣLFiFWiFJLҧFKX\rQQJKLӋSYjÿѭӧFWUtFKGүQGѭӟLÿk\QKѭ
x On the Use of Machine Translation-Based Approaches for Vietnamese Diacritic Restoration ± [1] Trong bài báo này, tác giҧ tiӃp cұQWKHRKѭӟng
sӱ dөng mô hình dӏch máy nhҵm khôi phөc lҥi dҩu phө cho tiӃng ViӋt Ý Wѭӣng chính cӫDSKѭѫQJSKiSQj\OjFRLYăQEҧn không dҩXQKѭQJ{QQJӳ nguӗQYjYăQEҧn có dҩXQKѭQJ{QQJӳ ÿtFKWURQJF{QJWKӭc dӏch máy.Tác giҧ Fy ÿӅ cұp và sӱ dөng mӝt mô hình sequence-to-sequence là sӵ kӃt hӧp cӫa hai mҥQJQѫ-ron hӗi quy (RNN ± Recurrent Neural Network).ViӋc hiӋn thӵc mô hình này mang tính hiӋu quҧ cao cho ӭng dөng sӱa lӛi chính tҧ tiӃng ViӋWWURQJWUѭӡng hӧp mҩt dҩu hoһc thiӃu dҩu, tuy nhiên sӁ không sӱDÿѭӧc nhӳng lӛi sai khác phӭc tҥSKѫQ
x Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics ±[2]
Bài báo này nêu bұt viӋc sӱa lӛi chính tҧ gӗm hai EѭӟFFKtQKEѭӟc phát hiӋn YjEѭӟc sӱa lӛi Ӣ Eѭӟc phát hiӋn lӛi, tác giҧ sӱ dөng mô hình truyӅn thӕng N-JUDPѬXÿLӇm cӫa mô hình này là không yêu cҫXSKkQÿRҥn tӯÿҥt hiӋu suҩt cao nӃu có khi tài liӋXÿѭӧc huҩn luyӋn hoàn chӍnh Hҥn chӃ cӫa nó là phө thuӝc vào mӭFÿӝ liên quan cӫa chӫ ÿӅ giӳa kho dӳ liӋu huҩn luyӋn và YăQEҧQÿҫu vào Ӣ Eѭӟc sӱa lӛi, nhóm tác giҧ có ÿӅ xuҩt sӱ dөng mӝt sӕ SKѭѫQJSKiSWURQJÿyFy³KLӋu chӍnh khoҧng cách tӕi thiӇu´minimum edit GLVWDQFH JL~S ÿѭD UD FiF Jӧi ý khi xӱ lý vӟi nhóm lӛL ÿѭӧF ÿӅ cұp Xuҩt phát vӟLêWѭӣQJWUrQW{LFNJQJÿmVӱ dөQJ³KLӋu chӍnh khoҧQJFiFK´WURQJÿӅ
Trang 18tài cӫD PuQK QKѭ Pӝt trong nhӳQJ SKѭѫQJ SKiS Eә trӧ trong viӋc sӱa lӛi chính tҧ tiӃng ViӋt
x A Vietnamese Language Model Based on Recurrent Neural Network -
[3] Bài báo này nghiên cӭu mô hình mҥQJQѫ-ron hӗi quy (RNN ± Recurrent Neural Network) cho tiӃng ViӃt, ӣ cҩSÿӝ ký tӵ và âm tiӃt Các thí nghiӋm ÿѭӧc thӵc hiӋn dӵa trên mӝt tұp dӳ liӋu lӟn gӗm 24 triӋu âm tiӃt và xây dӵng
tӯ 1.500 phө ÿӅ phim Bài báo cho thҩy kӃt quҧ ÿҥW ÿѭӧc hiӋu suҩt tӕW KѫQtrong viӋc sӱ dөng mô hình ngôn ngӳ dӵa trên mҥQJQѫ-ron hӗi quy so vӟi
mô hình ngôn ngӳ dӵa trên xác suҩt truyӅn thӕng Nhӳng cách tiӃp cұn trong bài báo này gӧi mӣ cho tôi nhiӅXêWѭӣQJKѫQWURQJYLӋc xӱ lý, giҧi quyӃt bài toán cӫa mình
2.2 7KiFKWKӭF FӫDEjLWRiQ
+LӋQWҥLWұSKuQKҧQKOѭXWUӳWӯEҧQTXpWWRjQEӝFXӕQWӯÿLӇQ7LӃQJ9LӋW+RjQJ3KrFyÿѭӧFWKuFKҩWOѭӧQJKuQKҧQKNK{QJÿѭӧFU}QpWYăQEҧQFy trang QJKLrQJOӋFKPӝWVӕFKӛ FKѭD WӕWFKӳ EӏPӡOHP NK{QJ U}UjQJ 7ӯ ÿy ҧQKKѭӣQJ ÿӃQ bѭӟFQKұQGLӋQNtWӵTXDQJKӑFWUrQFXӕQWӯÿLӇQnày và FKRUDFKҩWOѭӧQJYăQEҧQÿҫXUDFKѭDWӕWFzQJһSWѭѫQJÿӕLQKLӅXOӛL YtGөPӝWFkXFyWKӇVDLUҩWQKLӅXOӛLĈLӅXQj\GүQÿӃQYLӋFSKiWKLӋQOӛLJһSUҩWQKLӅXNKyNKăQ
Ngoài ra, cXӕQ Wӯ ÿLӇQ 7LӃQJ 9LӋW Hoàng Phê chӭD PӝW OѭӧQJ Wӯ YӵQJ UӝQJ OӟQNKӕLOѭӧQJQJӳOLӋXÿӗVӝKӋWKӕQJOêOXұQWӯÿLӇQKӑFÿ~FNӃWÿѭӧFJLӳDWtQKKjQOkPYjÿҥLFK~QJQKLӅXWӯÿӗQJkPÿDQJKƭDYjPDQJWtQKÿLӇQKuQKUҩWFDR nên ÿk\OjPӝWWKiFKWKӭFFKRYLӋF WuPÿѭӧFkho GӳOLӋXSKKӧS ÿӇKXҩQOX\ӋQYjVӱDOӛLYuPӭFÿӝOLrQTXDQFӫDFKӫÿӅJLӳDNKRGӳOLӋXKXҩQOX\ӋQYjWұSWӯÿLӇQVӕYăQEҧQÿҫXYjR OjNK{QJÿӫEDRTXiW
+ѭӟQJJLҧLTX\ӃW
7URQJ TXi WUuQK QJKLrQ FӭX Yj WKӵF KLӋQ ÿӅ WjL W{L VӁ WұS WUXQJ YjR YLӋF VӱD OӛLFKtQKWҧWUrQ YăQEҧQ VӕÿҫXUDVDXEѭӟFQKұQGҥQJNtWӵTXDQJKӑF thay vì WKӵF
Trang 19KLӋQÿӗQJWKӡLFҧ2 EѭӟFSKiWKLӋQOӛLFKtQKWҧUӗLVDXÿyVӱDOӛLFKtQKWҧ7{LVӁWKӵFKLӋQW{ÿӓQKӳQJOӛLVDLWUrQYăQ EҧQVӕÿҫXUDÿӇGiQKGҩXYӏWUtOӛL7LӃSÿӃQW{LVӁWLӃSFұQEҵQJFiFVӱGөQJP{KuQKQJ{QQJӳÿѭӧF[ӱOêӣPӭFNtWӵÿӇSKKӧS FKR EjL WRiQ Ngoài ra, tôi còn dùng các SKѭѫQJ SKiS Kӛ WUӧ QKҵP FKӑQ UDphѭѫQJ SKiS SK KӧS YӟL NӃW FҩX FӫD WӯQJ ORҥL Wӯ WURQJ FXӕQ Wӯ ÿLӇQ ÿӗQJ WKӡLÿiQKJLiNӃWTXҧÿӇFKӑQOӵDSKѭѫQJWKӭF ÿҥWKLӋXVXҩWVӱDOӛLWӕWQKҩW
Trang 20&Ѫ6Ӣ/é7+8<ӂ7
3.1 7әQJTXDQYӅ7HVVHUDFW
1KұQGҥQJNêWӵTXDQJKӑFWLӃQJ$QK2SWLFDO&KDUDFWHU5HFRJQLWLRQYLӃWWҳWOj2&5