1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Kết hợp học sâu và mô hình ngôn ngữ để nhận dạng chữ viết tiếng việt từ hình ảnh

75 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

&KX\rQQJjQK.+2$+Ӑ&0È<7Ë1+ 0mVӕ 8.48.01.01

/8Ұ19Ă17+Ҥ&6Ƭ

TP+Ӗ&+Ë0,1+WKiQJQăP

Trang 2

&Ð1*75Î1+ĈѬӦ&+2¬17+¬1+7Ҥ, 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ - Ĉ+4*- HCM

&iQEӝKѭӟQJGүQNKRDKӑF 3*67648Ҧ17+¬1+ 7+Ѫ &iQEӝFKҩPQKұQ[pW: GS.TS 3+$17+ӎ7ѬѪ,

&iQEӝFKҩPQKұQ[pW: PGS.TS 1*8<ӈ17+$1++,Ç1

/XұQYăQVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0ngày 22 WKiQJQăP

Thành phҫn Hӝi ÿӗng ÿinh giá luұn văn thҥc sƭ gӗm:

1 &KӫWӏFKKӝLÿӗQJ 3*676'ѬѪ1*78Ҩ1$1+ 2 7KѭNêKӝLÿӗQJ 761*8<ӈ17,ӂ17+ӎ1+ 3 Ӫ\YLrQSKҧQELӋQ *6763+$17+ӎ7ѬѪ,

4 Ӫ\YLrQSKҧQELӋQ 3*6761*8<ӈ17+$1++,Ç1 5 Ӫ\YLrQKӝLÿӗQJ 761*8<ӈ1+Ӗ0Ү15Ҥ1*

;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQQJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳD QӃXFy

&+Ӫ7ӎ&++Ӝ,ĈӖ1* 75ѬӢ1*.+2$ KHMT

3*676'ѬѪ1*78Ҩ1$1+

Trang 3

ĈҤ,+Ӑ&48Ӕ&*,$73+&0

75ѬӠ1*ĈҤ,+Ӑ&%È&+KHOA

&Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0

ĈӝFOұS- 7ӵGR- +ҥQKSK~F

II 1+,ӊ09Ө9¬1Ӝ,'81* 1JKLrQFӭXNӻWKXұWKӑFVkXYjP{KuQKQJ{n

QJӳÿӇÿӅ[XҩWP{KuQKVӱDOӛLFKtQKWҧPӝWFiFKKLӋXTXҧFKRFKӳYLӃWWLӃQJ9LӋWӬQJGөQJYjRWKӵFQJKLӋPFKRYLӋFVӱDOӛLFKtQKWҧWUrQFXӕQWӯÿLӇQWLӃQJ9LӋWYjÿiQKJLiKLӋXTXҧFӫDP{KuQKÿӅ[XҩW

Trang 4

/Ӡ,&È0Ѫ1

ĈӇKRjQWKjQKÿѭӧFÿӅWjLOXұQYăQWKҥFVƭQj\W{L[LQEj\WӓVӵFҧPNtFKÿһFELӋWFNJQJQKѭOӡLFҧPѫQFKkQWKjQKÿӃQQJѭӡLWKҫ\FӫDW{L3*6764XҧQ7KjQK7KѫQJѭӡL ÿm ÿӏQK KѭӟQJ WUӵF WLӃS dìu GҳW Yj WұQ WuQK FKӍ EҧR FKR W{L WURQJ VXӕW quá WUuQKWKӵFKLӋQXin chân thành cҧPѫQQKӳQJEjLJLҧQJQKӳQJEXәLWKҧROXұQYӅWѭ GX\Yj SKѭѫQJSKiS WKӵF KLӋQÿm giúp tôi Fy ÿѭӧFWKrPQKLӅXNLӃQWKӭF TXêJLiWURQJYLӋFKRjQWKjQKWӕWOXұQYăQQj\ĈӗQJWKӡLWKҫ\FNJQJOjQJѭӡLOX{QFKRW{L NK{QJFKӍ QKӳQJOӡLNKX\rQY{FQJTXêJLiYӅ NLӃQWKӭFFKX\rQP{QPjFzQOjVӵWұQWkPWURQJTXiWUuQKJLҧQJGҥ\ 0ӝWOҫQQӳDW{L[LQJӱLOӡLFҧPѫQÿӃQWKҫ\EҵQJWҩWFҧWҩPOzQJYjVӵELӃWѫQFӫDPuQK

Tôi FNJQJ [LQ FKkQ WKjQK FҧP ѫQ TXê 7Kҫ\ &{ ӣ KRD KRD +ӑF 0i\ 7tQK ± 7UѭӡQJĈҥL+ӑF%iFK.KRD73+&0ÿmFQJYӟLWULWKӭFYjWkPKX\ӃWFӫDPuQKÿӇWUX\ӅQÿҥWNLӃQWKӭF quý báu FKRQKӳQJKӑFYLrQFDRKӑFQKѭW{LWURQJVXӕWWKӡLJLDQKӑFWұSYjQJKLrQFӭX

Sau cùng, tôi xin FҧPѫQJLDÿuQKDQKFKӏEҥQEqFiFEҥQKӑFYLrQQKӳQJQJѭӡLÿmJL~SÿӥKӛWUӧW{LFNJQJQKѭJySêFKRW{LTXiWUuQKWKӵFKLӋQYjKRjQWKjQKÿӅWjLOXұQYăQWKҥFVƭQj\

Trang 5

7Ï07Ҳ7/8Ұ19Ă17+Ҥ&6Ƭ

Ngày nay các loҥLViFKEiRWѭOLӋu cҫQÿѭӧFOѭXWUӳ Gѭӟi dҥQJYăQEҧn sӕ rҩt phә biӃn Qua thӡi gian thì chҩWOѭӧQJYăQEҧn in giҩy sӁ NpPÿLQKѭQJYăQEҧn sӕ vүn không bӏ hӓng ViӋc khôi phөc lҥi nhӳQJWK{QJWLQÿѭӧFOѭXWUӳ Gѭӟi dҥng hình ҧnh, ÿLӇn hình tӯ cuӕn tӯ ÿLӇn TiӃng ViӋWPDQJÿӃn tҫPTXDQWURQJÿӕi vӟi tiӃng ViӋt khi có thӇ OѭXJLӳ và bҧo tӗQFK~QJGѭӟi dҥQJYăQEҧn sӕ Tuy nhiên viӋc chuyӇn ÿәi này không phҧLO~FQjRFNJQJOX{QPDQJÿӃn sӵ chính xác tuyӋWÿӕi, ÿLӅXÿyGүn ÿӃn xuҩt hiӋn nhӳng lӛi sai chính tҧ WURQJYăQEҧn sӕ làm cho kӃt quҧ NK{QJÿҥWQKѭmong muӕn

MөFÿtFKFӫa nghiên cӭu này là thӵc hiӋn hұu xӱ lý cho quá trình trên nhҵm cҧi tiӃn chҩWOѭӧQJFKRYăQEҧn sӕ ÿҫu ra tӯ Eѭӟc chuyӇQÿәi Trong phҥm vi cӫa luұn án, tôi thӵc hiӋn các cách tiӃp cұn sau :

x Thӵc hiӋn chuyӇQÿәi thông tin tӯ hình ҧQKVDQJYăQEҧn sӕ GѭӟLÿӏnh dҥng phù hӧp gӗm mөc tӯ và thân tӯ QKѭFXӕn tӯ ÿLӇn gӕc

x Xây dӵng bӝ sӱa lӛi dӵa trên mô hình ngôn ngӳ mӭc kí tӵ nhҵm sӱa lӛi chính tҧ cho tiӃng ViӋt Mӣ rӝng thêm vӟi nhӳQJ SKѭѫQJ WKӭc nhҵm WăQJFѭӡng khҧ QăQJVӱa lӛi cho mô hình

x ĈӅ xuҩt chiӃQOѭӧc cho mô hình ngôn ngӳ trong viӋFÿiQKJLá kí tӵ nguyên âm trên lӛi sai nhҵm phù hӧp vӟi thӵc tӃ bài toán Bên cҥQKÿyGQJFiFNƭthuұt nghiӋPVX\ KHXULVWLF ÿӇ bә trӧ cho viӋc sӱa lӛi nhҵPÿHPOҥi kӃt quҧ tӕt nhҩt

.ӃWTXҧWKӵFQJKLӋPFKRWKҩ\P{KuQKÿӅ[XҩWPDQJWtQKӭQJGөQJFDRNKLJL~SFҧLWKLӋQFKҩWOѭӧQJFKR NӃWTXҧ WKXÿѭӧFWӯYLӋF FKX\ӇQ ÿәLKuQKҧQKVDQJYăQEҧQWUrQFXӕQWӯÿLӇQ7LӃQJ9LӋW 6DXFQJOXұQYăQÿѭDUDKѭӟQJPӣUӝQJFKRÿӅWjLNKLFyWKӇSKiWWULӇQP{KuQKQj\QKҵP ÿҥWNӃWTXҧWӕWKѫQKRһFVӱGөQJYjRQKӳQJQJKLrQFӭXNKiFOLrQTXDQÿӃQVӱDOӛLFKtQKWҧWLӃQJ9LӋW

Trang 6

ABSTRACT

Nowadays, many types of books, newspapers and documents that need to be archived in digital documents are very popular Over time the quality of printed documents will deteriorate, but digital documents will not deteriorate Recovering information stored in images, typically from a Vietnamese dictionary, brings importance to Vietnamese as it is possible to store and preserve them in digital text format However, this conversion does not always bring absolute accuracy, which leads to misspellings in digital documents, which make the results not as expected The purpose of this study is to do post-processing stage for the above process to improve the quality of digital text output from the conversion step In the scope of the thesis, I take the following approaches:

x Convert information from images to digital text in a suitable format including entries and word bodies like the original dictionary

x Building a character-based language model to correct spelling mistakes for Vietnamese Extend with methods to increase perfomance for the model x Proposing a strategy for language model in evaluating vowel characters in

error in order to match the reality of the problem Besides, using heuristic techniques to complement the error correction to bring the best results

The experimental results show that the proposed model is highly applicable when it helps to improve the quality of the results obtained from converting images into text in Vietnamese dictionary Finally, the thesis gives an extension to the topic when it is possible to develop this model to get better results or use it in other studies related to correct Vietnamese spelling errors

Trang 7

/Ӡ,&$0Ĉ2$1

7{L[LQFDPÿRDQOXұQYăQYӅÿӅWjL³.ӃWKӧSKӑFVkXYjP{KuQKQJ{QQJӳÿӇQKұQGҥQJFKӳYLӃWWLӃQJ9LӋWWӯKuQKҧQK´OjF{QJWUuQKQJKLrQFӭXFiQKkQFӫDW{LWURQJWKӡLJLDQTXD0ӑLVӕOLӋXVӱGөQJSKkQWtFKWURQJOXұQYăQYjNӃWTXҧQJKLrQFӭXOjdo tôLWӵWuPKLӇXSKkQWtFKPӝWFiFKNKiFKTXDQWUXQJWKӵFFyQJXӗQJӕFU}UjQJYj FKѭD ÿѭӧF F{QJ Eӕ GѭӟL EҩW NǤ KuQK WKӭF QjR 7{L [LQ FKӏX KRjQ WRjQ WUiFKQKLӋPQӃXFyVӵNK{QJWUXQJWKӵFWURQJWK{QJWLQVӱGөQJWURQJF{QJWUuQKQJKLrQFӭXQj\

1JѭӡLFDP ÿRDQ

1JX\ӉQĈuQK'X\

Trang 11

+uQK.ӃWTXҧVӱDOӛLEӣLNӃWKӧp hai mô hình Left-to-Right và Right-to-Left 39

Trang 12

%ҧQJ%ҧQJWKӕQJNrNӃWTXҧFKLWLӃWWUrQOӛLWKkQWӯNK{QJ[pWOӛL/ӟS 57

%ҧQJ%ҧQJWKӕQJNrNӃWTXҧFKLWLӃWFKRWRiQWӱ7KD\WKӃWUrQOӛLWKkQWӯ 58

%ҧQJ%ҧQJWKӕQJNrNӃWTXҧORҥLOӛLKӧSQKҩW 58

Trang 13

0ӢĈҪ8 1.1 *LӟLWKLӋX ÿӅWjL

Ngày nay các loҥLViFKEiRWѭOLӋu cҫQÿѭӧFOѭXWUӳ Gѭӟi dҥQJYăQEҧn sӕ rҩt phә biӃQ 9ăQ Eҧn sӕ Fy ѭX ÿLӇP QKѭ Fұp nhұt, sӱa chӳD FNJQJ QKѭ WUDR ÿәi nhanh chóng KѫQ VR YӟL YăQ Eҧn in giҩy truyӅn thӕng Mһt khác, qua thӡi gian thì chҩt OѭӧQJYăQEҧn in giҩy sӁ NpPÿLQKѭQJYăQEҧn sӕ vүn không bӏ hӓng Tӯ ÿyQҧy sinh vҩQ ÿӅ OjP FiFK QjR ÿӇ khôi phөc lҥi nhӳng thông tin cӫa sách báo Wѭ OLӋu Gѭӟi dҥQJYăQEҧn sӕ ÿӇ có thӇ tái bҧQĈk\OjPӝt nhiӋm vө thӵc tӃ trong nhiӅu OƭQKYӵc, chҷng hҥQQKѭWURQJFiFWKѭYLӋn và nhà xuҩt bҧn

Có mӝt sӕ FiFKNKiFQKDXÿӇ giҧi quyӃt bài toán chuyӇQÿәi trên Mӝt biӋn pháp dӉ thӵc hiӋn nhҩt là nhұp lҥi nӝi dung cӫDYăQEҧn thông qua bàn phím Mһc dù vұy, ÿk\OjPӝt công viӋc thӫ công trong thao tác chӃ bҧn nên nӃu sӕ OѭӧQJYăQEҧn là quá lӟn và mҩt nhiӅu thӡi gian sӁ dүn tӟi nhiӅu sai sót Giҧi pháp khác là tҥo ra mӝt FKѭѫQJWUuQKQKұn dҥQJYăQEҧn tӵ ÿӝQJ7KHRKѭӟng này, tӯ ÿLӇn, sách, báo« ÿѭӧFPi\TXpWOѭXWUӳ Gѭӟi dҥng ҧnh sӕFKѭѫQJWUuQKFyFKӭFQăQJQKұn dҥng ký tӵ, tӯ ÿyFKX\ӇQÿәLWKjQKYăQEҧn sӕ Tuy nhiên viӋc chuyӇQÿәi này không phҧi O~FQjRFNJQJOX{QPDQJÿӃn sӵ FKtQK[iFÿLӅXÿyGүQÿӃn xuҩt hiӋn nhӳng lӛi sai chính tҧ WURQJYăQEҧn sӕ làm cho kӃt quҧ NK{QJÿҥWQKѭPRQJPXӕn Vì vұy viӋc thӵc hiӋn hұu xӱ lý (post-processing) cho quá trình trên là mӝt công viӋc quan trӑng và cҫn thiӃWÿӇ cҧi tiӃn chҩWOѭӧng FKRYăQEҧn sӕ ÿҫu ra tӯ Eѭӟc chuyӇQÿәi Nhұn thҩy viӋc ӭng dөng công viӋc trên cho mӝt bӝ tӯ ÿLӇn tiӃng ViӋt là mӝt chӫ ÿӅ

ÿiQJÿѭӧc quan tâm, qua tìm hiӇu và nghiên cӭu tôi xin thӵc hiӋQÿӅ tài : KӃt hӧp hӑc sâu và mô hình ngôn ngӳ ÿӇ nhұn dҥng chӳ viӃt tiӃng ViӋt tӯ hình ҧnh ĈӅ

WjL Qj\ sӁ WuP KLӇX WәQJ TXDQ FiFK WLӃS FұQ GӵD WUrQ FiF Nƭ WKXұt +ӑF Sâu (Deep Learning) ÿӇ JLҧL EjL WRiQ 7URQJ ÿy bên cҥnh NKҧ QăQJ iS GөQJ F{QJ QJKӋ nhұn dҥng ký tӵ quang hӑc (OCR ± Optical Character Recognition) giúp chuyӇQÿәi chӳ

Trang 14

viӃW YăQ Eҧn sӕ tӯ hình ҧnh, WKu Eѭӟc WuP KLӇX FiF SKѭѫQJ SKiS [ӱ Oê QJ{Q QJӳWLӃQJ9LӋWYjVӱ dөng mô hình ngôn ngӳ ÿӇ sӱa lӛi chính tҧ là phҫn công viӋc chính yӃu cҫQ KѭӟQJ ÿӃn 7ӯ ÿy ÿѭD UD FiFK WLӃS FұQ [k\ GӵQJ FKLӃQ OѭӧF SK KӧS ӣ công viӋc hұu xӱ lý nhҵm giúp giҧPÿӝ lӛi cӫDTXiWUuQK2&5EDQÿҫu

1.2 0өFWLrX YjSKҥPYLÿӅWjL

0өFtiêu

0өFWLrXFӫDÿӅWjLQj\OjWuPKLӇXSKѭѫQJWKӭFWUtFK[XҩWWK{QJWLQWӯKuQKҧQKÿӇVLQK UD Nê Wӵ YăQ EҧQ Vӕ WK{QJ TXD YLӋF QKұQ GҥQJ Nê Wӵ TXDQJ KӑF 2&5  FKRWLӃQJ9LӋW ӢEѭӟFVDXWUtFK[XҩWÿӅ[XҩWFiFNӻWKXұWPӟLWURQJ;ӱ/ê1J{Q1Jӳ7ӵ 1KLrQ 1/3  YjR 7LӃQJ 9LӋW Yj KXҩQ OX\ӋQ P{ KuQK QJ{Q QJӳ ÿӇ VӱD VDL OӛLFKtQKWҧÿRҥQYăQEҧQÿѭӧFVLQKUD6DXFQJWKӵFKLӋQYLӋFVRViQKNӃWTXҧӣ EѭӟFWUtFK[XҩWWK{QJWLQYăQEҧQWӯKuQKҧQKYjNӃWTXҧVDXNKLTXDP{KuQKVӱDOӛLÿӇiSGөQJP{KuQKÿҥWKLӋXTXҧQKҩW

7әQJTXiWOҥLPөFWLrXFӫDÿӅWjLEDRJӗP

x ĈӅ[XҩWYjKXҩQOX\ӋQP{KuQKVӱDOӛLFKREѭӟFKұX[ӱOê

x 7KӵFKLӋQFiFWKӱQJKLӋPYjVRViQKNӃWTXҧWUѭӟFYjVDXNKLTXDP{KuQKVӱDOӛL

Trang 15

x ÈSGөQJP{KuQKNӃWKӧSYӟLQKӳQJSKѭѫQJWKӭFKӛWUӧ ÿӇVӱDOӛLFKtQKWҧ FKRQKӳQJÿӏQKGҥQJSKKӧS SRViQKNӃWTXҧFNJQJQKѭOӵDFKӑQP{KuQKSKKӧSgiúp ÿHPOҥLNӃWTXҧWӕWQKҩWFKREjLWRiQ

3KҫQ FKtQK FӫD OXұQ YăQ Qj\ VӁ WұS WUXQJ YjR P{ KuQK VӱD OӛL FiF SKѭѫQJ SKiSJL~SWăQJFѭӡQJKLӋXVXҩWFӫDP{KuQKVӱDOӛL 'RÿyOXұQYăQVӁNK{QJWұSWUXQJQKLӅXYӅYLӋFiSGөQJFiFNƭWKXұWÿӇFҧLWKLӋQÿӝFKtQK[iFӣEѭӟFQKұQGҥQJNtWӵTXDQJKӑF2&5FNJQJQKѭSKѭѫQJWKӭFJL~SSKiWKLӋQOӛLWURQJYăQEҧQÿѭӧFVLQKra

1.3 7tQKӭQJGөQJFӫDÿӅWjL

ĈӅWjLQj\JL~SEҧQWKkQW{LFӫQJFӕ ÿѭӧFNLӃQWKӭFNKRDKӑFWURQJYLӋFQJKLrQFӭXYӅ;ӱ/ê1J{Q1Jӳ7ӵ1KLrQEҵQJNƭWKXұW+ӑF6kX 7K{QJTXDÿyW{LFyWKӇӭQJGөQJÿѭӧFFiFSKѭѫQJSKiS³VWDWHRIWKHDUW´- WKӏQKKjQKQKҩW- YjRP{KuQKÿӇ[ӱOêFKRQJ{QQJӳFөWKӇOjWLӃQJ9LӋW JL~SPDQJWtQKӭQJGөQJYjRWKӵFWLӉQ 9ӟLYLӋFQJKLrQFӭXYj[ӱOêWUӵFWLӃS WUrQFXӕQ7ӯĈLӇQ7LӃQJ9LӋW 1Kj[XҩWEҧQĈj1ҹQJQăPHoàng Phê FKӫELrQ W{LÿmFyWKӇWKӵFKLӋQPӝWÿӅWjLYӟLWtQKӭQJGөQJFDRJL~SFҧLWKLӋQ FKҩWOѭӧQJFKRFXӕQWӯÿLӇQVӕÿҫXUDVDX EѭӟFFKX\ӇQ ÿәLÿLӅXÿyJySSKҫQOѭXJLӳYjEҧRWӗQYăQEҧQVӕFKRWӯQJӳWLӃQJ9LӋWWK{QJTXDFXӕQWӯÿLӇQQj\ 1JRjLUDYLӋFWKӵFKLӋQ m{KuQKVӱDOӛLQj\FyWtQKWәQJTXiWFDRvà FyWKӇÿѭӧFGQJOҥLFKRFiFQJKLrQ FӭXOLrQTXDQYӅ[ӱOêQJ{QQJӳWLӃQJ9LӋWsau này

Hình 1.17UDQJEuDFXӕQ7ӯÿLӇQ7LӃQJ9LӋW± +RjQJ3KrFKӫELrQ

Trang 16

&ҩXWU~FOXұQYăQ

1KӳQJQӝLGXQJFKLWLӃWKѫQWURQJTXiWUuQKWKӵFKLӋQÿӅWjLVӁÿѭӧFWUuQKEj\WURQJFiF FKѭѫQJWLӃSWKHR 7UѭӟFWLrQFác công trình QJKLrQFӭXOLrQ TXDQ ÿѭӧFWUuQKEj\ӣFKѭѫQJ7LӃS ÿӃQ trong FKѭѫQJVӁÿӅFұSÿӃQWәQJTXDQYӅEѭӟFQKұQGҥQJNtWӵTXDQJKӑFQKѭWKѭYLӋQYjF{QJFөVӱGөQJErQFҥQKÿyOjtrình bày YӅFѫVӣOêWKX\ӃWFӫDKӑFVkXYjP{KuQKQJ{QJӳӢFKѭѫQJW{LVӁÿLVkX YӅYLӋF[k\GӵQJYjKLӋQWKӵFP{KuQK VӱDOӛL 6DXÿҩ\ÿӃQ FKѭѫQJVӁ trình bày FKLWLӃWYӅFiFKWLӃSFұQÿiQKJLiYjEjQOXұQNӃWTXҧFӫDÿӅWjL &XӕLFQJW{LWәQJNӃWOҥLFiFYҩQÿӅWURQJTXiWUuQKWKӵFKLӋQÿӗQJWKӡLQrXUDFiFKѭӟQJSKiWWULӇQFӫDÿӅWjLWURQJWѭѫQJODL ӣFKѭѫQJ

Trang 17

7Ә1*48$1

2.1 Các công trình liên quan

9ӅYLӋFiSGөQJFiFNƭWKXұWWURQJ[ӱOêQJ{QQJӳWӵQKLrQ FKRNLӇPWUDYjVӱDOӛLFKtQKWҧWLӃQJ9LӋWWUѭӟFÿk\ÿmFyQKӳQJQJKLrQFӭXÿѭӧFFKӭQJPLQKEӣLFiFWiFJLҧFKX\rQQJKLӋSYjÿѭӧFWUtFKGүQGѭӟLÿk\QKѭ

x On the Use of Machine Translation-Based Approaches for Vietnamese Diacritic Restoration ± [1] Trong bài báo này, tác giҧ tiӃp cұQWKHRKѭӟng

sӱ dөng mô hình dӏch máy nhҵm khôi phөc lҥi dҩu phө cho tiӃng ViӋt Ý Wѭӣng chính cӫDSKѭѫQJSKiSQj\OjFRLYăQEҧn không dҩXQKѭQJ{QQJӳ nguӗQYjYăQEҧn có dҩXQKѭQJ{QQJӳ ÿtFKWURQJF{QJWKӭc dӏch máy.Tác giҧ Fy ÿӅ cұp và sӱ dөng mӝt mô hình sequence-to-sequence là sӵ kӃt hӧp cӫa hai mҥQJQѫ-ron hӗi quy (RNN ± Recurrent Neural Network).ViӋc hiӋn thӵc mô hình này mang tính hiӋu quҧ cao cho ӭng dөng sӱa lӛi chính tҧ tiӃng ViӋWWURQJWUѭӡng hӧp mҩt dҩu hoһc thiӃu dҩu, tuy nhiên sӁ không sӱDÿѭӧc nhӳng lӛi sai khác phӭc tҥSKѫQ

x Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics ±[2]

Bài báo này nêu bұt viӋc sӱa lӛi chính tҧ gӗm hai EѭӟFFKtQKEѭӟc phát hiӋn YjEѭӟc sӱa lӛi Ӣ Eѭӟc phát hiӋn lӛi, tác giҧ sӱ dөng mô hình truyӅn thӕng N-JUDPѬXÿLӇm cӫa mô hình này là không yêu cҫXSKkQÿRҥn tӯÿҥt hiӋu suҩt cao nӃu có khi tài liӋXÿѭӧc huҩn luyӋn hoàn chӍnh Hҥn chӃ cӫa nó là phө thuӝc vào mӭFÿӝ liên quan cӫa chӫ ÿӅ giӳa kho dӳ liӋu huҩn luyӋn và YăQEҧQÿҫu vào Ӣ Eѭӟc sӱa lӛi, nhóm tác giҧ có ÿӅ xuҩt sӱ dөng mӝt sӕ SKѭѫQJSKiSWURQJÿyFy³KLӋu chӍnh khoҧng cách tӕi thiӇu´ minimum edit GLVWDQFH  JL~S ÿѭD UD FiF Jӧi ý khi xӱ lý vӟi nhóm lӛL ÿѭӧF ÿӅ cұp Xuҩt phát vӟLêWѭӣQJWUrQW{LFNJQJÿmVӱ dөQJ³KLӋu chӍnh khoҧQJFiFK´WURQJÿӅ

Trang 18

tài cӫD PuQK QKѭ Pӝt trong nhӳQJ SKѭѫQJ SKiS Eә trӧ trong viӋc sӱa lӛi chính tҧ tiӃng ViӋt

x A Vietnamese Language Model Based on Recurrent Neural Network -

[3] Bài báo này nghiên cӭu mô hình mҥQJQѫ-ron hӗi quy (RNN ± Recurrent Neural Network) cho tiӃng ViӃt, ӣ cҩSÿӝ ký tӵ và âm tiӃt Các thí nghiӋm ÿѭӧc thӵc hiӋn dӵa trên mӝt tұp dӳ liӋu lӟn gӗm 24 triӋu âm tiӃt và xây dӵng tӯ 1.500 phө ÿӅ phim Bài báo cho thҩy kӃt quҧ ÿҥW ÿѭӧc hiӋu suҩt tӕW KѫQtrong viӋc sӱ dөng mô hình ngôn ngӳ dӵa trên mҥQJQѫ-ron hӗi quy so vӟi mô hình ngôn ngӳ dӵa trên xác suҩt truyӅn thӕng Nhӳng cách tiӃp cұn trong bài báo này gӧi mӣ cho tôi nhiӅXêWѭӣQJKѫQWURQJYLӋc xӱ lý, giҧi quyӃt bài toán cӫa mình

2.2 7KiFKWKӭF FӫDEjLWRiQ

+LӋQWҥLWұSKuQKҧQKOѭXWUӳWӯEҧQTXpWWRjQEӝFXӕQWӯÿLӇQ7LӃQJ9LӋW+RjQJ3KrFyÿѭӧFWKuFKҩWOѭӧQJKuQKҧQKNK{QJÿѭӧFU}QpWYăQEҧQFy trang QJKLrQJOӋFKPӝWVӕFKӛ FKѭD WӕWFKӳ EӏPӡOHP NK{QJ U}UjQJ 7ӯ ÿy ҧQKKѭӣQJ ÿӃQ bѭӟFQKұQGLӋQNtWӵTXDQJKӑFWUrQFXӕQWӯÿLӇQnày và FKRUDFKҩWOѭӧQJYăQEҧQÿҫXUDFKѭDWӕWFzQJһSWѭѫQJÿӕLQKLӅXOӛL YtGөPӝWFkXFyWKӇVDLUҩWQKLӅXOӛLĈLӅXQj\GүQÿӃQYLӋFSKiWKLӋQOӛLJһSUҩWQKLӅXNKyNKăQ

Ngoài ra, cXӕQ Wӯ ÿLӇQ 7LӃQJ 9LӋW Hoàng Phê chӭD PӝW OѭӧQJ Wӯ YӵQJ UӝQJ OӟQNKӕLOѭӧQJQJӳOLӋXÿӗVӝKӋWKӕQJOêOXұQWӯÿLӇQKӑFÿ~FNӃWÿѭӧFJLӳDWtQKKjQOkPYjÿҥLFK~QJQKLӅXWӯÿӗQJkPÿDQJKƭDYjPDQJWtQKÿLӇQKuQKUҩWFDR nên ÿk\OjPӝWWKiFKWKӭFFKRYLӋF WuPÿѭӧFkho GӳOLӋXSKKӧS ÿӇKXҩQOX\ӋQYjVӱDOӛLYuPӭFÿӝOLrQTXDQFӫDFKӫÿӅJLӳDNKRGӳOLӋXKXҩQOX\ӋQYjWұSWӯÿLӇQVӕ YăQEҧQÿҫXYjR OjNK{QJÿӫEDRTXiW

+ѭӟQJJLҧLTX\ӃW

7URQJ TXi WUuQK QJKLrQ FӭX Yj WKӵF KLӋQ ÿӅ WjL W{L VӁ WұS WUXQJ YjR YLӋF VӱD OӛLFKtQKWҧWUrQ YăQEҧQ VӕÿҫXUDVDXEѭӟFQKұQGҥQJNtWӵTXDQJKӑF thay vì WKӵF

Trang 19

KLӋQÿӗQJWKӡLFҧ2 EѭӟFSKiWKLӋQOӛLFKtQKWҧUӗLVDXÿyVӱDOӛLFKtQKWҧ7{LVӁWKӵFKLӋQW{ÿӓQKӳQJOӛLVDLWUrQYăQ EҧQVӕÿҫXUDÿӇGiQKGҩXYӏWUtOӛL7LӃSÿӃQW{LVӁWLӃSFұQEҵQJFiFVӱGөQJP{KuQKQJ{QQJӳÿѭӧF[ӱOêӣPӭFNtWӵÿӇSKKӧS FKR EjL WRiQ Ngoài ra, tôi còn dùng các SKѭѫQJ SKiS Kӛ WUӧ QKҵP FKӑQ UDphѭѫQJ SKiS SK KӧS YӟL NӃW FҩX FӫD WӯQJ ORҥL Wӯ WURQJ FXӕQ Wӯ ÿLӇQ ÿӗQJ WKӡLÿiQKJLiNӃWTXҧÿӇFKӑQOӵDSKѭѫQJWKӭF ÿҥWKLӋXVXҩWVӱDOӛLWӕWQKҩW

Trang 20

&Ѫ6Ӣ/é7+8<ӂ7 3.1 7әQJTXDQYӅ7HVVHUDFW

1KұQGҥQJNêWӵTXDQJKӑF WLӃQJ$QK2SWLFDO&KDUDFWHU5HFRJQLWLRQYLӃWWҳWOj2&5 OjORҥLSKҫQPӅPPi\WtQKÿѭӧFWҥRUDÿӇFKX\ӇQFiFKuQKҧQKFӫDFKӳYLӃWWD\KRһFFKӳÿiQKPi\ WKѭӡQJÿѭӧFTXpWEҵQJPi\VFDQQHU WKjQKFiFYăQEҧQWjLOLӋX [4]2&5ÿѭӧFKuQKWKjQKWӯPӝWOƭQKYӵFQJKLrQFӭXYӅQKұQGҥQJPүXWUtWXӋQKkQWҥRYjWKӏJLiFPi\WtQK1KӳQJFKXӛLGӳOLӋXÿѭӧFVLQKUDWӯYLӋFQKұQGҥQJNêWӵTXDQJKӑFFyWKӇÿѭӧFVӱGөQJFKRQKLӅXYLӋFPӝWVӕYtGөJL~SVӕKyDFiFWjLOLӋXFNJ GӏFKVDQJ FiF QJ{QQJӳNKiF KRһF ÿӇ NLӇPWUD Yj [iF PLQKYӏWUtYăQEҧQ0һFGF{QJYLӋFQJKLrQFӭXKӑFWKXұWYүQWLӃSWөFPӝWSKҫQF{QJYLӋFFӫD2&5ÿmFKX\ӇQVDQJӭQJGөQJWURQJWKӵFWӃYӟLFiFNӻWKXұWYjSKҫQPӅPÿmÿѭӧFFKӭQJPLQK %ҩWFӭQѫLQjR Fy WKӇWuP WKҩ\YăQ EҧQ 2&5Fy WKӇÿѭӧFiS GөQJ0ӝWYtGөYӅ2&5QKѭKuQKGѭӟL

Hình 3.12&5WUrQPӝWWӡJLҩ\FNJYjFKX\ӇQÿәLVDQJYăQEҧQVӕ

2&5OjPӝWTX\WUuQKWKѭӡQJEDRJӗPPӝWVӕTX\WUuQKSKөÿӇWKӵFKLӋQFKtQK[iFQKҩWFyWKӇ [5]&iFTX\WUuQKSKөWKѭӡQJEDRJӗP

x 7LӅQ[ӱOêKuQKҧQK x &өFEӝKyDYăQEҧQ x 3KkQÿRҥQNêWӵ

Trang 21

x 1KұQGҥQJNêWӵ x +ұX[ӱOê

7ҩWQKLrQFiFTX\WUuQKSKөWURQJGDQKViFKWUrQFyWKӇNKiFQKDXQKѭQJÿk\OjQKӳQJ EѭӟF JҫQ QKѭ FҫQ WKLӃW ÿӇ WLӃS FұQ QKұQ GҥQJ Nê Wӵ Wӵ ÿӝQJ 7URQJ SKҫQPӅP2&5PөFÿtFKFKtQKOj[iFÿӏQKYjQҳPEҳWWҩWFҧFiFWӯGX\QKҩWEҵQJFiFQJ{QQJӳNKiFQKDXWӯFiFNêWӵYăQEҧQYLӃW

7URQJJҫQKDLWKұSNӹKӋWKӕQJQKұQGҥQJNêWӵTXDQJKӑFÿmÿѭӧFVӱGөQJUӝQJUmL ÿӇ FXQJFҩS WtQKQăQJ QKұSYăQEҧQWӵÿӝQJYjRFiF KӋ WKӕQJ Pi\ WtQK7X\QKLrQWURQJVXӕWWKӡLJLDQTXDFiFKӋWKӕQJ2&5WK{QJWKѭӡQJFKѭDEDRJLӡYѭӧWTXDÿѭӧFNKҧQăQJÿӑFQKLӅXKѫQPӝWVӕORҥLSK{QJFKӳYjÿӏQKGҥQJWUDQJ/RҥLFyNKRҧQJFiFKWKHRWӹOӋ EDRJӗPKҫXQKѭWҩW FҧFiFEҧQVDREӝVҳSFKӳ

Ngày đăng: 03/08/2024, 13:17

w