Thӵc nghiӋPÿѭӧc tiӃQKjQKWKHREѭӟFVDXÿk\
x %ѭӟc 1: Thu thұp dӳ liӋu tӯ mӝt sӕ hӋ thӕng hӓLÿiSGLӉQÿjQWLQKӑc, mөc hӓLÿiS cӫa trang luұW'ѭѫQJJLD«phân tích và tiӅn xӱ lí dӳ liӋu (loҥi bӓ tӯ dӯng, tӯ xuҩt
hiӋn quá nhiӅu hoһc quá ít).
x %ѭӟc 2: Sӱ dөng cơng cө -YQ7H[WSURÿӇ tách tӯ và gán nhãn tӯ loҥi và gán nhãn thӵc thӇ 6DX ÿy WLӃn hành kiӇm tra và gán lҥi nhãn thӫ cơng cho nhӳQJ WUѭӡng hӧp sai nhҵPWăQJÿӝ chính xác khi huҩn luyӋn mơ hình.
x %ѭӟc 3: Sӱ dөng bӝ cơng cө Standford CoreNLP tiӃn hành trích xuҩt các quan hӋ phө thuӝc và huҩn luyӋn mơ hình CRFs dӵa trên dӳ liӋXÿmÿѭӧc gán nhãn và các thuӝc
tính trích xuҩWÿѭӧFWѭѫQJӭng vӟi pha huҩn luyӋQP{KuQKQKѭÿmWUuQKEj\ӣ trên) x %ѭӟc 4: Áp dөng mơ hình hӑc suӕWÿӡi và tiӃQKjQKÿiQKJLiWKӵc nghiӋm trên miӅn
ܦvӟi các kӏch bҧn sau:
MiӅn Sӕ câu Pháp luұt 144 câu
Kinh tӃ 124 câu Cơng nghӋ thơng tin 147 câu Giáo dөc 80 câu Xã hӝi 98 câu
29
ĈiQKJLiQӝi miӅn: Thӵc hiӋn thӵc nghiӋm trên 6 miӅn và chia dӳ liӋu cӫa các miӅn thành 2 phҫn: 50% dӳ liӋu huҩn luyӋn và 50% dӳ liӋu kiӇm tra.
ĈiQKJLiFKpRPLӅn: Thӵc hiӋQÿiQKJLiFKpRPLӅn vӟi 3 kӏch bҧn sau ÿk\ Dӳ liӋu kiӇm tra là ܦvà dӳ liӋu huҩn luyӋn là dӳ liӋu cӫa các miӅn cịn
lҥi (khác ܦሻ
Dӳ liӋu kiӇm tra là 1/2 ܦ, tұp dӳ liӋu huҩn luyӋn gӗm hai thành phҫn: x Thành phҫn dӳ liӋu tӯ các miӅn khác ܦ
x Dӳ liӋu tӯܦvӟi sӕ OѭӧQJWăQJGҫn: 1/6 ܦ, 1/4 ܦ và 1/2 ܦ
Dӳ liӋu kiӇm tra là 1/2 ܦ, dӳ liӋu huҩn luyӋn là dӳ liӋu tӯ miӅn gҫn vӟi
ܦ dӵDWKHRÿӝ ÿRÿѭӧFWUuQKEj\GѭӟLÿk\
4.4 ĈiQKJLi
1KѭÿmWUuQKEj\ӣ trên là luұQYăQ sӁ sӱ dөQJEDÿӝ ÿRÿӇ ÿiQKJLiWKӵc nghiӋm.
MөFÿtFKFӫa viӋc sӱ dөQJEDÿӝ ÿRQj\OjJL~SFK~QJWDFyWKӇ ѭӟFOѭӧQJÿѭӧFWtQKÿiQJ tin cұy cӫa mơ hình nhұn dҥng thӵc thӇ WURQJYăQEҧn ngҳn TiӃng ViӋt áp dөng mơ hình
hӑc suӕWÿӡL6DXÿk\luұQYăQ sӁ trình bày chi tiӃt vӅ EDÿӝ ÿRWUrQ Ta cĩ ma trұn nhҫm lүQÿѭӧFWUuQKEj\QKѭEҧQJGѭӟLÿk\>@ Lӟp dӵ ÿRiQ Lӟp = P Lӟp = N Lӟp thӵc sӵ Lӟp = P TP FN Lӟp = N FP TN Bҧng 4.5 Ma trұn nhҫm lүn
Bҧng trên thӇ hiӋn ma trұn nhҫm lүn cho mӝt phân lӟp nhӏ phân. Tuy bài tốn nhұn dҥng thӵc thӇ là phân lӟSÿDQKmQQKѭQJWDYүn cĩ thӇ áp dөng bҵng cách coi viӋc phân
lӟp cho mӛi nhãn là mӝt phân lӟp nhӏ SKkQÿӇ ÿiQKJLiKD\QyLFiFKNKiFWDFyWKӇ giҧi thích các giá trӏ bҵQJFiFKQKѭVDX
30
x TN là sӕ ví dө cĩ nhãn khác l Yjÿѭӧc gán nhãn khác l (T) x FP là sӕ ví dө cĩ nhãn khác l nhӳng lҥLÿѭӧc gán nhãn l (F) x FN là sӕ ví dө cĩ nhãn l QKѭQJOҥLÿѭӧc gán nhãn khác l (F) %Dÿӝ ÿRWUrQÿѭӧc tính theo cơng thӭc sau[2]:
x Ĉӝ ÿRKӗLWѭӣng: ߨൌ ் ்ାிே x Ĉӝ ÿRFKtQK[iFߩൌ்்ାி x Ĉӝ ÿRf1: f1 2SU S U 4.5 KӃt quҧ thӵc nghiӋm
4.5.1 KӃt quҧ ÿiQKJLiQӝi miӅn
KӃt quҧ thӵc nghiӋm là kӃt quҧ trung bình cӫa 3 loҥi thӵc thӇWrQQJѭӡLWrQÿӏa danh và tên tә chӭc.
KӃt quҧ ÿiQKJLiQӝi miӅQÿѭӧc trình bày trong bҧng sau:
MiӅn CRFs L-CRFs Ĉӝ hӗi Wѭӣng Ĉӝ chính xác Ĉӝ ÿRIĈӝ hӗi Wѭӣng Ĉӝ chính xác Ĉӝ ÿRI CNTT 0.427 0.898 0.579 0.51 0.849 0.637 KT 0.2 0.95 0.332 0.33 0.9 0.483 PL 0.248 0.666 0.362 0.304 0.622 0.409 XH 0.149 0.5 0.229 0.434 0.566 0.491 TT 0.364 0.582 0.448 0.419 0.555 0.478 GD 0.306 0.482 0.374 0.492 0.799 0.609 TB 0.282 0.68 0.387 0.415 0.715 0.518
31
ĈӇ cĩ thӇ VRViQKYjÿiQKJLiÿѭӧc kӃt quҧ chính xác và dӉ GjQJKѫQluұQYăQ sӁ thӇ hiӋn kӃt quҧ trung bình cӫDÿӝ ÿRYӟLKDLSKѭѫQJSKiSWLӃp cұQGѭӟi dҥng biӇXÿӗ QKѭVDX
Hình 4.1 KӃt quҧ thӵc nghiӋPÿiQKJLiQӝi miӅn
L-CRFs cho kӃt quҧ tӕWKѫQYӟLSKѭѫQJSKiS&5)VWUX\Ӆn thӕng, cө thӇ Ojÿӝ ÿRIFDR KѫQ1KѭYұy cĩ thӇ nhұn ra rҵng, các tri thӭFÿmÿѭӧc hӑc tӯ các miӅn trong quá
khӭ cĩ ҧQKKѭӣQJÿiQJNӇ tӟi kӃt quҧ hӑc ӣ miӅn hiӋn tҥi.
4.5.2 KӃt quҧ ÿiQKJLiFKpRPLӅn 0LӅQ CRFs L-CRFs Ĉӝ hӗi Wѭӣng Ĉӝ chính xác Ĉӝ ÿRIĈӝ hӗi Wѭӣng Ĉӝ chính xác Ĉӝ ÿRI CNTT 0.512 0.801 0.624 0.532 0.787 0.635 KT 0.618 0.756 0.68 0.655 0.795 0.718 PL 0.266 0.642 0.376 0.286 0.655 0.398 XH 0.62 0.669 0.644 0.806 0.757 0.781 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 ĈӝKӗLWѭӣQJҾĐŚşŶŚdžĄĐĈӝÿRI CRFs L-CRFs
32
TT 0.522 0.647 0.578 0.555 0.65 0.599 GD 0.568 0.857 0.683 0.626 0.84 0.717 TB 0.518 0.728 0.597 0.577 0.747 0.641
Bҧng 4.7 KӃt quҧ thӵc nghiӋPÿiQKJLiFKpRPLӅn ĈӇ cĩ thӇ VRViQKYjÿiQKJLiÿѭӧc kӃt quҧ chính xác và dӉ GjQJKѫQluұQYăQ sӁ thӇ hiӋn kӃt quҧ trung bình cӫDÿӝ ÿRYӟLKDLSKѭѫQJSKiSWLӃp cұQGѭӟi dҥng biӇXÿӗ QKѭVDX
Hình 4.2 KӃt quҧ thӵc nghiӋPÿiQKJLiFKpRPLӅn Trong kӏch bҧn thӵc nghiӋm này, kӃt quҧ cӫa L-CRFs vүQ FDR KѫQ Fӫa CRFs
truyӅn thӕQJWX\QKLrXFDRKѫQNK{QJÿiQJNӇ IWăQJ&K~QJWDFyWKӇ dӉ dàng lí giҧi cho hiӋQWѭӧng này. Vӟi viӋc dӳ liӋu huҩn luyӋn là kӃt hӧp cӫa tҩt cҧ các miӅQQKѭ
vұy tұp dӳ liӋu huҩn luyӋQOjNKiÿDGҥng, dүQÿӃn kӃt quҧ nhұQÿѭӧc là khҧ TXDQKѫQVR vӟLWUѭӡng hӧSÿiQKJLiQӝi miӅn. Bên cҥQKÿyGӳ liӋu cӫa các miӅQNKiFÿmÿѭӧc sӱ dөng trong quá trình huҩn luyӋn nên tác dөng L-&5)VOjNK{QJÿiQJNӇ.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 ĈӝKӗLWѭӣQJҾĐŚşŶŚdžĄĐĈӝÿRI CRFs L-CRFs
33
4.5.3 KӃt quҧ ÿinh giá chéo miӅn cĩ dӳ liӋu cӫa miӅQÿtFK
BҧQJGѭӟLÿk\WKӇ hiӋn kӃt quҧ thӵc nghiӋm vӟi dӳ liӋu cӫa miӅQÿtFKWURQJWұp huҩn luyӋQWăQJGҫn sӱ dөQJÿӝ ÿR)ÿѭӧc thӵc hiӋn vӟi CRFs và L-CRFs:
0LӅQ CRFs L-CRFs 1/2 1/4 1/6 1/2 1/4 1/6 CNTT 0.67 0.646 0.631 0.672 0.647 0.635 KT 0.731 0.725 0.7227 0.7492 0.7329 0.728 PL 0.433 0.405 0.394 0.458 0.434 0.422 XH 0.774 0.758 0.744 0.792 0.764 0.748 TT 0.608 0.590 0.582 0.659 0.63 0.624 GD 0.738 0.723 0.719 0.741 0.735 0.73
Bҧng 4.8 KӃt quҧ thӵc nghiӋPÿiQKJLiFKpRPLӅn cĩ dӳ liӋu miӅQÿtFK Trong quá trình hӑc, vai trị dӳ liӋu cӫa miӅQÿtFKWURQJWұp huҩn luyӋn là vơ cùng quan trӑng. Qua kӏch bҧn thӵc nghiӋm này, ta cĩ thӇ dӉ dàng nhұn thҩy nӃu dӳ liӋu cӫa miӅQÿtFKWURQJWұp huҩn luyӋn càng nhiӅu thì kӃt quҧ nhұQÿѭӧFFyÿӝ chính xác càng
cao. ViӋc áp dөng hĩc suӕWÿӡi thơng qua thuұt tốn L-CRFs vүn cho kӃt quҧ tӕWKѫQPһc GNK{QJÿiQJNӇ.
4.5.4 KӃt quҧ ÿiQKJLiFKpRPLӅn chӍ lҩy dӳ liӋu miӅn gҫn
ĈӇ kiӇm tra các miӅQFy³JҫQ´QKDXKD\NK{QJ, luұQYăQ thӵc hiӋQÿiQKJLiPӭFÿӝ WѭѫQJÿӗng giӳa hai miӅn trên mӭFÿӝ tӯ vӵng, vӟi cơng thӭFQKѭVDX>@
หܸתܸห ȁܸȁ
หܸתܸห หܸห
7URQJÿyࢂlà tұp tӯ vӵng thuӝc miӅn ࡰ và ࢂlà tұp tӯ vӵng thuӝc miӅn ࡰ
หתೕห
34 Ta cĩ bҧng kӃt quҧ QKѭVDX CNTT KT XH PL TT GD CNTT - 0.672 0.933 0.616 0.8 0.721 KT 0.672 - 0.764 0.696 0.665 0.659 XH 0.933 0.764 - 0.645 0.928 0.548 PL 0.616 0.696 0.645 - 0.645 0.675 TT 0.8 0.665 0.928 0.645 - 0.631 GD 0.721 0.659 0.548 0.675 0.631 -
Bҧng 4.9 KӃt quҧ ÿRÿӝ ³JҫQ´JLӳa các miӅn mӭc tӯ vӵng
Tӯ kӃt quҧ trên, luұQYăQ ÿmWKӵc hiӋn thӵc nghiӋPÿiQKJLiYӟLSKѭѫQJSKiS/- CRFs và cĩ kӃt quҧ QKѭVDX 0LӅQ L-CRFs Ĉӝ chính xác ĈӝKӗLWѭӣQJĈӝÿR) 0LӅQ³JҫQ´ CNTT 0.5197 0.7913 0.6273 XH KT 0.7014 0.7183 0.7097 XH PL 0.337 0.669 0.448 KT XH 0.765 0.733 0.749 CNTT TT 0.5427 0.6609 0.596 XH GD 0.5057 0.7113 0.5911 CNTT
35
Nhұn xét:
KӃt quҧ thӵc nghiӋPÿmFKӭng minh tính khҧ WKLYjѭXÿLӇm khi áp dөQJSKѭѫQJ pháp hӑc suӕWÿӡi cho bài tốn nhұn dҥng thӵc thӇ ÿӏQKGDQKWURQJYăQEҧn TiӃng ViӋt. Bên cҥQKÿyNӃt quҧ thӵc nghiӋPFNJQJOjPEұWOrQÿѭӧc nhӳQJNKyNKăQFӫa viӋc nhұn
dҥng thӵc thӇ ÿӏQKGDQKWURQJYăQEҧn ngҳn tiӃng ViӋt. Cө thӇ QKѭVDX
x Khi ta thӵc hiӋn thӵc nghiӋm trên cùng mӝt miӅQNK{QJJLDQÿһFWUѭQJFNJQJQKѭ phân bӕ cӫa dӳ liӋu huҩn luyӋn và kiӇPWUDOjQKѭQKDX 7X\QKLrQGRÿһFÿLӇm
cӫDYăQEҧn ngҳn nên kӃt quҧ nhұQÿѭӧc là khơng khҧ quan, chӍ ÿҥWÿѭӧFÿӝ ÿRI
là 0.387 . Khi áp dөng hӑc suӕWÿӡi, ta nhұQÿѭӧc kӃt quҧ IOjWăQJVR vӟLSKѭѫQJSKiSWUX\Ӆn thӕng.
x Trong thӵc nghiӋPÿiQKJLiFKpRPLӅn, mһFGNK{QJJLDQÿһFWUѭQJOjQKѭQKDX QKѭQJ SKkQ Eӕ dӳ liӋu ӣ các miӅn khác nhau, vì vұy kӃt quҧ cӫa CRFs trong
WUѭӡng hӧp này chӍ ÿҥt f1 = 0.597. L-CRFs cho kӃt quҧ là f1 = 0.641 nhӡ tұn dөng
ÿѭӧc các dӳ liӋXÿmKӑc trong quҧ khӭ7X\QKLrQWURQJWUѭӡng hӧp này kӃt quҧ chӍ WăQJVRYӟLSKѭѫQJSKiSWUX\Ӆn thӕng, bӣi trong tұp dӳ liӋu huҩn luyӋQÿm ÿѭӧc kӃt hӧp vӟi dӳ liӋu cӫa các miӅn khác nên viӋc tұn dөng tri thӭc cӫa các
miӅQÿyÿHPOҥi hiӋu quҧ NK{QJÿiQJNӇ.
x Mӝt câu hӓLÿһt ra là sӵ cĩ mһt cӫa dӳ liӋu ӣ miӅQÿtFKӣ tұp dӳ liӋu huҩn luyӋn ҧQKKѭӣng nhiӅu hay ít tӟi kӃt quҧ cӫa thӵc nghiӋP"ĈӇ trҧ lӡi cho nhӳng câu hӓi trên, luұQ YăQ ÿm WLӃn hành thӵc nghiӋP WUѭӡng hӧp thӭ ba 1Kѭ NӃt quҧ thӵc
nghiӋm ta cĩ thӇ dӉ dàng nhұn thҩy càng nhiӅu dӳ liӋu miӅQÿtFKWURQJWұp huҩn luyӋn thì cho kӃt quҧ càng cao.
x Trong thӵc nghiӋm thӭ 4, ta chӍ sӱ dөng tri thӭFFyÿѭӧc tӯ miӅQ³JҫQ´Yӟi miӅn ÿDQJ[pWNӃt quҧ nhұn ÿѭӧc là khá tӕt so vӟi viӋc sӱ dөng tri thӭc tӯ tҩt cҧ các miӅn. Tuy nhiên thӡi gian chҥ\WURQJWUѭӡng hӧp này thҩSKѫQUҩt nhiӅu bӣi ta chӍ cҫn xem xét dӳ liӋu nhӓ KѫQQKLӅu.
36
KӃt luұn
LuұQYăQÿmÿҥWÿѭӧc:
x Tìm hiӇu bài tốn nhұn dҥng thӵc thӇ WURQJ YăQ bҧn TiӃng ViӋt và cách tiӃp cұn bҵQJ SKѭѫQJ SKiS Kӑc máy sӱ dөQJ P{ KuQK WUѭӡng ngүu nhiên( Conditional Random Fields)
x Tìm hiӇu nhӳng kiӃn thӭFFѫEҧn vӅ hӑc suӕWÿӡLÿӏQKQJKƭDSKkQORҥLFiFKÿiQK JLi«FQJQKӳng áp dөng cӫa hӑc suӕWÿӡi.
x Tìm hiӇu viӋc áp dөng hӑc suӕWÿӡi cho mơ hình CRFs nhҵm cҧi tiӃQSKѭѫQJSKiS nhұn dҥng thӵc thӇ WURQJYăQEҧn ngҳQÿӇ khҳc phөc nhӳQJNKyNKăQJһp phҧi do
ÿһFÿLӇm cӫDYăQEҧn ngҳn.
NhӳQJÿyQJJySFKtQKFӫa luұQYăQ
x Xây dӵQJP{KuQK&5)VÿӇ nhұn dҥng thӵc thӇ WURQJYăQEҧn TiӃng ViӋt áp dөng hӑc suӕWÿӡi.
x TiӃQKjQKÿiQKJLiWKӵc nghiӋPÿӇ so sánh giӳa nhiӅXWUѭӡng hӧp, tӯ ÿyFKӭng
PLQKÿѭӧc áp dөng hӑc suӕWÿӡi cĩ thӇ OjPWăQJKLӋu suҩt cӫa viӋc hӑFFNJQJQKѭ chӍ ra vai trị quan trӑng cҧu dӳ liӋXFyÿѭӧc thơng qua các bài tốn hӑc trong quá
37
7jLOLӋXWKDPNKҧR
TiӃng ViӋt
1. Thөy, H. Q., HiӃX3; 6ѫQĈ1JX\Ӊn Trí Thành, NguyӉn Thu Trang, NguyӉn Cҭm Tú (2009). Giáo trình Khai phá dӳ liӋu Web.
TiӃng Anh
2. Abdallah, Z. S., Carman, M., & Haffari, G. (2017). Multi-domain evaluation
framework for named entity recognition tools. Computer Speech & Language, 43, 34-55.
3. Chen, M., Jin, X., & Shen, D. (2011, July). Short text classification improved by learning multi-granularity topics. In IJCAI (pp. 1776-1781).
4. De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.
5. Farmakiotou, D., Karkaletsis, V., Koutsias, J., Sigletos, G., Spyropoulos, C. D., & Stamatopoulos, P. (2000, September). Rule-based named entity recognition for Greek financial texts. In Proceedings of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000) (pp. 75-78).
6. Ferreira, E., Balsa, J., & Branco, A. (2007). Combining rule-based and statistical methods for named entity recognition in Portuguese. In Actas da 5a Workshop em Tecnologias da Informaçao e da Linguagem Humana.
7. Fei, G., Wang, S., & Liu, B. (2016, August). Learning cumulatively to become more knowledgeable. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1565-1574). ACM.
8. Ha, Q. T., Pham, T. N., Nguyen, V. Q., Nguyen, T. C., Vuong, T. H., Tran, M. T., & Nguyen, T. T. (2018, March). A New Lifelong Topic Modeling Method and Its
Application to Vietnamese Text Multi-label Classification. In Asian Conference on Intelligent Information and Database Systems (pp. 200-210). Springer, Cham.
9. Jakob, N., & Gurevych, I. (2010, October). Extracting opinion targets in a single-and cross-domain setting with conditional random fields. In Proceedings of the 2010
conference on empirical methods in natural language processing (pp. 1035-1045). Association for Computational Linguistics.
38
10. Kumar, A., & Daume III, H. (2012). Learning task grouping and overlap in multi- task learning. arXiv preprint arXiv:1206.6417.
11. Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data.
12. McCallum, A., Freitag, D., & Pereira, F. C. (2000, June). Maximum Entropy Markov Models for Information Extraction and Segmentation. In ICML (Vol. 17, pp. 591-598).
13. McCallum, A., & Li, W. (2003, May). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 188- 191). Association for Computational Linguistics.
14. Mitchell, T., Cohen, W., Hruschka, E., Talukdar, P., Yang, B., Betteridge, J., ... & Krishnamurthy, J. (2018). Never-ending learning. Communications of the ACM, 61(5), 103-115.
15. Silver, D. L., Mason, G., & Eljabu, L. (2015, June). Consolidation Using Sweep Task Rehearsal: Overcoming the Stability-Plasticity Problem. In Canadian Conference on Artificial Intelligence (pp. 307-322). Springer, Cham.
16. Shu, L., Xu, H., & Liu, B. (2017). Lifelong learning crf for supervised aspect extraction. arXiv preprint arXiv:1705.00251.
17. Thrun, S., Mitchell, T.M.: Lifelong robot learning. Robot. Auton. Syst. 15(1±2), 25± 46(1995)
18. Thrun, S.: Explanation-Based Neural Network Learning: A Lifelong Learning Approach.Springer, US (1996).
19. Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., & Collier, N. (2007). Named entity recognition in Vietnamese documents. Progress in Informatics Journal,5, 14-17.
20. Tu, N. C., Oanh, T. T., Hieu, P. X., & Thuy, H. Q. (2005). Named entity recognition in vietnamese free-text and web documents using conditional random fields. In The 8th Conference on Some selection problems of Information Technology and
39
21. Zhiyuan Chen and Bing Liu. Lifelong Machine Learning. Morgan & Claypool Publishers, November 2016.
22. Zhou, G., & Su, J. (2002, July). Named entity recognition using an HMM-based chunk tagger. In proceedings of the 40th Annual Meeting on Association for
Computational Linguistics (pp. 473-480). Association for Computational Linguistics.
Trang web