Thuұt tốn L-CRF

Một phần của tài liệu (Luận văn thạc sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm luận văn ths máy tính 84801 (Trang 31 - 35)

Các mүu phө thuӝc cho thuӝc tính phө thuӝc tәng quát khơng sӱ dөng bҩt kǤ tӯ thӵc tӃ QjRYjFK~QJFNJQJFyWKӇ sӱ dөng kiӃn thӭFWUѭӟc, chúng khá mҥQKÿӇ nhұn dҥng thӵc thӇ chéo miӅn (miӅn thӱ nghiӋPNK{QJÿѭӧc sӱ dөQJWURQJÿjRWҥo). Gӑi K là tұp các khía cҥnh tin cұ\ÿѭӧc khai thác tӯ các thӵc thӇ ÿѭӧc trích xuҩt trong bӝ dӳ liӋu cӫa các miӅQWUѭӟc sӱ dөng mơ hình CRFs 0/ѭXêUҵng chúng ta giҧ sӱ rҵQJ0ÿmÿѭӧc huҩn luyӋn sӱ dөng dӳ liӋXÿmÿѭӧc gán nhãn ܦ௧%DQÿҫX.ÿѭӧc gán bҵng ܭ௧ (tұp hӧp cӫa tҩt cҧ các khía cҥnh trong dӳ liӋu huҩn luyӋn ܦ௧). Càng thêm

nhiӅu miӅn áp dөng mơ hình M chúng ta càng cĩ thêm nhiӅu dӳ liӋu và K ngày càng lӟn. Tuy nhiên chúng ta khơng lҩy tҩt cҧ các khía cҥnh trích xuҩWÿѭӧc mà chӍ lҩy nhӳng khía cҥQKÿiQJWLQFұy. Khía cҥQKÿiQJWLQFұy thӓa mãn 2 tiêu chí:

x Xuҩt hiӋn trong nhiӅu miӅn

x Tҫn suҩt xuҩt hiӋn trong mӝt miӅn lӟQKѫQQJѭӥng nhҩWÿӏnh.

Khi cҫn thӵc hiӋn nhұn dҥng thӵc thӇ trên mӝt miӅn mӟi ܦேାଵ, K cho phép thuӝc tính phө thuӝc tәng quát tҥo thêm nhiӅu mүu tәQJTXiWOLrQTXDQÿӃn các khía cҥnh do cĩ thêm nhãn tri thӭFµ$¶ QKѭ ÿm ÿѭӧc giҧi thích trong phҫQWUѭӟF'Rÿy&5)s cĩ nhiӅu thuӝc tính KѫQÿӇ tҥo ra kӃt quҧ tӕWKѫQ

L-CRFs thӵc hiӋn trong hai pha: pha huҩn luyӋn và pha hӑc suӕW ÿӡi. Pha huҩn luyӋn huҩn luyӋn mӝt mơ hình CRFs M sӱ dөng dӳ liӋu huҩn luyӋn ܦ௧ QKѭ YLӋc huҩn luyӋn các mơ hình CRFs truyӅn thӕng khác. Trong pha hӑc suӕWÿӡL0ÿѭӧc sӱ dөQJÿӇ nhұn dҥng thӵc thӇ tӯ các miӅn mӟL0NK{QJÿѭӧFWKD\ÿәi và dӳ liӋu cӫa miӅn mӟi là

24

NK{QJ ÿѭӧc gán nhãn). Tҩt cҧ các kӃt quҧ ÿѭӧF OѭX Oҥi vào S. Tҥi mӝt thӡL ÿLӇm nhҩt ÿӏnh, giҧ sӱ UDQJ0ÿmÿѭӧc áp dөng cho N miӅQWUѭӟFÿk\YjJLӡ cҫn thӵc hiӋn trên miӅn N+1. L-CRFs sӱ dөng M và các khía cҥnh tin cұy (kí hiӋu là ܭேାଵ,ÿӇ trích xuҩt tӯܦேାଵ.

/ѭXêUҵng các khía cҥnh ܭ௧ tӯ dӳ liӋu huҩn luyӋQÿѭӧc coi ljOX{QÿiQJWLQFұy vì chúng ÿѭӧc gҳn nhãn thӫ F{QJGRÿyPӝt tұp hӧp con K. Chúng ta khơng thӇ sӱ dөng tҩt cҧ các

khía cҥQKÿѭӧc trích xuҩt tӯ các miӅQWUѭӟFÿk\QKѭFiFNKtDFҥQKÿiQJWLQFұy do nhiӅu

lӛi trích xuҩW1KѭQJQKӳng khía cҥQKÿy[Xҩt hiӋn trong nhiӅu miӅQWUѭӟFÿk\FyQKLӅu khҧ QăQJ Oj FKtQK [iF KѫQ QKѭ ÿm ÿѭӧc trình bày ӣ phҫQWUѭӟc. Vì vұy, K chӭa nhӳng

khía cҥQK WKѭӡng xuyên trong S. Pha hӑc suӕW ÿӡL ÿѭӧc thӇ hiӋn qua thuұW WRiQ Gѭӟi ÿk\[16]:

Ĉҫu vào:

x Dӳ liӋu ܦேାଵǣܱሺ݋ଵǡ݋ଶǡǥǡ݋௡ሻ chuӛi dӳ liӋu quan sát, ݋௜ là các tӯ x ܮሺ݈ଵǡ݈ଶǡǥǡ݈௡ሻ chuӛi các nhãn cҫn gán cho dӳ liӋu

x Mơ hình ܯ ÿmÿѭӧc huҩn luyӋn và áp dөng tҥi ܰ miӅn trong quá khӭ x ܵሺݏଵǡݏଶǡǥǡݏ௠ሻ tұp kӃt quҧ cӫa N miӅn trong quá khӭ

1. ܭ௣՚׎ 2. Loop 3. ܨ՚ ܨ݁ܽݐݑݎ݁ܩ݁݊݁ݎܽݐ݅݋݊ሺܦேାଵǡܭሻ 4. ܣ௡ାଵ՚ ܣ݌݌݈ݕܥܴܨܯ݋݈݀݁ሺܯǡܨሻ 5. ܵ՚ ܵ׫ሼܣ௡ାଵሽ 6. ܭ௡ାଵ՚ ܨݎ݁ݍݑ݁݊ݐܣݏ݌݁ܿݐݏܯ݅݊݅݊݃ሺܵǡɉሻ 7. if ܭ௣ൌܭ௡ାଵ then 8. break 9. else 10. ܭ՚ ܭ௧׫ܭ௡ାଵ 11. ܭ௣՚ ܭ௡ାଵ 12. ܵ՚ ܵെሼܣ௡ାଵሽ 13. end if 14.end loop Ĉҫu ra: x &iFFkXÿmÿѭӧc gán nhãn

25

Pha hӑc suӕWÿӡi: thuұt tốn trên thӵc hiӋn trên tұp dӳ liӋu cӫa ܦேାଵlһSÿLOһp lҥi 1. Thӵc hiӋn khӣi tҥo các thuӝc tính (F) trên dӳ liӋu cӫa ܦேାଵ (dịng 3) và áp dөng

mơ hình CRFs M (dịng 4) WUrQ)ÿӇ trích xuҩt ra mӝt tұp các thӵc thӇܣேାଵ

2. ܣேାଵ ÿѭӧc thêm vào S OѭXFiFWKӵc thӇ ÿmÿѭӧc khai thác trong quá khӭ). Tӯ S,

chúng ta khai thác mӝt loҥt các khía cҥQKWKѭӡng xuyên ܭ௡ାଵ1Jѭӥng tҫn sӕ OjȜ 3. NӃu ܭ௡ାଵ giӕng vӟi ܭ௣ ӣ lҫn lһSWUѭӟc, thuұt tốn sӁ ÿѭӧc dӯng vì khơng tìm thҩy

các thӵc thӇ mӟi. Chúng ta lһSÿLOһp lҥi quy trình này vì mӛi lҫn trích xuҩt mang

lҥi kӃt quҧ mӟi, cĩ thӇ OjPWăQJNtFKWKѭӟc cӫa K, các khía cҥQKÿiQJWLQFұy trong quá khӭ hoһc kiӃn thӭc trong quá khӭ.WăQJFyWKӇ tҥo ra các mүu phө thuӝc

nhiӅXKѫQFyWKӇ cho phép nhiӅu thӵc thӇ KѫQ

4. 1Jѭӧc lҥi: mӝt sӕ khía cҥQKÿiQJWLQFұy bә VXQJÿѭӧc tìm thҩy. M cĩ thӇ trích xuҩt các khía cҥnh bә sung trong lҫn lһp tiӃp theo. Các dịng 10 và 11 cұp nhұt hai tұp cho lҫn lһp tiӃp theo.

Mơ hình cӫa hӋ thӕQJ1(5WURQJYăQEҧn TiӃng ViӋt áp dөng hӑc suӕWÿӡLÿѭӧc thӇ hiӋn nhѭKuQK GѭӟLÿk\

Hình 3.1 Mơ hình hӋ thӕQJ1(5WURQJYăQEҧn TiӃng ViӋt áp dөng hӑc suӕWÿӡi Các thành phҫn chính cӫa mơ hình:

26

x Bӝ quҧn lý bài tốn: QuҧQOêFiFEjLWRiQÿmÿѭӧc thӵc hiӋn hay N miӅQÿmÿѭӧc áp dөQJP{KuQK0YjRÿӇ nhұn dҥng thӵc thӇ, cung cҩp dӳ liӋu cho bӝ sinh các

ÿһFWUѭQJNKLiSGөng mơ hình M cho miӅn mӟi N+1

x &ѫVӣ tri thӭc: Chӭa các thӵc thӇ ÿmQKұn dҥQJÿѭӧc khi áp dөng mơ hình trên N miӅn trong quá khӭ

x Bӝ VLQKFiFÿһFWUѭQJ: nhiӋm vө chính cӫa bӝ này là trích xuҩt ra các mүu quan hӋ tӯ dӳ liӋu cӫa miӅn thӭ N+1 kӃt hӧp vӟi dӳ liӋXWURQJFѫVӣ tri thӭc vӟi nhãn tri thӭF³$´KRһF³2´Ĉҫu ra cӫa bӝ này sӁ Ojÿҫu vào cӫa bӝ hӑc dӵa trên tri thӭc, ÿk\FKtQKOjFKuDNKyDJL~SWăQJKLӋu quҧ cӫa mơ hình khi áp dөng cho mӝt miӅn dӳ liӋu mӟi.

x Bӝ hӑc dӵa trên tri thӭc: Sӱ dөng các mүu quan hӋ Fyÿѭӧc tӯ bӝ VLQKFiFÿһc WUѭQJÿӇ nhұn dҥng thӵc thӇ cho mӝt miӅn mӟi sӱ dөng mơ hình CRFs.

x Mơ hình CRFs: 0{KuQKÿmÿѭӧc huҩn luyӋn và áp dөng trên N miӅn.

Tәng kӃWFKѭѫQJ

&KѭѫQJÿmWUuQKEj\SKѭѫQJSKiSQKұn dҥng thӵc thӇ WURQJYăQEҧn TiӃng ViӋt

áp dөng hӑc suӕWÿӡLĈӗng thӡLFKѭѫQJQj\FNJQJWUuQKEj\FKLWLӃt vӅ thuұWWRiQÿӇ WăQJ Fѭӡng sӱ dөng các kiӃn thӭFÿmÿѭӧc hӑc trong quá khӭ nhҵPWăQJKLӋu quҧ cӫa viӋc hӑc

27

&KѭѫQJ 7KӵFQJKLӋPYjNӃWTXҧ

1KѭÿmWUuQKEj\ӣ phҫn trên, luұQYăQ sӁ tiӃn hành thӵc nghiӋPÿiQKJLiSKѭѫQJ pháp nhұn dҥng thӵc thӇ WURQJYăQEҧn ngҳn TiӃng ViӋt áp dөng hӑc suӕWÿӡi và so sánh

vӟLSKѭѫQJSKiSWUX\Ӆn thӕQ&KѭѫQJQj\VӁ mơ tҧ chi tiӃt vӅ quá trình tiӃn hành thӵc nghiӋPFNJQJQKѭNӃt quҧ thӵc nghiӋm

4.1 0{LWUѭӡng và các cơng cө sӱ dөng

Một phần của tài liệu (Luận văn thạc sĩ) nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm luận văn ths máy tính 84801 (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(47 trang)