Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,14 MB
Nội dung
I H C QU C GIA TP HCM I H C BÁCH KHOA HU NH MINH HUY PHÂN GI I NH P NH NG TH C TH B C MÁY Chuyên ngành: Khoa H c Máy Tính Mã s : 60.48.01 LU TP H CHÍ MINH, tháng 11 Cơng tr c hồn thành t i: i H c Bách Khoa -HCM Cán b ng d n khoa h c: GS.TS Cao Hoàng Tr (Ghi rõ h , tên, h c hàm, h c v ch ký) Cán b ch m nh n xét 1: (Ghi rõ h , tên, h c hàm, h c v ch ký) Cán b ch m nh n xét 2: (Ghi rõ h , tên, h c hàm, h c v ch ký) Lu c b o v t Thành ph n H i H m: GS.TS Cao Hoàng Tr GS.TS Phan Th PGS.TS Qu TS H B o Qu c TS Nguy n H a Phùng Xác nh n c a Ch t ch H lu c s a ch a (n u có) CH T CH H NG ng Khoa qu n lý chuyên ngành sau I H C QU C GIA TP.HCM I H C BÁCH KHOA C NG HÒA XÃ H I CH c l p -T -H nh phúc T NAM NHI M V LU H tên h c viên: HU NH MINH HUY MSHV: 11070453 01/01/1988 NG Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 604801 I TÀI: PHÂN GI I NH P NH NG TH C TH B NG H C MÁY NHI M V VÀ N I DUNG: II NGÀY GIAO NHI M V : 20/08/2012 III NGÀY HOÀN THÀNH NHI M V : 22/11 IV CÁN B CÁN B NG D N: GS.TS CAO HOÀNG TR NG D N (H tên ch ký) GS.TS CAO HOÀNG TR (H tên ch ký) L IC c h t, xin g i l i c n th ng d n c a tơi, GS.TS Cao Hồng Tr Trong su t trình làm lu này, th n tình, kiên nh n ch d n tơi t ng xun khích l tơi S ng d n l i khuyên quý báu t th y m t nhân t khơng th thi tơi có th hoàn thành c lu il ic ki n th u ng d n lu n TS Nguy n Thanh Hiên, ng ng nghiên c a tơi GS.TS Cao Hồng Tr Tôi xin g i l i c i ng h , c u ki n t t nh t cho vi c h c t p nghiên c u c a Xin chân thành bi t ih thu t Máy tính u c t o t n tình gi ng d c a t t c quý th y cô c bi t th y cô khoa Khoa h c K TÓM T T Trong m ng t n t i nh ng c m t (nhãn tham chi u) b nh p nh ng Tùy thu c vào ng c nh c n mà c m t mang khác Vi nh xác cho c m t b c g i phân gi i nh p nh ng M c tiêu c a lu n n vi c phân gi i nh p nh ng ánh x c m t xu t hi n vào th c th ng Wikipedia D a n n c a Milne Witten (2008), c i ti n c a h b ng vi c tích h p m t s k thu t ng tham chi u, heuristic, l p c i thi n d n s d ng t g c K t qu nh c i kh quan, hi u su t i rõ so sánh v n n c a Milne Witten (2008) c cho tân th i c a Ratinov c ng s (2011) ABSTRACT In a document, there may contain several terms (mentions) whose meanings are ambiguous That is, depending on the context, the meaning of the same term may vary between different documents The task of identifying correct meaning of a term is called disambiguation The goal of this thesis is to disambiguate and link terms to their correct referent entities in Wikipedia Based upon Milne and Witten's work (2008), we enhancing it by integrating with various techniques; in particular, the coreference relations, heuristics, incremental and stemming The results of our experiments show that our method achieves better performance than the baseline method, which is Milne and Witten's method (2008), and Ratinov et al's method (2011), which is considered the state-of-the-art one L IC th c hi c p m ng, ngo i tr k t qu tham kh o t cơng trình khác i dung trình bày lu n n i dung c a lu cn l y b ng ng khác TP.HCM, Hu nh Minh Huy M CL C M C L C i DANH M C HÌNH iii DANH M C B NG iv NG QUAN Gi i thi u Bài toán ph m vi Các cơng trình liên quan C LÝ THUY T Wikipedia Th c th nhãn tham chi u 11 H c máy 13 Nh n d ng nhãn tham chi u 17 Phân gi ng tham chi u .18 Gom c m th c th n tri th c 20 n 22 XU T .24 n 24 i ti n 28 .35 T p hu n luy n .35 T .36 37 K t qu thí nghi m 42 NG K T 47 47 i ng phát tri n 47 TÀI LI U THAM KH O .49 ii DANH M C HÌNH Hình 1.1: Trích t [21] cho th y c m t c thích thêm thơng tin t Wikipedia .2 Hình 1.2: M t mơ hình phân gi i nh p nh ng th c th có tên [23] .5 Hình 2.1: M t trang th c th Wikipedia Hình 2.2: Các trang chuy ng 10 Hình 2.3: Trang phân gi i nh p nh ng 11 Hình 2.4: Minh h a cho h th ng phân lo i c a Wikipedia .12 Hình 2.5: M t ví d v gi i thu t C4.5 .16 Hình 2.6: M t ví d v chu ng tham chi u .19 Hình 2.7: M t ví d v gom c m th c th n tri th c 21 Hình 3.1: Mơ hình t ng qt v MACH 25 Hình 3.2: M t ví d v truy h i ng viên v i nhãn tham chi i di n 29 Hình 3.3: M t ví d v heuristic l c ng viên 30 iii DANH M C B NG B ng 3.1: K t qu phân gi i c a gi i thu t h c máy theo Milne 25 B ng 4.1: Các t thông 36 B ng 4.2: Các t AC .36 B ng 4.3: K t qu MAA c thông 43 B ng 4.4: K t qu F BOT c n t thông 43 B ng 4.5: K t qu MAA c a mơ hình t p TAC 2011 2012 45 B ng 4.6: Hi u su t c a MACH t 45 B ng 4.7: So sánh k t qu F B-Cubed+ c a MACH m t s d u TAC 2012 46 B ng 4.8: S d ng phân gi i nh p nh ng 46 iv - - ch n - T p th c th chu n vàng s Egold = {" ", "Taiwan", "Jiangsu"} n d ta có t p ánh x h th ng th c hi n {("China" "History of China"), ("Taiwan" NIL), ("Jiangsu" "Jiangsu")} T p th c th h th "Jiangsu th nh N ut g = 50% R = 1/3 = 33% nh s E = {"History of China", c tính vào t p th c th h n d nh u ta s có P = 1/2 nt im ts y m làm k i nh p nh ng c ch t Th nh t, nh ng th c th n tri th c coi tr ng Th hai, m n có th có nhi u nhãn tham chi u ng tham chi n m t th c th t n t i c tri th c, thay c ánh x toàn b nhãn tham chi u n vào th c th ng, ta ch c n ánh x m t nh ng nhãn tham chi u ng nhãn tham chi u nh p nh ng th p nh t) v n có kh c hi u su t BOT cao Ví d : Ta có ba ánh x chu n d {"Michael Jordan" "Michael I Jordan", "Michael" "Michael I Jordan", "Jordan" "Michael I Jordan"} Egold = {"Michael I Jordan"} - Thay c ánh x c ba nhãn tham chi u, m t h th ng ch c n ánh x m t nhãn tham chi u {"Michael Jordan" "Michael I Jordan"} dù hai nhãn tham chi u l i ánh x vào NIL ta v n s có E = {"Michael I Jordan"} D n k t qu PBOT = RBOT = FBOT = 100% Th n nhãn tham chi u ánh x vào th c th gì, nên s n t i nh ng ánh x sai mà v c hi u su t BOT cao Ví d : Ta có hai ánh x chu n d {"Michael Jordan" "Michael I Jordan", "Jordan" "Michael Jordan"} Egold = {"Michael I Jordan", "Michael Jordan"} M t h th ng cho ánh x b {"Michael Jordan" "Michael Jordan", "Jordan" "Michael I Jordan"} ta v n có t p E 40 = {"Michael I Jordan", "Michael Jordan Egold nên PBOT = RBOT = FBOT = 100% i v i d a c m d a c m (g i B-Cubed+ c s d ng TAC) g n gi ng v truy h i thông tin N u m t nhãn tham chi u m c xem nh t câu truy v n (query) t p n tr v t p nhãn tham chi u ánh x vào th c th e mà m ánh x vào (bao g m c m) Các nhãn tham chi u ánh x có th n m n khác ch khơng nh t thi t ph i n m chung m n Btham chi u giá ch c hi u su t c a m t h th ng m t t p d li u su t PB-Cubed+ RB-Cubed+ riêng l cho t ng nhãn có hi u su t c a h th ng toàn t C th , i v i m t nhãn tham chi u m (thu c t p nhãn tham chi u c n phân gi i M) c ánh x vào m t th c th e, ta có ký hi c : - K: t p nhãn tham chi u ánh x vào e h th Kgold: t p nhãn tham chi u chu n vàng ánh x vào e (Kgold (K M) M) c a t ng nhãn tham chi u m c bi u di sau: Cu toàn b t c hài hòa c a h th ng M 41 K t qu thí nghi m Các t thơng MAA F BOT c s d ng t hi u su t c a MACH cho toán phân gi i nh p nh ng th c th t ng quát ng th i so sánh v c a Milne [20] n) m t pháp c cho tân th i (state-of-the-art) c a Ratinov [30] Trong B ng 4.3 B ng 4.4, dòng cho bi t hi u su t i c i c a Milne, nhiên dịng s d ng mơ hình g c Milne cung c p dòng s d c hu n luy n l dòng hi u su t c i ti n chính) s d ng c hu n luy n l i v i vi c tính h p nhãn tham chi u i di n, heuristic l c ng n Milne Dòng 5, hi u su t k t h p dòng v i m t k thu t h tr phân gi i khác s d ng t g c l p c i thi n d n Quan sát B ng 4.3 B ng 4.4, k t qu c n d a t p th c th (BOT) x c phân tích trên; v t p th c th không kh t khe b ng i a ánh d a a ánh x pháp phân gi i c a Ratinov ch ch n ánh x nh ng nhãn tham chi u ch c ch n nh t, nh ng nhãn tham chi u m p m hay có nh p nh ng cao s b ánh x vào NIL u th hi n rõ n u ta so sánh gi a k t qu F BOT MAA c i thích b n có th t n t i nhi u nhãn tham chi u ánh x vào chung m t th c th , Ratinov ch ánh x nhãn tham chi u ch c ch n s phân gi (các nhãn tham chi u nh p nh ng th p, hay gi a u th hai c a m t nhãn tham chi u s chênh l ch v m s l n) nh ng nhan tham chi u l ub ánh x vào NIL, y v c F BOT cao nhiên MAA có th s th p ng h p c ánh x tồn b nhãn tham chi u, có th có kh F BOT t c l i th p ng h p ch ánh x nh ng nhãn tham chi u có kh gi i cao Trên t p D4000, hi u su t c ph u 42 so v i Milne MACH p D4000 i khó, t n t i nhi u th c th nh p nh ng cao, khó phân gi i nên nhi u nhãn tham chi u b b qua c ánh x Milne (mơ hình g c) (dịng 2) có hi u su t phân gi i không cao Tuy nhiên sau s d c hu n luy n l i (dòng 3) t p d li u l t qu c c i thi u cho th y n p hu n luy n lên m t m c nh t qu phân gi i STT Tên ACE AQUAINT MSNBC D2000 D4000 Ratinov Milne (mơ hình g c) Milne (mơ hình hu n luy n l i) MACH (mơ hình hu n luy n l i) + L p c i thi n d n 75.49% 75.52% 70.07% 79.92% 45.64% 60.13% 67.26% 64.37% 74.28% 55.36% 78.43% 83.36% 68.34% 87.83% 67.55% 78.10% 82.94% 83.58% 90.92% 68.80% 78.76% 85.01% 83.58% 90.57% 69.39% + S d ng t g c + L p c i thi n d n + S d ng t g c 79.41% 83.77% 85.56% 92.19% 70.34% 80.07% 85.42% 85.56% 92.29% 71.04% B ng 4-3: K t qu MAA c thông STT Tên ACE AQUAINT MSNBC D2000 D4000 Ratinov Milne (mơ hình g c) Milne (mơ hình hu n luy n l i) MACH (mơ hình hu n luy n l i) + L p c i thi n d n 81.21% 84.20% 85.62% 88.02% 49.48% 66.02% 77.65% 76.52% 78.50% 56.44% 81.68% 86.93% 82.00% 91.51% 70.18% 81.36% 86.62% 84.42% 92.50% 70.56% 81.50% 87.46% 84.42% 92.39% 71.60% + S d ng t g c + L p c i thi n d n + S d ng t g c 82.18% 86.86% 86.58% 93.44% 71.66% 82.30% 87.51% 86.58% 93.51% 72.69% B ng 4-4: K t qu F BOT c So sánh gi MAA c a MACH t D4000 (~3 thơng Milne (dịng so v i 3), ta th y k t qu Milne t p MSNBC (~17%), D2000 (~5%) t iv it p 43 ACE AQUAINT, t n t i nhãn tham chi i di n nên MACH không phát huy hi u qu ; k t qu ch i Milne Còn t p D4000, s ng nhãn tham chi u th c th có tên chi m m ng r t nh (639 t ng s 3898) Nên dù MACH phát huy hi u qu t t nhãn tham chi u th c th ng th c th có tên nên bình qn hi u su t không u so v i Milne u cho th y r ng h th ng MACH ho ng t Milne nhãn tham chi u th c th có tên nh k thu Hi u su t c a MACH theo F BOT u so v i MAA i v i F BOT ng h p có nhi u nhãn tham chi u ánh x vào m t th c th ch c n m t nhãn tham chi u s c th c hi n , nhãn tham chi u l c ánh x pháp c a Milne ánh x nh ng nhãn tham chi u mà g c ch n s phân gi , cịn MACH c ánh x nh ng nhãn tham chi u l i K t qu cu i c a MACH (dòng 8) k t h p thêm v i b sung l p c i thi n d n s d ng t g c hi u su t phân gi i t t n t 13% so v i không s d sung (dịng 4) t p ph thơng MAA) Các t a TAC Song song v i trình phát tri n h th ng phân gi i cho toán phân gi i nh p nh ng th c th g th s c v i toán phân gi i nh p nh ng th c th a h i ngh TAC 2012 gom c m th c th n tri th c, TAC yêu c u s d ng m tri th c riêng g i TAC-KB (v th c ch t TAC-KB m t phiên b n Wikipedia n m 2009) T TAC 2012 g m 2,226 nhãn tham chi u th c th có tên; nhãn tham chi u ánh x vào th c th tri th c 1,049 nhãn tham chi u NIL (các nhãn tham chi u ánh x vào th c th n s tri th Chúng thêm v hi u su t c a s d ng mơ hình m ng viên cho riêng tốn TAC Hai mơ hình B ng 4-5 c hu n luy n b ng 500 vi t ng u nhiên t Wikipedia K t qu cho th y dù gi m b t u su t c a mơ hình m ng viên có hai c v i mơ hình phân h ng g m ba p TAC ba kho ng 4.5% t p TAC 2012 Vì v y, mơ 44 hình hai c chúng tơi s d ng MACH 2012 so sánh v i khác Mơ hình Commonness + Relatedness + Context Quality Commonness + Relatedness B ng 4-5: K t qu MAA c a mô hình t p t p TAC TAC 2011 73.4% 72.7% TAC 2012 54.9% 59.4% TAC 2011 2012 i v i module nh n d ng nhãn tham chi u mc nh n d ng nhãn tham chi u dùng Link Probability s không th nh n d ng nhãn tham chi u t hi n Wikipedia th pv im t n d ng nhãn tham chi u khác chuyên v nh n d ng th c th có tên, [29] c m c a Illinois NER có kh n d ng nhãn tham chi u n m Wikipedia Vi c k t h p gi c th c hi n b ng cách h p hai t p nhãn tham chi u nh n d ng b i hai h th ng; nhiên nhãn tham chi u nh n d ng b Illinois NER n u b trùng ho c ch ng chéo (overlap) v v trí v i b t k nhãn tham chi u nh n d ng b us b b ck t h p theo lý thuy t s làm thêm s ng nhãn tham chi i di n có th u su t c a MACH Trong B ng 4-6 B ng 4-7, t p t t c ch a toàn b 2,226 nhãn tham chi u c a t p TAC 2012, t p không NIL ch a 1,177 nhãn tham chi u có th c th tri th c t p NIL ch a 1,049 nhãn tham chi u khơng có th c th tri th c B ng 4-6 cho bi t hi u su t phân gi i nh p nh ng c a MACH theo MAA F B-Cubed+ t TAC 2012 Hi u su t MAA c t 76.2% g n i u TAC 2012, MS_MLI3 v i hi u su t MAA 76.6% T T t c (2,226) Không NIL (1,177) NIL (1,049) MAA 76.2% 64.5% 89.3% B ng 4-6: Hi u su t c a MACH t 45 FB-Cubed+ 71.0% 62.3% 82.4% B ng 4-7 cho th y k t qu so sánh hi u su t F B-Cubed+ gi a MACH u TAC 2012 MACH x p h ng hai danh sách, 2% v hi u su t F B-Cubed+ so v i h th u MS_MLI3 Tuy nhiên hi u su t F B-Cubed+ i v i nh ng nhãn tham chi u ánh x vào th c th n tri th c l H th ng T tc Không NIL NIL MS_MLI3 73.0% 68.5% 78.1% MACH 71.0% 62.3% 82.4% HLTCOE1 69.9% 65.3% 74.9% LCC20123 68.9% 62.0% 76.5% BLENDER_CUNY3 68.8% 59.5% 78.9% SYDNEY_CMCRC 66.5% 65.6% 67.5% B ng 4-7: So sánh k t qu F B-Cubed+ c a MACH m t s TAC 2012 Trong B ng 4-8 s ng nh ng Có th th y MACH s d ng nhiên hi u su cl i d ng module phân gi i nh p nh t so v i kh quan H th ng S MS_MLI3 10 MACH HLTCOE1 116 LCC20123 20 BLENDER_CUNY3 > 200 SYDNEY_CMCRC 18 B ng 4-8: S u d ng phân gi i nh p nh ng 46 T NG K T óng góp Lu n án khai thác Wikipedia xây d ng m t h th ng phân gi i nh p nh t tên MACH d n Milne [20] k t h p v i nhãn tham chi i di n, heuristic l c ng viên, l p c i thi n d n s d ng t g c th có góc nhìn t K t qu th c nghi m cho th y hi u su t cu i c a MACH a Milne (dùng mô hình g a Ratinov trung bình t kho n 34% c MAA F BOT t thông Lu n án p c n m t toán phân gi i nh p nh ng 2012 so sánh v tham gia h i ngh K t qu c i kh ng th c r ng ch v i hai c mơ hình phân h ng ng viên hi u qu cho m t h th ng phân gi i nh p nh ng ng phát tri n Trong lu n án này, ch áp d ng tham chi u vào vi c truy h i ng viên gom c m th c th n tri th c M t câu h t li u có th áp d ng tr c ti ng tham chi u vào mơ hình phân h ng hay khơng? Trong q trình phân tích l i, nh n th y r c truy h i ng viên phân h ng my 47 l i t p trung vào i ng viên c a MACH ph thu c vào liên k t t n t i Wikipedia, v y t n t i nh ng ng viên mà MACH không th truy h c n u m t liên k n th c th không t n t i Vì v y vi c c i thi i u ch nh i không ph thu c vào liên k t Wikipedia m u c n thi t V vi c phân h ng, nhi ng h p MACH phân h ng sai ng viên có ng i sát th c th i ch th c th x p h u m t kho ng giá tr r t nh M ng ti p c gi i quy t v ki m tra phân h ng l i n u ng viên cx u x p th m s cách m t kho ng giá tr nh 48 TÀI LI U THAM KH O [1] K Bontcheva, M Dimitrov, D Maynard, V Tablan, and H Cunningham, "Shallow methods for named entity coreference resolution," in Langues Naturelles, 2002 [2] R Bunescu and M Pasca, "Using encyclopedic knowledge for named entity disambiguation," in Proc 11th Conf European Chapter Association Computational Linguistics, 2006, pp 9-16 [3] Z Chen and H Ji, "Collaborative ranking: A case study on entity linking," in Proc 2011 Conf Empirical Methods Natural Language Processing, 2011, pp 771-781 [4] S Cucerzan, "Large-scale named entity disambiguation based on Wikipedia data," in Proc 2007 Joint Conf Empirical Methods Natural Language Processing and Computational Natural Language Learning, 2007, pp 708716 [5] S Cucerzan, "MSR system for entity linking at TAC 2012," in Proc 5th Text Analysis Conf., 2012 [6] S Cucerzan, "TAC entity linking by performing full-document entity extraction," in Proc 4th Text Analysis Conf., 2011 [7] H Cunnningham, D Maynard, K Bontcheva, and V Tablan, "GATE: A framework and graphical development environment for robust NLP tools and applications," in Proc 40th Annu Meeting Association Computational Linguistics, 2002 [8] M Dredze, P McNamee, D Rao, A Gerber, and T Finin, "Entity disambiguation for knowledge base population," in Proc 23rd Int Conf Computational Linguistics, 2010, pp 277-285 [9] W A Gale, K W Church, and D Yarowsky, "One sense per discourse," in Proc Workshop Speech and Natural Language, 1991, pp 233-237 49 [10] J Gales, "Internet encyclopedia go head to head," Nature, vol 438, pp 900901, 2005 [11] B Hachey, W Radford, J Nothman, M Honnibal, and J R Curran, "Evaluating entity linking with Wikipedia," Artificial Intelligence, vol 194, pp 130-150, 2013 [12] X Han, L Sun, and J Zhao, "Collective entity linking in web text: A graphgased method," in Proc 34th Int ACM SIGIR Conf Research and Development Information Retrieval, 2011, pp 765-774 [13] J He and M de Rijke, "A ranking approach to target detection for automatic link generation," in Proc 33rd Int ACM Special Interest Group Information Retrieval Conf Research and Development Information Retrieval, 2010, pp 831-832 [14] H Ji, R Grishman, and H T Dang, "An overview of the TAC 2011 knowledge base population track," in Proc 4th Text Analysis Conf., 2011 [15] S Kulkarni, A Singh, G Ramakrishnan, and S Chakrabarti, "Collective Annotation of Wikipedia Entities in Web Text," in Proc 15th ACM SIGKDD Int Conf Knowledge Discovery and Data Mining, 2009, pp 457-465 [16] J L Leidner, G Sinclair, and B Webber, "Grounding spatial named entities for information extraction," in Proc North American Chapter Association Computational Linguistics: Human Language Technologies 2003 Workshop Analysis Geographic References, 2003, pp 31-38 [17] H Li, R K Srihari, C Niu, and W Li, "InfoXtract location normalization: a hybrid approach to geographic references in information extraction," in Proc North American Chapter Association Computational Linguistics: Human Language Technologies 2003 Workshop Analysis Geographic References, 2003, pp 39-44 [18] P McNamee et al., "HLTCOE participation at TAC 2012: Entity linking and cold start knowledge base construction," in Proc 5th Text Analysis Conf., 2012 50 [19] R Mihalcea and A Csomai, "Wikify! Linking Documents to Encyclopedic Knowledge," in Proc 16th ACM Conf Information and Knowledge Management, 2007, pp 233-242 [20] D Milne and I H Witten, "An open-source toolkit for mining Wikipedia," Artificial Intelligence, vol 194, pp 222-239, 2012 [21] D Milne and I H Witten, "Learning to link with Wikipedia," in Proc 17th ACM Conf Information and Knowledge Management, 2008, pp 509-518 [22] S Monahan and D Carpenter, "Lorify: A knowledge base from scratch," in Proc 5th Text Analysis Conf., 2012 [23] H T Nguy n, "Phân gi i nh p nh ng th c th có tên d a ontology i h c Bách Khoa Tp.HCM, Tp H Chí Minh, Lu n án Ti 2008 [24] H T Nguyen and T H Cao, "Named entity disambiguation: A hybrid statistical and rule-based incremental approach," in Proc 3rd Asian Semantic Web Conf., 2008, pp 420-433 [25] T T Nguy n and T L T Võ, "Phân gi i nh p nh ng th c th Wikipedia," i h c Bách Khoa Tp.HCM, Tp H Chí Minh, Lu t nghi iH c 2011 [26] A Pilz and G Paass, "Collective search for concept disambiguation," in Proc 24th Int Conf Computational Linguistics, 2012, pp 2243-2258 [27] W Radford et al., "(Almost) Total recall - SYDNEY CMCRC at TAC 2012," in Proc 5th Text Analysis Conf., 2012 [28] but effective NIL clustering baselines Text Analysis Conf., 2011 CMCRC at TAC 2011," in Proc 4th [29] L Ratinov and D Roth, "Design challenges and misconceptions in named entity recognition," in Proc 13th Conf Computational Natural Language Learning, 2009, pp 147-155 [30] L Ratinov, D Roth, D Downey, and M Anderson, "Local and global 51 algorithms for disambiguation to Wikipedia," in Proc 49th Annu Meeting Association Computational Linguistics: Human Language Technologies, 2011, pp 1375-1384 [31] W Shen, J Wang, P Luo, and M Wang, "LINDEN: Linking named entities with knowledge base via semantic knowledge," in Proc 21st Int Conf World Wide Web, 2012, pp 449-458 [32] W M Soon, H T Ng, and C Y Lim, "A machine learning approach to coreference resolution of noun phrases," Computational Linguistics, vol 27, no 4, pp 521-544, 2001 [33] V Stoyanov et al., "A context-aware approach to entity linking," in Proc Joint Workshop Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, 2012, pp 62-67 [34] S Tamang, Z Chen, and H Ji, "CUNY BLENDER TAC-KBP2012 Entity linking system and slot filling," in Proc 5th Text Analysis Conf., 2012 [35] G Weaver, B Strickland, and G Crane, "Quantifying the accuracy of relational statements in Wikipedia: A methodology," in 358-358, 2006, pp Proc 6th ACM/IEEE-CS Joint Conf Digital Libraries [36] W Zhang, J Su, and C L Tan, "A Wikipedia-LDA model for entity linking with batch size changing instance selection," in Proc 5th Int Joint Conf Natural Language Processing, 2011, pp 562-570 52 [1] H M Huynh, T T Nguyen, and T H Cao, "Using coreference and surrounding contexts for entity linking," in Proc 10th IEEE-RIVF Int Conf Computing and Communication Technologies, 2013, pp 1-5 (Best Paper Runner-up Award) [2] H T Nguyen, H M Huynh, T H Cao, and T T Nguyen, "JVN-TDT Entity linking systems at TAC 2012," in Proc 5th Text Analysis Conf., 2012 53 PH N LÝ L CH TRÍCH NGANG H tên: HU NH MINH HUY 01/01/1988 TP ng a ch : Q Thanh Khê, TP ng O - T 10: sinh viên t iH c c Th ng, TP.H Chí Minh, khoa Cơng Ngh Thơng Tin Toán ng D ng T n nay: h c viên cao h c t i H c Bách Khoa, TP.H Chí Minh, chuyên ngành Khoa H c Máy Tính QUÁ TRÌNH CƠNG TÁC Khơng có 54 ... ng cho toán phân gi i nh p nh ng th c th a TAC 2012 n Milne Witten [20] [21] s d c máy có giám sát phân gi i nh p nh ng th c th Nói m t cách v n t t, mơ hình h c máy c s d ng module phân gi i... ng 3-1: K t qu phân gi i c a gi i thu t h c máy theo Milne Trong trình nghiên c u, tác gi nghi m m t s c máy khác cho trình phân gi i nh p nh ng (B ng 3-1) Theo , gi i thu t h c máy C4.5 k t h... c a N u tiên 10 c a h th ng phân c p này, s phân lo i c a toàn b Wikipedia n v i toàn b trang th c th c Hình 2.3: Trang phân gi i nh p nh ng Hình 2.4 m v h th ng phân lo i c c trích t lu n án