Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
0,92 MB
Nội dung
UNIVERSITY OF ENGINEERING AND TECHNOLOGY VIETNAM NATIONAL UNIVERSITY, HANOI LE NGOC ANH NAMED ENTITY RECOGNITION FOR VIETNAMESE DOCUMENTS MASTER’S THESIS OF INFORMATION TECHNOLOGY Ha noi - 2015 UNIVERSITY OF ENGINEERING AND TECHNOLOGY VIETNAM NATIONAL UNIVERSITY, HANOI LE NGOC ANH NAMED ENTITY RECOGNITION FOR VIETNAMESE DOCUMENTS Major: Computer Science Code: 60.48.0101 MASTER’S THESIS OF INFORMATION TECHNOLOGY Supervisor: Assoc.Prof.Dr Le Anh Cuong Ha noi - 2015 i Originality statement “I hereby declare that the work contained in this thesis is of my own and has not been previously submitted for a degree or diploma at this or any other higher education institution To the best of my knowledge and belief, the thesis contains no materials previously published or written by another person except where due references or acknowledgements are made.” Signature:………………………………………… ii Supervisor’s approval “I hereby approve that the thesis in its current form is ready for committee examination as a requirement for the Master of Computer Science degree at the University of Engineering and Technology.” Signature:……………………………………………… iii Abstract Named Entity Recognition (NER) aims to extract and classify words in documents into pre-defined entity classes It is fundamental for many natural language processing tasks such as machine translation, information extraction and question answering NER has extensively studied for other languages such as English, Japanese and Chinese, etc However, NER for Vietnamese is still a challenging due to its characteristics and the lack of Vietnamese corpus In this thesis, we study approaches to NER including handcrafted rules, machine learning and hybrid methods We present challenges in NER for Vietnamese such as the lack of standard evaluation corpus and the standard methods for constructing data set Specially, we focus on labeling entities Vietnamese since most study has not presented the detail of handcrafting entities in Vietnamese We apply supervised machine learning methods for Vietnamese NER based on Conditional Random Field and Support Vector Machine with changes in feature selection suitable for Vietnamese The evaluation shows that these methods outperform other traditional methods in NER, such as Hidden Markov Model and rule-based methods iv Aknowledgement First, I would like to thank my supervisor Assoc Prof Dr Le Anh Cuong for his advice and support This thesis would not have been possible without him and without freedom and encouragement he has given me over the last two years I spent at the Faculty of Technology of University of Engineering and Technology, Vietnam National University (VNU), Ha Noi I have been working with amazing friends in the K19CS class I dedicate my gratitude to each of them: Tai Pham Dinh, Tuan Dinh Vu, and Nam Thanh Pham I would especially like to thank the teachers in University of Engineering and Technology, VNU for the collaboration, great ideas and feedbacks during my dissertation Finally, I thank my parents and my brother, Hoang Le, for encouragement, advice and support I especially thank my wife, Linh Thi Nguyen, and my lovely daughter, Ngoc Khanh Le, for their endless love and sacrifice in the last two years They gave me strength and encouragement to this thesis Ha Noi, September, 2015 Le Ngoc Anh v Contents Supervisor‟s approval ii Abstract iii Aknowledgement iv List of Figures vii List of Tables viii List of Abbreviations ix Chapter Introduction .1 1.1 Information Extraction 1.2 Named entity recognition 1.3 Evaluation for NER .4 1.4 Our work Chapter Approaches to Named Entity Recognition .6 2.1 Rules based methods .6 2.2 Machine learning methods 2.3 Hybrid methods 17 Chapter Feature Extraction 18 3.1 Characteristics of Vietnamese language 18 3.1.1 Lexical Resource 18 3.1.2 Word Formation 18 3.1.3 Spelling Variation 18 3.2 Feature selection for NER 19 3.2.1 Feature selection methods 20 3.2.2 Mask methods .21 3.2.3 Taxonomy of features 21 3.3 Feature selection for Vietnamese NER .23 4.1 Data preparation 26 4.2 Machine learning methods for Vietnamese NER 29 4.2.1 SVM method 29 vi 4.2.2 CRF method 30 4.3 Experimental results 31 4.4 An example of experimental results and error analysis 32 Chapter Conclusion 37 References .38 vii List of Figures Figure 1.1: Example of automatically extracted information from a news article on a terrorist attack Source [18] .1 Figure 2.1: Directed graph represents HMM Figure 2.2: How to compute transition probabilities 10 Figure 2.3: A two dimensional SVM, with the hyperplanes representing the margin drawn as dashed lines .12 Figure 2.4: The mapping of input data from the input space into an infinitely dimensional Hilbert Space in a non-linear SVM classifier Source [17] 14 Figure 3.1: A taxonomy of feature selection methods Source [21] 20 Figure 4.1: Generating training data stages 27 Figure 4.2: Vietnamese NER based on SVM .30 Figure 4.3: Vietnamese NER based on CRF 31 viii List of Tables Table 3.1: Word-level features 22 Table 3.2: Gazetteer features 23 Table 3.3: Document and corpus features .23 Table 3.4: Orthographic features for Vietnamese 24 Table 3.5: Lexical and POS features for Vietnamese 24 Table 4.1: An example of a sentence in training data 28 Table 4.2: Statistics of training data in entity level .28 Table 4.3: The number of label types in training data and test data .29 Table 4.4: Results on testing data of SVM Learner 31 Table 4.5: Results on testing data of NER using CRF method .32 Table 4.6: Annotating table 32 25 We used a dictionary which consists of 36280 proper names; and a location dictionary containing 712 location names; 26 Chapter Experiments In this chapter, we present our experiment with the SVM approach for Vietnamese NER The chapter is organized as follows In section 4.1, we describe the data set used in the experiment In section 4.2, the detail of our method is presented Section 4.3 we discuss about the results and a comparison with other methods Finally, error analysis will be given in Section 4.4 4.1 Data preparation We used the data set from the VLSP project which has 10.000 sentences in 142 articles from website tuoitre.vn and other resources We carried out the following steps for preparing training data We are used IOB structure [15] to label all named entities: I - Current word is inside of a named entity O - Current word is outside of a named entity B - Current word is the beginning of a named entity The IOB notation is used when named entities are not nested and therefore not overlap For example, we can identify the whole phare “Bộ Thông_tin truyền_thông”(Ministry of information and communication) is a organisation so that this phrase is annotated as “Bộ/B_ORG Thông_tin/I_ORG truyền_thông/I_ORG” Given a word and four target entity classes including PER (person), ORG (organization), LOC (Location) and O (Other) class, for any palicular named entity class C (except for the O class), the class label could be one of the two forms B-C (beginning of the named entity) or I-C (inside of the named entity) The labeling problem for NER can therefore be reduced to the problem of assigning one label in 3*2 + = labels to each word One prohibitive factor when constructing a supervised model based on labeled training examples is the high cost of human annotation We used Gate Developer 7.1 tool for annotating which helps the annotator save time and reduces mistakes while annotating The process of constructing the training data can be describled as follows – Figure 4.1, it includes stages: + Stage 1: Word segmentation + Stage 2: POS tagging + Stage 3: Annotating NE 27 + Stage 4: Generate training data Raw data (From VLSP) Word Segmentation (1) Part of Speech Tagging (2) Named entity tagging (manual) (3) Generate Training data (4) Figure 4.1: Generating training data stages First, we collect 10.000 sentences of 142 articles from VLSP project‟s data which is a big project in natural language processing (NLP) which aim to build up data in NLP Then, in stage 1, we used the word segmentation tool [4] whose precision is evaluated at 94.23% to perform segmenting word for these sentences before human NE annotation In stage 2, we carry out using POS tagging tool [4] to label POS tag for this word segmented data output from stage In stage 3, we use Gate Developer tool to label named entities for data output from stage Finally, we combine two data to get training data which has following format: 28 Word Báo_cáo Bộ_Quốc_phòng nhằm đánh_giá Các kịch_bản Mỹ đối_mặt Trong trường_hợp buộc phải can_thiệp POS Tag V A E N Nb V L N Np R V E N V V V NE Tag O O O B_ORG O O O O B_LOC O O O O O O O O Table 4.1: An example of a sentence in training data Table 4.2 presents the number of sentences, person names, organisation names, location names and named entities in training data set and test data set Table 4.3 shows the number of label types in training data and testing data which is presented in IOB label level Training set Test set No of sentences 8280 2168 No of Persons 3662 807 No of Organisations 838 190 No of Locations 3103 613 No of Nes 7603 1610 Table 4.2: Statistics of training data in entity level 29 Training set O Test set 168826 41860 3662 807 83 38 B_ORG 838 190 I_ORG 1034 238 B_LOC 3103 613 I_LOC 464 112 9184 1998 B_PER I_PER Total NE Table 4.3: The number of label types in training data and test data 4.2 Machine learning methods for Vietnamese NER We apply two machine learning methods, namely SVM and CRF, to Vietnamese NER problem In the following, we describe the process that was performed in our experiment 4.2.1 SVM method We perform the following steps when applying SVM method for Vietnamese NER: + Step 1: Generating feature vectors for every word in training data set and testing data set In the step, we used features including lexical feature, POS tag feature and gazetteer feature Type Lexical POS Gazetteer Template Description L-2, L-1,L0,L1,L2 Window context previous words and next words (size of windows is 5) P-2, P-1,P0,P1,P2 Using current POS, preceeding POS and succeeding POS We used the dictionary includes 36280 proper names; and the Location dictionary includes 712 location names 30 + Step 2: Using libsvm from4 builds the model from training data + Step 3: Applying the model from step for testing data to make results Figure 4.2 shows all steps applying SVM method for Vietnamse NER Details of parameters in SVM model are shown in In our experiment, we use grid tool [5] to find the optimal parameters Training data (1) SVM Learning (2) Generate feature vectors Testing data (1') SVM Model (3) Results (4) Figure 4.2: Vietnamese NER based on SVM 4.2.2 CRF method We apply CRF method using CRF tool (FlexCRF) which is written in C++ We modify this CRF tool for character set UTF-8 and adjust features selection function for Vietnamese NER features which is showed in the section 3.3 There are several options in FlexCRF that need to be specified before training phase The initial values for the weight of features in CRF model (init_lamda_val) are 0.0 The number of iterations (num_iteration) for training CRF model takes the value of 70 Figure 4.3 shows all elements of our experiment using CRF https://www.csie.ntu.edu.tw/~cjlin/libsvm/ https://www.csie.ntu.edu.tw/~cjlin/libsvm/ 31 Training data CRF Learning Feature extraction NER Model Testing data Output results Decoding Figure 4.3: Vietnamese NER based on CRF We perform this model on folds data We get the highest result with an F1-measure of 85.02% The detailed results on test data using CRF model are shown in Table 4.5 4.3 Experimental results Table 4.4 presents the highest result on testing data of SVM method Precision (%) Recall (%) F1-Measure (%) B_PER 92.15 96.17 94.12 I_PER 100 100 100 B_LOC 83.63 81.33 82.46 I_LOC 62.82 62.82 62.82 B_ORG 71.02 64.7 67.71 I_ORG 85.83 60.40 70.90 Average 82.58 77.58 80.00 Table 4.4: Results on testing data of SVM Learner 32 Precision (%) Recall (%) F1-Measure (%) B_PER 93.14 93.94 93.54 I_PER 100.00 100.00 100.00 B_LOC 87.27 83.72 85.46 I_LOC 75.61 62.00 68.13 B_ORG 72.86 75.13 73.98 I_ORG 92.96 75.86 83.54 Average 86.53 83.56 85.02 Table 4.5: Results on testing data of NER using CRF method 4.4 An example of experimental results and error analysis We use the following color scheme to annotate the text: Color Entity Red Person Blue Organization Green Location Table 4.6: Annotating table Cả làng ta chạy Đồng_chí Phạm_Hữu_Năm/B_PER - Phó Chủ_tịch xã , người làng , thường_xuyên sâu_sát với phong_trào chạy làng , cho biết : Chính_quyền làng_xã cảm_ơn bác Lớc/B_PER phát_động phong_trào chạy thể_dục , nâng cao thể_lực tinh_thần cho người dân , không_những , noi theo bác Lớc/O , cấp tổ - phường xã_hội cho ra_đời nâng cao hoạt_động có_ích : Khuyến_học , thành_lập thư_viện sách_báo cho thôn , học_tập kinh_nghiệm làm_ăn , nuôi tốt , dạy ngoan Được biết , nhờ ông " Lớc/B_PER việt_dã/I_PER " lứa tuổi noi theo , em sinh_viên đại_học làng mở lớp dạy thêm miễn_phí cô_giáo Thịnh/B_PER , cô_giáo Diệp/B_PER Từ công_tác từ_thiện quyên_góp quỹ người nghèo , ủng_hộ đồng_bào bị lũ_lụt , thiên_tai , bao_giờ tinh_thần làng đứng đầu tỉnh_thành 33 Đến nâng cao ý_thức xây_dựng quê_hương , con_cháu có học_hàm , học_vị xa , có_khi tít tận bên tây , bên Nga/B_LOC , nghe thấy tin ông Lớc/B_PER việt_dã/O , nghe tin làng khấm_khá , viết thư , gửi tiền ủng_hộ động_viên quê_hương ngày_càng tốt_đẹp Nhưng nói ông Lớc/B_PER , quý thấy lớp người tuổi_trẻ học_sinh nâng cao ý_chí vươn lên học_tập làm_sao mà không mừng , bản_lĩnh tôi_luyện từ phong_trào thể_thao , năm , số con_em làng vào đại_học từ đến em Theo Lao_Động/B_PER 00:46:00 Ghi_chép từ cánh rừng “ cai_nghiện ” ( kỳ ) : Lên rừng làm lại cuộc_đời ! TT/B_ORG - Ở Trung_tâm/O trung_chuyển/O Bình_Triệu/B_LOC , phải gai_ốc trước hàng chục cặp mắt chăm_chắm nhìn qua chấn_song sắt , day_dứt trước cặp mắt thờ_ơ đến gần vô_cảm trước tương_lai họ Ngày_mai họ chuyển lên cánh rừng để làm lại cuộc_đời Chuyện khó_khăn điều đơn_giản Trung_tâm/O (/O TT/B_ORG )/O Trọng_Điểm/O , g 30 sáng nghe tiếng kẻng vang_vọng từ đội sang đội khác Trời tối_mò , mờ sương , lạnh không phép ngủ tiếp Các phòng sáng đèn , ồn_ã tiếng nước chảy , tiếng nói_chuyện Sau thể_dục buổi sáng , đoàn học_viên đồng_phục tề_chỉnh , xếp_hàng vào lớp_học , vác cuốc rẫy trồng điều hay vào xưởng may , xưởng mộc Vào trường , “ vui suốt sáng , trận cười thâu đêm ” , sinh_hoạt học_viên phải tuân theo thời_biểu định sẵn , không sai_lệch , biểu_hiện cá_nhân Lặng_lẽ có_lẽ tính_cách thấy nơi con_người thời “ quậy tưng ” nhà xóm , lại nét thường gặp hầu_hết học_viên trường cai_nghiện Hỏi trả_lời , cô gái cắm_cúi xuống máy_may , rổ hạt điều , thoáng cười nhẹ hỏi cuộc_sống tập_thể “ Đông người thường_xuyên cười_nói , ca_hát , đánh cầu_lông , có tivi , karaoke đâu thể_nào gọi vui Mình làm chịu ” , cô bé trẻ lạnh_lùng đáp Mấy cậu con_trai ngẩng lên khỏi bàn_máy buông câu đùa : “ Ngoài đời , ngã tư đèn_xanh đèn_đỏ không chị ? ” Không có tiếng cười sau câu đùa , câu_chuyện vào ngõ_cụt Ừ , cuộc_sống làm_sao mà vui tứ_phía tường rào , song sắt , bảo_vệ canh_gác , khám_xét chặt_chẽ ra_vào Trên tường phòng sinh_hoạt đội TT/O Nhị_Xuân/B_LOC thấy có câu khẩu_hiệu : “ Xử_lý tốt Nhưng để xử_lý tốt nhiều ” 34 Tôi gặp cô gái nằm sấp giường , bặm môi viết lúc người khác giặt quần_áo , lau nhà Hỏi , cô môi cho biết viết thư nhà mà chép phạt vi_phạm kỷ_luật Hình_thức chép phạt 20 lần tự kiểm với người học hết lớp nặng_nề Các giáo_dục viên cho biết họ phải nhiều thời_gian suy_nghĩ định hình_thức xử_lý kỷ_luật với người có vi_phạm Để tất_cả người quan_niệm “ vui_chơi bất_cần thân_thể ” lễ_phép “ chào thầy , chào cô ” , tự_giác tuân theo kỷ_luật , lại kỷ_luật sắt , không đơn_giản Đạt/B_PER , học_viên thuộc vào hàng “ xịn ” TT/B_ORG Nhị_Xuân/I_ORG , học giỏi không bao_giờ vi_phạm kỷ_luật , tâm_sự bây_giờ nhà , em “ lớn ” người bạn tuổi 20 với nhiều “ Vì em biết tới hai cuộc_sống : phá hỏng tốt_đẹp , hai làm lại chút từ số_âm ” Thấy ngạc_nhiên trước câu triết_lý , Đạt/B_PER lại “ triết_lý ” tiếp : “ Thật mà , em học nhiều không cai_nghiện Nhưng giá_như đừng nghiện , đừng phải cai_nghiện tốt Từ bé em mong_ước trở_thành kiến_trúc_sư , biết bao_giờ đến trường ” “ Không để thời_gian trống , không để học_viên có thời_gian suy_nghĩ , mơ_tưởng ma_túy ” nguyên_tắc tất_cả trường cai_nghiện Lịch học_tập , sinh_hoạt vì_thế ken kín suốt ngày , suốt tuần Hết học , lao_động đến sinh_hoạt chung , tập thể_thao , văn_nghệ Phòng giáo_dục - tư_vấn bận_rộn để soạn_thảo chương_trình học_tập cho học_viên , liên_kết với trường để mở khóa đào_tạo liên_tục Cao_Chí_Long/B_PER có đầu_đinh đôi mắt lì , ba năm cai_nghiện Nhị_Xuân/B_LOC lấy tốt_nghiệp THPT , chứng_chỉ kỹ_thuật_viên tin_học chứng_chỉ Aptech Long/B_PER bảo như_vậy thua xa cô em_gái nhà vừa_mới lấy đại_học ngành công_nghệ_thông_tin “ Nhưng_mà ba năm em không vào , không cai_nghiện mắc bệnh AIDS , mù tin_học đứa bỏ học từ lớp 11 ” , Long/B_PER nói thật lòng Ở TT/O Đức_Hạnh/B_PER , Trọng_Điểm/B_PER , anh giáo_dục viên cho phép lang_thang từ rẫy vào đến khu , từ lớp_học văn_hóa đến xưởng làm_việc 35 Tôi để_ý nhiều đến cánh_tay học_viên Có cánh_tay vằn_vện hình xăm trổ , có cánh_tay rõ u cục mang dấu kim tiêm Những cánh_tay như_vậy gồng lên cầm cây_bút viết chữ lớp_học , tỉ_mẩn đường kim mũi xưởng thợ , hăm_hở vác rẫy bó mụt măng , rổ rau xanh , cắt gọt rửa bổ_sung vào bữa ăn chiều “ Có lúc quên để trồng cọng rau khó biết_bao ” , Thanh/B_PER - anh_chàng vừa bà ngoại thăm_nuôi sáng - trầm_ngâm bảo Thanh/B_PER có tuổi thiếu_niên sáng học , chiều phụ bà bán trái_cây , rau_quả chợ Rồi Thanh/B_PER làm_quen với ma_túy , đốt thành khói lần gánh rau bà Trong khuôn_viên đội/O 3/O , TT/O Đức_Hạnh/B_PER có câu_lạc_bộ xây_dựng bàn_tay học_viên Mái , cột gỗ , không_gian hình_tròn , vuông , chữ_nhật ngăn_cách nối thảm cỏ , hình_thức y_như quán cà_phê sân vườn Sài_Gòn/B_LOC Được trang_bị tivi , đầu_video , thực_đơn giải_khát dán bàn , CLB/B_ORG chỗ giao_lưu học_viên nam_nữ Tối , đèn màu nhấp_nháy , nhạc , phim , nhóm rì_rầm trò_chuyện Phải phấn_đấu , phải đăng_ký chịu kiểm_tra giao_lưu như_vậy nên gương_mặt rạng vui Hạnh_phúc ? Tính đến ngày 31 - - 2005 , tổng_số học_viên cai_nghiện 20 trường , trung_tâm ( thuộc Sở/B_ORG LĐ/I_ORG -/I_ORG TB/I_ORG &/I_ORG XH/I_ORG Lực_lượng/B_ORG TNXP/I_ORG TP/I_ORG /I_ORG HCM/I_ORG ) 31.300 người Trong 15.500 người qua giai_đoạn ( 24 tháng tập_trung bắt_buộc ) Hiện có 6.208 học_viên học văn_hóa , 1.855 học_viên theo học nghề phổ_thông Trong có 6.229 học_viên hoàn_thành giai_đoạn cai_nghiện tập_trung , có việc_làm thu_nhập tháng trường trung_tâm Tham_dự buổi sinh_hoạt , thảo_luận giá_trị sống đội/O 7/O , TT/O Nhị_Xuân/B_PER , học nhiều điều cho Analising errors A major error is the confusion between LOC and ORG label For example, in the sentence “ở TT Trọng_Điểm…/ In Trong_Diem Centre”, “TT Trọng_Điểm/ Trọng_Diem Centre” is labelled a LOC, but in the sentence “TT Trọng_Điểm 36 tổ_chức…/ Trong_Diem Centre organise …” Trong_Diem Centre is annotated as ORG The former has a prepostion before Trong_Diem centre, while in the latter, after Trong_Diem centre is a verb In the sentence “Ở Trung_tâm/O trung_chuyển/O Bình_Triệu/B_LOC…” due to the significant words “Ở/In”, Binh_Trieu is recognized as ORG Moreover, there are popular errors due to the variations in Vietnamese spelling There are many instances of common noun For example, “sinh_viên/students” can be abbreviated as “SV/STUDENTS” In addition, there are many naming ways for the same entity For instance, both “Luân_Đôn/London” and “London” indicate a city A solution for this problem is to use co-reference gazetteers 37 Chapter Conclusion In this thesis, we have studied the Vietnamese NER problem The aim is to identify and classify entities to predefined-classes including person names, location names, organization, time and numbers, from Vietnamese text documents This problem is one of the fundamental tasks of NLP which is usefull for IE, question answering, machine translation and so on We have reviewed popular approaches for the NER problem including rule-based, machine learning and hybrid methods A data set was created from 10.000 Vietnamese sentences of VLSP project data6, which is compliant with the criteria of MUC-7 We used two methods to build the model for the Vietnamese NER: the CRF method with the modified FlexCRF tool and the SVM method with the LIBSVM library A set of Vietnamese features were carefully selected in order to evaluate the methods The experimental results show that CRF outperforms traditional SVM, with a suitable feature selection and the value of parameters In the future, more study on novel methods for features selection and parameter estimation is needed in order to achieve better results for the actual Vietnamese NER problem http://vlsp.vietlp.org:8080 38 References [1] Andrew Borthwick A Maximum Entropy Approach to Named Entity Recognition PhD thesis, New York University, New York, September 1999 [2] Black, W., Rinaldi, F., and Mowatt, D (1998) FACILE: Description of the NE system used for MUC In Proceedings of the Seventh Message Understanding Conference (MUC-7) [3] C Cortes, V Vapnik, Support-Vector Networks, Machine Learning, 20, 1995 [4] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, and Quang-Thuy Ha Vietnamese Word Segmentation with CRFs and SVMs: An Investigation [5] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin A Practical Guide to Support Vector Classification [6] Dat Ba Nguyen, Son Huu Hoang, Son Bao Phan and Thai Phuong Nguyen Named entity recognition for Vietnamese ACIIDS 2010, Part II, LNAI 5591, pp.205-214 [7] Dat Ba Nguyen, Son Bao Pham Ripple Down Rules for Vietnamese Named Entity Recognition Pages 354-363 ICCCI 2012: Ho Chi Minh City, Vietnam [8] David Nadeau Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision Ottawa-Carleton Institute for Computer Science School of Information Technology and Engineering University of Ottawa, Canada, 2007 [9] Duc-Thuan Vo and Cheol-Young Ock A Hybrid Approach of Pattern Extraction and Semi-supervised Learning for Vietnamese Named Entity Recognition [10] Fredrick Edward Kitoogo and Venansius Baryamureeba A Methodology for Feature Selection in Named Entity Recognition [11] J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, pages 282290, 2001 [12] Jain, A and Zongker, D (1997) Feature selection: evaluation, application, and small sample performance IEEE T ransactions on Pattern Analysis and Machine Intelligence, 19(2):153–158 39 [13] Joel Mickelin Named Entity Recognition with Support Vector Machines, Master of Science Thesis Stockholm, Sweden 2013 [14] Lassila, R Swick Resource description framework (RDF) model and syntax specification, W3C Recommendation 1999, http://www.w3.org/TR/RECrdfsyntax/ [15] MUC-7 Named entity Task definition [16] N.C Tu, T.T Oanh, P.X Hieu and H.Q Thuy, “Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields,” the 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Vietnam, 2005 [17] Petasis, G., Vichot, F., Wolinski, F., Paliouras, G., Karkaletsis, V and Spyropoulos, C.D (2001) Using Machine Learning to Maintain Rule-based Named-Entity Recognition and Classification Systems Proceeding Conference of Association for Computational Linguistics, pages 426-433 [18] Pobeau, T.; Saggion, H.; Piskorski, J.; Yangarber, R (Eds) Chapter 2, Multisource, Multilingual Information Extraction and Summarization 20313 [19] Rabiner A tutorial on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989 [20] S Marsland, Machine Learning, an Algorithmic Perspective, 1st edition, Chapman & Hall, London, 2009 [21] Toine Bogers, Dutch Named Entity Recognition: Optimizing Features, Algorithms, and Output, September 8, 2004 [22] Tran Tri Q et al Named entity recognition in Vietnamese document, 2007 [23] Tri, T.Q., Thao, P.T.X., Hung, N.Q., Dien, D., Nigel, C.: Named Entity Recognition in Vietnamese documents Proceedings of Progress in Informatics (4), 5–13 (2007) [24] Winston, P.H (1992) Articial Intelligence Addison-W esley Publishing Company , 3rd edition [25] Yu-Chieh Wu, Teng-Kai Fan, Yue-Shi Lee, and Show-Jane Yen Extracting Named Entities using Support Vector Machines ... HCM/I_ORG ) 31.300 người Trong 15.500 người qua giai_đoạn ( 24 tháng tập_trung bắt_buộc ) Hiện có 6.208 học_viên học văn_ hóa , 1.855 học_viên theo học nghề phổ_thông Trong có 6.229 học_viên hoàn_thành... g 30 sáng nghe tiếng kẻng vang_vọng từ đội sang đội khác Trời tối_mò , mờ sương , lạnh không phép ngủ tiếp Các phòng sáng đèn , ồn_ã tiếng nước chảy , tiếng nói_chuyện Sau thể_ dục buổi sáng... phát_động phong_trào chạy thể_ dục , nâng cao thể_ lực tinh_thần cho người dân , không_những , noi theo bác Lớc/O , cấp tổ - phường xã_hội cho ra_đời nâng cao hoạt_động có_ ích : Khuyến_học , thành_lập