Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt Nhận dạng và phân loại các thực thể có tên cho văn bản tiếng việt
Đ ẠI H Ọ C QUỐC GIA HÀ NỘI **** NHẬN DẠNG VÀ PHÂN LOẠI CÁC THựC THẺ CÓ TÊN CHO VẪN BẢN TIÉNG VIỆT M ã số: Q C 09.08 C hủ nhiệm đề tài: Phạm Bảo Sơn Ị 0AIMOC QỊ1'* G 'c Hí f\: l.\ ■ It V* «*-• 1- 'n\» Iho »if N ỒOOb 0 0 -1 Hà N ộ i - Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi M ỤC LỤC BÁO CÁO TỔNG KẾT .2 Giới th iệ u 2 Thách thứ c 3 Tổng quan vấn đề nghiên c ứ u 3.1 Các phương pháp phổ b iể n 3.2 G iới thiệu G A T E .5 Xây dựng C orpus cho tiếng V iệt Xây dựng hệ thống N E R cho tiếng V iệ t 5.1 Tiền xử l ý 10 5.2 B ộ từ đ iể n 11 5.3 Bộ lu ậ t 12 Thực n g h iệ m 14 6.1 Các bước tiến hành thực ngh iệm 14 6.2 K ết thực n g h iệ m 15 Kết lu ậ n 18 Tài liệu tham k h ả o 19 11 Danh sách người tham gia thực đề tài (học hàm, học vị, quan công tác) Chủ trì đề tài: • TS Phạm Bảo Sơn Những người thực hiện: H ọ tên TT H ọc vị Cơ quan công tác Bùi Thế Duy TS Trường ĐHCN Lê A nh C ường TS Trường ĐHCN N guyễn B Đ ạt CN Trường ĐHCN N guyễn Q uốc Đạt CN Trường ĐHCN N guyễn Q uốc Đại CN Trường ĐHCN Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi Danh mục hình Hình 3.1 - Kiến trúc tổng quát GATE Hình 4.1 - Mô hỉnh bước phát triển hệ thống Hình 5.1 - Mô tả chi tiết hệ thống nhận dạng thực thể văn tiếng V iệt Hình 5.2 - Một ví dụ cho trình nhận dạng thông minh 14 IV Danh mục bảng số liệu Bảng 6.1 - Kết nhận dạng tập huấn luyện 15 Bàng 6.2 - Bàng kết nhận dạng tập kiểm a Ị Bảng 6.3 - Kêt nhận dạng tập kiểm ừa với tiêu chí “lòng” ( lenientevaluation) 17 Bàng 6.4 - Kết thực nghiệm cùa số hệ thốngnhận dạng thực thể vănbản tiểng Việt 17 V Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi T ó m tắ t c c k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề tà i Kêt quà vé khoa học (những đóng góp đề tài, công trình khoa học công bố) báo đăng hội nghị quốc tế chuyên ngành (đăng IEEE CS) • Dang Due Pham , G iang Binh Tran and Son Bao Pham “A Hybrid Approach to Vietnamese Word Segmentation using Part o f Speech tags ”, Proceedings o f The first International Conference on Knowledge and Systems Engineering (KSE 2009) • Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham “A Vietnamese Question Answering S y s t e m Proceeding o f The first International Conference on Knowledge and Systems Engineering (KSE 2009) Két phục vụ thực tế (các sản phấm công nghệ, khả áp dụng thực tế) Chúng nghiên cứu phát triển m ột hệ thống nhận dạng thực thể có tên cho tiếng Việt đạt kết khả quan, song song với liệu gán nhãn chuẩn tài liệu định nghĩa loại thực thể Tất hệ thống tài liệu liên quan m cho cộng đồng sử dụng phát triển Kết đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia thực làm việc đề tài, so khóa luận, luận vân hoàn thành bảo vệ) khóa luận tốt nghiệp CNTT: '• Dat B a N guyen, "Named Entity Recognition fo r Vietnamese ”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009 • Dai Q uoc N guyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa O ntology”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009 • Dat Quoc N guyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”, Khóa luận tốt nghiệp đại học, Trường Đại học C ông N ghệ, 2009 Kết nâng cao tiềm lực khoa học (năng cao trình độ cán trang thiết bị hợc phần mềm xây dựng giao nộp đưa vào sử dụng đơn vị): Nâng cao lực chuyên môn cùa cán phòng thí nghiệm lĩnh vực xử lý ngôn n»ừ tự nhiên trí tuệ nhân tạo BÁO CÁO TỔNG KẾT G ió i th iệu Với bùng nổ nguồn liệu Internet, toán xử lý thông tin như: trích chọn thông tin, tóm tát nội dung văn v v đời nhu cầu tất yếu Bài toán nhận dạng thực thể m ột toán nhóm toán trích chọn thông tin N ó có nhiệm vụ tìm kiểm rút thông tin liên quan đến thực thể (m ột đối tượng tập hợp đối tượng giới tự nhiên) văn bản, thông thường loại thực thể Có tùy theo toán, lĩnh vực cụ thể, người ta đưa danh sách loại thực thể nhận dạng khác Các hệ thống nhận dạng thực thể văn [4], [8] thường nhận số loại thực thể: • Thực thể người (Person) • Thực thể tổ chức (O rganization) • Thực thể địa điểm (Location) • Thực thể ngày (Date) • Thực thể thời gian (Time) • Thực thể chi đơn vị tiền tệ (M oney) • Thực thể chi phần tràm (Percent) Trong đó, loại thực thể chi ngày (D ate), thực thể thời gian (Tim e), thực thể chi đcm vị tiền tệ (M oney), thực thể chi phần trăm (Percent) thường m ang tính nhập nhầng, không khó để nhận dạng N goài tùy lĩnh vực, người ta cỏ thể ý thêm vào loại thực thể khác đặc thù Ví dụ hệ thống nhận dạng thực thể văn với lĩnh vực y tế [14] nhận thực thể tên thuốc, c c io i bệnh v v loại thực thể Là toán quan trọng bàn chưa có nhiều nghiên cứu toán nhận dạng thực thể văn tiếng Việt Hơn hệ thống thời nguồn m nên khó để tiếp cận sứ dụng phát triển [4], [11] Chính định xây dựng m ột hệ thống nhận dạng thực thể sử dụng hệ luật cho văn tiếng Việt nguồn m khung làm việc G A TE (General A rchitecture for Text E ngineering)1 Toàn hệ thống m cho cộng đồng sử dụng phát triển Website thức GATE: htìp://gate.ac.uk/downỉoad/index.html Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi Song song với việc phát triển hệ thống, xây dựng m ột tài liệu bao gồm: định nghĩa thực thể, loại thực thể, với m ột tập dừ liệu gán nhãn chuẩn cho toán nhận dạng thực thể văn tiếng Việt T h ch th ứ c Có thách thức m phải vượt qua để giải toán này: • Tiếng V iệt m ang nhiều đặc trưng ngôn ngữ riêng khiến trở nên phức tạp so với tiếng A nh m ộ t số ngôn ngữ khác N hững khó khăn xuất phát từ đặc điểm sau: o Phân biệt từ không xác định dấu cách m ột từ bao gồm nhiều âm tiết âm tiết phân cách dấu cách Điều dẫn đến nhập nhằng ữ o n g phân đoạn từ tiếng V iệt Ví dụ: “Học sinh học sinh học ” phân đoạn từ thành “Học sinh học sin h ỳiọ c ” “Học_sinh học sinh học o N gữ pháp V iệt N am phức tạp với tượng đồng âm khác nghĩa, từ dồng nghĩa hay đảo trật tự câu phép tu từ dẫn đến nhập nhằng xác định ý nghĩa câu, từ • Chưa có corpus (tập sở liệu gán nhãn tiếng V iệt) công bố với kích thước đủ lớn để tiến hành thí nghiệm đánh giá hiệu phương pháp • Chưa có nhiều nghiên cứu tiền đề vấn đề phát nhận dạng thực thể có tên văn tiếng Việt • Đặc thù tiếng V iệt khó áp dụng kết nghiên cứu giới với tiếng A nh, Ả -R ập để đạt kết cao 3 T ổ n g q u a n v ấ n đ ề n g h iên u 3.1 Các phưong pháp phổ biến Có ba hướng tiếp cận cho toán nhận dạng thực thể văn bản: hướng tiếp cận sử dụng hệ luật xây dựng chuyên gia [4], [9], hướng tiếp cận sử dụng phương pháp học máy [8] hướng tiếp cận lai [5] Sử dụng chuyên gia xây dựng hệ luật phương pháp truyền thống, nói áp dụng sớm toán xử lý ngôn ngữ tự nhiên nói chung toán nhận dạng thực thể văn nói riêng Hệ luật m ột tập hợp luật người đặt nhằm mục đích định, việc nhận dạng thực thể văn Một hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sỗ có các thành phần như: từ loại (danh từ, động từ v.v )> ngữ cảnh (từ đứng trước, từ đứng sau v v ) số thuộc tính (viết hoa, viết thường v v ) kết hợp với m ột từ điển để viết thành luật [3] Ví dụ với câu sau đây: “President Bush said M onday’s talks will include discussion on security, a timetable fo r Ư.Sforces to leave Iraq." Trong ví dụ tò “B ush” đứng sau từ “President” nhận tên người (Person), “Iraq” đứng sau động từ “leave” dược nhận tên chi địa điểm (Location) M USE (M ulti source entity finder) phát triển GATE, hệ thống nhận dạng thực thể có tên dựa hệ luật thu kết cao -9 % [9] Đối với tiếng Việt, hệ thống VN-KỈM thu kết khả quan khoảng 81% cho loại tên: O rganization, Location, Person, D ate, Tim e, M oney and Percent [4], Các phương pháp học máy như: máy vector hồ trợ (SVM ), định, mô hình m arkov ẩn, CRF v v thường xuyên áp dụng thu kết cao toán xử lý ngôn ngữ tự nhiên Với hệ thống nhận dạng thực thể văn bàn sử dụng phương pháp học m áy, vấn đề nhận dạng thực thể (N ER - N am ed Entities Recognition) chuyển đối thành toán phân loại Đ ầu tiên sử dụng mô hình IOB đếgán nhãn cho từ theo tiêu chí: • I: từ nằm cụm thực thể xét • O: từ nằm cụm thực thể xét • B: từ vị trí bát đầu cụm thực thể xét Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi Sau dựa thông tin nhãn cùa từ thu qua m ô hình IOB, với từ loại loại thực thể (nam ed entity) v v để trích chọn đặc trưng làm đầu vào cho mô hình phân loại sử dụng phương pháp học máy Đối với tiếng Việt, m ột nghiên cứu tác giả N guyễn với hệ thống nhận dạng thực thể văn dựa m ô hình Conditional R andom Fields (CRF) để xác định loại thực thể: thực thể người (Person), thực thể địa danh (Location), thực thể chi tổ chức (O rganization), phần trăm, thời gian (Tim e), số (N um ber), tiền tệ (M oney) [11] Tác giả tiến hành thực nghiệm sử dụng công cụ FlexC R Fs2, sử dụng liệu gồm 50 báo lĩnh vực kinh doanh (khoảng gần 1400 câu) lấy từ nguồn báo điện tử vnexpress Biểu đồ hình 2.1 thể kết cùa 10 lần thử nghiệm với F-m easure trung bình khoảng - % “Hệ thống lai” hệ thống kết hợp hai hướng tiếp cận truyền thống, sử dụng hệ luật phương pháp học máy, nhằm sử dụng ưu điểm cùa cà hai hướng tiếp cận Tuy chưa có m ột nghiên cứu hướng tiếp cận tiếng Việt, có m ột vài nghiên cứu đạt kết khả quan với tiếng Trung Quốc xem gần gũi với tiếng Việt Sirhari X Fang đưa hệ thống lai kết hợp phương pháp học máy hệ luật [16], [5] Đặc biệt hệ thống X Fang thu kết cao cho văn tiếng Trung Tuy chưa có nhiều nghiên cứu hướng tiếp cận cho toán nhận dạng thực thể văn bàn tiếng Việt, với kết khả quan hướng quan trọng tương lai 3.2 Giới thiệu G ATE GATE m ột khung làm việc m ã nguồn m cho toán xử lý văn nhóm giáo sư Cunningham thuộc trường đại học Sheffield - Anh phát triển Có thể dow nload phiên G A TE m iễn phí địa chi: http://gate.ac.uk7do\vnload/index.htm ỉ Mô hình kiến trúc tổng quát G A TE m ô tả hình 3.1 T rong đó: • Tầng hiển thị (ID E GUI Layer): có nhiệm vụ hiển thị giao diện trực quan tương tác với người dùng • Tầng ứng dụng (A pplication Layer): gồm ứng dụng khác A N N IE (có sẵn G A TE) hay thành phần tích hợp (Plugin) v v http://flexcrfs.sourceforge.net' - website thức công cụ FlexCRFs APPENDIX a C o l t e c h - V N Ư ONTOLOGY PROPtRTV Elwv/stt! ▼ #tTJÒns Í2) •W jftSn (S) ktKM (3) ^rguyitxa* ■ cổ_fhúc_v\ljả ♦ noủyínuejuốc_«*í ■ có _hiệuJ ru d n g J SfiTg ^ryjy4i_quie_i* ♦.ng^.trlrgrwe^* ẸsựỉỆởệé t ngjyirvvin.d ■eò_họe_vLIỈ (Inin (U) ▼ # person M&iLyfciQ ỊiE«P5ưW,tựíệm (1) Ệehủc.Yự (11) ậhọoJ*inm ặậ & ềẫ Ị mí (3) Ị|' ■ cố_snh_viinjè ■ cdJnringjWnaJi ■còjtnjé péỏjfc_eHJé ♦vfcyifcM ế»ạjflọcjuyẻn ■ *ảng_d»Y ■ học ế a » » í( ) ■ a_qué_của ■ thuộc íHi vtéri 32 Authorized licensed uso limited lo: U N SW Library Downloaded on July 07,2010 si 02:28:28 ƯTC Irotr IEEE Xplcxe Restrictions apply Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi 2009 International Conference on Knowledge and Systems Engineering A H ybrid A pproach to V ietnam ese W ord Segm entation using Part o f Speech tags D ang D u e Pham , G iang B inh Tran, S on B ao Pham Human Machine Interaction Laboratory Faculty o f Information Technology College o f Technology Vietnam National University, Hanoi {dangpd, giangtb, so n p b }@ v n u ed u v n works in section and then propose our approach in section Section describes our experimental setup and results Section concludcs with pointers to our work in the future A bstract—Word segmentation u one of the most important tasks in NLP This task, within Vietnamese language in d its own features, faces some challenges, tsp tcú lly in words boundary determination To tackle the talk of Vietnamese word segmentation, in this paper, we propose the WS4VN system th U ỉd * new tpproacb b u td on M txim um m itching algorithm combining with stochastic models using part-ofspeech information The approach can resolve word ambiguity and choose the best segmentation for each input sentence Our s y s te m g iv e s I p r o m i s in g r e s u lt w ith «D F - r o e a s u r c o f 97%, higher than the results o f existing publicly available Vietnamese word segmentation system] I II w ord SEGMENTATION: DIFFICULTIES AND CHALLENGES In Vietnamese, syllable is the smallest linguistic unit, and one word consists o f one or more syllables [5, 7, 13] It leads to an ambiguity problem when determining word boundaries There are two types o f ambiguities namely cross ambiguity and overlap ambiguity In cross ambiguity, some syllables themselves have meaning (can be a word), and their combination also has meaning For example, in the sentence: I n t r o d u c t io n Word segmentation is one o f the most basic and important tasks in Natural Language Processing (NLP) In some studies, it is the foremost task that must be completed before further analysis [13] For example, most o f text classification systems use word segmentation approaches combined with machine learning algorithms [9] Word segmentation also plays a significant role in parsing and machine translation Word segmentation faces different challenges depending on the type o f language This task for Eastern Asian languages, such as Chinese, Japanese, Thai and Vietnamese, is very difficult since they are isolating languages in which spaces are not always the boundaries among words and one word can consist o f more than one token [1, 2, 7, 10] Thus, to determine words boundaries we need higher-level analysis like word form, morphology, syntax or semantics analysis Part-of-speech (POS) is also a useful piece o f information for word segmentation In the view o f linguistics, the difference in word segmentation gives a different result in POS tagging, and a POS tagging sequence brings about a correlative word segmentation result Therefore, POS can be helpful for word segmentation and word ambiguity resolution [3] By analyzing existing approaches to Vietnamese word segmentation [5, 6, 7, 10, 13, 15, 17, 19] and considering the relationship between POS tagging and word segmentation, we propose a hybrid approach that uses Maximum matching algorithm combining with statistical models o f part-ofspeech information to address the word ambiguity problem In section 2, we will give an overview the Vietnamese word segmentation task and its challenges We cover related 978-0-7695-3846-4/09 S26 00 o 2009 IEEE DOI 10.1109/KSE 2009 44 V ie t n a m e s e "Bàn Ịà m ột cóng cụ học tập " “Bàn” means “desk”, “là” means “is”, and “Bàn là” means “iron” It is very difficult to tackle this problem However, in Vietnamese, it occurs less frequently than the overlap ambiguity [10] Overlap ambiguity occurs in a situation that a syllable when combined with the previous syllable or the following syllable in a sentence generates words For example, in the sentence: “Tốc độ truyền ihõng tin ngày cao " “truyền thông" and “ihóng tin" both are words Since overlap ambiguity occurs more often, soiving this kind o f ambiguity can improve the Vietnamese word segmentation system Besides word boundary ambiguity, Vietnamese word segmentation faces with a problem in which there are lots o f new words appearing in a document These new words are normally names that refer to people, location, abbreviation o f foreign words, currency units, etc [5, 10] III R e l a t ed works There are many approaches tackling the word segmentation task They are divided into main categories: dictionary-based, statistics-based and hybrid-based [7, 16] Fig shows a diagram o f these categories Authorized licensed use nmtted lo: U N S W Library Downloaded on Juty 07.2010 at 02:27:21 U T C from IEEE Xpkxe computer society Restrictions appty Entropy [6] show high accuracy Some models are combination o f Maximum matching and SVMs [19], statistics o f the Internet and Genetic algorithm [17], WFST and Neural network [7], Maximum matching and N-gram language model [10] IV OUR APPROACH In Vietnamese, a sentence itself has diversified structures where words may have many POS tags when taken out o f context However, when a sentence is put into a specific situation, the POS tagging sequence is unique Therefore, there is a relationship between POS tagging and word segmentation in Vietnamese In a particular situation, a wrong POS tagging can result in wrong word segmentation correspondingly On the contrary, a right POS lagging can lead to right correlative word segmentation Based on this observation, we propose a Vietnamese word segmentation technique using POS tags Our approach does not aim to tackle the task o f POS lagging and word segmentation in parallel but aims to take advantage o f the POS tag information to address the word ambiguity problem Traditionally, most studies use dictionary-based approaches because o f their simplicity This type o f approach is the base for further studies Two most effective techniques are Maximum matching (MM) and Longest matching (LM) Some word segmentation systems like MMSEG for Chinese language also use these techniques [12] In this system, the authors use Maximum matching algorithm together with rules built from observation This approach is simple yet gives a promising result However, most o f the dictionary-based approaches often not give high accuracy because they fail to solve many ambiguous cases Statistical approaches utilize information from a very large annotated corpus Examples include N-gram Language Model [2], Hidden Markov Model (HMM) [4], Conditional Random Fields (CRFs) [8] and Maximum Enựopy (ME) [1] This type o f approach proves to be useful when deploying in different languages Hybrid approaches combine different approaches to make use o f individual advantages and overcome disadvantages Many hybrid models are published and applied in many different languages They consist o f dictionary-based techniques (Maximum matching, Longest matching), statistics-based techniques (N-gram, CRFs, ME) and machine learning algorithms (Support Vector Machines - SVMs, Gcnetic Algorithm - GA) [11, 14,18] These approaches have been applied for the task o f Vietnamese word segmentation Some studies using techniques like N-gram model with 10 million syllables corpus [13], Hidden Markov Model [15], Maximum A Overview o f our approach A s mentioned, our approach is a hybrid technique combining Maximum matching algorithm, POS tags and statistical models to tackle the overlap ambiguity Given a sentence s as input, the general formula for our approach is: (ffl.T ) — a r g m a x P (W ,T \S ) W.T P (W ,T ,S ) "Brs rr m) = a rg m a x P (W , T, s ) W.T = a rg m a x P (W ,T ) W.T ■ — a r g m a x P (W \T ) * P Ợ ) W.T Where w = W|, w2) vv„ is a word segmentation solution for s, and T = t|, tj is the corresponding POS sequence Our system consists o f five main steps: preprocessing to standardize the input data, segmentation to give potential segmentation candidates, POS tagging based on Markov-1, Markov-2 and “front-back” hypothesis for each candidate, calculating the probability o f corresponding segmentation candidates, and finally, choosing the best segmentation candidate Fig shows the architecture o f our system called WS4VN B Preprocessing Authorized licensed use limited to U N SW Library Downloaded on July 07,2010 02:27:21 UTC from IEEE Xplcxe Restrictions apply Ket-noi.com Ket-noi.com kho kho tai tai lieu lieu mien mien phi phi Dictionary J3L bv- b 1r \f (V ) (T ) Figure Y HMM for POS tagging task • • Observed part: word sequence from previous step w Transition probability: ữi./i = P(l,ịt,.i) with hypothesis Markov-!, or a,./., = P(i,ịt)-b ti-i) with hypothesis Markov-2 • Output probability, b, “ P (w ,\tJ A tagged sequence Ĩ = t j , t 2> satisfies: ĩ = a rg m a x T P (T \W ) P (W \T ) P Ợ ) = arg m a x- P (W ) T Corpus = a r g m a x P ( W \T ) * P (T ) Figure T Architecture of our system WS4VN = a r g m a x P ( w l t w , ,w n \ t v t t„) There is ambiguity o f spelling rules in Vietnamese language The most typical ones include using “i” or “y ” and where to put marks on syllables Thus, the preprocessing step aims to normalize data for further analysis using one standard Moreover, this step aims at identifying new words in the form o f named entities such as names o f companies, people, factoids, etc We use regular expression as the main technique to recognize named entities T • P(.h‘h' —I£n) Suppose that if we know the POS o f a word, it is possible to determine this word Thus, the probability P(W|T) only depends on basic probability like P (w (|t|): n P (W \T ) w Ị~Ị P(tV(|t() /»1 c Maximum matching Further calculation for P(T): We use Maximum matching algorithm to find the segmentation candidates by segmenting the input sentence into a sequence with the smallest number o f words With the overlap ambiguity, there is often more than one solution For example: “Tốc độ truyền thông tin ngày cao" can be segmented as: • "Tốc độ I Irụyền Ị thông tin Ingày I cao" • "Tốc độ I truyền thông I tin I ngày I cao ằ‘ The output o f the Maximum matching algorithm is a set P Ợ ) = P ( t l , t ĩ .t„) = p ( t 1) * p ( t 2lt1) h in - ,) Applying the Markov-1 hypothesis in which probability o f a POS appearing in a sequence can be predicted when we know the probability o f the previous POS, we have the following: o f segmented sequences with the smallest number of words Then: D POS tagging We tag each segmented sequences received from the previous step We build a POS tagger by using Hidden Markov approach with hypotheses: Markov-1, Markov-2 and “front-back” We also use a published POS tagger VnQTAG [20] with the accuracy o f 94% I) PO S tagger using Hidden Markov Model (HMM) is a statistical determine hidden parameters based on It is widely used, especially in POS sequence We w ill describe the POS Markov model (Fig 3) • Hidden part: tag sequence T P ( T ) = P ( t v t .t„ ) •P C tn lti.tz t„ _ ,) ^ừnUn-l) Markov model: Hidden model that is used to observed parameters tagging for an input tagging as a Hidden Im1 (ca is beginning) a special lag representing fo r 156 Authorized licensed US8 llmttsơ lo: U N S W Ubfary Downloaooo on July 07,2010 at 02:27:21 ƯTC from lEfct: Xplcxe Resltiction$ apply- sentence's Finally we get: Where to and to,| represents the sentence's first and last n element respectively Finally, we get: f = argm ax P I P(wj|t,) » P (t,|t,_i) T Ĩ = ar^mcur P(r|W ) 1=1 T Where probabilities p ( w i\ti) and can be estimated by Maximum likelihood technique based on an annotated corpus In a similar manner, when apply the Markov-2 hypothesis we get: P(W\T) * P(T) = a rgm ax - = argm ax P(W\T) • f ( r ) T = argm ax P2(W\T) • p2(7) n T n f = argmax r~[ P(Wilti) » PitịU i-Ị, t|_i) T 1-1 = a r g m a x Ị~ Ị P2(W|| t() • /3(t f|tí_ 1, tj+l) * P (t() r Therefore, we then can use dynamic programming algorithm Viterbi to solve the POS tagging task i-1 n = a r g m a x Ị~Ị P(w,| t() • p ( w t, t,) 2) POS tagger using "front-back" model: With the r ^n-2< ^n) * 12< I tn -2 >^n) 3) Outer PO S tagger VnỌTAG VnQTAG is Vietnamese POS tagger published by H Nguyen It is published with an accuracy o f 94% So we use VnQTAG as an optional component in our system (20] * P ( t n | t l < h ' •••> Í 71- ) * p ( t \ i £ i n - l ) K P(.Ln-l |tn-2> ^n) * ^2' ••• >in - 2) * P (tn ) * P (tn \t* -0 • P i t v h ' - ' t n - l ) a ^ ( t n - l l t n - - f n ) * i ’ ( t n - l t n - - £n - ỉ ) E Calculating true probabilities and choosing the best solution t„ _ )* P (tn) After the 3th step o f deciding the POS tags for each word segmentation candidate, we calculate the probability for each segmented sequence P(T|W) We consider it as the true • ^ ( ^ i K n - l * t n + l ) * f ’( i n - | t n - > t n - l ) * p ( t l i h ’ •••> t n - ) * p ( t n - l ) probability representing the possibility of T as the true tag n sequence o f the input sentence W: According to the Markov-1: