Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
666,63 KB
Nội dung
Định nghĩa Gán nhãn từ loại z Gán nhãn từ loại (Part of Speech tagging - POS tagging): từ câu gán nhãn thẻ từ loại tương ứng z Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail.hut.edu.vn z Vào : đoạn văn tách từ + tập nhãn Ra: cách gán nhãn xác Ví dụ Ví dụ Ví dụ Ví dụ Ví dụ ¾ Gán nhãn làm cho việc phân tích văn dễ dàng Tập từ loại tiếng Anh Tại cần gán nhãn? z z z Dễ thực hiện: thực nhiều phương pháp khác z Các phương pháp sử dụng ngữ cảnh đem lại kết tốt z Mặc Mặ dù nên ê th thực hiệ bằ phân hâ tích tí h văn ă bả Các ứng dụng: z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead – N [led], V: [li:d] z Tiền xử lý cho PTCP PTCP thực việc gán nhãn tốt đắt z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v… Dễ đánh giá (có thẻ gán nhãn đúng?) z Lớp đóng (các từ chức năng): số lượng cố định z z z z z z z Giới từ (Prepositions): on, under, over,… Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,… Mạo từ (Articles): a, an, the Liên từ (Conjunctions): and, or, but, that,… Đại từ (Pronouns): you, me, I, your, what, who,… Trợ động từ (Auxiliary verbs): can, will, may, should,… Lớp mở: có thêm từ Lớp từ mở tiếng Anh Tập nhãn cho tiếng Anh Proper nouns: IBM, Colorado nouns count nouns: book, ticket common nouns verbs auxiliaries mass nouns: snow, salt z Color: red, white open p class adjectives tập ngữ liệu Brown: 87 nhãn tập thường sử dụng: z ¾ Age: old, young ¾ Value: good, bad ¾ Nhỏ: 45 nhãn - Penn treebank (slide sau) Trung bình: 61 nhãn, British national corpus Lớn: 146 nhãn, C7 Locatives adverbs: home, here, downhill adverbs Degree adverbs: extremely, very, somewhat Manner adverbs: slowly, delicately Temporal adverbs: yesterday, Monday Penn Treebank – ví dụ z The grand jury commented on a number of other topics Ö The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN other/JJ topics/NNS / I know that blocks the sun He always books the violin concert tickets early He says that book is interesting Khó khăn gán nhãn từ loại? Các phương pháp gán nhãn từ loại z Dựa xác suất: dựa xác suất lớn nhất, dựa mô hình Markov ẩn (hidden markov model – HMM) Pr (Det (Det-N) N) > Pr (Det-Det) (Det Det) z Dựa luật If Then … … xử lý nhập nhằng 10 Gán nhãn dựa xác suất Các cách tiếp cận z Sử dụng HMM : “Sử dụng tất thông tin có đoán” Cho câu xâu từ, gán nhãn từ loại thường xảy cho từ xâu z Dựa ự ràng g buộc ộ ngữ g p pháp: p “không g đoán, loại trừ khả sai” Cách thực hiện: z z Hidden Markov model (HMM): Chọn thẻ từ loại làm tối đa xác suất: P(từ|từ loại)•P(từ loại| n từ loại phía trước) Dựa chuyển đổi: “Đoán trước, sau thay đổi” 11 The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN other/JJ topics/NNS / ⇒ P(jury|NN) = 1/2 12 Gán nhãn HMM Ví dụ -HMMs z Công thức Bigram HMM: chọn ti cho wi có nhiều khả biết ti-1 wi : (1) ti = argmaxj P(tj | ti-1 , wi) z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn giải cách dựa từ thẻ từ loại bên cạnh ti = argmaxj P(tj | tj-1 )P(wi | tj ) Thực học có giám sát, sau suy diễn để xác định thẻ từ loại (2) xs chuỗi thẻ xs từ thường xuất với thẻ tj (các thẻ đồng xuất hiện) 13 Giả sử có tất từ loại trừ từ race Ví dụ z z 14 Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN Không thể đánh giá cách đếm từ tập ngữ liệu (và chuẩn hóa) Muốn động từ theo sau TO nhiều danh từ (to race, to walk) Nhưng danh từ theo sau TO (run to school) I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DT sun/NN z z z Chỉ nhìn vào từ đứng trước(bigram): to/TO race/??? NN or VB? the/DT race/??? Áp dụng (2): ti = argmaxj P(tj | tj-1 )P(wi | tj ) Chọn thẻ có xác suất lớn xác suất: P(VB|TO)P(race|VB) P(NN|TO)P(race|NN) xác suất từ race biết từ loại VB 15 Tính xác suất Bài tập Xét P(VB|TO) P(NN|TO) z z z 16 z I know that blocks the sun He always books the violin concert tickets early He says that book is interesting z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN z He/PP always/RB books/VBZ the/DT violin/NN concert/NN tickets/NNS early/RB z He/PP says/VBZ that/WDT book/NN is/VBZ interesting/JJ z I know that block blocks the sun I/PP know/VBP that/DT block/NN blocks/NNS?VBZ? the/DT sun/NN z Từ tập ngữ liệu Brown P(NN|TO)= 021 P(VB|TO)= 340 z P(race|NN)= 0.00041 P(race|VB)= 0.00003 P(VB|TO)P(race|VB) = 0.00001 P(NN|TO)P (race|NN) = 0.000007 ¾ race cần phải động từ sau “TO” z 17 18 Mô hình đầy đủ z z Mở rộng sử dụng luật chuỗi Chúng ta cần tìm chuỗi thẻ tốt cho toàn xâu Cho xâu từ W, cần tính chuỗi từ loại có xác suất lớn T=t1, t2 ,…, tn hoặc, P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A) = P(A)P(B|A)P(C|A,B) P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C ) Tˆ = arg max P(T | W ) T ∈τ P(A,B) = P(A|B)P(B) = P(B|A)P(A) (nguyên lý Bayes) n P (T ) P(W | T ) = ∏ P ( wi | w1t1 wi −1ti −1ti ) P (ti |w1t1 wi −1ti −1 ) i =1 lịch sử nhãn pr từ 19 Thay vào công thức Giả thiết trigram z Xác suất từ phụ thuộc vào nhãn P(T)P(W|T) = P( wi | w1t ti −1ti ) = P ( wi | ti ) z 20 n n i =3 i =1 P(t1 ) P (t2 | t1 )∏ P(ti | ti −2ti −1 )[∏ P( wi | ti )] Ta lấy lịch sử nhãn thông qua nhãn gần (trigram: nhãn gần + nhãn tại) P(ti | w1t ti −1 ) = P (ti | ti −2ti −1 ) 21 Đánh giá xác suất z Bài toán Sử dụng quan hệ xác suất từ tập ngữ liệu để đánh giá xác suất: P(ti | ti −1ti −2 ) = P ( wi | ti ) = 22 Cần giải Tˆ = arg max P (T ) P (W | T ) c(ti −2ti −1ti ) c(ti −2ti −1 ) T ∈τ c( wi , ti ) c(ti ) Bây ta tính tất tích P(T)P(W|T) 23 24 Ví dụ NNS n n i =3 i =1 điểm cao PTìm (t1 ) P(đường t2 | t1 )∏ P(tcó i | ti − 2ti −1 )[∏ P ( wi | ti )] NNS NNS NNS DT NNS 30 75 VB the dog VBP saw 30 DT ice-cream Tìm đường tốt nhất? the 60 VB dog NNS 52 VBP saw ice-cream 25 Cách tìm đường có điểm cao Độ xác Sử dụng tìm kiếm kiểu best-first (A*) z Tại bước, chọn k giá trị tốt ( ) Mỗi giá trị k giá trị ứng với khả kết hợp nhãn tất từ Khi gán từ tiếp ế theo, tính lại xác suất ấ Quay lại bước z Ưu: nhanh (không cần kiểm tra tất khả kết hợp, k tiềm nhất) z Nhược: không trả kết tốt mà chấp nhận 26 z z > 96% Cách đơn giản nhất? 90% z z z Gán từ với từ loại thường xuyên Gán từ chưa biết = danh từ Người: 97%+/- 3%; có thảo luận: 100% 27 Cách tiếp cận thứ 2: gán nhãn dựa chuyển đổi 28 Transformation-based painting Transformation-based Learning (TBL): z Kết hợp cách tiếp cận dựa luật cách tiếp cận ậ xác suất: ất sử dụng d học h máy để chỉnh hỉ h lại l i thẻ thông qua vài lần duyệt z Gán nhãn sử dụng tập luật tổng quát nhất, sau đến tập luật hẹp hơn, thay đổi số nhãn, tiếp tục 29 30 Transformation-based painting Transformation-based painting 31 Transformation-based painting 32 Transformation-based painting 33 Transformation-based painting 34 Transformation-based painting 35 36 Ví dụ với TBL Ví dụ với TBL Gán từ với nhãn thường xuất (thường độ xác khoảng 90% ) Từ tập ngữ liệu Brown: P(NN|race)= ( | ) 0.98 P(VB|race)= 0.02 …expected/VBZ to/ TO race/VB race/NN tomorrow/NN …the/DT race/NN for/IN outer/JJ space/NN Sử dụng luật chuyển đổi: Thay NN VB thẻ trước TO pos: ‘NN’>’VB’ ← pos: ‘TO’ @[-1] o 37 38 Luật gán nhãn từ loại Luật gán nhãn từ loại 39 Học luật TB hệ thống TBL 40 Các tập ngữ liệu 41 z Tập huấn luyện w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 z Tập ngữ liệu (CC 1) dt vb nn dt vb kn dt vb ab dt vb z Tập ngữ liệu tham khảo dt nn vb dt nn kn dt jj kn dt nn 42 Học luật TB hệ thống TBL Khuôn dạng cho luật gán nhãn từ loại z z z Trong TBL, luật thỏa khuôn dạng học Ví dụ: luật tag:'VB'>'NN' tag: VB NN ← tag: tag:'DT'@[-1] DT @[ 1] tag:’NN’>’VB' ← tag:'DT'@[-1] thỏa khuôn dạng tag:A>B ← tag:C@[-1] Có thể tạo khuôn dạng sử dụng biến vô danh tag:_>_ ← tag:_@[-1] 43 Sinh tính điểm cho luật ứng viên Điểm, độ xác, ngưỡng z Điểm luật: z z score(R) = |pos(R)| - |neg(R)| z Độ xác: z Threshold: ngưỡng mà độ xác luật cần vượt qua để lựa chọn Trong TBL, ngưỡng độ xác thường < 0.5 z 44 z z z Template = tag:_>_ ← tag:_@[-1] R1 = tag:vb>nn ← tag:dt@[-1] pos(R1) = neg(R1) = score(R1) = pos(R1) - neg(R1) = 3-1 = 45 Sinh tính điểm cho luật ứng viên z z z z z 46 Học luật TB hệ thống TBL Template = tag:_>_ ← tag:_@[-1] R2 = tag:nn>vb ← tag:vb@[-1] pos(R2) = neg(R2) = score(R2) = pos(R2) - neg(R2) = 1-0 = 47 48 Tối ưu hóa việc chọn luật tốt Chọn luật tốt z Thứ hạng luật ứng viên z R1 = tag:vb>nn ← tag:dt@[-1] Score = R2 = tag:nn>vb ← tag:vb@[-1] Score = … z z Giảm dư thừa luật:chỉ sinh luật ứng viên phù hợp với liệu tập luyện z Nếu score threshold =< chọn R1 ngược lại score threshold > 2, dừng Đánh giá tăng cường: z z Lưu vết luật ứng viên tốt Bỏ qua luật phù hợp với số lượng mẫu < score luật tốt 49 Tìm kiếm tham lam kiểu BestFirst 50 Ưu điểm TBL Hàm giá h(n) = giá ước lượng đường rẻ từ trạng thái nút n đến trạng thái đích z Luật tạo thủ công z Luật dễ hiểu logic z Dễ cài đặt z Có thể chạy nhanh (nhưng cài đặt phức tạp) 51 52 Phân tích lỗi: khó khăn gán nhãn từ loại Cách tốt phát từ chưa biết Các lỗi thông thường (> 4%) z Dựa dạng đuôi biến tố (-ed, -s, -ing); 32 đuôi phái sinh (-ion, etc.); chữ hoa; gạch nối z Tổng quát hơn: z NN (common noun) vs NNP (proper noun) vs JJ ((adjective): j ) khó p phân biệt, phân p biệt nàyy quan q trọng đặc biệt trích rút thông tin z RP(particle) vs RB(adverb) vs IN(preposition):tất loại xuất sau động từ z z VBD vs VBN vs JJ: phân biệt thời khứ, phân từ 2, tính từ (raced vs was raced vs the out raced horse) z 53 Phân tích hình thái từ Các cách tiếp cận học máy 54 Gán nhãn từ loại tiếng Việt Các bước thực Qua lần từ Sài_Gòn Quảng_Ngãi kiểm_tra Câu tiếng Việt tách công_việc , Sophie Jane thường trò_chuyện với Mai , cảm_nhận ngọn_lửa_sống niềm_tin từ mãnh_liệt từ người phụ_nữ VN Câu tiếng Việt gán nhãn từ loại z Tách từ z Qua lần từ Sài_Gòn Quảng_Ngãi kiểm_tra công việc , Sophie Jane thường trò_chuyện công_việc trò chuyện với Mai , cảm_nhận ngọn_lửa_sống niềm_tin mãnh_liệt từ người phụ_nữ VN z z Quyết định kết gán nhãn (loại bỏ nhập nhằng) z Chú thích từ loại z z z z 55 Ngữ liệu: z z z z dựa vào quy tắc ngữ pháp dựa vào xác suất sử dụng mạng nơ-ron hệ thống lai sử dụng kết hợp tính toán xác suất ràng buộc ngữ pháp gán nhãn nhiều tầng 56 Khó khăn gán nhãn từ loại tiếng Việt Dữ liệu phục vụ gán nhãn z Gán nhãn tiên nghiệm (gán từ với tất nhãn từ loại mà có) Với từ mới, dùng nhãn ngầm định gắn cho tập g ngữ g biến đổi hình thái Æ dựa ự vào hình tất nhãn Với ngôn thái từ z Từ điển từ vựng Kho văn gán nhãn, kèm theo quy tắc ngữ gữ p pháp áp xây ây dự dựng g bằ g tay Kho văn chưa gán nhãn, có kèm theo thông tin ngôn ngữ tập từ loại Kho văn chưa gán nhãn, với tập từ loại xây dựng tự động nhờ tính toán thống kê z ¾ đặc trưng riêng ngôn ngữ thiếu kho liệu chuẩn Brown hay Penn Treebank khó khă khăn t đá h giá đánh iá kết ả 57 58 Cách tiếp cận [Đinh Điền] [Đinh Điền] Dien Dinh and Kiem Hoang, POS-tagger for EnglishVietnamese bilingual corpus HLTNAACL Workshop on Building and using parallel texts: data driven machine translation and beyond, 2003 z Xây dựng tập ngữ liệu song ngữ Anh – Việt ~ triệu từ (cả Anh lẫn Việt) z gán nhãn từ loại cho tiếng Anh dựa Transformationbased Learning – TBL [Brill 1995] z gióng hàng hai ngôn ngữ (độ xác khoảng 87%) để chuyển nhãn từ loại sang tiếng Việt z kết hiệu chỉnh tay để làm liệu huấn luyện cho gán nhãn từ loại tiếng Việt z chuyển đổi ánh xạ từ thông tin từ loại từ tiếng Anh z z gán nhãn từ loại tiếng Anh đạt độ xác cao ( >97%) thành công gần phương pháp gióng hàng từ (word alignment methods) cặp ngôn ngữ 59 60 [Đinh Điền] z z Cách tiếp cận Ưu điểm: z tránh việc gán nhãn từ loại tay nhờ tận dụng thông tin từ loại ngôn ngữ khác Nhược: z Tiếng Anh tiếng Việt khác nhau: cấu tạo từ, trật tự chức ngữ pháp từ câu Æ khó khăn gióng hàng z Lỗi tích lũy qua hai giai đoạn: (a) gán nhãn từ loại cho tiếng Anh (b) gióng hàng hai ngôn ngữ z Tập nhãn chuyển đổi trực tiếp từ tiếng Anh sang tiếng Việt không điển hình cho từ loại tiếng Việt z [Nguyen Huyen, Vu Luong] Thi Minh Huyen Nguyen, Laurent Romary, and Xuan Luong Vu, A Case Study in POS Tagging of Vietnamese Texts The 10th annual conference TALN 2003 z dựa tảng tính chất ngôn ngữ tiếng Việt xây dựng tập từ loại (tagset) cho tiếng Việt dựa chuẩn mô tả tổng quát ngôn ngữ Tây Âu, nhằm mô đun hóa tập nhãn hai mức: z z z mức bản/cốt lõi (kernel layer): đặc tả chung cho ngôn ngữ mức tính chất riêng (private layer): mở rộng chi tiết hóa cho ngôn ngữ cụ thể dựa tính chất ngôn ngữ 61 [Nguyen Huyen, Vu Luong] z z 62 Cách tiếp cận mức bản: danh từ (noun – N), động từ (verb – V), tính từ (adjective – A), đại từ (pronoun – P), mạo từ (determine – D), trạng từ (adverb – R), tiền-hậu giới từ (adposition – S), liên từ (conjunction – C), số từ (numeral – M), M) tình thái từ (interjection – I), I) từ ngoại Việt (residual – X, foreign words, ) z z mức tính chất riêng: triển khai tùy theo dạng từ loại danh từ đếm được/không đếm danh từ, giống đực/cái đại từ, v.v z [Phuong] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt Kỷ yếu Hội thảo ICT.rda’03 làm việc cửa sổ ổ chứa từ, sau bổ sung thêm từ giả đầu cuối văn Nhãn gán cho từ lọt cửa sổ nhãn kết cuối 63 Thủ tục gán nhãn từ loại [Phương] 64 [Phương] Đọc từ (token) Tìm từ từ điển Nếu không tìm thấy, gán cho từ tất nhãn Với nhãn a tính Pw = P(tag|token) b tính Pc = P(tag|t1,t2), t1, t2, nhãn tương ứng hai từ đứng trước từ token c tính Pw,c = Pw * Pc, kết hợp hai xác suất Lặp lại phép tính cho hai nhãn khác cửa sổ Sau lần tính lại (3 lần cho từ), xác suất kết kết hợp xác suất toàn thể nhãn gán cho từ 65 z z z z Chia kho văn gán nhãn làm tập: tập huấn luyện tập thử nghiệm Tự động gán nhãn cho phần văn So sánh kết thu với liệu mẫu Thời gian huấn luyện với 32000 từ: ~ 30s 66 [Phương] z [Phương] Câu gán nhãn: hồi lên < w pos="Nn"> sáu , có lần nhìn thấy "Nt" bứ / "N " tranh t h / "Jd" tuyệt t ệt đẹp Nc - danh từ đơn thể, Vto - ngoại động từ hướng, Nn - danh từ số lượng, Vs - động từ tồn tại, Nu - danh từ đơn vị, Pp - đại từ nhân xưng, Jt - phụ từ thời gian, Vt - ngoại động từ, Nt - danh từ loại thể, Jd - phụ từ mức độ, Aa - tính từ hàm chất Câu từ tập ngữ liệu mẫu hồi lên < w pos="Nn"> sáu , có lần nhìn thấy "Nt" bứ / "N " tranh t h / "Jd" tuyệt t ệt đẹp Câu chương trình gán nhãn hồi nhìn thấy tranh tuyệt đẹp z 67 Cách tiếp cận [Phương] z z Phan Xuân Hiếu: ~94% (9 nhãn từ vựng 10 nhãn cho loại kí hiệu) ~85% 85% (48 nhãn từ vựng 10 nhãn cho loại kí hiệu) z dựa phương pháp Maximum Entropy (MaxEnt) Conditional Random Fields (CRFs) - ứng dụng nhiều cho toán gán nhãn cho thành phần liệu chuỗi chuỗi Nếu không dùng đến từ điển từ vựng (chỉ sử dụng kho văn gán nhãn mẫu) kết đạt tương ứng ~80% ~60% z Dữ liệu huấn luyện: tập ngữ liệu Viet Treebank bao gồm 10.000 câu tiếng Việt gán nhãn từ loại chuyên gia ngôn ngữ Kết quả: z z z 68 69 [Hiếu] 70 Trích chọn đặc trưng z z thường trò_chuyện với Mai Cần xác định từ loại cho từ “trò_chuyện”, đặc trưng: z z z z z Học mô hình gán nhãn từ loại 71 Chính thân từ “trò_chuyện” thường xuất với từ loại tập liệu Viet Treebank? Từ “trò trò_chuyện chuyện” thường có nhãn từ loại từ điển? Là động từ chăng? Từ thường trước từ “trò_chuyện” thường có gợi ý gì? Từ với sau từ “trò_chuyện” có gợi ý gì? Có phải gợi ý trước động từ hay không? Kết hợp hai từ “với Mai” gợi ý điều gì, từ trước (“trò_chuyện”) nên động từ? 72 Ngữ cảnh cho trích xuất đặc trưng Ngữ cảnh cho trích xuất đặc trưng 73 Kết gán nhãn sử dụng MaxEnt CRFs 74 Tập từ loại tiếng Việt idPOS 10 11 12 13 75 Tập tiểu từ loại tiếng Việt idPOS idSub symbol vnPOS POS POS 1 Np danh từ riêng Nc danh từ đơn thể Ng danh từ tổng thể Na danh từ trừu tượng Ns danh từ loại Nu danh từ đơn vị Nq danh từ lượng Vi động từ nội động Vt động từ ngoại động 10 Vs động từ trạng thái 11 Vm động từ tình thái 12 Vr động từ quan hệ 13 Ap tính từ tính chất 14 Ar tính từ quan hệ 15 Ao tính từ tượng 16 Ai tính từ tượng hình vnPOS danh từ động từ tính từ số từ đại từ phụ từ giới từ liên từ trợ từ cảm từ từ tắt yếu tố từ (bất, vô…) không xác định enPOS noun verb adjective numeral pronoun adverb preposition conjunction auxiliary word emotivity word abbreviation component stem undetermined •Từ tắt mang nhãn kép: X = từ loại từ tắt ; •y = kí hiệu từ tắt Ví dụ: GDP-Ny ; HIV – Ny 76 Tập tiểu từ loại tiếng Việt enPOS proper noun countable noun collective Noun abstract noun classifier noun unit noun quantity noun intransitive verb transitive verb state verb modal verb relative verb property adjective relative adjective onomatopoetic adjective pictographic adjective symbolPOS N V A M P R O C I E Xy* S U idPOS idSub symbol vnPOS POS POS 17 Mc số từ số lượng 18 Mo số từ thứ tự 19 Pp đại từ xưng hô 20 Pd đại từ định 21 Pq đại từ số lượng 22 Pi đại từ nghi vấn 23 R phụ từ 24 O giới từ 25 C liên từ 26 I trợ từ 10 27 E cảm từ 11 28 Xy từ tắt 12 29 S yếu tố từ (bất, vô…) 13 30 U không xác định 77 enPOS cardinal numeral ordinal numeral personal pronoun demonstrative pronoun quality pronoun interrogative pronoun adverb preposition conjunction auxiliary word emotivity word abbreviation component stem undetermined 78 [...]... tính chất 3 14 Ar tính từ quan hệ 3 15 Ao tính từ tượng thanh 3 16 Ai tính từ tượng hình vnPOS danh từ động từ tính từ số từ đại từ phụ từ giới từ liên từ trợ từ cảm từ từ tắt yếu tố từ (bất, vô…) không xác định enPOS noun verb adjective numeral pronoun adverb preposition conjunction auxiliary word emotivity word abbreviation component stem undetermined Từ tắt mang nhãn kép: X = từ loại của từ tắt ;... 1 2 3 4 5 6 7 8 9 10 11 12 13 75 Tập tiểu từ loại tiếng Việt idPOS idSub symbol vnPOS POS POS 1 1 Np danh từ riêng 1 2 Nc danh từ đơn thể 1 3 Ng danh từ tổng thể 1 4 Na danh từ trừu tượng 1 5 Ns danh từ chỉ loại 1 6 Nu danh từ đơn vị 1 7 Nq danh từ chỉ lượng 2 8 Vi động từ nội động 2 9 Vt động từ ngoại động 2 10 Vs động từ trạng thái 2 11 Vm động từ tình thái 2 12 Vr động từ quan hệ 3 13 Ap tính từ. .. kết quả cuối cùng 63 Thủ tục gán nhãn từ loại [Phương] 64 [Phương] 1 Đọc từ (token) tiếp theo 2 Tìm từ đó trong từ điển 3 Nếu không tìm thấy, gán cho từ đó tất cả các nhãn có thể 4 Với mỗi nhãn có thể a tính Pw = P(tag|token) b tính Pc = P(tag|t1,t2), t1, t2, là nhãn tương ứng của hai từ đứng trước từ token c tính Pw,c = Pw * Pc, kết hợp hai xác suất trên 5 Lặp lại phép tính cho hai nhãn khác trong cửa... cửa sổ Sau mỗi lần tính lại (3 lần cho mỗi từ) , các xác suất kết quả được kết hợp để cho ra xác suất toàn thể của nhãn được gán cho từ 65 z z z z Chia kho văn bản đã gán nhãn làm 2 tập: tập huấn luyện và tập thử nghiệm Tự động gán nhãn cho các phần văn bản So sánh kết quả thu được với dữ liệu mẫu Thời gian huấn luyện với 32 000 từ: ~ 30 s 66 [Phương] z [Phương] Câu đã gán nhãn: hồi ... chứa từ, sau bổ sung thêm từ giả đầu cuối văn Nhãn gán cho từ lọt cửa sổ nhãn kết cuối 63 Thủ tục gán nhãn từ loại [Phương] 64 [Phương] Đọc từ (token) Tìm từ từ điển Nếu không tìm thấy, gán cho từ. .. ràng buộc ngữ pháp gán nhãn nhiều tầng 56 Khó khăn gán nhãn từ loại tiếng Việt Dữ liệu phục vụ gán nhãn z Gán nhãn tiên nghiệm (gán từ với tất nhãn từ loại mà có) Với từ mới, dùng nhãn ngầm định... tính chất 14 Ar tính từ quan hệ 15 Ao tính từ tượng 16 Ai tính từ tượng hình vnPOS danh từ động từ tính từ số từ đại từ phụ từ giới từ liên từ trợ từ cảm từ từ tắt yếu tố từ (bất, vô…) không xác