1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

72 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 2,38 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MƠ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MƠ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI Ngành Chuyên ngành Mã số : Công nghệ thông tin : Khoa học máy tính : 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Anh Cường HÀ NỘI - 2014 i ii LỜI CAM ĐOAN  ‘Tôi xin cam đoan rằng, cơng trình sản phẩm nghiên cứu riêng cá nhân Các kết luận văn trung thực chưa công bố cơng trình trước đây’ Hanoi 20/10/2014 Signed iii MỤC LỤC Trang TRANG BÌA PHỤ i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH .vi DANH MỤC BẢNG vii LỜI CẢM ƠN viii TÓM TẮT .ix MỞ ĐẦU x CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1.1 Bài toán gán nhãn từ loại 1.2 Các ứng dụng gán nhãn từ loại 1.3 Các nghiên cứu liên quan 1.3.1 Phương pháp dựa luật 1.3.2 Phương pháp dựa tiếp cận học máy thống kê 1.3.3 Các hướng nghiên cứu khác 1.3.3.1 Gán nhãn đa ngôn ngữ 1.3.3.2 Kết hợp thông tin thống kê 1.3.3.3 Mở rộng mơ hình ngơn ngữ hướng tiếp cận thống kê 1.3.4 Gán nhãn từ loại tiếng Việt 1.3.4.1 Các nghiên cứu dựa phương pháp hệ luật 1.3.4.2 Các nghiên cứu dựa phương pháp học máy 1.3.4.3 Các nghiên cứu dựa phương pháp lai 10 1.4 Đặt vấn đề 10 1.5 Mục tiêu đề tài 11 1.6 Đối tượng phương pháp nghiên cứu 11 1.7 Những đóng góp luận văn 12 1.8 Bố cục luận văn 12 CHƯƠNG KIẾN THỨC CƠ SỞ 13 2.1 Ngữ liệu 13 2.1.1 Một số khái niệm sở 13 2.1.2 Ngữ liệu Penn Treebank 14 iv 2.1.2.1 Miêu tả 14 2.1.2.2 Quá trình gán nhãn từ loại 15 2.1.3 Ngữ liệu Viet Treebank 15 2.1.3.1 Miêu tả 15 2.1.3.2 Quá trình gán nhãn từ loại 15 2.2 Một số phương pháp học máy 17 2.2.1 Mơ hình cực đại hóa Entropy 17 2.2.1.1 Khái niệm MEM 17 2.2.1.2 Nguyên lý cực đại hóa Entropy 17 2.2.1.3 Mô hình xác suất 18 2.2.1.4 Hạn chế mơ hình MEM 19 2.2.2 Mô học học luật chuyển đổi 20 2.2.2.1 Sơ đồ giải thuật TBL 20 2.2.2.2 Mơ tả giải thuật mơ hình 21 2.2.2.3 Trình bày giải thuật 23 2.2.2.4 Giải thuật TBL nguyên thuỷ 23 2.2.2.5 Kết luận 24 CHƯƠNG ĐỀ XUẤT MƠ HÌNH GÁN NHÃN TỪ LOẠI 25 3.1 Đề xuất mô hình 25 3.1.1 Mơ hình sở 25 3.1.1.1 Huấn luyện hệ thống 26 3.1.1.2 Quá trình gán nhãn 26 3.1.2 Mơ hình kết hợp 27 3.1.3.1 Quá trình huấn luyện mơ hình kết hợp 29 3.1.3.2 Quá trình kiểm tra 33 3.2 Mơ hình ngơn ngữ 34 3.2.1 Biểu diễn ngữ cảnh 34 3.2.2 Lựa chọn đặc trưng 35 3.2.3 Lựa chọn tập mẫu 38 3.3 Tiếp cận xây dựng gán nhãn từ loại 39 3.3.1 Xử lý liệu 39 3.3.2 Cấu hình để thực 40 3.3.3 Huấn luyện 41 3.3.4 Gãn nhãn từ loại 42 v CHƯƠNG THỰC NGHIỆM 43 4.1 Mô tả thực nghiệm 43 4.1.1 Dữ liệu thực nghiệm 43 4.1.1.1 Peen TreeBank 43 4.1.1.2 Viet TreeBank 46 4.1.2 Phần cứng 48 4.1.3 Phần mềm 48 4.2 Phương pháp thực nghiệm 49 4.3 Kết thực nghiệm 50 4.3.1 Các tham số đánh giá thực nghiệm 50 4.3.2 Kết 50 4.3.2.1 Phương pháp Holdout 50 4.3.2.2 Phương pháp K-Fold Cross-Validation 51 KẾT LUẬN 53 DANH MỤC CÁC CƠNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN 54 TÀI LIỆU THAM KHẢO 55 vi DANH MỤC HÌNH Hình 1-1: Nhập nhằng từ loại câu Tiếng Anh với nhãn Hình 1-2: Các bước xử lý ngôn ngữ tự nhiên [11] Hình 1-3: Một số phương pháp giải toán gán nhãn từ loại [3] Hình 2-1: Sơ đồ trình làm ngữ liệu 16 Hình 2-2: Sơ đồ hoạt động giải thuật TBL 20 Hình 2-3: Sơ đồ trình huấn luyện giải thuật TBL 22 Hình 3-1: Mơ hình kết hợp cho gán nhãn từ loại 28 Hình 3-2: Sơ đồ mơ tả q trình huấn luyện giai đoạn thứ 30 Hình 3-3: Sơ đồ mơ tả q trình huấn luyện giai đoạn thứ hai 32 Hình 3-4: Sơ đồ mơ tả q trình kiểm tra 33 Hình 3-5: Một số mẫu luật chuyển 39 Hình 3-6: Các mẫu luật chuyển cho Tiếng Anh 39 Hình 4-1: Các từ khơng có từ loại 48 Hình 4-2: Câu không phân biệt từ tố 48 vii DANH MỤC BẢNG Bảng 3-1: Một số đặc trưng history hi tiếng Việt 36 Bảng 3-2: Một số đặc trưng từ 36 Bảng 3-3: Dữ liệu mẫu 37 Bảng 3-4: Một số đặc trưng rút từ h4 bảng 3-3 37 Bảng 3-5: Một số đặc trưng rút từ h3 bảng 3.3 37 Bảng 3-6: Một số thuộc tính cho mơ hình cực đại hóa Entropy 41 Bảng 4-1: Tần suất xuất nhãn từ loại ngữ liệu Peen Treebank [48] 44 Bảng 4-2: Một số từ có đa nhãn từ loại ngữ liệu Penn Treebank 44 Bảng 4-3: Bảng nhãn từ loại Penn Treebank 45 Bảng 4-4: Tần suất xuất nhãn từ loại ngữ liệu Viet Treebank 46 Bảng 4-5: Một số từ có đa nhãn từ loại 46 Bảng 4-6: Nhãn từ loại Viet Treebank 47 viii LỜI CẢM ƠN  Trước tiên em xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Lê Anh Cường, người thầy ln tận tình hướng dẫn, bảo tạo điều kiện để em hoàn thành luận văn Em xin gửi lời cảm ơn sâu sắc tới nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt thầy Nguyễn Phương Thái, người hướng dẫn cung cấp tài liệu, liệu cần thiết cho em q trình hồn thành luận văn Em xin chân thành cảm ơn Khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đặc biệt Thầy(Cô) môn Khoa học máy tính tạo điều kiện thuận lợi cho em trình học tập, nghiên cứu thực luận văn Tôi xin gửi lời cảm ơn chân thành tới Ban chủ nhiệm Khoa Toán Tin, trường Đại học Hải Phòng tạo điều kiện thuận lợi để tơi có điều kiện học tập nâng cao trình độ chun mơn Một phần khơng thể thiếu sống, xin gửi lời cảm ơn đến anh chị em, bạn bè đồng nghiệp quan tâm, động viên giúp đỡ Và cuối khơng phần quan trọng, tơi xin bày tỏ lịng chân thành biết ơn vô hạn tới cha mẹ, anh chị bạn bè thân thiết bên cạnh động viên suốt trình thực luận văn tốt nghiệp Mặc dù cố gắng hoàn thành luận văn phạm vi lực khả cho phép chắn khơng tránh khỏi thiếu sót, kính mong nhận tận tình bảo q Thầy (Cơ) bạn Hà Nội, ngày 20 tháng 10 năm 2014 Nguyễn Ngọc Khương 45 Nhãn từ loại Penn Treebank biểu diễn bảng 4.6 Nó chứa tất 36 nhãn từ loại 12 loại nhãn khác (dành cho tiền tệ dấu câu) STT Từ loại CC CD Chức Coordinating Từ STT Chức loại 25 TO to Cardinal number 26 UH Interjection DT Determiner 27 VB Verb, base form EX Existential there 28 VBD Verb, past tense FW Foreign word 29 VBG Verb, gerund or present participle 30 VBN Verb, past participle conjunction Preposition or IN subordinating conjunction JJ Adjective 31 VBP Verb, non-3rd person singular present JJR Adjective, comparative 32 VBZ Verb, 3rd person singular present JJS Adjective, superlative 33 WDT Wh-determiner 10 LS List item marker 34 WP Wh-pronoun 11 MD Modal 35 WP$ Possessive wh-pronoun 12 NN Noun, singular or mass 36 WRB Wh-adverb 13 NNS Noun, plural 37 # Pound sign 14 NNP Proper noun, singular 38 $ Dollar sign 15 NNPS Proper noun, plural 39 Sentence-final punctuation 16 PDT Predeterminer 40 , Comma 17 POS Possessive ending 41 : Colon, semi-colon 18 PRP Personal pronoun 42 ( Left bracket character 19 PRP$ Possessive pronoun 43 ) Right bracket character 20 RB Adverb 44 “ Straight double quote 21 RBR Adverb, comparative 45 ‘ Left open single quote 22 RBS Adverb, superlative 46 “ Left open double quote 23 RP Particle 47 ‘ Right open single quote 24 SYM Symbol 48 “ Right open double quote Bảng 4-3: Bảng nhãn từ loại Penn Treebank 46 4.1.1.2 Viet TreeBank Đây sản phẩm dự án quốc gia VLSP, gồm 142 văn bản, tương ứng với khoảng 10.000 câu khoảng 230.000 từ Bộ liệu gán nhãn từ loại tập nhãn từ loại VTB (Viet TreeBank) gồm 17 nhãn từ loại, nhãn cho ký hiệu đặc biệt Qua trình khảo sát thu bảng phân phối nhãn từ loại sau: STT Tên nhãn Số lượng STT Tên nhãn Số lượng N 52377 10 R 16030 Np 8752 11 E 13680 Nc 5511 12 C 7967 Nu 1076 13 I 100 V 43215 14 T 1450 A 13628 15 U 40 P 9400 16 Y 54 L 3979 17 X 834 M 8428 Bảng 4-4: Tần suất xuất nhãn từ loại ngữ liệu Viet Treebank Trong có 1400 từ có nhãn từ loại, điển hình số từ sau: STT Từ Số lượng Nhãn P; T; R; A; L đến E; V; R; T đôi M; N; L chi_tiết A; N Bảng 4-5: Một số từ có đa nhãn từ loại Trong q trình xây dựng cú pháp, nhóm xây dựng Viet Treebank tiếp cận theo quan điểm phân từ loại Thông qua nhãn từ loại ta biết số thơng tin như: động từ, danh từ, tính từ,… Dựa vào cách phân loại nhóm tác giả đề xuất danh sách từ loại sử dụng kho ngữ liệu Viet Treebank sau: STT Tên nhãn Chức N Danh từ Np Danh từ riêng 47 STT Tên nhãn Chức Nc Danh từ loại Nu Danh từ đơn vị V Động từ A Tính từ P Đại từ L Định từ M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại Bảng 4-6: Nhãn từ loại Viet Treebank Ngoài ra, từ nhãn từ viết tắt nhãn kép, ví dụ từ HIV có nhãn Ny Trong liệu nhóm mà chúng tơi có được, có xuất thêm nhãn Nb miêu tả từ vay mượn Quá trình thực nghiệm giả sử kho liệu phân đoạn từ thực tế tiến hành thực nghiệm, đặc biệt kho liệu Viet TreeBank gặp phải số trường hợp lỗi ngoại lệ gây lỗi cho trình tách từ tố câu, qua chúng tơi tiến hành xây dựng công cụ để tách câu để sửa sai trước tiến hành trình thực nghiệm Một số lỗi phổ biến sau: + Một số từ khơng có nhãn từ loại 48 Hình 4-1: Các từ khơng có từ loại + Khơng có ký hiệu phân cách từ từ loại từ tố với Hình 4-2: Câu khơng phân biệt từ tố + Câu bị ngắt không đúng; câu thừa Tag; câu bị liền,… 4.1.2 Phần cứng Quá trình thực nghiệm tiến hành máy tính cá nhân với thơng số cấu sau: + CPU: Pentium Dual Core 2.8 GHZ; + RAM 2GB; + Hệ điều hành Windows với JDK 1.8.011 4.1.3 Phần mềm Chúng tiến hành q trình thực nghiệm số cơng cụ gán nhãn từ loại điển hình để làm sở so sánh với mơ hình đề xuất, cụ thể sau: - Thực nghiệm gán nhãn từ loại Tiếng Việt với mơ hình cực đại hóa Entropy sử dụng công cụ mã nguồn mở vnTagger phiên 4.2.0 cập nhật ngày 05/08/2010 tác giả Lê Hồng Phương đồng nghiệp [54] - Thực nghiệm gán nhãn từ loại Tiếng Anh với mơ hình cực đại hóa Entropy công cụ Standford Tagger phiên 3.3.0 cập nhật ngày 12/11/2012 Kristina Toutanova đồng nghiệp [58] - Dựa sở công cụ gán nhãn trên, nghiên cứu xây dựng cơng cụ gán nhãn từ loại dựa mơ hình kết hợp (COVTagger COETagger) 49 Để tiến hành q trình đánh giá kết thực nghiệm chúng tơi xây dựng thêm tiện ích trợ giúp ngôn ngữ Java, bao gồm: + Chuyển ngữ liệu thích thành ngữ liệu thơ (LanguageTaggedToSentence); + Trích chọn đặc trưng thông tin từ vựng từ loại từ điển từ loại (LanguageDicStatic); + So sánh phân tích nhãn từ loại bị sai ngữ liệu gán nhãn mơ hình sở so với ngữ liệu chuẩn (LCompareAnalysesN) ; + Phát sinh luật chuyển đổi dựa mẫu luật tập vị trí bị sai nhãn từ loại (LGeneraltionRule); + Đánh giá luật để tìm tập luật tối ưu (KBestruler); + Áp dụng luật để cập nhật nhãn ngữ liệu (UpdateCorpus); + Đánh giá độ xác kết gán nhãn so với ngữ liệu chuẩn 4.2 Phương pháp thực nghiệm Để tiến hành trình thực nghiệm hệ thống, sử dụng tập ngữ liệu để thực nghiệm cho mơ hình sở mơ hình đề xuất Các mơ hình thực nghiệm hai phương pháp độc lập holdout k-fold cross-validation sau: + Phương pháp Holdout: Trước hết, kho ngữ liệu có sẵn chia theo tỉ lệ 19:1 thành hai phần MBcorpus Tcorpus Ngữ liệu MBcorpus sử dụng để huấn luyện mơ hình kết hợp, ngữ liệu Tcorpus sử dụng để kiểm tra mơ hình kết hợp đề xuất Ngữ liệu MBcorpus tiếp tục chia thành hai tập Mcorpus Bcorpus theo tỉ lệ 3:1 Mcorpus sử dụng để huấn luyện mô hình sở, ngữ liệu Bcorpus sử dụng để huấn luyện mơ hình TBL Kết q trình huấn luyện ta thu tập luật có điểm cao đưa vào tập luật Selected TBL Rules Với phương pháp này, chúng tơi tiến hành q trình thực nghiệm hai ngôn ngữ để rút đánh giá nhận xét tính hiệu mơ hình đề xuất với hai loại ngơn ngữ có đặc trưng khác + Phương pháp K-Fold Cross-Validation: Mục tiêu phương pháp đánh giá mức độ ảnh hưởng kích thước ngữ liệu huấn luyện đến độ xác mơ hình kết hợp Khi kho ngữ liệu có sẵn chia thành K phần K-1 phần sử dụng cho huấn luyện mơ hình, ký hiệu MBcorpus phần sử dụng cho kiểm tra, ký hiệu Tcorpus Tại lần kiểm tra thứ i 50 ta lấy phần thứ i ngữ liệu kiểm tra ký hiệu Tcorpus_i K-1 phần lại sử dụng làm ngữ liệu huấn luyện, ký hiệu MBcorpus_i MBcorpus_i tiếp tục chia thành hai tập Mcorpus_i Bcorpus_i theo tỉ lệ 3:1 Mcorpus_i sử dụng để huấn luyện mơ hình sở Bcorpus_i sử dụng để huấn luyện mô hình TBL tương ứng với mơ hình sở lần chia i Độ xác hệ thống tính tổng trung bình độ xác K lần Nghiên cứu Ron Kohavi [59] chứng minh khơng có mơ hình lý thuyết hồn hảo để xác định giá trị K Bằng phương pháp thực nghiệm Ron Kohavi chứng minh K=10 coi giá trị đủ tốt để đánh giá mơ hình thống kê 4.3 Kết thực nghiệm 4.3.1 Các tham số đánh giá thực nghiệm Độ xác kết (tức liệu đầu mơ hình) Đây yếu tố quan trọng cần phải xem xét để đánh giá độ tốt mơ hình Đối với thực nghiệm tiến hành, độ xác liệu đầu tính cơng thức: P= 𝑐𝑜𝑟𝑒𝑐𝑡𝑡𝑎𝑔 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑡𝑎𝑔 + 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑡𝑎𝑔 Thời gian xử lý gán nhãn Thời gian bao gồm: thời gian huấn luyện thời gian gán nhãn (ở ta tính thời gian kiểm thử thực nghiệm) Ở ta ký hiệu thời gian huấn luyện T (tính đơn vị giây) thời gian kiểm thử t (tính đơn vị giây); thời gian kiểm thử tính thời gian từ lúc mơ hình bắt đầu gán nhãn cho liệu kiểm thử đến lúc đầu in kết liệu gán nhãn cách hoàn chỉnh 4.3.2 Kết 4.3.2.1 Phương pháp Holdout + Tiếng Việt Method Accuracy (%) Tool T (Time(s)) t (Time(s)) ME 94.24129 vnTagger 7055.26362 155.78464 ME+ TBL 95.52747 COVTagger 11080.21568 225.41672 Bảng 4-7: Độ xác ngơn ngữ tiếng Việt với phương pháp Holdout + Tiếng Anh 51 Method Accuracy (%) Tool T(Time(s)) t (Time(s)) ME 97.28132 Standford Tagger 14435.680 435.870 ME+ TBL 97.40542 COETagger 21725.580 655.780 Bảng 4-8: Độ xác ngôn ngữ tiếng Anh với phương pháp Holdout 4.3.2.2 Phương pháp K-Fold Cross-Validation + Tiếng Việt Accuracy (%) ME ME + TBL Fold 94,3787 95,60548 Fold 94,2905 95,42824 Fold 94,2472 95,45703 Fold 94,3299 95,51637 Fold 94,2221 95,41178 Fold 94,3881 95,13798 Fold 94,3591 95,6928 Fold 94,2322 95,60124 Fold 94,3473 95,44316 Fold 10 94,5227 95,72672 Trung bình 94,3318 95,50208 Bảng 4-9: Độ xác ngôn ngữ tiếng Việt với phương pháp K-Fold + Tiếng Anh Accuracy (%) ME ME + TBL Fold 97,2099 97,2561 Fold 97,47282849 97,57002739 Fold 97,34704 97,42482 Fold 97,08126 97,15224 Fold 97,14311 97,2058 Fold 97,29132 97,41524 Fold 97,27654 97,32119 Fold 97,34803 97,43413 Fold 97,38270308 97,4702381 52 Fold 10 97,30203 97,35459 Trung bình 97,28548 97,36044 Bảng 4-10: Độ xác ngơn ngữ tiếng Anh với phương pháp K-Fold Q trình thực nghiệm mơ hình sở mơ hình kết hợp cho toán gán nhãn từ loại sử dụng kho liệu tập nhãn tương ứng khác môi trường thực nghiệm đưa số nhận xét sau: - Kết thực nghiệm cho thấy tính khả quản hướng tiếp cận tích hợp cho tốn gãn nhãn từ loại, đặc biệt cho ngôn ngữ mà kho ngữ liệu chưa “đầy đủ” Tiếng Việt Dù thời gian cho việc huấn luyện mơ hình lớn so với mơ hình sở kết đem lại cải thiện cách đáng kể chất lượng gán nhãn - Ưu điểm mơ hình kết hợp kết hợp nhiều đặc trưng phong phú đặc biệt đặc trưng mà mơ hình sở chưa giải Dù chưa có nhiều thời gian để xây dựng tập đặc trưng đủ tốt cho toán gãn nhãn từ loại kết đạt đáng ghi nhận - Thời gian huấn luyện mơ hình sở mơ hình kết hợp phụ thuộc vào kích thước ngữ liệu huấn luyện ngữ liệu kiểm tra 53 KẾT LUẬN Kết đạt Trong luận văn chúng tơi đề xuất sử dụng mơ hình kết hợp để giải toán khử nhập nhằng Với tốn gán nhãn từ loại, chúng tơi kết hợp mơ hình cực đại hóa Entropy mơ hình học luật chuyển đổi để giải toán gán nhãn từ loại với kết đạt tiếng Việt khoảng 95.50% (tăng khoảng 1.18%) tiếng Anh 97.40% (tăng khoảng 0.12%) so với mơ hình sở, cụ thể sau: - Tìm hiểu phương pháp học máy cực đại hóa Entropy luật chuyển đổi ngữ cảnh toán gán nhãn từ loại Đề xuất tập 30 mẫu luật chuyển đổi cho tiếng Việt phục vụ cho mơ hình học luật chuyển đổi - Đề xuất cách kết hợp mơ hình cực đại hóa Entropy mơ hình học luật chuyển đổi để giải toán gán nhãn từ loại Phát triển xây dựng hồn thành cơng cụ gán nhãn từ loại tiếng Việt dựa mơ hình kết hợp ngôn ngữ JAVA - Tiến hành thực nghiệm hai kho ngữ liệu Penn TreeBank Viet TreeBank kết thực nghiệm đạt tốt so với mơ hình sở cho thấy tính khả quản hướng tiếp cận kết hợp cho toán gãn nhãn từ loại, đặc biệt cho ngôn ngữ mà kho ngữ liệu chưa “đầy đủ” Tiếng Việt - Phát chỉnh sửa gần 300 câu kho ngữ liệu với 400 lỗi ngoại lệ - Chúng tơi trình bày kết nghiên cứu với báo “Improving Part-Of-Tagging using Maximum Entropy Models with Transformation Based Learning Models” công bố báo với hướng mơ hình kết hợp đề xuất cho toán xử lý nhập nhằng nghĩa từ “Combining Statistical Machine Learning with Transformation Rule Learning for Vietnamese Word Sense Disambiguation” hội nghị RIVF năm 2012 Hướng phát triển - Tiếp tục nghiên cứu xây dựng tập đặc trưng phong phú cho ngôn ngữ - Xây dựng bổ sung thêm liệu cho từ điển từ loại tiếng Việt nhằm cải thiện thời gian huấn luyện mơ hình cực đại hóa Entropy - Nghiên cứu áp dụng mơ hình kết hợp tốn khác xử lý ngơn ngữ tự nhiên - Nghiên cứu phương pháp cân ngữ liệu trước thực thao tác huấn luyện hệ thống nhằm cải thiện chất lượng mơ hình thống kê thu sau trình huấn luyện 54 DANH MỤC CÁC CƠNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN [1] Phu - Hung Dinh, Ngoc - Khuong Nguyen, Anh - Cuong Le "Combining Statistical Machine Learning with Transformation Rule Learning for Vietnamese Word Sense Disambiguation" In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference on, pp 62-67 IEEE, 2012 55 TÀI LIỆU THAM KHẢO [1] M P Lewis, Ethnologue: Languages of the World, 16th edition, Ethnologue, 2009 [2] P T T C H T Nguyễn Quang Châu, “Gán nhãn từ loại cho Tiếng Việt dựa văn phong tính tốn xác suất,” Tạp chí phát triển KH&CN, pp Tập 9, số 2, 2006 [3] Y Halevi, "Part of Speech Tagging Slide," The Blavatnik School of Computer Science– Tel Aviv University, 25 April 2006 [4] R M Paroubek P., "Etiquetage morpho-syntaxique," in Ingénierie des langues, Hermes Science Europe, 2000, p Chapitre [5] B E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging," Computational Linguistics, vol 21, no 4, pp 543-565, December 199 [6] K G Dermatas E., "Automatic Stochastic Tagging of Natural Language Texts," Computational Linguistics, vol 21, no 2, pp 137 - 163, 1995 [7] S H., "Part-of-Speech Tagging with Neural networks," in International Conference on Computational Linguistics, Kyoto, Japan, 1994 [8] S T El-Bèze M, "Etiquetage probabiliste et contraintes syntaxiques," in Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France, 14-16/6/1995 [9] T D., "Tiered Tagging and combined classifier," In Jelineck F and Nörth E (Eds),Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999 [10] H L S H M Robert Dale, Handbook of Natural Language Processing, New York, NY, USA: Marcel Dekker, Inc, 2000 [11] J H M Daniel Jurafsky, Speech and Language Processing, Prentice-Hall, Inc, 2000 [12] M K K T S K Nakamura M., "Neural network approach to word category prediction for English texts," in Proceedings of the 13th Conference on Computational Linguistics (COLING 90), Prentice-Hall, Inc, 1990 [13] J G , Y Z , X C , A W Jie Yang, "An Automatic Sign Recognition and Translation System," in PUI '01 Proceedings of the 2001 workshop on Perceptive user interfaces , New York, NY, USA, 2001 56 [14] S B.-G a Z Z Dragomir Radev, "Experiments in single and multi-document summarization using MEAD," in First Document Understanding Conference, New Orleans, LA, September 2001 [15] A A A a L Asker, "An Amharic Stemmer : Reducing Words to their Citation Forms," in In proceedings of Computational Approaches to Semitic Languages: Common Issues and Resources, Prague, Czech Republic, June 2007 [16] S Dandapat, "Part-of-Speech Tagging for Bengali," Indian Institute of Technology, Kharagpur, 2011 [17] Greene B B and Rubin G M., "Automatic grammatical tagging of English," Technical Report, Department of Linguistics, Brown University., 1971 [18] J H D Jurafsky, Speech and Language Processing, Englewood Cliffs, New Jersey 07632: Prentice Hall, 1999 [19] H L S H M Robert Dale, Handbook of Natural Language, New York, NY, USA: Marcel Dekker, Inc, 2000 [20] B E., "A simple rule-based part-of-speech tagger," in In Proceedings of the 3rd Conference on Applied NLP, 1992 [21] B E., "Transformation-based error-driven learning and Natural Language Processing: A case study in part-of-speech tagging," Computational Linguistics, vol 21, no 4, pp 543-565, 1995a [22] B E., "Unsupervised learning of disambiguation rules for part of speech tagging," in In Proceedings of 3rd Workshop on Very Large Corpora Workshop, Massachusetts, 1995b [23] L H Quỳnh, “So sánh số phương pháp học máy cho toán gán nhãn từ loại tiếng Việt,” Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, Hà Nội, 2009 [24] T T Oanh, “Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt,” Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, Hà Nội, 2008 [25] A M F P John Laferty, "Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data," in Proc of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 [26] J D M G M M.-S J R M.-B a A J S Emilio Soria Olivas, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, 2009 57 [27] K T a M Y Nakagawa T., "Unknown word guessing and part-of-speech tagging using support vector machines," In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium, pp 325-331, 2001 [28] G J a M L., "Fast and accurate part-of-speech tagging: The SVM approach revisited," in In Proceedings of RANLP, 2003 [29] J F L J M R a R S Black E., "Decision tree models applied to the labeling of text with parts-of-speech.," in In Proceedings of the DARPA workshop on Speech and Natural Language, Harriman, New York., 1992 [30] E M a G B., "Tagging experiment using neural networks.," in In Proceeding of the 9th Nordic Conference of Computational Linguistic, Sweden, 1994 [31] M Q a I H., "A multi-neuro tagger using variable lengths of contexts.," in In Proceedings of the 17th international conference on Computational linguistics, Montreal, Quebec, Canada, 1998 [32] K J H a K G C., "Fuzzy network model for part-of-speech tagging under small training data," Natural Language Engineering, vol 2, no 2, pp 95-110, 1996 [33] Y Z T L a S L Jinshan M., "A Statistical Dependency Parser of Chinese under Small Training Data," 2004 [34] A M a M Y., "Extended models and tools for high- performance part-of-speech tagger," in Proceedings of the 18th conference on Computational linguistics, Saarbrücken, Germany, 2000 [35] H M a M Y., "Mistake-driven mixture of hierarchical tag context trees," in In Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, Madrid, Spain, 1997 [36] S S a B A Dandapat S., " Automatic Part-of-Speech Tagging for Indian: An approach for Morphologically Rich Languages in a Poor Resource Scenario.," in In Proceedings of the Association of Computational Linguistics (ACL ), Prague, Czech Re, 2007 [37] B C., "Unsupervised Natural Language Processing using Graph Models," in In Proceedings of the NAACL-HLT Doctoral Consortium, Rochester, 2007 [38] D S a N V., "Unsupervised Part-of-Speech Acquisition from Resource-Scare Languages," in In Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, 2007 [39] M R S S G K a B P Shrivastav M., "Conditional Random Field Based POS Tagger for Hindi," in In Proceedings of the MSPIL, Bombay, 2006 58 [40] M Y a T J Kazama J., "A maximum entropy tagger with unsupervised hidden markov models," in In Proceedings of the 6th NLPRS, 2001 [41] S G a P F., "Aggregate and mixedorder Markov models for statistical language processing," in In Proceedings of the 2nd International Conference on Empirical Methods in Natural Language Processing., 1997 [42] B T, "TnT – A statistical part-of-sppech tagger," in In Proceedings of the 6th Applied NLP Conference, 2000 [43] S F a P F., "Shallow parsing with conditional random fields," in In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Edmonton, Canada, 2003 [44] V X L L H P Nguyễn Thị Minh Huyền, “Sử dụng gán nhãn từ loại xác suất QTAG cho văn Tiếng Việt,” Hội thảo ICT.rda, 2003 [45] L M H N C T Phan Xuân Hiếu, “Gán nhãn từ loại tiếng Việt dựa phương pháp học máy thống kê,” Hà nội, 2009 [46] H K Dinh Dien, "POS-Tagger for English-Vietnamese Bilingual Corpus," Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pp 88-95, 12 2003 [47] D S a N V., "Unsupervised Part-of-Speech Acquisition from Resource-Scare Languages," in Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007 [48] M P M M A a S Marcus, "Building a Large Annotated of English: The Penn Treebank," Computation Linguistics, vol 1, no s, p 1, 1993 [49] C K W., "A stochastic parts program and noun phrase parser for unrestricted text," in Proceedings of the second conference on Applied Natural Language Processing, Austin, Texas, 1988 [50] V X L , N T M H Nguyễn Phương Thái, “Xây dựng treebank tiếng Việt,” Hanoi, 2008 [51] A.Ratnaparkhi, "A maximum entropy model for part-of-speech tagging," in Proc Emparical Methods for Natural Language Processing, 1996 [52] A Ratnaparkhi., " A Maximum Entropy Model for Part-Of-Speech Tagging," in Proceedings of the Empirical Methods in Natural Language Processing Conference (EMNLP), University of Pennsylvania., 1996 59 [53] R R S R Raymond Lau, "Adaptive language modeling using the maximum entropy principle," in HLT '93 Proceedings of the workshop on Human Language Technology, Stroudsburg, PA, USA, 1993 [54] A R T M H N M R Phuong Le-Hong, "An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts," in Traitement Automatique des Langues Naturelles - TALN 2010, Montreal, Canada, 2010 [55] K T a C D Manning, "Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger," in Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC-2000), 2000 [56] E Brill, "Transformation-based error-driven learning and natural language processing: a case study in part-of-speech tagging," Computer Linguist, vol 21, p 543–565, December 1995 [57] J C D a C N D S R L Milidiú, "TBL Template Selection: An Evolutionary Approach," in Current topics in artificial intelligence, Berlin, Springer-Verlag, 2007, p 180–189 [58] K T a C D Manning, " Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger," in Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC-2000), 2000 [59] R Kohavi, "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection," in IJCAI 14 (2), 1137-1145, 1995 [60] A S., Parsing by chunks, Kluwer Academic Publishers, 1991 [61] A S., Part-of-speech tagging and partial parsing, Kluwer, Dordrecht.: Ken Church, Steve Young, and Gerrit Bloothooft, editors, 1997 [62] R R K a S L Arulmozhi P., "A Hybrid POS Tagger for a Relatively Free Word Order Language," in In Proceedings of the Modeling and Shallow Parsing of Indian Language (MSPIL), Bombay, 2006 [63] Baum L E., "An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process," Inequalities, vol 3, pp 1-8, 1972 [64] N V J Ide, "Introduction to the Special Issue on Word Sense Disambiguation," Computational Linguistics, vol 24, no 1, pp 1-40, 1998 ... xem toán gán nhãn từ loại toán phân loại Mỗi từ phân vào lớp nhãn từ loại từ dựa vào thơng tin ngữ cảnh từ nhãn (có thể có) từ xung quanh Việc gán nhãn từ loại cho câu có N từ kết N tốn phân loại. .. hợp mơ hình cực đại Entropy học luật chuyển đổi cho tốn gán nhãn từ loại? ?? Đóng góp luận văn việc tìm hiểu, nghiên cứu đề xuất mơ hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại Trong mơ hình kết. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Khương KẾT HỢP MƠ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI Ngành Chuyên ngành

Ngày đăng: 16/03/2021, 10:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w