Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ LUẶN VĂN THẠC SĨ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10110 LUẶN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Lê Minh HÀ NỘI - 2007 MỤC LỤC Mục lục…………………………………………………………………………… Danh mục từ viết tắt…………………………………………………………….5 Danh mục bảng biểu……………………………………………………………… Danh mục hình vẽ………………………………………………………………… Chương I TỔNG QUAN I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin I.1.2 IE với ngôn ngữ tự nhiên I.1.3 Một số hệ IE thời kỳ đầu 10 I.2 Xây dựng hệ trích chọn thơng tin 12 I.2.1 Phương pháp xây dựng hệ trích chọn thơng tin 12 I.2.2 Kiến trúc hệ trích chọn thông tin 17 I.3 Phương pháp đánh giá hệ thống 22 I.4 Bài tốn trích chọn tên riêng 24 I.5 Kết luận 25 Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ 26 II.1 Mơ hình Markov ẩn (HMMs) 26 II.1.1 Tổng quan HMMs 26 II.1.2 Thuật toán gán nhãn triagram HMMs 31 II.1.3 Một số hạn chế HMMs 33 II.2 Conditional Random Field tốn trích chọn thơng tin 34 II.2.1 Từ HMMs đến CRFs 35 II.2.2 Định nghĩa CRF 36 II.2.3 Thuật toán gán nhãn cho liệu dạng chuỗi 40 Thuâṭtoán GIS 45 Thuâṭtoán IIS 46 II.2.4 Các phương pháp tối ưu số 47 Kĩ thuật tối ưu số bậc 47 Kĩ thuâṭtối ưu sốbâcc̣ hai 48 II.2.5 CRF giải vấn đề lable bias 50 II.3 Perceptron tốn trích chọn thơng tin 52 II.3.1 Thuật toán percepton 52 II.3.2 Vectơ đặc trưng cục toàn cục 55 II.3.3 Thuật toán perceptron cho toán gán nhãn liệu dạng chuỗi 56 II.3.4 Biến thể thuật toán perceptron toán gán nhãn liệu dạng chuỗi 58 II.3.5 Chứng minh tính hội tụ thuật toán perceptron 63 II.4 Kết luận 70 Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT 71 III.1 Môi trường thưcc̣ nghiêm 71 Phần cứng 71 Phần mềm 71 Dữliêụ thưcc̣ nghiêm 71 III.2 Hê tc̣ hống trích chọn tên riêng cho tiếng Viêṭ 72 III.3 Các tham số huấn luyện đánh giá thực nghiệm 72 III.3.1 Huấn luyện 72 III.3.2 Kiểm tra 75 III.4 Lưạ choṇ thuôcc̣ tinh.́ 75 III.4.1 File huấn luyện 76 III.4.2 File mẫu: 78 III.5 Kết quảthưcc̣ nghiêm 80 Kết quảcủa 10 lần thử nghiêm 80 Lần thưcc̣ nghiêm cho kết quảtốt 80 Trung binh̀ 10 lần thưcc̣ nghiêm 81 Nhâṇ xét 82 KẾT LUẬN 85 Tài liệu tham khảo …………………………………………………………….… 89 MỞ ĐẦU Trích chọn tên riêng bước trích chọn thơng tin từ văn xử lý ngơn ngữ tự nhiên Nó ứng dụng nhiều lĩnh vực dịch tự động , tóm tắt văn , hiểu ngơn ngữtư nc̣ hiên, nhâṇ biết tên thưcc̣ thểtrong sinh/y hocc̣ vàđăcc̣ biêṭứng dungc̣ viêcc̣ tich́ hơpc̣ tư đc̣ ôngc̣ đối tươngc̣ , thưcc̣ thể từ môi trường Web vào ontology ngữnghiã vàcác sởtri thức Trong luâṇ văn này, trinh̀ bày số giải pháp cho tốn trích chọn tên riêng cho văn tiếng Viêṭtrên môi trường Web Sau xem xét hướng tiếp câṇ khác , choṇ phương pháp tiếp câṇ hocc̣ thống kê để tiến hành xây dựng hệ trích chọn tên riêng cho Văn tiếng Việt Ưu điểm phương pháp học thống kê là: dễ thu thập liệu, dễ mơ tả đối tượng trích chọn, có hiệu phù hợp với yêu cầu đặt cho luận văn Hệ trích chọn tên riêng cho văn tiếng Việt xây dựng dựa mô hinh ̀ Condi tional Random Fields (CRFLaferty, 2001) thuật toán perceptron cho toán gán nhãn liệu dạng chuỗi (M.Collins, 2002) Điểm manḥ CRF perceptron có khả xử lý liêụ cótinh́ chất chuỗi , tích hợp hàng trăm nghìn chí hàng triệu đặc điểm từ dữliêụ đa dangc̣ nhằm hỗtrơ cc̣ ho quátrinh ̀ huấn luyện Thưcc̣ nghiêm văn tiếng Viêṭcho thấy kết quảđaṭđươcc̣ khảquan Luận văn tổ chức thành ba chương sau:  Chương Tổng quan Chương mơ tả khái qt tốn cách thức xây dựng hệ trích chọn thơng tin Trong đề cập đến lược sử, tính thực tiễn hệ trích chọn thơng tin, kiến trúc hệ, phương pháp xây dựng hệ cách lựa chọn phương pháp phù hợp trường hợp cụ thể Đồng thời phần luận văn đề cập đến sơ lược tốn trích chọn tên riêng hướng toán đến việc xây dựng hệ thống trích chọn tên riêng dựa phương pháp học thống kê  Chương Các kiến thức tảng học thống kê Chương đề cập đến số phương pháp học thống kê như: HMMs, CRFs, perceptron Tác giả trình bày từ khái niệm, cách thức đến ưu nhược điểm phương pháp, từ hướng tập trung việc xây dựng hệ trích chọn tên riêng cho văn tiếng Việt vào CRFs thuật toán perceptron chương  Chương Xây dựng hệ trích chọn tên riêng sử dụng học thống kê Chương mô tả cách thức xây dựng hệ trích chọn tên riêng văn tiếng Việt sử dụng công cụ CRF++ Taku Kudo đưa số kết thực nghiệm mơ hình xây dựng DANH MỤC TỪ VIẾT TẮT Từhoăcc̣ cuṃ từ Conditional Random Field Mô hinh Markov ẩn ̀ Information Extraction Information Retrieval Nature Language Processing Message Understanding Conferencens Part-Of-Speech Named Entities Recognition Maximum Entropy Markov Model Supported Vector Machine DANH MỤC BẢNG BIỂU Bảng 1: Mợt số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng 17 Bảng 2: Các tham số trình huấn luyện đối với thuật toán CRF 74 Bảng 3: Các tham số trình huấn luyện đối với thuật toán MIRA 74 Bảng 4: Các tḥc tính tả từ 77 Bảng 5: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 80 Bảng 6: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 81 Bảng 7: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 81 Bảng 8: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf……… 82 Bảng 9: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf……… 83 Bảng 10: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán crf 83 DANH MỤC HÌNH VẼ Hình 1: Các bước mợt hệ trích chọn thơng tin .18 Hình 2: Cụ thể hóa bước mợt hệ trích chọn thơng tin 18 Hình 3: Mô hình Markov ẩn 28 Hình 4: Dạng đồ thị thuật toán Viterbi 30 Hình 5: Đồ thị vô hướng mô tả CRF 37 Hình 6: Vấn đề“label bias” 50 Hình 7: Mạng perceptron 53 Hình 8: Thuật toán perceptron 57 Hình 9: Thuật toán voted-perceptron 59 Hình 10: Mợt cách thể khác thuật tốn perceptron 64 Hình 11: Cấu trúc c̣thống trích chọn tên riêng 72 Hình 12: Mô tả một chuỗi quan sát file huấn luyện .78 Hình 13: File mẫu hệ thống 80 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 80 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán crf 82 Hình 16: So sánh đợ xác hai thuật tốn perceptron và crf 84 Chương I TỔNG QUAN Phần trình bày tổng quan tốn trích chọn thơng tin, bao gồm cần thiết trích chọn thông tin, kiến trúc xây dựng bước hệ trích chọn thơng tin, cuối vài toán ứng dụng phổ biến trích chọn thơng tin I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin Hiện liệu văn ở dạng điện tử có nhiều hết, nhiều số chưa sử dụng Khơng đọc, hiểu tổng hợp hàng terabyte văn hàng ngày Các nhà nghiên cứu mong muốn đưa cách khám phá, quản lý thông tin Các phương pháp phổ biến phương pháp thu thông tin (IR) phương pháp lọc thông tin [4] Một phương pháp phát triển có liên quan phương pháp trích chọn thơng tin (IE), phương pháp đề cập đến luận văn Có thể xem hệ IE hệ kết hợp mang lại thơng tin hữu ích từ trường lớn thơng tin thơ Với lượng lớn thơng tin hữu ích tiềm tàng, hệ IE chuyển thơng tin thơ, tiến hành lọc làm giảm nhỏ văn gốc Ví dụ nhà phân tích tài đầu tư sản xuất thiết bị bán dẫn họ cần phải biết số điều sau:  Loại hoá chất lựa chọn để làm lớp cách điện  Độ dày lớp  Nhiệt độ mà lớp hình thành  Ai sử dụng quy trình Những thơng tin thơng thường có sẵn báo tạp chí hệ IE thu thập báo có đoạn liên quan IE bắt đầu với đoạn văn bản, sau chuyển chúng dạng thông tin sẵn sàng cho việc phân loại 76 nhãn tương ứng Công viêcc̣ lưạ choṇ thuôcc̣ tinh́ thưcc̣ chất làchoṇ mâũ vị tư ngư canh (context predicate template), mẫu thể thông tin ̀ ̃ ̉ quan tâm taịm ột vị trí chuỗi liệu quan sát ́ ngư canh taịm ̃ ̉ ̀ cảnh (context predicate ) vị trí Mỗi thơng tin ngư canh taịi kết thông tin nhan tương ưng taịvi c̣tri đo se cho ta môṭthuôcc̣ tinh cua chuỗi dư liêụ quan sat taịi Như vâỵ môṭkhi đa co cac mâũ ngư canh , ́ nghìn thuộc tính cách tự động từ tập liệu huấn luyện ̃ Các thuộc tính mơ tả file mẫu (template file) file huấn luyện (train file) Các file mẫu mô tả ngữ cảnh từ vựng Các file huấn luyện mô tả liệu dùng để huấn luyện III.4.1 File huấn luyện Mỗi file huấn luyện chứa nhiều token, token tương ứng mơ tả dịng Mỗi dịng có nhiều cột (số cột dòng giống nhau) Trong toán khác nhau, token hiểu khác Trong tốn trích chọn tên riêng token hiểu từ Các token liên tiếp tạo thành chuỗi quan sát (observation sequence) Dòng trắng xen vào file huấn luyện tương ứng với việc kết thúc chuỗi quan sát Với dòng, cột nội dung token, cột cuối nhãn token Trong hệ thống trích chọn tên riêng mà tơi xây dựng, dịng mô tả token gồm cột Cột chứa nội dung từ, cột thứ hai mô tả thuộc tính tả từ (orthographic), cột thứ tư nhãn từ 77 Tên tḥc tính all_cap all_cap_and_digit all_digit alphanumeric all_cap_and_hyphen contain_comma_sign contain_dot_sign contain_colon_sign contain_slash_sign initial_cap initial_cap_and_dot_sign initial_cap_and_hyphen all_lower_case all_digit_and_hyphen Bảng 4: Các tḥc tính tả từ 78 Lamingo ĐạiLải Resort quyhoạch Côngty Kiến trúc ViệtNam Trungtâm Pháttriển vùng Sena Hình 12: Mô tả một chuỗi quan sát file huấn luyện III.4.2 File mẫu: Có hai loại: mẫu đơn (Unigram), mẫu kép (Bigram) Loại mẫu đơn: mẫu bắt đầu bằng chữ „U‟ Mẫu đơn có dạng %x[row,col], mẫu dùng để xác định token liệu đầu vào Trong row tương ứng với vị trí tương đối token quan sát thời điểm thời, col tương ứng với vị trí cố định file huấn luyện Với mẫu U01:%x[0,1], đoạn file train tương ứng với mẫu quan sát “Bộ Bưu – Viễn thơng vừa định cho phép thêm doanh nghiệp tham gia cung cấp dịch vụ viễn thông kể từ tháng 1/2007”là: Bộ Bưu – Viễn thơng vừa định Hinh Một ngữ cảnh chuỗi quan sát file huấn luyện 79 Khi đó, hàm đặc trưng sinh tương ứng là: hàm 1: if(ouput=B-org and feature U01:wf:ic) return else return hàm 2: if(ouput=I-org and feature U01:wf:icah) return else return … Số hàm sinh tương ứng bằng (N*L) L số lớp đầu N số chuỗi phân biệt gán tương ứng với lớp đầu Trong hệ thống xây dựng, số lớp đầu L = (B-org, I-org, B-loc, I-loc, B-time, I-time, B-per, I-per, O) Nếu đặc trưng tương ứng cột hai ta có 14 đặc trưng (N=14) Nếu đặc trưng tương ứng cột ba ta có đặc trưng (N=6) Loại mẫu kép: mẫu bắt đầu bằng chữ „B‟ Mẫu tự động sinh kết hợp token thời token trước Số hàm sinh bởi đặc trưng kép bằng (N*N*L) (ý nghĩa L N tương tự mẫu đơn # Unigram U00:%x[-2,0] U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[2,0] U05:%x[-1,0]/%x[0,0] U06:%x[0,0]/%x[1,0] U10:%x[-2,1] U11:%x[-1,1] U12:%x[0,1] U13:%x[1,1] U14:%x[2,1] U15:%x[-2,1]/%x[-1,1] U16:%x[-1,1]/%x[0,1] U17:%x[0,1]/%x[1,1] U18:%x[1,1]/%x[2,1] U20:%x[-2,1]/%x[-1,1]/%x[0,1] U21:%x[-1,1]/%x[0,1]/%x[1,1] 80 U22:%x[0,1]/%x[1,1]/%x[2,1] # Bigram B Hình 13: File mẫu hệ thống III.5 Kết quảthực nghiêm Kết quảcủa 10 lần thử nghiêṃ với thuật toán perceptron 95 90 85 80 75 70 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán perceptron Lần thưcc̣ nghiêṃ cho kết quảtốt nhất: loc org per time avg1: avg2: Bảng 5: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 81 B-loc I-loc B-org I-org B-per I-per B-time I-time avg1: avg2: Bảng 6: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron Trung binh 10 lần thưcc̣ nghiêṃ ̀ Độ đo Precision Recall F-measure Bảng 7: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 82 Kết qua cua 10 lần thư nghiêṃ với thuật toán crf ̉ 95 90 85 80 75 70 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán crf Lần thưcc̣ nghiêṃ cho kết quảtốt nhất: loc org per time avg1: avg2: Bảng 8: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf 83 M B-loc I-loc B-org I-org B-per I-per B-time I-time avg1: avg2: Bảng 9: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf Trung binh 10 lần thưcc̣ nghiêṃ ̀ Độ đo Precision Recall F-measure Bảng 10: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán crf 84 Hình 16: So sánh đợ xác hai thuật toán perceptron và crf Nhâṇ xét Bước đầu thưcc̣ nghiêm c̣thống trích chọn tên riêng cho văn Tiếng Việt có kết tương đối khảquan Tuy nhiên hệ thống thời đáp ứng cho việc nhận diện văn dạng chuẩn tắc mà chưa có khả thứ lỗi văn tự Các liệu thu thập trang vnexpress.net mà chưa trọng đến văn ngồi Nhưng tơi tin rằng xây dựng liệu dồi phong phú hơn, với nhiều đặc trưng tổng quát cho kết cao tương lai 85 KẾT LUẬN Nhưng vấn đềđa đươcc̣ giai quyết luâṇ văn ̃ Luận văn đa c̣thống hoa m ột số vấn đề lý thuyết trích chọn thơng tin , tốn trích chọn tên riêng đồng thơi trình bày, phân tich, tiếp câṇ bai toan ̀ ́ trích chọn tên riêng cho văn tiếng Viêṭdưạ mô hinh CRF perceptron đa đ̃ ươcc̣ đềxuất , thưcc̣ nghiêm vàthu đươcc̣ môṭsốkết Sau la môṭsốnet chinh ma luâṇ văn đa tâpc̣ trung giai ̀ Chương môṭđưa môṭcái nhiǹ khái quát vềtrich́ choṇ thông tin , tốn trích chọn tên riêng , mơ hinh̀ hóa tốn dangc̣ mơṭbài tốn gán nhãn liệu dạng chuỗi ứng dụng tốn trích chọn tên riêng, từ đóthấy đươcc̣ sư c̣ cần thiết phải cómơṭhê tc̣ hống trích chọn tên riêng cho tiếng Viêṭ Chương hai xem xét số phương pháp học thống kê HMMs, CRFs thuật toán perceptron Việc sâu vào việc phân tích, đánh giá phương pháp chương cho thấy nghèo nàn thuộc tính chọn mơ hình HMM s vấn đề “label bias” mà mô hình HMMs MEMM găpc̣ phải Nhưng đanh gia ly giai vi lại lựa chọn phương pháp học máy CRF s ̃ ́ perceptron sở để xây dựng hệ thống trích chọn tên riêng cho Viêṭ Chương ba trình bày hệ thống trích chọn tên đề xuất phương pháp lựa chọn thuộc tính cho việc nhận diện loại thực thể văn tiếng Viêṭ Chương đưa kết quảcủa tc̣ hống trích chọn tên riêng tiếng Viêṭqua môṭsốlần thưcc̣ nghiêm Hướng phát triển Măcc̣ dùkết quảphân loaịthưcc̣ thểcủa tc̣ hống cóthểtốt thời gian cóhaṇ nên tơi chỉdừng laịởcon sốtrung binh̀ là88%, thời gian 86 tới, tiếp tục nghiên cứu nhằm cải thiện hệ thống , tơi tin rằng kết có thểtăng lên 90% ở mức cụm từ Trên sởhê tc̣ hống trích chọn tên riêng tiếng Viêṭhiêṇ , dư đc̣ inḥ se ̃ mởrôngc̣ loại thực thể cụ thể hóa loại thực thể phân nhỏ loại thực thể điạ danh thành loaịthưcc̣ thểchỉđất nước, sơng ngịi, Tìm hiểu vàxây dưngc̣ mơṭhê tc̣ hống nhâṇ diêṇ mối quan c̣giữa thưcc̣ thểnhư tim̀ mối quan nc̣ hư nơi sinh môṭngười , vềchức vu c̣môṭngười môṭcông ty tổchức Tìm hiểu xây dựng hệ thống trích chọn tên riêng đa ngôn ngữ Xây dựng liệu lớn đa dạng để đạt mơ hình gần với tốn thực tế 87 Tài liệu tham khảo [1] Duglas E.Appelt, D.J.Israel Introduction to Information Extraction Technology 1999 [2] A.Berger The Improved Iterative Scaling Algorithm: A gentle Introdution School of Computer Science, Carnegie Mellon University 1999 [3] M.Collins Discriminative Training Methods for Hidden Markov Models: Theory and Experiment with Perceptron Algorithms.2002 [4] J.Cowie, W.Lehnert Information Extraction Paper 1996 [5] R.Dugad, U.B.Desai - "A Tutorial on Hidden Markov Model" - Technical Report No: SPANN-96.1, Indian Institute of Technology.1996 [6] D.Freitag, S.Khadivi .A Sequence Alignment Model Based on the Averaged Perceptron 2006 [7] Freund & Schapire Large Margin Classification Using the perceptron Algorithm Machine Learning 37(3) 277-296, 1999 [8] J.Lafferty, A.McCallum, and F.Pereira Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [9] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [10] Walter F.Mascarenhas The BFGS method with exact line searches fails for non-convex objective functions Published May 7, 2003 [11] A McCallum, K Rohanimanesh, and C Sutton Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences 2004 88 [12] A.McCallum, C.Shutton An introduction for Conditional Random Fields for Relational Learning 2005 [13] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [14] A.McCallum, W.li Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons 2003 [15] A.McCallum Efficiently Inducing Features of Conditional Random Fields 2003 [16] A.B.Poritz - "Hidden Markov Models - A Guide Tour" - IEEE, 1988 [17] L.R.Rabiner - "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" - Proceedings of IEEE, VOL.77, NO.2, FEB 1989 [18] A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc Emparical Methods for Natural Language Processing, 1996 [19] B.Roask, M.Saraclar, M.Collins, M.Johnson Discriminative Language Modeling with Conditional Random Fields and the Perceptron Algorithm 2004 [20] Sunita Sarawagi, William W Cohen Semi-Markov Conditional Random Fields for Information Extraction 2004 [21] H.Wallach Efficient Training of Conditional Random Fields University Of Edinburgh, 2002 [22] Y.Zhang, S.Clark Chinese Segmentation with a Word-Based Perceptron Algorithm 2006 [23] Lê Minh Hoàng Một phương pháp nhận dạng văn Tiếng Việt 1999 89 [24] Nguyễn Cẩm Tú Nhận biết loại thực thể văn Tiếng Việt nhằm hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể 2005 [25] Nguyễn Cẩm Tú, Trần Thi Oanh,c̣ Phan Xuân Hiếu, Hà Quang Thụy Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields 2005 [26] Tri Tran Q., Thao Pham T.X., Hung Ngo Q., Dien Dinh and Niegl Collier Named Entitiy Recognition in Vietnamese Document 2007 Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please register your program! Go to Purchase Now>> AnyBizSoft PDF Merger  Merge multiple PDF files into one  Select page range of PDF to merge  Select specific page(s) to merge  Extract page(s) from different PDF files and merge into one ... HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10 110 ... Xây dựng hệ trích chọn thơng tin 12 I.2 .1 Phương pháp xây dựng hệ trích chọn thơng tin 12 I.2.2 Kiến trúc hệ trích chọn thơng tin 17 I.3 Phương pháp đánh giá hệ thống ... hành xây dựng hệ trích chọn tên riêng cho Văn tiếng Việt Ưu điểm phương pháp học thống kê là: dễ thu thập liệu, dễ mô tả đối tượng trích chọn, có hiệu phù hợp với yêu cầu đặt cho luận văn Hệ trích

Định dạng
Số trang	99
Dung lượng	903,2 KB