Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

99 24 0
Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê  luận văn ths  công nghệ thông tin  1 01 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ LUẶN VĂN THẠC SĨ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10110 LUẶN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Lê Minh HÀ NỘI - 2007 MỤC LỤC Mục lục…………………………………………………………………………… Danh mục từ viết tắt…………………………………………………………….5 Danh mục bảng biểu……………………………………………………………… Danh mục hình vẽ………………………………………………………………… Chương I TỔNG QUAN I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin I.1.2 IE với ngôn ngữ tự nhiên I.1.3 Một số hệ IE thời kỳ đầu 10 I.2 Xây dựng hệ trích chọn thơng tin 12 I.2.1 Phương pháp xây dựng hệ trích chọn thơng tin 12 I.2.2 Kiến trúc hệ trích chọn thông tin 17 I.3 Phương pháp đánh giá hệ thống 22 I.4 Bài tốn trích chọn tên riêng 24 I.5 Kết luận 25 Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ 26 II.1 Mơ hình Markov ẩn (HMMs) 26 II.1.1 Tổng quan HMMs 26 II.1.2 Thuật toán gán nhãn triagram HMMs 31 II.1.3 Một số hạn chế HMMs 33 II.2 Conditional Random Field tốn trích chọn thơng tin 34 II.2.1 Từ HMMs đến CRFs 35 II.2.2 Định nghĩa CRF 36 II.2.3 Thuật toán gán nhãn cho liệu dạng chuỗi 40 Thuâṭtoán GIS 45 Thuâṭtoán IIS 46 II.2.4 Các phương pháp tối ưu số 47 Kĩ thuật tối ưu số bậc 47 Kĩ thuâṭtối ưu sốbâcc̣ hai 48 II.2.5 CRF giải vấn đề lable bias 50 II.3 Perceptron tốn trích chọn thơng tin 52 II.3.1 Thuật toán percepton 52 II.3.2 Vectơ đặc trưng cục toàn cục 55 II.3.3 Thuật toán perceptron cho toán gán nhãn liệu dạng chuỗi 56 II.3.4 Biến thể thuật toán perceptron toán gán nhãn liệu dạng chuỗi 58 II.3.5 Chứng minh tính hội tụ thuật toán perceptron 63 II.4 Kết luận 70 Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT 71 III.1 Môi trường thưcc̣ nghiêm 71 Phần cứng 71 Phần mềm 71 Dữliêụ thưcc̣ nghiêm 71 III.2 Hê tc̣ hống trích chọn tên riêng cho tiếng Viêṭ 72 III.3 Các tham số huấn luyện đánh giá thực nghiệm 72 III.3.1 Huấn luyện 72 III.3.2 Kiểm tra 75 III.4 Lưạ choṇ thuôcc̣ tinh.́ 75 III.4.1 File huấn luyện 76 III.4.2 File mẫu: 78 III.5 Kết quảthưcc̣ nghiêm 80 Kết quảcủa 10 lần thử nghiêm 80 Lần thưcc̣ nghiêm cho kết quảtốt 80 Trung binh̀ 10 lần thưcc̣ nghiêm 81 Nhâṇ xét 82 KẾT LUẬN 85 Tài liệu tham khảo …………………………………………………………….… 89 MỞ ĐẦU Trích chọn tên riêng bước trích chọn thơng tin từ văn xử lý ngơn ngữ tự nhiên Nó ứng dụng nhiều lĩnh vực dịch tự động , tóm tắt văn , hiểu ngơn ngữtư nc̣ hiên, nhâṇ biết tên thưcc̣ thểtrong sinh/y hocc̣ vàđăcc̣ biêṭứng dungc̣ viêcc̣ tich́ hơpc̣ tư đc̣ ôngc̣ đối tươngc̣ , thưcc̣ thể từ môi trường Web vào ontology ngữnghiã vàcác sởtri thức Trong luâṇ văn này, trinh̀ bày số giải pháp cho tốn trích chọn tên riêng cho văn tiếng Viêṭtrên môi trường Web Sau xem xét hướng tiếp câṇ khác , choṇ phương pháp tiếp câṇ hocc̣ thống kê để tiến hành xây dựng hệ trích chọn tên riêng cho Văn tiếng Việt Ưu điểm phương pháp học thống kê là: dễ thu thập liệu, dễ mơ tả đối tượng trích chọn, có hiệu phù hợp với yêu cầu đặt cho luận văn Hệ trích chọn tên riêng cho văn tiếng Việt xây dựng dựa mô hinh ̀ Condi tional Random Fields (CRFLaferty, 2001) thuật toán perceptron cho toán gán nhãn liệu dạng chuỗi (M.Collins, 2002) Điểm manḥ CRF perceptron có khả xử lý liêụ cótinh́ chất chuỗi , tích hợp hàng trăm nghìn chí hàng triệu đặc điểm từ dữliêụ đa dangc̣ nhằm hỗtrơ cc̣ ho quátrinh ̀ huấn luyện Thưcc̣ nghiêm văn tiếng Viêṭcho thấy kết quảđaṭđươcc̣ khảquan Luận văn tổ chức thành ba chương sau:  Chương Tổng quan Chương mơ tả khái qt tốn cách thức xây dựng hệ trích chọn thơng tin Trong đề cập đến lược sử, tính thực tiễn hệ trích chọn thơng tin, kiến trúc hệ, phương pháp xây dựng hệ cách lựa chọn phương pháp phù hợp trường hợp cụ thể Đồng thời phần luận văn đề cập đến sơ lược tốn trích chọn tên riêng hướng toán đến việc xây dựng hệ thống trích chọn tên riêng dựa phương pháp học thống kê  Chương Các kiến thức tảng học thống kê Chương đề cập đến số phương pháp học thống kê như: HMMs, CRFs, perceptron Tác giả trình bày từ khái niệm, cách thức đến ưu nhược điểm phương pháp, từ hướng tập trung việc xây dựng hệ trích chọn tên riêng cho văn tiếng Việt vào CRFs thuật toán perceptron chương  Chương Xây dựng hệ trích chọn tên riêng sử dụng học thống kê Chương mô tả cách thức xây dựng hệ trích chọn tên riêng văn tiếng Việt sử dụng công cụ CRF++ Taku Kudo đưa số kết thực nghiệm mơ hình xây dựng DANH MỤC TỪ VIẾT TẮT Từhoăcc̣ cuṃ từ Conditional Random Field Mô hinh Markov ẩn ̀ Information Extraction Information Retrieval Nature Language Processing Message Understanding Conferencens Part-Of-Speech Named Entities Recognition Maximum Entropy Markov Model Supported Vector Machine DANH MỤC BẢNG BIỂU Bảng 1: Mợt số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng 17 Bảng 2: Các tham số trình huấn luyện đối với thuật toán CRF 74 Bảng 3: Các tham số trình huấn luyện đối với thuật toán MIRA 74 Bảng 4: Các tḥc tính tả từ 77 Bảng 5: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 80 Bảng 6: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 81 Bảng 7: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 81 Bảng 8: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf……… 82 Bảng 9: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf……… 83 Bảng 10: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán crf 83 DANH MỤC HÌNH VẼ Hình 1: Các bước mợt hệ trích chọn thơng tin .18 Hình 2: Cụ thể hóa bước mợt hệ trích chọn thơng tin 18 Hình 3: Mô hình Markov ẩn 28 Hình 4: Dạng đồ thị thuật toán Viterbi 30 Hình 5: Đồ thị vô hướng mô tả CRF 37 Hình 6: Vấn đề“label bias” 50 Hình 7: Mạng perceptron 53 Hình 8: Thuật toán perceptron 57 Hình 9: Thuật toán voted-perceptron 59 Hình 10: Mợt cách thể khác thuật tốn perceptron 64 Hình 11: Cấu trúc c̣thống trích chọn tên riêng 72 Hình 12: Mô tả một chuỗi quan sát file huấn luyện .78 Hình 13: File mẫu hệ thống 80 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 80 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán crf 82 Hình 16: So sánh đợ xác hai thuật tốn perceptron và crf 84 Chương I TỔNG QUAN Phần trình bày tổng quan tốn trích chọn thơng tin, bao gồm cần thiết trích chọn thông tin, kiến trúc xây dựng bước hệ trích chọn thơng tin, cuối vài toán ứng dụng phổ biến trích chọn thơng tin I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin Hiện liệu văn ở dạng điện tử có nhiều hết, nhiều số chưa sử dụng Khơng đọc, hiểu tổng hợp hàng terabyte văn hàng ngày Các nhà nghiên cứu mong muốn đưa cách khám phá, quản lý thông tin Các phương pháp phổ biến phương pháp thu thông tin (IR) phương pháp lọc thông tin [4] Một phương pháp phát triển có liên quan phương pháp trích chọn thơng tin (IE), phương pháp đề cập đến luận văn Có thể xem hệ IE hệ kết hợp mang lại thơng tin hữu ích từ trường lớn thơng tin thơ Với lượng lớn thơng tin hữu ích tiềm tàng, hệ IE chuyển thơng tin thơ, tiến hành lọc làm giảm nhỏ văn gốc Ví dụ nhà phân tích tài đầu tư sản xuất thiết bị bán dẫn họ cần phải biết số điều sau:  Loại hoá chất lựa chọn để làm lớp cách điện  Độ dày lớp  Nhiệt độ mà lớp hình thành  Ai sử dụng quy trình Những thơng tin thơng thường có sẵn báo tạp chí hệ IE thu thập báo có đoạn liên quan IE bắt đầu với đoạn văn bản, sau chuyển chúng dạng thông tin sẵn sàng cho việc phân loại 76 nhãn tương ứng Công viêcc̣ lưạ choṇ thuôcc̣ tinh́ thưcc̣ chất làchoṇ mâũ vị tư ngư canh (context predicate template), mẫu thể thông tin ̀ ̃ ̉ quan tâm taịm ột vị trí chuỗi liệu quan sát ́ ngư canh taịm ̃ ̉ ̀ cảnh (context predicate ) vị trí Mỗi thơng tin ngư canh taịi kết thông tin nhan tương ưng taịvi c̣tri đo se cho ta môṭthuôcc̣ tinh cua chuỗi dư liêụ quan sat taịi Như vâỵ môṭkhi đa co cac mâũ ngư canh , ́ nghìn thuộc tính cách tự động từ tập liệu huấn luyện ̃ Các thuộc tính mơ tả file mẫu (template file) file huấn luyện (train file) Các file mẫu mô tả ngữ cảnh từ vựng Các file huấn luyện mô tả liệu dùng để huấn luyện III.4.1 File huấn luyện Mỗi file huấn luyện chứa nhiều token, token tương ứng mơ tả dịng Mỗi dịng có nhiều cột (số cột dòng giống nhau) Trong toán khác nhau, token hiểu khác Trong tốn trích chọn tên riêng token hiểu từ Các token liên tiếp tạo thành chuỗi quan sát (observation sequence) Dòng trắng xen vào file huấn luyện tương ứng với việc kết thúc chuỗi quan sát Với dòng, cột nội dung token, cột cuối nhãn token Trong hệ thống trích chọn tên riêng mà tơi xây dựng, dịng mô tả token gồm cột Cột chứa nội dung từ, cột thứ hai mô tả thuộc tính tả từ (orthographic), cột thứ tư nhãn từ 77 Tên tḥc tính all_cap all_cap_and_digit all_digit alphanumeric all_cap_and_hyphen contain_comma_sign contain_dot_sign contain_colon_sign contain_slash_sign initial_cap initial_cap_and_dot_sign initial_cap_and_hyphen all_lower_case all_digit_and_hyphen Bảng 4: Các tḥc tính tả từ 78 Lamingo ĐạiLải Resort quyhoạch Côngty Kiến trúc ViệtNam Trungtâm Pháttriển vùng Sena Hình 12: Mô tả một chuỗi quan sát file huấn luyện III.4.2 File mẫu: Có hai loại: mẫu đơn (Unigram), mẫu kép (Bigram) Loại mẫu đơn: mẫu bắt đầu bằng chữ „U‟ Mẫu đơn có dạng %x[row,col], mẫu dùng để xác định token liệu đầu vào Trong row tương ứng với vị trí tương đối token quan sát thời điểm thời, col tương ứng với vị trí cố định file huấn luyện Với mẫu U01:%x[0,1], đoạn file train tương ứng với mẫu quan sát “Bộ Bưu – Viễn thơng vừa định cho phép thêm doanh nghiệp tham gia cung cấp dịch vụ viễn thông kể từ tháng 1/2007”là: Bộ Bưu – Viễn thơng vừa định Hinh Một ngữ cảnh chuỗi quan sát file huấn luyện 79 Khi đó, hàm đặc trưng sinh tương ứng là: hàm 1: if(ouput=B-org and feature U01:wf:ic) return else return hàm 2: if(ouput=I-org and feature U01:wf:icah) return else return … Số hàm sinh tương ứng bằng (N*L) L số lớp đầu N số chuỗi phân biệt gán tương ứng với lớp đầu Trong hệ thống xây dựng, số lớp đầu L = (B-org, I-org, B-loc, I-loc, B-time, I-time, B-per, I-per, O) Nếu đặc trưng tương ứng cột hai ta có 14 đặc trưng (N=14) Nếu đặc trưng tương ứng cột ba ta có đặc trưng (N=6) Loại mẫu kép: mẫu bắt đầu bằng chữ „B‟ Mẫu tự động sinh kết hợp token thời token trước Số hàm sinh bởi đặc trưng kép bằng (N*N*L) (ý nghĩa L N tương tự mẫu đơn # Unigram U00:%x[-2,0] U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[2,0] U05:%x[-1,0]/%x[0,0] U06:%x[0,0]/%x[1,0] U10:%x[-2,1] U11:%x[-1,1] U12:%x[0,1] U13:%x[1,1] U14:%x[2,1] U15:%x[-2,1]/%x[-1,1] U16:%x[-1,1]/%x[0,1] U17:%x[0,1]/%x[1,1] U18:%x[1,1]/%x[2,1] U20:%x[-2,1]/%x[-1,1]/%x[0,1] U21:%x[-1,1]/%x[0,1]/%x[1,1] 80 U22:%x[0,1]/%x[1,1]/%x[2,1] # Bigram B Hình 13: File mẫu hệ thống III.5 Kết quảthực nghiêm Kết quảcủa 10 lần thử nghiêṃ với thuật toán perceptron 95 90 85 80 75 70 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán perceptron Lần thưcc̣ nghiêṃ cho kết quảtốt nhất: loc org per time avg1: avg2: Bảng 5: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron 81 B-loc I-loc B-org I-org B-per I-per B-time I-time avg1: avg2: Bảng 6: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán perceptron Trung binh 10 lần thưcc̣ nghiêṃ ̀ Độ đo Precision Recall F-measure Bảng 7: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán perceptron 82 Kết qua cua 10 lần thư nghiêṃ với thuật toán crf ̉ 95 90 85 80 75 70 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lần thưcc̣ nghiêṃ với thuật toán crf Lần thưcc̣ nghiêṃ cho kết quảtốt nhất: loc org per time avg1: avg2: Bảng 8: Đánh giámức cụm từ - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf 83 M B-loc I-loc B-org I-org B-per I-per B-time I-time avg1: avg2: Bảng 9: Đánh giámức nhãn - Lần thưcc̣ nghiêṃ cho kết quảtốt với thuật toán crf Trung binh 10 lần thưcc̣ nghiêṃ ̀ Độ đo Precision Recall F-measure Bảng 10: Đánh giátrung binh̀ 10 lần thưcc̣ nghiêṃ với thuật toán crf 84 Hình 16: So sánh đợ xác hai thuật toán perceptron và crf Nhâṇ xét Bước đầu thưcc̣ nghiêm c̣thống trích chọn tên riêng cho văn Tiếng Việt có kết tương đối khảquan Tuy nhiên hệ thống thời đáp ứng cho việc nhận diện văn dạng chuẩn tắc mà chưa có khả thứ lỗi văn tự Các liệu thu thập trang vnexpress.net mà chưa trọng đến văn ngồi Nhưng tơi tin rằng xây dựng liệu dồi phong phú hơn, với nhiều đặc trưng tổng quát cho kết cao tương lai 85 KẾT LUẬN Nhưng vấn đềđa đươcc̣ giai quyết luâṇ văn ̃ Luận văn đa c̣thống hoa m ột số vấn đề lý thuyết trích chọn thơng tin , tốn trích chọn tên riêng đồng thơi trình bày, phân tich, tiếp câṇ bai toan ̀ ́ trích chọn tên riêng cho văn tiếng Viêṭdưạ mô hinh CRF perceptron đa đ̃ ươcc̣ đềxuất , thưcc̣ nghiêm vàthu đươcc̣ môṭsốkết Sau la môṭsốnet chinh ma luâṇ văn đa tâpc̣ trung giai ̀ Chương môṭđưa môṭcái nhiǹ khái quát vềtrich́ choṇ thông tin , tốn trích chọn tên riêng , mơ hinh̀ hóa tốn dangc̣ mơṭbài tốn gán nhãn liệu dạng chuỗi ứng dụng tốn trích chọn tên riêng, từ đóthấy đươcc̣ sư c̣ cần thiết phải cómơṭhê tc̣ hống trích chọn tên riêng cho tiếng Viêṭ Chương hai xem xét số phương pháp học thống kê HMMs, CRFs thuật toán perceptron Việc sâu vào việc phân tích, đánh giá phương pháp chương cho thấy nghèo nàn thuộc tính chọn mơ hình HMM s vấn đề “label bias” mà mô hình HMMs MEMM găpc̣ phải Nhưng đanh gia ly giai vi lại lựa chọn phương pháp học máy CRF s ̃ ́ perceptron sở để xây dựng hệ thống trích chọn tên riêng cho Viêṭ Chương ba trình bày hệ thống trích chọn tên đề xuất phương pháp lựa chọn thuộc tính cho việc nhận diện loại thực thể văn tiếng Viêṭ Chương đưa kết quảcủa tc̣ hống trích chọn tên riêng tiếng Viêṭqua môṭsốlần thưcc̣ nghiêm Hướng phát triển Măcc̣ dùkết quảphân loaịthưcc̣ thểcủa tc̣ hống cóthểtốt thời gian cóhaṇ nên tơi chỉdừng laịởcon sốtrung binh̀ là88%, thời gian 86 tới, tiếp tục nghiên cứu nhằm cải thiện hệ thống , tơi tin rằng kết có thểtăng lên 90% ở mức cụm từ Trên sởhê tc̣ hống trích chọn tên riêng tiếng Viêṭhiêṇ , dư đc̣ inḥ se ̃ mởrôngc̣ loại thực thể cụ thể hóa loại thực thể phân nhỏ loại thực thể điạ danh thành loaịthưcc̣ thểchỉđất nước, sơng ngịi, Tìm hiểu vàxây dưngc̣ mơṭhê tc̣ hống nhâṇ diêṇ mối quan c̣giữa thưcc̣ thểnhư tim̀ mối quan nc̣ hư nơi sinh môṭngười , vềchức vu c̣môṭngười môṭcông ty tổchức Tìm hiểu xây dựng hệ thống trích chọn tên riêng đa ngôn ngữ Xây dựng liệu lớn đa dạng để đạt mơ hình gần với tốn thực tế 87 Tài liệu tham khảo [1] Duglas E.Appelt, D.J.Israel Introduction to Information Extraction Technology 1999 [2] A.Berger The Improved Iterative Scaling Algorithm: A gentle Introdution School of Computer Science, Carnegie Mellon University 1999 [3] M.Collins Discriminative Training Methods for Hidden Markov Models: Theory and Experiment with Perceptron Algorithms.2002 [4] J.Cowie, W.Lehnert Information Extraction Paper 1996 [5] R.Dugad, U.B.Desai - "A Tutorial on Hidden Markov Model" - Technical Report No: SPANN-96.1, Indian Institute of Technology.1996 [6] D.Freitag, S.Khadivi .A Sequence Alignment Model Based on the Averaged Perceptron 2006 [7] Freund & Schapire Large Margin Classification Using the perceptron Algorithm Machine Learning 37(3) 277-296, 1999 [8] J.Lafferty, A.McCallum, and F.Pereira Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc ICML, 2001 [9] Dong C.Liu and Jorge Nocedal On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 [10] Walter F.Mascarenhas The BFGS method with exact line searches fails for non-convex objective functions Published May 7, 2003 [11] A McCallum, K Rohanimanesh, and C Sutton Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences 2004 88 [12] A.McCallum, C.Shutton An introduction for Conditional Random Fields for Relational Learning 2005 [13] A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 [14] A.McCallum, W.li Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons 2003 [15] A.McCallum Efficiently Inducing Features of Conditional Random Fields 2003 [16] A.B.Poritz - "Hidden Markov Models - A Guide Tour" - IEEE, 1988 [17] L.R.Rabiner - "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" - Proceedings of IEEE, VOL.77, NO.2, FEB 1989 [18] A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc Emparical Methods for Natural Language Processing, 1996 [19] B.Roask, M.Saraclar, M.Collins, M.Johnson Discriminative Language Modeling with Conditional Random Fields and the Perceptron Algorithm 2004 [20] Sunita Sarawagi, William W Cohen Semi-Markov Conditional Random Fields for Information Extraction 2004 [21] H.Wallach Efficient Training of Conditional Random Fields University Of Edinburgh, 2002 [22] Y.Zhang, S.Clark Chinese Segmentation with a Word-Based Perceptron Algorithm 2006 [23] Lê Minh Hoàng Một phương pháp nhận dạng văn Tiếng Việt 1999 89 [24] Nguyễn Cẩm Tú Nhận biết loại thực thể văn Tiếng Việt nhằm hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể 2005 [25] Nguyễn Cẩm Tú, Trần Thi Oanh,c̣ Phan Xuân Hiếu, Hà Quang Thụy Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields 2005 [26] Tri Tran Q., Thao Pham T.X., Hung Ngo Q., Dien Dinh and Niegl Collier Named Entitiy Recognition in Vietnamese Document 2007 Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please register your program! Go to Purchase Now>> AnyBizSoft PDF Merger  Merge multiple PDF files into one  Select page range of PDF to merge  Select specific page(s) to merge  Extract page(s) from different PDF files and merge into one ... HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10 110 ... Xây dựng hệ trích chọn thơng tin 12 I.2 .1 Phương pháp xây dựng hệ trích chọn thơng tin 12 I.2.2 Kiến trúc hệ trích chọn thơng tin 17 I.3 Phương pháp đánh giá hệ thống ... hành xây dựng hệ trích chọn tên riêng cho Văn tiếng Việt Ưu điểm phương pháp học thống kê là: dễ thu thập liệu, dễ mô tả đối tượng trích chọn, có hiệu phù hợp với yêu cầu đặt cho luận văn Hệ trích

Ngày đăng: 11/11/2020, 22:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan