(LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS Công nghệ thông tin 1 01 10

92 2 0
(LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS Công nghệ thông tin 1 01 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ LUẶN VĂN THẠC SĨ HÀ NỘI - 2007 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10110 LUẶN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Lê Minh HÀ NỘI - 2007 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC Mục lục…………………………………………………………………………… Danh mục từ viết tắt…………………………………………………………….5 Danh mục bảng biểu……………………………………………………………… Danh mục hình vẽ………………………………………………………………… Chương I TỔNG QUAN .8 I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin .8 I.1.2 IE với ngôn ngữ tự nhiên I.1.3 Một số hệ IE thời kỳ đầu 10 I.2 Xây dựng hệ trích chọn thơng tin 12 I.2.1 Phương pháp xây dựng hệ trích chọn thơng tin 12 I.2.2 Kiến trúc hệ trích chọn thơng tin 17 I.3 Phương pháp đánh giá hệ thống 22 I.4 Bài tốn trích chọn tên riêng 24 I.5 Kết luận 25 Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ 26 II.1 Mơ hình Markov ẩn (HMMs) 26 II.1.1 Tổng quan HMMs 26 II.1.2 Thuật toán gán nhãn triagram HMMs .31 II.1.3 Một số hạn chế HMMs .33 II.2 Conditional Random Field tốn trích chọn thông tin 34 II.2.1 Từ HMMs đến CRFs .35 II.2.2 Định nghĩa CRF .36 II.2.3 Thuật toán gán nhãn cho liệu dạng chuỗi 40 Thuâ ̣t toán GIS 45 Thuâ ̣t toán IIS 46 II.2.4 Các phương pháp tối ưu số 47 Kĩ thuật tối ưu số bậc 47 Kĩ thuâ ̣t tố i ưu số bâ ̣c hai 48 II.2.5 CRF giải vấn đề lable bias 50 II.3 Perceptron tốn trích chọn thơng tin .52 TIEU LUAN MOI download : skknchat@gmail.com II.3.1 Thuật toán percepton .52 II.3.2 Vectơ đặc trưng cục toàn cục 55 II.3.3 Thuật toán perceptron cho toán gán nhãn liệu dạng chuỗi 56 II.3.4 Biến thể thuật toán perceptron toán gán nhãn liệu dạng chuỗi 58 II.3.5 Chứng minh tính hội tụ thuật tốn perceptron 63 II.4 Kết luận 70 Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT 71 III.1 Môi trường thực nghiê ̣m .71 Phầ n cứng 71 Phầ n mề m 71 Dữ liê ̣u thực nghiê ̣m 71 III.2 Hê ̣ thố ng trích chọn tên riêng cho tiế ng Viê ̣t .72 III.3 Các tham số huấn luyện đánh giá thực nghiệm 72 III.3.1 Huấn luyện .72 III.3.2 Kiểm tra 75 III.4 Lựa cho ̣n các thuô ̣c tính 75 III.4.1 File huấn luyện .76 III.4.2 File mẫu: .78 III.5 Kế t quả thực nghiê ̣m .80 Kế t quả của 10 lầ n thử nghiê ̣m 80 Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t .80 Trung bin ̀ h 10 lầ n thực nghiê ̣m 81 Nhâ ̣n xét 82 KẾT LUẬN .85 Tài liệu tham khảo …………………………………………………………….… 89 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Trích chọn tên riêng là mợt bước trích chọn thơng tin từ văn và xử lý ngôn ngữ tự nhiên Nó được ứng dụng nhiều lĩnh vực dịch tự động, tóm tắt văn , hiể u ngôn ngữ tự nhiên, nhâ ̣n biế t tên thực thể sinh/y ho ̣c và đă ̣c biê ̣t ứng du ̣ng viê ̣c tích hơ ̣p tự đô ̣ng các đố i tươ ̣ng , thực thể từ môi trường Web vào các ontology ngữ nghiã và các sở tri thức Trong luâ ̣n văn này, triǹ h bày mợt số giải pháp cho bài tốn trích chọn tên riêng cho các văn bản tiế ng Viê ̣t môi trường Web Sau xem xét các hướng tiế p câ ̣n khác , cho ̣n phương pháp tiế p câ ̣n ho ̣c thống kê để tiến hành xây dựng hệ trích chọn tên riêng cho Văn tiếng Việt Ưu điểm phương pháp học thống kê là: dễ thu thập dữ liệu, dễ mơ tả đối tượng trích chọn, và có hiệu phù hợp với yêu cầu đặt cho luận văn Hệ trích chọn tên riêng cho văn tiếng Việt này được xây dựng dựa mô hiǹ h Condi tional Random Fields (CRFLaferty, 2001) và thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi (M.Collins, 2002) Điể m ma ̣nh của CRF và perceptron là nó có khả xử lý dữ liê ̣u có tin ́ h chấ t ch̃i , có thể tích hợp hàng trăm nghìn chí hàng triệu đặc điể m từ dữ liê ̣u hế t sức đa da ̣ng nhằ m hỗ trơ ̣ cho quá trình huấn luyện Thực nghiê ̣m các văn bản tiế ng Viê ̣t cho thấ y kế t quả đa ̣t đươ ̣c rấ t khả quan Luận văn được tổ chức thành ba chương sau:  Chương Tổng quan Chương này mơ tả khái qt về bài tốn và cách thức xây dựng hệ trích chọn thơng tin Trong đó đề cập đến lược sử, tính thực tiễn hệ trích chọn thơng tin, kiến trúc hệ, phương pháp xây dựng hệ và cách lựa chọn phương pháp phù hợp từng trường hợp cụ thể Đồng thời phần này luận văn đề cập đến sơ lược về bài tốn trích chọn tên riêng và hướng bài toán đến việc xây dựng hệ thống trích chọn tên riêng dựa phương pháp học thống kê  Chương Các kiến thức tảng học thống kê TIEU LUAN MOI download : skknchat@gmail.com Chương này đề cập đến một số phương pháp học thống kê như: HMMs, CRFs, và perceptron Tác giả trình bày từ khái niệm, cách thức đến ưu nhược điểm từng phương pháp, từ đó hướng sự tập trung việc xây dựng hệ trích chọn tên riêng cho văn tiếng Việt vào CRFs và thuật toán perceptron chương  Chương Xây dựng hệ trích chọn tên riêng sử dụng học thống kê Chương này mô tả cách thức xây dựng mợt hệ trích chọn tên riêng văn tiếng Việt sử dụng công cụ CRF++ Taku Kudo và đưa một số kết thực nghiệm mô hình xây dựng được TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 DANH MỤC TỪ VIẾT TẮT Từ hoă ̣c cu ̣m từ Viế t tắ t Conditional Random Field CRF Mô hin ̀ h Markov ẩ n HMMs Information Extraction IE Information Retrieval IR Nature Language Processing NLP Message Understanding Conferencens MUC Part-Of-Speech POS Named Entities Recognition NER Maximum Entropy Markov Model MEMM Supported Vector Machine SVM (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 DANH MỤC BẢNG BIỂU Bảng 1: Mợt số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng 17 Bảng 2: Các tham số trình huấn luyện đối với thuật toán CRF 74 Bảng 3: Các tham số trình huấn luyện đối với thuật toán MIRA 74 Bảng 4: Các tḥc tính tả từ 77 Bảng 5: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron 80 Bảng 6: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron 81 Bảng 7: Đánh giá trung bình 10 lầ n thực nghiê ̣m với thuật toán perceptron .81 Bảng 8: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tớ t nhấ t với thuật tốn crf……… 82 Bảng 9: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tớ t nhấ t với thuật tốn crf……… 83 Bảng 10: Đánh giá trung biǹ h 10 lầ n thực nghiê ̣m với thuật toán crf 83 (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 DANH MỤC HÌNH VẼ Hình 1: Các bước mợt hệ trích chọn thơng tin 18 Hình 2: Cụ thể hóa bước mợt hệ trích chọn thơng tin 18 Hình 3: Mơ hình Markov ẩn 28 Hình 4: Dạng đồ thị thuật toán Viterbi 30 Hình 5: Đồ thị vô hướng mô tả CRF 37 Hình 6: Vấ n đề “label bias” 50 Hình 7: Mạng perceptron .53 Hình 8: Thuật toán perceptron .57 Hình 9: Thuật tốn voted-perceptron 59 Hình 10: Mợt cách thể khác thuật toán perceptron 64 Hình 11: Cấ u trúc ̣ thớ ng trích chọn tên riêng 72 Hình 12: Mơ tả mợt chuỗi quan sát file huấn luyện 78 Hình 13: File mẫu hệ thống .80 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán perceptron 80 Hình 15: Giá trị ba đợ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán crf .82 Hình 16: So sánh đợ xác hai thuật toán perceptron và crf 84 (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 Chương I TỔNG QUAN Phần này trình bày tổng quan về bài tốn trích chọn thơng tin, bao gồm sự cần thiết trích chọn thơng tin, kiến trúc xây dựng và bước một hệ trích chọn thơng tin, cuối là mợt vài bài tốn ứng dụng phổ biến trích chọn thơng tin I.1 Lược sử trích chọn thơng tin I.1.1 Tính cần thiết trích chọn thơng tin Hiện dữ liệu văn dạng điện tử có nhiều hết, nhiều số đó chưa được sử dụng Không có thể đọc, hiểu và tổng hợp hàng terabyte văn hàng ngày Các nhà nghiên cứu mong muốn đưa cách khám phá, quản lý thông tin này Các phương pháp phổ biến là phương pháp thu thông tin (IR) và phương pháp lọc thông tin [4] Một phương pháp mới phát triển có liên quan đó là phương pháp trích chọn thơng tin (IE), là phương pháp được đề cập đến luận văn Có thể xem hệ IE hệ kết hợp mang lại thơng tin hữu ích từ những trường lớn thông tin thô Với một lượng lớn thơng tin hữu ích tiềm tàng, hệ IE có thể chuyển thông tin thô, tiến hành lọc và làm giảm nhỏ văn gốc Ví dụ nhà phân tích tài đầu tư sản xuất thiết bị bán dẫn thì họ cần phải biết một số điều sau:  Loại hoá chất nào lựa chọn để làm lớp cách điện  Độ dày lớp này  Nhiệt độ mà đó lớp này được hình thành  Ai sử dụng quy trình này Những thông tin này thông thường có sẵn báo tạp chí và hệ IE có thể thu thập những bài báo có đoạn liên quan IE bắt đầu với những đoạn văn bản, sau đó chuyển chúng về dạng thông tin sẵn sàng cho việc phân loại (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 76 nhãn tương ứng Công viê ̣c lựa cho ̣n các thuô ̣c tiń h thực chấ t là cho ̣n các mẫu vị từ ngữ cảnh (context predicate template), mẫu này thể những thông tin đáng quan tâm ta ̣i m ột vị trí bất kì chuỗi dữ liệu quan sát Áp dụng mẫu ngữ cảnh này ta ̣i m ột vị trí chuỗi dữ liệu quan sát cho ta thông tin ngữ cảnh (context predicate ) vị trí đó Mỡi thơng tin ngữ cảnh ta ̣i i kế t hơ ̣p với thông tin nhañ tương ứng ta ̣i vi ̣trí đó sẽ cho ta mô ̣t thuô ̣c tính của chuỗi dữ liê ̣u quan sát ta ̣i i Như vâ ̣y mô ̣t đã có các mẫu ngữ cảnh , ta có thể rút đươ ̣c hàng nghìn thuộc tính mợt cách tự đợng từ tập dữ liệu huấn luyện Các tḥc tính được mơ tả file mẫu (template file) và file huấn luyện (train file) Các file mẫu mô tả ngữ cảnh về từ vựng Các file huấn luyện mô tả dữ liệu được dùng để huấn luyện III.4.1 File huấn luyện Mỗi file huấn luyện chứa nhiều token, token tương ứng được mơ tả mợt dịng Mỗi dịng có thể có nhiều cợt (số cợt dịng là giống nhau) Trong bài toán khác nhau, token được hiểu là khác Trong bài tốn trích chọn tên riêng token được hiểu từ Các token liên tiếp tạo thành mợt chuỗi quan sát (observation sequence) Dịng trắng được xen vào file huấn luyện tương ứng với việc kết thúc một chuỗi quan sát Với dịng, cợt ln là nợi dung token, cột cuối là nhãn token Trong hệ thống trích chọn tên riêng mà tơi xây dựng, dịng mơ tả token gồm cợt Cợt chứa nội dung từ, cột thứ hai mô tả tḥc tính tả từ (orthographic), cợt thứ tư là nhãn từ (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 77 Tên thuộc tính Viết tắt Ý nghĩa Ví dụ Tất đều là chữ viết hoa Tất đều là chữ viết hoa và chữ số Tất đều là số all_cap wf:ac all_cap_and_digit wf:acd all_digit wf:ad alphanumeric wf:alm all_cap_and_hyphen wf:cah contain_comma_sign wf:ccs Tất đều là chữ và số Tất đều là chữ viết hoa và dấu gạch ngang Chứa dấu phẩy contain_dot_sign wf:cds Chứa dấu chấm contain_colon_sign wf:cls Chứa dấu hai chấm 12:21:15 contain_slash_sign wf:css Chứa dấu gạch chéo QD123/BGDDT/07 Chữ đầu là chữ hoa Chữ đầu là chữ hoa và chứa initial_cap_and_dot_sign wf:icds dấu chấm Chữ đầu là chữ hoa và chứa initial_cap_and_hyphen wf:ich dấu gạch ngang all_lower_case wf:lower Tất đều là chữ thường Tất đều là số và dấu gạch all_digit_and_hyphen wf:adh ngang initial_cap TCVN 12ABC 123 tp23 BC-VT 12,21 21.32 Nguyễn wf:ic Bảng 4: Tp.Hồ Chí Minh Bưu - Viễn thơng ngang 12-21-2007 Các thuộc tính tả từ (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xay.dung.he.thong.trich.chon.ten.rieng.cho.van.ban.tieng.Viet.bang.phuong.phap.hoc.thong.ke.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 78 Lamingo ĐạiLải Resort quyhoạch Côngty Kiến trúc ViệtNam Trungtâm Pháttriển vùng Sena wf:ic wf:ic wf:ic O O O wf:ic wf:ic wf:lower wf:ic O wf:ic wf:ic wf:lower wf:ic B-loc I-loc I-loc O O O B-org I-org I-org I-org O B-org I-org I-org I-org Hình 12: Mơ tả chuỗi quan sát file huấn luyện III.4.2 File mẫu: Có hai loại: mẫu đơn (Unigram), mẫu kép (Bigram) Loại mẫu đơn: mẫu này được bắt đầu chữ „U‟ Mẫu đơn có dạng %x[row,col], mẫu này được dùng để xác định một token dữ liệu đầu vào Trong đó row tương ứng với vị trí tương đối đối với token được quan sát thời điểm thời, col tương ứng với vị trí cố định file huấn luyện Với mẫu U01:%x[0,1], và một đoạn file train tương ứng với mẫu quan sát “Bộ Bưu – Viễn thơng vừa định cho phép thêm doanh nghiệp nữa tham gia cung cấp dịch vụ viễn thông kể từ tháng 1/2007”là: Bộ wf:ic wf:iorg B-org Bưu – Viễn thơng wf:icah wf:iorg I-org vừa O O

Ngày đăng: 17/12/2023, 01:57

Tài liệu cùng người dùng

Tài liệu liên quan