Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
645,02 KB
Nội dung
TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MƠ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THƠNG TIN TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI -2009 i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MƠ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THƠNG TIN TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn : Tiến Sĩ Nguyễn Trí Thành HÀ NỘI – 2009 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Nguyễn Trí Thành, người tận tình hướng dẫn em suốt q trình thực khóa luận Em xin gửi lời cảm ơn chân thành sâu sắc tới thầy, cô trường Đại học Công Nghệ dạy dỗ tận tình bảo cho tơi suốt trình học tập trường Những kiến thức mà thầy cô truyền đạt vốn quý báu cho chúng em bước vào tương lai Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Cơng Nghệ ủng hộ khuyến khích tơi q trình nghiên cứu thực khóa luận Cuối cùng, xin cảm ơn chân thành biết ơn vơ hạn tới gia đình, người có cơng sinh thành, nuôi dưỡng, người kịp thời động viên giúp đỡ vượt qua khó khăn sống Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Chúng em kính mong nhận thơng cảm q Thầy Cô bạn Hà Nội, ngày 12 tháng năm 2009 Sinh viên Nguyễn Thị Loan iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TẮT Nội dung khóa luận tìm hiểu mơ hình CRF, ứng dụng mơ hình trích chọn thơng tin tiếng Việt Trước hết khóa luận trình bày khái niệm chung trích chọn thơng thơng tin Đồng thời nêu đến hai hướng tiếp cận để xây dựng hệ thống trích chọn thơng tin ưu nhược điểm hướng tiếp cận, Đồng thời nêu ứng dụng trích chọn thông tin tiếng Việt Cụ thể tốn trích chọn thơng tin nhà đất Để ứng dụng trích chọn tiếng Việt luận văn nêu ba mơ hình học máy tập trung chủ yếu vào mơ hình Conditional Random Field –CRF Bất kỳ mơ hình có ưu nhược điểm luận văn trình bày hai vấn đề lớn mơ hình CRF vấn đề gán nhãn ước lượng tham số Đồng thời trình bày cơng cụ hữu ích CRF++ Luận văn trình bày việc ứng dụng mơ hình CRF làm tảng lý thuyết sở thực hành cơng cụ CRF vào tốn trích chọn thơng tin nhà đất Một tốn nhỏ tốn xử lý ngơn ngữ tự nhiên iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ vii BẢNG CÁC KÍ HIỆU VIẾT TẮT viii LỜI MỞ ĐẦU .1 Chương 1.TỔNG QUAN 1.1 TRÍCH CHỌN THƠNG TIN 1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THƠNG TIN 1.2.1 Hướng tiếp cận dựa tri thức .5 1.2.2 Hướng tiếp cận xây dựng mơ hình học máy .5 1.3 KIẾN TRÚC HỆ THỐNG IE 1.4 BÀI TỐN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT 1.5 Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT 1.6 TỔNG KẾT CHƯƠNG 10 Chương CONDITIONAL RANDOM FIELDS 11 2.1 MƠ HÌNH MARKOV ẨN- HMM 11 2.2 MƠ HÌNH CỰC ĐẠI HĨA ENTROPY-MEMM 13 2.3 MƠ HÌNH CONDITIONAL RANDOM FIELDS 15 2.3.1.Việc gán nhãn cho liệu 15 2.3.2 Định nghĩa CRF .16 2.3.3 Nguyên lý cực đại hóa Entropy .18 2.3.3.1 Độ đo Entropy điều kiện 18 2.3.3.2 Các ràng buộc phân phối mơ hình 19 2.3.3.3 Nguyên lý cực đại hóa Entropy 20 2.3.4 Hàm tiềm mơ hình CRF 20 2.3.5 Conditional Random Fields 21 2.3.6 So sánh với mơ hình khác 22 2.4 TỔNG KẾT CHƯƠNG 23 Chương THUẬT TỐN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SỐ CỦA MƠ HÌNH CRF VÀ CƠNG CỤ CRF ++ 24 3.1 THUẬT TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI 24 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2 XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25 3.3 ƯỚC LƯỢNG THAM SỐ CHO MƠ HÌNH CRF 26 3.3.1 Thuật toán S 28 3.3.2 Thuật toán T 29 3.4 CÔNG CỤ CRF++ TOOLKIT 30 3.4.1 Giới thiệu .30 3.4.2 Tính .31 3.4.3 Cài đặt cách sử dụng .31 3.4.3.1 Cài đặt .31 3.4.3.2 File định dạng huấn luyện test 31 3.4.3.3 Template type 32 3.4.4 Huấn luyện kiểm tra 34 3.5 TỔNG KẾT CHƯƠNG 36 Chương ỨNG DỤNG CRF VÀO BÀI TỐN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37 4.1 MƠ HÌNH HĨA BÀI TỐN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37 4.1.1 Xử lý liệu đầu vào .38 4.2 MÔI TRƯỜNG THỰC NGHIỆM 39 4.2.1 Phần cứng 39 4.2.2 Phần Mềm 39 4.2.3 Dữ liệu thực nghiệm 39 4.2.3.1 Lần thử nghiệm thứ 40 4.2.3.2 Lần thử nghiệm thứ hai 40 4.2.3.3 Kết đánh giá 42 4.3 HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI 44 4.4 TỔNG KẾT CHƯƠNG 45 KẾT LUẬN .46 TÀI LIỆU THAM KHẢO 47 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ Hình Một hệ thống trích chọn thơng tin Hình Mơ hình xây dựng IE theo hướng tiếp cận dựa tri thức Hình Mơ hình xây dựng IE theo mơ hình học máy Hình Modules hệ thống IE Hình HMM .12 Hình Đồ thị vơ hướng HMM 12 Hình Đồ thị có hướng mô tả cho mô hinh MEMM 13 Hình Label alias 14 Hình Một trường ngẫu nhiên 17 Hình 10 Đồ thị vô hướng mô tả cho CRF 17 Hình 11 Mô tả hàm tiềm 18 Hình 12 Tỷ lệ lỗi CRF so với mơ hình học máy khác 23 Hình 13 Mơ hình hoạt động CRF++ 31 Hình 14 Mơ hình xử lý liệu tốn trích chọn nhà đất 38 Hình 15 Biểu đồ thể tương quan hai lần kiểm tra .44 vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC KÍ HIỆU VIẾT TẮT STT Kí hiệu Chú giải cho kí hiệu sử dụng IE Trích chọn thơng tin HMM Mơ hình Markov ẩn MEMM CRF IR Mơ hình cực đại hóa Entropy Trường ngẫu nhiên có điều kiện Tìm kiếm thơng tin viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI MỞ ĐẦU Trong thời đại bùng nổ cơng nghệ thơng tin việc ứng dụng công nghệ thông tin lĩnh vực đời sống ngày đa dạng phong phú Toàn ứng dụng thực thông tin đầu vào từ dạng đơn giản đến phức tạp Từ dạng văn dạng ký tự thông thường thông tin đầu vào phức tạp hình ảnh, âm Việc ứng dụng cơng nghệ xử lý ngơn ngữ phong phú Có thể kể tới năm gần có số công nghệ tiếng [1]: Hãng SAMSUNG đưa thị trường điện thoại di động P207 nhận biết câu nói đơn giản ví dụ “tôi gọi lại” chuyển chúng dạng tin nhắn Bên cạnh có nhiều cơng nghệ dịch tự động web Language Tool dịch nhiều thứ tiếng google Có thể phân loại tốn xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn (text processing), khai phá văn web (text and web mining) Tất toán thực máy, nhiên vấn đề đặt làm để máy xử lý cách tự động lại tốn khó Cái khó chỗ cho máy hiểu ngơn ngữ đa dạng người Đối với tiếng Việt có số sản phẩm liên quan đến tiếng Việt như: Bộ gõ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt VnDOCR viện Công Nghệ Thông Tin, phần mềm EVTRAN, gần tiêu biểu kết việc Việt hóa Windows Office Là người sau lĩnh vực xử lí ngơn ngữ tự nhiên, việc hiểu cơng nghệ ngôn ngữ cần thiết Trong luận văn đề cập tới ứng dụng CNTT việc trích chọn thơng tin tiếng Việt Có nhiều phương pháp, luận văn giới thiệu mơ hình Conditional Random Field sở lý thuyết để thực cơng việc cơng cụ CRF++ để thực hành trích chọn thông tin tiếng Việt cụ thể tốn trích chọn thơng tin nhà đất Trong khn khổ khóa luận tốt nghiệp với đề tài “Tìm hiểu mơ hình CRF ứng dụng trích chọn thơng tin tiếng Việt” em xin trình bày công nghệ ứng dụng việc xử lý ngôn ngữ tiếng Việt Nội dung khóa luận gồm chương: ¾ Chương 1: Tổng quan: Giới thiệu tổng quan trích chọn thông tin, cách tiếp cận để xây dựng hệ thống trích chọn thơng tin ứng dụng trích chọn thơng tin, ứng dụng xử lý tiếng Việt, đồng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thời mơ hình hóa nêu ý nghĩa tốn trích chọn thơng tin nhà đất ¾ Chương 2: Conditional Random Fields: Chương giới thiệu số mơ hình học máy HMM, MEMM tập trung vào mơ hình Conditional Random Field – CRF Đưa khái niệm trường ngẫu nhiên, trường ngẫu nhiên có điều kiện Đồng thời mơ hình CRF hiệu so với mơ hình học máy khác ¾ Chương 3: Thuật toán gán nhãn ước lượng tham số cho mơ hình CRF cơng cụ CRF++: Chương đưa hai vấn đề mơ hình CRF hướng giải hiệu Ở thuật toán gán nhãn sử dụng thuật toán Viterbi thuật toán quy hoạch động Và hai thuật toán T thuật toán S giải vấn đề ước lượng tham số cho mơ hình CRF Đồng thời giới thiệu công cụ CRF++ toolkit, công cụ cài đặt mơ hình CRF sử dụng tốn trích chọn thơng tin nhà đất ¾ Chương 4: Ứng dụng CRF vào tốn trích chọn thơng tin nhà đất: Chương nói việc ứng dụng mơ hình CRF nói chương trước vào tốn trích chọn thơng tin nhà đất Một hướng tốn xử lý ngơn ngữ tự nhiên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.4 Huấn luyện kiểm tra Sau chuẩn bị toàn file train, file test, file template ta tiến hành huấn luyện test sau ¾ Huấn luyện (training) Để huấn luyện file ta sử dụng lệnh crf_learn với cú pháp sau: % crf_learn template_file train_file model_file Ở : Lệnh crf_learn tạo mơ hình huấn luyện file model_file Kết lệnh crf_learn: iter: Số lượng lặp xử lý terr: Tỷ lệ lỗi thẻ ( tính số lượng thẻ lỗi/ tổng số thẻ ) serr: Tỷ lệ lỗi câu ( tính số câu lỗi /tổng số câu ) obj: Giá trị đối tượng Khi giá trị hội tụ điểm cố định CRF ++ dừng lặp 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Bảng tham số huấn luyện Tham số Giá trị mặc định -a CRF-L2 CRF-L1 CRF-L2 -c float: -f NUM Ý nghĩa Tham số dùng để thay đổi thuật toán mặc định CRF ++ Thơng thường L2 thực tốt không đáng kể so với L1, số lường đặc tính L1 nhỏ cách đáng kể so với L2 Cùng với tùy chọn này, thay đổi nhiều tham số cho CRFs -p NUM Chỉ có thuộc tính có tần suất xuất lớn giá trị tích hợp vào mơ hình CRF Nếu máy tính bạn có nhiều CPU, giúp cho việc huấn luyện nhanh cách sử dụng đa luồng NUM số lượng luồng ¾ Kiểm tra (testing) Để kiểm tra liệu sau huấn luyện sử dụng lệnh crf_test với cú pháp sau: % crf_test -m model_file test_files Model_file file crf_learn tao Trong test không cần tạo template_file model file có thơng tin giống file template Test_file kiểm tra liệu bạn muốn gán thẻ theo trình tự File có định dạng giống file traning xây dựng 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Bảng tham số lệnh crf_test Tham số -v level Giá trị mặc định N best ouput Ý nghĩa Tùy chọn đưa số thông tin chi tiết từ CRF++bằng cách tăng cấp độ level Đưa N kết xếp theo xắc suất điều kiện CRF++ 3.5 TỔNG KẾT CHƯƠNG Trong chương nêu hai vấn đề mơ hình CRF Có nhiều phương pháp sử dụng để giải hai vấn đề Trong phần nêu hai hướng giải hiệu Đó thuật tốn Virterbi hai thuật toán T thuật toán S Cả hai thuật toán cải tiến từ thuật toán IIS Chương giới thiệu công cụ CRF++ toolkit, cơng cụ có nhiều ứng dụng xử lý ngơn ngữ tự nhiên 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương ỨNG DỤNG CRF VÀO BÀI TOÁN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT Một hệ thống hữu ích dùng để xử lý tiếng Việt quan trọng Ví dụ tốn nhận biết loại thực thể tốn trích chọn thông tin xử lý ngôn ngữ tự nhiên Từ việc nhận biết loại thực thể ta rút trích thơng tin cần thiết tùy thuộc vào mục đích riêng Trong chương ứng dụng mơ hình CRF nói vào tốn trích chọn thơng tin nhà đất 4.1 MƠ HÌNH HĨA BÀI TỐN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT Đối với văn việc hiểu nhanh văn tóm tắt nội dung cần thiết Cũng tin nhà đất kể người bán người mua quan tâm đến vấn đề liên quan đến nhà, đất cần bán cần mua Với tư tưởng với thông tin nhà đất yếu tố cần quan tâm là: Vị trí nhà đất nào, diện tích?, giá bán?, loại nhà nào?, địa liên hệ với chủ sở hữu? Với tất thơng tin hiểu đầy đủ thông tin nhà cần bán cần mua Nhiệm vụ tốn trích chọn thơng tin nhà đất rút trích thông tin liệt kê bảng sau: Bảng Bảng thơng tin cần trích chọn Tên Chú thích DC Địa DT Diện tích DD Di động GB Giá bán LN Loại nhà Vấn đề đặt với lượng thơng tin nhỏ ta dễ dàng tìm thơng tin Nhưng với liệu lớn vấn đề khó khăn Chính việc 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ứng dụng mơ hình “tự học” để tìm thơng tin cần thiết 4.1.1 Xử lý liệu đầu vào Dữ liệu ban đầu đầu tiền xử lý win (được gán nhãn tay win) Sau đó, chuyển từ dạng mã hóa UTF-8 sang tiếng Việt khơng dấu Có thể mơ hình hóa hình 14 sau: Dữ liệu tiếng Việt Dữ liệu gán nhãn Dữ liệu chuyển thành tiếng Việt khơng dấu Hình 14 Mơ hình xử lý liệu tốn trích chọn nhà đất Từ tin nhà nhà đất sau tải gán nhãn, CRF++ khơng hỗ trợ UNICODE nên khóa luận tạm thời chọn giải pháp chuyển sang tiếng Việt khơng dấu Điều làm giảm chất lượng hệ thống nhận dạng thông tin ngữ nghĩa đoạn văn bị đi, nhiên hướng phát triển tương lai tác giả đề xuất cách tốt để tránh thơng tin q trình chuyển đổi Do khơng có sẵn công cụ xử lý cho tiếng Việt, cơng cụ gán nhãn từ loại nên tốn trích chọn thơng tin nhà đất file huấn luyện file kiểm tra sử dụng từ tố đó, file huấn luyện file kiểm tra có hai thơng từ nhãn file có hai cột, cột thứ chứa từ từ cột thứ hai nhãn loại từ Với từ tố khơng liên quan đến thơng tin trích chọn gán nhãn nhãn OTH (other): 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ví dụ đoạn liệu file huấn luyện Cần bán hai lô đất TT9 Văn Phú mặt đuờng Lê Trọng Tốn , diện tích 90m2 , mặt tiền OTH OTH OTH OTH OTH B-DC I-DC I-DC OTH B-DC I-DC I-DC I-DC OTH OTH OTH B-DT OTH OTH OTH 4.2 MÔI TRƯỜNG THỰC NGHIỆM 4.2.1 Phần cứng Máy Core Duo, chip 512 MHz, Ram 1GB, máy có biên dịch gcc phiên >3.00 Dùng máy ảo vimware chạy hệ điều hành Linux Redhat Enterprise 5.0 4.2.2 Phần Mềm CRF ++ toolkit CRF Framework cho toán phân đoạn gán nhãn giá trị Trong phần này, sử dụng ứng dụng CRF vào việc trích chọn thơng tin nhà đất Sử dụng phiên CRF++toolkit version 0.51 [21] 4.2.3 Dữ liệu thực nghiệm Dữ liệu thực nghiệm gồm khoảng 300 tin lĩnh vực nhà đất Nội dung tin nhà đất lấy từ website sau: http://nhadat.timnhanh.com, http://www.timnhadat.com/, http://nhadat24h.net/, website có định dạng cách trình bày khác nhau, cần phải qua bước xử lý trình bày 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong file huấn luyện khoảng 300 câu, file kiểm tra khoảng 200 câu 4.2.3.1 Lần thử nghiệm thứ Trong toán mình, tơi xây dựng file mẫu với kiểu định dạng Unigram trọn file template sau U00:%x[-2,0]: (xét từ trước hai vị trí nhãn tại) U01:%x[-1,0]: (xét từ trước vị trí ) U02:%x[0,0]: (từ tại) U03:%x[1,0]: (từ sau vị trí tại) U04:%x[2,0]: (từ sau vị trí) U05:%x[-1,0] / %x[0,0]: (Từ trước từ tại) U06:%x[0,0]/%x[1,0]: (Từ sau từ tại) Với khuôn mẫu tạo hàm đặc trưng mơ hình “tự học” Ví dụ func1= if(output= B-DC ) return else return 0; func2=if(output=I-DC ) return else return 0; 4.2.3.2 Lần thử nghiệm thứ hai Trong lần thử nghiệm đầu tiên, toàn hệ thống làm việc mơ hình tự học Như biết thơng tin cần rút trích tốn trích chọn thơng tin nhà đất địa chỉ, diện tích, loại nhà, di động, giá bán Với thơng tin trích chọn ta mơ tả sau: Đối với thông tin số di động bao gồm chuỗi tồn số từ đến ví dụ 01678558976, địa chỉ, vị trí nhà đất cần bán cần mua danh từ địa điểm thường viết hoa ký tự ví dụ Mỹ Đình- Hà Nội Đối với thơng tin giá bán thường giá bán chuỗi có số có dấu chấm dấu phảy ví dụ 1.2 tỷ 1,2 tỷ Từ mô tả lần thử nghiệm thứ hai này, tơi thêm tính mơ tả cho thơng tin cần rút trích trên, giúp cho q trình tự học mơ hình rút trích tốt 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xét từ trước hai vị trí nhãn Xét từ trước vị trí Từ sau vị trí Từ sau vị trí Từ trước từ Từ sau từ Từ có tồn số hay khơng? Từ có chữ chữ hoa hay khơng? Từ có tồn chữ thường hay khơng? Từ có gồm ký tự “.” “,” Với đặc trưng liệu tốn xây dựng thêm feature fk công thức (2.16) mơ tả cho liệu tốn trích chọn thông tin nhà đất sau: Hàm thứ function InitCap() mô tả cho thông tin địa chỉ: Như biết địa thường viết hoa chữ đầu tiên, hàm có chức chữ từ tố chữ hoa trả giá trị cịn khơng trả giá trị khác Có thể mơ tả sau: Nếu chữ từ quan sát chữ hoa fk= InitCap() = ngược lại Tương tự ta xây dựng hàm ContainAllDigit(): Nếu chuỗi quan sát chuỗi số có khả số điện thoại Nếu liệu quan sát toàn số fk= ContainAllDigit() = ngược lại 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hàm thứ ba DigitandComma() hàm xây dựng để mô tả đặc trưng thông tin liên quan đến giá bán, giá bán thường biểu diễn số chứa dấu phân cách ví dụ: 2,3 1.55 Nếu liệu quan sát số có dấu phân cách dấu phảy dấu chấm giá bán ngơi nhà mảnh đất liệu quan sát số số dấu chấm phảy fk= DigitandComma() = ngược lại Ngoài xây dựng dựng hàm AllLow() để kiểm tra xem liệu quan sát có hồn tồn chữ viết thường hay khơng Hàm xây dựng ba hàm mơ tả cho liệu khác ví dụ ngồi thơng tin liên quan đến tốn rút trích địa chỉ, diện tích, số điện thoại, giá bán liệu khác mơ tả hàm từ hoàn toàn chữ thường fk= AllLow() = ngược lại 4.2.3.3 Kết đánh giá Để kiểm nghiệm công cụ sử dụng khoảng 500 câu file huấn luyện 200 câu test Để đánh giá kết ta đánh giá thơng qua độ xác (precision), độ hồi tưởng (recall), F1 xác định sau: # số lượng nhãn xác Độ xác = # tổng số nhãn cần gán # số lượng nhãn xác Độ hồi tưởng = # tổng số nhãn gán tập test 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2*độ xác* độ hồi tưởng F1 = Độ xác +độ hồi tưởng Bảng kết thu với sử dụng mẫu đặc trưng thứ nhất: Bảng Bảng kết lần test thứ Nhãn Độ xác Độ hồi tưởng F1 DD 72.36% 83,18% 77.39% GB 51.72% 72.82% 60.48% DT 60.21% 69.70% 64.61% DC 27.87% 57.63% 37.57% LN 41.54% 69.23% 51.92% Bảng kết thu với mẫu đặt trưng thứ hai: Bảng Bảng kết lần test thứ hai Nhãn Độ xác Độ hồi tưởng F1 DD 72.36% 91.75% 80.91% GB 54.48% 71.17% 61.72% DT 73.30% 76.50% 74.87% DC 31.15% 66.09% 42.34% LN 32.31% 67.74% 43.75% 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồ thị sau diễn ta đầy đủ cho mức xác cơng cụ Chứng tỏ cơng cụ hữu ích cho việc trích chọn thơng tin 80.00% 70.00% Độ xác 60.00% 50.00% lần thử nghiệm thứ hai 40.00% lần thử nghiệm thứ 30.00% 20.00% 10.00% 0.00% DC GB DD DT LN Thơng tin trích chọn Hình 15 Biểu đồ thể tương quan hai lần kiểm tra 4.3 HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI Do tốn trích chọn thơng tin tiếng Việt, với mơi trường Linux, CRF++ toolkit khơng hỗ trợ UNICODE Do việc chuyển tiếng Việt tiếng Việt không dấu phần làm phần ngữ nghĩa văn Do ảnh hưởng đến độ xác tốn Ngồi liệu thực nghiệm cịn ít, nên ảnh hưởng đến kết thử nghiệm Đối với tốn trích chọn việc viết đặc tính (feature) giúp hệ thống tự học tốt mang lại hiệu cao Với cách thêm thơng tin mơ tả từ tố file huấn luyện Ví dụ có thêm cơng cụ gán nhãn từ loại ta có thêm vào cột file huấn luyện mơ ta cho từ loại cần trích chọn, ví dụ thơng tin địa từ loại danh từ (DT) ví dụ dưới: Từ Liêm Ha Nội DT DT DAU DT DT B-DC I-DC OTH B-DC I-DC 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Việc bổ sung thêm thông tin cộng với việc thay đổi hàm đặc trưng cung cấp nhiều thơng tin cho CRF++, chất lượng trích chọn cải tiến nhiều Một hướng phát triển khác tương lai trích chọn thêm thông tin khác liên quan đến thông tin nhà đất chẳng hạn như: hướng nhà, số phòng 4.4 TỔNG KẾT CHƯƠNG Chương giới thiệu tốn trích chọn thơng tin nhà đất sử dụng mơ hình CRF sử dụng công cụ CRF++ để thực Với cải tiến công cụ ta thấy kết đáng ghi nhận việc ứng dụng công cụ CRF++ vào tốn Từ bảng kết thu cho thấy cơng cụ hữu ích việc xử lý tiếng Việt Và đưa tương lai việc xử lý ngôn ngữ tiếng Việt 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Tin học cơng cụ đắc lực có ứng dụng nhiều lĩnh vực khác Vấn đề đặt cho máy tự động “học” mà khơng cần có can thiệp nhiều người vấn đề quan trọng CNTT Một mơ hình phần đáp ứng cơng việc Conditional Random Field Với mơ hình có nhiều ứng dụng gán nhãn, phân cụm, nhận biết loại thực thể trích chọn thơng tin Đây vấn đề nhỏ lại góp phần to lớn việc xây dựng toán lớn hơn.Ở tập chung vào ứng dụng trích chọn thơng tin với ứng dụng phổ biến tương lai gần như: trích chọn thơng tin web, trích chọn kiện, ứng dụng cho việc hỏi trả lời (Question-answering)hệ hỏi đáp Trong tương lai sử dụng máy tính để trộn thông tin coi quan trọng với Hầu hết ứng dụng liên quan đến việc xử lý ngôn ngữ Trong giai đoạn đầu, CNTT tập trung vào liệu dạng số, biểu diễn dạng cấu trúc vector hay bảng biểu Sau xử lý phức tạp đời hình ảnh, âm thanh, văn bản, ký hiệu hình thức, đồ thị, … Có thể kể đến số tốn tiêu biểu xử lý ngơn ngữ như: Nhận dạng tiếng nói, tổng hợp tiếng nói, nhận dạng chữ viết, dich tự động, tóm tắt văn bản, tìm kiếm thơng tin trích chọn thơng tin Trong mười năm qua với cách tiếp cận dựa vào thống kê tiếp cận dựa vào liệu Công nghệ xử lý tiếng nói khơng dựa kỹ thuật xử lý tín hiệu, mà cịn dựa vào việc hiểu ngơn ngữ Do tham số mơ hình thống kê tự “học” từ kho ngữ liệu lớn Với hướng phát triển việc ứng dụng mơ hình Conditional Random Field vào tốn ứng dụng xử lý ngơn ngữ cần thiết 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Hồ Tú Bảo, Lương Chi Mai Việc xử lý tiếng Việt công nghệ thông tin Viện công nghệ thông tin, Viện khoa học Công nghệ tiên tiến Nhật Bản [2] Cao Hoàng Trụ, Nguyễn Lê Minh Phân cụm từ tiếng Việt phương pháp học máy cấu trúc Pages 11 2006 [3] Phan Thị Tươi, Nguyễn Quang Châu, Cao Hoàng Trụ Gán nhãn từ loại cho tiếng Việt dựa văn phong tính tốn xác suất Tạp chí phát triển KH&CN, tập 9, số -2006 Tài liệu tiếng Anh: [4] Andrew McCallum DayneFreitag Maximum Entropy Markov Models for Information Extractionand Segmentation in AT&T Labs-Research Pages 1-9 [5] Ben Wellner Conditional Random Fields and Maximum Entropy Markov Models In CS114 Spring 2006 (slide) [6] Canasai Kruengkrai,Virach Sornlertlamvanich, HitoshiIsahara A Conditional Random Field Framework for Thai Morphological Analysis In Proceedings of the Fifth International Conference on Language Resources and Evaluation(LREC-2006), may 24-26, 2006 Genoa, Italy Pages 1-16 [7] Carl Bergstrom Joint entropy, conditional entropy, relative entropy, and mutual information January 13, 2008 In Cover and Thomas (1991) Pages 1-8 [8] Conglei Yao Conditional Random field an overview Computer Networks and Distributed Systems Laboratory Peking University 2008-12-31 in technique report 42 slides [9] Dan Cong Conditional Random Fields and Its Applications Feb 1, 2006 [10] Douglas E Appelt and David J Israel Introduction to Information Extraction Technology A Tutorial Prepared for IJCAI-99 in Artificial Intelligence Center SRI International [11] Fredric Brown Information Extraction: 10-707 and 11-748 (slide) [12] Phil Blunsom Hidden Markov Models- August 19, 2004 Pages 1-7 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [13] Hanna M Wallach Conditional Random Fields: An Introduction pages 1-9 February 24, 2004 In University of Pennsylvania CIS Technical Report MSCIS-04-21 [14] John Lafferty and Andrew McCallum Conditional Random Fields Probabilistic Models for Segmenting and Labeling Sequence Data Pages 1-8 [15] Nikis Karampatziakis Maxinum Entropy Markov Models [16] Rakesh Dugad A Tutorial on hidden Markov Models Technical Rep ort No SPANN May 1996 Pages 1-16 [17] Trausti Kristjansson & Aron Culotta & PaulViola & Andrew McCallum InteractiveInformationExtraction with Constrained Conditional Random Fields in Microsoft Research Pages [18] William W Cohen CALD Conditonal Random Field in CALD [19] Vikas Kedia Graphical Models for Information Extraction and Reconciliation Department of Computer Science and Engineering Indian Institute of Technology, Bombay Mumbai In M Tech Project First Stage Report Submitted in partial fulfillment of the requirements for the degree of Master of Technology Pages 20 [20] http://crfpp.sourceforge.net/ [21] http://en.wikipedia.org/wiki/Hidden_Markov_model 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... hệ thống trích chọn thông tin ưu nhược điểm hướng tiếp cận, Đồng thời nêu ứng dụng trích chọn thơng tin tiếng Việt Cụ thể tốn trích chọn thơng tin nhà đất Để ứng dụng trích chọn tiếng Việt luận... đặt mơ hình CRF sử dụng tốn trích chọn thơng tin nhà đất ¾ Chương 4: Ứng dụng CRF vào tốn trích chọn thơng tin nhà đất: Chương nói việc ứng dụng mơ hình CRF nói chương trước vào tốn trích chọn. .. dụng trích chọn thơng tin tiếng Việt Chương giới thiệu tổng quan trích chọn thơng tin hướng tiếp cận trích chọn thông tin Đồng thời nêu ý nghĩa việc trích chọn thơng tin tiếng Việt 1.1 TRÍCH CHỌN