Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
424,28 KB
Nội dung
TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MƠ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THƠNG TIN TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI -2009 i TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MƠ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THƠNG TIN TRONG TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn : Tiến Sĩ Nguyễn Trí Thành HÀ NỘI – 2009 ii LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Nguyễn Trí Thành, người tận tình hướng dẫn em suốt trình thực khóa luận Em xin gửi lời cảm ơn chân thành sâu sắc tới thầy, cô trường Đại học Cơng Nghệ dạy dỗ tận tình bảo cho tơi suốt q trình học tập trường Những kiến thức mà thầy cô truyền đạt vốn quý báu cho chúng em bước vào tương lai Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Công Nghệ ủng hộ khuyến khích tơi q trình nghiên cứu thực khóa luận Cuối cùng, xin cảm ơn chân thành biết ơn vơ hạn tới gia đình, người có cơng sinh thành, ni dưỡng, người kịp thời động viên giúp đỡ vượt qua khó khăn sống Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép chắn không tránh khỏi thiếu sót Chúng em kính mong nhận thông cảm quý Thầy Cô bạn Hà Nội, ngày 12 tháng năm 2009 Sinh viên Nguyễn Thị Loan iii TĨM TẮT Nội dung khóa luận tìm hiểu mơ hình CRF, ứng dụng mơ hình trích chọn thơng tin tiếng Việt Trước hết khóa luận trình bày khái niệm chung trích chọn thơng thơng tin Đồng thời nêu đến hai hướng tiếp cận để xây dựng hệ thống trích chọn thơng tin ưu nhược điểm hướng tiếp cận, Đồng thời nêu ứng dụng trích chọn thơng tin tiếng Việt Cụ thể tốn trích chọn thơng tin nhà đất Để ứng dụng trích chọn tiếng Việt luận văn nêu ba mơ hình học máy tập trung chủ yếu vào mơ hình Conditional Random Field –CRF Bất kỳ mơ hình có ưu nhược điểm luận văn trình bày hai vấn đề lớn mơ hình CRF vấn đề gán nhãn ước lượng tham số Đồng thời trình bày cơng cụ hữu ích CRF++ Luận văn trình bày việc ứng dụng mơ hình CRF làm tảng lý thuyết sở thực hành công cụ CRF vào tốn trích chọn thơng tin nhà đất Một tốn nhỏ tốn xử lý ngơn ngữ tự nhiên iv MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ vii BẢNG CÁC KÍ HIỆU VIẾT TẮT viii LỜI MỞ ĐẦU .1 Chương 1.TỔNG QUAN 1.1 TRÍCH CHỌN THƠNG TIN 1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THƠNG TIN 1.2.1 Hướng tiếp cận dựa tri thức .5 1.2.2 Hướng tiếp cận xây dựng mơ hình học máy .5 1.3 KIẾN TRÚC HỆ THỐNG IE 1.4 BÀI TOÁN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT 1.5 Ý NGHĨA CỦA BÀI TỐN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 1.6 TỔNG KẾT CHƯƠNG 10 Chương CONDITIONAL RANDOM FIELDS 11 2.1 MƠ HÌNH MARKOV ẨN- HMM 11 2.2 MƠ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM 13 2.3 MƠ HÌNH CONDITIONAL RANDOM FIELDS 15 2.3.1.Việc gán nhãn cho liệu 15 2.3.2 Định nghĩa CRF .16 2.3.3 Nguyên lý cực đại hóa Entropy .18 2.3.3.1 Độ đo Entropy điều kiện 18 2.3.3.2 Các ràng buộc phân phối mơ hình 19 2.3.3.3 Nguyên lý cực đại hóa Entropy 20 2.3.4 Hàm tiềm mơ hình CRF 20 2.3.5 Conditional Random Fields 21 2.3.6 So sánh với mơ hình khác 22 2.4 TỔNG KẾT CHƯƠNG 23 Chương THUẬT TOÁN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SỐ CỦA MƠ HÌNH CRF VÀ CÔNG CỤ CRF ++ 24 3.1 THUẬT TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI 24 v 3.2 XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25 3.3 ƯỚC LƯỢNG THAM SỐ CHO MƠ HÌNH CRF 26 3.3.1 Thuật toán S 28 3.3.2 Thuật toán T 29 3.4 CÔNG CỤ CRF++ TOOLKIT 30 3.4.1 Giới thiệu .30 3.4.2 Tính .31 3.4.3 Cài đặt cách sử dụng .31 3.4.3.1 Cài đặt .31 3.4.3.2 File định dạng huấn luyện test 31 3.4.3.3 Template type 32 3.4.4 Huấn luyện kiểm tra 34 3.5 TỔNG KẾT CHƯƠNG 36 Chương ỨNG DỤNG CRF VÀO BÀI TỐN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37 4.1 MƠ HÌNH HĨA BÀI TỐN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37 4.1.1 Xử lý liệu đầu vào .38 4.2 MÔI TRƯỜNG THỰC NGHIỆM 39 4.2.1 Phần cứng 39 4.2.2 Phần Mềm 39 4.2.3 Dữ liệu thực nghiệm 39 4.2.3.1 Lần thử nghiệm thứ 40 4.2.3.2 Lần thử nghiệm thứ hai 40 4.2.3.3 Kết đánh giá 42 4.3 HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI 44 4.4 TỔNG KẾT CHƯƠNG 45 KẾT LUẬN .46 TÀI LIỆU THAM KHẢO 47 vi DANH MỤC CÁC HÌNH VẼ Hình Một hệ thống trích chọn thơng tin Hình Mơ hình xây dựng IE theo hướng tiếp cận dựa tri thức Hình Mơ hình xây dựng IE theo mơ hình học máy Hình Modules hệ thống IE Hình HMM .12 Hình Đồ thị vô hướng HMM 12 Hình Đồ thị có hướng mơ tả cho mơ hinh MEMM 13 Hình Label alias 14 Hình Một trường ngẫu nhiên 17 Hình 10 Đồ thị vơ hướng mơ tả cho CRF 17 Hình 11 Mơ tả hàm tiềm 18 Hình 12 Tỷ lệ lỗi CRF so với mơ hình học máy khác 23 Hình 13 Mơ hình hoạt động CRF++ 31 Hình 14 Mơ hình xử lý liệu tốn trích chọn nhà đất 38 Hình 15 Biểu đồ thể tương quan hai lần kiểm tra .44 vii BẢNG CÁC KÍ HIỆU VIẾT TẮT STT Kí hiệu Chú giải cho kí hiệu sử dụng IE Trích chọn thơng tin HMM Mơ hình Markov ẩn MEMM CRF IR Mơ hình cực đại hóa Entropy Trường ngẫu nhiên có điều kiện Tìm kiếm thơng tin viii LỜI MỞ ĐẦU Trong thời đại bùng nổ công nghệ thơng tin việc ứng dụng cơng nghệ thông tin lĩnh vực đời sống ngày đa dạng phong phú Toàn ứng dụng thực thông tin đầu vào từ dạng đơn giản đến phức tạp Từ dạng văn dạng ký tự thông thường thơng tin đầu vào phức tạp hình ảnh, âm Việc ứng dụng công nghệ xử lý ngôn ngữ phong phú Có thể kể tới năm gần có số cơng nghệ tiếng [1]: Hãng SAMSUNG đưa thị trường điện thoại di động P207 nhận biết câu nói đơn giản ví dụ “tơi gọi lại” chuyển chúng dạng tin nhắn Bên cạnh có nhiều cơng nghệ dịch tự động web Language Tool dịch nhiều thứ tiếng google Có thể phân loại tốn xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn (text processing), khai phá văn web (text and web mining) Tất toán thực máy, nhiên vấn đề đặt làm để máy xử lý cách tự động lại tốn khó Cái khó chỗ cho máy hiểu ngôn ngữ đa dạng người Đối với tiếng Việt có số sản phẩm liên quan đến tiếng Việt như: Bộ gõ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt VnDOCR viện Công Nghệ Thông Tin, phần mềm EVTRAN, gần tiêu biểu kết việc Việt hóa Windows Office Là người sau lĩnh vực xử lí ngơn ngữ tự nhiên, việc hiểu công nghệ ngôn ngữ cần thiết Trong luận văn đề cập tới ứng dụng CNTT việc trích chọn thơng tin tiếng Việt Có nhiều phương pháp, luận văn giới thiệu mơ hình Conditional Random Field sở lý thuyết để thực công việc công cụ CRF++ để thực hành trích chọn thơng tin tiếng Việt cụ thể tốn trích chọn thơng tin nhà đất Trong khn khổ khóa luận tốt nghiệp với đề tài “Tìm hiểu mơ hình CRF ứng dụng trích chọn thơng tin tiếng Việt” em xin trình bày cơng nghệ ứng dụng việc xử lý ngôn ngữ tiếng Việt Nội dung khóa luận gồm chương: ¾ Chương 1: Tổng quan: Giới thiệu tổng quan trích chọn thơng tin, cách tiếp cận để xây dựng hệ thống trích chọn thơng tin ứng dụng trích chọn thơng tin, ứng dụng xử lý tiếng Việt, đồng thời mơ hình hóa nêu ý nghĩa tốn trích chọn thơng tin nhà đất ¾ Chương 2: Conditional Random Fields: Chương giới thiệu số mơ hình học máy HMM, MEMM tập trung vào mơ hình Conditional Random Field – CRF Đưa khái niệm trường ngẫu nhiên, trường ngẫu nhiên có điều kiện Đồng thời mơ hình CRF hiệu so với mơ hình học máy khác ¾ Chương 3: Thuật tốn gán nhãn ước lượng tham số cho mơ hình CRF công cụ CRF++: Chương đưa hai vấn đề mơ hình CRF hướng giải hiệu Ở thuật toán gán nhãn sử dụng thuật toán Viterbi thuật toán quy hoạch động Và hai thuật toán T thuật toán S giải vấn đề ước lượng tham số cho mơ hình CRF Đồng thời giới thiệu công cụ CRF++ toolkit, công cụ cài đặt mô hình CRF sử dụng tốn trích chọn thơng tin nhà đất ¾ Chương 4: Ứng dụng CRF vào tốn trích chọn thơng tin nhà đất: Chương nói việc ứng dụng mơ hình CRF nói chương trước vào tốn trích chọn thông tin nhà đất Một hướng tốn xử lý ngơn ngữ tự nhiên Chương TỔNG QUAN Chủ đề khóa luận tìm hiểu mơ hình Conditional Random Field ứng dụng trích chọn thơng tin tiếng Việt Chương giới thiệu tổng quan trích chọn thơng tin hướng tiếp cận trích chọn thơng tin Đồng thời nêu ý nghĩa việc trích chọn thơng tin tiếng Việt 1.1 TRÍCH CHỌN THƠNG TIN Khi tìm kiếm thư mục có chứa nhiều thư mục nhiều file với nhiều định dạng khác Thực chất làm việc với ký tự [10] [11] Do có nhiều hướng để xử lý như: ¾ Lọc, đếm từ: Tập tin chuỗi ký tự ASCII Ví dụ Linux tìm kiếm file ký tự lệnh grep với điều kiện đưa chuỗi mơ ta cho ¾ Tìm kiếm thông tin tài liệu: Tệp tin từ chuỗi đơn vị từ mang ý nghĩa ¾ Trích chọn thơng tin: Cũng “tìm thơng tin tài liệu” từ cụm từ có nghĩa liên quan đến chủ đề cụ thể ¾ Hiểu tồn văn (text understanding) Tệp tin câu truyện, tiểu thuyết Với liệu đầu vào lớn Và nhiệm vụ phải “hiểu toàn văn bản” đưa nội dung cần quan tâm Khơng giống việc hiểu tồn văn (tất câu chữ liên quan đến nhau), hệ thống trích chọn thơng tin cố gắng nhận biết số nội dung thông tin đáng quan tâm Có thể kể tới mức độ trích chọn thơng tin từ văn sau: Trích chọn thực thể (Entity Extraction), trích chọn quan hệ thực thể (Relation Extraction), xác định đồng tham chiếu (Co-reference Resolution) Cũng phải lưu ý trích chọn khơng đơn trích chọn văn với ký tự ASCII Unicode Trích chọn trích chọn âm thanh, trích chọn hình ảnh Tuy nhiên luận văn tập chung giới thiệu trích chọn thơng tin liên quan tới văn Các kỹ thuật sử dụng trích chọn thơng tin gồm: Phân đoạn, phân lớp, kết hợp phân cụm Today, Microsoft claims to "love" the opensource concept, by which software code is made public to encourage improvement and development by outside programmers Gates himself says Microsoft will gladly disclose its crown jewels the coveted code behind the Windows operating system to select customers "We can be open source We love the concept of shared source," said Bill Veghte, a Microsoft VP "That's a super-important shift for us in terms of code access.“ * Microsoft Corporation CEO Bill Gates * Microsoft Gates * Microsoft Bill Veghte * Microsoft VP Richard Stallman founder Free Software Foundation NAME Bill Gates Bill Veghte Richard Stallman For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation TITLE ORGANIZATION CEO Microsoft VP Microsoft founder Free Soft October 14, 2002, 4:00 a.m PT Richard Stallman, founder of the Free Software Foundation, countered saying… Hình Một hệ thống trích chọn thơng tin Trích chọn thơng tin nhiệm vụ lấp đầy trường (slots) sở liệu đoạn text nhỏ (hay nói cách khác kết hệ thống trích chọn thông tin thường mẫu chứa số lượng xác định trường điền thông tin) Ví dụ hình ta có hệ thống trích chọn tên riêng xuất văn bản, trích chọn tổ chức liên quan, tìm liên kết tổ chức tên người, vị trí người tổ chức cuối đưa vào sở liệu 1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THƠNG TIN 1.2.1 Hướng tiếp cận dựa tri thức Đặc điểm việc xây dựng hệ thống trích chọn thơng tin theo hướng hệ thống luật xây dựng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng người lĩnh vực IE, mẫu hay luật tạo kiểm duyệt cách kỹ lưỡng có quy mơ “knowlegde engineer” [10] Những quy tắc kiểm định nhiều lần Có thể mơ hình hóa việc xây dựng theo sau: Kiểm duyệt Kho tài liệu Luật cũ knowlegde engineer Cập nhật Sửa chữa Luật Hình Mơ hình xây dựng IE theo hướng tiếp cận dựa tri thức Với cách tiếp cận hệ thống hoạt động theo chu trình Để xây dựng hệ thống hoạt động tốt phải ln có tương tác người viết luật hệ thống với kho ngữ liệu huấn luyện (hình 2) tập luật luôn cập nhật hệ thống hoạt động tốt 1.2.2 Hướng tiếp cận xây dựng mơ hình học máy Với hệ thống IE xây dựng theo hướng tiếp cận dựa tri thức chu trình kiểm tra sửa lỗi gặp nhiều khó khăn phụ thuộc vào nhiều yếu tố như: Loại ngôn ngữ, thời gian khả viết luật Chỉ vài thay đổi đặc tả gây khó khăn điều chỉnh Câu trả lời cho giới hạn phải xây dựng mơ hình cách “tự học” Điều giúp làm giảm bớt tham gia chuyên gia ngôn ngữ làm tăng tính linh hoạt cho hệ thống Có nhiều phương pháp học máy mơ hình markov ẩn (Hidden Markov Models-HMM), mơ hình Markov cực đại hóa Entropy (Maximum Markov Models – MEMM) mơ hình trường ngẫu nhiên có điều kiện ( Conditional Random Fields – CRF)… Các mơ hình đề cập chi tiết chương sau Các đặc điểm phải kể đến việc xây dựng hệ thống IE theo hướng hệ thống tự đào tạo (automatic training approach) khơng cần người hiểu biết cách hoạt động hệ thống IE viết luật cho [10] Điều cần thiết người biết miền ứng dụng hiểu thơng tin cần rút trích Một liệu huấn luyện thích, thuật tốn huấn luyện chạy sinh thơng tin học hay cịn gọi model để phục vụ cho q trình trích chọn tự động sau Mơ hình với hướng tiếp cận mơ tả qua sau: Các thuật học dựa liệu để tự học thu model, dựa model trích chọn thơng tin liệu Thuật tốn học Dữ liệu Huấn luyện Model file Hình Mơ hình xây dựng IE theo mơ hình học máy Khi xây dựng hệ thống IE theo hướng phải tập trung vào việc tạo liệu huấn luyện Hệ thống tự học mà khơng cần can thiệp chuyên viên Tuy việc xây dựng lưu trữ tập liệu huấn luyện khó đắt để hệ thống thực tốt u cầu liệu phải nhiều hệ dẫn đến việc khó sửa đổi Vì cần thêm xóa thuộc tính cần phải thay đổi tồn tập huấn luyện Tùy vào cơng việc điều kiện có mà ta xây dựng hệ thống IE theo hướng mơ hình học máy theo hướng tiếp cận dựa tri thức Ví dụ nguồn văn người viết luật đáp ứng yêu cầu nên xây dựng hệ thống IE theo hướng tiếp cận dựa tri thức, mơ tả thơng tin trích chọn ln có thay đổi lên làm theo hướng thứ Cịn với liệu lớn nên xây dựng hệ thống IE theo mơ hình học máy 1.3 KIẾN TRÚC HỆ THỐNG IE Mặc dù hệ thống IE xây dựng theo ứng dụng công việc khác nhau, theo cách khác Nhưng hệ thống IE nói chung có phần tử mơ tả hình sau: Phân đoạn từ Phân tích từ tố Gán nhãn từ loại Xử lý hình thái, từ vựng Phân tích cú pháp hồn chỉnh Phân tích cú pháp Đồng tham chiếu Phân tích miền Trộn kết Hình Modules hệ thống IE Với mơ hình tùy thuộc vào ngơn ngữ mà có tốn cụ thể có phương pháp xử lý cho phù hợp Với nhiều ngôn ngữ đa dạng hệ thống từ tố quốc gia khác nhau: Ví dụ ngơn ngữ Trung Quốc Nhật Bản khác hẳn so với chuẩn ngôn ngữ European Nhưng quan tâm tiếng Việt có khó khăn q trình xử lý Về mặt ngữ pháp ngữ nghĩa gặp nhiều khó khăn Vì cơng cụ để xử lý bước chưa có sẵn, tiếng Việt ngôn ngữ đơn âm đa âm phức tạp việc xử lý gặp khó khăn 1.4 BÀI TỐN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT Các tốn điển hình xử lý tiếng Việt là: nhận biết loại thực thể, phân nhóm cụm từ tiếng Việt, phân loại văn tiếng Việt Đây tốn đóng vai trị quan trọng để giúp xử lý toàn phức tạp lĩnh vực Trong luận văn trình bày tốn trích chọn thơng tin nhà đất Ở phải phân biệt rõ tìm kiếm thơng tin (Information Retrival IR) trích chọn thơng tin (Information Extraction -IE) IR hiểu đơn giản từ nguồn nhiều tệp văn hay tiếng nói tìm tệp có nội dung liên quan đến câu hỏi hay điều cần biết Điển hình cơng nghệ Google, hệ tìm kiếm web Cần nói thêm hữu hiệu, google cho tìm theo từ khóa đơi tìm kết khơng liên quan, tìm văn vốn tồn Web Với Information Extraction từ nguồn nhiều tệp văn hay lời nói tìm đoạn bên số tệp liên quan đến vấn đề cần quan tâm Ví dụ xét tin nhà đất sau: “Cần bán chung cư TT9 Văn Phú mặt đường Lê Trọng Tốn, diện tích 90m2, mặt tiền 4,5m Giá bán: tỷ Liên hệ: 0988830999” Với tin nhà đất ta cần quan tâm đến địa chỉ, diện tích, giá bán, loại nhà điện thoại liên hệ Do không thiết phải hiểu tồn văn bản, mục đích tốn trích chọn thơng tin nhà đất đưa thông tin liên quan đến địa chỉ, diện tích, giá bán, loại nhà… từ khối liệu lớn Với mục đích văn mơ cách gán nhãn sau: Cần bán chung cư TT9 Văn Phú mặt đường Lê Trọng Tốn , diện tích 90m2, mặt tiền 4,5m Giá bán: 1 tỷ Liên hệ: 0988830999 Với quy ước nhãn cho từ tố đoạn tin sau: DC: Địa B-DC từ bắt đầu địa I-DC từ địa GB: Giá bán B-GB từ bắt đầu giá bán I-GB từ giá bán DT: Diện tích B-DT từ bắt đầu diện tích I-DT từ diện tích DD:Di động B-DD từ bắt đầu số di động I-DD từ số di động LN: loại nhà chung cư hộ, B-LN từ bắt đầu loại nhà, I-LN từ loại nhà Cũng tốn trích chọn khác như: trích chọn thực thể, nhận dạng tên, trích chọn thơng tin nhà đất có hướng tiếp cận khác nhau, luận văn tập trung vào tốn trích chọn thơng tin nhà đất theo phương pháp học máy cách sử dụng mơ hình CRF Một mơ hình đánh giá có chất lượng cao tốn trích chọn thơng tin 1.5 Ý NGHĨA CỦA BÀI TỐN TRÍCH CHỌN THƠNG TIN NHÀ ĐẤT Trong ngơn ngữ việc việc tìm thơng tin liên quan điều quan trọng mà không cần phải đọc hiểu tồn văn Chính việc trích chọn thơng tin có nghĩa lớn việc xử lý ngơn ngữ tự nhiên ¾ Tiết kiệm thời gian Như biết tin đăng website khác có định dạng khác nhau: Có thể định dạng văn thơng thường, dạng bảng biểu, đường liên kết… Với cách thể văn việc tìm thơng tin diện tích ngơi nhà, địa chỉ… Là việc tương đối khó khăn Với tốn trích chọn thơng tin nhà đất tiết kiệm thời gian nhiều cho người bán người mua ¾ Có thể tìm kiếm thơng tin xác nhiều Vấn đề tin có nhập nhằng thơng tin địa mảnh đất địa người chủ Việc trích chọn giảm bớt nhập nhằng thơng tin Nói rộng tốn trích chọn thơng tin nhà đất tốn nhỏ Từ toán ta thấy ý nghĩa việc trích chọn thơng tin tiếng Việt ¾ Giúp cho việc tóm tắt văn xác chủ đề văn rõ ¾ Tự tạo trường liên quan cách tự động sở liệu lấy từ văn ¾ Một số ứng dụng điển hình trích chọn thơng tin: sử dụng trích chọn thơng tin thư viện số- DL (Digital Libraries) - thư viện số hiểu văn hình ảnh… Rút trích thơng tin từ thư điện tử Trích chọn tiểu sử người (có thể chân dung, vị trí, email, địa chỉ, số điện thoại, số fax…) 1.6 TỔNG KẾT CHƯƠNG Chương giới thiệu tổng quan trích chọn thơng tin Với hai hướng tiếp cận xây dựng hệ thống trích chọn thơng tin theo hướng máy tri thức theo hướng hệ thống tự đào tạo giúp người hình dung cách tiếp cận với trích chọn thơng tin Đồng thời nêu nhiệm vụ khóa luận 10 Chương CONDITIONAL RANDOM FIELDS Như giới thiệu chương trước, chương giới thiệu vào số mô hình học máy, tập trung vào mơ hình Conditional Random Fields (CRF) [11] [13] [8] [17], phần đầu nêu lên hai mơ hình học máy HMM, MEMM vấn đề gặp phải từ nêu lên mơ hình học máy CRF giải vấn đề Đồng thời giới thiệu chi tiết mơ hình CRF như: Đưa định nghĩa CRF, xác định hàm tiềm CRF thông qua nguyên lý cực đại hóa Entropy, xác định ràng buộc mơ hình Một số qui ước ký hiệu: ¾ Chữ viết hoa X, Y, Z kí hiệu cho biến ngẫu nhiên r ¾ Chữ đậm x ví dụ: x = (x1, ,xn), y, t ký hiệu vector vector biểu diễn chuỗi liệu quan sát , vector biểu diễn chuỗi nhãn ¾ xi , yi biểu diễn thành phần vector ¾ chữ viết thường x, y, z… ký hiệu cho giá trị đơn liệu quan sát hay trạng thái ¾ S tập hữu hạn trạng thái ¾ O tập liệu quan sát 2.1 MÔ HÌNH MARKOV ẨN- HMM Mơ hình Markov giới thiệu vào cuối năm 1960 [12] Cho đến có ứng dụng rộng nhận dạng giọng nói, tính tốn sinh học (Computational Biology ), xử lý ngôn ngữ tự nhiên HMM mô hình máy hữu hạn trạng thái với tham số biểu diễn xác suất chuyển trạng thái xác suất sinh liệu quan sát trạng thái Mô hình Markov ẩn mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số khơng biết trước, nhiệm vụ xác định tham số ẩn từ tham số quan sát Các tham số mơ hình rút sau sử dụng để thực phân tích Trong tốn trích chọn thơng tin nhà đất tham số quan sát từ câu, cịn trạng thái nhãn B-DC, I-DC, B-DT, I-DT 11 Trong mơ hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát [21], xác suất chuyển tiếp trạng thái tham số (hình mơ tả rõ cho điều này) Hình HMM - xi — Các trạng thái mơ hình Markov - aij — Các xác suất chuyển tiếp - bij — Các xác suất đầu - yi — Các liệu quan sát Mơ hình Markov ẩn thêm vào đầu ra: trạng thái có xác suất phân bố biểu đầu Vì vậy, nhìn vào dãy biểu sinh HMM không trực tiếp dãy trạng thái Ta có tìm chuỗi trạng thái mô tả tốt cho chuỗi liệu quan sát cách tính P (Y | X ) = P(Y | X ) / P( X ) (2.1) Y1 Y2 … … … Yn X1 X2 … … … Xn Hình Đồ thị vơ hướng HMM Ở Yn trạng thái thời điểm thứ t=n chuỗi trạng thái Y, Xn liệu quan sát thời điểm thứ t=n chuỗi X Do trạng thái phụ thuộc vào trạng thái trước với giả thiết liệu quan sát thời điểm t phụ thuộc trạng thái t Ta tính P(Y, X) n P (Y , X ) = P(Y1 ) P( X | Y1 )∏ P(Yt | Yt −1 ) * P( X t | Yt ) t −2 12 (2.2)