Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
618,3 KB
Nội dung
i TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌMHIỂUMÔHÌNHCRFVÀỨNGDỤNGTRONGTRÍCHCHỌNTHÔNGTINTRONGTIẾNGVIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thôngtin HÀ NỘI -2009 ii TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌMHIỂUMÔHÌNHCRFVÀỨNGDỤNGTRONGTRÍCHCHỌNTHÔNGTINTRONGTIẾNGVIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thôngtin Cán bộ hướng dẫn : Tiến Sĩ Nguyễn Trí Thành HÀ NỘI – 2009 iii LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Nguyễn Trí Thành, người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận. Em xin gửi lời cảm ơn chân thành và sâu sắc tới các thầy, cô tại trường Đại học Công Nghệ đã dạy dỗ và tận tình chỉ bảo cho tôi trong suốt quá trình học tập tại trường. Những kiến thức mà thầy cô truyền đạ t sẽ là vốn quý báu cho chúng em bước vào tương lai. Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Công Nghệ đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứu và thực hiện khóa luận này. Cuối cùng, con xin cảm ơn chân thành và biết ơn vô hạn tới gia đình, những người có công sinh thành, nuôi dưỡng, những người luôn kịp thời động viên và giúp đỡ vượt qua những khó khăn trong cuộc sống. Mặc dù đã cố gắng hoàn thành luậ n văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Chúng em kính mong nhận được sự thông cảm của quý Thầy Cô và các bạn Hà Nội, ngày 12 tháng 5 năm 2009 Sinh viên Nguyễn Thị Loan iv TÓM TẮT Nội dung của khóa luận là tìmhiểumôhình CRF, vàứngdụng của môhình này trongtríchchọnthôngtintrongtiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về tríchchọnthôngthông tin. Đồng thời nêu đến hai hướng tiếp cận để xây dựng một hệ thốngtríchchọnthôngtin cũng như ưu nhược điểm của từng hướng tiếp cận, Đồng thời cũng nêu ra được ứngdụng của tríchchọnthôngtintrong tiế ng Việt như thế nào. Cụ thể ở đây là bài toán tríchchọnthôngtin nhà đất. Để ứngdụngtríchchọntrongtiếngViệtluận văn đã nêu ra được ba môhình học máy trong đó tập trung chủ yếu vào môhình Conditional Random Field –CRF. Bất kỳ môhình nào cũng có ưu nhược điểm trongluận văn này trình bày hai vấn đề lớn của môhìnhCRF đó là vấn đề gán nhãn và ước lượng tham số. Đồng thời cũng trình bày về công cụ hữu ích CRF++. Luận văn cũng trình bày được việc ứngdụngmôhìnhCRF làm nền tảng lý thuyết và cơ sở thực hành là công cụ CRF vào bài toán tríchchọnthôngtin nhà đất. Một bài toán nhỏ trong bài toán xử lý ngôn ngữ tự nhiên. v MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ vii BẢNG CÁC KÍ HIỆUVIẾT TẮT viii LỜI MỞ ĐẦU 1 Chương 1.TỔNG QUAN 3 1.1. TRÍCHCHỌNTHÔNGTIN 3 1.2. CÁC CÁCH TIẾP CẬN TRÍCHCHỌNTHÔNGTIN 5 1.2.1. Hướng tiếp cận dựa trên tri thức 5 1.2.2. Hướng tiếp cận xây dựng các môhình học máy 5 1.3. KIẾN TRÚC HỆ THỐNG IE 7 1.4. BÀI TOÁN TRÍCHCHỌNTHÔNGTIN NHÀ ĐẤT 8 1.5. Ý NGHĨA CỦA BÀI TOÁN TRÍCHCHỌNTHÔNGTIN NHÀ ĐẤT 9 1.6. TỔNG KẾT CHƯƠNG 10 Chương 2. CONDITIONAL RANDOM FIELDS 11 2.1. MÔHÌNH MARKOV ẨN- HMM 11 2.2. MÔHÌNH CỰC ĐẠI HÓA ENTROPY-MEMM 13 2.3. MÔHÌNH CONDITIONAL RANDOM FIELDS 15 2.3.1.Việc gán nhãn cho dữ liệu tuần tự 15 2.3.2. Định nghĩa CRF 16 2.3.3. Nguyên lý cực đại hóa Entropy 18 2.3.3.1. Độ đo Entropy điều kiện 18 2.3.3.2. Các ràng buộc đối với phân phối môhình 19 2.3.3.3. Nguyên lý cực đại hóa Entropy 20 2.3.4. Hàm tiềm năng của các môhìnhCRF 20 2.3.5. Conditional Random Fields 21 2.3.6. So sánh với các môhình khác 22 2.4. TỔNG KẾT CHƯƠNG 23 Chương 3. THUẬT TOÁN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SỐ CỦA MÔHÌNHCRFVÀ CÔNG CỤ CRF ++ 24 3.1. THUẬT TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI 24 vi 3.2. XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25 3.3. ƯỚC LƯỢNG THAM SỐ CHO MÔHÌNHCRF 26 3.3.1. Thuật toán S 28 3.3.2. Thuật toán T 29 3.4. CÔNG CỤ CRF++ TOOLKIT 30 3.4.1. Giới thiệu 30 3.4.2. Tính năng 31 3.4.3. Cài đặt và cách sử dụng 31 3.4.3.1 Cài đặt 31 3.4.3.2. File định dạng huấn luyện và test 31 3.4.3.3. Template type 32 3.4.4. Huấn luyện và kiểm tra 34 3.5. TỔNG KẾT CHƯƠNG 36 Chương 4. ỨNGDỤNGCRF VÀO BÀI TOÁN TRÍCHCHỌNTHÔNGTIN NHÀ ĐẤT 37 4.1. MÔHÌNH HÓA BÀI TOÁN TRÍCHCHỌNTHÔNGTIN NHÀ ĐẤT 37 4.1.1. Xử lý dữ liệu đầu vào 38 4.2. MÔI TRƯỜNG THỰC NGHIỆM 39 4.2.1. Phần cứng 39 4.2.2. Phần Mềm 39 4.2.3. Dữ liệu thực nghiệm 39 4.2.3.1. Lần thử nghiệm thứ nhất 40 4.2.3.2. Lần thử nghiệm thứ hai 40 4.2.3.3. Kết quả và đánh giá 42 4.3. HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI 44 4.4. TỔNG KẾT CHƯƠNG 45 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 vii DANH MỤC CÁC HÌNH VẼ Hình 1. Một hệ thốngtríchchọnthôngtin 4 Hình 2. Môhình xây dựng IE theo hướng tiếp cận dựa trên tri thức 5 Hình 3. Môhình xây dựng IE theo môhình học máy 6 Hình 4. Modules chính của hệ thống IE 7 Hình 5. HMM 12 Hình 6. Đồ thị vô hướng HMM 12 Hình 7. Đồ thị có hướng mô tả cho môhinh MEMM 13 Hình 8. Label alias 14 Hình 9. Một trường ngẫu nhiên 17 Hình 10. Đồ thị vô hướng mô tả cho CRF 17 Hình 11. Mô tả các hàm tiềm năng 18 Hình 12. Tỷ lệ lỗi của CRF so với các môhình học máy khác 23 Hình 13. Môhình hoạt động của CRF++ 31 Hình 14. Môhình xử lý dữ liệu của bài toán tríchchọn nhà đất 38 Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra 44 viii BẢNG CÁC KÍ HIỆUVIẾT TẮT STT Kí hiệu Chú giải cho kí hiệu sử dụng 1 IE Tríchchọnthôngtin 2 HMM Môhình Markov ẩn 3 MEMM Môhình cực đại hóa Entropy 4 CRF Trường ngẫu nhiên có điều kiện 5 IR Tìm kiếm thôngtin 1 LỜI MỞ ĐẦU Trong thời đại bùng nổ công nghệ thôngtin như hiện nay thì việc ứngdụng công nghệ thôngtintrong các lĩnh vực của đời sống ngày càng đa dạng và phong phú. Toàn bộ các ứngdụng đều thực hiện trên các thôngtin đầu vào từ dạng đơn giản đến phức tạp. Từ dạng văn bản dạng ký tự thông thường cho đến những thôngtin đầu vào phức tạp như hình ảnh, âm thanh. Việc ứng dụ ng công nghệ xử lý ngôn ngữ cũng hết sức phong phú. Có thể kể tới trong những năm gần đây có một số công nghệ rất nổi tiếng như [1]: Hãng SAMSUNG đưa ra thị trường điện thoại di động P207 có thể nhận biết được các câu nói đơn giản ví dụ “tôi sẽ gọi lại” rồi chuyển chúng về dạng tin nhắn. Bên cạnh đó có rất nhiều những công nghệ d ịch tự động trên web như Language Tool dịch nhiều thứ tiếngtrong google. Có thể phân loại các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining). Tất cả các bài toán đều được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế là để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con ngườ i. Đối với tiếngViệt đã có một số các sản phẩm liên quan đến tiếngViệt như: Bộ gõ chữ tiếng Việt, chương trình nhận dạng chữ tiếngViệt như VnDOCR của viện Công Nghệ Thông Tin, các phần mềm như EVTRAN, gần đây tiêu biểu là kết quả của việc Việt hóa Windows và Office. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, việc hiểu các công nghệ ngôn ngữ là rất cần thiết. Trongluận văn này đề cập tới ứngdụng của CNTT trong việc tríchchọnthôngtintrongtiếng Việt. Có rất nhiều phương pháp, trongluận văn này giới thiệu môhình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc và công cụ CRF++ để thực hành tríchchọnthôngtintrongtiếngViệtvà cụ thể là bài toán tríchchọnthôngtin nhà đất. Trong khuôn khổ của khóa luận tốt nghiệp với đề tài “Tìm hiể u môhìnhCRFvàứngdụngtrongtríchchọnthôngtintrongtiếng Việt” em xin trình bày một công nghệ ứngdụngtrong việc xử lý ngôn ngữ tiếng Việt. Nội dung khóa luận gồm 4 chương: ¾ Chương 1: Tổng quan: Giới thiệu tổng quan về tríchchọnthông tin, và các cách tiếp cận để xây dựng hệ thốngtríchchọnthôngtin những ứngdụng của tríchchọnthông tin, vàứngdụngtrong xử lý tiếng Việt, đồng 2 thời cũng môhình hóa và nêu được ý nghĩa của bài toán tríchchọnthôngtin nhà đất. ¾ Chương 2: Conditional Random Fields: Chương này giới thiệu một số môhình học máy như HMM, MEMM và tập trung vào môhình Conditional Random Field – CRF. Đưa ra được khái niệm trường ngẫu nhiên, trường ngẫu nhiên có điều kiện. Đồng thời cũng chỉ ra được rằng môhìnhCRFhiệu quả hơn so với các môhình học máy khác. ¾ Chương 3: Thuật toán gán nhãn và ước lượng tham số cho môhìnhCRFvà công cụ CRF++: Chương này đưa ra hai vấn đề cơ bản của môhìnhCRFvà hướng giải quyết hiệu quả nhất. Ở đây thuật toán gán nhãn sử dụng thuật toán Viterbi một thuật toán trong quy hoạch động. Và hai thuật toán T và thuật toán S giải quyết vấn đề ước lượng tham số cho môhình CRF. Đồng thời cũng giới thiệu được công cụ CRF++ toolkit, một công cụ cài đặt môhìnhCRF được sử dụngtrong bài toán tríchchọnthôngtin nhà đất. ¾ Chương 4: ỨngdụngCRF vào bài toán tríchchọnthôngtin nhà đất: Chương này nói về việc ứngdụng của môhìnhCRF đã nói ở các chương trước vào bài toán tríchchọnthôngtin nhà đất. Một hướng đi mới trong bài toán xử lý ngôn ngữ tự nhiên. [...]...Chương 1 TỔNG QUAN Chủ đề chính của khóa luận là tìmhiểumôhình Conditional Random Field và ứngdụng trong tríchchọnthôngtintrongtiếngViệt Chương này sẽ giới thiệu tổng quan về tríchchọnthôngtinvà các hướng tiếp cận tríchchọnthôngtin Đồng thời cũng nêu được ý nghĩa của việc tríchchọnthôngtintrongtiếngViệt 1.1 TRÍCHCHỌNTHÔNGTIN Khi tìm kiếm một thư mục có chứa rất nhiều thư... saying… Hình 1 Một hệ thốngtríchchọnthôngtinTríchchọnthôngtin như một nhiệm vụ lấp đầy các trường (slots) trong cơ sở dữ liệu bằng những đoạn text nhỏ hơn (hay nói cách khác kết quả của một hệ thốngtríchchọnthôngtin thường là các mẫu chứa một số lượng xác định các trường đã được điền thông tin) Ví dụ như ở hình 1 ta có một hệ thốngtríchchọn những tên riêng xuất hiện trong văn bản, trích chọn. .. là chung cư hoặc căn hộ, trong đó B-LN là từ bắt đầu loại nhà, I-LN là từ tiếp theo của loại nhà Cũng như các bài toán tríchchọn khác như: tríchchọn thực thể, nhận dạng tên, tríchchọnthôngtin nhà đất cũng có các hướng tiếp cận khác nhau, trongluận văn này tập trung vào bài toán tríchchọnthôngtin nhà đất theo phương pháp học máy bằng cách sử dụng môhình CRF Một môhình được đánh giá là có... của văn bản được chỉ rõ Tự tạo ra các trường liên quan một cách tự động trong cơ sở dữ liệu được lấy từ văn bản Một số ứngdụng điển hình của tríchchọnthông tin: sử dụngtríchchọnthôngtintrong thư viện số- DL (Digital Libraries) - thư viện số có thể hiểu là các văn 9 bản hoặc hình ảnh… Rút tríchthôngtin từ thư điện tử Tríchchọn tiểu sử người (có thể là chân dung, vị trí, email, địa chỉ, số điện... tríchchọnthôngtin từ văn bản sau: Tríchchọn các thực thể (Entity Extraction), tríchchọn quan hệ giữa các thực thể (Relation Extraction), xác định đồng tham chiếu (Co-reference Resolution) Cũng phải lưu ý rằng tríchchọn không đơn thuần là tríchchọntrong một văn bản với các ký tự ASCII hoặc Unicode Tríchchọn ở đây có thể là tríchchọn âm thanh, tríchchọnhình ảnh Tuy nhiên trongluận văn này... cần thiết của môhìnhCRF có thể giải quyết những hạn chế trên 2.3 MÔHÌNH CONDITIONAL RANDOM FIELDS CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [14] [11] CRF là môhình dựa trên xác xuất điều kiện, thường được sử dụngtrong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Khác với môhình MEMM, CRF là môhình đồ thị vô hướng Điều này cho phép CRF có thể... với bài toán tríchchọnthôngtin 1.5 Ý NGHĨA CỦA BÀI TOÁN TRÍCHCHỌNTHÔNGTIN NHÀ ĐẤT Trong bất cứ một ngôn ngữ nào thì việc thì việc tìm ra những thôngtin liên quan là điều rất quan trọng mà không cần phải đọc hiểu toàn bộ văn bản Chính vì vậy việc tríchchọnthôngtin có một nghĩa rất lớn trong việc xử lý ngôn ngữ tự nhiên Tiết kiệm thời gian Như chúng ta đã biết thì mỗi một bản tin đăng trên... nhiều Vấn đề ở đây là trong một bản tin có sự nhập nhằng giữa thôngtin địa chỉ của mảnh đất và địa chỉ của người chủ Việc tríchchọn có thể giảm bớt sự nhập nhằng trongthôngtin này Nói rộng hơn nữa bài toán tríchchọnthôngtin nhà đất chỉ là bài toán nhỏ Từ bài toán này ta cũng thấy được ý nghĩa của việc tríchchọnthôngtintrongtiếngViệt Giúp cho việc tóm tắt văn bản chính xác nếu như chủ đề... toàn phức tạp trong lĩnh vực này Trongluận văn này trình bày bài toán tríchchọnthôngtin nhà đất Ở đây chúng ta phải phân biệt rõ giữa tìm kiếm thôngtin (Information Retrival IR) vàtríchchọnthôngtin (Information Extraction -IE) IR có thể hiểu đơn giản là từ một nguồn rất nhiều tệp văn bản hay tiếng nói tìm ra những tệp có nội dung liên quan đến một câu hỏi hay một điều cần biết Điển hình của công... quan về tríchchọnthôngtin Với hai hướng tiếp cận của xây dựng hệ thốngtríchchọnthôngtin theo hướng máy tri thức và theo hướng hệ thống tự đào tạo giúp mọi người có thể hìnhdung ra được các cách tiếp cận với tríchchọnthôngtin Đồng thời cũng nêu ra được nhiệm vụ của khóa luận 10 Chương 2 CONDITIONAL RANDOM FIELDS Như giới thiệu trong chương trước, chương này giới thiệu vào một số mô hình học . khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình này trong trích chọn thông tin trong tiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về trích chọn thông thông tin. . về trích chọn thông tin, và các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng Việt, đồng 2 thời cũng mô hình. đặt mô hình CRF được sử dụng trong bài toán trích chọn thông tin nhà đất. ¾ Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất: Chương này nói về việc ứng dụng của mô hình CRF