TÌM HIỂU MÔ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT
TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MÔ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI -2009 i TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MÔ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn : Tiến Sĩ Nguyễn Trí Thành HÀ NỘI – 2009 ii LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Nguyễn Trí Thành, người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận. Em xin gửi lời cảm ơn chân thành và sâu sắc tới các thầy, cô tại trường Đại học Công Nghệ đã dạy dỗ và tận tình chỉ bảo cho tôi trong suốt quá trình học tập tại trường. Những kiến thức mà thầy cô truyền đạt sẽ là vốn quý báu cho chúng em bước vào tương lai. Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Công Nghệ đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứu và thực hiện khóa luận này. Cuối cùng, con xin cảm ơn chân thành và biết ơn vô hạn tới gia đình, những người có công sinh thành, nuôi dưỡng, những người luôn kịp thời động viên và giúp đỡ vượt qua những khó khăn trong cuộc sống. Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Chúng em kính mong nhận được sự thông cảm của quý Thầy Cô và các bạn Hà Nội, ngày 12 tháng 5 năm 2009 Sinh viên Nguyễn Thị Loan iii TÓM TẮT Nội dung của khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình này trong trích chọn thông tin trong tiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về trích chọn thông thông tin. Đồng thời nêu đến hai hướng tiếp cận để xây dựng một hệ thống trích chọn thông tin cũng như ưu nhược điểm của từng hướng tiếp cận, Đồng thời cũng nêu ra được ứng dụng của trích chọn thông tin trong tiếng Việt như thế nào. Cụ thể ở đây là bài toán trích chọn thông tin nhà đất. Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba mô hình học máy trong đó tập trung chủ yếu vào mô hình Conditional Random Field –CRF. Bất kỳ mô hình nào cũng có ưu nhược điểm trong luận văn này trình bày hai vấn đề lớn của mô hình CRF đó là vấn đề gán nhãn và ước lượng tham số. Đồng thời cũng trình bày về công cụ hữu ích CRF++. Luận văn cũng trình bày được việc ứng dụng mô hình CRF làm nền tảng lý thuyết và cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất. Một bài toán nhỏ trong bài toán xử lý ngôn ngữ tự nhiên. iv MỤC LỤC LỜI CẢM ƠN .iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ vii BẢNG CÁC KÍ HIỆU VIẾT TẮT ix LỜI MỞ ĐẦU 1 Hình 1. Một hệ thống trích chọn thông tin 4 1.2.1. Hướng tiếp cận dựa trên tri thức 4 Hình 2. Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức .5 1.2.2. Hướng tiếp cận xây dựng các mô hình học máy .5 Hình 3. Mô hình xây dựng IE theo mô hình học máy .6 Hình 4. Modules chính của hệ thống IE .7 1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 7 Hình 5. HMM .12 Hình 6. Đồ thị vô hướng HMM 12 Hình 7. Đồ thị có hướng mô tả cho mô hinh MEMM 13 Hình 8. label alias 14 2.3.1. Việc gán nhãn cho dữ liệu tuần tự 15 2.3.2. Định nghĩa CRF 16 Hình 9. Một trường ngẫu nhiên 16 Hình 10. Đồ thị vô hướng mô tả cho CRF 17 Hình 11. Mô tả các hàm tiềm năng 18 2.3.3. Nguyên lý cực đại hóa Entropy 18 2.3.3.1. Độ đo Entropy điều kiện 18 2.3.3.2. Các ràng buộc đối với phân phối mô hình .18 2.3.3.3. Nguyên lý cực đại hóa Entropy 19 2.3.4. Hàm tiềm năng của các mô hình CRF 20 2.3.5. Conditional Random Fields 20 2.3.6. So sánh với các mô hình khác .22 Hình 12. Tỷ lệ lỗi của CRF so với các mô hình học máy khác .22 3.3.1. Thuật toán S 27 3.3.2. Thuật toán T 28 v 3.4.1. Giới thiệu 29 Hình 13. Mô hình hoạt động của CRF++ .30 3.4.2. Tính năng 31 3.4.3. Cài đặt và cách sử dụng 31 3.4.3.1 Cài đặt 31 3.4.3.2. File định dạng huấn luyện và test .31 3.4.3.3. Template type 32 3.4.4. Huấn luyện và kiểm tra .33 Bảng 2. Bảng các tham số huấn luyện .34 35 Bảng 3. Bảng các tham số của lệnh crf_test 35 Bảng 4. Bảng các thông tin cần trích chọn .36 4.1.1. Xử lý dữ liệu đầu vào .37 Hình 14. Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất 37 4.2.1. Phần cứng .39 4.2.2. Phần Mềm .39 4.2.3. Dữ liệu thực nghiệm .39 4.2.3.1. Lần thử nghiệm thứ nhất 39 4.2.3.2. Lần thử nghiệm thứ hai 39 4.2.3.3. Kết quả và đánh giá 41 Bảng 4. Bảng kết quả lần test thứ nhất .42 Bảng 5. Bảng kết quả lần test thứ hai .42 Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra .43 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO .46 vi DANH MỤC CÁC HÌNH VẼ LỜI CẢM ƠN .iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ vii BẢNG CÁC KÍ HIỆU VIẾT TẮT ix LỜI MỞ ĐẦU 1 Hình 1. Một hệ thống trích chọn thông tin 4 1.2.1. Hướng tiếp cận dựa trên tri thức 4 Hình 2. Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức .5 1.2.2. Hướng tiếp cận xây dựng các mô hình học máy .5 Hình 3. Mô hình xây dựng IE theo mô hình học máy .6 Hình 4. Modules chính của hệ thống IE .7 1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 7 Hình 5. HMM .12 Hình 6. Đồ thị vô hướng HMM 12 Hình 7. Đồ thị có hướng mô tả cho mô hinh MEMM 13 Hình 8. label alias 14 2.3.1. Việc gán nhãn cho dữ liệu tuần tự 15 2.3.2. Định nghĩa CRF 16 Hình 9. Một trường ngẫu nhiên 16 Hình 10. Đồ thị vô hướng mô tả cho CRF 17 Hình 11. Mô tả các hàm tiềm năng 18 2.3.3. Nguyên lý cực đại hóa Entropy 18 2.3.4. Hàm tiềm năng của các mô hình CRF 20 2.3.5. Conditional Random Fields 20 2.3.6. So sánh với các mô hình khác .22 Hình 12. Tỷ lệ lỗi của CRF so với các mô hình học máy khác .22 3.3.1. Thuật toán S 27 3.3.2. Thuật toán T 28 3.4.1. Giới thiệu 29 vii Hình 13. Mô hình hoạt động của CRF++ .30 3.4.2. Tính năng 31 3.4.3. Cài đặt và cách sử dụng 31 3.4.4. Huấn luyện và kiểm tra .33 Bảng 2. Bảng các tham số huấn luyện .34 35 Bảng 3. Bảng các tham số của lệnh crf_test 35 Bảng 4. Bảng các thông tin cần trích chọn .36 4.1.1. Xử lý dữ liệu đầu vào .37 Hình 14. Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất 37 4.2.1. Phần cứng .39 4.2.2. Phần Mềm .39 4.2.3. Dữ liệu thực nghiệm .39 Bảng 4. Bảng kết quả lần test thứ nhất .42 Bảng 5. Bảng kết quả lần test thứ hai .42 Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra .43 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO .46 viii BẢNG CÁC KÍ HIỆU VIẾT TẮT STT Kí hiệu Chú giải cho kí hiệu sử dụng 1 IE Trích chọn thông tin 2 HMM Mô hình Markov ẩn 3 MEMM Mô hình cực đại hóa Entropy 4 CRF Trường ngẫu nhiên có điều kiện 5 IR Tìm kiếm thông tin ix LỜI MỞ ĐẦU Trong thời đại bùng nổ công nghệ thông tin như hiện nay thì việc ứng dụng công nghệ thông tin trong các lĩnh vực của đời sống ngày càng đa dạng và phong phú. Toàn bộ các ứng dụng đều thực hiện trên các thông tin đầu vào từ dạng đơn giản đến phức tạp. Từ dạng văn bản dạng ký tự thông thường cho đến những thông tin đầu vào phức tạp như hình ảnh, âm thanh. Việc ứng dụng công nghệ xử lý ngôn ngữ cũng hết sức phong phú. Có thể kể tới trong những năm gần đây có một số công nghệ rất nổi tiếng như [1]: Hãng SAMSUNG đưa ra thị trường điện thoại di động P207 có thể nhận biết được các câu nói đơn giản ví dụ “tôi sẽ gọi lại” rồi chuyển chúng về dạng tin nhắn. Bên cạnh đó có rất nhiều những công nghệ dịch tự động trên web như Language Tool dịch nhiều thứ tiếng trong google. Có thể phân loại các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining). Tất cả các bài toán đều được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế là để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Đối với tiếng Việt đã có một số các sản phẩm liên quan đến tiếng Việt như: Bộ gõ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt như VnDOCR của viện Công Nghệ Thông Tin, các phần mềm như EVTRAN, gần đây tiêu biểu là kết quả của việc Việt hóa Windows và Office. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, việc hiểu các công nghệ ngôn ngữ là rất cần thiết. Trong luận văn này đề cập tới ứng dụng của CNTT trong việc trích chọn thông tin trong tiếng Việt. Có rất nhiều phương pháp, trong luận văn này giới thiệu mô hình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc và công cụ CRF++ để thực hành trích chọn thông tin trong tiếng Việt và cụ thể là bài toán trích chọn thông tin nhà đất. Trong khuôn khổ của khóa luận tốt nghiệp với đề tài “Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt” em xin trình bày một công nghệ ứng dụng trong việc xử lý ngôn ngữ tiếng Việt. Nội dung khóa luận gồm 4 chương: Chương 1: Tổng quan: Giới thiệu tổng quan về trích chọn thông tin, và các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng Việt, đồng thời cũng mô hình hóa và nêu được ý nghĩa của bài toán trích chọn thông tin nhà đất. 1 [...]... dụng của mô hình CRF đã nói ở các chương trước vào bài toán trích chọn thông tin nhà đất Một hướng đi mới trong bài toán xử lý ngôn ngữ tự nhiên Chương 1 TỔNG QUAN 2 Chủ đề chính của khóa luận là tìm hiểu mô hình Conditional Random Field và ứng dụng trong trích chọn thông tin trong tiếng Việt Chương này sẽ giới thiệu tổng quan về trích chọn thông tin và các hướng tiếp cận trích chọn thông tin Đồng thời... trích chọn không đơn thuần là trích chọn trong một văn bản với các ký tự ASCII hoặc Unicode Trích chọn ở đây có thể là trích chọn âm thanh, trích chọn hình ảnh Tuy nhiên trong luận văn này chỉ tập chung giới thiệu trích chọn thông tin liên quan tới văn bản Các kỹ thuật sử dụng trong trích chọn thông tin gồm: Phân đoạn, phân lớp, kết hợp và phân cụm 3 Hình 1 Một hệ thống trích chọn thông tin Trích chọn. .. sử dụng thuật toán Viterbi một thuật toán trong quy hoạch động Và hai thuật toán T và thuật toán S giải quyết vấn đề ước lượng tham số cho mô hình CRF Đồng thời cũng giới thiệu được công cụ CRF+ + toolkit, một công cụ cài đặt mô hình CRF được sử dụng trong bài toán trích chọn thông tin nhà đất Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất: Chương này nói về việc ứng dụng của mô hình. .. một số mô hình học máy như HMM, MEMM và tập trung vào mô hình Conditional Random Field – CRF Đưa ra được khái niệm trường ngẫu nhiên, trường ngẫu nhiên có điều kiện Đồng thời cũng chỉ ra được rằng mô hình CRF hiệu quả hơn so với các mô hình học máy khác Chương 3: Thuật toán gán nhãn và ước lượng tham số cho mô hình CRF và công cụ CRF+ +: Chương này đưa ra hai vấn đề cơ bản của mô hình CRF và hướng... là chung cư hoặc căn hộ, trong đó B-LN là từ bắt đầu loại nhà, I-LN là từ tiếp theo của loại nhà 8 Cũng như các bài toán trích chọn khác như: trích chọn thực thể, nhận dạng tên, trích chọn thông tin nhà đất cũng có các hướng tiếp cận khác nhau, trong luận văn này tập trung vào bài toán trích chọn thông tin nhà đất theo phương pháp học máy bằng cách sử dụng mô hình CRF Một mô hình được đánh giá là có... văn bản được chỉ rõ Tự tạo ra các trường liên quan một cách tự động trong cơ sở dữ liệu được lấy từ văn bản Một số ứng dụng điển hình của trích chọn thông tin: sử dụng trích chọn thông tin trong thư viện số- DL (Digital Libraries) - thư viện số có thể hiểu là các văn bản hoặc hình ảnh… Rút trích thông tin từ thư điện tử Trích chọn tiểu sử người (có thể là chân dung, vị trí, email, địa chỉ, số điện... cần thiết của mô hình CRF có thể giải quyết những hạn chế trên 2.3 MÔ HÌNH CONDITIONAL RANDOM FIELDS CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [14] [11] CRF là mô hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể... nhiều Vấn đề ở đây là trong một bản tin có sự nhập nhằng giữa thông tin địa chỉ của mảnh đất và địa chỉ của người chủ Việc trích chọn có thể giảm bớt sự nhập nhằng trong thông tin này Nói rộng hơn nữa bài toán trích chọn thông tin nhà đất chỉ là bài toán nhỏ Từ bài toán này ta cũng thấy được ý nghĩa của việc trích chọn thông tin trong tiếng Việt Giúp cho việc tóm tắt văn bản chính xác nếu như chủ đề... ứng dụng của nó và hiểu được những thông tin 5 cần rút trích Một khi dữ liệu huấn luyện được chú thích, thuật toán huấn luyện chạy và sinh ra những thông tin học được hay còn gọi là model để phục vụ cho quá trình trích chọn tự động sau này Mô hình với hướng tiếp cận này được mô tả qua hình 3 như sau: Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trên model này nó sẽ trích chọn. .. trích chọn thông tin Với hai hướng tiếp cận của xây dựng hệ thống trích chọn thông tin theo hướng máy tri thức và theo hướng hệ 9 thống tự đào tạo giúp mọi người có thể hình dung ra được các cách tiếp cận với trích chọn thông tin Đồng thời cũng nêu ra được nhiệm vụ của khóa luận Chương 2 CONDITIONAL RANDOM FIELDS Như giới thiệu trong chương trước, chương này giới thiệu vào một số mô hình học máy, trong . hi u m h nh CRF, v ng d ng của m h nh n y trong tr ch ch n th ng tin trong ti ng Vi t. Tr ớc h t khóa lu n tr nh bày nh ng khái ni m chung v tr ch. T ng quan: Giới thi u t ng quan v tr ch ch n th ng tin, v các c ch ti p c n để xây d ng h th ng tr ch ch n th ng tin nh ng ng d ng của tr ch chọn