Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

58 1.4K 6
Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆNguyễn Thị LoanTÌM HIỂU HÌNH CRFVÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TINTRONG TIẾNG VIỆTKHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinHÀ NỘI -2009i TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆNguyễn Thị LoanTÌM HIỂU HÌNH CRFVÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TINTRONG TIẾNG VIỆTKHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tinCán bộ hướng dẫn : Tiến Sĩ Nguyễn Trí ThànhHÀ NỘI – 2009ii LỜI CẢM ƠNTrước tiên, em muốn gửi lời cảm ơn sâu sắc đến Tiến Sĩ Nguyễn Trí Thành, người đã tận tình hướng dẫn em trong suốt quá trình thực hiện khóa luận.Em xin gửi lời cảm ơn chân thành sâu sắc tới các thầy, cô tại trường Đại học Công Nghệ đã dạy dỗ tận tình chỉ bảo cho tôi trong suốt quá trình học tập tại trường. Những kiến thức mà thầy cô truyền đạt sẽ là vốn quý báu cho chúng em bước vào tương lai.Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Công Nghệ đã ủng hộ khuyến khích tôi trong quá trình nghiên cứu thực hiện khóa luận này.Cuối cùng, con xin cảm ơn chân thành biết ơn vô hạn tới gia đình, những người có công sinh thành, nuôi dưỡng, những người luôn kịp thời động viên giúp đỡ vượt qua những khó khăn trong cuộc sống.Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Chúng em kính mong nhận được sự thông cảm của quý Thầy Cô các bạnHà Nội, ngày 12 tháng 5 năm 2009 Sinh viên Nguyễn Thị Loaniii TÓM TẮTNội dung của khóa luận là tìm hiểu hình CRF, ứng dụng của hình này trong trích chọn thông tin trong tiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về trích chọn thông thông tin. Đồng thời nêu đến hai hướng tiếp cận để xây dựng một hệ thống trích chọn thông tin cũng như ưu nhược điểm của từng hướng tiếp cận, Đồng thời cũng nêu ra được ứng dụng của trích chọn thông tin trong tiếng Việt như thế nào. Cụ thể ở đây là bài toán trích chọn thông tin nhà đất.Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba hình học máy trong đó tập trung chủ yếu vào hình Conditional Random Field –CRF. Bất kỳ hình nào cũng có ưu nhược điểm trong luận văn này trình bày hai vấn đề lớn của hình CRF đó là vấn đề gán nhãn ước lượng tham số. Đồng thời cũng trình bày về công cụ hữu ích CRF++.Luận văn cũng trình bày được việc ứng dụng hình CRF làm nền tảng lý thuyết cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất. Một bài toán nhỏ trong bài toán xử lý ngôn ngữ tự nhiên.iv MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ .vii BẢNG CÁC KÍ HIỆU VIẾT TẮT .ix LỜI MỞ ĐẦU .1 Hình 1. Một hệ thống trích chọn thông tin 4 1.2.1. Hướng tiếp cận dựa trên tri thức .4 Hình 2. hình xây dựng IE theo hướng tiếp cận dựa trên tri thức 5 1.2.2. Hướng tiếp cận xây dựng các hình học máy .5 Hình 3. hình xây dựng IE theo hình học máy 6 Hình 4. Modules chính của hệ thống IE .7 1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 7 Hình 5. HMM 12 Hình 6. Đồ thị vô hướng HMM .12 Hình 7. Đồ thị có hướng tả cho hinh MEMM .13 Hình 8. label alias .14 2.3.1. Việc gán nhãn cho dữ liệu tuần tự 15 2.3.2. Định nghĩa CRF .16 Hình 9. Một trường ngẫu nhiên 17 Hình 10. Đồ thị vô hướng tả cho CRF .17 Hình 11. tả các hàm tiềm năng .18 2.3.3. Nguyên lý cực đại hóa Entropy 18 2.3.3.1. Độ đo Entropy điều kiện 18 2.3.3.2. Các ràng buộc đối với phân phối hình .18 2.3.3.3. Nguyên lý cực đại hóa Entropy 19 2.3.4. Hàm tiềm năng của các hình CRF 20 2.3.5. Conditional Random Fields 20 2.3.6. So sánh với các hình khác 22 Hình 12. Tỷ lệ lỗi của CRF so với các hình học máy khác 22 3.3.1. Thuật toán S .27 3.3.2. Thuật toán T 29v 3.4.1. Giới thiệu .29 Hình 13. hình hoạt động của CRF++ .31 3.4.2. Tính năng .31 3.4.3. Cài đặt cách sử dụng .31 3.4.3.1 Cài đặt 31 3.4.3.2. File định dạng huấn luyện test .31 3.4.3.3. Template type 32 3.4.4. Huấn luyện kiểm tra 33 Bảng 2. Bảng các tham số huấn luyện .34 35 Bảng 3. Bảng các tham số của lệnh crf_test 35 Bảng 4. Bảng các thông tin cần trích chọn .36 4.1.1. Xử lý dữ liệu đầu vào .37 Hình 14. hình xử lý dữ liệu của bài toán trích chọn nhà đất .37 4.2.1. Phần cứng 39 4.2.2. Phần Mềm 39 4.2.3. Dữ liệu thực nghiệm 39 4.2.3.1. Lần thử nghiệm thứ nhất 39 4.2.3.2. Lần thử nghiệm thứ hai 39 4.2.3.3. Kết quả đánh giá 41 Bảng 4. Bảng kết quả lần test thứ nhất .42 Bảng 5. Bảng kết quả lần test thứ hai .42 Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra 43 KẾT LUẬN .46 TÀI LIỆU THAM KHẢO 46vi DANH MỤC CÁC HÌNH VẼ LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC v DANH MỤC CÁC HÌNH VẼ .vii BẢNG CÁC KÍ HIỆU VIẾT TẮT .ix LỜI MỞ ĐẦU .1 Hình 1. Một hệ thống trích chọn thông tin 4 1.2.1. Hướng tiếp cận dựa trên tri thức .4 Hình 2. hình xây dựng IE theo hướng tiếp cận dựa trên tri thức 5 1.2.2. Hướng tiếp cận xây dựng các hình học máy .5 Hình 3. hình xây dựng IE theo hình học máy 6 Hình 4. Modules chính của hệ thống IE .7 1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 7 Hình 5. HMM 12 Hình 6. Đồ thị vô hướng HMM .12 Hình 7. Đồ thị có hướng tả cho hinh MEMM .13 Hình 8. label alias .14 2.3.1. Việc gán nhãn cho dữ liệu tuần tự 15 2.3.2. Định nghĩa CRF .16 Hình 9. Một trường ngẫu nhiên 17 Hình 10. Đồ thị vô hướng tả cho CRF .17 Hình 11. tả các hàm tiềm năng .18 2.3.3. Nguyên lý cực đại hóa Entropy 18 2.3.4. Hàm tiềm năng của các hình CRF 20 2.3.5. Conditional Random Fields 20 2.3.6. So sánh với các hình khác 22 Hình 12. Tỷ lệ lỗi của CRF so với các hình học máy khác 22 3.3.1. Thuật toán S .27 3.3.2. Thuật toán T 29 3.4.1. Giới thiệu .29vii Hình 13. hình hoạt động của CRF++ .31 3.4.2. Tính năng .31 3.4.3. Cài đặt cách sử dụng .31 3.4.4. Huấn luyện kiểm tra 33 Bảng 2. Bảng các tham số huấn luyện .34 35 Bảng 3. Bảng các tham số của lệnh crf_test 35 Bảng 4. Bảng các thông tin cần trích chọn .36 4.1.1. Xử lý dữ liệu đầu vào .37 Hình 14. hình xử lý dữ liệu của bài toán trích chọn nhà đất .37 4.2.1. Phần cứng 39 4.2.2. Phần Mềm 39 4.2.3. Dữ liệu thực nghiệm 39 Bảng 4. Bảng kết quả lần test thứ nhất .42 Bảng 5. Bảng kết quả lần test thứ hai .42 Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra 43 KẾT LUẬN .46 TÀI LIỆU THAM KHẢO 46viii BẢNG CÁC KÍ HIỆU VIẾT TẮTSTT Kí hiệu Chú giải cho kí hiệu sử dụng1 IE Trích chọn thông tin2 HMM hình Markov ẩn3 MEMM hình cực đại hóa Entropy4 CRF Trường ngẫu nhiên có điều kiện5 IR Tìm kiếm thông tinix [...]... tài Tìm hiểu hình CRF ứng dụng trong trích chọn thông tin trong tiếng Việt em xin trình bày một công nghệ ứng dụng trong việc xử lý ngôn ngữ tiếng Việt Nội dung khóa luận gồm 4 chương:  Chương 1: Tổng quan: Giới thiệu tổng quan về trích chọn thông tin, các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, ứng dụng trong xử lý tiếng Việt, đồng... dụng trong bài toán trích chọn thông tin nhà đất  Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất: Chương này nói về việc ứng dụng của hình CRF đã nói ở các chương trước vào bài toán trích chọn thông tin nhà đất Một hướng đi mới trong bài toán xử lý ngôn ngữ tự nhiên Chương 1 TỔNG QUAN 2 Chủ đề chính của khóa luận là tìm hiểu hình Conditional Random Field ứng dụng trong trích. .. Trong luận văn này đề cập tới ứng dụng của CNTT trong việc trích chọn thông tin trong tiếng Việt Có rất nhiều phương pháp, trong luận văn này giới thiệu hình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc công cụ CRF+ + để thực hành trích chọn thông tin trong tiếng Việt cụ thể là bài toán trích chọn thông tin nhà đất Trong khuôn khổ của khóa luận tốt nghiệp với đề tài Tìm. .. khóa luận là tìm hiểu hình Conditional Random Field ứng dụng trong trích chọn thông tin trong tiếng Việt Chương này sẽ giới thiệu tổng quan về trích chọn thông tin các hướng tiếp cận trích chọn thông tin Đồng thời cũng nêu được ý nghĩa của việc trích chọn thông tin trong tiếng Việt 1.1 TRÍCH CHỌN THÔNG TIN Khi tìm kiếm một thư mục có chứa rất nhiều thư mục con hoặc rất nhiều file với nhiều... thống trích chọn thông tin thường là các mẫu chứa một số lượng xác định các trường đã được điền thông tin) Ví dụ như ở hình 1 ta có một hệ thống trích chọn những tên riêng xuất hiện trong văn bản, trích chọn các tổ chức liên quan, tìm các sự liên kết giữa các tổ chức tên người, vị trí của người đó trong tổ chức cuối cùng là đưa vào trong cơ sở dữ liệu 1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN. .. ước lượng tham số cho hình CRF công cụ CRF+ +: Chương này đưa ra hai vấn đề cơ bản của hình CRF hướng giải quyết hiệu quả nhất Ở đây thuật toán gán nhãn sử dụng thuật toán Viterbi một thuật toán trong quy hoạch động hai thuật toán T thuật toán S giải quyết vấn đề ước lượng tham số cho hình CRF Đồng thời cũng giới thiệu được công cụ CRF+ + toolkit, một công cụ cài đặt hình CRF. ..LỜI MỞ ĐẦU Trong thời đại bùng nổ công nghệ thông tin như hiện nay thì việc ứng dụng công nghệ thông tin trong các lĩnh vực của đời sống ngày càng đa dạng phong phú Toàn bộ các ứng dụng đều thực hiện trên các thông tin đầu vào từ dạng đơn giản đến phức tạp Từ dạng văn bản dạng ký tự thông thường cho đến những thông tin đầu vào phức tạp như hình ảnh, âm thanh Việc ứng dụng công nghệ xử lý... là chung cư hoặc căn hộ, trong đó B-LN là từ bắt đầu loại nhà, I-LN là từ tiếp theo của loại nhà 8 Cũng như các bài toán trích chọn khác như: trích chọn thực thể, nhận dạng tên, trích chọn thông tin nhà đất cũng có các hướng tiếp cận khác nhau, trong luận văn này tập trung vào bài toán trích chọn thông tin nhà đất theo phương pháp học máy bằng cách sử dụng hình CRF Một hình được đánh giá là có... văn bản được chỉ rõ  Tự tạo ra các trường liên quan một cách tự động trong cơ sở dữ liệu được lấy từ văn bản  Một số ứng dụng điển hình của trích chọn thông tin: sử dụng trích chọn thông tin trong thư viện số- DL (Digital Libraries) - thư viện số có thể hiểu là các văn bản hoặc hình ảnh… Rút trích thông tin từ thư điện tử Trích chọn tiểu sử người (có thể là chân dung, vị trí, email, địa chỉ, số điện... cần thiết của hình CRF có thể giải quyết những hạn chế trên 2.3 HÌNH CONDITIONAL RANDOM FIELDS CRF được giới thiệu vào những năm 2001 bởi Lafferty các đồng nghiệp [14] [11] CRF hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Khác với hình MEMM, CRF hình đồ thị vô hướng Điều này cho phép CRF có thể . Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt em xin trình bày một công nghệ ứng dụng trong việc xử lý ngôn ngữ tiếng Việt. . trích chọn thông tin, và các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng

Ngày đăng: 23/11/2012, 15:04

Hình ảnh liên quan

TÌM HIỂU MÔ HÌNH CRF - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt
TÌM HIỂU MÔ HÌNH CRF Xem tại trang 1 của tài liệu.
TÌM HIỂU MÔ HÌNH CRF - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt
TÌM HIỂU MÔ HÌNH CRF Xem tại trang 2 của tài liệu.
BẢNG CÁC KÍ HIỆU VIẾT TẮT - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt
BẢNG CÁC KÍ HIỆU VIẾT TẮT Xem tại trang 9 của tài liệu.
Chủ đề chính của khóa luận là tìm hiểu mô hình Conditional Random Field và ứng dụng trong trích chọn thông tin trong tiếng Việt - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

h.

ủ đề chính của khóa luận là tìm hiểu mô hình Conditional Random Field và ứng dụng trong trích chọn thông tin trong tiếng Việt Xem tại trang 13 của tài liệu.
Hình 2. Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 2..

Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức Xem tại trang 15 của tài liệu.
Hình 3. Mô hình xây dựng IE theo mô hình học máy - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 3..

Mô hình xây dựng IE theo mô hình học máy Xem tại trang 16 của tài liệu.
Hình 4. Modules chính của hệ thống IE - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 4..

Modules chính của hệ thống IE Xem tại trang 17 của tài liệu.
Hình 5. HMM - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 5..

HMM Xem tại trang 22 của tài liệu.
- i— Các trạng thái trong mô hình Markov - aij — Các xác suất chuyển tiếp - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

i.

— Các trạng thái trong mô hình Markov - aij — Các xác suất chuyển tiếp Xem tại trang 22 của tài liệu.
2.2. MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

2.2..

MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM Xem tại trang 23 của tài liệu.
Vấn đề “label alias” gặp phải trong mô hình MEMM - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

n.

đề “label alias” gặp phải trong mô hình MEMM Xem tại trang 24 của tài liệu.
Hình 9. Một trường ngẫu nhiên - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 9..

Một trường ngẫu nhiên Xem tại trang 27 của tài liệu.
Hình 11. Mô tả các hàm tiềm năng - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 11..

Mô tả các hàm tiềm năng Xem tại trang 28 của tài liệu.
θ(λ1,λ2 …..,μ1, μ2) là các véctơ tham số của mô hình. θ sẽ được ước lượng giá trị trong phần tiếp theo. - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

1.

λ2 …..,μ1, μ2) là các véctơ tham số của mô hình. θ sẽ được ước lượng giá trị trong phần tiếp theo Xem tại trang 32 của tài liệu.
Thực chất bài toán ước lượng tham số cho một mô hình CRF là bài toán tìm cực đại của hàm log-kikelihood - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

h.

ực chất bài toán ước lượng tham số cho một mô hình CRF là bài toán tìm cực đại của hàm log-kikelihood Xem tại trang 37 của tài liệu.
CRF++ được chia là m2 modulo chính có thể mô tả như hình (13) như sau: - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

c.

chia là m2 modulo chính có thể mô tả như hình (13) như sau: Xem tại trang 40 của tài liệu.
Hình 13. Mô hình hoạt động của CRF++ 3.4.2. Tính năng - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 13..

Mô hình hoạt động của CRF++ 3.4.2. Tính năng Xem tại trang 41 của tài liệu.
Bảng 2. Bảng các tham số huấn luyện - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Bảng 2..

Bảng các tham số huấn luyện Xem tại trang 44 của tài liệu.
Bảng 3. Bảng các tham số của lệnh crf_test - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Bảng 3..

Bảng các tham số của lệnh crf_test Xem tại trang 45 của tài liệu.
4.1.1. Xử lý dữ liệu đầu vào - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

4.1.1..

Xử lý dữ liệu đầu vào Xem tại trang 47 của tài liệu.
Hình 14. Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 14..

Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất Xem tại trang 47 của tài liệu.
Bảng kết quả thu được với sử dụng các mẫu đặc trưng thứ nhất: - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Bảng k.

ết quả thu được với sử dụng các mẫu đặc trưng thứ nhất: Xem tại trang 52 của tài liệu.
DC GB DD DT LN - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt
DC GB DD DT LN Xem tại trang 53 của tài liệu.
Hình 15. Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra - Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Hình 15..

Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra Xem tại trang 53 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan