1. Trang chủ
  2. » Thể loại khác

PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI

52 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Đoạn Từ Tiếng Việt Sử Dụng Mô Hình CRFs
Tác giả Nguyễn Trung Kiên
Người hướng dẫn TS. Hà Quang Thụy, TS. Nguyễn Lê Minh
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 52
Dung lượng 751,25 KB

Nội dung

Ngày đăng: 11/07/2021, 09:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[17] Robert Malouf. 2002. “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). Pages 49–55 Sách, tạp chí
Tiêu đề: A comparison of algorithms for maximum entropy parameter estimation
[1] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997, trang 142–152 Khác
[2] Nguyễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005 Khác
[3] Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Luận văn tốt nghiệp ĐHCN 2005 Khác
[5] A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000 Khác
[6] Andrew McCallum. Efficiently Inducing Features of Conditional Random Fields. Computer Science Department. University of Massachusetts Khác
[7] Andrew McCallum, Khashayar Rohanimanesh, and Charles Sutton. Dynamic Conditional Random Fields for Jointly Labeling Multiple Sequences.Department of Computer Science, University of Massachusetts Khác
[8] Chih-Hao Tsai. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996 Khác
[9] Dinh Dien, Hoang Kiem, Nguyen Van Toan. Vietnamese Word Segmentation.. The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, 11/2001. pp. 749 -756 Khác
[10] Dong C.Liu and Jorge Nocedal. On the limited memory BFGS method for large scale optimization. Mathematical Programming 45 (1989), pp 503-528 Khác
[11] F. Sha and F.Pereia. Shallow parsing with conditional random fields. Proceedings of Human Language Technology, NAACL 2003, 2003 Khác
[12] H. M. Wallach. Efficient training of conditional random fields. Master’s thesis, University of Edinburgh, 2002 Khác
[13] Hammersley, J., & Clifford. P. Markov fields on finite graphs and lattices. Unpublished manuscript ,1971 Khác
[14] Hana Wallach. Efficient Training of Conditional Random Fields. M.Sc. thesis, Division of Informatics, University of Edinburgh, 2002 Khác
[15] J. Lafferty, A. McCallum, and F. Pereia. Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001 Khác
[16] Mehryar Mohri, AT&T Labs – Research. Weighted Finite-State Transducer Algorithms An Overview Khác
[18] Ronald Schoenberg. Optimization with the Quasi-Newton Method, September 5, 2001 Khác
[19] Sunita Sarawagi, William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction Khác
[20] Trausti Kristjansson, Aron Cullota, Paul viola, Adrew McCallum. Interactive Information Extraction with Constrained Conditionial Random Fields Khác
[21] Hoang Cong Duy Vu, Nguyen Le Nguyen, Dinh Dien, Nguyen Quoc Hung. A Vietnamese word segmentation approach using maximum matching algorithms and support vector machines Khác

HÌNH ẢNH LIÊN QUAN

PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs  - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
s (Trang 1)
Bảng từ viết tắt - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng t ừ viết tắt (Trang 8)
Hình 1: Mô hình hoạt động của TBL - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Hình 1 Mô hình hoạt động của TBL (Trang 19)
Kí hiệu X= (X1, X2, ... Xn) và Y= (Y1, Y2, …Yn) thì mô hình đồ thị G có dạng sau  - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
hi ệu X= (X1, X2, ... Xn) và Y= (Y1, Y2, …Yn) thì mô hình đồ thị G có dạng sau (Trang 25)
Chương 3. Phân đoạn từ tiếng Việt với mô hình CRF - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
h ương 3. Phân đoạn từ tiếng Việt với mô hình CRF (Trang 31)
Để tăng độ chính xác của mô hình, em còn thu thập dữ liệu về tên riêng của người, tổ chức nhằm hỗ trợ cho việc phát hiện từ mới - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
t ăng độ chính xác của mô hình, em còn thu thập dữ liệu về tên riêng của người, tổ chức nhằm hỗ trợ cho việc phát hiện từ mới (Trang 32)
Hình 3: quá trình phân đoạn sử dụng mô hình CRF - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Hình 3 quá trình phân đoạn sử dụng mô hình CRF (Trang 34)
Bảng 4: Mẫu ngữ cảnh dạng từ điển - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 4 Mẫu ngữ cảnh dạng từ điển (Trang 35)
Bảng 5: Mẫu ngữ cảnh từ vựng - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 5 Mẫu ngữ cảnh từ vựng (Trang 35)
Việc đánh giá độ chính xác của mô hình phân đoạn từ của chúng ta là rất quan trong. Nó cho phép ta so sánh độ chính xác của mô hình giữa các tập dữ liệu huấ n luy ệ n,  hơn nữa, có thể so sánh độ chính xác của mô hình do ta xây dựng với nhữ ng mô hình  ph - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
i ệc đánh giá độ chính xác của mô hình phân đoạn từ của chúng ta là rất quan trong. Nó cho phép ta so sánh độ chính xác của mô hình giữa các tập dữ liệu huấ n luy ệ n, hơn nữa, có thể so sánh độ chính xác của mô hình do ta xây dựng với nhữ ng mô hình ph (Trang 37)
Hình 4: kết quả 3 độ đo với thử nghiệm 1 qua 5 lần thử nghiệm - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Hình 4 kết quả 3 độ đo với thử nghiệm 1 qua 5 lần thử nghiệm (Trang 43)
Hình 5: kết quả 3 độ đo thử nghiệm 2 qua 5 lần thử nghiệm 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất  - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Hình 5 kết quả 3 độ đo thử nghiệm 2 qua 5 lần thử nghiệm 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất (Trang 43)
Bảng 12: Đánh giá mức độ từ – lần thử nghiệm cho kết quả tốt nhất Label Manual  Model Match  Pre - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 12 Đánh giá mức độ từ – lần thử nghiệm cho kết quả tốt nhất Label Manual Model Match Pre (Trang 44)
Hình 6: Quá trình tằng likelihood qua 150 bước lặp 4.3.2.3 Trung bình 5 lần thực nghiệm  - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Hình 6 Quá trình tằng likelihood qua 150 bước lặp 4.3.2.3 Trung bình 5 lần thực nghiệm (Trang 44)
4.3.2.1 Kết quả 5 lần thử nghiệm - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
4.3.2.1 Kết quả 5 lần thử nghiệm (Trang 45)
Bảng 142: Đánh giá ở mức từ – trung bình 5 lần thử nghiệm - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 142 Đánh giá ở mức từ – trung bình 5 lần thử nghiệm (Trang 45)
Bảng 14: Đánh giá mức độ nhãn – lần thử nghiệm cho kết quả tốt nhất Label Manual  Model Match  Pre - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 14 Đánh giá mức độ nhãn – lần thử nghiệm cho kết quả tốt nhất Label Manual Model Match Pre (Trang 46)
Bảng 173: Đánh giá mức nhãn- Trung bình 5 lần thử nghiệm - PHÂN ĐOẠN TỪ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CRFs KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Bảng 173 Đánh giá mức nhãn- Trung bình 5 lần thử nghiệm (Trang 47)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN