Nhánh QP có độ sâu lớn hơn 3 và chứa NP có độ sâu bằng 1

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs (Trang 36 - 38)

 Các cụm chứa liên từ “và”, tùy từng trường hợp sẽ được phân tách thành hai cụm hoặc mở rộng thành một cụm (8).

Hình 15: Ví dụ về cụm danh từ chứa liên từ “và”

Ví dụ bên trái hình 15, “Những giọt nước_mắt cảm_thông và hạnh_phúc” được coi là một cụm danh từ. Tuy nhiên, “chồng và “đứa con gái” được tách thành hai cụm danh từ.

Một số trường hợp đặc biệt khác như cụm danh từ chứa dấu nháy kép, dấu phảy, tôi cũng xây dựng những luật phù hợp. Để rút ra được những tiêu chí trên, tôi đã nghiên cứu và tìm hiểu kỹ về tập dữ liệu, đồng thời kết hợp với kết quả thực nghiệm để chỉnh sửa dần những tiêu chí này sao cho phù hợp và chính xác. Tuy nhiên, do cấu trúc phức tạp của cụm danh từ tiếng Việt, những luật này có thể chưa bao phủ tất cả

các trường hợp. Vì vậy, sau quá trình trích rút tự động, tôi thực hiện rà soát lại tập dữ liệu và chỉnh sửa những trường hợp chưa chính xác một cách thủ công.

Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs

4.1. Phân tách cụm từ tiếng Việt sử dụng mô hình CRFs

Ta có thể quy bài toán phân tách cụm danh từ tiếng Việt thành bài toán gãn nhãn cho các từ tiếng Việt. Gọi X là câu đầu vào tiếng Việt bao gồm một dãy các từ, kí hiệu X = (X1, X2, …, Xn). Chúng ta cần xác định Y = (Y1, Y2, …, Yn) là một dãy các nhãn. Tùy từng phương pháp biểu diễn dữ liệu, ta có các nhãn khác nhau. Ví dụ, nếu sử dụng phương pháp IOB2, ta có tập nhãn là {B, I, O}, trong đó B là nhãn bắt đầu và I là nhãn kết thúc của một cụm danh từ. Khi đó, cụm danh từ được trích rút bằng cách xác định từ bắt đầu và từ kết thúc của cụm.

Hình 16 mô tả mô hình của bộ phân tách cụm danh từ cơ sở tiếng Việt, gồm hai thành phần chính. Thành phần huấn luyện từ tập dữ liệu có sẵn và thành phần tách cụm danh từ.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs (Trang 36 - 38)

Tải bản đầy đủ (PDF)

(55 trang)