Phương pháp trường ngẫu nhiên có điều kiện (CRF)

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 43 - 44)

TIẾNG VIỆT

2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)

Trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mơ hình rời rạc dựa trên ý tƣởng gốc từ mơ hình Markov ẩn (Hidden Markov Model, HMM) [RA89] và đƣợc cải thiện để khắc phục các nhƣợc điểm của HMM cũng nhƣ của mơ hình markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [MFP00]. CRF đƣợc Lafferty và cộng sựgiới thiệu cho bài tốn trích xuất thơng tin [LMP01].

Hình 2.1. Đồ thị vơ hướng mơ tả CRF

Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và

Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tƣơng ứng . Mỗi thành phần yi của Y

là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạn g thái S. Trong bài tốn nhận dạngthực thể định danh, X có thể nhận giá trị là các câu trong văn bản, Y là một chuỗi ngẫu nhiên các tên thực thể tƣơng ứng với các câu này và mỗi một thành phần yi của Y có miền giá trị là tậ p tất cả các nhãn tên thƣ̣c thể (I_PER, B_PER, …).Cho mô ̣t đồ thi ̣ vô hƣớng không có chu trình G=(V, E), ở đây V là tập

42

các đỉnh của đồ thị và E là tập các cạnh vô hƣớng nối các đỉnh đồ thị . Các đỉnh V

biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn ta ̣i ánh xa ̣ mô ̣t-mô ̣t giƣ̃a mô ̣t đỉnh và mô ̣t thành phần của yv của Y. Ta nói (Y|X) là một trƣờng ngẫu nhiên có

điều kiê ̣n khi với điều kiê ̣n X, các biến ngẫu nhiên yv tuân theo tính chất Markov đối với đồ thi ̣ G:

))( ( , , | ( ) , , | (y X y v P y X y N v P v    v   (2.1)

ở đây, N(v) là tập tất cả các đỉnh kề với v. Nhƣ vâ ̣y, mô ̣t CRF là mô ̣t trƣờng ngẫu nhiên phu ̣ th ̣c tồn cục vào X. Kí hiệu X=(x1, x2,…, xn), Y=(y1, y2, ..., yn). Mô hình đồ thi ̣ cho CRF có da ̣ng nhƣ trong hình 2.1.

Tính ƣu việt của CRF so với HMM thể hiện ở việc nó ƣớc lƣợng các phân phối xác suất có điều kiện theo trình tự gán nhãn, tính ƣu việt nàyđã đƣợc chứng minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn đang là một trong những phƣơng pháp học máy đƣợc ứng dụng nhiều trong lĩnh vực NLP.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(137 trang)