TIẾNG VIỆT
2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)
Trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mơ hình rời rạc dựa trên ý tƣởng gốc từ mơ hình Markov ẩn (Hidden Markov Model, HMM) [RA89] và đƣợc cải thiện để khắc phục các nhƣợc điểm của HMM cũng nhƣ của mơ hình markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [MFP00]. CRF đƣợc Lafferty và cộng sựgiới thiệu cho bài tốn trích xuất thơng tin [LMP01].
Hình 2.1. Đồ thị vơ hướng mơ tả CRF
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và
Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tƣơng ứng . Mỗi thành phần yi của Y
là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạn g thái S. Trong bài tốn nhận dạngthực thể định danh, X có thể nhận giá trị là các câu trong văn bản, Y là một chuỗi ngẫu nhiên các tên thực thể tƣơng ứng với các câu này và mỗi một thành phần yi của Y có miền giá trị là tậ p tất cả các nhãn tên thƣ̣c thể (I_PER, B_PER, …).Cho mô ̣t đồ thi ̣ vô hƣớng không có chu trình G=(V, E), ở đây V là tập
42
các đỉnh của đồ thị và E là tập các cạnh vô hƣớng nối các đỉnh đồ thị . Các đỉnh V
biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn ta ̣i ánh xa ̣ mô ̣t-mô ̣t giƣ̃a mô ̣t đỉnh và mô ̣t thành phần của yv của Y. Ta nói (Y|X) là một trƣờng ngẫu nhiên có
điều kiê ̣n khi với điều kiê ̣n X, các biến ngẫu nhiên yv tuân theo tính chất Markov đối với đồ thi ̣ G:
))( ( , , | ( ) , , | (y X y v P y X y N v P v v (2.1)
ở đây, N(v) là tập tất cả các đỉnh kề với v. Nhƣ vâ ̣y, mô ̣t CRF là mô ̣t trƣờng ngẫu nhiên phu ̣ th ̣c tồn cục vào X. Kí hiệu X=(x1, x2,…, xn), Y=(y1, y2, ..., yn). Mô hình đồ thi ̣ cho CRF có da ̣ng nhƣ trong hình 2.1.
Tính ƣu việt của CRF so với HMM thể hiện ở việc nó ƣớc lƣợng các phân phối xác suất có điều kiện theo trình tự gán nhãn, tính ƣu việt nàyđã đƣợc chứng minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn đang là một trong những phƣơng pháp học máy đƣợc ứng dụng nhiều trong lĩnh vực NLP.