Trường ngẫu nhiên cĩ điều kiện

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 35 - 55)

Chương 1 : GIỚI THIỆU ĐỀ TÀI

3.3. Trích chọn thơng tin dựa vào mơ hình tuần tự

3.3.3. Trường ngẫu nhiên cĩ điều kiện

3.3.3.1. Các mơ hình xác suất

Các mơ hình xác suất phổ biến [17] mà hay được xem xét (đồng thời là các mơ hình tuần tự) gồm cĩ Nạve Bayes, HMM, CRF, MEMM. Trong đĩ Nạve Bayes là một cách tiếp cận để phân loại các biến đơn lớp trong phụ thuộc với một vài giá trị đặc trưng.

Hình 13: Tổng quan về các mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên cĩ điều kiện (CRF). Các khía cạnh được

minh họa là xác suất chung hay điều kiện, dự đốn lớp đơn hay dự đốn trên dữ liệu chuỗi.

Trong mơ hình Nạve Bayes, chỉ cĩ các biến đầu ra được xem xét. Để dự đốn chuỗi của các biến lớp ⃗ = ( , … , )cho một chuỗi quan sát ⃗ = ( , … , ), một mơ hình tuần tự đơn giản cĩ thể được tính như một tích số thơng qua mơ hình Nạve Bayes. Phụ thuộc giữa các vị trí trong chuỗi khơng được xem xét. Trong mơ hình Nạve Bayes, chỉ cĩ một đặc trưng ở mỗi vị trí tuần tự, gọi là định danh của chuỗi quan sát tương ứng:

( ⃗, ⃗) = ( ) ( | )

Cơng thức: 5

Mỗi quan sát xi chỉ phụ thuộc vào biến lớp yi ở vị trí tương ứng trong chuỗi đĩ. Do sự giả sử về độc lập này, xác suất chuyển trạng thái từ bước này sang bước khác sẽ khơng được xem xét trong mơ hình này. Trong thực tế, giả định này thường khơng xảy ra dẫn tới hiệu suất kém của mơ hình này. Vì vậy, sự phụ thuộc giữa các quan sát trong các vị trí liền nhau trong chuỗi sẽ hợp lý hơn. Để mơ hình sự phụ thuộc này, xác suất chuyển trạng thái được thêm vào như cơng thức sau:

( ⃗, ⃗) = ( | ) ( | )

Cơng thức: 6

Xác suất này dẫn tới mơ hình HMM mà chúng ta biết. Như vậy xác suất của chuỗi quan sát được tính theo cơng thức sau:

( ⃗) = ( | ) ( | )

Cơng thức: 7 Trong đĩY là tập tát cả các nhãn cĩ thể của chuỗi⃗.

Phụ thuộc giữa các biến đầu ra ⃗ được mơ hình hĩa. Một thiếu sĩt là giả định về sự độc lập cĩ điều kiện trong cơng thức về xác suất chuyển giữa các tham số đầu vào ⃗ do nĩ quá phức tạp. Trong phần trường ngẫu nhiên cĩ điều kiện, chúng ta sẽ chỉ rõ ra vấn đề này.

3.3.3.2. Việc thể hiện bằng đồ thị

Một mơ hình đồ thị xác suất là một thể hiện dạng giản đồ của phân bố xác suất.Trong những đồ thị như thế, mỗi một node tương ứng với một biến ngẫu nhiên.Sự vắng mặt của một cạnh giữa hai biến thể hiện sự độc lập cĩ điều kiện giữa các biến này. Sự độc lập cĩ điều kiện cĩ nghĩa là giữa hai biến ngẫu nhiên a và b là độc lập với biến ngẫu nhiên số 3, c nếu chúng là độc lập trong phân bố xác suất cĩ điều kiện, ở dạng cơng thức p(a,b|c) = p(a|b) p(b|c). Từ những đồ thị như vậy, cũng được gọi là đồ thị độc lập, khi cĩ thể đọc các thuộc tính độc lập cĩ điều kiện từ phân bố cơ bản. Một đồ thị độc lập kết nối đầy đủ khơng chứa bất cứ thơng tin nào về phân bố điều kiện, chỉ sự vắng mặt của các cạnh là cĩ thơng tin: Các độc lập cĩ điều kiện trong phân bố điều kiện khơng cĩ nghĩa là sự vắng mặt của các cạnh trong đồ thị đĩ.

Sự độc lập cĩ điều kiện là khái niệm quan trọng do nĩ cĩ thể được sử dụng để phân tích các phân bố cĩ điều kiện phức tạp thành tích của các nhân tố, mỗi nhân tố sẽ gồm tập nhỏ các biến ngẫu nhiên tương ứng. Khái niệm này làm cho các tính tốn phức tạp trở nên hiệu quả hơn. Nĩi chung, việc phân rã, trong thực tế một thừa số của một phân bố cĩ điều kiện, được viết thành tích tích của các thành phần của nĩ , với vector ⃗ là tập các biến ngẫu nhiên tương ứng tạo thành một nhân tố như cơng thức sau:

( ⃗) = ( ⃗ )

Cơng thức: 8

Gọi G = (V,E) là một đồ thị với tập các đỉnh V và tập các cạnh là E. Trong một đồ thị độc lập, các đỉnh V = X U Y, trong đĩ X và Y là tập các biến ngẫu nhiên, được minh họa bằng các hình trịn. X được xem là tập các đầu vào hay các biến quan sát (vịng trịn ánh xám), và Y là một tập các biến đầu ra (các node trống). Một đồ thị độc lập cĩ các cạnh cĩ hướng hay vơ hướng, phụ thuộc vào loại đồ thị mà nĩ thể hiện.

Trong một đồ thị nhân tố, trong hình 10(b), các vịng trịn thể hiện trong đồ thị độc lập là các biến ngẫu nhiên của phân bố cơ bản, được minh họa bởi vịng trịn. Ngồi ra, các đồ thị nhân tố cịn gồm các node nhân tố, được minh họa bằng hình vuơng màu được điền màu đen, thể hiện cho các nhân tố . Trong đồ thị đĩ, các cạnh luơn là vơ hướng, liên kết các biến ngẫu nhiên với các node nhân tố. Một hàm nhân tố v gồm tất cả các biến ngẫu nhiên tới các node nhân tố tương ứng được kết nối trực tiếp bởi các cạnh. Vì vậy, một đồ thị thành phần thể hiện rõ ràng hơn các thành tố của phân bố xác suất cơ bản. Các đồ thị độc lập của các mơ hình đồ thị cĩ hướng và vơ hướng cĩ thể được chuyển thành các đồ thị thành phần.

Giả sử một phân bố xác suất p(x1,x2,y) được chia thành

( ⃗) = ( ) ( ) ( | , ) Nĩ cĩ các thành phần gồm ( ) = ( ),

( ) = ( )và ( ) = ( | , ). Ở đây x1 và x2 là các độc lập cĩ điều kiện với y. Hình 14 minh họa một đồ thị độc lập và một đồ thị thành phần thể hiện loại phân bố này.

Trong phần tiếp theo, chúng ta sẽ đi chi tiết về đồ thị cĩ hướng và vơ hướng. Nạve Bayes và HMM nằm trong nhĩm đầu tiên (đồ thị cĩ hướng), và Cực đại entropy nằm trong nhĩm đồ thị vơ hướng.

Hình 14: Mơ hình đồ thị cĩ hướng Đồ thị cĩ hướng Đồ thị cĩ hướng

Một phân bố chung ( ⃗)cĩ thể được chia thành tích các phân bố cĩ điều kiện cho mỗi node , sao cho mỗi phân bố cĩ điều kiện như vậy được điều kiện hĩa trên tập các node cha

( ⃗) = ( , )

Cơng thức: 9

Cơng thức này giống với thành phần như được minh họa trong Hình 14về ví dụ phân bố p(x1,x2,y).

Hình 15: Bộ phân loại Nạve Bayes

Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn chỉ ra một bộ phân loại HMM cho chuỗi gồm 3 giá trị đầu vào x1, x2, x3. Hàm thành phần là phân loại HMM cho chuỗi gồm 3 giá trị đầu vào x1, x2, x3. Hàm thành phần là

( , , , , , )

Tương ứng với một mơ hình Markov ẩn.

Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn Đồ thị vơ hướng

Một phân bố xác suất cĩ thể được thể hiện bởi một mơ hình đồ thị vơ hướng sử dụng tích các hàm khơng âm của các nhĩm cực đại của đồ thị G. Việc phân chia các thành phần được thực hiện theo cách mà các node độc lập cĩ điều kiện khơng xuất hiện trong cùng một thành phần, điều đĩ cĩ nghĩa là chúng thuộc các nhĩm khác nhau:

Cơng thức: 10

Các thành phần cũng được gọi là các hàm tiềm năng của các biến ngẫu nhiên trong một nhĩm

Các hàm tiềm năng cĩ thể là bất cứ hàm nào. Do tính tổng quát của nĩ, hàm tiềm năng khơng cần thiết phải là hàm xác suất. Điều này ngược lại với đồ thị cĩ hướng trong đĩ phân bố chung được phân rã thành tích của các phân bố cĩ điều kiện. Vì vậy, việc chuẩn hĩa của tích các hàm tiềm năng là cần thiết để đạt được xác suất chính xác. Điều này được thực hiện bởi thành phần chuẩn hĩa Z. Việc tính tốn Z là một thách thức chính trong quá trình học các tham số cũng như tính tổng cho các biến cĩ thể:

Cơng thức: 11

Mơ hình cực đại hĩa Entropy cũng cĩ thể được tính bằng tích các hàm tiềm năng khơng âm.

Cơng thức: 12

Trong các mơ hình log tuyến tính như vậy, các hàm tiềm năng được tính tốn bằng hàm mũ của các đặc trưng cĩ trọng số. Những cơng thức như vậy thường được sử dụng bởi vì nĩ sẽ giúp hồn chỉnh yêu cầu về khơng âm của các hàm tiềm năng. Hình Hình 17: Bộ phân loại cực đại Entropy(a) chỉ ra một đồ thị độc lập cho một bộ phân loại cực đại Entropy với một biến quan sát x, và một đồ thị thành phần tương ứng với ba đặc trưng như trong Hình 17(b)

Hình 17: Bộ phân loại cực đại Entropy

Các mơ hình đồ thị cĩ hướng và vơ hướng khác nhau ở cách phân bố xác suất phân chia thành các thành phần.Việc phân rã thành tích của các phân bố xác suất cĩ điều kiện được thực hiện trong mơ hình đồ thị cĩ hướng. Trong các mơ hình đồ thị vơ hướng một phân rã được thực hiện thành các hàm bất kì. Nĩ khơng yêu cầu đặc tả rõ ràng mối quan hệ giữa các biến. Nhưng nĩ phải đổi lại là tính tốn hằng số chuẩn hĩa.

3.3.3.3. Trường ngẫu nhiên cĩ điều kiện

Một mơ hình Markov ẩn cĩ thể được hiểu là dạng tuần tự của mơ hình Nạve Bayes: thay vì các quyết định độc lập đơn, mơ hình Markov ẩn mơ hình hĩa một chuỗi tuần tự. Tương ứng, trường ngẫu nhiên cĩ điều kiện cĩ thể được hiểu là phiên bản tuần tự của mơ hình cực đại entropy, điều đĩ cũng cĩ nghĩa là nĩ cũng là mơ hình rời rạc.Ngồi ra, ngược lại với mơ hình Markov ẩn, mơ hình ngẫu nhiên cĩ điều kiện khơng bắt buộc điều kiện là cấu trúc chuỗi tuyến tính, mà cĩ thể là cấu trúc bất kì. Những nguyên lý cơ bản

Được giới thiệu lần đầu tiên bởi Lafferty và các đồng nghiệp vào năm 2001 [6], trường ngẫu nhiên cĩ điều kiện là các mơ hình xác suất cho tính tốn với xác suất ( ⃗| ⃗)của một đầu ra cĩ thể là ⃗ = ( , … , ) ∈ cho chuỗi đầu vào ⃗ = ( , … , ) ∈

cũng được gọi là quan sát. Một CRF nĩi chung cĩ thể được thừa kế từ cơng thức 13:

Cơng thức: 13 Xác suất cĩ điều kiện p(y|x) cĩ thể được viết thành

Cơng thức: 14

Từ đĩ, cơng thức chung của mơ hình của CRF được viết thành

Cơng thức: 15

Trong đĩ là các thành phần khác nhau tương ứng với nhĩm cực đại trong đồ thị độc lập.Hình sau đây (bên dưới) là một ví dụ của một CRF chuỗi tuyến tính.

Hình 18: Trường ngẫu nhiên cĩ điều kiện chuỗi tuyến tính

Mỗi thành phần tương ứng với một hàm tiềm năng trong đĩ kết hợp các đặc trưng fi

khác nhau cho mỗi phần được xem xét của chuỗi quan sát và kết quả đầu ra. Việc chuẩn hĩa theo mẫu số của cơng thức:

Cơng thức: 16

Trong thực tế, trong quá trình huấn luyện và nội suy, với mỗi thực thể của một đồ thị riêng được sử dụng để xây dựng các mẫu nhĩm.Các mẫu nhĩm thực hiện giả sử trên mỗi cấu trúc của dữ liệu cơ bản bằng cách định nghĩa tổ hợp của các nhĩm.Mỗi nhĩm là một tập các biến liên kết với nhau một cách cảm tính.

CRF chuỗi tuyến tính

Một dạng đặc biệt của CRF, là cĩ cấu trúc chuỗi tuyến tính, mơ hình hĩa các biến đầu ra như một chuỗi.Hình 18: Trường ngẫu nhiên cĩ điều kiện chuỗi tuyến tính chỉ ra sự tương ứng giữa các đồ thị thành phần và độc lập. CRF được giới thiệu ở cơng thức 15 cĩ thể được tính theo cơng thức sau

Cơng thức: 17 Với

Cơng thức: 18 Cho các thành phần ở dạng

Cơng thức: 19

Và giả sử n+1 là độ dài của chuỗi quan sát, một CRF chuỗi tuyến tính cĩ thể được viết ở dạng

Cơng thức: 20

Chỉ số j cần trong việc so sánh với mơ hình cực đại entropy bởi vì một chuỗi nhãn được xem xét thay vì một nhãn đơn được dự đốn. Trong cơng thức 20, j là vị trí trong chuỗi đầu vào . Chú ý rằng trọng số là khơng phụ thuộc vào vị trí j.

Việc chuẩn hĩa vào khoảng [0,1] được thực hiện bởi hằng số chuẩn hĩa

Cơng thức: 21

Tổng trên tập y, tập các chuỗi nhãn cĩ thể, được thực hiện để tính xác suất khả thi.

Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính.

Cơng thức (Cơng thức: 20) là một dạng của CRF chuỗi tuyến tính. Chuyển tổng trên các vị trí của chuỗi lên trước hàm mũ, việc tách các thành phần được thực hiện cho một CRF sẽ rõ ràng hơn theo cơng thức sau

Đồ thị thành phần trong Hình 18(b) tương ứng với thành phần này.Chúng ta cũng cĩ thể chuyển tổng các hàm đặc trưng khác nhau lên trước hàm mũ như sau:

Cơng thức: 23

Trong cơng thức sau này, các thành phần khơng ‘chạy’ theo chuỗi mà là theo các đặc trưng. Đồ thị thành phần với các thành phần

tương ứng với đặc trưng fi được đưa ra trong Hình 17.Việc hiểu này thì ít trực quan hơn nhưng nĩ cho thấy mối quan hệ trực tiếp tới mơ hình cực đại entropy.

Mơ hình này cĩ thể được dịch thành với nhiều thành phần hơn bằng việc chuyển cả hai hàm tổng lên trước hàm mũ như sau:

Cơng thức: 24

Đồ thị thành phần tương ứng khơng được thể hiện ở đây bởi vì số lượng thành phần trong đồ thị là quá lớn.

Việc phân tách thành các thành phần dựa trên nhĩm lớn nhất là phương pháp tiếp cận và được áp dụng trong CRF chuỗi tuyến tính. Nĩi chung, việc phân chia theo nhĩm gồm ít các node biến hơn nhĩm lớn nhất dẫn tới sự khơng chính xác, vì khi đĩ khơng phải tất cả các phụ thuộc được xem xét đầy đủ. Tuy nhiên, trong trường hợp này, nĩ giảm thiểu việc tính tốn như trong cơng thức (24).

Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiên

Các mơ hình CRF chuỗi tuyến tính cĩ đúng một mẫu nhĩm (c thuộc C): Nĩ chỉ ra đồ

thị độc lập gồm các liên kết giữa yi và yi-1 và vector

. Bởi vì loại cấu trúc đặc biệt này, ta cĩ thể biểu diễn CRF chuỗi tuyến tính bằng một máy trạng thái hữu hạn ngẫu nhiên (SFSA) tương đương với mơ hình Markov ẩn.Việc này sẽ dẫn tới quá trình cài đặt dễ dàng hơn. Trong mơ hình máy tự động này, xác suất chuyển phụ thuộc vào chuỗi đầu vào x. Cấu trúc của nĩ về cơ bản là cĩ thể bất kì dạng nào nhưng cách tiếp cận trực tiếp nhất là sử dụng máy tự động với liên kết đầy đủ với các trạng thái Sl trong đĩ . Một trạng thái được sử dụng cho mỗi kí tự trong bảng chữ cái.Những máy tự động như vậy với (tập lực lượng là 3) được minh họa trong Hình 20.

Như được đưa ra trong cơng thức (Cơng thức: 24), các đặc trưng là phụ thuộc vào chuỗi nhãn và việc chuyển trạng thái trong máy trạng thái hữu hạn. Do đĩ, việc quan

trọng là chỉ ra tập nhỏ của tất cả các đặc trưng fi được sử dụng trong mỗi phép chuyển của đồ thị.

Chiến lược xây dựng CRF chuỗi tuyến tính cĩ thể được tổng kết như sau:

1. Tạo một máy hữu hạn trạng thái rời rạc từ tập các trạng thái S (với các phép chuyển . Nĩ cĩ thể là tập kết nối đầy đủ nhưng cũng cĩ thể khơng cho phép một vài phép chuyển nào đĩ.

2. Chỉ ra một tập các mẫu dựa trên chuỗi đầu

vào. Chúng khơng được sử dụng một cách trực tiếp nhưng sẽ dùng để tạo ra tập

Một ví dụ cho một mẫu đặc trưng là

3. Tạo ra tập các đặc trưng

Cho tới lúc này, chúng ta thấy chỉ cĩ CRF chuỗi tuyến tính bậc 1 được xem xét. Để định nghĩa CRF chuỗi tuyến tính với các bậc cao hơn, các đặc trưng cần cĩ dạng

với

Bậc được quyết định bởi giá trị k. Với các bậc cao hơn (k>2), các máy trạng thái xác suất giống nhau sẽ được sử dụng bằng cách kết hợp các giá trị đầu ra trước khác nhau

yi ở các trạng thái đặc biệt. Ví dụ, với k=3 tập các trạng thái sẽ là cho tất cả

Với cấu trúc chuỗi tuyến tính đặc biệt của CRF, việc huấn luyện và nội suy được tạo thành giống với cách của các mơ hình Markov ẩn và các vấn đề cơ bản.

I, Cho một quan sát cho trước và một CRF : Làm sao để tìm ra chuỗi

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt 04 (Trang 35 - 55)