Thông tin tƣơng hỗ MI (Mutual information)

Một phần của tài liệu Nghiên cứu bài toán xác định collocation trong tiếng việt (Trang 39 - 45)

Một thông tin về mặt lý thuyết đã thúc đẩy tiêu chuẩn để đánh giá tìm kiếm collocation, đó là thông tin tƣơng hỗ theo từng điểm (pointwise mutual information) [20]. Fano (1961) [20] đã khởi đầu định nghĩa về thông tin tƣơng hỗ giữa các biến cố riêng x’

y’, sự xuất hiện của các từ riêng biệt là:

Công thức 2

Công thức 3

31

Loại thông tin tƣơng hỗ này gần nhƣ là để đo lƣợng thông tin từ mà một từ cho biết về từ kia.

Trong lý thuyết về thông tin, thông tin tƣơng hỗ thƣờng đƣợc định nghĩa là các biến ngẫu nhiên (random variable) chứ không phải là giá trị của các biến ngẫu nhiên (values of

random variable) nhƣ định nghĩa ở đây.

Bảng 14. Tìm kiếm collocation dựa vào thông tin tƣơng hỗ.

Trên Bảng 14 là 10 bigram xuất hiện với tần suất 20, đƣợc xếp hạng dựa vào thông tin tƣơng hỗ.

Khi chấp nhận định nghĩa này với 10 collocation ở Bảng 6, chúng ta có đƣợc cùng một thứ hạng nhƣ đối với phép thử t test (Bảng 14). Thông thƣờng, sử dụng các ƣớc lƣợng likelihood cực đại để tính toán các tần suất, ví dụ:

Vậy định nghĩa thông tin tương hỗ chính xác là gì, đúng ra phải đƣợc tính theo Công thức 2, 3 hay 4?

Theo Fano: Lƣợng thông tin đƣợc cung cấp bởi sự xuất hiện biến cố [y’] về sự xuất hiện của biến cố [x’] đƣợc định nghĩa nhƣ sau:

32

Ví dụ, độ đo thông tin tƣơng hỗ cho biết lƣợng thông tin có đƣợc về sự xuất hiện của

Ayatollah tại vị trí thứ i trong kho ngữ liệu sẽ tăng thêm 18.38 bit nếu biết trƣớc rằng

Ruhollah xuất hiện ở vị trí i+1. Nói cách khác, Công thức 3 và 4 là tƣơng đƣơng nhau,

nên lƣợng thông tin có đƣợc về sự xuất hiện của Ruhollah ở vị trí i+1 trong kho ngữ liệu cũng tăng 18.38 bit nếu biết trƣớc rằng Ayatollah xuất hiện ở vị trí thứ i. Cũng có thể nói rằng, tính bất định bị giảm đi 18.83 bit. Có thể chắc chắn hơn nhiều rằng Ruhollah sẽ xuất hiện tiếp theo nếu biết rằng từ hiện tại là Ayatollah.

Đáng tiếc là độ đo thông tin tăng thêm này (increased information) trong nhiều trƣờng hợp không phải là một độ đo tốt về sự phù hợp giữa hai biến cố. Xem xét hai ví dụ trong Bảng 15, về sự phù hợp giữa câu Tiếng Anh và Tiếng Pháp trong kho ngữ liệu Hansard – một kho ngữ liệu đã đƣợc đồng chỉnh bởi Nghị viện Canada (tƣơng tự Bảng 9) [20].

Bảng 15. Sự phù hợp của chambrehouse, communeshouse trong kho ngữ liệu.

Thông tin tƣơng hỗ của communeshouse cao hơn, trong khi phép thử cho giá trị cao hơn đối với cặp dịch đúng (chambre, house).

Trong kho ngữ liệu Hansard, cụm House of Commons trong câu Tiếng Anh tƣơng ứng với cụm Chambre de communes trong câu Tiếng Pháp.

Có thể giải thích sự khác nhau giữa hai độ đo MI và khá dễ dàng nếu nhìn vào định nghĩa (Công thức 3) về thông tin tƣơng hỗ và so sánh giá trị I(chambre,house) với

33

Từ communes trong Tiếng Pháp phù hợp với house trong Tiếng Anh hơn là từ

chambre. Giá trị thông tin tƣơng hỗ cho communes cao hơn chứng tỏ communes đã làm

giảm tính bất định ở đây. Nhƣng nhƣ ví dụ cho thấy sự giảm tính bất định không mấy phù hợp với những gì chúng ta muốn đo. Ngƣợc lại, là một phép thử trực tiếp sự phụ thuộc xác suất, mà trong ngữ cảnh này là mức độ liên kết giữa hai từ.

Bảng 16 minh họa việc sử dụng thông tin tƣơng hỗ để tìm kiếm collocation: nửa bên trái bảng là 10 bigram xuất hiện đúng 1 lần trong 1000 tài liệu đầu tiên trong kho ngữ liệu và giá trị thông tin tƣơng hỗ của chúng trên 1000 tài liệu đó. Nửa bên phải bảng cho biết thông tin tƣơng hỗ dựa trên toàn bộ kho ngữ liệu (23000 tài liệu).

Bảng 16. Thông tin tƣơng hỗ từ các dữ liệu rải rác.

Bảng chỉ ra 10 bigram xuất hiện một lần trong 1000 tài liệu đầu tiên trong kho ngữ liệu đƣợc xếp hạng theo giá trị thông tin tƣơng hỗ trong 1000 tài liệu đầu (nửa bên trái bảng) và xếp hạng theo giá trị thông tin tƣơng hỗ trong toàn bộ kho ngữ liệu (nửa bên phải bảng).

Kho ngữ liệu rộng hơn gồm 23000 tài liệu tạo ra nhiều ƣớc lƣợng tốt hơn. Các bigram marijuana growingnew converts (các cụm đƣợc cho là các collocation) đƣợc chuyển lên trên, còn Reds survived (chắc chắn không phải collocation) đƣợc chuyển xuống dƣới. Tuy nhiên, điều đặc biệt là có 6 bigram chỉ xuất hiện một lần, kết quả là có

34

các ƣớc lƣợng likelihood cực đại, và các giá trị thông tin tƣơng hỗ MI sai. Cả 6 bigram đó đều không phải collocation và cần có một độ đo để xếp hạng chúng.

Không độ đo nào có thể làm việc tốt với các biến cố có tần suất xuất hiện thấp. Rõ ràng sự rải rác dữ liệu là một vấn đề đặc biệt khó khăn đối với thông tin tƣơng hỗ. Để thấy đƣợc lý do tại sao, chú ý rằng thông tin tƣơng hỗ là logarit tỉ số likelihood của xác suất và kết quả của các xác suất riêng , .

Có hai trƣờng hợp đặc biệt về sự xuất hiện hai từ: sự phụ thuộc hoàn toàn (hai từ chỉ xuất hiện cùng nhau) và sự hoàn toàn không phụ thuộc (sự xuất hiện của một từ không cho chúng ta chút thông tin nào về sự xuất hiện của từ kia).

Đối với sự phụ thuộc hoàn toàn, ta có:

Đối với các bigram phụ thuộc hoàn toàn, thông tin tƣơng hỗ của chúng đƣợc tăng lên.

Đối với sự hoàn toàn không phụ thuộc, ta có:

Có thể nói rằng thông tin tƣơng hỗ MI là một độ đo tính độc lập rất tốt, các giá trị MI dần về 0 chỉ ra sự không phụ thuộc (độc lập về tần suất). Nhƣng đó là một độ đo tồi về tính phụ thuộc, vì đối với tính phụ thuộc, giá trị đo dựa vào tần suất của các từ riêng lẻ. Các bigram có các từ xuất hiện với tần suất thấp sẽ nhận giá trị cao hơn các bigram có các từ xuất hiện với tần suất cao. Điều này rất mâu thuẫn với độ đo mà chúng ta mong muốn, vì tần suất cao có ý nghĩa hơn so với tần suất thấp.

Định nghĩa MI đƣợc trình bày ở trên là định nghĩa đƣợc chấp nhận rộng rãi trong lĩnh vực nghiên cứu ngôn ngữ học, nhƣng không phổ biến trong lý thuyết về thông tin. Thông tin tƣơng hỗ trong lý thuyết thông tin đề cập đến sự kỳ vọng :

35

Bảng 17 trình bày các định nghĩa khác nhau về thông tin tƣơng hỗ của Cover, Thomas (1991) [20] và Fano (1961) [17].

Bảng 17. Các định nghĩa khác nhau về thông tin tƣơng hỗ.

Thông tin tƣơng hỗ thƣờng đƣợc sử dụng trong các ứng dụng thực hành (Fontenelle 1994) [20] hoặc nó đƣợc định nghĩa là để bù cho độ chênh lệch của định nghĩa gốc trong các biến cố có tần suất thấp (Fontenelle 1994, Hodges 1996) [20][15].

36

Chƣơng 3. COLLOCATION TRONG TIẾNG VIỆT

Một phần của tài liệu Nghiên cứu bài toán xác định collocation trong tiếng việt (Trang 39 - 45)

Tải bản đầy đủ (PDF)

(63 trang)