PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA SỬ DỤNG MÔ HÌNH MAXIMUM ENTROPY

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 27)

NGHĨA SỬ DỤNG MÔ HÌNH MAXIMUM ENTROPY

Chương này sẽ đề cập đến bài toán xử lý nhập nhằng ngữ nghĩa, mô hình Maximum Entropy và ứng dụng nó vào bài toán xử lý nhập nhằng ngữ nghĩa.

4.1 Giới thiệu xử lý nhập nhằng ngữ nghĩa

Không giống như ngôn ngữ nhân tạo (ví dụ ngôn ngữ lập trình), ngôn ngữ tự nhiên vốn đã có tính nhập nhằng. Một từ có thể có nhiều nghĩa trong các văn cảnh khác nhau. Ví dụ, trong câu “Turn off the main switch” từ “switch” có thể được hiểu là một dụng cụ liên quan tới điện (công tắc) trong khi đó, trong câu

“The hansom driver whipped the horse using a switch” thì từ “switch” lại được

hiểu là một cành cây hay cái que mềm. Như có thể thấy trong ví dụ này, nghĩa đúng của từ “switch” được làm sáng tỏ bằng ngữ cảnh trong đó nó được sử dụng. Một cách rõ ràng, trong câu đầu tiên, dựa vào các từ turn off,main và kết hợp với một số tri thức về thế giới thực, người ta có thể suy ra từ câu đó là có một công tắc chính cho các kết nối điện trong một ngôi nhà. Tương tự như thế, trong câu thứ hai, các từ hansom, driver, whipped horse cung cấp ngữ cảnh phù hợp trợ giúp cho việc hiểu đúng nghĩa của từ switch trong câu đó.

Xử lý nhập nhằng ngữ nghĩa (Word Sense Disambiguation) là vấn đề tự động gán nghĩa thích hợp cho một từ mà có nhiều nghĩa và các nghĩa thay đổi khác nhau cho mỗi văn cảnh cụ thể. WSD là vấn đề cơ sở của xử lý ngôn ngữ tự nhiên, có vai trò quan trọng trong việc nâng cao chất lượng dịch máy. Như đã được thấy ở trên, quá trình xử lý này dựa nhiều vào một phạm vi lớn của ngữ cảnh của từ đó và việc phân tích các thuộc tính thể hiện bởi ngữ cảnh đó.

Hiện tại, có hai loại phương pháp luận chính: các phương pháp dựa vào tri thức (knowledge-based methods) và các phương pháp dựa vào kho ngữ liệu (corpus-based methods). Phương pháp thứ nhất dựa vào các tri thức về ngôn ngữ đã biết trước đó (thường là của các chuyên gia ngôn ngữ học) còn phương pháp thứ hai sử dụng các kỹ thuật thống kê và học máy để xây dựng một mô hình sử dụng ngôn ngữ từ các mẫu văn bản có sẵn. Đối với phương pháp thứ hai, phương pháp học có thể sử dụng là học có giám sát, học không có giám sát và kết hợp của hai phương pháp này. Nói chung, các phương pháp học có giám sát cho ra kết quả với độ chính các cao hơn mặc dù phương pháp này đòi hỏi tiêu tốn công sức trong việc xây dựng tập dữ liệu gán nhãn (labeled datasets).

4.2 Lịch sử WSD

Xử lý nhập nhằng ngữ nghĩa (WSD) lần đầu tiên được xây dựng như một nhiệm vụ tính toán riêng biệt trong những ngày đầu của lĩnh vực dịch máy trong những năm 1940. WSD là một trong những vấn đề lâu đời nhất trong lĩnh vực ngôn ngữ học có sử dụng máy tính. Trong biên bản ghi nhớ nổi tiếng của mình về dịch thuật, vào năm 1949, Warren Weaver đã lần đầu tiên giới thiệu về vấn đề ngữ cảnh [18]. Các nhà nghiên cứu thời kỳ đầu cũng đã hiểu khá rõ về tầm quan trọng và khó khăn của WSD. Năm 1960, bằng các ví dụ nghiên cứu về từ “bass” trong các ngữ cảnh khác nhau, Bar-Hillel đã lập luận rằng WSD không thể giải quyết được bằng máy tính.

Trong những năm 1970, WSD chỉ là một nhiệm vụ phụ của hệ thống thông dịch ngữ nghĩa được phát triển trong ngành trí tuệ nhân tạo. Tuy nhiên, từ khi WSD lấy các luật làm cơ sở và được mã hóa bằng tay, nó thu hút được khá nhiều sự quan tâm của các nhà nghiên cứu.

Đến những năm 1980, khi các nguồn từ vựng quy mô lớn trở lên sẵn có thì việc mã hóa bằng tay đã được thay thế bằng tự động trích chọn từ các nguồn này. Tuy nhiên, việc xử lý nhập nhằng vẫn dựa trên tri thức hoặc dựa trên từ điển.

Trong thập niên 1990, cuộc cách mạng thống kê đã tác động tới ngôn ngữ học và WSD trở thành một vấn đề mẫu mà có thể áp dụng kỹ thuật học máy có giám sát.

Những năm 2000 đã chứng kiến các kỹ thuật giám sát đạt tới một mức ổn định trong độ chính xác và do đó, sự chú ý đã được chuyển sang các lĩnh vực như thích nghi miền (domain adaptation), các hệ thống giám sát và không giám sát dựa trên ngữ liệu, kết hợp các phương pháp khác nhau và đưa ra các hệ thống dựa trên tri thức thông qua các phương pháp dựa trên đồ thị. Tuy vậy, các hệ thống có giám sát vẫn có kết quả tốt nhất.

Sau đây chúng tôi sẽ giới thiệu một hướng giải quyết cho bài toán WSD đang được đánh giá cao, phương pháp tiếp cận sử dụng mô hình cực đại Entropy (MEM).

4.3 Các phương pháp cơ sở cho xử lý nhập nhằng ngữ nghĩa

Các phương pháp để xử lý nhập nhằng ngữ nghĩa thường được phân loại theo nguồn tri thức chính dùng để phân biệt các nghĩa. Các phương pháp mà chủ yếu dựa vào từ điển, từ điển chuyên đề (thesauri), tri thức về từ vựng, và không sử dụng bất cứ một thông tin corpus nào, được gọi dưới thuật ngữ chuyên ngành là các phương pháp dựa vào từ điển hay dựa vào tri thức.

Các phương pháp hoàn toàn không sử dụng thông tin ngoài mà làm việc trực tiếp với các bộ ngữ liệu song ngữ thô, chưa được gán nhãn, được gọi là các phương pháp không có giám sát. Một ví dụ cho phương pháp không có giám sát là các phương pháp sử dụng ngữ liệu song ngữ đã được dóng hàng từ để thu thập

các thông tin liên ngữ dùng cho phân biệt ngữ nghĩa. Các phương pháp có giám sát và bán giám sát sử dụng kho ngữ liệu song ngữ đã được gán nhãn để huấn luyện hoặc lấy làm dữ liệu cho quá trình trích chọn.

Hiện nay, hầu hết các phương pháp có giám sát đã được ứng dụng cho xử lý nhập nhằng ngữ nghĩa, bao gồm các thuật toán kết hợp và phân tán cùng với các kỹ thuật liên quan như lựa chọn đặc trưng, tối ưu tham số.

Các phương pháp học không giám sát có khả năng giải quyết vấn đề khó khăn ví dụ như gán nghĩa bằng tay và đã thu được những kết quả tốt. Các phương pháp này có thể đưa ra nghĩa của từ từ văn bản huấn luyện bằng cách tập hợp lại các lần xuất hiện của từ và phân loại lần xuất hiện mới vào các cụm, các nghĩa của từ.

Các phương pháp dựa vào tri thức được đưa ra từ những năm 1970 nhưng cho đến bây giờ nó vẫn còn là một vấn đề. Kỹ thuật cơ bản là sử dụng những ràng buộc lựa chọn, phần chung của các văn bản định nghĩa, và độ đo giống nhau về ngữ nghĩa.

Bất kể phương pháp nào được sử dụng, tất cả các hệ thống xử lý nhập nhằng ngữ nghĩa đều trích chọn các đặc trưng của một từ đích (trong văn cảnh) và so sánh chúng với những thông tin dùng để phân biệt nghĩa của từ đó. Các thông tin dùng để phân biệt này đã được lưu từ trước đó.

Là một bài toán phân loại tự nhiên, xử lý nhập nhằng ngữ nghĩa có đặc trưng riêng của nó khi mà không gian đặc trưng của nó là đa chiều. Hầu hết các loại đặc trưng cục bộ là rất hữu ích. Các loại đặc trưng này bao gồm nhãn từ loại, từ (bao gồm cả dạng bề mặt và lemma), collocation, lớp ngữ nghĩa, chủ đề hay phạm vi của văn bản, và cú pháp.

4.4 Các thành tích đã đạt được

Chúng tôi sẽ giới thiệu ngắn gọn những thành quả đã đạt được của các hệ thống xử lý nhập nhằng ngữ nghĩa tiên tiến nhất hiện nay. Đầu tiên, homograph (là hiện tượng hai từ có cùng cách viết nhưng nghĩa hoặc cách phát âm là khác nhau) được coi là bài toán đã có lời giải. Có thể đạt được độ chính xác trên 95% chỉ với một số tri thức vào. Ví dụ Yarowky (1995) sử dụng phương pháp bán giám sát để đánh giá trên 12 từ, độ chính xác là 96.5%. Steven và Wilks (2001) sử dụng dữ liệu đã được gán nhãn từ loại (và một số tri thức khác) trên tất cả các từ sử dụng LODCE. Độ chính xác là 94.7%.

Tính chính xác của xử lý nhập nhằng ngữ nghĩa trong từ nhiều nghĩa thì khó khăn hơn rất nhiều. Tuy nhiên, độ chính xác cũng đã tăng lên trong thời gian qua. Năm 1997, Senseval-1 đưa ra độ chính xác 77% trong nhiệm vụ mẫu từ vựng tiếng Anh, so với độ chính xác 95% của con người. Năm 2001, Senseval-2 đưa ra điểm thấp hơn. Độ chính xác tốt nhất của Senseval-2 trong nhiệm vụ mẫu từ vựng tiếng Anh là 64%. Tuy nhiên nhiệm vụ ở đây là khó hơn nhiều khi nó dựa trên các nghĩa nhỏ của WordNet.

Trước Senseval-2, có một cuộc tranh luận về các phương pháp dựa trên tri thức hay các phương pháp học máy là tốt hơn. Và Senseval-2 đã chỉ ra rằng các phương pháp học máy có giám sát đưa ra kết quả tốt nhất. Bảng 2 cho ta kết quả đánh giá của các ngôn ngữ.

Năm 2004, những hệ thống tốt nhất trong nhiệm vụ mẫu từ vựng tiếng Anh tại Senseval-3 (Mihalcea and Edmonds 2004) đưa ra độ chính xác ở mức con người. Tất cả các hệ thống này đều là hệ thống học có giám sát. Độ chính xác đạt được là từ 71.8% đến 72.9%. Senseval-3 cũng cho thấy sự vượt trội của các phương pháp học có giám sát so với các phương pháp dựa trên tri thức thuần túy (xem bảng 3).

Bảng 1. Hiệu suất của các hệ thống xử lý nhập nhằng ngữ nghĩa trong đánh giá Senseval-2

Bảng 2. Hiệu suất của các hệ thống xử lý nhập nhằng ngữ nghĩa trong đánh giá Senseval-3

AW (all-words), LS là mẫu từ vựng (lexical sample), TM là bộ nhớ dịch (translation memory).

ITA là điểm giới hạn lớn nhất. Tiêu chuẩn (baseline) là nghĩa xuất hiện nhiều nhất [27].

4.5 Giới Thiệu về mô hình cực đại entropy (Maximum Entropy Model - MEM)

4.5.1 Tổng Quan

Tư tưởng chính của Maximum Entropy là nếu không tính đến ràng buộc thì mô hình càng đồng đều càng tốt. Tức là mô hình Maximum Entropy sẽ mô hình tất cả những gì đã biết và không thừa nhận cái gì mà chưa biết. Ta có thể xem xét một ví dụ trực quan như sau: Giả sử ta phải dịch từ “in” từ tiếng Anh sang tiếng Pháp và chỉ có 5 lựa chọn dịch tiếng Pháp cho từ “in” là {dans, en, à, au cours

de, pendant}. Do đó, ta có ràng buộc sau :

P(dans) + P (en) + P(à) + P (au cours de) + P(pendant) = 1

Có vô số các xác suất của 5 lựa chọn dịch trên thỏa mãn ràng buộc này. Chẳng hạn lấy P(dans) = 1 còn tất cả những xác suất còn lại bằng 0, hoặc

P(dans) = P(en) = ½ và tất cả các xác suất còn lại bằng 0…Tuy nhiên cả hai

phương án trên dường như đi ngược lại với cảm giác của chúng ta. Chúng ta chỉ biết duy nhất một điều là chỉ có 5 lựa chọn dịch và không có thông tin nào nói rằng xác suất P(dans) cao hơn hay thấp hơn các xác suất còn lại. Do đó, mô hình mà thỏa mãn trực giác của chúng ta nhất chính là mô hình đồng đều:

P(dans) = P (en) = P(à) = P (au cours de) = P(pendant) = 1/5.

Tương tự như vậy, giả sử ta có thêm ràng buộc mới:

P(dans) + P(en) = 3/5.

Khi đó, mô hình tốt nhất theo trực giác của chúng ta là mô hình:

P(dans) = P(en) = 3/10.

P(à) = P(au cours de) = P(pendant) = 7/30.

- P(dans) = P(en)

- P(dans) + P(en) = 3/5

- P(dans) + P (en) + P(à) + P (au cours de) + P(pendant) = 1

- P(à) = P (au cours de) = P(pendant)

Ta có thể đi tìm mô hình đều nhất mà thỏa mãn các ràng buộc này, tuy nhiên, lựa chọn bây giờ không còn là dễ dàng nữa. Khi ta thêm ràng buộc, ta sẽ phải gặp 2 khó khăn cùng lúc. Thứ nhất là “độ đồng đều của một mô hình là gì?” và làm thế nào để đo độ đồng đều này của một mô hình. Khi đã trả lời được câu hỏi thứ nhất rồi thì làm thế nào để ta có thể tìm ra được mô hình đồng đều nhất mà thỏa mãn các ràng buộc như đã đề cập như ở trên ?

Phương pháp cực đại Entropy sẽ trả lời cho cả hai câu hỏi trên. Nguyên lý ở đây rất đơn giản, mô hình tất cả những cái gì đã biết và không thừa nhận điều gì mà chưa biết. Có nghĩa là, cho một tập hợp các sự kiện, ta sẽ chọn mô hình mà phù hợp với tất cả các sự kiện này và có độ đồng đều là lớn nhất. Đây chính là phương pháp mà chúng ta đã sử dụng để lựa chọn mô hình tại mỗi bước trong ví dụ trên.

4.5.2Mô hình cực đại Entropy

Ta đi nghiên cứu một quá trình ngẫn nhiên cho ra output y là một giá trị trong tập hữu hạn Y. Với ví dụ dịch vừa xem xét ở trên, quá trình sinh ra bản dịch cho từ “in”, output có thể là một từ bất kỳ trong tập output:

{dans, en, à, au cours de, pendant}

Quá trình đưa ra output y bị ảnh hưởng bởi một số thông tin ngữ cảnh x nằm trong tập hữu hạn X. Ngữ cảnh này có thể chứa các từ phụ cận với từ “in” trong câu nguồn. Nhiệm vụ của chúng ta là đi xây dựng một mô hình ngẫu nhiên mà biểu diễn chính xác các hành động của quá trình ngẫu nhiên ở trên. Mô hình này sẽ ước lượng xác suất điều kiện. Và khi cho ngữ cảnh x, nó sẽ đưa ra output y.

Đặt p(y|x)là xác suất mô hình cho đưa ra output y với điều kiện ngữ cảnh x.

Đặt P là tập tất cả các phân phối xác suất điều kiện. Do đó, mô hình p(y|x), theo định nghĩa, sẽ là một phần tử của tập P.

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 27)

Tải bản đầy đủ (DOCX)

(60 trang)
w