CHƢƠNG III : SỬ DỤNG PHƢƠNG PHÁP HDP CHO WSI
3.2. Sử dụng phƣơng pháp HDP cho WSI
3.2.1. Giới thiệu
WSI nhằm mục đích xác định tự động nghĩa của từ một cách trực tiếp từ ngữ liệu, WSI thƣờng đƣợc xử lý nhƣ một bài tốn phân cụm khơng giám sát. Đầu vào cho thuật tốn phân cụm là các ví dụ của từ mục tiêu với những bối cảnh đi kèm nĩ và đầu ra là một phép phân cụm các ví dụ này thành các lớp tƣơng ứng với các nghĩa suy diễn. Nĩi cách khác, các ngữ cảnh đƣợc nhĩm cùng nhau trong cùng một lớp biểu diễn một nghĩa đặc trƣng [12].
Cơng việc liên quan cĩ thể tìm thấy đƣợc trong ([8,10,12,16]). Brody, Lapata (2009) [12] và Hoang T.T, Nguyen P.T [8], J. Knopp, J. V¨olker, và S.Pd. Ponzetto [10] đã chỉ ra rằng mơ hình Bayes cĩ tham số LDA, CTM cĩ thể đƣợc sử dụng thành cơng cho nhiệm vụ này so với kết quả trƣớc đĩ đƣợc cơng bố cho các thành phần WSI của SemEval – 2007 [7] và SemEval – 2010 [14]. Một nhƣợc điểm của mơ hình LDA, CTM cho WSI là số lƣợng các nghĩa cần phải đƣợc xác định trƣớc một cách thủ cơng hoặc tách biệt cho mỗi loại từ (văn bản) hoặc một giá trị cố định nào đĩ đƣợc chia sẻ trên tất cả các từ (nhƣ đã làm bởi B&L), Hoang T.T, Nguyen P.T [8], J. Knopp, J. V¨olker, và S.Pd. Ponzetto [10] cũng đã chọn cách dùng một giá trị cố định cho tất cả các từ vì điều chỉnh con số này cho mỗi từ một cách riêng lẻ thì khĩ kiểm sốt . Các phƣơng pháp phi tham số cĩ tính linh hoạt trong việc quyết định một cách tự số lƣợng nghĩa của các phân cụm [16]. Trong cơng việc này đầu tiên ta xác nhận một cách độc lập các kết quả của B&L, Hoang T.T, Nguyen P.T , J. Knopp, J. V¨olker và S.Pd. Ponzetto, sau đĩ giải quyết những hạn chế về số nghĩa cố định thơng qua việc sử HDP [17], một mơ hình Bayes phi tham số. Chúng tơi trình bày phƣơng pháp này dẫn đến kết quả vƣợt trội về chất lƣợng xác định nghĩa và cĩ ƣu điểm là xác định một cách tự động số lƣợng nghĩa biến đổi trên một từ.
Khi đƣợc huấn luyện trên tập miền rộng hơn, ta thấy rằng số lƣợng các nghĩa suy diễn tăng lên, phù hợp với trực giác rằng một tập các miền rộng cĩ thể dẫn đến một sự đa dạng hơn các nghĩa cơ bản. Suy diễn tự động số lƣợng lớn các nghĩa cĩ ý nghĩa thực tiễn rất lớn, đặc biệt hơn là trong lĩnh vực mà địi hỏi xử lý nhập nhằng nghĩa của từ. Chẳng hạn, suy diễn hơn nửa các nghĩa cho từ bank giúp cho các nghĩa của từ khác tách rời các từ nhập nhằng một cách tự nhiên hơn và suy diễn ít hơn các nghĩa của từ job giúp ngăn chặn sự phân chia quá nhiều nghĩa gốc trở nên mịn hơn trong trƣờng hợp các từ giống nhau trong hai ngữ cảnh tƣơng tự nhau và đƣợc coi là nhầm lẫn vì mang ý nghĩa khác nhau [16].
3.2.2. WSI dựa vào phƣơng pháp Bayes
Hình 3.3: Lantent Dirichlet Allocation cho WSI
(Hình từ [16])
Nhƣ trong cơng việc liên quan đã nêu ở trên, dựa vào các từ đƣợc gợi ý bởi thơng tin ngữ cảnh của chúng. Từ quan điểm của một quá trình sinh, các từ xung quanh của một từ mục tiêu đƣợc sinh bởi nghĩa cơ bản của từ mục tiêu.
Các phƣơng pháp LDA, CTM và HDP đều đƣợc định nghĩa mơ hình đồ họa tạo ra sự kết nối dữ liệu rời rạc. Nghĩa của một từ mục tiêu, đầu tiên tạo nên từ một phân phối và sau đĩ văn cảnh của từ này đƣợc tạo nên theo một phân phối đĩ, trong khi LDA cho rằng một tập cố định hữu hạn của các phân phối tạo ra bởi một quá trình Dirichlet. Tiếp theo chúng ta trình bày tỉ mỉ sự khác biệt này.
Hình 3.3 chỉ ra rằng mơ hình LDA cho WSI. Khái niệm thơng thƣờng của văn bản này là đƣợc thay thế bởi một văn bản giả, bao gồm tất cả các từ trong 1 Nm – từ tập trung
vào các từ mục tiêu. m n, là mã thơng báo thứ n của giả văn bản thứ m cho từ nục tiêu . Sm,n là nghĩa tƣơng ứng đối với m n, .
Giả sử cĩ K nghĩa cho từ mục tiêu . Sau đĩ phân loại từ m n, theo văn cảnh là:
, , , , 1 ( ) ( | ) ( ) K m n m n m n m n k p p s k p s k .
Gọi phân phối từ cho 1 ngữ nghĩa là p(m n, |sm n, k)ur, đĩ là một véc tơ cĩ chiều dài V (độ dài của từ) đƣợc tạo ra từ một phân phối Dirichlet:uurk : Dir( ).ur Gọi phân phối ngữ nghĩa cho một văn bản là p s( m n, |d m)uurm, đĩ là một véc tơ cĩ độ dài K đƣợc tạo ra từ phân phối Dirichlet uurm: Dir( ).ur Những câu chuyện đƣợc tạo ra là:
Cho k(1,...,K)ngữ nghĩa:
Lấy mẫu các thành phần hỗn hợp: uurk : Dir( ).ur
Cho m(1,...,M)giả văn bản:
Lấy mẫu các thành phần điểm uurm: Dir( ).ur
Cho n(1,...,Nm)từ trong giả văn bản m:
Lấy mẫu chỉ số ngữ nghĩa sm n, : Mult(uurm)
Lẫy mẫu từ loại m n, : Mult(uuuurm n, ).
Phân phối ngữ nghĩa hơn một từ đƣợc viết tắt nhƣ các thành phần hỗn hợp K. Tuy nhiên trong mơ hình HDP, chúng tơi giả sử số lƣợng các thành phần hoạt động là khơng biết và cần đƣợc suy ra từ dữ liệu. Cho mỗi giả văn bản, các thành phần hoạt động là khơng biết, và cần đƣợc suy ra từ dữ liệu. Cho mỗi giả văn bản, các thành phần ngữ nghĩa Sm,n cho từ m n, cĩ trƣớc một phi tham số Gm. Gm là một phi tham số trong ngữ nghĩa mà cho tất cả các giả văn bản mới m, một Gm mới đƣợc lấy làm mẫu từ một phân phối cơ sở G0. Nhƣ các tập văn bản phát triển, cĩ càng nhiều Gm’s. Tuy nhiên, thành phần hỗn hợp Sm,n, rút ra từ Gm, cĩ thể đƣợc chia sẻ giữa các giả tài liệu. Do đĩ số lƣợng nghĩa của từ khơng chỉ đơn giản là nhân ra nhƣ các phát triển m. Cả G0 và Gm đều đƣợc phân phối theo quá trình Dirichlet (DP) đã trình bày ở trên. Những câu chuyện đƣợc tạo ra là:
Lựa chọn phân phối cơ sở G0 : DP(,H) mà cung cấp một văn bản nghĩa của từ
khơng giới hạn.
Cho m(1,...,M)giả văn bản: Rút Gm: (0,G0).
Cho n(1,...,Nm)từ trong giả văn bản m:
Lấy mẫu Sm,n : Gm.
Lấy mẫu m n, : Mult(uuuurm n, ).
Hình 3.4: Mơ hình HDP cho WSI
(Hình từ [16])
Siêu tham số và olà các tham số tập trung của DP, kiểm sốt sự thay đổi của các phân phối G0 và Gm. Trong phép ẩn dụ nhà hàng thƣơng mại Trung Hoa của quá trình Dirichlet ẩn, nhiều nhà hàng (văn bản) chia sẻ một tập các mĩn ăn(nghĩa của từ). Sau đĩ kiểm sốt thay đổi nghĩa của tồn bộ phân phối và điều khiển o thay đổi mỗi lựa chọn của khách hàng (từ) lựa chọn thức ăn (nghĩa).