CHƢƠNG III ĐỀ XUẤT MÔ HÌNH KHỬ NHẬP NHẰNG NGHĨA
3.2. Biểu diễn ngữ cảnh, lựa chọn đặc trƣng và tập luật mẫu
Một trong các nhiệm vụ quan trọng nhất trong việc khử nhập nhằng nghĩa của từ là việc xác định các thông tin hữu ích cho việc xác định nghĩa của từ. Trong cách tiếp cận dựa trên kho ngữ liệu (corpus-based) hầu hết các nghiên cứu chỉ xem xét các thông tin đƣợc trích rút từ ngữ cảnh mà từ đa nghĩa xuất hiện. Từ quan sát của chúng tôi và các nghiên cứu khác, chúng tôi nhận thấy rằng các đặc trƣng đóng vai trò quan trọng đối với việc phân lớp cho đạt độ chính cao. Hơn nữa, chúng tôi cũng nhận thấy rằng việc lựa chọn các đặc trƣng tốt sẽ mang lại độ chính xác cao hơn và nó cũng quan trọng hơn là việc lựa chọn mô hình phân lớp.
Trong phần này, chúng tôi sẽ tập trung trình bày về hai vấn đề chính đó là "biểu diễn ngữ cảnh" và "lựa chọn đặc trƣng". Ngoài ra, chúng tôi cũng đề xuất mẫu luật chuyển đƣợc sử dụng trong giải thuật học dựa trên luật TBL.
3.2.1. Biểu diễn ngữ cảnh
Ngữ cảnh là phƣơng tiện duy nhất để xác định ý nghĩa của từ đa nghĩa. Vì vậy, tất cả công việc khử nhập nhằng nghĩa của từ phụ thuộc vào ngữ cảnh của từ đa nghĩa. Chính ngữ cảnh này sẽ cung cấp các thông tin cần thiết cho việc khử nhập nhằng. Theo nghiên cứu của Ide[10], ngữ cảnh đƣợc sử dụng trong hai cách:
Bag - of - words: Ngữ cảnh đƣợc xem xét nhƣ là một số từ trong các của sổ xung quanh từ đa nghĩa, coi nhƣ là một nhóm mà không cần xem xét mối quan hệ của nó với từ đa nghĩa về khoảng cách, quan hệ ngữ pháp, v...v.
Relational information: Ngữ cảnh đƣợc xem xét trên cơ sở có một số mối quan hệ với từ đa nghĩa nhƣ khoảng cách tới từ đa nghĩa, quan hệ cú pháp, cụm từ, mệnh đề, loại ngữ nghĩa.
Các thông tin từ microcontext, topical context, và domain góp phần vào việc lựa chọn nghĩa của từ, nhƣng vai trò và tầm quan trọng của thông tin là khác nhau trong các ngữ cảnh, và mối tƣơng quan của chúng không đƣợc hiểu rõ. Rất ít nghiên cứu đã sử dụng tất cả ba loại thông tin ngữ cảnh nhƣ trên, các nghiên cứu gần đây tập trung nhiều vào microcontext. Lee & Ng[30] đƣợc xem xét nhƣ là nghiên cứu đầu tiên về sử dụng các loại tri thức ngữ nghĩa, bao gồm ngữ cảnh chủ đề (topical context), cụm từ (collocation of words) và mối quan hệ cú pháp động từ-đối tƣợng. Nghiên cứu của Leacock[15] đã sử dụng nhiều các loại thông tin hơn, đó là thông tin về các từ hoặc từ loại ở các vị trí có liên quan đến các từ nhập nhằng. Nghiên cứu của Lee & Ng[19] đƣợc sử dụng tất cả các loại thông tin, sau đó trở thành nguồn kiến thức phổ biến cho các nghiên cứu gần đây.
Microcontext
Hầu hết các công việc khử nhập nhằng sử dụng ngữ cảnh cục bộ (local context) của một từ đa nghĩa nhƣ một nguồn thông tin chính cho việc khử nhập nhằng. Ngữ cảnh cục bộ hay microcontext nhìn chung đƣợc xem nhƣ là một cửa sổ nhỏ của các từ xung quanh từ đa nghĩa. Ngữ cảnh thƣờng đƣợc coi nhƣ là tất cả các từ hoặc các ký tự nằm trong phạm vi một số cửa sổ của từ đa nghĩa, mà không có liên quan về khoảng cách, cấu trúc cú pháp, hoặc các mối quan hệ khác. Các nghiên cứu dựa trên kho ngữ liệu nhƣ nghiên cứu của Weiss[47] sử dụng phƣơng pháp này.
Topical context
Bao gồm các từ riêng biệt mà đồng xảy ra với một nghĩa nhất định của từ đa nghĩa, thƣờng là bên trong một cửa sổ của một vài câu. Không giống nhƣ vi ngữ cảnh (microcontext), mà nó đã đóng một vai trò trong việc khử nhập nhằng từ đầu những năm 1950, "topical context" lại ít đƣợc sử dụng. Các phƣơng pháp dựa trên "topical context" đều khai thác ngữ cảnh dƣ thừa trong một văn bản có nghĩa là việc sử dụng
lặp đi lặp lại các từ có liên quan ngữ nghĩa trong một văn bản về một chủ đề nhất định. Topical context đƣợc biểu diễn nhƣ là tập của các từ có thứ tự trong một cửa sổ có kích thƣớc nào đó. Cụ thể "topical context" trong một cửa số kích thƣớc (M, +M ) là đƣợc biểu diễn bởi tập TC nhƣ sau:
𝑇𝐶 = {𝑤−𝑀, … , 𝑤−1, 𝑤+1, … , 𝑤𝑀}
Local Words
Sử dụng "Local Words" chúng tôi muốn đề cập đến các thông tin trích rút từ "những từ trong một ngữ cảnh cục bộ". Cần phải chú ý rẳng ngữ cảnh cục bộ chứa từ nhập nhằng với kích thƣớc nhỏ. Theo quan sát của chúng tôi, cụm từ ("collocations") và thứ tự từ ("ordered words") là đƣợc sử dụng rộng rãi trong các nghiên cứu khử nhập nhằng.
Collocations:
Theo nghiên cứu của Ide[10], một "collocation" có thể đƣợc định nghĩa nhƣ là một tập các liên kết giữa các từ. Với 1 ngữ cảnh W cho trƣớc, một "collocation" là đƣợc định nghĩa nhƣ là một chuỗi các từ mà từ vị trí −𝑙 đến vị trí +𝑟 nhƣ:
{𝑤−𝑙… 𝑤0… 𝑤+𝑟} với điều kiện 𝑙 ≥ 0, 𝑟 ≥ 0, 𝑣à 𝑙 + 𝑟 ≥ 1. Dựa trên các nghiên cứu trƣớc đó, chúng tôi thiết kế tập các "collocation" dựa trên độ dài tối đa của những "collocations". Gọi ColW là tập các " collocation " với độ dài tối đa là Len. Khi đó, ColW đƣợc biểu diễn nhƣ sau:
𝐶𝑜𝑙𝑊 = {𝑤−𝑙… 𝑤0… 𝑤+𝑟 𝑙 ≥ 0, 𝑟 ≥ 0, 𝑙 + 𝑟 ≥ 1, 𝑙 + 𝑟 ≤ 𝐿𝑒𝑛} Ordered Words
Do sự khác nhau về thứ tự của từ trong "topical context", mỗi "ordered word" bao gồm một từ và vị trí tƣơng ứng của nó liên quan đến từ nhập nhằng. Theo quan điểm của chúng tôi, " ordered words " trong ngữ cảnh cục bộ chứa các thông tin về ngữ nghĩa và cú pháp giữa các từ hàm xóm và từ nhập nhằng. Tập " ordered words " trong của sổ (−𝑙, +𝑟) định nghĩa là tập OW bao gồm các cặp (từ, vị trí) (𝑤𝑖, 𝑖) định nghĩa nhƣ sau:
𝑂𝑊 = 𝑤𝑖, 𝑖 𝑖 = −𝑙, … , +𝑟}
3.2.2. Lựa chọn đặc trƣng
Nhƣ đã trình bày ở trên, việc lựa chọn đặc trƣng đóng một vai trò rất quan trọng đối với các mô hình phân lớp. Với cùng một mô hình phân lớp, việc lựa chọn các đặc trƣng tốt sẽ mang lại cho mô hình phân lớp độ chính xác cao hơn.
nghĩa có thể có của từ w có trong từ điển. Giả sử ngữ cảnh W của từ đa nghĩa w đƣợc trình bày nhƣ sau:
𝑊 = {… 𝑤−3, 𝑤−2, 𝑤−1, 𝑤0, 𝑤1, 𝑤2, 𝑤3… }
Theo cách biểu diễn nhƣ trên, W là ngữ cảnh của từ đa nghĩa w bên trong cửa số (-3, +3), trong đó 𝑤0 chính là từ đa nghĩa. Ứng với mỗi giá trị của i trong đoạn [-3, +3], 𝑤𝑖 chính là từ xuất hiện ở vị trí thứ i có liên quan đến từ 𝑤0. Dựa trên các nghiên cứu trƣớc đó và kinh nghiệm của chúng tôi, chúng tôi đề xuất sử dụng 2 loại đặc trƣng sau:
Loại 1: Bag-of-words
Đây là loại đặc trƣng có dạng sau: 𝐹1 𝑙, 𝑟 = {𝑤−𝑙, … , 𝑤+𝑟}. Nó là tập tất cả các từ trong một cửa sổ quanh từ nhập nhằng 𝑤0, từ vị trí -l đến vị trí +r.
Dựa vào đặc điểm là các từ càng nằm xa từ nhập nhằng cả về 2 phía thì càng ít ý nghĩa và ít có ảnh hƣởng đến từ nhập nhằng. Do đó, chúng tôi đề xuất chọn l = r = 3. Khi đó, chúng tôi thu đƣợc loại đặc trƣng thứ nhất 𝐹1 −3, +3 bao gồm 7 phần tử (đặc trƣng) nhƣ sau:
𝐹1 −3, +3 = {𝑤−3, 𝑤−2, 𝑤−1, 𝑤0, 𝑤1, 𝑤2,𝑤3} Loại 2: Collocation of words
Đây là loại đặc trƣng có dạng sau: 𝐹2 𝑙, 𝑟 = {𝑤−𝑙… 𝑤+𝑟}. Nó là tập hợp của
các cụm từ bao gồm cả từ nhập nhằng với độ dài của nó thỏa mãn: 𝑙 + 𝑟 + 1 ≤
𝜌. Cũng dựa vào đặc điểm là các từ nằm càng xa từ nhập nhằng càng ít có ý
nghĩa với từ nhập nhằng nên chúng tôi quyết trình chọn 𝜌 = 4. Khi đó, chúng
tôi thu đƣợc loại đặc trƣng thứ hai 𝐹2 𝑙, 𝑟 bao gồm 9 đặc trƣng nhƣ sau:
𝐹2 = {𝑤−1𝑤0, 𝑤0𝑤1, 𝑤−2𝑤−1𝑤0, 𝑤−1𝑤0𝑤1, 𝑤0𝑤1𝑤2, 𝑤−3𝑤−2𝑤−1𝑤0, 𝑤−2𝑤−1𝑤0𝑤1, 𝑤−1𝑤0𝑤1𝑤2, 𝑤−1𝑤0𝑤1𝑤2, 𝑤0𝑤1𝑤2𝑤3}
Nhƣ vậy, với hai loại đặc trƣng mà chúng tôi đề xuất ở trên, chúng tôi thu đƣợc 16 đặc trƣng và định nghĩa chúng nhƣ sau: 𝐹 = {𝑓1, 𝑓2, … , 𝑓16}. Chính những đặc trƣng này sẽ đƣợc chúng tôi sử dụng trong mô hình phân lớp Naive Bayes và trong việc đề xuất xây dựng tập luật mẫu trong mô hình học dựa trên luật ở phần sau.
3.2.3. Lựa chọn tập luật mẫu
Tập luật mẫu là một phần quan trong trong giải thuật học dựa trên luật chuyển. Các luật mẫu này đƣợc sử dụng cho việc tự động sinh các luật chuyển (TBL rules). Dựa trên các nghiên cứu của Mihalcea [25], nghiên cứu của Milidiú[16] và việc lựa chọn các đặc trƣng của chúng tôi ở trên, chúng tôi đề xuất một số luật chuyển nhƣ sau:
A→B word C @ [-1] A→B word C @ [1]
A→B word C @ [-2 ] & word D @ [-1] A→B word C @ [-1] & word D@ [1] A→B word C @ [1] & word D @ [2]
Hình 3.5. Các mẫu luật chuyển
Giải thích cho các luật chuyển mẫu ở trên nhƣ sau:
Đối với luật mẫu: “A→B word C @ [- 1 ]” có nghĩa là chuyển từ nhãn của từ
hiện tại từ nhãn A sang nhãn B nếu nhƣ từ phía trƣớc của nó là C.
Đối với luật mẫu: “A→B word C @ [ 1 ]” có nghĩa là chuyển từ nhãn của từ
hiện tại từ nhãn A sang nhãn B nếu nhƣ từ kế tiếp của nó là C.
Đối với luật mẫu: “A→B word C @ [ -2 ] & word D @ [ -1 ]” có nghĩa là chuyển từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ hai từ đứng đằng trƣớc từ hiện tại lần lƣợt là C và D.
Đối với luật mẫu: “A→B word C @ [ -1 ] & word D @ [ 1 ]” có nghĩa là chuyển từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ từ đứng đằng trƣớc từ hiện tại là C và từ đứng đằng sau từ hiện tại là D.
Đối với luật mẫu: “A→B word C @ [ 1 ] & word D @ [ 2 ]” có nghĩa là chuyển
từ nhãn của từ hiện tại từ nhãn A sang nhãn B nếu nhƣ hai từ đứng đằng sau (kế tiếp) từ hiện tại lần lƣợt là C và D.