Gán nhãn từ loại bằng kỹ thuật phân cụm

Chương 3 MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN KHễNG Cể HƯỚNG DẪN CHO GÁN NHÃN TỪ LOẠI

3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm

Trong tiếp cận này [[21], [22]], những thuộc tính phân phối và các từ tương tự xuất hiện trong các ngữ cảnh tương tự được sử dụng cho việc tính toán các véc tơ ngữ cảnh của mỗi từ để gom cụm các từ với nhau trong các nhóm. Các nhóm mà có thể đƣợc gán nhãn từ loại hoặc các lớp từ nhƣ các nhóm. Sử dụng kỹ thuật phân cụm để xây dựng các nhãn từ loại trên dữ liệu chưa gán nhãn là một đặc trưng phân biệt của phương pháp gán nhãn từ loại phân phối. Gom cụm các từ và xây dựng các tên lớp (cấu trúc ẩn) trên các cụm tổng hợp thay thế các mô hình Markov và các thuật toán để ƣớc lƣợng lặp các tham số ẩn của mô hình.

Các đặc điểm quan trọng đƣợc xem xét ở đây là các véc tơ ngữ cảnh được định nghĩa như thế nào, kích thước của các véc tơ ngữ cảnh (số chiều), thước đo sử dụng để tính toán độ tương tự của các véc tơ (nghĩa là tạo ra các cụm), và cách các nhãn và các lớp từ đƣợc xây dựng vào các nhóm. Sự phân loại các từ hiếm và nhập nhằng, dữ liệu thƣa là trở ngại chính cho chiến lƣợc này.

3.2.1 Suy luận gán nhãn

Giả thuyết cho thuật toán là hành vi cú pháp của một từ đƣợc phản ánh trong các từ đồng xuất hiện và đƣợc thể hiện đối với ngữ cảnh trái và ngữ cảnh phải của từ đó.

Láng giềng trái ↔ TỪ ↔ Láng giềng phải ↓ ↓

Véc tơ ngữ cảnh trái Véc tơ ngữ cảnh phải.

Các véc tơ ngữ cảnh chứa số lần xuất hiện của mỗi từ trong 250 từ xuất hiện nhiều nhất trong kho văn bản.

Bởi vậy, người ta đo độ tương tự giữa hai từ đối với hành vi cú pháp của chúng. Nếu việc đếm các láng giềng đƣợc tập hợp vào một véc tơ, cosin có thể được sử dụng để đo sự tương tự. Cosin ≈1 nếu hai từ có nhiều láng giềng chung, và ≈0 nếu hai từ không có chung láng giềng nào.

Tuy nhiên việc đo sự tương tự phân phối những láng giềng chung không hiệu quả khi dữ liệu huấn luyện thưa thớt. Xem xét hai tính từ không thường xuyên ngẫu nhiên xảy ra để sửa đổi các danh từ khác nhau trong tập văn, sự tương tự bên phải của chúng theo độ đo cosin = 0. Nhưng thậm chí cả với những từ tần suất cao nhƣ là “a” và “an”, hai mạo từ này không chia sẻ bất kỳ láng giềng bên phải nào, vì vậy sự tương tự theo độ đo cosin cũng = 0. Kết quả thu đƣợc là sai lệch.

Giải pháp cho vấn đề này là ứng dụng phương pháp phân tích giá trị kỳ dị (SVD) cho ma trận C. Với các véc tơ ngữ cảnh của từ là các hàng của ma trận C.

Bảng 3.2.1 Thể hiện các láng giềng gần nhất của 2 từ “onto” và

“seemed”

4 thí nghiệm suy luận nhãn khác nhau là:

- Suy luận dựa trên loại từ

- Suy luận dựa trên loại từ và ngữ cảnh.

- Suy luận dựa trên loại từ và ngữ cảnh, hạn chế các ngữ cảnh tự nhiên.

- Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá.

3.2.2 Suy luận dựa trên từ loại

Hai véctơ ngữ cảnh của một từ mô tả sự phân phối của các từ láng giềng bên trái và bên phải của từ đó. Sự ghép nối của hai véc tơ ngữ cảnh trái và phải có thể đại diện cho phân phối của một từ. Người ta cấu tạo các véc tơ ghép nối nhau nhƣ vậy với 47,025 từ trong tập văn Brown [37]. Ở đây họ sử dụng các véc tơ ngữ cảnh thô số chiều 250 và áp dụng SVD với ma trận cỡ 47025, 500, họ thu đƣợc các véc tơ đƣợc giảm số chiều còn 50 từ SVD và phân lớp chúng thành 200 lớp sử dụng thuật toán phân cụm. Sự phân loại này là cơ sở cho gán nhãn từ loại theo phân phối. Tất cả sự xuất hiện của một từ đƣợc gán vào một lớp. Vấn đề là khó giải quyết cho các từ nhập nhằng.

3.2.3 Suy luận dựa trên loại từ và ngữ cảnh

Vai trò cú pháp của một từ phụ thuộc vào thuộc tính cú pháp láng giềng của nó và các mối quan hệ có khả năng của nó với các láng giềng. Vì vậy ta xẽ xem xét một sự xuất hiện của một từ w đƣợc thể hiện bằng sự ghép nối 4 véc tơ ngữ cảnh:

- Véc tơ ngữ cảnh phải của từ đứng trước.

- Véc tơ ngữ cảnh trái của từ w.

- Véc tơ ngữ cảnh phải của từ w.

- Véc tơ ngữ cảnh trái của từ theo sau.

Một lần nữa, SVD đƣợc áp dụng để giải quyết những vấn đề về sự thƣa thớt và sự tổng quát. Người ta chọn ngẫu nhiên bộ 3 từ từ tập văn và hình thành sự ghép nối của 4 véc tơ ngữ cảnh nhƣ miêu tả ở trên. Thực hiện SVD trên ma trận cỡ 20000, 1000 giảm số chiều còn 50. Sau đó thực hiện phân cụm các từ dựa vào các véc tơ đã đƣợc giảm số chiều thành các lớp.

Có những hạn chế cho thủ tục này là các lỗi cho các từ mà các láng giềng của chúng là dấu trong câu, vì không có sự phụ thuộc ngữ pháp giữa các từ và các dấu trong câu, trái ngƣợc với sự phụ thuộc mạnh mẽ giữa các từ cạnh nhau. Ngoài ra, các ngữ cảnh với các từ hiếm (xuất hiện ít hơn 10 lần) cũng đƣợc loại trừ vì các ngữ cảnh trái và phải của nó cung cấp ít thông tin cho phân loại cú pháp.

3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá

Các véc tơ ngữ cảnh sử dụng chỉ trong chừng mực những thông tin thu được về những sự tương tác phân phân phối với 250 từ phổ biến nhất. Bằng trực giác, nó có thể cho độ chính xác thu đƣợc trong suy luận gán nhãn bằng cách sử dụng thông tin từ nhiều từ hơn. Một cách để làm điều này là cho phép véc tơ ngữ cảnh phải ghi lại các lớp của véc tơ ngữ cảnh trái xuất hiện bên phải một từ. Lý do căn bản là các từ với ngữ cảnh trái tương tự mô tả các từ bên phải của chúng trong cách tương tự, ví dụ “seemed” và “would” có các ngữ cảnh trái tương tự và chúng mô tả các ngữ cảnh phải của “he” và

“firefighter” nhƣ tiềm năng chứa đựng một hình thái động từ biến cách. Hơn là có các hạng tử riêng biệt trong véc tơ ngữ cảnh phải của nó cho “seemed”,

“would” và “ likes”, một từ nhƣ “he” bây giờ có thể đƣợc mô tả bởi một hạng

tử tổng quát hoá cho hình thái động từ biến cách xuất hiện thường xuyên bên phải.

Vấn đề này đƣợc giải quyết bằng việc sử dụng SVD cho ma trận cỡ 47025, 250 của các véc tơ ngữ cảnh trái và phân cụm véc tơ ngữ cảnh kết quả thành 250 lớp. Một véc tơ ngữ cảnh v phải tổng quát hoá cho một từ w đƣợc hình thành bằng cách đếm mức độ thường xuyên của các từ trong 250 lớp này xuất hiện bên phải của w, hạng tử wi đếm số lần mà một từ từ lớp i xuất hiện bên phải w trong tập văn (trái với số lần mà một từ với hạng tần số i xuất hiện bên phải w). Các véc tơ ngữ cảnh trái tổng quát hoá đƣợc bắt nguồn bởi một thủ tục tương tự sử dụng véc tơ ngữ cảnh phải dựa trên từ. Chú ý rằng thông tin về véc tơ ngữ cảnh trái và phải đƣợc giữ riêng biệt trong sự tính toán này.

Sự khác nhau với các tiếp cận trước trong các véc tơ ngữ cảnh trái và phải của một từ luôn luôn đƣợc sử dụng trong một véc tơ đƣợc kết nối.

Một đối số khác cho hai bước tổng quát hóa véc tơ ngữ cảnh bắt nguồn là nhiều từ không có tần suất xuất hiện là 250 nhƣ láng giềng trái và phải của chúng. Do đó, véc tơ ngữ cảnh trái và phải của chúng là. Phân lớp dựa trên các véc tơ ngữ cảnh trái, phải tổng quát hóa làm cho nó có khả năng thể hiện nghĩa đầy đủ hơn đƣợc hình thành cho tất cả các từ trong từ vựng.

Các véctơ ngữ cảnh tổng quát hoá là đầu vào cho thủ tục suy luận nhãn đã mô tả ở trên cho các véctơ ngữ cảnh trên nền từ: 20000 bộ 2 từ đƣợc lựa chọn từ tập văn, đƣợc mã hoá nhƣ các véctơ 1000 chiều (gồm có 4 véctơ ngữ cảnh đƣợc tổng quát hoá) đƣợc phân tích bởi SVD và phân lớp thành 200 lớp.

3.2.5 Các kết quả

Các kết quả của 4 thí nghiệm đƣợc đánh giá bằng cách hình thành 16 lớp nhãn từ Penn treebank [33].

Kết quả gãn nhãn đã đạt đƣợc khi sử dụng kỹ thuật phân cụm cho thấy rằng kết quả gán nhãn khi phân cụm dựa vào từ loại và ngữ cảnh đạt kết quả

tốt hơn dựa vào chỉ từ loại và kém hơn khi phân cụm dựa vào các véc tơ ngữ cảnh đƣợc tổng quát hóa.

Ta đã tìm hiểu được hai phương pháp gán nhãn không có hướng dẫn cho bài toán gán nhãn từ loại, mỗi phương pháp đều có những ưu và nhược điểm riêng, với phương pháp sử dụng kỹ thuật cực đại hóa kỳ vọng có ưu điểm là cho một độ chính xác của gán nhãn cao khi mà sử dụng kho ngữ liệu đã gán nhãn lớn để gán nhãn, nhƣng để xây dựng đƣợc kho ngữ liệu đã gán nhãn lớn nhƣ vậy thì mất rất nhiều thời gian và bộ nhãn đã đƣợc thống nhất giữa các nhà ngôn ngữ trong ngôn ngữ đó. Còn với phương pháp sử dụng kỹ thuật phân cụm tuy đạt độ chính xác chƣa cao nhƣng nó giải quyết đƣợc hai vấn đề trong bài toán gán nhãn từ loại đó là: chúng ta có thể xây dựng các loại từ loại dựa vào kỹ thuật phân cụm và có thể tạo sự khởi đầu gán nhãn cho văn bản của những ngôn ngữ mới, và một ưu điểm nổi bật của phương pháp này là không yêu cầu bất kỳ một lƣợng văn bản đã gán nhãn nào . Vì vậy tôi xin đƣợc đƣa ra đề xuất để có thể cải thiện đƣợc khó khăn trên cho bài toán tiếng Việt là sử dụng kỹ thuật phân cụm để giải bài toán gán nhãn tiếng Việt. Cơ sở của đề xuất này là kỹ thuật phân cụm cho phép:

(1) Xây dựng các loại từ loại

(2) Tạo sự khởi đầu gán nhãn cho văn bản của những ngôn ngữ mới 3.3 Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn

Gán nhãn từ loại bằng kỹ thuật phân cụm

Phân tích giá trị kỳ dị

Các thí nghiệm cơ bản