Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véctơ ngữ

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 38)

cảnh trái và phải tổng quát hoá

Các véc tơ ngữ cảnh sử dụng chỉ trong chừng mực những thông tin thu đƣợc về những sự tƣơng tác phân phân phối với 250 từ phổ biến nhất. Bằng trực giác, nó có thể cho độ chính xác thu đƣợc trong suy luận gán nhãn bằng cách sử dụng thông tin từ nhiều từ hơn. Một cách để làm điều này là cho phép véc tơ ngữ cảnh phải ghi lại các lớp của véc tơ ngữ cảnh trái xuất hiện bên phải một từ. Lý do căn bản là các từ với ngữ cảnh trái tƣơng tự mô tả các từ bên phải của chúng trong cách tƣơng tự, ví dụ “seemed” và “would” có các ngữ cảnh trái tƣơng tự và chúng mô tả các ngữ cảnh phải của “he” và “firefighter” nhƣ tiềm năng chứa đựng một hình thái động từ biến cách. Hơn là có các hạng tử riêng biệt trong véc tơ ngữ cảnh phải của nó cho “seemed”, “would” và “ likes”, một từ nhƣ “he” bây giờ có thể đƣợc mô tả bởi một hạng

tử tổng quát hoá cho hình thái động từ biến cách xuất hiện thƣờng xuyên bên phải.

Vấn đề này đƣợc giải quyết bằng việc sử dụng SVD cho ma trận cỡ 47025, 250 của các véc tơ ngữ cảnh trái và phân cụm véc tơ ngữ cảnh kết quả thành 250 lớp. Một véc tơ ngữ cảnh v phải tổng quát hoá cho một từ w đƣợc hình thành bằng cách đếm mức độ thƣờng xuyên của các từ trong 250 lớp này

xuất hiện bên phải của w, hạng tử wi đếm số lần mà một từ từ lớp i xuất hiện

bên phải w trong tập văn (trái với số lần mà một từ với hạng tần số i xuất hiện bên phải w). Các véc tơ ngữ cảnh trái tổng quát hoá đƣợc bắt nguồn bởi một thủ tục tƣơng tự sử dụng véc tơ ngữ cảnh phải dựa trên từ. Chú ý rằng thông tin về véc tơ ngữ cảnh trái và phải đƣợc giữ riêng biệt trong sự tính toán này. Sự khác nhau với các tiếp cận trƣớc trong các véc tơ ngữ cảnh trái và phải của một từ luôn luôn đƣợc sử dụng trong một véc tơ đƣợc kết nối.

Một đối số khác cho hai bƣớc tổng quát hóa véc tơ ngữ cảnh bắt nguồn là nhiều từ không có tần suất xuất hiện là 250 nhƣ láng giềng trái và phải của chúng. Do đó, véc tơ ngữ cảnh trái và phải của chúng là. Phân lớp dựa trên các véc tơ ngữ cảnh trái, phải tổng quát hóa làm cho nó có khả năng thể hiện nghĩa đầy đủ hơn đƣợc hình thành cho tất cả các từ trong từ vựng.

Các véctơ ngữ cảnh tổng quát hoá là đầu vào cho thủ tục suy luận nhãn đã mô tả ở trên cho các véctơ ngữ cảnh trên nền từ: 20000 bộ 2 từ đƣợc lựa chọn từ tập văn, đƣợc mã hoá nhƣ các véctơ 1000 chiều (gồm có 4 véctơ ngữ cảnh đƣợc tổng quát hoá) đƣợc phân tích bởi SVD và phân lớp thành 200 lớp.

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 38)