Gán nhãn từ loại bằng kỹ thuật phân cụm

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35 (Trang 35 - 40)

Trong tiếp cận này [[21], [22]], những thuộc tính phân phối và các từ tƣơng tự xuất hiện trong các ngữ cảnh tƣơng tự đƣợc sử dụng cho việc tính tốn các véc tơ ngữ cảnh của mỗi từ để gom cụm các từ với nhau trong các nhóm. Các nhóm mà có thể đƣợc gán nhãn từ loại hoặc các lớp từ nhƣ các nhóm. Sử dụng kỹ thuật phân cụm để xây dựng các nhãn từ loại trên dữ liệu chƣa gán nhãn là một đặc trƣng phân biệt của phƣơng pháp gán nhãn từ loại phân phối. Gom cụm các từ và xây dựng các tên lớp (cấu trúc ẩn) trên các cụm tổng hợp thay thế các mơ hình Markov và các thuật tốn để ƣớc lƣợng lặp các tham số ẩn của mơ hình.

Các đặc điểm quan trọng đƣợc xem xét ở đây là các véc tơ ngữ cảnh đƣợc định nghĩa nhƣ thế nào, kích thƣớc của các véc tơ ngữ cảnh (số chiều), thƣớc đo sử dụng để tính tốn độ tƣơng tự của các véc tơ (nghĩa là tạo ra các cụm), và cách các nhãn và các lớp từ đƣợc xây dựng vào các nhóm. Sự phân loại các từ hiếm và nhập nhằng, dữ liệu thƣa là trở ngại chính cho chiến lƣợc này.

3.2.1 Suy luận gán nhãn

Giả thuyết cho thuật toán là hành vi cú pháp của một từ đƣợc phản ánh trong các từ đồng xuất hiện và đƣợc thể hiện đối với ngữ cảnh trái và ngữ cảnh phải của từ đó.

Láng giềng trái ↔ TỪ ↔ Láng giềng phải ↓ ↓

Véc tơ ngữ cảnh trái Véc tơ ngữ cảnh phải.

Các véc tơ ngữ cảnh chứa số lần xuất hiện của mỗi từ trong 250 từ xuất hiện nhiều nhất trong kho văn bản.

Bởi vậy, ngƣời ta đo độ tƣơng tự giữa hai từ đối với hành vi cú pháp của chúng. Nếu việc đếm các láng giềng đƣợc tập hợp vào một véc tơ, cosin có thể đƣợc sử dụng để đo sự tƣơng tự. Cosin ≈1 nếu hai từ có nhiều láng giềng chung, và ≈0 nếu hai từ khơng có chung láng giềng nào.

Tuy nhiên việc đo sự tƣơng tự phân phối những láng giềng chung không hiệu quả khi dữ liệu huấn luyện thƣa thớt. Xem xét hai tính từ khơng thƣờng xuyên ngẫu nhiên xảy ra để sửa đổi các danh từ khác nhau trong tập văn, sự tƣơng tự bên phải của chúng theo độ đo cosin = 0. Nhƣng thậm chí cả với những từ tần suất cao nhƣ là “a” và “an”, hai mạo từ này không chia sẻ bất kỳ láng giềng bên phải nào, vì vậy sự tƣơng tự theo độ đo cosin cũng = 0. Kết quả thu đƣợc là sai lệch.

Giải pháp cho vấn đề này là ứng dụng phƣơng pháp phân tích giá trị kỳ dị (SVD) cho ma trận C. Với các véc tơ ngữ cảnh của từ là các hàng của ma trận C.

Bảng 3.2.1 Thể hiện các láng giềng gần nhất của 2 từ “onto” và “seemed”

4 thí nghiệm suy luận nhãn khác nhau là: - Suy luận dựa trên loại từ

- Suy luận dựa trên loại từ và ngữ cảnh.

- Suy luận dựa trên loại từ và ngữ cảnh, hạn chế các ngữ cảnh tự nhiên.

- Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá.

3.2.2 Suy luận dựa trên từ loại

Hai véctơ ngữ cảnh của một từ mô tả sự phân phối của các từ láng giềng bên trái và bên phải của từ đó. Sự ghép nối của hai véc tơ ngữ cảnh trái và phải có thể đại diện cho phân phối của một từ. Ngƣời ta cấu tạo các véc tơ ghép nối nhau nhƣ vậy với 47,025 từ trong tập văn Brown [37]. Ở đây họ sử dụng các véc tơ ngữ cảnh thô số chiều 250 và áp dụng SVD với ma trận cỡ 47025, 500, họ thu đƣợc các véc tơ đƣợc giảm số chiều còn 50 từ SVD và phân lớp chúng thành 200 lớp sử dụng thuật toán phân cụm. Sự phân loại này là cơ sở cho gán nhãn từ loại theo phân phối. Tất cả sự xuất hiện của một từ đƣợc gán vào một lớp. Vấn đề là khó giải quyết cho các từ nhập nhằng.

3.2.3 Suy luận dựa trên loại từ và ngữ cảnh

Vai trò cú pháp của một từ phụ thuộc vào thuộc tính cú pháp láng giềng của nó và các mối quan hệ có khả năng của nó với các láng giềng. Vì vậy ta xẽ xem xét một sự xuất hiện của một từ w đƣợc thể hiện bằng sự ghép nối 4 véc tơ ngữ cảnh:

- Véc tơ ngữ cảnh phải của từ đứng trƣớc. - Véc tơ ngữ cảnh trái của từ w.

- Véc tơ ngữ cảnh phải của từ w.

- Véc tơ ngữ cảnh trái của từ theo sau.

Một lần nữa, SVD đƣợc áp dụng để giải quyết những vấn đề về sự thƣa thớt và sự tổng quát. Ngƣời ta chọn ngẫu nhiên bộ 3 từ từ tập văn và hình thành sự ghép nối của 4 véc tơ ngữ cảnh nhƣ miêu tả ở trên. Thực hiện SVD trên ma trận cỡ 20000, 1000 giảm số chiều cịn 50. Sau đó thực hiện phân cụm các từ dựa vào các véc tơ đã đƣợc giảm số chiều thành các lớp.

Có những hạn chế cho thủ tục này là các lỗi cho các từ mà các láng giềng của chúng là dấu trong câu, vì khơng có sự phụ thuộc ngữ pháp giữa các từ và các dấu trong câu, trái ngƣợc với sự phụ thuộc mạnh mẽ giữa các từ cạnh nhau. Ngoài ra, các ngữ cảnh với các từ hiếm (xuất hiện ít hơn 10 lần) cũng đƣợc loại trừ vì các ngữ cảnh trái và phải của nó cung cấp ít thơng tin cho phân loại cú pháp.

3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá cảnh trái và phải tổng quát hoá

Các véc tơ ngữ cảnh sử dụng chỉ trong chừng mực những thông tin thu đƣợc về những sự tƣơng tác phân phân phối với 250 từ phổ biến nhất. Bằng trực giác, nó có thể cho độ chính xác thu đƣợc trong suy luận gán nhãn bằng cách sử dụng thông tin từ nhiều từ hơn. Một cách để làm điều này là cho phép véc tơ ngữ cảnh phải ghi lại các lớp của véc tơ ngữ cảnh trái xuất hiện bên phải một từ. Lý do căn bản là các từ với ngữ cảnh trái tƣơng tự mô tả các từ bên phải của chúng trong cách tƣơng tự, ví dụ “seemed” và “would” có các ngữ cảnh trái tƣơng tự và chúng mô tả các ngữ cảnh phải của “he” và “firefighter” nhƣ tiềm năng chứa đựng một hình thái động từ biến cách. Hơn là có các hạng tử riêng biệt trong véc tơ ngữ cảnh phải của nó cho “seemed”, “would” và “ likes”, một từ nhƣ “he” bây giờ có thể đƣợc mơ tả bởi một hạng

tử tổng quát hố cho hình thái động từ biến cách xuất hiện thƣờng xuyên bên phải.

Vấn đề này đƣợc giải quyết bằng việc sử dụng SVD cho ma trận cỡ 47025, 250 của các véc tơ ngữ cảnh trái và phân cụm véc tơ ngữ cảnh kết quả thành 250 lớp. Một véc tơ ngữ cảnh v phải tổng qt hố cho một từ w đƣợc hình thành bằng cách đếm mức độ thƣờng xuyên của các từ trong 250 lớp này xuất hiện bên phải của w, hạng tử wi đếm số lần mà một từ từ lớp i xuất hiện bên phải w trong tập văn (trái với số lần mà một từ với hạng tần số i xuất hiện bên phải w). Các véc tơ ngữ cảnh trái tổng quát hoá đƣợc bắt nguồn bởi một thủ tục tƣơng tự sử dụng véc tơ ngữ cảnh phải dựa trên từ. Chú ý rằng thông tin về véc tơ ngữ cảnh trái và phải đƣợc giữ riêng biệt trong sự tính tốn này. Sự khác nhau với các tiếp cận trƣớc trong các véc tơ ngữ cảnh trái và phải của một từ luôn luôn đƣợc sử dụng trong một véc tơ đƣợc kết nối.

Một đối số khác cho hai bƣớc tổng quát hóa véc tơ ngữ cảnh bắt nguồn là nhiều từ khơng có tần suất xuất hiện là 250 nhƣ láng giềng trái và phải của chúng. Do đó, véc tơ ngữ cảnh trái và phải của chúng là. Phân lớp dựa trên các véc tơ ngữ cảnh trái, phải tổng quát hóa làm cho nó có khả năng thể hiện nghĩa đầy đủ hơn đƣợc hình thành cho tất cả các từ trong từ vựng.

Các véctơ ngữ cảnh tổng quát hoá là đầu vào cho thủ tục suy luận nhãn đã mô tả ở trên cho các véctơ ngữ cảnh trên nền từ: 20000 bộ 2 từ đƣợc lựa chọn từ tập văn, đƣợc mã hoá nhƣ các véctơ 1000 chiều (gồm có 4 véctơ ngữ cảnh đƣợc tổng qt hố) đƣợc phân tích bởi SVD và phân lớp thành 200 lớp.

3.2.5 Các kết quả

Các kết quả của 4 thí nghiệm đƣợc đánh giá bằng cách hình thành 16 lớp nhãn từ Penn treebank [33].

Kết quả gãn nhãn đã đạt đƣợc khi sử dụng kỹ thuật phân cụm cho thấy rằng kết quả gán nhãn khi phân cụm dựa vào từ loại và ngữ cảnh đạt kết quả

tốt hơn dựa vào chỉ từ loại và kém hơn khi phân cụm dựa vào các véc tơ ngữ cảnh đƣợc tổng qt hóa.

Ta đã tìm hiểu đƣợc hai phƣơng pháp gán nhãn khơng có hƣớng dẫn cho bài toán gán nhãn từ loại, mỗi phƣơng pháp đều có những ƣu và nhƣợc điểm riêng, với phƣơng pháp sử dụng kỹ thuật cực đại hóa kỳ vọng có ƣu điểm là cho một độ chính xác của gán nhãn cao khi mà sử dụng kho ngữ liệu đã gán nhãn lớn để gán nhãn, nhƣng để xây dựng đƣợc kho ngữ liệu đã gán nhãn lớn nhƣ vậy thì mất rất nhiều thời gian và bộ nhãn đã đƣợc thống nhất giữa các nhà ngôn ngữ trong ngơn ngữ đó. Còn với phƣơng pháp sử dụng kỹ thuật phân cụm tuy đạt độ chính xác chƣa cao nhƣng nó giải quyết đƣợc hai vấn đề trong bài tốn gán nhãn từ loại đó là: chúng ta có thể xây dựng các loại từ loại dựa vào kỹ thuật phân cụm và có thể tạo sự khởi đầu gán nhãn cho văn bản của những ngôn ngữ mới, và một ƣu điểm nổi bật của phƣơng pháp này là không yêu cầu bất kỳ một lƣợng văn bản đã gán nhãn nào . Vì vậy tơi xin đƣợc đƣa ra đề xuất để có thể cải thiện đƣợc khó khăn trên cho bài tốn tiếng Việt là sử dụng kỹ thuật phân cụm để giải bài toán gán nhãn tiếng Việt. Cơ sở của đề xuất này là kỹ thuật phân cụm cho phép:

(1) Xây dựng các loại từ loại

(2) Tạo sự khởi đầu gán nhãn cho văn bản của những ngôn ngữ mới

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn luận văn ths toán học 60 46 35 (Trang 35 - 40)

Tải bản đầy đủ (PDF)

(53 trang)