Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu

Một phần của tài liệu đồ án tốt nghiệp so sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 57 - 59)

Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng

Loại Ký hiệu Giải thích

Thơng tin từ vựng

Thơng tin nhãn từ loại

w-2, w-1, w0, w1, w2 wi cho biết dữ liệu quan sát được tại vị trí

thứ i trong chuỗi đầu vào (chuỗi đầu vào được coi là chuỗi nằm trong cửa số trượt với kích cỡ 5). Trong đó wi là dữ liệu quan sát được ngay tại vị trí hiện tại.

t-2, t-1 ti cho biết nhãn của từ tại vị trí thứ i trong

chuỗi đầu vào.

Ký hiệu thơng tin ngữ cảnh (cịn được gọi là lịch sử) là h, thơng tin về nhãn là t, xác suất đồng thời của lịch sử h và thông tin về nhãn t được xác định bằng các tham số mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Khi cho

trước (h, t), một đặc trưng phải tồn tại trên bất cứ từ nào hoặc nhãn nào trong lịch sử h, và phải chứa thơng tin giúp dự đốn nhãn t, ví dụ như thơng tin chính tả của từ hiện

tại, hoặc thơng tin về hai nhãn trước từ hiện tại. Ngữ cảnh từ và nhãn xác định đối với một đặc trưng được cho bằng định nghĩa của lịch sử h, như công thức (4.1).

hi = {wi, wi+1, wi+2, wi1,

wi2,ti1,ti2,} (4.1)

Ví dụ: Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi “3000 đồng” ta được ngữ cảnh w0: đồng. Giả sử trong dữ liệu huấn luyện, từ đồng trong chuỗi dữ liệu trên được gán nhãn Nu (Với Nu là nhãn danh từ đơn vị trong tập nhãn Viet Tree Bank), kết hợp với ngữ cảnh ta có thể rút ra được một thuộc tính của chuỗi dữ liệu quan sát là

fi(h,t) = 1 nếu từ hiện tại là “đồng” và nhãn là Nu 0 nếu ngược lại

4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy

Một đặc trưng quan trọng khác cần được xem xét đến là các đặc trưng có thể được xây dựng bằng chuẩn hóa biểu thức chính quy. Các mẫu ngữ cảnh biểu thức chính quy có tác dụng hỗ trợ xác định nhãn từ loại một các nhanh chóng và chính xác hơn. Trong nhiều trường hợp nếu chỉ dựa vào thông tin về từ và từ loại của các từ trước và sau từ đang xét thì có thể gặp phải nhập nhằng làm ảnh hưởng đến kết quả của hệ thống. Trong khi đó, nếu dựa vào các mẫu ngữ cảnh biểu thức chính quy thì sẽ xác định được ngay các nhãn từ loại.

Bảng dưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định dữ liệu có dạng số:

Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số

Mẫu ngữ cảnh Ví dụ Ý nghĩa

^[0-9]* 123456 Số

^[0-9]+/[0-9]+/[0-9]+$ 12/04/2005 Ngày tháng

^[0-9]+/[0-9]+$ 22/5 Ngày tháng hoặc phân số

^[0-9][0-9][0-9][0-9]$ 2005 Năm ^[0-9]đồng$ ^[0-9]USD$ 10000 đồng 30 USD Tiền tệ ^[0-9]%$ 7% Phần trăm Z1 = {một, hai …, mười,} Z2 = {mươi, trăm…} ^[z1]* [z2]*[z1]*$ Tám mươi Số Mười một … … …

4.3. Hệ thống gán nhãn từ loại cho tiếng Việt

Sử dụng các phương pháp học máy MEM, CRF và SVM, bài toán gán nhãn từ loại được xem là bài tốn phân lớp với các lớp chính là các nhãn từ loại đã được xác định trước. Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức là việc gán nhãn từ loại được thực hiện sau khi đã có thơng tin về từ vựng. Kiến trúc tổng thể của mơ hình gán nhãn từ loại sẽ được sử dụng trong thực nghiệm được thể hiện trong

hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mơ hình và pha kiểm thử sử dụng mơ hình.

• Pha huấn luyện mơ hình: Đầu vào là văn bản đã được tách từ, đưa qua bộ trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt sẽ được trình bày ở phần sau) rồi đưa vào mơ hình học máy để huấn luyện. Ta sẽ sử dụng MEM, CRF hoặc SVM để huấn luyện mơ hình ở bước này.

• Pha kiểm thử: Còn được gọi là pha gán nhãn hay pha giải mã. Văn bản đầu vào sẽ được qua pha kiểm thử theo thuật tốn phù hợp, ví dụ như thuật toán beam search [4], kết quả sẽ cho ra chuỗi nhãn tốt nhất tương ứng với dữ liệu đầu vào (chuỗi nhãn gồm các nhãn thuộc tập nhãn được chọn)

Tài liệu đã gán nhãn

Trích chọn đặc trưng

Huấn luyện mơ hình

Tài liệu chưa gán nhãn

Pha kiểm thử Tài liệu gán

nhãn từ loại

Một phần của tài liệu đồ án tốt nghiệp so sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 57 - 59)

Tải bản đầy đủ (DOCX)

(72 trang)
w