Thuật toán perceptron

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 59 - 61)

Trong đó hi = <ti-1, ti-1, w[1:n], i>. Trong phương pháp này, để tính điểm cho một chuỗi nhãn được gán, chuỗi có điểm cao nhất đối với một câu đầu vào sẽ được tính bằng cách sử dụng thuật toán Viterbi.

Trong thuật toán trên, tập huấn luyện được sử dụng lặp T lần để cập nhật giá trị của tham số  . Tất cả các tham số được khởi tạo bằng 0, với mỗi câu đầu vào được giải mã bằng cách sử dụng các tham số được thiết lập hiện thời. Nếu chuỗi có điểm cao nhất trong mô hình hiện thời vẫn chưa là chuỗi đúng thì ta cập nhật giá trị của tham số  s theo công thức đã được đưa ra trong thuật toán. Nhận thấy rằng, nếu đặc trưng cục bộ là hàm chỉ định, khi đó đặc trưng toàn cục chính là số lần xuất hiện của đặc trưng cục bộ trong chuỗi word/tag được gán nhãn. Trong trường hợp này giá trị của mỗi tham số  s được thêm vào một lượng là csds. Trong đó cslà số lần xuất hiện của đặc trưng thứ s xuất hiện trong chuỗi nhãn đúng,

ds là số lần xuất hiện của đặc trưng thứ s trong chuỗi nhãn được mô hình đoán nhận. Ví dụ, nếu đặc trưng là hàm chỉ định lưu lại tất cả các trigram và cặp từ/nhãn, thì thuật toán huấn luyện chính là thuật toán đã được đưa ra trong mục II.1.2

II.3.4 Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi

Phần này sẽ trình bày hai biến thể của thuật toán perceptron là voted- perceptron và averaged perceptron. Kết quả thực nghiệm của hai thuật toán này cho thấy chúng đạt được hiệu năng tốt hơn so với thuật toán perceptron trình bày trong phần II.3.3.

II.3.4.1 Thuật toán voted-perceptron

Thuật toán voted-perceptron do Freund & Schapire [7] đề xuất được phát triển dựa trên thuật toán perceptron đã trình bày ở phần II.3.1. Thuật toán voted- perceptron lưu trữ nhiều thông tin hơn trong quá trình huấn luyện và sau đó sử dụng các thông tin này để đưa ra các đoán nhận tốt hơn trên tập dữ liệu kiểm tra. Thông

tin được giữ trong quá trình huấn luyện là danh sách tất cả các vectơ đoán nhận được sinh ra sau mỗi lỗi trên toàn bộ tập dữ liệu huấn luyện.

Đối với mỗi vectơ này, thuật toán thực hiện đếm số lần lặp mà không phải cập nhật giá trị của vectơ đoán nhận cho đến khi gặp lỗi tiếp theo. Giá trị này còn được gọi là thời gian sống của một vectơ đoán nhận (survives time). Ta gọi giá trị này là trọng số của vectơ đoán nhận.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 59 - 61)

Tải bản đầy đủ (PDF)

(92 trang)