Kĩ thuật tối ưu số bậc một

Kĩ thuật tối ưu số bậc một sử dụng các thông tin chứa trong bản thân vector gradient của hàm cần tối ưu để dần dần tịnh tiến các ước lượng đến điểm mà vector gradient bằng 0 và hàm đạt cực trị. Có hai phương pháp tối ưu bậc một có thể dùng để ước lượng tham số cho một mô hình CRF, cả hai phương pháp này đều là biến thể của thuật toán “gradient liên hợp không tuyến tính” (non-linear conjugate gradient).

Không xem xét một hướng tìm kiếm trong khi làm cực đại hàm số như các phương pháp leo đồi, các phương pháp “hướng liên hợp” sinh ra một tập các vector khác không – tập liên hợp – và lần lượt làm cực đại hàm dọc theo hướng này. Các phương pháp “gradient liên hợp không tuyến tính” là trường hợp đặc biệt của kĩ thuật hướng liên hợp trong đó mỗi “vector liên hợp” hay “hướng tìm kiếm” chỉđược sinh từ hướng tìm kiếm trước đó mà không phải từ tất cả các thành phần của tập liên hợp trước đó. Đặc biệt, mỗi hướng tìm kiếm pj sau là tổ hợp tuyến tính của “hướng đi lên dốc nhất” hay gradient của hàm cần tìm cực trị và hướng tìm kiếm trước đó pj-1. Mỗi bước lặp của thuật tóan cập nhật gradient liên hợp tịnh tiến các tham số của hàm cần tìm cực đại theo hướng của vector liên hợp hiện thời sử dụng luật cập nhật:

λk(j+1) =λkj +α(j)pj

(4.19)

Ởđây, α(j) là độ lớn của bước nhẩy tối ưu.

Có hai phương pháp tối ưu bậc một rất thích hợp cho việc ước lượng tham số mô hình CRF, đó là các thuật tóan Fletcher-Reeves và Polak-Ribière-Positive. Về bản chất hai thuật toán này là hoàn toàn tương đương, chúng chỉ khác nhau về cách chọn hướng tìm kiếm và độ lớn của bước nhẩy tối ưu.

Lựa chọn các thuộc tính