Phương pháp lao dốc tìm điểm cực tiểu (Gradient Descent)

Một phần của tài liệu TRƯỜNG ĐẠI HỌC HÀ NỘI KỶ YẾU HỘI THẢO GIÁO VIÊN KHOA CÔNG NGHỆ THÔNG TIN (Trang 107 - 109)

II. CÁC BƯỚC CHÍNH XÂY DỰNG MỘT MODEL SỬ DỤNG CÁC THUẬT TOÁN ML

2.2.4. Phương pháp lao dốc tìm điểm cực tiểu (Gradient Descent)

Để tìm điểm cực tiểu của hàm số thì một cách tiếp cận là giải phương trình đạo hàm hàm số đó bằng 0. Tuy nhiên, trong hầu hết các trường hợp, việc giải phương trình đạo hàm bằng 0 là bất khả thi. Nguyên nhân có thể đến từ sự phức tạp của dạng của đạo hàm, từ việc các điểm dữ liệu có số chiều lớn, hoặc từ việc có quá nhiều điểm dữ liệu.

Hướng tiếp cận phổ biến nhất là xuất phát từ một điểm mà chúng ta coi là gần với nghiệm của bài tốn, sau đó dùng một phép tốn lặp để tiến dần đến điểm cần tìm, tức đến khi đạo hàm gần với 0. Một phương pháp để cập nhật và tìm ra các trọng số w tốt nhất là phương pháp lao dốc (Gradient Descent). Ta sẽ tìm đạo hàm của hàm đa biến bằng cách tìm đạo hàm từng phần cho mỗi biến.

Nếu đạo hàm của hàm số tại θt: f′( θt)>0 thì xt nằm về bên phải so với điểm cực tiểu θ∗ (và ngược lại). Để điểm tiếp theo θt+1 gần với θ∗ hơn, chúng ta cần di chuyển θt về phía bên trái, tức về phía âm. Nói các khác, chúng ta cần di chuyển ngược dấu với đạo hàm:

θt+1= θt+Δ

trong đó Δ là một đại lượng ngược dấu với đạo hàm f′(θt).

θt càng xa θ∗ về phía bên phải thì f′(θt) càng lớn hơn 0 (và ngược lại). Vậy, lượng di chuyển Δ, một cách trực quan nhất, là tỉ lệ thuận với −f′(θt).

Hai nhận xét phía trên cho chúng ta một cách cập nhật đơn giản là:

θt+1=θt−αf′(θt)

Trong đó α là một số dương được gọi là tốc độ học. Dấu trừ thể hiện việc chúng ta phải đi ngược với đạo hàm. Các quan sát đơn giản phía trên, mặc dù khơng phải đúng cho tất cả các bài toán, là nền tảng cho rất nhiều phương pháp tối ưu nói chung và thuật tốn Học máy nói riêng.

Trong bài tốn tìm giá căn hộ trên thì ta tìm đạo hàm cho hàm đa biến bằng cách tìm đạo hàm từng phần đối với mỗi biến. Sau đó cập nhật các trọng số theo cơng thức sau:

Ta sẽ lặp lại việc tính θ cho đến khi nó bất biến (lúc này đạo hàm sấp xỉ 0). Sau khi có các trọng số tốt nhất, ta sẽ có được Model tốt nhất.

Bước 3: Đánh giá dựa vào tập dữ liệu đánh giá

Sau khi hoàn thành việc huấn luyện, Model sẽ được đánh giá xem nó dự đốn đủ tốt khơng bằng cách sử dụng dữ liệu đánh giá. Bước này cho phép kiểm tra xem khả năng dự đoán kết quả của Model với những dữ liệu nó chưa gặp bao giờ trong bước Huấn luyện.

Phương pháp đánh giá: Dựa vào các đại lượng đo độ sai như: MAE, (R)MSE, . Trong đó:

Vì MAE lấy giá trị tuyệt đối độ sai lệch giữa kết quả dự đoán và kết quả thực tế nên MAE khơng thể hiện được việc Model dự đốn cao hơn hay thấp hơn so với thực tế. Các độ sai lệch (lớn hay nhỏ) thì đều được đánh trọng số bằng nhau.

Hình 6. Biểu diễn giá trị MAE

Sai số bình phương trung bình (MSE):

Trong MSE thì những điểm dữ liệu có độ sai lệch quá lớn sẽ được đánh trọng số cao hơn nhiều so với dữ liệu có độ sai lệch nhỏ. Như vậy đồng nghĩa với việc Model sẽ bị đánh giá rất thấp (MSE rất cao) nếu Model dự đốn những dữ liệu có độ sai lệch cao so với thực tế.

Hình 7. Biểu diễn giá trị MSE

Một phần của tài liệu TRƯỜNG ĐẠI HỌC HÀ NỘI KỶ YẾU HỘI THẢO GIÁO VIÊN KHOA CÔNG NGHỆ THÔNG TIN (Trang 107 - 109)

Tải bản đầy đủ (PDF)

(111 trang)