1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Học máy (IT 4862): Chương 4.6 - Nguyễn Nhật Quang

11 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 445,63 KB

Nội dung

Chương 4 - Các phương pháp học có giám sát (Giải thuật di truyền - Genetic algorithm). Chương này trình bày những nội dung chính sau: Giới thiệu về giải thuật di truyền, các toán tử di truyền, biểu diễn giả thiết. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên Công nghệ thông tin dùn làm tài liệu học tập và nghiên cứu.

Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 Nội dung d môn ô học: h „ Giới thiệu chung g „ Đánh giá hiệu hệ thống học máy „ Các phương pháp học dựa xác suất „ Các phương pháp học có giám sát „ Giải thuật di truyền (Genetic algorithm) „ Các phương pháp học không giám sát „ L cộng Lọc ộ tác tá „ Học tăng cường Học Máy – IT 4862 Giải thuật di truyền – Giới thiệu „ „ „ „ Dựa (bắt chước) q trình tiến hóa tự nhiên sinh học Áp p dụng ụ gp phương gp pháp p tìm kiếm ngẫu g nhiên ((stochastic search)) để tìm lời giải (vd: hàm mục tiêu, mô hình phân lớp, …) tối ưu Giải thuật di truyền (Generic Algorithm – GA) có khả tìm lời giải tốt chí với khơng gian tìm kiếm (lời giải) khơng liên tục phức tạp Mỗi khả ă ủ lời giải iải đ biểu biể diễn diễ bằ ộ chuỗi h ỗi nhị hị phân (vd: 100101101) – gọi nhiễm sắc thể (chromosome) • Việc biểu diễn phụ thuộc vào toán cụ thể „ GA xem toán học máy (a learning problem) bl ) dựa d ttrên ê ttrình ì h tối ưu hóa hó ((optimization) ti i ti ) Học Máy – IT 4862 Giải thuật di truyền – Các bước „ Xây dựng (khởi tạo) quần thể (population) ban đầu • Tạo nên số giả thiết (khả lời giải) ban đầu • Mỗi giả thiết khác giả thiết khác (vd: khác giá trị số tham số tốn) „ Đánh giá quần thể • Đánh giá (cho điểm) giả thiết (vd: ( d cách kiểm tra độ xác ác hệ thống tập liệu kiểm thử) • Trong lĩnh vực sinh học, điểm đánh giá giả thiết gọi độ phù hợp (fitness) giả thiết • Xếp hạng giả thiết theo mức độ phù hợp chúng, giữ lại giả thiết tốt (gọi giả thiết phù hợp – survival of the fittest) „ Sản sinh hệ (next generation) • Thay đổi ngẫu nhiên giả thiết để sản sinh hệ (gọi cháu – offspring) „ Lặp lại trình hệ có giả thiết tốt có độ phù hợp cao giá tri phù hợp mong muốn (định trước) Học Máy – IT 4862 GA(Fitness, θ, n, rco, rmu) Fit Fitness: A function f ti that th t produces d the th score (fitness) (fit ) given i ah hypothesis th i θ: The desired fitness value (i.e., a threshold specifying the termination condition) n: The number of hypotheses in the population rco: The percentage of the population influenced by the crossover operator at each step rmu: The percentage of the population influenced by the mutation operator at each step Initialize the population: H ← Randomly generate n hypotheses Evaluate the initial population For each h∈H: compute Fitness(h) while (max{h∈H}Fitness(h) < θ) Hnext ← ∅ Reproduction (Replication) Probabilistically select (1-rco).n hypotheses of H to add to Hnext The probability of selecting hypothesis hi from H is: Fitness(hi ) P(hi ) = n ∑ Fitness(h j ) j =1 Học Máy – IT 4862 GA(Fitness, θ, n, rco, rmu) … Crossover Probabilistically select (rco.n/2) pairs of hypotheses from H, according to the probability computation P(hi) given above above For each pair (hi, hj), produce two offspring (i.e., children) by applying the crossover operator Then, add all the offspring to Hnext Mutation M t ti Select (rmu.n) hypotheses of Hnext, with uniform probability For each selected hypothesis, invert one randomly chosen bit (i.e., to 1, or to 0) in the hypothesis’s hypothesis s representation representation Producing the next generation: H ← Hnext Evaluate the new population For each h∈H: compute Fitness(h) end while return argmax{h∈H}Fitness(h) Học Máy – IT 4862 Giải thuật di truyền – Minh họa [Duda et al., 2000] Học Máy – IT 4862 Các toán tử di truyền „3 toán tử di truyền sử dụng để sinh cá thể cháu (offspring) hệ • Nhưng có tốn tử lai ghép (crossover) đột biến (mutation) tạo nên thay đổi „ Tái sản xuất (Reproduction) → Một giả thiết giữ lại (không thay đổi) „ Lai ghép (Crossover) để sinh cá thể → Ghép ((“phối phối hợp") hợp ) hai cá thể cha mẹ • Điểm lai ghép chọn ngẫu nhiên (trên chiều dài nhiễm sắc thể) • Phần nhiễm sắc thể hi ghép với phần sau nhiễm sắc thể hj, ngược lại, lại để sinh nhiễm sắc thể „ Đột biến (Mutation) để sinh cá thể →Chọn ngẫu nhiên bit nhiễm sắc thể, đổi giá trị (0→1 / 1→0) • Chỉ ttạo nên ê ột thay th đổi nhỏ hỏ ngẫu ẫ nhiên hiê ới ột cá thể cha h mẹ!! Học Máy – IT 4862 Các toán tử di truyền – Ví dụ Cha mẹ – Thế hệ Tái sản xuất: Lai ghép điểm: Lai ghép điểm: Đột biến: Con cháu– Thế hệ 11101001000 11101001000 11101001000 11111000000 11101010101 00001010101 (crossover mask) 00001001000 11101001000 00111110000 11001011000 00001010101 (crossover mask) 00101000101 11101001000 11101011000 [Mitchell, 1997] Học Máy – IT 4862 Biểu diễn ggiả thiết – Ví dụ Ánh xạ (chuyển đổi) giữa: Biểu diễn nhiễm sắc thể (chuỗi nhị phân), „ Biểu diễn định cho toán phân lớp có lớp „ [Duda et al., 2000] Học Máy – IT 4862 10 Tài liệu tham khảo •T M Mitchell Machine Learning McGraw-Hill, 1997 •R O Duda, P E Hart, and D G Stork Pattern Classification (2nd Edition) Wiley-Interscience, 2000 2000 Học Máy – IT 4862 11 ...Nội dung d môn ô học: h „ Giới thiệu chung g „ Đánh giá hiệu hệ thống học máy „ Các phương pháp học dựa xác suất „ Các phương pháp học có giám sát „ Giải thuật di truyền... Các phương pháp học không giám sát „ L cộng Lọc ộ tác tá „ Học tăng cường Học Máy – IT 4862 Giải thuật di truyền – Giới thiệu „ „ „ „ Dựa (bắt chước) q trình tiến hóa tự nhiên sinh học Áp p dụng... diễn phụ thuộc vào toán cụ thể „ GA xem toán học máy (a learning problem) bl ) dựa d ttrên ê q ttrình ì h tối ưu hóa hó ((optimization) ti i ti ) Học Máy – IT 4862 Giải thuật di truyền – Các bước

Ngày đăng: 08/05/2021, 18:59