Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
457,65 KB
Nội dung
Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@mail.hut.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2011-2012 CuuDuongThanCong.com https://fb.com/tailieudientucntt Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu hệ thống học máy Các phương pháp học dựa xác suất Các phương pháp học có giám sát Giải thuật di truyền (Genetic algorithm) Các phương pháp học không giám sát L cộng Lọc ộ tác tá Học tăng cường Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Giải thuật di truyền – Giới thiệu Dựa (bắt chước) trình tiến hóa tự nhiên sinh học Áp p dụng ụ gp phương gp pháp p tìm kiếm ngẫu g nhiên ((stochastic search)) để tìm lời giải (vd: hàm mục tiêu, mơ hình phân lớp, …) tối ưu Giải thuật di truyền (Generic Algorithm – GA) có khả tìm lời giải tốt chí với khơng gian tìm kiếm (lời giải) khơng liên tục phức tạp Mỗi khả ă ủ lời giải iải đ biểu biể diễn diễ bằ ộ chuỗi h ỗi nhị hị phân (vd: 100101101) – gọi nhiễm sắc thể (chromosome) • Việc biểu diễn phụ thuộc vào toán cụ thể GA xem toán học máy (a learning problem) bl ) dựa d ttrên ê ttrình ì h tối ưu hóa hó ((optimization) ti i ti ) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Giải thuật di truyền – Các bước Xây dựng (khởi tạo) quần thể (population) ban đầu • Tạo nên số giả thiết (khả lời giải) ban đầu • Mỗi giả thiết khác giả thiết khác (vd: khác giá trị số tham số tốn) Đánh giá quần thể • Đánh giá (cho điểm) giả thiết (vd: ( d cách kiểm tra độ xác ác hệ thống tập liệu kiểm thử) • Trong lĩnh vực sinh học, điểm đánh giá giả thiết gọi độ phù hợp (fitness) giả thiết • Xếp hạng giả thiết theo mức độ phù hợp chúng, giữ lại giả thiết tốt (gọi giả thiết phù hợp – survival of the fittest) Sản sinh hệ (next generation) • Thay đổi ngẫu nhiên giả thiết để sản sinh hệ (gọi cháu – offspring) Lặp lại trình hệ có giả thiết tốt có độ phù hợp cao giá tri phù hợp mong muốn (định trước) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt GA(Fitness, θ, n, rco, rmu) Fit Fitness: A function f ti that th t produces d the th score (fitness) (fit ) given i ah hypothesis th i θ: The desired fitness value (i.e., a threshold specifying the termination condition) n: The number of hypotheses in the population rco: The percentage of the population influenced by the crossover operator at each step rmu: The percentage of the population influenced by the mutation operator at each step Initialize the population: H ← Randomly generate n hypotheses Evaluate the initial population For each h∈H: compute Fitness(h) while (max{h∈H}Fitness(h) < θ) Hnext ← ∅ Reproduction (Replication) Probabilistically select (1-rco).n hypotheses of H to add to Hnext The probability of selecting hypothesis hi from H is: Fitness(hi ) P(hi ) = n ∑ Fitness(h j ) j =1 Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt GA(Fitness, θ, n, rco, rmu) … Crossover Probabilistically select (rco.n/2) pairs of hypotheses from H, according to the probability computation P(hi) given above above For each pair (hi, hj), produce two offspring (i.e., children) by applying the crossover operator Then, add all the offspring to Hnext Mutation M t ti Select (rmu.n) hypotheses of Hnext, with uniform probability For each selected hypothesis, invert one randomly chosen bit (i.e., to 1, or to 0) in the hypothesis’s hypothesis s representation representation Producing the next generation: H ← Hnext Evaluate the new population For each h∈H: compute Fitness(h) end while return argmax{h∈H}Fitness(h) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Giải thuật di truyền – Minh họa [Duda et al., 2000] Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các toán tử di truyền 3 toán tử di truyền sử dụng để sinh cá thể cháu (offspring) hệ • Nhưng có tốn tử lai ghép (crossover) đột biến (mutation) tạo nên thay đổi Tái sản xuất (Reproduction) → Một giả thiết giữ lại (không thay đổi) Lai ghép (Crossover) để sinh cá thể → Ghép ((“phối phối hợp") hợp ) hai cá thể cha mẹ • Điểm lai ghép chọn ngẫu nhiên (trên chiều dài nhiễm sắc thể) • Phần nhiễm sắc thể hi ghép với phần sau nhiễm sắc thể hj, ngược lại, lại để sinh nhiễm sắc thể Đột biến (Mutation) để sinh cá thể →Chọn ngẫu nhiên bit nhiễm sắc thể, đổi giá trị (0→1 / 1→0) • Chỉ ttạo nên ê ột thay th đổi nhỏ hỏ ngẫu ẫ nhiên hiê ới ột cá thể cha h mẹ!! Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Các tốn tử di truyền – Ví dụ Cha mẹ – Thế hệ Tái sản xuất: Lai ghép điểm: Lai ghép điểm: Đột biến: Con cháu– Thế hệ 11101001000 11101001000 11101001000 11111000000 11101010101 00001010101 (crossover mask) 00001001000 11101001000 00111110000 11001011000 00001010101 (crossover mask) 00101000101 11101001000 11101011000 [Mitchell, 1997] Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Biểu diễn ggiả thiết – Ví dụ Ánh xạ (chuyển đổi) giữa: Biểu diễn nhiễm sắc thể (chuỗi nhị phân), Biểu diễn định cho tốn phân lớp có lớp [Duda et al., 2000] Học Máy – IT 4862 CuuDuongThanCong.com 10 https://fb.com/tailieudientucntt Tài liệu tham khảo •T M Mitchell Machine Learning McGraw-Hill, 1997 •R O Duda, P E Hart, and D G Stork Pattern Classification (2nd Edition) Wiley-Interscience, 2000 2000 Học Máy – IT 4862 CuuDuongThanCong.com 11 https://fb.com/tailieudientucntt ... 1 1101 0 0100 0 1 1101 0 0100 0 1 1101 0 0100 0 111 1100 0000 1 1101 0101 01 000 0101 0101 (crossover mask) 000 0100 1000 1 1101 0 0100 0 00111 1100 00 1100 10 1100 0 000 0101 0101 (crossover mask) 0 0101 00 0101 1 1101 0 0100 0 1 1101 0 1100 0... argmax{h∈H}Fitness(h) Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt Giải thuật di truyền – Minh họa [Duda et al., 2000] Học Máy – IT 4862 CuuDuongThanCong.com https://fb.com/tailieudientucntt...Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu hệ thống học máy Các phương pháp học dựa xác suất Các phương pháp học có giám sát Giải thuật di truyền (Genetic algorithm)