Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,18 MB
Nội dung
1 giáo dục đào tạo trờng đại học bách khoa hà nội Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Mục lục Mục lục Danh mục từ viết tắt Danh mục bảng Danh mục hình vẽ đồ thị Lời nói đầu Chơng khai phá liệu phát tri thức csdl Dơng thị hiền 1.1 tổng quan khai phá liệu phát tri thức CSDL .8 1.1.1 Tại cần phát tri thức? 1.1.2 Khai phá liệu phát tri thức sở liệu 1.2 Quá trình pháT HIệN TRI THứC CƠ Sở Dữ LIệU 10 1.2.2 Thu thập tiền xử lý liệu .10 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 1.2.3 Khai phá liệu 12 1.2.4 Minh hoạ đánh giá 12 1.2.5 Đa kết vào thực tế .13 1.3 kỹ thuật Khai phá liệu 13 1.3.1 Kiến trúc hệ thống khai phá liệu .13 1.3.3 Nhiệm vụ khai phá liệu 17 1.3.4 Một số phơng pháp khai phá liệu phổ biến 19 1.3.5 Những u khó khăn thách thức nghiên cứu ứng dụng kỹ thuật khai phá liệu .24 Kết luận chơng 27 Luận văn thạc sỹ công nghệ thông tin Chơng kỹ thuật khai phá liệu sử dụng mạng nơron giải thuật di truyền 21 2.1 Mạng nơron khai phá liệu 28 2.1.1 Khái niệm mạng nơron .28 2.1.2 Nơron sinh học mạng nơron sinh học 29 2.1.3 Mô hình trình xử lý nơron nhân tạo .30 2.1.4 Cấu trúc phân loại mạng nơron 33 2.1.5 Học lan truyền mạng 36 Hà nội 2008 2.1.6 Đánh giá mạng nơron .40 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 2.2 Giải thuật di truyền khaI PHá Dữ LIệU 42 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục từ viết tắt 2.2.1 Cơ giải thuật di truyền .42 2.2.2 Một số cách biểu diễn lời giải giải thuật di truyền .45 2.2.3 Các toán tử di truyền 46 2.2.4 Cơ sở toán học giải thuật di truyền .52 STT Từ viết tắt Nghĩa tiếng việt tiếng anh ANN Mạng nơron nhân tạo Artficial Neural Network BNN Mạng nơron sinh học Biological Neural Network BP 2.2.5 Những cải tiến giải thuật di truyền .54 Kết luận chơng 56 Chơng tích hợp giải thuật di truyền với giải thuật huấn luyện 3.1 Đặt vấn đề 57 3.2 mạng nơron truyền thẳng nhiều lớp với giải thuật lan truyền Giải thuật lan truyền Back-Propagation of error ngợc sai số mạng nơron truyền thẳng nhiều lớp 50 Csdl Cơ sở liệu Data Base dm Khai phá liệu Data Mining GA Giải thuật di truyền Genetic Algorithm ngợc sai số số cải tiến 57 3.2.1 Kiến trúc mạng nơron truyền thẳng nhiều lớp 57 3.2.2 Cơ chế học mạng nơ ron truyền thẳng nhiều lớp 59 3.2.3 Thuật toán lan truyền ngợc sai số .60 Kdd Phát tri thức Knowledge CSDL 3.2.2 Một số cải tiến giải thuật BP 71 3.3 Kết hợp giải thuật di truyền với giải thuật BP 73 3.3.1 Giải thuật GA huấn luyện mạng nơron truyền thẳng nhiều lớp 73 3.3.2 Ghép nối với giải thuật lan truyền ngợc sai số 75 Kết luận chơng 76 Chơng ứng dụng toán dự báo liệu .71 4.1 giới thiệu toán 78 4.2 mô hình hoá toán, thiết kế liệu giải thuật 80 4.2.1 Mô hình hoá toán 80 4.2.2 Thiết kế liệu 81 4.2.3 Thiết kế giải thuật .82 4.3 chơng trình dự báo liệu .93 Kết luận chơng 98 Kết luận 99 Tài liệu tham khảo 100 Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 Database Discover in Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục bảng Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục hình vẽ đồ thị Hình 1.1: Quá trình phát tri thức CSDL 10 Bảng 1.1: Dữ liệu học ví dụ định chơi tennis 20 Hình 1.2: Kiến trúc hệ thống khai phá liệu 14 Bảng 2.1: Ví dụ dùng phép tái tạo 48 Hình 1.3: Quá trình khai phá liệu 15 Bảng 2.2: Quá trình tái tạo 51 Hình 1.4: Kết phân cụm 18 Bảng 2.3: Quá trình lai ghép 51 Hình 1.5: Cây định chơi tennis 20 Bảng 3.1: Các hàm kích hoạt 69 Hình 2.1: Cấu tạo nơron 29 Bảng 4.1: Số liệu thử nghiệm toán dự báo 79 Hình 2.2: Thu nhận tín hiệu nơron 30 Hình 2.3: Mô hình nơron nhân tạo 31 Hình 2.4: Hàm Sigmoidal 33 Hình 2.5: Mạng nơron truyền thẳng nhiều lớp 35 Hình 2.6: Mạng hồi quy 35 Hình 2.7: Sơ đồ học tham số có giám sát 37 Hình 2.8: Sơ đồ học tăng cờng 38 Hình 2.9: Sơ đồ học không giám sát 38 Hình 3.1: Mạng nơron truyền thẳng lớp 58 Hình 3.2: Sơ đồ hiệu chỉnh trọng số giải thuật BP 59 Hình 3.3: Sơ đồ mã hoá trọng số mạng nơron 74 Hình 3.4: Sơ đồ giải thuật lai 76 Hình 4.1: Sơ đồ khối giải thuật Phân hệ 84 Hình 4.2: Sơ đồ khối giải thuật Phân hệ 1.1 86 Hình 4.3: Sơ đồ khối giải thuật Phân hệ 1.2 89 Hình 4.4: Sơ đồ khối giải thuật Phân hệ 91 Hình 4.5: Màn hình chơng trình dự báo 93 Hình 4.6: Dữ liệu tệp huấn luyện 94 Hình 4.7: Màn hình nhập tham số cho mạng nơron 94 Hình 4.8: Màn hình nhập tham số cho giải thuật GA 95 Hình 4.9: Tìm kiếm giải thuật GA 95 Hình 4.10: Huấn luyện giải thuật BP 96 Hình 4.11: Màn hình dự báo 98 Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Lời nói đầu Trong năm gần đây, vai trò máy tính việc lu trữ xử lý thông tin ngày trở nên quan trọng Bên cạnh đó, thiết bị thu thập liệu tự Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Chơng : Giới thiệu kiến trúc mạng nơron truyền thẳng nhiều lớp, giải thuật BP, vấn đề sử dụng giải thuật BP trình bầy giải pháp tích hợp giải thuật GA với giải thuật BP huấn luyện mạng nơron truyền thẳng nhiều lớp động phát triển mạnh góp phần tạo kho liệu khổng lồ Dữ liệu Chơng : Giới thiệu toán ứng dụng dự báo lũ sông, từ mô hình đợc thu thập lu trữ ngày nhiều nhng ngời định lại cần có hoá toán, thiết kế thuật toán, liệu cài đặt chơng trình thử nghiệm với công thông tin bổ ích, tri thức rút từ nguồn liệu cụ mạng nơron truyền thẳng huấn luyện giải thuật lai GA-BP liệu cho việc định Với yêu cầu đó, mô hình CSDL truyền thống ngôn ngữ thao tác liệu không thích hợp Để có đợc tri thức từ CSDL, ngời ta phát triển lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, phơng pháp khai phá liệu phát tri thức CSDL Trong số đó, khai phá liệu phát tri thức trở thành lĩnh vực nghiên cứu sôi động Luận văn tập trung nghiên cứu kỹ thuật sử dụng mạng nơron giải thuật di truyền khai phá liệu, đặc biệt giải pháp tích hợp giải thuật di truyền với giải thuật huấn luyện mạng nơron Trên sở đó, luận văn xây dựng chơng trình dự báo liệu sử dụng mạng nơron truyền thẳng huấn luyện giải thuật lai GABP Luận văn đợc trình bầy gồm chơng với nội dung nh sau : Chơng 1: Trình bầy cách tổng quan khai phá liệu phát tri thức CSDL Trong đề cập đến khái nệm, trình phát tri thức, nhiệm vụ phơng pháp khai phá liệu nh vấn đề thách thức nghiên cứu áp dụng kỹ thuật khai phá liệu vào thực tế Chơng 2: Nghiên cứu kỹ thuật khai phá liệu sử dụng mạng nơron giải thuật di truyền, cụ thể vấn đề lựa chọn cấu trúc mạng tham số, xây dựng giải thuật học lan truyền mạng nơron, nh cách biểu diễn lời giải, toán tử di truyền cải tiến giải thuật di truyền Đồng thời, chơng đa đánh giá hiệu kỹ thuật sử dụng mạng nơron giải thuật di truyền khai phá liệu, qua định hớng cho việc lựa chọn phơng pháp khai phá thích hợp cho vấn đề thực tế Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Cho đến nay, KDD đợc ứng dụng rộng rãi lĩnh vực khác nh viễn Chơng 1: thông, giáo dục, điều trị y học, Có thể nói, KDD cố gắng để giải khai phá liệu phát tri thức CSDL vấn đề nan giải kỷ nguyên thông tin số: vấn đề tràn liệu 1.1.2 Khai phá liệu phát tri thức sở liệu Khái niệm phát tri thức sở liệu đợc đa lần 1.1 tổng quan khai phá liệu phát tri thức vào năm 1989, nhấn mạnh tri thức sản phẩm cuối Cơ Sở Dữ Liệu trình khai phá liệu Phát tri thức sở liệu đợc định nghĩa nh 1.1.1 Tại cần phát tri thức? trình chắt lọc tri thức từ lợng lớn liệu Nói cách khác, quan niệm Hơn hai thập niên trở lại đây, lợng thông tin đợc lu trữ thiết bị điện tử không ngừng tăng lên Việc tích luỹ liệu diễn với tốc độ bùng nổ Ngời ta ớc đoán lợng thông tin toàn cầu tăng gấp đôi sau khoảng hai năm theo kích thớc sở liệu (CSDL) tăng lên cách nhanh chóng, số ghi CSDL lẫn số trờng, thuộc tính ghi Lợng liệu khổng lồ thực nguồn tài nguyên giá trị thông tin yếu tố then chốt hoạt động Tuy nhiên, liệu đầy đủ ý nghĩa không phát tri thức tiềm ẩn có giá trị Những tri thức thờng nhỏ so với lợng liệu, phát chúng vấn đề khó khăn Việc xây dựng hệ thống có khả phát đợc mẩu tri thức có giá trị khối liệu đồ sộ nh gọi phát tri thức sở liệu (Knowledge Discover in Database_KDD) Các kỹ thuật xử lý kỹ thuật khai phá liệu (Data Mining_DM) Việc phân tích liệu cách tự động mang tính dự báo KDD có u hẳn so với phơng pháp phân tích thông thờng, dựa kiện khứ hệ hỗ trợ định truyền thống trớc Với tất u đó, KDD chứng tỏ đợc tính hữu dụng môi trờng đầy tính cạnh tranh ngày KDD trở thành hớng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Phạm vi ứng dụng KDD ban đầu lĩnh vực thơng mại tài Dơng Thị Hiền Thanh CNTT 2006 KDD ánh xạ liệu từ mức thấp thành dạng cô đọng hơn, tóm tắt hữu ích Một ví dụ trực quan thờng đợc dùng việc khai thác vàng từ đá cát, ngời khai thác muốn chắt lọc vàng từ đá cát điều kiện lợng đá cát lớn Thuật ngữ data mining ám việc tìm kiếm tập hợp nhỏ tri thức, thông tin có giá trị từ lợng lớn liệu thô [7] Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn CSDL lớn Nhiều thuật ngữ đợc dùng có nghĩa tơng tự với từ data mining nh knowledge mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (Phân tích liệu/mẫu), data archaeology (khảo cổ liệu), data dredging (nạo vét liệu) Nh vậy, quan niệm tri thức mối quan hệ phần tử liệu phát tri thức trình chiết suất tri thức từ sở liệu, trải qua nhiều giai đoạn khác Khai phá liệu sử dụng giải thuật đặc biệt để chiết xuất mẫu, mô hình từ liệu giai đoạn trình phát tri thức CSDL Phát tri thức CSDL khai phá liệu kỹ thuật xuất có tốc độ phát triển nhanh Ngoài lĩnh vực đa ngành, liên quan đến nhiều lĩnh vực khác nh: lý thuyết thuật toán, Data Warehouse, OLAP, tính toán song song, nhng chủ yếu dựa tảng xác suất thống kê, sở liệu học máy Dơng Thị Hiền Thanh CNTT 2006 10 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 1.2 Quá trình pháT HIệN TRI THứC CƠ Sở Dữ LIệU Hình 1.1 mô tả giai đoạn trình phát tri thức từ sở liệu Mặc dù có giai đoạn, song phát tri thức từ sở liệu trình tơng tác lặp lặp lại thành chu trình liên tục theo kiểu xoáy trôn ốc, lần lặp sau hoàn chỉnh lần lặp trớc Ngoài ra, giai đoạn sau lại dựa kết 11 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng nhiều lỗi có giá trị đặc biệt Nguyên nhân ý kiến phát biểu chuyên gia không thống nhất, sai số đo đạc liệu, Vì vậy, giai đoạn thu thập tiền xử lý liệu trở nên quan trọng trình phát tri thức từ sở liệu Giai đoạn thờng chiếm từ 70% đến 80% giá thành toàn toán Giai đoạn thu thập tiền xử lý liệu đợc chia thành công đoạn nh: giai đoạn trớc theo kiểu thác nớc [7, 4] lựa chọn liệu, làm liệu, làm giàu liệu, mã hoá liệu Các công đoạn Đa kết vào thực tế đợc thực theo trình tự nhằm đa sở liệu thích hợp cho giai đoạn sau Tuy nhiên, tuỳ liệu cụ thể mà trình đợc điều chỉnh cho Minh hoạ đánh giá tri thức đợc phát Khai phá liệu Trích mẫu/ mô hình Thu thập tiền xử lý li Hiểu xác định vấn đề phù hợp 1.2.2.1 Chọn lọc liệu Đây bớc chọn lọc liệu liên quan nguồn liệu khác Các thông tin đợc chọn thông tin có nhiều liên quan đến lĩnh vực cần phát tri thức xác định giai đoạn xác định vấn đề 1.2.2.2 Làm liệu Dữ liệu thực tế, đặc biệt liệu đợc lấy từ nhiều nguồn khác Hình 1.1: Quá trình phát tri thức CSDL thờng không đồng Do đó, cần có biện pháp xử lý để thống liệu thu đợc phục vụ cho khai phá Giai đoạn làm liệu thờng bao gồm Sau trình bầy cụ thể giai đoạn trình này: 1.2.1 Xác định vấn đề phép xử lý nh: điều hoà liệu, xử lý giá trị khuyết, xử lý nhiễu ngoại lệ, Quá trình mang tính định tính với mục đích xác định đợc lĩnh vực yêu cầu phát tri thức xây dựng toán tổng thể Trong thực tế, sở liệu 1.2.2.3 Làm giàu liệu đợc chuyên môn hoá phân chia theo lĩnh vực khác Với tri thức Việc thu thập liệu không đảm bảo tính đầy đủ liệu Một số phát đợc, có giá trị cho lĩnh vực nhng lại không mang lại nhiều ý thông tin quan trọng thiếu không đầy đủ Việc làm giàu liệu nghĩa lĩnh vực khác Vì vậy, việc xác định toán giúp định hớng cho tìm cách bổ sung thông tin có ý nghĩa quan trọng cho trình khai phá giai đoạn thu thập tiền xử lý liệu 1.2.2 Thu thập tiền xử lý liệu liệu sau Quá trình làm giàu liệu bao gồm việc tích hợp chuyển đổi liệu Các liệu từ nhiều nguồn khác đợc tích hợp thành kho thống Các khuôn dạng khác liệu đợc quy đổi, tính toán lại để đa Trong trình thu thập liệu cho toán, sở liệu thu đợc thờng chứa nhiều thuộc tính nhng lại không đầy đủ, không nhất, có Dơng Thị Hiền Thanh CNTT 2006 kiểu thống nhất, tiện cho trình phân tích Đôi khi, số thuộc tính đợc xây dựng dựa thuộc tính cũ Dơng Thị Hiền Thanh CNTT 2006 12 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 1.2.2.4 M hoá 13 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 1.2.5 Đa kết vào thực tế Đây giai đoạn mã hoá phơng pháp dùng để chọn lọc, làm sạch, làm Các kết trình phát tri thức đợc đa vào ứng dụng giàu liệu thành thủ tục, chơng trình hay tiện ích nhằm tự động hoá việc lĩnh vực khác Do kết dự báo mô tả kết xuất, biến đổi di chuyển liệu Các hệ thống đợc thực thi nên đa vào hệ thống hỗ trợ định nhằm tự động hoá trình định kỳ để làm tơi liệu phục vụ cho việc phân tích 1.2.3 Khai phá liệu Giai đoạn khai phá liệu đợc bắt đầu sau liệu đợc thu thập xử lý Trong giai đoạn này, công việc chủ yếu xác định đợc toán khai phá liệu, tiến hành lựa chọn phơng pháp khai phá thích hợp với liệu có đợc tách tri thức cần thiết Thông thờng, toán khai phá liệu bao gồm: toán mang tính chất mô tả, đa tính chất chung liệu, toán khai phá, dự báo, bao gồm việc thực suy diễn dựa liệu có Tuỳ theo toán xác định đợc mà ta lựa chọn phơng pháp khai phá liệu cho phù hợp Nh vậy, trình phát tri thức từ sở liệu thờng đợc thực theo năm bớc nêu Tuy nhiên, trình khai thác, thực cải tiến, nâng cấp cho phù hợp với ứng dụng cụ thể Trong số bớc, tiền xử lý liệu khai phá liệu hai bớc quan trọng, chiếm phần lớn công sức giá thành toàn toán Việc lựa chọn phơng pháp thực cụ thể cho trình tiền xử lý khai phá liệu phụ thuộc nhiều vào đặc điểm liệu yêu cầu toán Sau đây, ta xem xét cụ thể trình khai phá liệu 1.3 kỹ thuật Khai phá liệu Ta biết, trình phát tri thức, nguyên lý, trải qua nhiều giai đoạn 1.2.4 Minh hoạ đánh giá Các tri thức phát đợc từ sở liệu cần đợc tổng hợp biểu diễn khác mà khai phá liệu giai đoạn trình Tuy nhiên, lại giai đoạn đóng vai trò chủ chốt giai đoạn tạo nên tính đa ngành dới dạng gần gũi với ngời sử dụng nh đồ thị, cây, bảng biểu, hay luật, KDD báo cáo, phục vụ cho mục đích hỗ trợ định khác 1.3.1 Kiến trúc hệ thống khai phá liệu Do nhiều phơng pháp khai phá đợc áp dụng nên kết có nhiều mức độ tốt xấu khác việc đánh giá kết thu đợc cần thiết Thông thờng, kết đợc tổng hợp, so sánh biểu đồ đợc kiểm nghiệm, tinh lọc Để đánh giá tri thức, ngời ta thờng dựa vào tiêu chí định nh: - Tri thức phải đủ độ đáng quan tâm: thể tính hữu dụng (useful), tính Khai phá liệu bớc quan trọng trình phát tri thức từ số lợng lớn liệu lu trữ CSDL, kho liệu nơi lu trữ khác Bớc tơng tác lẫn ngời sử dụng sở tri thức Các mẫu đáng quan tâm đợc đa đến cho ngời sử dụng lu trữ nh tri thức sở tri thức Kiến trúc hệ thống khai phá liệu có thành phần sau: lạ (novel) tri thức trình trích rút không tầm thờng - Tri thức phải đủ độ tin cậy Đây công việc nhà chuyên gia, nhà phân tích định Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 14 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 15 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng - Mô tơ khai phá liệu: bao gồm tập modul chức để thực Ngời sử dụng nhiệm vụ nh mô tả đặc điểm, kết hợp, phân lớp, phân cụm liệu, Ngời sử dụng - Modul đánh giá mẫu: thành phần sử dụng độ đo tơng tác với modul khai phá liệu để tập trung tìm mẫu đáng quan tâm - Giao diện ngời dùng: cho phép ngời dùng tơng tác với hệ thống sở Giao diện ngời dùng truy vấn hay tác vụ, cung cấp thông tin cho việc tìm kiếm 1.3.2 Quá trình khai phá liệu giải thuật khai phá liệu 1.3.2.1 Quá trình khai phá liệu Đánh giá mẫu Các giải thuật khai phá liệu thờng đợc mô tả nh chơng trình Cơ sở tri thức hoạt động trực tiếp tệp liệu Quá trình khai phá liệu đợc thể mô hình sau: Mô tơ khai phá liệu (Data mining engine) Thống kê tóm tắt Làm liệu Lọc liệu CSDL Giải thuật khai phá Thu thập tiền xử lý liệu CSDL hay kho liệu phục vụ Xác định liệu liên quan Mẫu Dữ liệu trực tiếp Kho liệu Xác định nhiệm vụ Hình 1.2: Kiến trúc hệ thống khai phá liệu - CSDL, kho liệu hay kho lu trữ khác: một tập CSDL, Hình 1.3: Quá trình khai phá liệu kho liệu, Các kỹ thuật làm liệu, tích hợp, lọc liệu thực liệu - CSDL hay kho liệu phục vụ: liệu có liên quan đợc lọc làm từ kho liệu sở yêu cầu khai phá liệu ngời dùng - Cơ sở tri thức: lĩnh vực tri thức đợc sử dụng để hớng dẫn việc tìm hợăc đánh giá mẫu kết tìm đợc - Xác định nhiệm vụ: Xác định xác vấn đề cần đợc giải - Xác định liệu liên quan: Trên sở vấn đề cần đợc giải quyết, xác định nguồn liệu liên quan để xây dựng giải pháp - Thu thập tiền xử lỹ liệu: Thu thập liệu có liên quan xử lý chúng đa dạng cho giải thuật khai phá liệu hiểu đợc gặp số vấn đề nh: liệu phải đợc nhiều (nếu đợc Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 16 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 17 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng chiết xuất vào tệp), quản lý tệp liệu, phải lặp lặp lại nhiều lần - Tìm kiếm mô hình thực giống nh vòng lặp qua phơng pháp tìm toàn trình (nếu mô hình liệu thay đổi), kiếm tham số, miêu tả mô hình bị thay đổi tạo nên họ mô hình Với - Thống kê tóm tắt liệu, đồng thời kết hợp với liệu trực tiếp để làm đầu vào cho bớc thực giải thuật khai phá liệu - Chọn thuật toán khai phá liệu thích hợp thực việc khai phá liệu để tìm đợc mẫu có ý nghĩa Với nhiệm vụ khác khai phá liệu, dạng mẫu chiết xuất đợc khác Mẫu chiết xuất miêu tả mô hình, phơng pháp tìm kiếm tham số đợc thực để đánh giá chất lợng mô hình Các phơng pháp tìm kiếm mô hình thờng sử dụng phơng pháp tìm kiếm heuristic kích thớc không gian tìm kiếm mô hình thờng ngăn cản kỹ thuật tìm kiếm tổng thể 1.3.3 Nhiệm vụ khai phá liệu đợc mô tả xu hớng, dới dạng văn bản, đồ thị mô tả mối quan hệ mô hình, 1.3.2.2 Các thành phần giải thuật khai phá liệu Giải thuật khai phá liệu gồm ba thành phần chính: Biểu diễn mô hình: Mô hình đợc biểu diễn ngôn ngữ L để mô tả Đối với khai phá liệu, có hai toán là: - Bài toán mô tả (description): Đa mô hình biểu thị tính chất chung liệu mẫu - Bài toán khai phá dự báo (prediction): Suy diễn dựa liệu mẫu có để đa kết mẫu khai thác đợc Nếu mô hình mô tả hạn chế học Nh vậy, coi mục đích khai phá liệu mô tả dự báo Các đợc mẫu tạo đợc mô hình xác cho liệu Tuy mẫu đợc phát nhằm vào hai mục đích Bài toán dự báo liên quan đến việc nhiên, khả mô tả mô hình lớn tăng mức độ nguy hiểm bị sử dụng biến trờng CSDL để chiết xuất mẫu, sở học làm giảm khả dự đoán liệu cha biết Do đó, việc quan dự đoán giá trị cha biết giá trị tơng lai biến đáng quan trọng ngời phân tích liệu thiết kế giải thuật cần phải hiểu đầy đủ giả tâm Bài toán mô tả tập trung vào việc tìm kiếm mẫu mô tả liệu hiểu thiết mô tả cần phải diễn tả đợc giả thiết mô tả đợc tạo từ luật đợc cho ứng dụng thực tế Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng đợc tiêu chuẩn trình phát tri thức hay không Việc đánh giá độ xác dự đoán đợc thực dựa đánh giá chéo (cross validation) Đánh giá chất lợng liên quan đến độ xác dự đoán, độ mới, khả sử dụng, khả hiểu đợc mô hình Có thể sử dụng chuẩn thống kê chuẩn logic để đánh giá mô hình Phơng pháp tìm kiếm: Phơng pháp tìm kiếm gồm hai thành phần: tìm kiếm tham số tìm kiếm mô hình Để đạt đợc hai mục đích này, nhiệm vụ khai phá liệu bao gồm vấn đề sau: Phân lớp (clasification): Phân lớp tơng ứng với việc xác lập ánh xạ (hay phân loại) tập liệu vào số lớp xác định Hồi quy (Regression): Hồi quy tơng ứng với việc xác lập ánh xạ từ tập liệu vào biến dự đoán có giá trị thực Phân cụm (Clustering): Phân cụm nhằm ghép nhóm đối tợng liệu - Trong tìm kiếm tham số, giải thuật cần tìm kiếm tham số để tối u hoá Các đối tợng liệu đợc coi giống nhau, chúng thuộc cụm tiêu chuẩn đánh giá mô hình với liệu quan sát đợc miêu tả khác chúng thuộc cụm khác Các cụm tách rời mô hình định trớc phân cấp gối lên Nghĩa đối tợng liệu vừa thuộc cụm này, vừa thuộc cụm Quá trình nhóm đối tợng thành cụm đợc gọi Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 18 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng phân cụm hay phân nhóm Một ví dụ ứng dụng khai phá liệu có nhiệm vụ phân cụm phát tập khách hàng có hành vi giống sở liệu tiếp thị Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 19 1.3.4 Một số phơng pháp khai phá liệu phổ biến 1.3.4.1 Phơng pháp quy nạp Có hai kỹ thuật để thực suy diễn quy nạp Suy diễn: nhằm rút thông tin kết logic thông tin Cụm Cụm CSDL Phơng pháp suy diễn dựa kiện xác để suy tri thức từ thông tin cũ Mẫu chiết xuất theo kỹ thuật thờng luật suy diễn Quy nạp: Phơng pháp quy nạp suy thông tin đợc sinh từ sở liệu, Cụm có nghĩa tự tìm kiếm, tạo mẫu sinh tri thức bắt đầu với tri thức biết trớc Các thông tin phơng pháp mang lại Hình 1.4: Kết phân cụm Hình 1.4 mô tả mẫu trình khai phá liệu với nhiệm vụ phân cụm Các mẫu nhóm khách hàng đợc xếp vào ba nhóm gối lên Những khách hàng hai cụm chứng tỏ khách hàng thuộc hai trạng thái Tóm tắt (summarization): liên quan đến phơng pháp tìm kiếm mô tả tóm tắt cho tập liệu thông tin hay tri thức cấp cao diễn tả đối tợng CSDL Phơng pháp liên quan đến việc tìm kiếm mẫu CSDL Phơng pháp quy nạp thờng đợc nói đến kỹ thuật định tạo luật 1.3.4.2 Cây định tạo luật Cây định: dạng mô tả tri thức đơn giản nhằm phân đối tọng Mô hình hoá phụ thuộc (Dependency Modeling): Bao gồm việc tìm kiếm liệu thành số lớp định Các nút đợc gán nhãn tên thuộc mô hình mô tả phụ thuộc biến Các mô hình phụ thuộc tồn dới tính, cung đợc gắn giá trị thuộc tính, miêu tả lớp khác hai mức: - Mức cấu trúc, mô hình xác định biến phụ thuộc cục với (thờng dạng đồ hoạ) Các đối tợng đợc phân lớp theo đờng cây, qua cung tơng ứng với giá trị thuộc tính đối tợng tới Ví dụ: Bảng liệu học ví dụ định chơi tennis: - Mức định lợng mô hình xác định độ lớn phụ thuộc theo thớc đo Ngày Quang cảnh Nhiệt độ Độ ẩm D1 Nắng Nóng D2 Nắng Nóng Rõ ràng, nhiệm vụ khác kể yêu cầu số lợng dạng D3 âm u thông tin khác Do đó, tuỳ theo nhiệm vụ cụ thể, có ảnh D4 D5 Phát thay đổi sai lệch (Change and Deviation detection): Xác định thay đổi đáng kể liệu từ giá trị chuẩn đo đợc trớc hởng đến việc thiết kế lựa chọn giải thuật khai phá liệu Dơng Thị Hiền Thanh CNTT 2006 Gió Chơi tennis Cao Yêú Không Cao Mạnh Không Nóng Cao Yêú Có Ma ấm áp Cao Yêú Có Ma Lạnh Bình thờng Yêú Có Dơng Thị Hiền Thanh CNTT 2006 72 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 3) Các hàm kích hoạt nơ ron hàm giá tính tín hiệu sai số phải khả vi [22] Điểu điểm bất lợi ứng dụng sử dụng hàm ngỡng làm hàm kích hoạt tính không khả vi chúng 73 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Bớc 3: Nếu bình phơng lỗi tăng lợng < cập nhật trọng số chấp nhận đợc nhng hệ số học không thay đổi 3.3 Kết hợp giải thuật di truyền với giải thuật BP 4) Hiệu tìm kiếm giải thuật phụ thuộc vào tham số luyện nh số nơ ron lớp ẩn (tham số cấu trúc), giá trị trọng số khởi tạo ban đầu, số học Việc xác định giá trị chúng dễ đa tới tình tiến thoái lỡng lan tốc độ hội tụ dao động trình tìm kiếm Có nhiều nghiên cứu đề xuất cải tiến nhằm khắc phục 3.3.1 Giải thuật di truyền việc huấn luyện mạng nơron truyền thẳng nhiều lớp Để sử dụng giải thuật GA thủ tục huấn luyện mạng (hiệu chỉnh trọng số mạng), cần phải giải vấn đề xây dựng hàm giá, mã hoá nhợc điểm nh sử dụng tham số bớc đà, sử dụng hệ số học biến đổi, sử dụng giải mã trọng số, khởi động quần thể đầu tiên, xác định tham số giải gradient kết hợp, sử dụng thuật toán giả luyện kim, sử dụng giải thuật di truyền, thuật GA Luận văn nghiên cứu giải pháp tích hợp giải thuật GA với giải thuật BP nh Xây dựng hàm giá giải thuật lai sử dụng để huấn luyện mạng nơ ron Do sử dụng giải pháp mà Giải thuật BP xây dựng hàm giá (hàm giá 3.2) Đối với giải thuật giải thuật BP sử dụng giải thuật lai sử dụng phơng pháp cải tiến hệ số học GA, với tập học cho trớc (Xs,ys) cần lan truyền lần lợt véc tơ vào tích luỹ biến đổi sai số lại thành sai số tổng thể cho tập học đó: Phơng pháp sử dụng hệ số học biến đổi E ( w) = Trong thực tế, hàm hiệu có dạng biểu diễn hình học không đồng đều, có lúc có dạng phẳng (hàm không thay đổi giá trị thay đổi ít) có Trong đó: hàm giá 3.4 M hóa giải m trọng số Bớc 1: Nếu bình phơng lỗi toàn tập huấn luyện tăng số phần trăm cho trớc (thông thờng từ 1% 5%) sau lần cập nhật trọng số bỏ qua việc cập nhật này, hệ số học đợc nhân với số hạng (với < Nh đề cập chơng 2, toán tử giải thuật GA hoạt động mức cuối bít Do đó, tập trọng số cấu trúc mạng phải đợc mã hóa thành chuỗi Đối với cấu trúc mạng cho trớc, trọng số đợc xếp thành danh sách Hình 3.3 ví dụ việc xếp nh < 1) Bớc 2: Nếu bình phơng lỗi giảm sau lần cập nhật trọng số, cập nhật chấp nhận đợc hệ số học đợc nhhân với số hạng > Dơng Thị Hiền Thanh CNTT 2006 (3.4) Giải thuật GA tìm kiếm tập trọng số W không gian RM để tối thiểu hệ số học lên ngợc lại gặp vùng dạng phễu giảm hệ số học xin nêu cách biến đổi hệ số học dựa hiệu mạng [8]: ysi thành phần thứ i đầu mong muốn ý tởng giải thuật BP sử dụng hệ số học biến đổi gặp vùng phẳng tăng Ngời ta đa nhiều phơng pháp để thực giải pháp trên, ) outsilast thành phần thứ i đầu thực tế dạng phễu (giá trị hàm thay đổi nhanh thay đổi tham số đầu vào) Nếu ta sử dụng hệ số học cố định tốn thời gian vùng phẳng Vì vậy, ( p n ysi Outsilast s =1 i =1 Dơng Thị Hiền Thanh CNTT 2006 74 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 75 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng mẫu có tập huấn luyện, tính giá trị hàm giá theo công thức 3.3 Nói cách 0.1 0.1 2.7 khác, mạng nơ ron đóng vai trò nh hàm định giá giải thuật GA 0.5 Khởi động quần thể -3 -0.2 Các trọng số cá thể quần thể ban đầu đợc chọn ngẫu nhiên khoảng [-10, 10] Các trọng số đợc khởi động ngẫu nhiên với xác suất cho -1.5 0.9 phân bố e-x Xác suất đợc rút từ quan sát thực nghiệm lời giải -0.7 tối u có phần lớn trọng số với giá trị tuyệt đối nhỏ đồng thời chúng có số trọng số có giá trị tuyệt đối lớn Do đó, việc khởi động trọng số sử dụng phân bố xác suất cho phép giải thuật GA thăm dò khoảng chứa tất lời Hình 3.3: Sơ đồ mã hóa trọng số mạng nơ ron giải có thể, đồng thời hớng giải thuật vào vùng hay chứa lời giải (0.1, 2.7, -0.2, 0.1, -3, 0.5, -1.5, 0.9, -0.7) Giả sử có mạng nơ ron truyền thẳng với L lớp, m n lần lợt số nơ ron Các tham số giải thuật di truyền Các tham số giải thuật GA nh xác suất tạp lai, xác suất đột biến, số cá thể lớp vào lớp Trọng số wlji thứ i nơ ron thứ j lớp l chiếm vị trí thứ quần thể số hệ đợc chọn theo phơng pháp thử sai Các giá trị k danh sách theo công thức sau: l k = N ( s )( N ( s 1) + 1) + ( j 1)[N (l 1) + 1] + i s =1 pcross=0.7, pmutation=0.001 đợc coi giá trị xuất phát tốt Nếu giá trị pmutation (3.5) lớn, giải thuật GA trở thành giải thuật tìm kiếm ngẫu nhiên Số cá thể quần thể thờng đợc chọn cỡ trung bình từ 100 đến 200 cá thể cho quần thể Số hệ Danh sách sau đợc mã hóa tiếp thành chuỗi (một cá thể) Do cần thiết theo thực nghiệm cỡ đến 10 lần tổng số trọng số có mạng chuỗi mô tả tập trọng số Chú ý rằng, tất chuỗi quần thể mô tả tập trọng số cấu trúc mạng 3.3.2 Ghép nối với giải thuật lan truyền ngợc sai số Danh sách đợc mã hóa thành chuỗi nhị phân nh sau: trọng số đợc mã Giải thuật GA tìm vùng chứa cực trị toàn cục, song khả hóa thành chuỗi có độ dài 20 bít với giá trị nằm khoảng [-10,10] để leo lên đỉnh cực trị Nói cách khác, giải thuật GA không bảo đảm hội tránh trờng hợp giá trị hoạt hóa nơ ron bị bão hòa [3] Các chuỗi 20 tụ Trái lại, giải thuật BP đảm bảo cho hội tụ nhng khả tìm kiếm bít trọng số đợc nối với tạo thành chuỗi dài Chuỗi dài đại cực trị toàn cục Do đó, việc kết hợp hai giải thuật giải thuật lai lẽ tự diện cho tập trọng số cấu trúc mạng nhiên Việc giải mã trọng số từ chuỗi dài việc cắt chuỗi dài thành Đối với cấu trúc mạng cho trớc, xuất phát giải thuật GA với việc chuỗi 20 bít Giả sử giá trị chuỗi nhị phân đợc cắt x, lúc giá trị khởi động quần thể ban đầu gồm N chuỗi nhị phân (N cá thể) Mỗi chuỗi trọng số tơng ứng với chuỗi 20*x/(220-1)-10 Để đánh giá sức khoẻ chuỗi quần thể, giải mã chuỗi thành tập trọng số mạng nơ ron có cấu trúc định trớc Sau đó, lan truyền toàn mã nhị phân tập trọng số cấu trúc mạng cho Giải thuật GA tiến hành tiến hóa quần thể ban đầu cách sử dụng toán tử chọn lọc, lai ghép đột biến Sau G hệ, 5% cá thể tốt G đợc lu trữ lại Nh vậy, đầu vào giải thuật GA cấu trúc mạng tập huấn luyện, đầu 0.05*N tập Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 76 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 77 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng trọng số Các tập trọng số lần lợt đợc giải thuật BP luyện đến bão hòa Kết Cùng với thực tế mạng nơron đợc ứng dụng rộng rãi lĩnh vực dự báo trình luyện giải thuật BP 0.05*N tập trọng số Tập trọng số cho liệu, đặc biệt toán dự báo tiêu thụ lợng, dự báo kinh tế, dự báo kết tốt (giá trị hàm giá nhỏ nhất) 0.05*N tập trọng số đợc giữ lại tợng tự nhiên Chơng luận văn thực cài đặt thử nghiệm kết giải thuật lai GA - BP Giải thuật BP giải thuật lai giải chơng trình dự báo lũ sông Trà Khúc sử dụng mạng nơ ron truyền thẳng huấn thuật BP trình bày phần 3.1 với: luyện giải thuật lai GA BP Các giá trị trọng số ban đầu không cần phải khởi động mà tiếp nhận tập trọng số kết từ giải thuật GA nh tập trọng số ban đầu Giải thuật BP sử dụng số học biến đổi để đảm bảo giá trị hàm giá 3.3 giảm Nói cách khác, làm tăng tốc độ hội tụ giải thuật Hình 3.4 sơ đồ khối tổng thể giải thuật lai GA - BP Giải thuật lai đợc dùng thủ tục huấn luyện mạng nơ ron truyền thẳng nhiều lớp Một cấu trúc mạng Giải thuật GA 5% quần thể tốt đợc lu trữ Giải thuật BP Một tập trọng số Hình 3.4: Sơ đồ giải thuật lai Kết luận chơng Chơng mô tả giải thuật BP vấn đề sử dụng giải thuật BP huấn luyện mạng nơron truyền thẳng nhiều lớp nh lựa chon cấu trúc mạng, hàm kích hoạt, xây dựng hàm giá, khởi tạo tập trọng số ban đầu, Chơng trình bầy giải pháp tích hợp giải thuật GA BP thành giải thuật lai để học tham số cho mạng nơron Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 78 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 79 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Số liệu huấn luyện mạng kiểm tra khả dự báo mạng đợc lấy từ Chơng 4: Trung tâm Thông tin t liệu - Tổng cục Khí tợng Thuỷ văn, số liệu đo đợc ứng dụng toán dự báo trạm Sơn Giang từ năm 2001 đến đợc lu trữ dới dạng sau: Lợng ma Mực nớc lũ trung bình Kết thúc trung bình Chân lũ 2001 1h/6/10 13h/6/10 191.5 2831 3352 1h/7/10 13h/7/10 184.5 3088 3594 19h/9/10 13h/10/10 118.5 3041 3414 2002 7h/11/10 13h/11/10 74.5 3185 3340 1h/9/11 19h/10/11 289 3025 3717 7h/22/10 7h/23/10 199 2931 3449 Song số lên hai nhân tố quan trọng lợng ma lợng trữ nớc 1h/12/9 13h/12/9 67 2820 3084 lu vực sông Ma nhân tố định độ lớn đỉnh lũ, nhiên, 7h/2/11 1h/3/11 298 3077 4020 lợng ma lu vực, sinh đỉnh lũ khác Ví dụ, 19h/17/10 7h/18/10 82 2955 3203 sông Hồng lợng ma sinh trận lũ lớn năm 1969 1996 tơng ứng 1h/25/10 13h/25/10 121.5 3143 3578 250 300 mm, lớn lợng ma gây trận lũ tháng 8/1971 218 mm, song 9h/28/10 19h/28/10 62 3159 3382 liệu 4.1 giới thiệu toán Dự báo đỉnh lũ sông toán quan trọng lĩnh vực dự báo thuỷ văn, có ý nghĩa to lớn đời sống xã hội giúp ngời dự báo đợc trận lũ lớn trớc thời gian dài, tránh đợc thiệt hại ngời vật chất chúng gây Dòng chảy sông suối đợc hình thành dới ảnh hởng nhiều nhân tố Thời gian Năm Bắt đầu Đỉnh lũ lợng trữ nớc thời điểm trớc lũ năm 1971 lớn làm cho đỉnh lũ tháng 11h/29/10 11h/29/10 84.5 3312 3548 8/1971 lớn nhiều so với hai trận lũ Nh vậy, lợng trữ nớc trớc lũ, hay 7h/16/11 19h/16/11 173.5 3112 3643 gọi chân lũ, xem nhân tố quan trọng thứ hai, định độ lớn đỉnh 1h/19/11 7h/19/11 95.5 3362 3585 lũ Ngoài có yếu tố khác tác động đến lũ lụt nh điều kiện thời tiết 21h/19/11 7h/20/11 121 3433 3615 chúng nhân tố gián tiếp 7h/30/11 19h/30/11 150.5 3097 3572 21h/30/11 3h/1/12 60 3519 3710 Quảng Ngãi, vào khoảng 14o3430B 108o2520Đ Độ cao nguồn sông 7h/19/12 3h/20/12 165.5 3004 3451 khoảng 900 m, chiều dài sông 135 km, chiều dài lu vực 123 km, diện tích lu vực Sông Trà Khúc bắt nguồn từ vùng rừng núi Giá Vực, phía tây nam tỉnh 3240 km2, độ dốc lu vực 18,5%, chiều rộng lu vực 26,3 km Có hai dạng lũ sông, lũ đơn lũ kép Luận văn xây dựng chơng trình dự báo liệu sử dụng mạng nơ ron truyền thẳng huấn luyện giải thuật lai GA - BP đợc thử nghiệm với toán dự báo đỉnh lũ sông Trà Khúc trạm Sơn Giang Dơng Thị Hiền Thanh CNTT 2006 Bảng 4.1: Số liệu thử nghiệm toán dự báo Trong đó: Năm: năm lấy mẫu số liệu, không tham gia vào liệu dự báo Thời gian: khoảng thời gian đo số liệu, không tham gia vào số liệu dự báo Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 80 Lợng ma trung bình: lợng ma trung bình đo đợc khoảng thời 81 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Lựa chọn kiến trúc mạng: Mạng bao gồm lớp lớp ẩn Đầu vào mạng lợng ma gian tính mm, đầu vào liệu dự báo Mực nớc chân lũ: giá trị mực nớc chân lũ tính cm, đầu vào thứ trung bình X mực nớc chân lũ Hc, đầu mạng giá trị dự báo mực nớc đỉnh lũ Hđ hai liệu dự báo Mực nớc đỉnh lũ: giá trị mực nớc đỉnh lũ tính cm, giá trị dự báo Mạng yêu cầu số nơ ron lớp ẩn vừa đủ để học đợc đặc trng tổng quát mối quan hệ đầu vào đầu Mục tiêu sử dụng số nơ ron 4.2 mô hình hoá toán, thiết kế liệu giải thuật 4.2.1 Mô hình hoá toán lớp ẩn tốt Số nơ ron lớp ẩn đợc xác định cách huấn luyện với số tập kiểm tra Hàm kích hoạt nơ ron lớp ẩn hàm sigmoid Hàm kích hoạt Tiền xử lý: Với liệu cho, thiết lập mô hình gồm có ba hiệu ứng sau: nơ ron lớp chọn hàm đồng Lợng ma trung bình: nhận giá trị thực 4.2.2 Thiết kế liệu Mực nớc chân lũ: nhận giá trị thực Giải thuật di truyền Mực nớc đỉnh lũ: nhận giá trị thực Các toán tử giải thuật GA hoạt động mức chuỗi nên cấu trúc liệu Tất liệu đa vào mạng đợc chuẩn hóa khoảng (0,1) theo công thức: SV = OV*(0.9-0.1) / (MAX MIN) (4.1) đó: quần thể chuỗi Một cấu trúc liệu sử dụng bảng hai chiều với hàng cá thể số cột độ dài cá thể Do độ dài cá thể số cá thể thờng xuyên biến động nên bảng hai chiều đợc cấp phát OV: Giá trị trớc biến đổi động Hai quần thể cũ đợc định nghĩa hai trỏ đến hai bảng hai SV: Giá trị sau biến đổi (giá trị đa vào mạng) chiều có kích thớc động Oldpop( ) NewPop( ) MAX, MIN: Giá trị lớn nhỏ tập giá trị Đồng thời với quần thể cá thể hai véc tơ đợc cấp phát động số 0.9, 0.1: Giá trị lớn nhỏ hàm sigmoid thực nhằm ghi nhận giá trị hàm mục tiêu tơng ứng với cá thể giá trị sức Mô hình dự báo: khỏe tơng ứng : Objective( ) Fitness( ) Ta dùng ký hiệu sau: Các biến Popsize ghi số cá thể quần thể, Pcross ghi xác suất tạp lai, X: Lợng ma trung bình Pmutation ghi xác suất đột biến, Gen ghi số hệ cần tiến hóa độ dài chuỗi Hc: Mực nớc chân lũ Lchrom Hđ: Mực nớc đỉnh lũ Mạng nơ ron Nh vậy, mô hình dự báo mực nớc đỉnh lũ theo mực nớc chân lũ lợng ma trung bình đợc biểu diễn hàm số: Hđ = f (Hc,X) (4.2) Mạng nơ ron truyền thẳng đợc cài đặt lớp có tên gọi Network, tham số mạng biến thành viên; NumInputs, NumOutputs, NumNeurals tơng ứng số đầu vào, số đầu ra, số nơ ron lớp ẩn, Inputs( ) Expected_Outputs( ) hai véc tơ chứa đầu vào đầu mong muốn mạng, Layers( ) véc tơ có kiểu phần tử thuộc lớp Layer chứa lớp mạng Lớp Layer có Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 82 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 83 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng biến thành viên hai véc tơ Inputs( ), Outputs( ) Output_Errors( ) chứa đầu vào, - Lu trữ 5% cá thể tốt từ quần thể cuối đầu sai số đầu lớp - Học tham số giải thuật BP với số học thích nghi cho Để tích hợp giải thuật GA với giải thuật BP cần sử dụng bảng hai chiều cá thể 5% cá thể từ giải thuật di truyền chuyển sang (phân hệ 2) cấp phát động GA_Weights( ) để lu trữ trọng số mạng hệ tiến - hóa, số cột số trọng số mạng, số hàng số cá thể quần thể Mỗi hàng bảng tơng ứng với trọng số mạng, việc đa vào mạng trọng số đợc thực nhờ thủ tục GA_loadWeight( ) lớp network đợc giữ lại nh kết chơng trình Thủ tục Chức năng: Ngoài sử dụng bảng hai chiều cấp phát động BP_weights( ) để lu trữ - 0.05*N trọng số kết giải thuật GA sau Gen hệ tiến hóa làm đầu vào Vào: cho giải thuật BP Số liệu mẫu tổ chức số liệu: Số liệu thực nghiệm đợc tổ chức tệp số liệu Các cặp véc tơ tín Tập trọng số cá thể tốt sau giai đoạn học giải thuật BP - Tỷ lệ hóa tuyến tính tập huấn luyện vào khoảng [0.1, 0.9] Tập mẫu huấn luyện Ra: - Giá trị hai tập đợc tỷ lệ hóa Xtrain( ), Ytrain( ) với Xtrain( ) véc tơ đầu vào Ytrain( ) véc tơ đầu mong muốn hiệu vào tín hiệu đợc viết dòng Do hàm biến đổi dùng mạng hàm sigmoid nên số liệu đợc chơng trình tự động tỷ lệ hóa tuyến - tính khoảng [0.1, 0.9] theo công thức (4.1) Tập liệu sau đợc tỷ lệ Giải thuật: hóa nh đợc lu trữ hai véc tơ cấp phát động Inputs( ) - Xác định số lợng mẫu có tệp P Expected_outputs( ) - Xác định số biến tín hiệu vào m tín hiệu n 4.2.3 Thiết kế giải thuật - Lặp i = đến P Sơ đồ chơng trình nh sau: Số lợng mẫu có tập P Lặp j = đến m + n + Scale[j] = (0.9-0.1) / (max[j] - min[j]) Vào: + Xtrain[i,j] = (input[i,j] - min[j] )*Scale[j] + 0.1 - Tên file chứa số liệu mẫu - Cấu trúc mạng nơ ron (m, n, a) - Số hệ cần tiến hóa Gen + Ytrain[i,j] = (Target[i,j] - min[j] )*Scale[j] + 0.1 Ra: - Tập trọng số ứng với cấu trúc mạng - Sai số mạng Giải thuật: - Tiền xử lý số liệu việc tỷ lệ hóa tập huấn luyện (Thủ tục 1) - Học tham số giải thuật di truyền (Phân hệ 1) Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 84 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng - Phân hệ Sử dụng giải thuật di truyền m, n, A, Tp luyn - Giải thuật: (Th tc 1.1) - i=1 - Vào: Cấu trúc mạng m, n, a - Tập mẫu luyện Ra: Quần thể cá thể Lặp i = đến Popsize Lặp j = đến M ỏnh giỏ sc khe ton + Sinh số ngẫu nhiên p0 khoảng [0,1] qun th (Phõn h 1.1) + Tính giá trị x = ln (1- p0) hệ cuối cùng, cá thể + Sinh số ngẫu nhiên p1 trọng số mạng + Nếu p1 < 0.5 x = -x Giải thuật: i=i+ Tin húa (phõnh 1.2) + Mã hóa giá trị x thành chuỗi nhị phân 20 bít khoảng [-10,10] Khởi động quần thể (Thủ tục 1.1) - Tính tổng số trọng số M mạng, số trọng số mạng bằng: M = (m + n) * a + n + a - - Quần thể gồm Popsize chuỗi nhị phân đợc lu trữ bảng Khi ng qun th u tiờn nhiều lớp - Số lợng chuỗi nhị phân Popsize OldPop để huấn luyện (học tham số) mạng nơ ron truyền thẳng i < Gen chuỗi cá thể Lặp i = đến Gen + Đánh giá sức khỏe + Nối kết M chuỗi nhị phân thành chuỗi lớn, Hỡnh 4.1: S d gii thut Phõn h toàn quần thể (Phân hệ 1.1) + Tiến hóa từ hệ cũ sang hệ (phân hệ 1.2) Thủ tục 1.1 Chức năng: - Sản sinh bảng OldPop với Popsize dòng Popsize chuỗi nhị phân, chuỗi bảng mã tập trọng số mạng - Các trọng số đợc khởi tạo ngẫu nhiên khoảng [-10,10] tuân theo xác suất e-|x| Vào: - Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Ra: Chức năng: - 85 Cấu trúc mạng m, n, a Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 86 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 87 - Phân hệ 1.1 Chức năng: - Đối với cá Thủ tục 1.1.1 i=1 Chức năng: thể quần thể i=i+1 Tp luyn Gii mó chui th i - Chuỗi nhị phân độ dài Lchrom số, sau lan thnh trng s W - Tổng số trọng số M truyền toàn (Th tc 1.1.1) mạng, tích luỹ sai số theo hàm giá 3.3 chơng Tớnh giỏ tr hm giỏ v hàm thành - giá giá trị Vào: Bảng W( ) trọng số (số thực) lu vo bng Objective Giải thuật: (Th tc 1.1.2) - Lặp i =1 đến M + Cắt liên tiếp chuỗi độ dài 20 bít từ chuỗi cá thể + Tính giá trị x chuỗi nhị phân (x số nguyên dài) i < Gen sức khỏe + Giá trị W(i) = (20.x / (220 - 1)) 10 Tớnh bng Fitness t Thủ tục 1.1.2 bng Objective Chức năng: (Th tc 1.1.3) - Tính sai số cho cấu trúc mạng m, n, a trọng số W với tập luyện cho trớc Quần thể OldPop Tập luyện Ra: Ra Hỡnh 4.2: S d gii thut Phõn h 1.1 Vào: - Cấu trúc mạng m, n, a trọng số - Tập số liệu huấn luyện gồm P mẫu (hai véc tơ vào X, y) Ra: Giá trị sức khoẻ toàn quần thể đợc chứa bảng Fitness( ) Giải thuật - Ra: Chuyển đổi giá trị - Giải mã chuỗi nhị phân thành bảng tuyến tính trọng số W thành tập trọng tập luyện qua - Vào: OldPop giải mã - Tính bảng sức khỏe Fitness( ) từ bảng giá trị hàm giá objective( ) (Thủ tục 1.1.3) chuỗi - Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng - Lặp i = đến PopSize - + Giải mã chuỗi thứ i quần thể oldPop thành tập trọng số W - (Thủ tục 1.1.1) + Tính giá trị hàm giá cho mạng nơ ron có tập trọng số vừa đợc Sai số e sinh sau lan truyền toàn mẫu qua mạng Giải thuật Gán e = Lặp i = đến P + Gán tín hiệu bias = + Gán tín hiệu lớp vào out0 tín hiệu vào X giải mã lu giá trị vào bảng obiective( ) (Thủ tục 1.1.2) Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 88 + Lặp nơ ron thứ j lớp ẩn lớp Tính tín hiệu Out lj = 1 + exp Net lj + Tích luỹ sai số vào e: E = E + ( ( Chức năng: i =1 - n i y j Out last j j =1 OldPop ) Tính bảng giá trị sức khỏe Fitness( ) quần thể oldPop từ bảng giá - Thế quần thể cũ quần Vào: Vào: Tp lai (Th tc 1.2.2) - Quần thể cũ OldPop - Bảng giá trị sức khỏe t bin (Th tc 1.2.3) quần thể cũ Ra: - Bảng giá trị hàm giá objective( ) - Số cá thể quần thể PopSize - Quần thể OldPop đợc i=i+ i < Gen thế hệ Ra: OldPop:= NewPop Bảng giá trị hàm sức khỏe Fitness( ) Giải thuật: - Tính giá trị Max bảng giá trị hàm giá objective( ) - Lặp j = đến Popsize: Fitness[i] = Max objective(i) - Tính giá trị Max, giá trị trung bình ave bảng Fitness Giải thuật: - Toán tử chọn lọc Lặp j = đến PopSize Fitness[j] = Fitness[j]*a + b Hỡnh 4.3: S d gii thut Phõn h 1.2 (Thủ tục 1.2.1) - Lặp i = đến i lớn PopSize, bớc nhảy + Toán tử tạp lai (Thủ tục 1.2.2) Nếu Max > 2*ave a = ave / (Max - ave), b = (Max 2*ave)*a Không a = 1, b = - i=1 thể trị hàm giá objective( ) - Chn lc (Th tc 1.2.1) NewPop từ quần thể cũ Chức năng: - OldPop, Fitness( ) Sản sinh quần thể ) Thủ tục 1.1.3 - Phân hệ 1.2 m Tính tổng tín hiệu vào theo công thức Net lj = w lji x il Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 89 + Toán tử đột biến (Thủ tục 1.2.3) - Thế quần thể cũ OlpPop quần thể NewPop Thủ tục 1.2.1 Chức năng: - Chọn lọc quần thể bố mẹ từ quần thể con, cá thể đợc chọn với sác xuất tỷ lệ với sức khỏe cá thể Vào: - Quần thể cũ OldPop bảng giá trị sức khỏe cá thể quần thể Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 90 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Ra: - Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 91 Thủ tục 1.2.3 Quần thể NewPop cá thể bố mẹ đợc chọn Giải thuật: Chức năng: - Làm đột biến gen hai chuỗi đợc sinh - Tính tổng sức khỏe toàn quần thể Sumfitness Vào: - Lặp i = đến i lớn PopSize - Hai chuỗi sinh sau tạp lai - Xác suất đột biến Pmutation + Sinh số ngẫu nhiên p0 + Tính giá trị Su = p0*Sumfitness + Chỉ số j để tổng chạy sức khỏe cá thể lớn Su số cá thể đợc chọn + Đa cá thể đợc chọn vào quần thể NewPop Thủ tục 1.2.2 Chức năng: - Ra: - Duyệt từ gen hai chuỗi đợc sinh sau tạp lai - Sinh số ngẫu nhiên p0 - Nếu p0 < Pmutation Gen đợc biến đổi từ sang ngợc Tạp lai hai chuỗi bố mẹ để tạo thành hai lại Vào: Không Gen đợc giữ nguyên - Chỉ số hai chuỗi bố mẹ quần thể cũ - Xác suất tạp lai Pcross Ra: - Hai chuỗi sau đột biến Giải thuật: Phân hệ Chức năng: - Hai chuỗi Luyện tham số giải biến đổi trọng - Sinh số ngẫu nhiên p0 số chuyển từ kết - Nếu p0 < Pcross luyện giải thuật GA - Sao chép gen từ đến l bố mẹ sang bố mẹ sang - Sao chép gen từ l+1 đến Lchrom bố mẹ sang từ bố mẹ sang i=1 Hc tham s bng gii thut BP chuyển sang + Sinh số ngẫu nhiên p1 Không Vị trí tạp lai Lchrom - M = 0.05*PopSize b trng s thuật BP với hệ số học Giải thuật + Tính vị trí tạp lai l = p1*(Lchrom -1) - Cu trỳc mng m,n,A - vi h s hc bin i Lu trữ trọng số tốt (Th tc 2.1) Vào: 0.05*PopSize trọng số cấu trúc mạng m, n, a Ra: Một trọng số W Giải thuật: i=i+1 i= = * (1 - a) gán k = Chức năng:Học tham số giải thuật BP với hệ số học biến đổi Vào: Cấu trúc mạng m, n, a, W tập mẫu luyện, số bớc thực biến đổi 4.3 chơng trình dự báo liệu Màn hình chơng trình nh sau : Step, hệ số học , bớc tăng giảm hệ số học a sai số tối thiểu làm tiêu chuẩn dừng Ra: Bộ trọng số W sau học Giải thuật: Lặp bớc sau choi đến sai số MSe nhỏ tiêu chuẩn dừng - Khởi tạo tổng sai số tập huấn luyện e = 0, bớc thực biến đổi k =0 - Lặp i = đến số mẫu có tập luyện + Gán tín hiệu lớp vào out0 = Xi + Lặp nơ ron thứ j lớp ẩn ( l = 1) lớp ( l = 2) m Tín tổng tín hiệu vào theo công thức Net lj = w lji x il i =1 Tín giá trị tín hiệu Out lj = 1 + exp Net lj ( ) + Tính sai số lớp last = ( y j Out last j ) n j =1 + Bắt đầu từ lớp ( l = ) lớp ẩn ( l = ) tính: Hệ số hiệu chỉnh ij Lợng hiệu chỉnh wlji = . ij Outil Hiệu chỉnh trọng số wlji = wlji + wlji Hình 4.5 Màn hình chơng trình dự báo Chơng trình xây dựng gồm mục thực đơn : Khởi tạo tham số, Luyện mạng nơ ron, Dự báo liệu Sau mô tả chi tiết chức chơng trình: Mở tệp huấn luyện Tệp liệu huấn luyện tệp có cấu trúc đợc lu trữ tệp TXT, chứa 43 mẫu số liệu từ năm 2001 đến năm 2005 mực nớc đỉnh lũ, mực nớc chân lũ lợng ma trung bình đo đợc trạm Sơn Giang Số liệu đa vào mạng đợc mã hóa đoạn [0.1,0.9] theo nguyên tắc nêu phần 4.2.1 - Tính giá trị hàm giá e theo Thủ tục 1.1.2 - Các trờng liệu đợc phân cách dấu ; - Thực trình biến đổi hệ số học: - Trờng liệu dự báo trờng cuối cùng, đầu mạng Ví dụ : tệp liệu sau đợc mã hóa nh sau : Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 94 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 95 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng lớp ẩn 4*2 + + 4*1 + = 17 trọng số, độ dài chuỗi cá thể 17*20 = 340 Hình 4.6: Dữ liệu tệp huấnluyện Màn hình nhập tham số cấu trúc mạng Cho phép ngời sử dụng nhập tham số đầu vào cho mạng nơron Số lớp mạng ngầm định 2, số đầu vào số đầu lấy theo tệp huấn luyện Hình 4.8:Màn hình nhập tham số cho giải thuật GA Bớc thực thi giải thuật lai GA - BP Tìm kiếm giải thuật di truyền Màn hình tìm kiếm cá thể tốt giải thuật di truyền có dạng sau Hình 4.7: Màn hình nhập tham số cho mạng nơron Với toán này, số nơ ron lớp ẩn chọn 4, giá trị tham số khác ngầm định hình nhập đợc coi giá trị khởi đầu tốt Sau nhập xong, nhấn OK để gán giá trị tham số cho mạng nơ ron Màn hình nhập tham số giải thuật di truyền Hình 4.9: Tìm kiếm giải thuậ GA Cho phép ngời sử dụng nhập tham số giải thuật di truyền nh kích Tại hệ tiến hóa, hình thông báo số cá thể tốt có sức khỏe lớn thớc quần thể, xác suất tạp lai, xác suất đột biến, số hệ tiến hóa Các giá trị sức khỏe trung bình toàn quần thể số cá thể trung bình có sức khỏe nhỏ sức ngầm định hình dới đợc xem giá trị xuất phát tốt tìm đợc theo khỏe trung bình Nhận thấy gai đoạn cuối số hệ tiến hóa, số cá thể tốt phơng pháp thử sai, kích thớc quần thể chọn 100, số hệ tiến hóa 100 chiếm đại đa số, giá trị sức khỏe chúng gần với giá trị sức khoẻ trung bình Tỷ lệ chuyển giao số cá thể sang luyện tiếp giải thuật BP ngầm định Sau 100 hệ tiến hóa, cá thể có sức khỏe tốt số 100 cá thể 0.05 Số trọng số mạng tơng ứng với toán thử nghiệm chọn nơ ron quần thể cuối đợc lu trữ lại làm đầu vào cho giải thuật BP Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 96 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 97 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Huấn luyện giải thuật BP cá thể lần lợt đợc giải thuật BP sử dụng số học biến đổi luyện đến bão hòa với tham số ban đầu đợc khởi tạo Các đồ thị dới mô tả chu kỳ luyện cá thể Trên đồ thị, đờng màu xanh nhạt đầu mong muốn tập liệu, đờng màu xanh đậm trả lời mạng liệu đầu vào Đối với cá thể, điểm xuất phát luyện giải thuật BP, hai đờng gần nhau, giải thuật di truyền tìm kiếm cá thể gần lời giải Hình 4.10.b:Huấn luyện giải thuật BP Kết thúc chu kỳ huấn luyện cá thể, cá thể có tập trọng số tốt (có sai số MSe nhỏ nhất) đợc chọn làm kết giải thuật Tập trọng số đợc ghi lại dới dạng tệp TXT Dự báo liệu Mạng sau đợc huấn luyện sử dụng để dự báo liệu Tệp liệu dự báo tệp TXT chứa số liệu mối quan hệ mực nớc đỉnh lũ với mực nớc chân lũ lợng ma đo đợc trạm Sơn Giang Tệp có cấu trúc đợc tỷ lệ hóa Hình 4.10.a:Huấn luyện giải thuậi BP giống nh tệp huấn luyện Màn hình dự báo nh sau: Tập liệu huấn luyện đồng thời dùng làm tập kiểm tra để kiểm tra khả tổng quát hóa mạng Việc kiểm tra đợc thực với việc cập nhật đồ thị đặn sau 50 chu kỳ huấn luyện Sau số lớn chu kỳ huấn luyện, khả tổng quát hóa mạng tốt so với ban đầu Trên hình vẽ, hai đờng gần nh trùng Đồng thời, lỗi MSE tiếp tục giảm nhỏ hệ số xác, tập trọng số đợc ghi lại thuật toán lại tiếp tục với cá thể Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 98 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 99 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Kết luận Luận văn tập trung nghiên cứu kỹ thuật sử dụng mạng nơron giải thuật di truyền khai phá liệu Kết hợp tính chất tìm kiếm toàn cục giải thuật GA với tính hội tụ giải thuật BP, luận văn nghiên cứu giải pháp xây dựng giải thuật lai GA-BP huấn luyện mạng nơron truyền thẳng nhiều lớp áp dụng thử nghiệm mô hình cho toán dự báo lĩnh vực khí tợng thuỷ văn Một số kết đạt đợc luận văn: - Tổng kết vấn đề nghiên cứu khai phá liệu phát tri thức CSDL - Tìm hiểu kỹ thuật sử dụng mạng nơron, giải thuật di truyền khai phá liệu vấn đề liên quan Nghiên cứu giải pháp tích hợp giải Hình 4.11:Màn hình dự báo thuật GA giải thuật BP thành giải thuật lai dùng để huấn luyện Trên hình, đờng biểu diễn đầu mong muốn trả lời mạng sát nhau, chứng tỏ khả tổng quát hóa mạng sau đợc học tốt Kết luận chơng Chơng giới thiệu tóan dự báo lũ sông Trà Khúc thực bớc xây dựng chơng trình dự báo dựa sở giải thuật lai GA-BP trình bầy mạng nơron truyền thẳng nhiều lớp - áp dụng vấn đề nghiên cứu vào xây dựng mô hình cài đặt mạng nơron dự báo cho toán dự báo lũ sông Một số hớng phát triển: - chơng Kết chơng trình cho thấy, sau đợc huấn luyện giải thuật lai GA-BP, mạng cho kết dự báo tốt Tích hợp giải thuật GA PB việc học cấu trúc mạng nơron nhằm tìm số nơron lớp ẩn tốt cho toán - Cải tiến toán tử giải thuật GA để nâng cao hiệu tìm kiếm cá thể tốt Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 100 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng algorithm trained Neural network, Computer introduction system, Southwest Tài liệu tiếng Việt Nguyễn Đình Thúc (2001), Lập trình tiến hóa, Nhà xuất giáo dục Tài liệu tiếng Anh [2] Missouri State University, USA [12] Schalkoff R (1997), Artifical neural networks, McGraw-Hill [13] Udoseiffert, Michaelis B., On the gradient desert in back-propagation and its Back T and Schwefel H.-P (1993), An overview of evolutionary algorithms substitution by a genetic algorithm, Proceedings of the IASTED international for parameter optimization, evolutionary Computation, vol 1, no 1, pp 1- Conference Applied Informatics 14-17/02/2000, InnsBruck, Austria 23 [3] Bose N and Liang P (1996), Neural Network Foundamentals with Graphs, algorithms, and applications, McGraw-Hill [4] Fayyad, Gregory Piatetsky, Shapiro, Padhraic Smith, (1996), From Data mining to Knowledge Discovery: An overview [5] Gero J S., Kazakov V a., and Schinier T., (1997), Genetic engineering and design problems, In Evolutionary Algorithms in Engineering Applications, pages 47-68 Springer-Verlag [6] Goldberg D E., (1989), Genetic algorithm in search, optimization and machine learning, Addison-Wesley, Reading, Massachusets [7] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, Institute of Information Technology, http://www.ebook.edu.vn/?page=1.39&view=1694 [8] Lawrence S., C L Giles, a C Tsoj, What size Neural Network Gives optimal Generalization? Convergence Properties of Backpropagation, Techni cal Report, Institute for Advanced Computer Studies - University of Maryland College Park, June 1996 [9] Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng [11] Randall S Sexton and Naheel A Sikander, Data Mining using a Genetic Tài liệu tham khảo [1] 101 Oh S H., Lee yj., a modified error function to improve the error BackPropagation algorithm for Multi-layer perceptrons, eTRi Journal Vol 17, No 1, april 1995 [10] Patterson D (1996), Artifical Neural Networks, Theory and Application, Prentice Hall Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 [...]... nút trong mạng Dơng Thị Hiền Thanh CNTT 2006 40 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 3 Với mạng truyền thẳng: Nếu mức tích cực của nút ra đã biết thì kết 41 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng - Hơn nữa, mặc dù có rất nhiều kỹ thuật và giải thuật đợc sử dụng trong khai thúc phá dữ liệu, một số kỹ. .. niM Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 66 Tóm lại, thuật toán lan truyền ngợc có thể phát biểu nh sau: 67 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 1) Phần lớn các thuật toán huấn luyện cho các mạng nơron truyền thẳng nhiều lớp dựa trên phơng pháp giảm gradient Các lớp thêm vào sẽ thêm việc lan truyền. .. các giải Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 28 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng Chơng 2: Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 29 lý bên trong các nơron Ngoài chức năng xử lý, hệ thống còn có khả năng học số liệu và tổng quát hoá từ các số liệu đã học Kỹ thuật khai phá. . .Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 20 21 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 1.3.4.3 Phát hiện luật kết hợp D6 Ma Lạnh Bình thờng Mạnh Không D7 âm u Lạnh Bình thờng Mạnh Có D8 Nắng ấm áp Cao Yêú Không liệu trong CSDL Đầu ra của thuật toán khai phá dữ liệu là một tập luật kết mà mỗi Phơng pháp... Thanh CNTT 2006 38 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 39 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng Nh vậy, giải thuật học là giải thuật xuất phát từ một tập mẫu, qua quá trình b Học tăng cờng Ta thấy trong kỹ thuật học có giám sát, các vectơ đầu ra đợc biết một cách chính xác, nhng trong một số trờng... 2006 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 58 59 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng không phải các nơ ron theo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một Hình 3.1 là một ví dụ về mạng hai lớp Số nơ ron ở lớp thứ nhất và lớp thứ hai tính toán nào trên dữ liệu vào Các nơ ron ở lớp ẩn và lớp... thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 35 giống nhau Điều đó chứng tỏ rằng việc thực hiện chức năng của bộ não không phụ ắ Mạng nơron truyền thẳng (feed forward Neural Network): Trong mạng, thuộc quá nhiều vào vai trò của một nơron đơn lẻ mà phụ thuộc vào toàn bộ... trong khai phá dữ liệu và thử nghiệm ứng dụng với các dạng dữ liệu và miền dữ liệu nhất định Hiện ngời ta vẫn cha đa ra đợc 25 - Các phơng pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu một tiêu chuẩn nào trong việc quyết định sử dụng phơng pháp khai phá nào trong trờng hợp nào thì hiệu quả Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng trúc trong. .. một vài bộ trọng số tốt nhất sẽ đợc dùng làm các giá trị trọng số khởi tạo cho mạng nơron và kết quả sẽ là cực trị toàn cục các quy tắc tự tổ chức Dơng Thị Hiền Thanh CNTT 2006 Dơng Thị Hiền Thanh CNTT 2006 42 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 43 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng Tập lời giải. .. hoạt động của mạng Để tránh trờng hợp học Dơng Thị Hiền Thanh CNTT 2006 68 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng 69 Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng quá, số trọng số trong các mạng nơ ron phải nhỏ hơn hoặc tơng đơng với số mẫu có trong tập mẫu [12] Nếu số lợng các trọng số quá nhỏ, mạng nơ ron