Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng

10 5 0
Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu và thử nghiệm ứng dụng

Đang tải... (xem toàn văn)

Thông tin tài liệu

1 ABSTRACT In the recent years, the role of using computer in storing and processing data has become more and more important Besides, data collecting equipments has also developed rapidly creating huge data storages These things make a question how to find the truly useful ‘knowledge’ that can help for the decision of a problem With this new demand, the traditional database models and programs are not efficient Instead, the new storage models, the decision assistance systems as well as data mining methods have been developed in parallel to get the useful knowledge from a huge database Nowadays, data mining and knowledge discovery vitally important This thesis focus on studying the algorithms in neutron network and genetic algorithm in data mining Expecially the combination of GA and BP (GA-BP) which provides more reliability From that, the thesis proposes a prediction program for blood level in a river using GA-BP The thesis includes four chapters as following : Chapter : Overview about data mining and knowledge discovery methods in database The basic definitions, concepts and the challenging problems in data mining are also mentioned Chapter : Study the data mining methods using neutron network and genetic algorithm The detail problems of selecting network structure, parameters and building the learning rule are included also This chapter also provides the efficiency evaluations of BP and GA in data mining as the motivation for a better combination model GA-BP Chapter : The earlier part presents the structure of a multilayers feedforward neutron network and BP algorithm The later part presents the problems of using BP and the combination algorithm GA-BP 2 Chapter : Present and modelize the blood level prediction problem in a river The application and C code implimentation of GA-BP solution for this problem is also mentioned CONCLUSION This thesis concentrates on the algorithms in neutron network and the genetic algorithm s in data mining By combination of global optimum finding of GA with the convergence property of BP, the thesis proposes a hybrid solution named GA-BP to derive the learning rule for the multi-layers feed-forward newtron network The result is then applied in the hydrometeorological prediction problem Some contributions of this thesis: - Summarise the researches about data mining and knowledge discover in database - Study the algorithms in newtron newwork as well as genetic algorithm in data mining and the related problems Propose a hybrid solution GA-BP to learn the coefficients in multi-layers feed-forward newtron network - Apply the results to build a model and implement a neutron network for predicting flood level of the river Future work - Integrate GA and BP in a better learning rule of neutron network in order to find the optimal number of neutrons in a invisible layer - Improve the efficiency in finding the best chromosome of GA bé giáo dục đào tạo trờng đại học bách khoa hà nội Dơng thị hiền Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Luận văn thạc sỹ công nghệ thông tin Hà nội 2008 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Mục lục Mục lôc Danh mơc c¸c tõ viÕt t¾t Danh mục bảng Danh mục hình vẽ đồ thÞ Lời nói đầu Chơng khai phá liệu phát hiƯn tri thøc csdl 1.1 tỉng quan khai phá liệu phát tri thức CSDL .8 1.1.1 Tại cần phát tri thøc? 1.1.2 Khai phá liệu phát tri thức sở liệu 1.2 Quá trình pháT HIệN TRI THứC CƠ Sở D÷ LIƯU 10 1.2.2 Thu thËp tiền xử lý liệu .10 1.2.3 Khai phá liệu 12 1.2.4 Minh hoạ đánh giá 12 1.2.5 Đa kết vào thực tế .13 1.3 c¸c kü thuËt Khai phá liệu 13 1.3.1 KiÕn tróc cđa hƯ thèng khai phá liệu .13 1.3.3 Nhiệm vụ khai phá liệu 17 1.3.4 Mét số phơng pháp khai phá liệu phổ biến 19 1.3.5 Những u khó khăn thách thức nghiên cứu ứng dụng kỹ thuật khai phá liệu .24 ™ KÕt luËn ch−¬ng 27 Ch−¬ng kü thuËt khai phá liệu sử dụng mạng nơron giải thuật di truyÒn 21 2.1 Mạng nơron khai phá liệu 28 2.1.1 Khái niệm mạng nơron .28 2.1.2 N¬ron sinh häc mạng nơron sinh học 29 2.1.3 Mô hình trình xử lý nơron nhân tạo .30 2.1.4 Cấu trúc phân loại mạng nơron 33 2.1.5 Häc vµ lan trun m¹ng 36 2.1.6 Đánh giá mạng nơron .40 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thư nghiƯm øng dơng 2.2 Gi¶i tht di trun khaI PHá Dữ LIệU 42 2.2.1 Cơ giải thuật di truyền .42 2.2.2 Mét sè cách biểu diễn lời giải giải thuật di truyền .45 2.2.3 C¸c to¸n tư di trun 46 2.2.4 Cơ sở toán học giải thuật di trun .52 2.2.5 Nh÷ng c¶i tiÕn cđa gi¶i tht di trun .54 ™ KÕt luËn ch−¬ng 56 Chơng tích hợp giải thuật di truyền với giải thuật huấn luyện mạng nơron truyền thẳng nhiều líp 50 3.1 Đặt vấn đề 57 3.2 m¹ng nơron truyền thẳng nhiều lớp với giải thuật lan truyền ngợc sai số số cải tiến 57 3.2.1 KiÕn trúc mạng nơron truyền thẳng nhiều lớp 57 3.2.2 Cơ chế học mạng nơ ron trun th¼ng nhiỊu líp 59 3.2.3 Thuật toán lan truyền ngợc sai số .60 3.2.2 Mét sè c¶i tiÕn cđa gi¶i tht BP 71 3.3 Kết hợp giải thuật di trun víi gi¶i tht BP 73 3.3.1 Giải thuật GA huấn luyện mạng nơron trun th¼ng nhiỊu líp 73 3.3.2 GhÐp nèi víi giải thuật lan truyền ngợc sai số 75 ™ KÕt luËn ch−¬ng 76 Chơng ứng dụng toán dự báo d÷ liƯu .71 4.1 giíi thiƯu toán 78 4.2 mô hình hoá toán, thiết kế liệu giải thuật 80 4.2.1 Mô hình hoá toán 80 4.2.2 ThiÕt kÕ d÷ liƯu 81 4.2.3 ThiÕt kÕ gi¶i thuËt .82 4.3 chơng trình dự báo liệu .93 ™ KÕt luËn ch−¬ng 98 KÕt luËn 99 Tài liệu tham khảo 100 D−¬ng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục từ viÕt t¾t STT Tõ viÕt t¾t NghÜa tiÕng viƯt tiÕng anh ANN Mạng nơron nhân tạo Artficial Neural Network BNN Mạng nơron sinh học Biological Neural Network BP Giải thuật lan truyền Back-Propagation of error ngợc sai số Csdl Cơ sở liệu Data Base dm Khai phá liệu Data Mining GA Giải thuật di truyền Genetic Algorithm Kdd Phát tri thức Knowledge CSDL Dơng Thị Hiền Thanh CNTT 2006 Database Discover in Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục bảng Bảng 1.1: Dữ liệu học ví dụ định chơi tennis 20 Bảng 2.1: Ví dụ dùng phép tái tạo 48 Bảng 2.2: Quá trình tái t¹o 51 Bảng 2.3: Quá trình lai ghép 51 Bảng 3.1: Các hàm kích hoạt 69 B¶ng 4.1: Số liệu thử nghiệm toán dự báo 79 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Danh mục hình vẽ đồ thị Hình 1.1: Quá trình phát tri thức CSDL 10 H×nh 1.2: Kiến trúc hệ thống khai phá liệu 14 Hình 1.3: Quá trình khai phá liệu 15 Hình 1.4: Kết phân côm 18 Hình 1.5: Cây định chơi tennis 20 Hình 2.1: Cấu tạo nơron 29 H×nh 2.2: Thu nhËn tÝn hiƯu n¬ron 30 Hình 2.3: Mô hình nơron nhân tạo 31 Hình 2.4: Hàm Sigmoidal 33 H×nh 2.5: Mạng nơron truyền thẳng nhiều lớp 35 Hình 2.6: Mạng hồi quy 35 Hình 2.7: Sơ đồ học tham số cã gi¸m s¸t 37 Hình 2.8: Sơ đồ học tăng cờng 38 Hình 2.9: Sơ đồ học không giám sát 38 H×nh 3.1: Mạng nơron truyền thẳng lớp 58 Hình 3.2: Sơ đồ hiệu chỉnh trọng số giải thuật BP 59 Hình 3.3: Sơ đồ mà hoá trọng số mạng nơron 74 Hình 3.4: Sơ đồ giải thuËt lai 76 Hình 4.1: Sơ đồ khối giải thuật Ph©n hƯ 84 Hình 4.2: Sơ đồ khối giải thuật Phân hÖ 1.1 86 Hình 4.3: Sơ đồ khối giải thuật Phân hệ 1.2 89 H×nh 4.4: Sơ đồ khối giải thuật Phân hệ 91 Hình 4.5: Màn hình chơng trình dự báo 93 Hình 4.6: Dữ liệu tệp huấn luyÖn 94 Hình 4.7: Màn hình nhập tham số cho mạng nơron 94 Hình 4.8: Màn hình nhập tham số cho giải thuật GA 95 H×nh 4.9: T×m kiÕm b»ng gi¶i thuËt GA 95 H×nh 4.10: Hn lun b»ng gi¶i thuËt BP 96 Hình 4.11: Màn hình dự báo 98 D−¬ng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Lời nói đầu Trong năm gần đây, vai trò máy tính việc lu trữ xử lý thông tin ngày trở nên quan trọng Bên cạnh đó, thiết bị thu thập liệu tự động phát triển mạnh góp phần tạo kho liệu khổng lồ Dữ liệu đợc thu thập lu trữ ngày nhiều nhng ngời định lại cần có thông tin bổ ích, tri thức rút từ nguồn liệu liệu cho việc định Với yêu cầu đó, mô hình CSDL truyền thống ngôn ngữ thao tác liệu không thích hợp Để có đợc tri thức từ CSDL, ngời ta đà phát triển lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, phơng pháp khai phá liệu phát tri thức CSDL Trong số đó, khai phá liệu phát tri thức đà trở thành lĩnh vực nghiên cứu sôi động Luận văn tập trung nghiên cứu kỹ thuật sử dụng mạng nơron giải thuật di truyền khai phá liệu, đặc biệt giải pháp tích hợp giải thuật di truyền với giải thuật huấn luyện mạng nơron Trên sở đó, luận văn xây dựng chơng trình dự báo liệu sử dụng mạng nơron truyền thẳng huấn luyện giải thuật lai GABP Luận văn đợc trình bầy gồm chơng với nội dung nh sau : Chơng 1: Trình bầy cách tổng quan khai phá liệu phát tri thức CSDL Trong đề cập đến khái nệm, trình phát tri thức, nhiệm vụ phơng pháp khai phá liệu nh vấn đề thách thức nghiên cứu áp dụng kỹ thuật khai phá liệu vào thực tế Chơng 2: Nghiên cứu kỹ thuật khai phá liệu sử dụng mạng nơron giải thuật di truyền, cụ thể vấn đề lựa chọn cấu trúc mạng tham số, xây dựng giải thuật học lan truyền mạng nơron, nh cách biểu diễn lời giải, toán tử di truyền cải tiến giải thuật di truyền Đồng thời, chơng đa đánh giá hiệu kỹ thuật sử dụng mạng nơron giải thuật di truyền khai phá liệu, qua định hớng cho việc lựa chọn phơng pháp khai phá thích hợp cho vấn đề thực tế Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng Chơng : Giới thiệu kiến trúc mạng nơron truyền thẳng nhiều lớp, giải thuật BP, vấn đề sử dụng giải thuật BP trình bầy giải pháp tích hợp giải thuật GA với giải thuật BP huấn luyện mạng nơron truyền thẳng nhiều lớp Chơng : Giới thiệu toán ứng dụng dự báo lũ sông, từ mô hình hoá toán, thiết kế thuật toán, liệu cài đặt chơng trình thử nghiệm với công cụ mạng nơron truyền thẳng huấn luyện giải thuật lai GA-BP Dơng Thị Hiền Thanh CNTT 2006 ... giá mạng nơron .40 Dơng Thị Hiền Thanh CNTT 2006 Kỹ thuật mạng nơron giải thuật di truyền khai phá liệu thử nghiệm ứng dụng 2.2 Giải thuật di truyền khaI PHá Dữ LIệU 42 2.2.1 Cơ giải. .. nhiệm vụ phơng pháp khai phá liệu nh vấn đề thách thức nghiên cứu áp dụng kỹ thuật khai phá liệu vào thực tế Chơng 2: Nghiên cứu kỹ thuật khai phá liệu sử dụng mạng nơron giải thuật di truyền, cụ... cứu ứng dụng kỹ thuật khai phá liệu .24 ™ KÕt luËn ch−¬ng 27 Ch−¬ng kü thuËt khai phá liệu sử dụng mạng nơron giải thuËt di truyÒn 21 2.1 Mạng nơron khai phá liệu

Ngày đăng: 21/10/2022, 17:16

Tài liệu cùng người dùng

Tài liệu liên quan