Ápdụngmáyhọcđểtìmđặctrưngtốiưutoánxửlýsốliệulớn Ngô Thùy Linh Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: TS Nguyễn Hà Nam Năm bảo vệ: 2011 Abstract: Tổng quan toán cần giải quyết: khai phá liệu trích chọn thuộc tính, lựa chọn thuộc tính tốn phân lớp, Phương pháp dự kiến thực Trình bày số kỹ thuật lựa chọn thuộc tính: Phương pháp lựa chọn thuộc tính, số thuật tốn lựa chọn thuộc tính Phân tích sởlý thuyết thuật giải di truyền mạng nơron nhân tạo: Thuật toán di truyền, mạng nơron nhân tạo Kết hợp giải thuật di truyền mạng nơron để giảm chiều số liệu: Giới thiệu, kiến trúc hệ thống, hoạt động hệ thống Keywords: Bài toán; Giải thuật di truyền; Mạng nơron nhân tạo; Hệ thống thông tin; Khai phá liệu Content GIỚI THIỆU BÀITOÁN Ngày nhờ phát triển mạnh mẽ khoa học kỹ thuật mà tích lũy liệu xảy với tốc độ bùng nổ, lượng thông tin lưu trữ thiết bị điện tử không ngừng tăng lên Số lượng ghi kích thước ghi thu thập nhanh lớn gây khó khăn việc lưu trữ xửlý thơng tin thuật tốn phân lớp phát triển giải với lượng sốliệu giới hạn với độ phức tạp liệu biết trước Người ta đưa giải pháp để giải vấn đề như: xửlý song song, tìm mẫu đặc trưng, tìm thuộc tính đặctrưng Hướng nghiên cứu luận văn tìm thuộc tính đặctrưngsốliệu ban đầu hay gọi lựa chọn thuộc tính (feature selection) Bài tốn mơ tả sau: liệu thu được lưu lại bảng thông tin hai chiều, gồm hàng trăm ghi, ghi lại có hàng trăm, đến hàng nghìn thuộc tính Các ghi phân chia vào lớp cho trước Yêu cầu đặt tìm thuộc tính tốiưu mà đảm bảo việc phân lớp ghi NỘI DUNG LUẬN VĂN Luận văn sử dụng giải thuật di truyền (GA) kết hợp với mạng nơron nhân tạo (NN) để giải toán Về người ta phân loại phương pháp lựa chọn thuộc tính theo hai cách tiếp cận khác wrapper filter Ở luận văn sử dụng GA cách tiếp cận theo mơ hình wrapper đểtìm thuộc tính tối ưu, loại bỏ thuộc tính dư thừa Theo mơ hình wrapper bao gồm hai giai đoạn: giai đoạn lựa chọn tập thuộc tính, giai đoạn tập tốt chọn tiêu chí độ xác phân lớp; giai đoạn học kiểm tra, phân lớp học tri thức từ liệu tập huấn luyện thơng qua tập thuộc tính tốt chọn kiểm tra lại tập liệu kiểm tra Mơ hình luận văn sử dụng gồm hai phần chính: phần sử dụng giải thuật di truyền kết hợp với mạng nơron nhân tạo đểtìm thuộc tính tốt nhất, phần dùng mạng nơron Back propagation để đánh giá chất lượng hệ thống Dữ liệu ban đầu phân chia thành tập liệu huấn luyện tập liệu kiểm tra Khi cho tập liệu huấn luyện qua phần nhờ GA sinh tập thuộc tính ban đầu, mạng nơron dùng làm hàm mục tiêu giải thuật di truyền, để tính độ thích nghi cá thể quần thể độ phù hợp thuộc tính vòng lặp giải thuật di truyền hệ thống Kết thúc phần 1, thuộc tính có độ phù hợp cao chọn Tiếp đến thực phần 2, lấy ghi liệu huấn luyện với thuộc tính vừa chọn phần để huấn luyện mạng nơron Sau huấn luyện xong, lấy ghi tập liệu kiểm tra với thuộc tính tìm phần kết dự đoán Luận văn thực thử nghiệm hai liệu có thực tế là: liệu Stomach Cancer mô tả thông tin gen số bệnh nhân bị ung thư dày bệnh nhân bình thường, liệu thứ hai Lung Cancer mô tả thông tin gen bệnh nhân ung thư phổi Kết hai thực nghiệm cho thấy số thuộc tính thuộc tính tốt tìm dao động xung quanh nửa số thuộc tính liệu ban đầu Đểtìm thuộc tính tốiưu có số lượng nhỏ hơn, luận văn đề xuất phương án cải tiến sau: hạn chế số thuộc tính đầu theo tỷ lệ 0.1, 0.2, 0.3, 0.4, 0.5 Để làm việc này, ta ép số thuộc tính đầu sau giai đoạn đột biến giải thuật di truyền theo tỷ lệ cho trước Sau tiến hành kiểm tra 20 lần số thuộc tính tìm theo tỷ lệ Bộ thuộc tính cho giá trị trung bình cao độ lệch chuẩn thấp thuộc tính chọn Tiếp theo so sánh kết thực nghiệm hướng cải tiến đề xuất với kết thực nghiệm phương pháp ban đầu Từ rút nhận xét phương pháp cải tiến khả thi cho kết cao phương pháp chưa cải tiến Cụ thể số thuộc tính tìm nhỏ hơn, thời gian huấn luyện kiểm tra nhanh hơn, đồng thời kết dự đoán cao phương pháp nguyên gốc KẾT LUẬN Luận văn tìm hiểu số phương pháp lựa chọn thuộc tính Trình bày phương pháp cụ thể để giải toán kết hợp giải thuật di truyền mạng nơron nhân tạo Cơ sởlý thuyết GA NN trình bày kỹ luận văn Sau luận văn đề xuất phương án cải tiến thực thực nghiệm hai liệu khác có thực tế Kết cho thấy phương án cải tiến đề xuất cho kết dự đoán tốt cao phương pháp chưa cải tiến Hướng nghiên cứu luận văn tìm hiểu số thuật toán phân lớp khác mạng nơron, định hay phương pháp hỗ trợ véc tơ (SVM),… Tiến hành thực nghiệm sốliệu khác Tìm hiểu phương pháp tốiưu tham số mạng nơron nhân tạo sử dụng mạng nơron động thay mạng nơron tĩnh để giảm bớt thời gian thực hệ thống References Tài liệu Tiếng Việt [1] Nguyễn Đình Thúc, Lập trình tiến hóa, Nhà xuất giáo dục, 2001 [2] Đinh Mạnh Tường, Trí Tuệ Nhân Tạo, Nhà Xuất Bản Khoa học Kỹ Thuật, 2003 Tài liệu Tiếng Anh [1] Huan Liu and Hiroshi Motoda, Computational Methods of Feature Selection, Chapman & Hall/CRC, 2008 [2] YongSeog Kim and Filipppo Meczenc, Feature Selection in Data Mining, 2005 [3] Jacek Jarmulak and Susan Craw, Genetic Algorithms for Feature Selection and Weighting, IJCAI 99 workshop, 1999 [4] Jihoon Yang and Vasant Honavar, Feature Subset Selection Using a Genetic Algorithm, Artifical Intelligence Research Group [5] Krzysztof J.Cios, Witold Deddrycz, Roman W.Swiniarski, Lukasz A.Kurgan, Data Mining A Knowledge Discovery Approach, Springer, 2007 [6] Luis Carlos Molina et at, Feature Selection for Algorithms: A Survey and Experimental Evaluation, 2000 [7] Ron Kohavi and George H John, Wrapper for Feature Subset Selection, AIJ special issuse on relevance, 1996 [8] Chin-Teng Lin, C.S George Lee, (1996), Neural Fuzzy Systems: A neuro-Fuzzy Synergism to Intelligent Systems, Prentice-Hall International, Inc [9] Sancho Salcedo –Sanz etc, Feature Selection via Genetic Optimization, 2000 [10] Padhraic Smyth, Cross-Validation Methods, CS 175, Fall 2007 [11] Ha Nam Nguyen, Syng Yup Ohn, A Learning Algorithm based for Searching Optimal Combined Kernal Function in Support Vector Machine, 2005 [12] Translation of Microarray Data into Clinically Relevant Cancer Diagnostic Tests Using Gege Expression Ratios in Lung Cancer And Mesothelioma, Cancer Research, 2002 ... định hay phương pháp hỗ trợ véc tơ (SVM),… Tiến hành thực nghiệm số liệu khác Tìm hiểu phương pháp tối ưu tham số mạng nơron nhân tạo sử dụng mạng nơron động thay mạng nơron tĩnh để giảm bớt thời... nhân tạo để tìm thuộc tính tốt nhất, phần dùng mạng nơron Back propagation để đánh giá chất lượng hệ thống Dữ liệu ban đầu phân chia thành tập liệu huấn luyện tập liệu kiểm tra Khi cho tập liệu huấn... quanh nửa số thuộc tính liệu ban đầu Để tìm thuộc tính tối ưu có số lượng nhỏ hơn, luận văn đề xuất phương án cải tiến sau: hạn chế số thuộc tính đầu theo tỷ lệ 0.1, 0.2, 0.3, 0.4, 0.5 Để làm việc