Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
382,88 KB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Vũ Thị Hiền PHÂN LỚP CÁC MẪU VỚI ỨNG DỤNG CỦA MẠNG NƠRON NHÂN TẠO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Phân lớp mẫu vấn đề thú vị bổ ích Đây vấn đề hay gặp sống Các nhà băng cần phân lớp khách hàng theo mức rủi để hoàn cảnh cụ thể, với khách hàng cụ thể nhân viên nhà băng định có cho vay hay không cho vay nhiều hay cho vay Các nhà quản lý cần xếp cán bộ, nhân viên quyền vào lớp để qui hoạch xây dựng đội ngũ Mỗi cán bộ, nhân viên với giá trị thông số khác cần phải đưa vào lớp khác Các nhà giáo dục cần phân lớp em học sinh theo tiêu chí khác Khi biết đối tượng dạy học thuộc lớp ta có phương pháp giáo dục thích hợp Các trường chuyên nghiệp cần phân lớp học sinh theo tham số khác tương ứng với mức học bổng khác Với kho liệu khổng lồ, phân lớp thao tác giúp ta khai phá liệu, tìm kiếm tri thức nhanh chóng hiệu Các đối tượng cần phân lớp thường biểu diễn vectơ, thuộc tính có thứ nguyên khác việc phân lớp khó khăn Ví dụ cần phân lớp cán theo tiêu chí tài đức Thật khó đánh giá xem lớp trên, lớp giá trị trung bình hai tiêu chí họ xấp xỉ Nếu việc phân lớp không xác, giống đánh giá không xác tất yếu dẫn đến hậu tai hại Đã có nhiều người quan tâm đến vấn đề phân lớp Nhưng phương pháp có thường chịu ảnh hưởng nhiều cảm tính, chịu ảnh hưởng nhiều yếu tố tâm lý, chủ thể phân lớp Ngay với phương pháp toán học, ranh giới phân lớp nhiều trường hợp tuyến tính nên toán phân lớp thường có độ phức tạp tính toán lớn độ xác không cao Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Mạng nơron nhân tạo mô hình tính toán mô hoạt động não người Do có tính mềm dẻo, linh hoạt khả dung thứ lỗi, mạng nơron xấp xỉ hàm với độ xác cao nên việc phân lớp mạng nơron đưa đến kết khách quan mà đảm bảo kết tốt Về mặt lý thuyết, phân lớp nhờ mạng nơron nhân tạo nghiên cứu khẳng định khả tiềm tàng mô hình tính toán Những khảo nghiệm sâu giải thuật với mạng phân lớp nghiên cứu thử nghiệm mô hình chưa nhiều Vì thế, khuôn khổ luận văn thạc sĩ chọn đề tài: “Phân lớp mẫu với ứng dụng mạng nơron nhân tạo” nhằm tìm hiểu thêm mạng nơron nhân tạo với việc phân lớp số Từ rút kết luận cần thiết cho việc xây dựng ứng dụng cụ thể sau Em xin cảm ơn giúp đỡ nhiệt tình thầy, đặc biệt TS Nguyễn Tân Ân Luận văn tránh khỏi sai xót, em mong nhận đóng góp ý kiến thầy bạn để luận văn hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng Bài toán phân lớp 1.1 Khái niệm phân lớp 1.1.1 Khái niệm phân lớp Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị hay nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp tiên đoán loại lớp nhãn 1.1.2 Bài toán phân lớp • Mục đích: để dự đoán nhãn phân lớp cho liệu/mẫu • Đầu vào: tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu • Đầu ra: mô hình (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp 1.2 Một số ứng dụng phân lớp tiêu biểu • Tín dụng • Tiếp thị • Chẩn đoán y khoa • Phân tích hiệu điều trị 1.3 Quy trình phân lớp Bao gồm bước: Xây dựng mô hình sử dụng mô hình - Bước Xây dựng mô hình: mô tả tập lớp định nghĩa trước Trong đó, mẫu gán thuộc lớp định nghĩa trước xác định thuộc tính nhãn lớp, tập hợp sử dụng việc sử dụng mô hình gọi tập huấn luyện Mô hình biểu diễn luật phân lớp, định công thức toán học - Bước Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp liệu tương lai phân lớp cho đối tượng chưa biết đến Trước sử dụng mô hình người ta thường phải đánh giá tính xác mô hình, nhãn biết mẫu kiểm tra so sánh với kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn phân lớp mô hình, độ xác phần trăm tập hợp mẫu kiểm tra mà phân loại mô hình, tập kiểm tra độc lập với tập huấn luyện 1.4 Các kỹ thuật phân lớp 1.4.1 Phân lớp phƣơng pháp qui nạp định 1.4.1.1 Khái niệm định Cây định flow-chart giống cấu trúc cây, nút bên biểu thị kiểm tra thuộc tính, nhánh biểu diễn đầu kiểm tra, nút biểu diễn nhãn lớp phân bố lớp Việc tạo định bao gồm giai đoạn: Tạo tỉa Để tạo thời điểm bắt đầu tất ví dụ huấn luyện gốc sau phân chia ví dụ huấn luyện theo cách đệ qui dựa thuộc tính chọn Việc tỉa xác định xóa nhánh mà có phần tử hỗn loạn phần tử nằm (những phần tử phân vào lớp đó) Việc sử dụng định nhƣ sau: Kiểm tra giá trị thuộc tính mẫu định 1.4.1.2 Thuật toán qui nạp định Giải thuật (giải thuật tham lam) chia thành bước sau: Cây xây dựng đệ qui từ xuống (top-down) theo cách thức chia để trị (divide-conquer) Ở thời điểm bắt đầu, tất ví dụ huấn luyện gốc Thuộc tính phân loại (nếu giá trị liên tục chúng rời rạc hóa) Những ví dụ huấn luyện phân chia đệ qui dựa thuộc tính mà chọn lựa Kiểm tra thuộc tính chọn dựa tảng heristic định lượng thống kê Điều kiện để dừng việc phân chia: Tất mẫu huấn luyện nút cho trước thuộc lớp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Không thuộc tính lại để phân chia tiếp Không lại mẫu 1.4.1.3 Nội dung giải thuật học định ID3 ID3 giải thuật học định phát triển Ross Quinlan (1983) Ý tưởng giải thuật ID3 để xây dựng định việc sử dụng cách tìm kiếm từ xuống tập hợp cho trước để kiểm tra thuộc tính nút Để chọn thuộc tính hữu ích cho phân loại tập hợp cho trước, đưa hệ đo độ lợi thông tin Để tìm cách tối ưu để phân loại tập hợp thông tin, vấn đề đặt cần phải làm tối thiểu hóa (chẳng hạn, tối thiểu chiều cao cây) Như cần số chức đánh giá trường hợp cho phân chia cân Hệ đo độ lợi thông tin hàm 1.4.1.4 Những thiếu sót giải thuật ID3 Trường hợp thiếu sót thứ nhất: Một thiếu sót quan trọng ID3 không gian phân chia hợp lệ nút cạn kiệt Một phân chia phân hoạch trường hợp không gian mà kết đạt từ việc thử nghiệm nút định ID3 cháu cho phép kiểm tra thuộc tính đơn nhánh kết cho từ kiểm tra Trường hợp thiếu sót thứ hai: ID3 dựa nhiều vào số lượng tập hợp liệu đưa vào Quản lý tạp nhiễu tập liệu vào vô quan trọng ứng dụng giải thuật học định vào giới thực Ví dụ, có lẫn tạp tập liệu đưa vào số lượng ví dụ đưa vào nhỏ để tạo ví dụ điển hình hàm mục tiêu ID3 dẫn đến việc tạo định sai Có nhiều mở rộng từ giải thuật ID3 phát triển để áp dụng luật học định vào giới thực, post-pruning Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn tree, quản lý thuộc tính giá trị thực, liên quan đến việc thiếu thuộc tính, sử dụng tiêu chuẩn chọn lựa thuộc tính khác thu thập thông tin 1.4.1.5 Sự phân lớp định sở liệu lớn Sự phân lớp vấn đề cổ điển nguyên cứu cách mở rộng nhà thống kê nhà nguyên cứu máy học Hướng phát triển việc phân lớp phân lớp tập liệu với hàng tỉ mẫu thử hàng trăm thuộc tính với tốc độ vừa phải Qui nạp định đánh giá cao khai phá liệu lớn vì: Tốc độ học tương đối nhanh so với phương pháp phân loại khác Có thể hoán chuyển thành luật phân lớp đơn giản dễ hiểu Có thể sử dụng truy vấn SQL để truy xuất sở liệu Sự xác phân lớp so sánh với phương pháp khác 1.4.2 Phƣơng pháp phân lớp Bayesian (Bayesian classifier) 1.4.2.1 Đặc điểm Lý thuyết Bayesian cung cấp tiếp cận theo xác xuất để suy diễn Nó dựa giả thuyết số lượng khuynh hướng bị chi phối phân bố xác suất định tối ưu tạo suy luận xác suất liền với liệu quan sát Đây vấn đề quan trọng máy học cung cấp tiếp cận định lượng cho việc xem xét cẩn thận chứng hỗ trợ giả thuyết thay đổi Lý thuyết Bayesian cung cấp giải thuật học mà vận dụng xác suất khung làm việc cho phân tích hoạt động giải thuật mà vận dụng rõ ràng Học theo xác suất: Tính xác suất xuất cho giả thuyết, số tiếp cận thực dụng cho kiểu chắn vấn đề học Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Tính tăng dần: ví dụ huấn luyện gia tăng việc tăng giảm mà không gian giả thuyết Kiến thức trước kết hợp với liệu quan sát Tiên đoán xác suất: Tiên đoán nhiều không gian giả thuyết, đo xác suất Tiêu chuẩn: Thậm chí phương thức Bayesian khó tính toán, chúng cung cấp tiêu chuẩn tốt cho việc tạo định 1.4.2.2 Khó khăn phương pháp phân lớp Bayesian Khó khăn thực tế phương pháp phân lớp Bayesian chỗ: - Đòi hỏi kiến thức khởi tạo nhiều khả xảy ra, - Chi phí tính toán đáng kể 1.4.2.3 Sự độc lập giả thuyết: Những giả thuyết độc lập giúp cho việc tính toán trở nên dễ dàng Độ lợi phân lớp tốt đạt thực tế thuộc tính (biến) thường liên quan với Để vượt qua giới hạn người ta giải cách: Dùng mạng Bayesian, kết hợp lý luận quan hệ nhân thuộc tính Cây định mà suy luận thuộc tính thời điểm xem xét thuộc tính quan trọng 1.4.2.4 Mạng Bayesian Tin cậy ( Bayesian belief network ) : Bayesian belief network cho phép tập biến độc lập theo điều kiện Trong Bayesian belief người ta sử dụng mô hình đồ thị quan hệ nhân Có nhiều cách học Bayesian belief networks sau: Cho trước cấu trúc mạng biến: cách dễ dàng Cho trước cấu trúc mạng có vài biến tất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Cấu trúc mạng hoàn toàn 1.4.3 Phƣơng pháp phân lớp mạng lan truyền ngƣợc (mạng Nơron) 1.4.3.1 Cấu trúc neural sau: Hình - Cấu trúc Nơron Vector x n chiều ánh xạ vào biến y dựa tích vô hướng hàm ánh xạ phi tuyến 1.4.3.2 Mạng huấn luyện: a) Mục tiêu việc huấn luyện Đạt tập hợp trọng số mà làm cho hầu hết tất tập huấn luyện phân lớp b) Những bước trình huấn luyện Khởi tạo trọng số với giá trị ngẫu nhiên Lần lượt đưa vào mạng Đối với đơn vị: - Tính toán mạng input cho đơn vị kết hợp tuyến tính tất input đơn vị - Tính toán giá trị output sử dụng hàm kích hoạt - Tính toán lỗi - Cập nhật trọng số khuynh hướng 1.4.3.3 Mạng thu giảm rút trích luật Mạng thu giảm: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... thạc sĩ chọn đề tài: Phân lớp mẫu với ứng dụng mạng nơron nhân tạo nhằm tìm hiểu thêm mạng nơron nhân tạo với việc phân lớp số Từ rút kết luận cần thiết cho việc xây dựng ứng dụng cụ thể sau Em... Bài toán phân lớp 1.1 Khái niệm phân lớp 1.1.1 Khái niệm phân lớp Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị hay nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp tiên đoán... đoán loại lớp nhãn 1.1.2 Bài toán phân lớp • Mục đích: để dự đoán nhãn phân lớp cho liệu /mẫu • Đầu vào: tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu • Đầu ra: mô hình (bộ phân lớp) dựa