Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
0,96 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG Vũ Thị Hiền PHÂN LỚP CÁC MẪU VỚI ỨNG DỤNG CỦA MẠNG NƠRON NHÂN TẠO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Ngun - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Phân lớp mẫu vấn đề thú vị bổ ích Đây vấn đề hay gặp sống Các nhà băng cần phân lớp khách hàng theo mức rủi để hoàn cảnh cụ thể, với khách hàng cụ thể nhân viên nhà băng định có cho vay hay không cho vay nhiều hay cho vay Các nhà quản lý cần xếp cán bộ, nhân viên quyền vào lớp để qui hoạch xây dựng đội ngũ Mỗi cán bộ, nhân viên với giá trị thông số khác cần phải đưa vào lớp khác Các nhà giáo dục cần phân lớp em học sinh theo tiêu chí khác Khi biết đối tượng dạy học thuộc lớp ta có phương pháp giáo dục thích hợp Các trường chuyên nghiệp cần phân lớp học sinh theo tham số khác tương ứng với mức học bổng khác Với kho liệu khổng lồ, phân lớp thao tác giúp ta khai phá liệu, tìm kiếm tri thức nhanh chóng hiệu Các đối tượng cần phân lớp thường biểu diễn vectơ, thuộc tính có thứ ngun khác việc phân lớp khó khăn Ví dụ cần phân lớp cán theo tiêu chí tài đức Thật khó đánh giá xem lớp trên, lớp giá trị trung bình hai tiêu chí họ xấp xỉ Nếu việc phân lớp khơng xác, giống đánh giá khơng xác tất yếu dẫn đến hậu tai hại Đã có nhiều người quan tâm đến vấn đề phân lớp Nhưng phương pháp có thường chịu ảnh hưởng nhiều cảm tính, chịu ảnh hưởng nhiều yếu tố tâm lý, chủ thể phân lớp Ngay với phương pháp toán học, ranh giới phân lớp nhiều trường hợp tuyến tính nên tốn phân lớp thường có độ phức tạp tính tốn lớn độ xác khơng cao Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Mạng nơron nhân tạo mơ hình tính tốn mơ hoạt động não người Do có tính mềm dẻo, linh hoạt khả dung thứ lỗi, mạng nơron xấp xỉ hàm với độ xác cao nên việc phân lớp mạng nơron đưa đến kết khơng khách quan mà cịn đảm bảo kết tốt Về mặt lý thuyết, phân lớp nhờ mạng nơron nhân tạo nghiên cứu khẳng định khả tiềm tàng mơ hình tính toán Những khảo nghiệm sâu giải thuật với mạng phân lớp nghiên cứu thử nghiệm mô hình cịn chưa nhiều Vì thế, khn khổ luận văn thạc sĩ chọn đề tài: “Phân lớp mẫu với ứng dụng mạng nơron nhân tạo” nhằm tìm hiểu thêm mạng nơron nhân tạo với việc phân lớp số Từ rút kết luận cần thiết cho việc xây dựng ứng dụng cụ thể sau Em xin cảm ơn giúp đỡ nhiệt tình thầy, đặc biệt TS Nguyễn Tân Ân Luận văn tránh khỏi sai xót, em mong nhận đóng góp ý kiến thầy bạn để luận văn hồn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng Bài toán phân lớp 1.1 Khái niệm phân lớp 1.1.1 Khái niệm phân lớp Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị hay nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp tiên đoán loại lớp nhãn 1.1.2 Bài tốn phân lớp • Mục đích: để dự đốn nhãn phân lớp cho liệu/mẫu • Đầu vào: tập mẫu liệu huấn luyện, với nhãn phân lớp cho mẫu liệu • Đầu ra: mơ hình (bộ phân lớp) dựa tập huấn luyện nhãn phân lớp 1.2 Một số ứng dụng phân lớp tiêu biểu • Tín dụng • Tiếp thị • Chẩn đoán y khoa • Phân tích hiệu điều trị 1.3 Quy trình phân lớp Bao gồm bước: Xây dựng mơ hình sử dụng mơ hình - Bước Xây dựng mơ hình: mô tả tập lớp định nghĩa trước Trong đó, mẫu gán thuộc lớp định nghĩa trước xác định thuộc tính nhãn lớp, tập hợp sử dụng việc sử dụng mô hình gọi tập huấn luyện Mơ hình biểu diễn luật phân lớp, định cơng thức tốn học - Bước Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp liệu tương lai phân lớp cho đối tượng chưa biết đến Trước sử dụng mơ hình người ta thường phải đánh giá tính xác mơ hình, nhãn biết mẫu kiểm tra so sánh với kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn phân lớp mơ hình, độ xác phần trăm tập hợp mẫu kiểm tra mà phân loại mô hình, tập kiểm tra độc lập với tập huấn luyện 1.4 Các kỹ thuật phân lớp 1.4.1 Phân lớp phƣơng pháp qui nạp định 1.4.1.1 Khái niệm định Cây định flow-chart giống cấu trúc cây, nút bên biểu thị kiểm tra thuộc tính, nhánh biểu diễn đầu kiểm tra, nút biểu diễn nhãn lớp phân bố lớp Việc tạo định bao gồm giai đoạn: Tạo tỉa Để tạo thời điểm bắt đầu tất ví dụ huấn luyện gốc sau phân chia ví dụ huấn luyện theo cách đệ qui dựa thuộc tính chọn Việc tỉa xác định xóa nhánh mà có phần tử hỗn loạn phần tử nằm (những phần tử khơng thể phân vào lớp đó) Việc sử dụng định nhƣ sau: Kiểm tra giá trị thuộc tính mẫu định 1.4.1.2 Thuật toán qui nạp định Giải thuật (giải thuật tham lam) chia thành bước sau: Cây xây dựng đệ qui từ xuống (top-down) theo cách thức chia để trị (divide-conquer) Ở thời điểm bắt đầu, tất ví dụ huấn luyện gốc Thuộc tính phân loại (nếu giá trị liên tục chúng rời rạc hóa) Những ví dụ huấn luyện phân chia đệ qui dựa thuộc tính mà chọn lựa Kiểm tra thuộc tính chọn dựa tảng heristic định lượng thống kê Điều kiện để dừng việc phân chia: Tất mẫu huấn luyện nút cho trước thuộc lớp Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn Khơng cịn thuộc tính cịn lại để phân chia tiếp Khơng cịn lại mẫu 1.4.1.3 Nội dung giải thuật học định ID3 ID3 giải thuật học định phát triển Ross Quinlan (1983) Ý tưởng giải thuật ID3 để xây dựng định việc sử dụng cách tìm kiếm từ xuống tập hợp cho trước để kiểm tra thuộc tính nút Để chọn thuộc tính hữu ích cho phân loại tập hợp cho trước, đưa hệ đo độ lợi thơng tin Để tìm cách tối ưu để phân loại tập hợp thông tin, vấn đề đặt cần phải làm tối thiểu hóa (chẳng hạn, tối thiểu chiều cao cây) Như cần số chức đánh giá trường hợp cho phân chia cân Hệ đo độ lợi thông tin hàm 1.4.1.4 Những thiếu sót giải thuật ID3 Trường hợp thiếu sót thứ nhất: Một thiếu sót quan trọng ID3 khơng gian phân chia hợp lệ nút cạn kiệt Một phân chia phân hoạch trường hợp không gian mà kết đạt từ việc thử nghiệm nút định ID3 cháu cho phép kiểm tra thuộc tính đơn nhánh kết cho từ kiểm tra Trường hợp thiếu sót thứ hai: ID3 dựa nhiều vào số lượng tập hợp liệu đưa vào Quản lý tạp nhiễu tập liệu vào vô quan trọng ứng dụng giải thuật học định vào giới thực Ví dụ, có lẫn tạp tập liệu đưa vào số lượng ví dụ đưa vào nhỏ để tạo ví dụ điển hình hàm mục tiêu ID3 dẫn đến việc tạo định sai Có nhiều mở rộng từ giải thuật ID3 phát triển để áp dụng luật học định vào giới thực, post-pruning Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn tree, quản lý thuộc tính giá trị thực, liên quan đến việc thiếu thuộc tính, sử dụng tiêu chuẩn chọn lựa thuộc tính khác thu thập thơng tin 1.4.1.5 Sự phân lớp định sở liệu lớn Sự phân lớp vấn đề cổ điển nguyên cứu cách mở rộng nhà thống kê nhà nguyên cứu máy học Hướng phát triển việc phân lớp phân lớp tập liệu với hàng tỉ mẫu thử hàng trăm thuộc tính với tốc độ vừa phải Qui nạp định đánh giá cao khai phá liệu lớn vì: Tốc độ học tương đối nhanh so với phương pháp phân loại khác Có thể hốn chuyển thành luật phân lớp đơn giản dễ hiểu Có thể sử dụng truy vấn SQL để truy xuất sở liệu Sự xác phân lớp so sánh với phương pháp khác 1.4.2 Phƣơng pháp phân lớp Bayesian (Bayesian classifier) 1.4.2.1 Đặc điểm Lý thuyết Bayesian cung cấp tiếp cận theo xác xuất để suy diễn Nó dựa giả thuyết số lượng khuynh hướng bị chi phối phân bố xác suất định tối ưu tạo suy luận xác suất liền với liệu quan sát Đây vấn đề quan trọng máy học cung cấp tiếp cận định lượng cho việc xem xét cẩn thận chứng hỗ trợ giả thuyết thay đổi Lý thuyết Bayesian cung cấp giải thuật học mà vận dụng xác suất khung làm việc cho phân tích hoạt động giải thuật mà khơng thể vận dụng rõ ràng Học theo xác suất: Tính xác suất xuất cho giả thuyết, số tiếp cận thực dụng cho kiểu chắn vấn đề học Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Tính tăng dần: ví dụ huấn luyện gia tăng việc tăng giảm mà không gian giả thuyết Kiến thức trước kết hợp với liệu quan sát Tiên đoán xác suất: Tiên đoán nhiều không gian giả thuyết, đo xác suất Tiêu chuẩn: Thậm chí phương thức Bayesian khó tính tốn, chúng cung cấp tiêu chuẩn tốt cho việc tạo định 1.4.2.2 Khó khăn phương pháp phân lớp Bayesian Khó khăn thực tế phương pháp phân lớp Bayesian chỗ: - Đòi hỏi kiến thức khởi tạo nhiều khả xảy ra, - Chi phí tính tốn đáng kể 1.4.2.3 Sự độc lập giả thuyết: Những giả thuyết độc lập giúp cho việc tính tốn trở nên dễ dàng Độ lợi phân lớp tốt đạt thực tế thuộc tính (biến) thường liên quan với Để vượt qua giới hạn người ta giải cách: Dùng mạng Bayesian, kết hợp lý luận quan hệ nhân thuộc tính Cây định mà suy luận thuộc tính thời điểm xem xét thuộc tính quan trọng 1.4.2.4 Mạng Bayesian Tin cậy ( Bayesian belief network ) : Bayesian belief network cho phép tập biến độc lập theo điều kiện Trong Bayesian belief người ta sử dụng mơ hình đồ thị quan hệ nhân Có nhiều cách học Bayesian belief networks sau: Cho trước cấu trúc mạng biến: cách dễ dàng Cho trước cấu trúc mạng có vài biến khơng phải tất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Cấu trúc mạng hồn tồn khơng biết 1.4.3 Phƣơng pháp phân lớp mạng lan truyền ngƣợc (mạng Nơron) 1.4.3.1 Cấu trúc neural sau: Hình - Cấu trúc Nơron Vector x n chiều ánh xạ vào biến y dựa tích vơ hướng hàm ánh xạ phi tuyến 1.4.3.2 Mạng huấn luyện: a) Mục tiêu việc huấn luyện Đạt tập hợp trọng số mà làm cho hầu hết tất tập huấn luyện phân lớp b) Những bước trình huấn luyện Khởi tạo trọng số với giá trị ngẫu nhiên Lần lượt đưa vào mạng Đối với đơn vị: - Tính tốn mạng input cho đơn vị kết hợp tuyến tính tất input đơn vị - Tính tốn giá trị output sử dụng hàm kích hoạt - Tính toán lỗi - Cập nhật trọng số khuynh hướng 1.4.3.3 Mạng thu giảm rút trích luật Mạng thu giảm: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 Kết quả: Mạng phân lớp số dung thứ lỗi nhẹ Có thể áp dụng phương pháp để phân lớp liệu khác Hình 3.2 Kết mạng phục hồi số với hư hỏng nhẹ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 3.2 Thử nghiệm Bài toán phân lớp số viết ngôn ngữ C++Builder Dưới số giao diện chương trình Hình 3.3 - Giao diện chương trình nhận dạng số Hình 3.4 - Giao diện chương trình nhận dạng số Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Hình 3.5 - Giao diện chương trình nhận dạng số 3.3 Tổng hợp kết huấn luyện Loại font Số ký tự lỗi %lỗi Arial 0.2 Arial 10 0.2 Arial 12 0.3 Arial 14 0.3 Arial 18 0.2 Arial 20 0.2 Tahoma 0.2 Tahoma 10 0.3 Tahoma 12 0.2 Tahoma 14 0.2 Tahoma 18 0 Tahoma 20 0 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 3.4 Kết luận chƣơng Việc thử nghiệm phân lớp số tốn phân lớp nhỏ nhằm mục đích mơ toán phân lớp mạng nơron nhân tạo Nhờ ưu điểm mạng Nơron mà hình ảnh số nhận dạng có số điểm bị khuyết Thông qua việc phân lớp số, toán phân lớp mạng Nơron nhân tạo phát triển để nhận dạng, phân lớp đối tượng khác thuộc nhiều lĩnh vực khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 KẾT LUẬN Kết luận: Bài toán phân lớp toán có nhiều ý nghĩa thực tế Phân lớp mẫu có dung thứ lỗi vấn đề thú vị Bộ nhớ tự liên hợp cho phép phục hồi thông tin đối tượng bị thông tin ảnh bị mờ, chữ tờ giấy nhàu nát quét lên không đầy đủ Mạng phân lớp cài đặt giúp cho ta giải nhiều tốn khác sống Chương trình phân lớp số ứng dụng để phân loại đối tượng khác làm 10 loại vây Qua nghiên cứu thử nghiệm củng cố nhận định sau mạng nơron: Ưu điểm: ANN cho phép xây dựng mơ hình tính tốn có khả học cao Chỉ cần đưa vào cho mạng tập mẫu liệu trình học mạng có khả phát ràng buộc liệu áp dụng ràng buộc q trình sử dụng mà khơng cần phải có thêm tri thức miền ứng dụng Dữ liệu học chương trình thử nghiệm giá trị 0/1 phần tử ứng với số Dữ liệu mảng chiều phần tử, có phần tử ứng với số tương ứng với liệu vào Nếu tất phần tử 0, ta có số Mạng nơron có khả xử lý song song phân tán, ta đưa vào mạng lượng lớn nơron liên kết với theo lược đồ với kiến trúc khác Mạng thử nghiệm có 63 đầu vào, ứng với 63 điểm ảnh chia ảnh số thơ Nó có khả dung thứ lỗi cao Mạng chấp nhận liệu mẫu khơng hồn tồn xác tuyệt đối mà đảm bảo phần nhiều tính đắn tốn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 Với hình ảnh số đưa vào bị lỗi nhẹ Mạng chấp nhận Với đặc điểm này, mạng nơron cho phép dễ dàng xây dựng mơ hình thích nghi mà có thay đổi liên tục quy luật liệu, dễ dàng cập nhật trình học lại mạng Nhược điểm: Mạng làm việc với liệu số Cần tích hợp thêm thành phần khác hệ mờ, số hoá để xử lý liệu phi số Trong chương trình thử nghiệm, liệu đưa vào hay 1, đúng, sai Tuy nhiên phải đủ 63 giá trị Mạng không chấp nhận liệu vào số 63 Dữ liệu vào phải số Để mạng đạt hiệu cao điều cần thiết phải có liệu mẫu đủ lớn cho trình học Quá trình huấn luyện dài Mặt khác, liệu chuẩn bị khơng tốt mạng có khả tổng qt hố thấp Trong chương trình thử nghiệm, liệu học 10 mảng vào kích thước 9x7 10 mảng chiều kích thước Quá trình huấn luyện lâu Mạng có tính chất nội suy Khả ngoại suy Khơng có cơng thức để xác định cấu trúc mạng phù hợp với toán Các nhà nghiên cứu phải tiến hành thử nghiệm dựa vào kinh nghiệm để xác định Cấu trúc mạng thử nghiệm chọn ước lượng Nếu số nơron số lớp lớn mạng làm việc xác, nhiên trình huấn luyện lâu Nếu số nơron số lớp ít, mạng làm việc xác thời gian huấn luyện Mạng khơng thể đưa chế giải thích Các giải thuật học mạng chưa đảm bảo hội tụ cần thiết cho trình sử dụng Mạng cấu trúc lớn cài đặt phần mềm máy tính hoạt động chậm Việc xây dựng mạng nơron phần cứng nghiên cứu Hƣớng phát triển Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 Ứng dụng khả nhớ kết hợp mạng để phục hồi mẫu Tích hợp logic mờ vào mạng nơron Phân lớp liệu nhiễu Ứng dụng sơ đồ tự tổ chức để phân cụm liệu Xây dựng mạng phát triển mạng theo yêu cầu Mạng học cấu trúc Ứng dụng phân lớp phân cụm với mạng nơron nhân tạo khai phá liệu, kể liệu nhiễu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bùi Quang Chiến, Ứng dụng mạng Nơron nhân tạo nhận dạng kí tự, Báo cáo tốt nghiệp - ĐH Dân lập Hải Phịng, năm 2007 [2] Hồng Kiếm, Lê Hoài Bắc, Lê Hoàng Thái, Mạng nơron thuật giải di truyền: ứng dụng cho nhận dạng chữ viết tay, Hội nghị Khoa học lần thứ 2: Báo cáo khoa học Công Nghệ Thông Tin - ĐH Khoa học Tự Nhiên - Tp Hồ Chí Minh, 2000 [3] Ngơ Văn Sỹ, Nhận dạng ký tự quang học mạng Nơron, ĐH Đà Nẵng, 2008 [4] Lê Hoàng Thái, Trần Sơn Hải, Phát triển mơ hình liên kết mạng Nơron cho tốn phân lớp mẫu, Báo cáo tồn văn Hội Nghị Biên Hòa, 2009 [5] Lê Văn Tường Lâm, Phụ thuộc liệu tác động toán phân lớp khai phá liệu, Tạp chí khoa học, Đại học Huế, Số 53, 2009 Tiếng nước [1] Bart Kosko Neural Networks and Fuzzy Systems// Prentice-Hal International, Inc 1992 p.449 [2] Комарцова Л.Г., М.В Масимов Hейрокомпъютеры// Москва, Издателъство МГТУ имени Баумана 2002, С.318 [3] Роберт Каллан Основные концепции нейронных сетей//Издателъский дом Вилъямс Москва Санкт-Петербург Киев 2001 С.287 [4] K.-L Du, PhD, M.N.S Swamy, PhD, D.Sc (Eng), Neural Networks in a Softcomputing Framework.pdf, Concordia University, Montreal, Canada, 2006 [5] CHRISTOPHER M BISHOP, Neural Networks for Pattern Recognition.pdf, CLARENDON PRESS • OXFORD, UK, 1995 Thái Nguyên, ngày 10 tháng 10 năm 2012 Xác nhận giáo viên hƣớng dẫn Học viên TS Nguyễn Tân Ân Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Vũ Thị Hiền http://www.lrc-tnu.edu.vn 62 PHỤ LỤC Nội dung giải thuật học định ID3 ID3 ( Learning Sets S, Attributes Sets A, Attributesvalues V) Return Decision Tree Begin Đầu tiên nạp learning sets, tạo nút gốc cho định 'rootNode', thêm learning set S vào nút gốc tập For rootNode, tính Entropy(rootNode.subset) If Entropy(rootNode.subset)==0, then rootNode.subset bao gồm records tất với giá trị cho giá trị thuộc tính xác định, trả nút với decision attribute:attribute value; If Entropy(rootNode.subset)!=0, then tính độ lợi thơng tin (information gain) cho thuộc tính trái (chưa sử dụng để phân chia), tìm thuộc tính A với Maximum(Gain(S,A)) Tạo nút rootNode thêm vào rootNode định For rootNode, áp dụng ID3(S,A,V) cách đệ qui đạt node mà có entropy=0 hay đạt nút End ID3 Ví dụ : Để mô tả hoạt động ID3 sử dụng ví dụ “Play Tennis” Sự mơ tả tượng trưng thuộc tính sau: Attribute Possible Values: Outlook sunny, overcast , rain Temperature hot, mild, cood Humidity high,normal Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Windy true,false Decision n(negative),p(positive) Tập Leaning set cho ví dụ chơi tennis: Outlook Temperature Humidity Windy Decision sunny hot high false n sunny hot high true n overcast hot high false p rain mild high false p rain cool normal false p rain cool normal false n overcast cool normal true p sunny mild high false p sunny mild normal true p rain mild normal false p sunny mild normal true p overcast mild high true p overcast hot normal false p rain mild high true n Giải thuật ID3 thực sau : Tạo nút gốc( rootNode), chứa đựng toàn learning set tập hợp chúng (subset) sau tính: Entropy(rootNode.subset)= -(9/14)log ( 9/14 ) – ( 5/14)log (5/14)= 0.940 Tính tốn thơng tin nhận cho thuộc tính: Gain(S,Windy)= Entropy(S)-(8/14)Entropy(S false) – (6/14)Entropy(S true) = 0.048 Gain(S,Humidity) = 0.151 Gain(S,Temperature) = 0.029 Gain(S,Outlook) = 0.246 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Chọn lựa thuộc tính với thơng tin nhận tối đa, phân chia theo thuộc tính “outlook” Áp dụng ID3 cho nút nút gốc này, đạt đến nút nút có entropy = Giải thuật mở rộng C4.5 C4.5 mở rộng giải thuật ID3 số khía cạnh sau: Trong việc xây dựng định, chúng liên hệ với tranning set mà có records với giá trị thuộc tính đến việc đánh giá việc thu thập thông tin tỉ số thu thập thông tin, cho thuộc tính việc xem xét record mà thuộc tính định nghĩa Trong việc sử dụng định, phân loại record mà có giá trị thuộc tính khơng biết việc ước lượng kết có khả xảy Trong ví dụ chơi đánh gôn chúng ta, đưa record mà outlook sunny humidity chưa cho biết, xử lý sau: Chúng ta di chuyển từ nút gốc Outlook đến nút Humidity theo cung đánh nhãn sunny Ở điểm từ lúc giá trị Humidity để ý humidity 75 có records, humidity lớn 75 có records có record khơng hoạt động Như điều đưa câu trả lới cho record khả (0.4,06) cho chơi gơn khơng chơi gơn Chúng ta liên hệ đến giá trị liên tục Giả sử thuộc tính Ci có tầm giá trị thuộc tính liên tục Chúng ta xem xét giá trị tập learning set Cho chúng xắp sếp thứ tự tăng dần A1, A2, ,Am sau với giá trị Ai i=1,2, ,m Chúng ta chia records thành có giá trị từ Ci trở lên bao gồm Aj có giá trị lớn Aj Với lần phân hoạch tính lại giá trị thu thập tỉ số thu thập chọn phân hoạch có tỉ số thu thập thơng tin nhận tối đa Giải thuật See5/C5.0 tốt C4.5 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 C5.0 hệ thống Unix See5 Windows phiên cao cấp C4.5 nhiều khía cạnh quan trọng Chúng ta thử so sánh C5.0 C4.5 hệ thống Unix Về tập luật (Ruleset): nhanh nhiều tốn nhớ hơn: Cả C5.0 C4.5 cung cấp lựa chọn cho dạng thức phân loại - định tập luật (ruleset) Trong nhiều ứng dụng tập luật (ruleset) ưu tiên sử dụng chúng đơn giản dễ hiểu định Nhưng phương pháp để tìm luật C4.5 chậm chiếm nhiều nhớ C5.0 thể hoàn thiện vấn đề tạo tập luật cải tiến gây ấn tượng mạnh mẽ Cây định: nhanh nhỏ Với tập liệu (dataset) C4.5 C5.0 sản sinh luật với xác dự đốn Sự khác yếu kích cỡ thời gian tính tốn Cây C5.0 nhỏ nhanh số yếu tố Sự nâng lên (Boosting): Dựa nguyên cứu Freund Schapire, phát triển đầy hấp dẫn mà khơng có tương tự C4.5 Boosting kỹ thuật để tạo kết hợp nhiều đối tượng phân loại để cải thiện tính xác tiên đốn C5.0 hỗ trợ Booting với số liệu số thử nghiệm Thông thường, C5.0 thời gian lâu để tạo đối tượng phân loại (classifier) Nhưng kết phân tích định lượng tính tốn cơng thêm Boosting ln cố gắng để đạt đỉnh cao xác tiên đoán yêu cầu phải đạt tới Đặc biệt đối tượng phân loại không nâng lên hồn tồn xác Những chức mới: C5.0 kết hợp nhiều chức variable misclassfication costs Trong C4.5 tất lỗi xem Nhưng ứng dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 thực tế có số lỗi q trình phân loại nguy hiểm khác C5.0 chấp nhận chi phí phân chia cặp lớp tiên đoán Nếu quan điểm áp dụng, C5.0 sau xây dựng đối tượng phân loại để tối thiểu hóa giá trị phân loại sai mong đợi tần suất lỗi C5.0 có nhiều kiểu liệu có C4.5 bao gồm ngày giờ, thuộc tính giá trị rời rạc xếp thứ tự case labels Thêm vào giá trị thiếu (missing value) C5.0 cho phép giá trị coi không áp dụng Hơn nữa, C5.0 cung cấp điều kiện dễ dàng để định nghĩa thuộc tính hàm thuộc tính khác Những ứng dụng khai phá liệu gần hình thức hố với kích thước lớn hơn, với hàng trăm chí hàng ngàn thuộc tính C5.0 tự động lọc thuộc tính, loại bỏ xuất bên lề trước lớp phân loại xây dựng Đối với ứng dụng loại này, phân loại dẫn đến đối tượng nhỏ tiên đốn xác chí thu giảm thời gian tạo tập luật C5.0 dễ dàng sử dụng Những chọn lựa đơn giản hóa mở rộng để hỗ trợ lấy mẫu cross-validation, lúc chương trình C4.5 để tạo định tập luật kết hợp vào chương trình Tránh việc khít (overfitting) việc phân lớp Cây tạo q khít với liệu huấn luyện Việc q khít xảy trường hợp sau đây: - Quá nhiều nhánh, số phản ánh dị thường phần tử hỗn loạn (noise) phần tử nằm phân lớp (outlier) - Kết nhận thiếu xác mẫu chưa thấy Có hai cách tiếp cận để tránh khít liệu: Tỉa trước: Dừng xây dựng sớm - không chia node điều tạo kết ngưỡng theo hệ đánh giá tốt Một khó khăn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 việc tỉa trước điều tạo khó khăn việc tạo ngưỡng thích hợp Tỉa sau: Loại nhánh từ “ lớn đầy đủ” tạo thứ tự bị tỉa tăng dần lên ta sử dụng tập liệu khác từ liệu huấn luyện để xác định “cây tỉa tốt “ (best pruned tree) Tiếp cận xác định kích cỡ cuối : Thơng thường người ta phân chia tập huấn luyện thành tập liệu huấn luyện (2/3) liệu thử (1/3), người ta sử dụng đánh giá chéo Cũng có cách khác sử dụng tất liệu để huấn luyện, áp dụng kiểm tra thống kê để định lượng mở rộng tỉa bớt nút cải thiện tồn phân phối Một cách thứ ba sử dụng nguyên tắc mơ tả chiều dài tối thiểu: người ta dừng phát triển mã hóa tối thiểu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... lớp mẫu với ứng dụng mạng Nơron nhân tạo 2.1 Mạng Nơron nhân tạo Mạng nơron nhân tạo mơ hình tính tốn xây dựng dựa mơ não người Để tìm hiểu mạng nơron nhân tạo trước hết ta điểm qua vài nét mạng. .. thạc sĩ chọn đề tài: ? ?Phân lớp mẫu với ứng dụng mạng nơron nhân tạo? ?? nhằm tìm hiểu thêm mạng nơron nhân tạo với việc phân lớp số Từ rút kết luận cần thiết cho việc xây dựng ứng dụng cụ thể sau Em... vào mạng Lớp thường không coi lớp với nơron điển hình mạng + Mạng lớp: mạng có cấu trúc đơn giản Mạng nơron gồm lớp xử lý tín hiệu đưa kết ra, khơng có lớp ẩn + Mạng nhiều lớp: có lớp vào, lớp lớp