Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
454,73 KB
Nội dung
1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Phạm Duy An PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Chuyên ngành : Truyền liệu Mạng máy tính Mã số : 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS VŨ ĐỨC THI Phản biện 1: ………………………………………… Phản biện 2: ………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm 2012 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 26 KẾT LUẬN MỞ ĐẦU Luận văn “ Phương pháp khai phá liệu định” trình bày số kết sau đây: Những nghiên cứu khai phá liệu ứng dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thông tin Khai phá liệu áp dụng nhiều việc tư vấn, dự báo , đặc biệt ứng dụng cho tư vấn lĩnh vực giáo dục Khai phá liệu có nhiều hướng tiếp cận (nhiều nhiệm vụ, mục đích), có nhiệm vụ phổ biến là: Luật kết hợp (Association rules), Phân cụm (Clustering) Phân loại (Classification) Trong nhiệm vụ phát phân loại nhiệm vụ quan tâm, nghiên cứu nhiều Tìm hiểu ưu điểm khó khăn việc đào tạo theo tín chỉ, sử dụng phần mềm mã nguồn mở Weka cho việc sinh luật kết hợp nhằm phục vụ việc phân loại Xây dựng hệ thống tư vấn môn học cho sinh viên nhằm trợ giúp sinh viên định hướng việc lựa chọn môn học,chuyên ngành học phù hợp Hướng phát triển luận văn: Để trình đào tạo theo tín hoạt động có hiệu quả, cần thiết phải xây dựng hệ thống hoàn chỉnh hỗ trợ trình đào tạo (xây dựng thêm nhiều chức năng: xếp lịch học, thời khóa biểu, đăng ký học trực tuyến,…) Hiện nay, liệu lưu trữ ngày tăng, để ứng dụng khai phá liệu vào toán cần tiếp tục nghiên cứu phương pháp xử lý cho toán với liệu lớn xem xét nghiên cứu thêm số ứng dụng khác Khai phá liệu Trong thời đại ngày nay, yếu tố định thành công lĩnh vực gắn liền với việc nắm bắt, thống kê khai thác thông tin hiệu Dữ liệu ngày lớn nên việc tìm thơng tin tiềm ẩn chúng khó khăn Khám phá tri thức lĩnh vực nghiên cứu mới, mở thời kỳ việc tìm thơng tin hữu ích Nhiệm vụ lĩnh vực khám phá tri thức sở liệu, khám phá liệu sở liệu khơng phải hệ thống phân tích tự động mà trình tương tác thường xuyên người với sở liệu trợ giúp nhiều phương pháp công cụ tin học Nội dung luận văn tơi xin trình bày bao gồm ba chương: Chương giới thiệu chung công nghệ khám phá trí thức, khái niệm bản, ý nghĩa tầm quan trọng việc khám phá tri thức Chương hai trình bày phương pháp khai phá liệu định, khái niệm định, thuật toán ID3, C4.5, rút gọn luật định Chương ba xây dựng chương trình thử nghiệm cho tốn Tư vấn chọn chuyên ngành phù hợp với khả sinh viên Đai học Phương Đông Tôi xin bày tỏ biết ơn sâu sắc tới PGS.TS Vũ Đức Thi người trực tiếp hướng dẫn, bảo tận tình, cung cấp tài liệu phương pháp luận nghiên cứu khoa học để tơi hồn thành luận văn Tôi xin gửi lời cảm ơn tới thầy giáo dạy dỗ q trình tơi theo học Học viện Trong suốt trình nghiên cứu, cố gắng chắn luận văn khơng tránh khỏi thiếu sót, mong q thầy góp ý để luận văn hoàn chỉnh 4 25 Chương 1- GIỚI THIỆU CHUNG VỀ CÔNG NGHỆ KHÁM PHÁ TRI THỨC 1.1 Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin nay, cộng nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh quản lý, doanh nghiệp, công ty nhận tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ công ty, doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lý khiến cho quan, doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte Nhiều người coi khai phá liệu khám phá tri thức sở liệu nhau, nhiên thực tế chúng có quan hệ mật thiết với nhau, khai phá liệu bước thiết yếu trình phát tri thức sở liệu 1.2 Quá trình phát tri thức từ sở liệu Quá trình phát tri thức chia thành bước sau: - Làm liệu (Data cleaning): Loại bỏ liệu nhiễu, khơng thích hợp, dư thừa khơng đầy đủ - Tích hợp liệu (Data intergration):Tích hợp liệu từ nhiều nguồn khác - Lựa chọn liệu (Data selection): Chọn liệu có liên quan trực tiếp đến nhiệm vụ - Chuyển đổi liệu (Data transformation): Các liệu sau xử lý giai đoạn biến đổi dạng phù hợp với việc khai phá Hình 3.8 : Giao diện truy cập demo 24 Phần 2: Tư vấn cho người dùng Chương trình viết giao diện Web, sử dụng ngơn ngữ lập trình ASP NET Đưa luật sinh từ phần vào sở liệu SQL server Website, ta có bảng luật lưu trữ luật định hướng chun ngành Ngồi có bảng liên quan bảng môn học, bảng sinh viên, bảng điểm người dùng cập nhật Xây dựng chương trình cho phép: - Người dùng cập nhật điểm môn đại cương - Yêu cầu hệ thống đưa luật định hướng chuyên ngành - Lựa chọn thuật toán khai phá (Choosing the data mining algorithms): Lựa chọn phương pháp phù hợp với liệu có nhiệm vụ đề - Khai phá liệu (Data mining): Đây bước quan trọng trình, ta sử dụng thuật tốn chọn để trích xuất thơng tin hữu ích, có tiềm - Đánh giá mẫu (Pattern evaluation): Các mẫu, tri thức đánh giá dựa tiêu chí sẵn có - Trình diễn tri thức (Knowledge representation): Đây bước cuối cùng, bước liệu củng cố, biểu diễn sử dụng Chương trình thị luật với độ tin cậy luật Đưa kết vào thực tiễn Sau người dùng cập nhật điểm mơn đại cương mình, tồn số điểm lưu vào bảng “bangdiem” sở liệu SQL, (bangdiem bao gồm trường mammon, diem, loai) Với luật ta so sánh cặp giá trị mammon (mã môn) loai (loại điểm) vế trái luật với cặp giá trị mammon (mã môn) loai (loại điểm) bangdiem (bảng điểm đại cương mà người dụng vừa cập nhật) Nếu tất cặp mammon (mã môn) loai (loại điểm) có mặt bảng điểm luật luật đưa tư vấn Trong trường hợp có cặp mã mơn _ loại điểm khơng thuộc bảng điểm, luật khơng tư vấn cho người dùng 3.4 Xây dựng thiết kế giao diện chương trình Sinh viên sử dụng mạng Internet để vào phần cổng thông tin Đại học Phương Đông: http://dhpd.edu.vn/ Minh họa đánh giá tri thức Khai thác liệu – trích mẫu/mơ hình Thu thập tiền xử lý liệu hiểu xác định vấn đề Hình 1.1 Quá trình khám phá tri thức từ sở liệu 1.2.1 Xác định vấn đề 1.2.2 Thu thập xử lý liệu 1.2.3 Khai thác liệu 1.2.4 Minh họa, đánh giá đưa kết vào thực tế 1.3 Khai phá liệu 6 23 1.3.1 Các quan niệm khai phá liệu Khai phá liệu tập hợp thuật toán nhằm chiết xuất thơng tin có ích từ kho liệu khổng lồ Khai phá liệu định nghĩa trình phát mẫu liệu, trình tự động hay bán tự động, song phần nhiều bán tự động Các mẫu phát thường hữu ích theo định nghĩa:các mẫu mang lại cho người sử dụng lợi đó, thường lợi ích kinh tế Khai phá liệu giống q trình tìm mơ tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai phá liệu thường dự báo vật hay kiện Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không gian, kho liệu phi cấu trúc, mà điển hình World Wide Web Khám phá tri thức trình nhận biết mẫu mơ hình liệu với tính chất: Đúng đắn, mới, khả ích hiểu Khai phá liệu bước trình khám phá tri thức bao gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Như vậy, mục đích khám phá tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị khuất số lượng liệu khổng lồ 1.3.2 Nhiệm vụ khai phá liệu * Phân cụm, phân nhóm, phân loại, phân lớp Nhiệm vụ trả lời câu hỏi: Một liệu thu thập thuộc Giai đoạn 1: Sử dụng liệu sau xây dựng để tiến hành tập huấn Tìm tất tập mục thường xuyên Giai đoạn 2: Khai phá luật kết hợp 3.3.3 Thiết kế sở liệu Tiến hành xây dựng sở liệu với bảng sau: Bảng 3.1 : Lưu trữ danh sách sinh viên toàn trường Bảng 3.2: Lưu trữ danh sách môn học trường Bảng 3.3: Lưu trữ danh sách sinh viên tốt nghiệp 3.3.4 Tập huấn xử lý liệu Phần 1: khai phá liệu Trong phần này, phần mềm Weka sử dụng để sinh luật kết hợp từ liệu thu thập Trường Đại học Phương Đông cung cấp cho liệu cựu sinh viên, liệu cung cấp với thông tin điểm sinh viên, môn học, điểm tổng kết Các bước chuẩn bị liệu: Xóa bỏ sửa chữa liệu theo định dạng cụ thể khơng làm tính xác liệu Các mơn học có điểm sẽ phân thành loại điểm cụ thể sau: Trung bình (TB): Nếu điểm mơn học khoảng 4.5 đến 6.4; Khá (K): Nếu điểm môn học khoảng 6.5 đến 7.9; Giỏi (G): Nếu điểm môn học khoảng đến 10; Ta cần dự đoán điểm ngành tốt nghiệp sở môn học đại cương, giữ lại thơng tin điểm môn học đại cương 22 khoa đó, hay nói cách khác mơn mà chuyên ngành thuộc khoa phải học nhóm nào? Qúa trình thường thực cách tự động Môn chuyên ngành: môn dạng chuyên ngành hẹp riêng ngành * Khai phá luật kết hợp Nhiệm vụ phát mối quan hệ giống ghi giao dịch Luật kết hợp X => Y có dạng tổng quát là: Nếu giao dịch sở hữu tính chất X đồng thời sở hữu tính chất Y, mức độ Khai phá luật kết hợp hiểu theo nghĩa: Biết trước tính chất X, tính chất Y tính chất nào? Một số đặc điểm đào tạo tín chỉ: Sinh viên chủ động đăng ký mơn học theo tiến trình xếp trước Sinh viên tốt nghiệp sau hoàn thành khoảng 90 tín trình đại cương, 120 tín trình chun ngành Sinh viên dễ dàng chuyển đổi chuyên ngành mà bao lưu điểm tương ứng đăng ký học thêm chuyên ngành hai Sinh viên chủ động xếp lịch học cho phù hợp với sức học, tài Sinh viên học lại, thi lại môn với lớp sau mà không cần tổ chức thi lại 3.3.2 Mô tả hệ thống liệu toán Bài toán đặt ra: Cho kho liệu lưu giữ thông tin kết học tập sinh viên tốt nghiệp Hãy tìm quy luật lựa chọn chuyên ngành cách hợp lý cho đạt kết tốt Nhằm mục đích người ta mong muốn nhận từ liệu phát biểu như: “80% sinh viên học tốt mơn Kinh tế trị Tiếng Anh tốt nghiệp chun ngành Kế tốn ngân hàng loại giỏi”, … Để đạt phát biểu trên, sử dụng thuật toán Khai phá luật kết hợp từ sở liệu Mặc dù có nhiều thuật tốn khai phá liệu với luật kết hợp nhìn chung thuật toán qua hai giai đoạn * Lập mơ hình dự báo, bao gồm nhiệm vụ: Hoặc phân nhóm liệu vào hay nhiều lớp liệu xác định từ trước, sử dụng trường cho sở liệu để dự báo xuất (hoặc không xuất hiện) trường hợp khác * Phân tích đối tượng ngồi cuộc: Một sở liệu chứa đối tượng khơng tn theo mơ hình liệu Các đối tượng liệu gọi đối tượng cuộc, hầu hết phương pháp khai phá liệu coi đối tượng nhiễu loại bỏ chúng Tuy nhiên số ứng dụng, chẳng hạn phát nhiễu kiện xảy lại ý thường xuyên gặp phải Sự phân tích liệu ngồi coi khai phá đối tượng cuộc, số phương pháp ứng dụng để phát đối tượng 1.3.3 Một số ứng dụng khai phá liệu Hiện nay, kỹ thuật khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: - Thương mại: Phân tích liệu bán hàng thị trường, phân tích đầu tư, định lĩnh vực tài chính, ngân hàng, … - Thơng tin sản xuất: Điều khiển lập kế hoạch, hệ thống quản lý, phân tích kết thử nghiệm, … - Thông tin khoa học: Dự báo thời tiết, khai phá sở liệu sinh học ngân hàng gen, … - Trong lĩnh vực khác Y tế, giáo dục, viễn thông, du lịch, … 1.3.4 Các kỹ thuật khai phá liệu Thường chia thành hai nhóm chính: 21 Server computer Một RDBMS bao gồm databases, database engine ứng dụng dùng để quản lý liệu phận khác RDBMS SQL Server cung cấp công cụ quản trị phát triển người sử dụng dễ dàng cài đặt, sử dụng quản lý hệ thống SQL Server sử dụng luận văn với mục đích lưu trữ liệu liên quan đến luật để phục vụ cho q trình truy vấn sinh viên 3.2.3 Ngơn ngữ lập trình ASP.NET - Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu string có Các kỹ thuật bao gồm: Phân cụm (Clustering), tóm tắt (Summerization), trực quan hóa (Visualization), phân tích phát triển độ lệch (Evolution and Deviation analyst), phân tích luật kết hợp (Association rules), … ASP.NET 2.0 công nghệ sử dụng rộng rãi Công nghệ cho phép xây dựng ứng dụng web hồn chỉnh có qui mơ lớn, độ phức tạp yêu cầu bảo mật cao ASP.NET 2.0 phần kiến trúc NET Framework 2.0 Microsoft thiết kế nhằm hướng tới ứng dụng bảo mật, tin cậy hiệu suất môi trường Internet - Kỹ thuật khai phá liệu dự đốn: Có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Các kỹ thuật gồm có: Phân lớp (Classifacation), hồi quy (regession), … Áp dụng công nghệ ASP.NET cho việc xây dựng thiết kế trang web, sử dụng môi trường internet giao tiếp với người sử dụng 3.3 Phân tích thiết kế hệ thống 3.3.1 Giới thiệu mơ hình đào tạo theo tín Tuy nhiên, có số phương pháp thông dụng là: Phân cụm liệu, phân lớp liệu, phương pháp hồi quy, khai phá luật kết hợp 1.3.5 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống khai phá liệu có thành phần sau: - Cơ sở liệu, kho liệu: Đó nhiều tập sở liệu, kho liệu,… Các kỹ thuật làm liệu, tích hợp, lọc liệu thực liệu - Cơ sở liệu kho liệu phục vụ: Là kết lấy liệu có liên quan sở khai phá liệu người dùng Trường Đại học Phương Đông thành lập từ năm 1994 có khoa với 15 chuyên ngành đào tạo, từ năm 2005 Trường có chuyển từ hình thức đào tạo niên chế sang đào tạo tín theo quy định Bộ giáo dục Với hình thức đào tạo sinh viên chủ động thời gian học tập, tài phù hợp Sau xét số đặc điểm theo hình thức tín Trường Đại học Phương Đông Giáo dục đại cương: bao gồm môn theo khung Bộ giáo dục số môn đặc thù Trường Giáo dục chuyên ngành gồm có phần Môn sở khối ngành: môn sở bắt buộc với 20 - Cơ sở tri thức: Đó lĩnh vực tri thức sử dụng để hướng dẫn việc tìm đánh giá mẫu kết thu - Mô tả khai phá liệu: Bao gồm tập modul chức để thực nhiệm vụ mô tả đặc điểm, kết hợp, phân lớp, phân cụm liệu,… Hình 3.1 Giao diện phần mềm Weka Trong phần Application có mục lựa chọn: Explorer: Sử dụng menu lựa chọn Explorer sử dụng cho liệu vừa nhỏ Experimenter: Cho phép người dùng thực tập ứng dụng phân lớp kỹ thuật hồi quy, với cơng việc có giá trị, phương pháp tham số tốt cho vấn đề cho Cho phép bạn tự động hóa xử lý, làm cho phân lớp lọc dễ dàng với cách thiết lập tham số khác toàn bảng liệu KnowledgeFlow: Cho phép người dùng kéo thả hộp tượng trưng cho giải thuật liệu để kết nối chúng lại với đưa cấu trúc Simple CLI: Sử dụng câu lệnh thực thi 3.2.2 Hệ quản trị sở liệu SQL 2000 server SQL Server 2000 hệ thống quản lý sở liệu (Relational Database Management System (RDBMS) ) sử dụng Transact-SQL để trao đổi liệu Client computer SQL - Đánh giá mẫu: Thành phần sử dụng độ đo tương tác với modul khai phá liệu để tập chung vào tìm mẫu quan tâm - Giao diện người dùng: Đây modul người dùng hệ thống khai phá liệu, cho phép người dùng tương tác với hệ thống sở truy vấn hay tác vụ, cung cấp thông tin cho việc tìm kiếm 1.3.6 Những khó khăn khai phá liệu - Dữ liệu lớn - Kích thước lớn - Dữ liệu động - Các trường liệu không phù hợp - Các giá trị bị thiếu - Các trường liệu bị thiếu 1.4 Một số phương pháp khai phá liệu 1.4.1 Cây định Để xây dựng định có nhiều cách song ta có khung chung cho q trình sau: - Lựa chọn thuộc tính “tốt nhất” nhờ độ đo lựa chọn (thường Entropy) - Mở rộng cách thêm vào nhánh với giá trị thuộc tính - Sắp xếp mẫu huấn luyện cho nút - Kiểm tra: mẫu huấn luyện phân loại dừng, ngược lại lặp lại trình cho nút 10 19 - Tỉa bớt nút không ổn định 1.4.2 Luật kết hợp Chẳng hạn có luật: âm nhac, thể thao => thiếu nhi, nghĩa người mua sách âm nhạc thể thao mua sách thiếu nhi Lúc ta quan tâm đến số lượng trường hợp khách hàng thỏa mãn luật sở liệu hay độ hỗ trợ (Support) cho luật Độ hỗ trợ cho luật phần trăm số ghi có sách âm nhạc, thể thao thiếu nhi hay tất người thích ba loại sách nói Tuy nhiên, giá trị độ hỗ trợ khơng đủ, có trường hợp ta có nhóm tương đối người đọc ba loại lại có nhóm với lực lượng lớn người thích sách thể thao, âm nhạc mà khơng thích sách thiếu nhi Trong trường hợp tính kết hợp yếu độ hỗ trợ tương đối cao, cần thêm độ đo thứ hai độ tin cậy (confidence) Độ tin cậy phần trăm ghi có sách thiếu nhi số ghi có sách âm nhạc thể thao 1.4.3 Mạng Nơron Chương 3- XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU “Tư vấn lựa chọn chuyên ngành trường đại học Phương Đơng” Có nhiều kiến trúc khác cho mạng nơron số chúng sử dụng cách kết nối mạng khác chiến lược học khác để thực nhiệm vụ Khi sử dụng mạng nơron phải phân biệt hai giai đoạn: giai đoạn mã hóa mạng nơron học mẫu liệu huấn luyện, thực nhiệm vụ giai đoạn giải mã mạng sử dụng để phân lớp, làm dự báo thực nhiệm vụ học liên quan Có nhiều dạng mạng nơron có loại sau: - Perceptrons - Mạng lan truyền ngược (Back propagation networks) - Mạng tự tổ chức Konhonen (Kohonen self – organizedmap) 3.1 Giới thiệu khai phá liệu giáo dục Các nhà nghiên cứu việc khai phá liệu giáo dục tập chung vào nhiều vấn đề bao gồm việc học cá nhân từ phần mềm giáo dục, học cộng tác với giúp đỡ máy tính, kiểm nghiệm khả thích ứng với máy tính, nhiều nhân tố kết hợp với sinh viên khơng có khả thiếu định hướng q trình học tập Mỗi lĩnh vực việc ứng dụng khai phá liệu vào giáo dục phát triển mơ hình hướng đối tượng sinh viên Các mơ hình sinh viên thể thơng tin nét đặc trưng hay tình trạng sinh viên, kiến thức sinh viên, động thúc đẩy học tập, quan điểm nguyện vọng sinh viên, … Việc ứng dụng khai phá liệu giáo dục đóng vai trị quan trọng việc phát triển giáo dục trợ giúp đáng kể cho hoạt động giáo dục 3.2 Các công cụ sử dụng thiết kế chương trình 3.2.1 Phần mềm mã nguồn mở Weka Weka phát triển trường Đại học Waikato tên viết tắt Waikato Environment for Knowledge Analysis, hệ thống viết ngôn ngữ Java, chạy flatform nào, thử nghiệm với Linux Windows, hệ điều hành Macintosh Nó cung cấp giao diện thống với nhiều thuật toán khác nhau, với phương pháp cho việc xử lý trước, xử lý sau dành cho việc đánh giá kết sơ đồ học tập liệu cho trước Giao diện phần mềm weak: 18 Phương pháp loại bỏ số phần nhằm tối thiểu hoá sai số dự đoán Tỉa sau gây tốn mặt thời gian nhớ tạo nút dư thừa thu sau tỉa thường đạt độ xác phân lớp cao Vì lí trên, trình thu gọn thường thực phương pháp tỉa sau 2.5 Thuật toán rút gọn luật định Sau sinh tập luật, cần phải rút gọn luật loại bỏ luật không cần thiết Dưới phương pháp sử dụng phép thử thống kê để loại bỏ luật không cần thiết: Loại bỏ tiên đề không cần thiết để đơn giản hóa luật Xây dựng bảng ngẫu nhiên (contingency table) cho luật chứa nhiều tiên đề Kiểm chứng độc lập kết tiên đề phép thử sau: Sử dụng phép chi bình phương tuần xuất mong đợi lớn 10 Sử dụng phép thử Yates tần xuất mong đợi khoảng [5,10] Sử dụng phép thử Fisher tần xuất mong đợi nhỏ Loại bỏ luật không cần thiết 11 1.4.4 Giải thuật di truyền Việc xây dựng thuật tốn di truyền mơ sinh học nhằm tìm giải pháp tốt bao gồm bước sau: Tạo chế mã di truyền dạng xâu bảng mã ký tự hạn chế Thiết lập môi trường nhân tạo máy tính có giải pháp tham gia “đấu tranh sinh tồn” với để xác định độ đo thành công hay thất bại, hay cịn gọi “hàm thích nghi” Phát triển “phép lai ghép” để giải pháp kết hợp với Khi xâu mã di truyền giải pháp cha mẹ bị cắt xếp lại, trình sinh sản kiểu đột biến áp dụng Cung cấp quần thể giải pháp ban đầu tương đối đa dạng để máy tính thực “cuộc chơi tiến hóa” cách loại bỏ giải pháp từ cá thể thay chúng cháu đột biến giải pháp tốt Thuật toán kết thúc họ giải pháp thành công sinh Như vậy, việc áp dụng thuật tốn di truyền khơng q khó khăn, nhiên điểm khó tạo cơng thức cho mã di truyền tốt tìm phép đột biến hiệu Chương 2- PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Cây định 2.1.1 Giới thiệu Giả sử có tốn đặt phải phân loại bệnh triệu chứng bệnh, giải vấn đề cách truyền thống thống kê (Statistics) máy học (Machine learning) Nhưng ngày nay, với lượng liệu q lớn phương pháp cũ có nhiều hạn chế, khai phá 12 17 liệu giải vấn đề với lượng liệu khổng lồ Một kỹ thuật khai phá phân loại (Classification), với kỹ thuật phân tích liệu sinh tập luật, luật dùng để phân loại liệu (Future data) Phân loại gồm tìm luật tìm định trình bày trọng tâm luận văn 2.1.2 Một số khái niệm thuộc tính giảm theo, nên thu thập thông tin (Gain) cao thuộc tính khác Vì thuộc tính lựa chọn thường xuyên để tách, dẫn đến độ phân nhánh lớn, lớn phức tạp Một số khái niêm khác liên quan đến cây: Cha, con: đỉnh gốc của chúng, số đỉnh gọi bậc đỉnh Nếu đỉnh b gốc đỉnh a ta nói đỉnh b đỉnh a a cha b Anh em: đỉnh có cha gọi anh em Lá: đỉnh có bậc gọi Đường đi: dãy đỉnh a1, a2, …, an (n≥ 1), cho (i = 1, 2, …, n-1) cha ai+1 gọi đường từ a1 đến an Độ dài đường n-1 Cành: đường từ đỉnh cha đến đỉnh Độ cao, mức: cây, độ cao đỉnh a độ dài đường dài từ a đến Độ cao gốc gọi độ cao cây, mức đỉnh a độ dài đường từ gốc đến a 2.1.3 Ưu điểm định So với phương pháp khai phá liệu khác, định phương pháp có số ưu điểm: Cây định dễ hiểu Người ta hiểu mơ hình định sau giải thích ngắn Việc chuẩn bị liệu cho định không cần thiết Các kỹ thuật khác Thuộc tính thiếu giá trị: Nếu giá trị thuộc tính A bị số liệu, hướng giải ? Giả sử (x, C(x)) tập huấn luyện S giá trị A(x) đến Giải pháp: - Thay giá trị xuất nhiều thuộc tính A - Thay giá trị xuất nhiều thuộc tính A mà có giá trị hàm mục tiêu - Tính lại cơng thức dựa giá trị có thuộc tính A (loại giá trị bị thiếu, số lượng giá trị bị thiếu khơng nhiều) 2.3.4 Thí dụ mơ thuật tốn C4.5 2.4 Cắt tỉa 2.4.1 Phương pháp tỉa trước Theo phương pháp này, trình tỉa thực dựng Ta dừng việc chia nhỏ tập liệu việc phân chia không đem lại hiệu Ðể xác định điểm dừng, cần đánh giá việc tách tập liệu theo tiêu chuẩn giá trị thơng tin (information gain), khả giảm sai số, Nếu kết đánh giá nhỏ ngưỡng cho trước dừng trình tách tập liệu cho tập liệu 2.4.2 Phương pháp tỉa sau Khác với phương pháp trên, trình tỉa sau thực có định hoàn chỉnh 16 13 c SplitInformation(S,A) = - i 1 Si S log Si S GainRatio: Sự đánh giá thay đổi giá trị thuộc tính Gain( S , A) SplitInformation ( S , A) Tất thuộc tính tính tốn độ đo tỷ lệ Gain, thuộc tính có độ đo tỷ lệ Gain lớn chọn làm thuộc tính phân chia 2.3.3 Một số vấn đề với thuộc tính GainRation ( S , A) Thuộc tính liên tục: Thuật toán C4.5 đưa định nghĩa giá trị rời rạc để phân giá trị liên tục thành thuộc tính tượng trưng lần theo quy tắc sau: Dựa giá trị muốn phân chia nhị phân Dựa vài giá trị muốn có nhiều nhánh Với giá trị tính mẫu thuộc lớp theo dạng A < v A > v Cách chọn giá trị v hiệu quả: + Sắp xếp giá trị tăng dần + Chọn giá trị trung bình cặp giá trị thuộc tính để phân chia tính số gain + Chọn giá trị phân chia có số gain cao Thuộc tính nhiều giá trị: Thuộc tính ID3 bị giới hạn việc liên quan đến thuộc tính có nhiều giá trị, mà giá trị lại Khi đó, việc chia tập liệu thành nhiều tập dẫn đến số lượng lớp nút giảm Entropy thường địi hỏi chuẩn hóa liệu, cần tạo biến phụ (dummy variable) loại bỏ giá trị rỗng Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại Các kỹ thuật khác thường chuyên để phân tích liệu gồm loại biến Chẳng hạn, luật quan hệ dùng cho biến tên, mạng nơ-ron dùng cho biến có giá trị số Cây định mơ hình hộp trắng Mạng nơ-ron ví dụ mơ hình hộp đen, lời giải thích cho kết q phức tạp để hiểu Có thể thẩm định mơ hình kiểm tra thống kê Điều làm cho ta tin tưởng vào mơ hình 2.2 Thuật tốn ID3 2.2.1 Giới thiệu Như vậy, nhiệm vụ giải thuật ID3 học định từ tập ví dụ rèn luyện (training example) hay cịn gọi liệu rèn luyện (training data) Hay nói khác hơn, giải thuật có: Đầu vào: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình huống, hay đối tượng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai 2.2.2 Thuật tốn ID3 ID3 xây dựng định (cây QĐ) theo cách từ xuống Lưu ý thuộc tính nào, phân vùng tập hợp ví dụ rèn luyện thành tập tách rời, mà ví dụ phân vùng (partition) 14 15 có giá trị chung cho thuộc tính ID3 chọn thuộc tính để kiểm tra nút dùng trắc nghiệm để phân vùng tập hợp ví dụ; thuật tốn xây dựng theo cách đệ quy cho phân vùng Việc tiếp tục thành viên phân vùng nằm lớp; lớp trở thành nút 2.2.3 Thuộc tính thuộc tính đề phân loại tốt Entropy đo tính tập mẫu n Entropy(S) = pi | s | log pi i 1 Information Gain độ lợi lượng thông tin thu Gain(S,A) = Entropy(S) - sv entropy (Sv ) v value(A) | s | 2.2.4 Thí dụ mơ thuật tốn 2.2.5 Tìm kiếm khơng gian giả thuyết ID3 Từ cách nhìn ID3 giải thuật tìm kiếm khơng gian giả thuyết, ta có số nhận xét sau: Khơng gian giả thuyết định ID3 không gian đầy đủ định thuộc tính cho tập rèn luyện Điều có nghĩa khơng gian mà ID3 tìm kiếm chắn có chứa định cần tìm Trong tìm kiếm, ID3 trì giả thuyết Vì vậy, giải thuật khơng có khả biểu diễn tất định khác có khả phân loại liệu có Vì ID3 sử dụng tất ví dụ bước để đưa định dựa thống kê, nên kết tìm kiếm ID3 bị ảnh hưởng vài liệu sai (hay liệu nhiễu) Trong q trình tìm kiếm, giải thuật ID3 có xu hướng chọn định ngắn định dài 2.2.6 Đánh giá hiệu suất định Để đánh giá hiệu suất định người ta thường sử dụng tập ví dụ tách rời, tập khác với tập liệu rèn luyện, để đánh giá khả phân loại ví dụ tập Tập liệu gọi tập kiểm tra (validation set) Thông thường, tập liệu sẵn có chia thành hai tập: tập rèn luyện thường chiếm 2/3 số ví dụ tập kiểm tra chiếm 1/3 2.3 Thuật toán C4.5 2.3.1 Giới thiệu C4.5 mở rộng giải thuật ID3 số khía cạnh sau: + Trong việc xây dựng định, chúng liên hệ với tập huấn luyện mà có records với giá trị thuộc tính khơng biết đến việc đánh giá việc thu thập thông tin tỉ số thu thập thông tin , cho thuộc tính việc xem xét record mà thuộc tính định nghĩa + Trong việc xây dựng định, giải thuật C4.5 giải tốt trường hợp giá trị thuộc tính giá trị thực + Trong việc xây dựng đinh, C4.5 giải tốt trường hợp thuộc tính có nhiều giá trị mà giá trị lại 2.3.2 Đo độ sử dụng để xác định điểm chia tốt SplitInformation: Thông tin tiềm ẩn tạo cách chia tập liệu số tập ... nhiên, có số phương pháp thơng dụng là: Phân cụm liệu, phân lớp liệu, phương pháp hồi quy, khai phá luật kết hợp 1.3.5 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống khai phá liệu có thành... Phương pháp khai phá liệu định? ?? trình bày số kết sau đây: Những nghiên cứu khai phá liệu ứng dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thông tin Khai phá liệu. .. kinh tế Khai phá liệu giống trình tìm mô tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai phá liệu thường dự báo vật hay kiện Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không