BÁO CÁO BÀI TẬP LỚN MÔN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆUHọ và tên: Phan Tiến DũngLớp: Tin học 1- K42Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU1.1 Giới thiệu về khai phá dữ liệu:Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức hoặc những mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các cơ sở dữ liệu lớn. Đồng thời là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho các tiến trình ra quyết định. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining from database), trích lọc dữ liệu (Knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases- KDD) là như nhau. Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức trong CSDL. Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết. Nguồn dữ liệu phục vụ cho KTDL có thể là các CSDL lớn hay các kho dữ liệu (Datawarehouse) có hay không có cấu trúc. Các tác vụ khai phá dữ liệu có thể được phân thành hai loại: miêu tả và dự báohoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… - Các tác vụ khai phá miêu tả mô tả các đặc tính chung của dữ liệu trong cơ sở dữ liệu. Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… -Các tác vụ khai phá dự báo thực hiện việc suy luận trên dữ liệu hiện thời để đưa ra các dự báo. Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regression)… 1.2 Các nhiệm vụ của khai phá dữ liệu:Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển trong lĩnh vực khai phá dữ liệu. Dựa trên những loại tri thức được khám phá, chúng ta có thể phân loại như theo các nhiệm cụ như sau: Khai phá luật thuộc tính: tóm tắt những thuộc
BÁO CÁO BÀI TẬP LỚN MÔN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Họ tên: Phan Tiến Dũng Lớp: Tin học 1- K42 Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu: Khai phá liệu định nghĩa q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ sở liệu, kho liệu Cụ thể tiến trình trích lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết hữu ích từ sở liệu lớn Đồng thời tiến trình khái quát kiện rời rạc liệu thành tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho tiến trình định Hiện nay, ngồi thuật ngữ khai phá liệu, người ta cịn dùng số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining from database), trích lọc liệu (Knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredredging) Nhiều người coi khai phá liệu số thuật ngữ thông dụng khác khám phá tri thức CSDL (Knowledge Discovery in Databases- KDD) Tuy nhiên thực tế khai phá liệu bước thiết yếu trình Khám phá tri thức CSDL Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: Khai phá liệu ví tìm kim đống cỏ khơ Trong ví dụ này, kim mảnh nhỏ tri thức thơng tin có giá trị đống cỏ khô kho sở liệu rộng lớn Như vậy, thông tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đốn phân tích liên kết Nguồn liệu phục vụ cho KTDL CSDL lớn hay kho liệu (Datawarehouse) có hay khơng có cấu trúc Các tác vụ khai phá liệu phân thành hai loại: miêu tả dự báohoặc đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hố (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… - Các tác vụ khai phá miêu tả mô tả đặc tính chung liệu sở liệu Kỹ thuật khai phá liệu mô tả: Có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hố (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… -Các tác vụ khai phá dự báo thực việc suy luận liệu thời để đưa dự báo Kỹ thuật khai phá liệu dự đốn: Có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Các kỹ thuật gồm có: Phân lớp (classification), hồi quy (regression)… 1.2 Các nhiệm vụ khai phá liệu: Cho đến có nhiều cơng trình nghiên cứu phát triển lĩnh vực khai phá liệu Dựa loại tri thức khám phá, phân loại theo nhiệm cụ sau: Khai phá luật thuộc tính: tóm tắt thuộc tính chung tập liệu sở liệu Ví dụ triệu chứng bệnh S thường thể qua tâp thuộc tính A Khai phá luật phân biệt: khai phá đặc trưng, thuộc tính để phân biệt tập liệu với tập liệu khác Ví dụ nhằm phân biệt chứng bệnh luật phân biệt dùng để tóm tắt triệu chứng nhằm phân biệt chứng bệnh xác định với chứng bệnh khác Khám phá luật kết hợp: khai phá kết hợp đối tượng tập liệu Giả sử hai tập đối tượng {A1, A2,… ,An} {B1, B2,… ,Bn} luật kết hợp có dạng {A1^A2^…^ An) →{B1^ B2^… ^Bn) Khám phá luật phân lớp: phân loại liệu vào tập lớp biết Ví dụ số xe có đặc tính chung để phân vào lớp dựa cách tiêu thụ nhiên liệu phân vào lớp dựa trọng tải… Phân nhóm: xác định nhóm cho tập đối tượng dựa thuộc tính chúng Một số tiêu chuẩn sử dụng để xác định đối tượng có thuộc nhóm hay khơng Dự báo: dự báo giá trị cuỷa liệu bị thiếu phân bố thuộc tính tập liệu Khám phá quy luật biến đổi: tìm tập luật phản ánh hành vi tiến hóa, biến đổi chung tập liệu Ví dụ luật khám phá yếu tố tác động lên thay đổi giá cổ phiếu 1.3 Các loại liệu khai phá: Khai phá liệu thường làm việc với nhiều kiểu liệu khác Hầu hết kiểu liệu khai phá kiểu sau: Cơ sở liệu quan hệ: sở liệu tổ chức theo mơ hình quan hệ Hầu hết hệ quản trị sở liệu hỗ trợ mơ hình như: Oracle, IBM DB2, MS SQL Server, MS Access… Cơ sở liệu đa chiều: sở liệu gọi nhà kho liệu,trong liệu chọn từ nhiều ngồn khác chứa đặc tính lịch sử thơng qua thuộc tính thời gian tường minh hay ngầm định Cơ sở liệu giao tác: loại sở liệu sử dụng nhiều siêu thị, thương mại, tài chính, ngân hàng… Cơ sở liệu quan hệ - hướng đố tượng: mơ hình sở liệu lai mơ hình hướng đối tượng mơ hình sở liệu quan hệ Cơ sở liệu thời gian, không gian: chứa thông tin không gian địa lý thông tin theo thời gian Cơ sở liệu đa phương tiện: loại liệu bao gồm: âm thanh, ảnh,video, văn nhiều kiểu liệu định dạng khác Ngày loại liệu sử dụng nhiều mạng Internet 1.4 Lịch sử phát triển Khai phá liệu: - Những năm 1960: Xuất CSDL theo mơ hình mạng mơ hình phân cấp - Những năm 1970: Thiết lập tẩng lý thuyết cho CSDL quan hệ, hệ quản trị CSDL quan hệ - Những năm 1980: Hoàn thiện lý thuyết CSDL quan hệ hệ quản trị CSDL quan hệ, xuất hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, ) hệ quản trị hướng ứng dụng lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý - Những năm 1990-2000: phát triển Khai phá liệu kho liệu, CSDL đa phương tiện, CSDL Web 1.5 Ứng dụng Khai phá liệu: Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… nưa, tuỳ vào cách tiếp cận sử dụng, khai phá liệu cịn áp dụng số kỹ thuật mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với phương pháp này, khai phá liệu có số ưu rõ rệt • So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến đổi liên tục Trong phương pháp học máy chủ yếu áp dụng CSDL đầy đủ, biến động tập liệu khơng qua lớn • Phương pháp hệ chuyên gia: phương pháp khác với khai phá liệu chỗ ví dụ chuyên gia thường mức cao nhiều so với liệu CSDL, chúng thường bao hàm trường hợp quan trọng Hơn chuyên gia xác nhận giá trị tính hữu ích mẫu phát • Phương pháp thống kê nên tảng lý thuyết khai phá liệu, so sánh hai phương pháp với ta thấy phương pháp thống kê tồn số điểm yếu mà khai phá liệu khắc phục được: - Các phương pháp thống kê chuẩn không phù hợp với kiểu liệu có cấu trúc nhiều CSDL - Các phương pháp thống kê hoạt động hồn tồn theo liệu, khơng sử dụng tri thức có sẵn lĩnh vực - Kết phân tích hệ thống nhiều khó làm rõ - Phương pháp thống kê cần có hướng dẫn người dùng để xác định phân tích liệu đâu * Khai thác liệu ứng dụng rộng rãi nhiều lĩnh vực như: Ngân hàng: ◊ Xây dựng mơ hình dự báo rủi ro tín dụng ◊ Tìm kiếm tri thức, qui luật thị trường chứng khoán đầu tư bất động sản ◊ Phát dùng thẻ tín dụng giả mạng cơng cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử Thương mại điện tử: ◊ Cơng cụ tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng ◊ Phân tích hành vi mua sắm mạng cho biết thông tin tiếp thị phù hợp với loại khách hàng phân khu thị trường định Nhân sự: ◊ Giúp nhà tuyển dụng chọn ứng viên thích hợp cho nhu cầu công ty Y học: ◊ Hỗ trợ bác sĩ phát bệnh bệnh nhân dựa xét nghiệm đầu vào An ninh, an toàn mạng ◊ Ứng dụng hệ thống phát xâm nhập trái phép IDS/IPS để phát công xâm nhập mạng trái phép Một số ứng dụng khai phá liệu lĩnh vực kinh doanh: ∗ BRANDAID: mơ hình marketing linh hoạt tập chung vào hàng tiêu dùng đóng gói ∗ CALLPLAN: giúp nhân viên bán hàng xác định số lần viếng thăm khách hàng triển vọng khách hàng có ∗ DETAILER: xác định khách hàng nên viếng thăm sản phẩm nên giới thiệu chuyến viếng thăm, ∗ GEOLINE: mơ hình thiết kế địa bàn tiêu thụ dịch vụ ∗ MEDIAC: Giúp người quảng cáo mua phương tiện năm, lập kế hoạch sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm 1.6 Phân loại: Chúng ta phân lớp hệ thống khai phá liệu theo tiêu chuẩn sau: Phân lớp dựa loại liệu khai phá: hệ thống khai phá liệu làm việc với sở liệu quan hệ, nhà kho liệu, sở liệu giao tác, sở liệu hướng đối tượng, đa phương tiện Web… Phân lớp dựa kiểu tri thức khai phá: hệ thống khai phá liệu xuất kết kiểu tóm tắt, mơ tả, luật kết hợp, phân lớp, phân nhóm dự báo… Phân lớp dựa loại kỹ thuật sử dụng: hệ thống khai phá sử dụng kỹ thuật OLAP, kỹ thuật máy học (cây định, mạng neural, thuật giải tiến hóa, tập thơ tập mờ…) Phân lớp dựa lĩnh vực áp dụng khai phá: hệ thống dùng nhiều lĩnh vực: sinh học, y khoa, thương mại bảo hiểm… 1.7 Một số thách thức đặt cho việc khai phá liệu : Các sở liệu lớn Số chiều lớn Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp Dữ liệu bị thiếu nhiễu Quan hệ trường phức tạp Giao tiếp với người sử dụng kết hợp với tri thức có Tích hợp với hệ thống khác… Chương QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU 2.1 Quy trình Tổng quát thực Khai phá liệu: Quá trình gồm bước: 1) Làm liệu (data cleaning): Loại bỏ nhiễu liệu khơng thích hợp 2) Tích hợp liệu (data integration): Tích hợp liệu từ nguồn khác như: CSDL, Kho liệu, file text… 3) Chọn liệu (data selection): Ở bước này, liệu liên quan trực tiếp đến nhiệm vụ thu thập từ nguồn liệu ban đầu 4) Chuyển đổi liệu (data transformation): Trong bước này, liệu chuyển đổi dạng phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp 5) Khai phá liệu (data mining): Là giai đoạn thiết yếu, phương pháp thơng minh áp dụng để trích xuất mẩu liệu 6) Đánh giá mẫu (pattern evaluation): Đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo 7) Trình diễn liệu (Knowlegde presention): Sử dụng kỹ thuật trình diễn trực quan hố liệu để biểu diễn tri thức khai phá cho người sử dụng Ordinal Hình 2.1: Data mining – bước trình khám phá tri thức 2.2 Tiến trình khám phá tri thức vào toán cụ thể : Chính mục tiêu khám phá trí thức ngầm định sở liệu nên trình khai phá thường phải qua số giai đoạn cần thiết Bao gồm giai đoạn chuẩn bị liệu khai phá, giai đoạn khai phá liệu cuối giai đoạn chuyển kêt khai phá sang tri thức cho người hiểu Chi tiết bước thực mô tả bảng tóm tắt sau: Giai đoạn 1: phát triển hiểu biết lĩnh vực ứng dụng tri thức tương ứng Xác định mục đích tiến trình khai phá liệu từ qua điểm người dùng Giai đoạn 2: chuẩn bị liệu để khai phá, thu thập liệu liệu mẫu Giai đoạn 3: tiền xử lý liệu, xóa thơng tin bị nhiễu liệu,loại bỏ trùng lặp liệu xác định chiến lược để xử lý liệu bị Giai đoạn 4: chiếu liệu, thu nhỏ liệu tìm đặc trưng để khai phá Hình 2.2: Tổng quan tiến trình khai phá liệu Giai đoạn 5: chọn phương pháp khai phá liệu thích hợp số phương pháp phổ biến như: tóm tắt, phân lớp, hồi quy, phân nhóm, kết hợp… Giai đoạn 6: từ thuật toán chọn, mơ hình hóa thuật tốn để giải trường hợp cụ thể xét Lựa chọn phương pháp tìm kiếm mẫu liệu, định tham số Giai đoạn 7: giai đoạn khai phá liệu, sử dụng thuật tốn để tìm kiếm mẫu thú vị hình thức thể đắc thù tập thể bao gồm luật phân lớp, cây, hồi quy phân nhóm Giai đoạn 8: thơng dịch lại mẫu khai phá hình thức thể tri thức liệu ngôn ngữ, biểu đồ, hình cây, bảng… Q trình khai phá có tương tác lặp lại hại bước bất kỳ, bước tiến trình minh họa hình Hầu hết cơng việc trước tập trung bước giai đoạn khai phá liệu Tuy nhiên, bước lại quan trọng khơng bước đóng góp nhiều vào thành cơng tồn tiến trình khai phá liệu sau ta tìm hiểu chi tiết trình tiền xử lý tiến trình Chương NỘI DUNG 3.1.Mục đích bài: Hiện theo thống kê việc ứng dụng tin học vào lĩnh vực y tế mức độ trung bình việc khai thác liệu cho việc chẩn đoán bệnh chưa ứng dụng nhiều Như biết bệnh có triệu chứng cụ thể khơng bệnh cịn có “tiền” triệu chứng ( triệu chứng trước dẫn đến bệnh ) Nếu biết cách thông kê xử lý ứng dụng liệu vào cơng tác chẩn đốn giúp ích nhiều , giúp bác sĩ chẩn đoán số lượng lớn bệnh nhân, chẩn đốn xác chẩn đốn sớm Ngồi mà cơng nghệ thông tin phát triển bệnh viện bác sĩ có tây nghề, có kiến thức chun mơn cao chưa đủ đáp ứng, điều làm tải bệnh viện tuyến trên, tải với bác sĩ có chun mơn Nếu ta biết áp dụng việc khai phá liệu bệnh nhân vào y tế điều cách tốt để giải nhiều vấn đề xã hội 3.2 Mô tả liệu: Tập liệu Breast Cancer Wisconsin (Diagnostic) tập liệu nghiên cứu chẩn đoán ung thư vú 699 bệnh nhân qua năm từ năm 1989 đến 1990 tiến sỹ Wolberg qua liệu báo cáo ông Dữ liệu nghiên cứu gồm 11 trường liệu ghi lại thơng số cần thiết mẫu chẩn đốn trường hợp cụ thể Inde x 10 11 Attribute Sample code number Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses Class Domain id number – 10 – 10 – 10 – 10 – 10 – 10 – 10 – 10 – 10 for benign, for malignant Mẫu liệu cho có 16 lỗi, lỗi không xác định giá trị thuộc tính điền dấu “?” 3.3.Tiền xử lý liệu : 3.3.1 Lọc liệu: Như ta thấy việc chẩn đoán liệu thuộc trường thứ khơng tham gia vào nên ta loại bỏ thuộc tính này: Bên cạnh liệu có 16 lỗi, cần xử lý vấn đề Có cách thơng dụng để xử lý lỗi thay giá trị lỗi giá trị cách thứ xóa bỏ mẫu khỏi liệu Với toán số 16 nhỏ so với 699 nên trường hợp chọn phương án loại bỏ mẫu lỗi Lúc liệu tơi cịn có 683 mẫu Với mẫu liệu tên thuộc tính tương đối dài nên tiện chuyển đổi tên thành số liệu sau để tiện việc khai phá Clump Thickness A1 Uniformity of Cell Size A2 Uniformity of Cell Shape A3 Marginal Adhesion A4 Single Epithelial Cell Size A5 Bare Nuclei A6 Bland Chromatin A7 Normal Nucleoli A8 Mitoses A9 Class class Ngoài Weka cung cấp cho ta công cụ kiểm tra việc xếp hạng mức độ quan trọng việc tham gia vào trình khai phá liệu Đối với sở liệu ta có: === Attribute Selection on all input data === Search Method: Attribute ranking Attribute Evaluator (supervised, Class (nominal): 10 KL): Information Gain Ranking Filter Ranked attributes: 0.702 A2 0.677 A3 0.603 A6 0.555 A7 0.534 A5 0.487 A8 0.464 A4 0.464 A1 0.212 A9 Selected attributes: 2,3,6,7,5,8,4,1,9 : Qua ta thấy thuộc tính A9 A1 xếp cuối theo thứ hạng nên khơng cần quan tâm nhiều khái phá 3.3.2 Rời rạc hóa liệu (Discretization) Trong Data Mining, số kỹ thuật khai phá luật kết hợp (association rule mining) thực liệu phân loại (categorical/ nominal data) Điều yêu cầu phải thực việc rời rạc hóa thuộc tính có kiểu liên tục (như kiểu numeric chẳn hạn) muốn áp dụng kỹ thuật Trong file liệu dạng numeric phạm vi thuộc tính từ A1 đến A9 từ đến 10 thuộc tính KL có hai giá trị ta tiến hành thay từ khóa “numeric” giá trị rời rạc {1,2,3,4,5,6,7,8,9,10} thuộc tính A1 đến A9 giá trị rời rạc {2,4} thuộc tính KL text editor (WordPad chẳn hạn) (Xem hình) 3.3.3 Classifier (Phân lớp): Ta có sơ đồ phân bố thuộc tính liệu sau: Do tơi chọn thuộc tính phân lớp thuộc tính KL 3.4 Phân tích dùng WEKA a Vấn đề trọng tâm : Xu ấ t ph t t n h ữn g nh ậ n đ ị n h t r ê n , đ n n y n h ắ m t i m ụ c đ í c h đ a r a m ộ t ph n g pháp phân loại linh hoạt hơn, thuyết phục Yêu cầu phương pháp có thểđảm nhận tốt vai trị cố vấn, hỗ trợ chuyên viên tín dụng việc đưa địnhcho vay, xử lý dựa thơng tin (có thể chưa đầy đủ) từ khách hàng từ mẫuthống kê đáng tin cậy b.Chi tiết thuật tốn C4.5 áp dụng: b1.Đơi nét giải thuật C4.5 : C4.5 thuật toán dùng để xây dựng định được đề xuất Ross Quinlan.C4.5 mở rộng thuật toán ID3, với số cải tiến:cho phép liệu đầu vào thuộc tính liên tụccho phép thao tác với thuộc tính có liệu khơng xác định (do bị mát dữliệu, …)đưa phương pháp “cắt tỉa” giản lược luật để phù hợp với bộdữ liệu lớn b2.Mơ hình định Các nút định bao gồm loại: _ nút lá: nút tương ứng với class, thuộc tính dùng để phân loại, phân loại trường hợp mới, liệu trường hợp đưa qua để kiểmtra, đạt đến nút tương ứng với class nút kết phân loại nút _ nút (internal node): node tương ứng với thuộc tính dùng đểkiểm tra nút đấy,+) với thuộc tính có tập giá trị rời rạc tập giá trị thuộc tínhđó dùng để kiểm tra xác định nút duyệt đến+) với nút ứng với thuộc tính có tập giá trị liên tục, nút có1 giá (hoặc vài) giá trị gọi mốc, giá trị mốc dùng để sosánh với giá trị thuộc tính tương ứng trường hợp cần phân loại Cây định có thểsử dụng để phân loại trường hợp cách xuất phát từ nút gốc, duyệt qua tất cácnút đến gặp nút dừng đưa kết phân loại Đối với nút (nút – internal node) c.Triển khai vào toán c1 liệu đầu vào: Đầu vào thuật toán tập ghi, ghi bao gồm thuộc tính, dựavào thuộc tính ta dùng Các thuộc tính bảng chia rathành dạng sau: • thuộc tính :Boolean • thuộc tính :Numeric • thuộc tính :Unique for each instance Dữ liệu đầu vào chia thành tập: tập dùng cho trình dùng cho trình “huấn luyện” để xây dựng gọilà training data set tập dùng cho trình kiểm tra, đánh giá định vừa xây dựng – gọi test data set c2.Xây dựng định Cj Khi định có node tương ứng với bảng T với ghi test đưa vào phân loại cho racùng giá trị phân loại Cj -Nếu T khơng có ghi nào, T bao gồm nút, tuynhiên class tương ứng với nút xác định từ thông tin không thuộc T -Nếu T chứa ghi có thuộc tính class gồm nhiều giá trị khác nhau, khiđó ta thành bảng cho thuộc tính class bảng có giá trị đồngnhất giống nhau.Việc xây dựng định thuật toán C4.5 sử dụng phương pháp củaHunt Ký hiệu class (các thuộc tính chứa kết đánh giá) {C1, C2, … ,Ck} bảng chứa ghi tập training ký hiệu T, ứng với bảng T ta có 3trường hợp sau: +Tất ghi T thuộc class xác định +Nếu T khơng có ghi nào, T bao gồm nút, tuynhiên class tương ứng với nút xác định từ thông tin không thuộc T +Nếu T chứa ghi có thuộc tính class gồm nhiều giá trị khác nhau, khiđó ta thành bảng cho thuộc tính class bảng có giá trị đồngnhất giống Giả sử ta chọn thuộc tính X bao gồm tập n giá trị {O1, O2, … ,On} dùng để phân chia bảng T thành n bảng {T1, T2, …, Tn}, với bảng nàyta lại tiếp tục phân chia theo thuộc tính để cuối mảng có giá trịthuộc tính class giống Theo cách xây dựng việc quan trọng việc tạimỗi bước phải chọn thuộc tính xây dựng sau tối ưu – theonghĩa nhỏ số phân đoạn chia Vì bước ta phải chọn thuộc tính hợp lý để chia bảng T Việc chọn thuộc tính thựchiện cách quét tất xây dựng, sau chọn tối ưu nhất! Tuy nhiên cách vét cạn địi hỏi chi phí lớn! có cách khác nhằm xác định 1cây tốt sử dụng thuật tốn tham lam (greedy algorithm) thuật toán C4.5 sửdụng Gain criterion Gain criterion ratio Những chuẩn dựa lý thuyết thông tin Gain criterion Gain criterionratio: Việc chọn chọn thuộc tính tốt bước dùng để phân chia bảng T cầnsử dụng đại lượng, đại lượng phải có giá trị lớn thuộc tính chọn làđúng đắn (tại bước đó), giá trị nhỏ đại lượng không tốt (tại bước xácđịnh) Một đại lượng thỏa mãn lượng thơng tin mong đợi cung cấp 1thuộc tính (được đề xuất lần Shannon Weaver) Để hiểuđược khái niệm thơng tin nghĩ câu trả lời cho câu hỏi Lượng thôngtin chứa câu trả lời phụ thuộc vào tri thức trước Thuộc tính liên tục: Đối với thuộc tính liên tục, ta cần xác định mốc dùng để phân chia bảng bảnghi thành tập Thuật toán sử dụng C4.5 để xác định mốc: -Sắp xếp ghi bảng theo thứ tự từ tăng dần theo giá trị thuộctính cần xác định mốc, giả sử tập sau xếp {V1, V2, …,Vn} _ xác định điểm đoạn xác định (Vi, Vi+1) -Phân chia bảng xét thành phần dựa theo điểm đó, sau xác định gain criterion ratio ứng với cách phân chia -Chọn giá trị mà gain criterion ratio ứng với điểm có giá trị lớn làm điểm mốc Đánh giá hiệu phân lớp thuật toán tập liệu chotheo hai phương pháp cross- validation percentage split Các tham số j48: -binarySplits C ó h a y kh ơn g s dụ n g ph â n t c h n h ị ph â n t r on g c c thuộc tính nominal xây dựng -collapseTree Có hay khơng thành phần bỏ mà không giảm bớt lỗi training -confidenceFactor Mức tin tưởng để định xem có xén tỉa hay không -debug Nếu thiết lập true, phân lớp cho thơng tin bổ xung tới hình console -minNumObj Số lượng nhỏ thể nút -numFolds .Định rõ lượng liệu sử dụng cho việc giảm bớt lỗi xén tỉa Một fold sử dụng cho việc xén tỉa, phần lại sử dụng cho việc phát triển -reducedErrorPruning Có hay khơng xén tỉa giảm bớt lỗi sử dụng thaythế xén tỉa C4.5 Cross-validation : -Một kỹ thuật sử dụng để kiểm tra hiệu xuất mơ hình tiên đốn Cross- validation tiên đốn ăn khớp mơ hình tới tập giả thiếthợp lệ (Test set) mà ta khơng có sẵn tập hợp lệ tường minh - M ộ t l o i c r o s s - v a l i d a t i o n t h n g d ù n g l k-folds cross-validation: Tập mẫu ban đầu phân chia ngẫu nhiên tới k tập mẫu Với k tập mẫu này,một mẫu đơn dùng liệu đánh giá cho việc kiểm tra mơ hình, vàk-1 tập mẫu cịn lại sử dụng liệu training Tiến trình đánh giá chéo lặp lại k lần ( tham số Folds in weka) Lấy trung bình k kết thuđược ta có đánh giá cho mơ hình Ưu điểm phương pháp việc lặp lại ngẫu nhiên mẫu conđược sử dụng cho training testing, lần Percentage split: Cho biết tỉ lệ phân chia % đạt hiệu phânlớp cao -Tỷ lệ phân chia cho biết số mẫu chọn cho tập huấn luyện số mẫuđược chọn cho tập test.Ví dụ: Percentage split =20% nghĩa 20% mẫu dùng test set 40% mẫudùng cho training set 1) Lần test thứ 1:với tỉ lệ phân chia 60% ta có bảng thống kế sau: 2) Lần test thứ : với tỉ lệ phân chia > 60% 65% ta có bảng thống kế sau: 3) Lần test thứ 3: với tỉ lệ phân chia > 66% 70% ta có bảng thống kê sau: 4) Lần test thứ 4: với tỉ lệ phân chia > 60% 75% ta có bảng thống kê sau: 5) Lần test thứ 5: với tỉ lệ phân chia > 60% 80% ta có bảng thống kê sau: 6) Lần test thứ 6: với tỉ lệ phân chia > 60% 85% ta có bảng thống kê sau: 7) Lần test thứ 7: với tỉ lệ phân chia > 60% 90% ta có bảng thống kê sau: 8) Lần test thứ 8: với tỉ lệ phân chia > 60% 75% ta có bảng thống kê sau: 9) Lần test thứ 9: với tỉ lệ phân chia < 60% 55% ta có bảng thống kê sau: 10) Lần test thứ 10: với tỉ lệ phân chia < 60% 50% ta có bảng thống kê sau: 11) Lần test thứ 11: với tỉ lệ phân chia < 60% 45% ta có bảng thống kê sau: 12) Lần test thứ 12: với tỉ lệ phân chia < 60% 40% ta có bảng thống kê sau: 13) Lần test thứ 13: với tỉ lệ phân chia < 60% 35% ta có bảng thống kê sau: Qua nhiều lần test ,ta thấy với tỉ lệ phân chia =66% đạt hiệu phân lớp caonhất Tóm lại với phương pháp test Percentage Slit với tham số 66% đạt hiệuquả phân lớp cao Kết luận: Như vậy, liệu với việc sử dụng định nhận thấy yếu tố A2( tức Uniformity of Cell Size) có vai trị định lớn nhân tố bệnh ( lành tính hay ác tính) - Với A2 =4 khả người bệnh người bệnh có u ác tính cao - Với A2=3 : + Nếu A6 =4 người bệnh có khả có u ác tính cao + Nếu A6=3 A1= khả người bệnh có u lành tính cịn với giá trị khác A1 người bệnh có khả mắc u ác tính Trong đó: Clump Thickness Uniformity of Cell Size Bare Nuclei A1 A2 A6 ... tri thức… So với phương pháp này, khai phá liệu có số ưu rõ rệt • So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến... lý liệu bị Giai đoạn 4: chiếu liệu, thu nhỏ liệu tìm đặc trưng để khai phá Hình 2.2: Tổng quan tiến trình khai phá liệu Giai đoạn 5: chọn phương pháp khai phá liệu thích hợp số phương pháp... chung tập liệu Ví dụ luật khám phá yếu tố tác động lên thay đổi giá cổ phiếu 1.3 Các loại liệu khai phá: Khai phá liệu thường làm việc với nhiều kiểu liệu khác Hầu hết kiểu liệu khai phá kiểu