Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho Iris dataset

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	20
Dung lượng	1,19 MB

Nội dung

I.Giới thiệu bài toán phân lớp dữ liệu Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy có kích thước ngày càng lớn, và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đó các luật về phân lớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai. Những quy tắc nghiệp vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu khoa học. Công nghệ phân lớp và dự đoán dữ liệu ra đời để đáp ứng mong muốn đó. Công nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics)... Công nghệ này cũng ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục... Nhiều kỹ thuật phân lớp đã được đề xuất như: Phân lớp cây quyết định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong các kỹ thuật đó, cây quyết định được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining . Trong các mô hình phân lớp, thuật toán phân lớp là nhân tố chủ đạo. Do vậy cần xây dựng những thuật toán có độ chính xác cao, thực thi nhanh, đi kèm với khả năng mở rộng được để có thể thao tác với những tập dữ liệu ngày càng lớn. II.Mô tả bài toán Iris dataset là bộ dữ liệu về hoa dung để kiểm tra các classification models. Iris Dataset gồm 150 samples (instances), thuộc 3 lớp (classes| categories) là setosa, vesicolor và virginica, mỗi lớp có 50 samples Cấu trúc của Iris dataset như sau: Attributes x Instances = 5 x150 Number of classes : 3 Distribution for each class : 50 (mỗi lớp có 50 instances) Số thuộc tính là 5, trong đó có 1 thuộc tính phân loại có tên class (categorical Attribute) Sepallength: Độ dài đài hoa Sepalwidth: Độ rộng đài hoa Petallength: Độ dài cánh hoa Petalwidth: Độ rộng cánh hoa Class: thuộc tính phân loại hoa (setosa, vesicolor

Nguyễn Thị Phương I.Giới thiệu bài toán phân lớp dữ liệu Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy có kích thước ngày càng lớn, và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đó các luật về phân lớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai. Những quy tắc nghiệp vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu khoa học. Công nghệ phân lớp và dự đoán dữ liệu ra đời để đáp ứng mong muốn đó. Công nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) . Công nghệ này cũng ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục . Nhiều kỹ thuật phân lớp đã được đề xuất như: Phân lớp cây quyết định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong các kỹ thuật đó, cây quyết định được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining . Trong các mô hình phân lớp, thuật toán phân lớp là nhân tố chủ đạo. Do vậy cần xây dựng những thuật toán có độ chính xác cao, thực thi nhanh, đi kèm với khả năng mở rộng được để có thể thao tác với những tập dữ liệu ngày càng lớn. II.Mô tả bài toán Iris dataset là bộ dữ liệu về hoa dung để kiểm tra các classification models. Iris Dataset gồm 150 samples (instances), thuộc 3 lớp (classes| categories) là setosa, vesicolor và virginica, mỗi lớp có 50 samples Cấu trúc của Iris dataset như sau: Attributes x Instances = 5 x150 Number of classes : 3 Distribution for each class : 50 (mỗi lớp có 50 instances) Số thuộc tính là 5, trong đó có 1 thuộc tính phân loại có tên class (categorical Attribute) Sepallength: Độ dài đài hoa Nguyễn Thị Phương Sepalwidth: Độ rộng đài hoa Petallength: Độ dài cánh hoa Petalwidth: Độ rộng cánh hoa Class: thuộc tính phân loại hoa (setosa, vesicolor và virginica) III.Trích chọn đặc tính Nguyễn Thị Phương Trích chọn thuộc tính (Feature Selection, Feature Extraction) là nhiệm vụ rất quan trọng giai đoạn tiền xử lý dữ liệu khi triển khai các mô hình khai phá dữ liệu. Một vấn đề gặp phải là các dataset dùng để xây dựng các Data mining Models thường chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu) cho việc xây dựng mô hình. Chẳn hạn, một dataset gồm hàng trăm thuộc tính dùng để mô tả về khách hàng của một doanh nghiệp được thu thập, tuy nhiên khi xây dựng một Data mining model nào đó chỉ cần khoảng 50 thuộc tính từ hàng trăm thuộc tính đó. Nếu ta sử dụng tất cả các thuộc tính (hàng trăm) của khách hàng để xây dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhớ trong quá trình Training model, thậm chí các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức. Các phương pháp trích chọn thuộc tính thường tính trọng số (score) của các thuộc tính và sau đó chỉ chọn các thuộc tính có trọng số tốt nhất để sử dụng cho mô hình. Các phương pháp này cho phép bạn hiệu chỉnh ngưỡng (threshold) để lấy ra các thuộc tính có Score trên ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình Training Model. Nguyễn Thị Phương Khởi động Weka > Chọn Explorer > Chọn Open file > Chọn Dataset “mushroom- train.arff”kết quả như sau: Chọn Tab “Select attributes”. Trong mục Attribute Evaluator chọn WrapperSubsetEval. Trong mục classifier chọn NaiveBayes Trong mục Search Method chọn “GreedyStepwise” : Bấm Start để thực hiện, kết quả như sau: Nguyễn Thị Phương Nhìn vào bảng trên ta thấy tất cả 5 thuộc tính của bài toán đều được chọn sau khi quá trình trích chọn diễn ra IV.Tiền xử lý dữ liệu Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc ordinal data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu. Nguyễn Thị Phương Bây giờ trên file “iris.arff”, chúng ta sẽ thực hiện việc rời rạc hóa dữ liệu lần lượt trên 4 thuộc tính . Nạp file dữ liệu “iris.arff” :Iris-setosa :Iris –versicolor :Iris-virgnica - Ta tiến hành rời rạc hóa dữ liệu với thuộc tính đầu tiên “sepallength” Nguyễn Thị Phương Bây giờ mở lại hộp thoại Filter và chọn: filters.unsupervised.attribute.Discretize Tiếp theo, bấm chuột vào text box ngay bên phải nút “Choose” và thiết lập các tham số để thực hiện việc rời rạc hóa. Trong textbox attributeIndices nhập 1 tương ứng với index của thuộc tính “sepallength” Trong mục bins nhập 4 (sepallength được chia thành 4 khoảng – interval) Nguyễn Thị Phương Click “Apply” để thực hiện. Kết quả sẽ được tạo ra trong một working relation mới, trong đó các giá trị liên tục trong thuộc tính “sepallength” sẽ được tự động chia vào 4 khoảng có nhãn lần lượt là “(-inf-5.2]”, “(5.2-6.1]” “(6.1- 7)” “7-inf” lần lượt có tổng là 45,50,43,12 (xem hình). Nguyễn Thị Phương Từ 4 cột như trong hình vẽ ta dễ dàng nhận thấy tỉ lệ phân chia của các loài hoa theo từng nhãn đã nêu ở trên -Tương tự đối với thuộc tính “sepalwidth” Nguyễn Thị Phương -Tương tự đối với thuộc tính “petallength” . Nguyễn Thị Phương I.Giới thi u bài toán phân lớp dữ liệu Trong quá trình hoạt động, con người tạo ra. tố chủ đạo. Do vậy cần xây dựng những thuật toán có độ chính xác cao, thực thi nhanh, đi kèm với khả năng mở rộng được để có thể thao tác với những tập

Ngày đăng: 16/12/2013, 15:08

Xem thêm