1. Trang chủ
  2. » Công Nghệ Thông Tin

Báo cáo khai phá dữ liệu

21 89 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN

    • 1.1. Khái niệm cơ bản về khai phá dữ liệu

      • 1.1.1. Khai phá dữ liệu là gì ?

      • 1.1.2 Quy trình khai phá dữ liệu

    • 1.2. Tổng quan về hệ hỗ trợ ra quyết định

    • 1.3. Tổng quan về phân lớp dữ liệu

  • CHƯƠNG 2: KỸ THUẬT PHÂN LỚP VÀ THUẬT TOÁN DECISION TREE

    • 2.1. Giới thiệu về kỹ thuật phân lớp trong Khai phá dữ liệu

    • 2.2. Thuật toán Decision Tree

    • 2.3. Áp dụng và sử dụng thuật toán Decision tree vào phân loại loài hoa Iris

  • CHƯƠNG 3: THỰC HIỆN VÀ ĐÁNH GIÁ

    • 3.1. Xây dựng mô hình bằng Weka

  • KẾT LUẬN

Nội dung

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆUĐỀ TÀI: PHÂN LOẠI LOÀI HOA IRIS BẰNG PHÂN LỚP DỮ LIỆU BẰNG DECISION TREE

TRƯỜNG ĐẠI HỌC … KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: PHÂN LOẠI LOÀI HOA IRIS BẰNG PHÂN LỚP DỮ LIỆU Sinh viên thực : Giảng viên hướng dẫn: Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp : Khóa : Hà Nội, Năm 2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Ghi Giảng viên chấm: Họ tên giảng viên Chữ ký Diểm Ghi Giảng viên chấm 1: Giảng viên chấm 2: MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN 1.1 Khái niệm khai phá liệu 1.1.1 Khai phá liệu ? 1.1.2 Quy trình khai phá liệu 1.2 Tổng quan hệ hỗ trợ định 1.3 Tổng quan phân lớp liệu .7 CHƯƠNG 2: KỸ THUẬT PHÂN LỚP VÀ THUẬT TOÁN DECISION TREE .10 2.1 Giới thiệu kỹ thuật phân lớp Khai phá liệu .10 2.2 Thuật toán Decision Tree 10 2.3 Áp dụng sử dụng thuật tốn Decision tree vào phân loại lồi hoa Iris 13 CHƯƠNG 3: THỰC HIỆN VÀ ĐÁNH GIÁ 14 3.1 Xây dựng mơ hình Weka 14 KẾT LUẬN .18 LỜI MỞ ĐẦU Trong thời đại ngày nay, yếu tố định thành công lĩnh vực gắn liền với việc nắm bắt, thống kê khai thác thông tin hiệu Dữ liệu ngày lớn nên việc tìm thơng tin tiềm ẩn chúng khó khăn Khai phá tri thức lĩnh vực nghiên cứu mới, mởra thời kỳ việc tìm thơng tin hữu ích Nhiệm vụ lĩnh vực khai phá tri thức sở liệu, khai phá liệu sở liệu khơng phải hệ thống phân tích tự động mà trình tương tác thường xuyên người với sở liệu trợ giúp nhiều phương pháp công cụ tin học Em xin bày tỏ biết ơn sâu sắc tới Thầy Vũ Văn Định người trực tiếp hướng dẫn, bảo tận tình, cung cấp tài liệu phương pháp nghiên cứu khoa học để chúng em hoàn thành tập lớn Em xin gửi lời cảm ơn tới thầy cô giáo dạy dỗ trình chúng em theo học Trường Trong suốt trình nghiên cứu, cố gắng chắn chúng em không tránh khỏi thiếu sót, mong q thầy góp ý để luận văn hồn chỉnh Chúng em xin chân thành cảm ơn! CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN 1.1 Khái niệm khai phá liệu 1.1.1 Khai phá liệu ? Khai phá liệu (data mining) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể q trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích trình "khám phá kiến thức sở liệu" KDD Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm:  Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding)  Chuẩn bị liệu (Data preparation), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation)  Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô  Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu  Triển khai (Deployment) Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà q trình lặp có quay trở lại bước qua 1.1.2 Quy trình khai phá liệu Nghiên cứu lĩnh vực Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định tri thức cần chắt lọc, từ định hướng để tránh tốn thời gian cho tri thức không cần thiết Tạo tập tin liệu đầu vào Ta xây dựng tập tin để lưu trữ liệu đầu vào để máy tính lưu trữ xử lý Tiền xử lý, làm mã hóa Ở bước ta tiến hành bỏ bớt liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc liệu mã hóa chúng để tiện cho trình xử lý Rút gọn chiều Thơng thường tập liệu có chiều lớn sinh lượng liệu khổng lồ, ví dụ với n chiều có 2^n nguyên tố hợp Do đó, bước quan giúp giảm đáng kể hao tổn tài nguyên trình xử lý tri thức Thông thường ta dùng Rought set(https://en.wikipedia.org/wiki/Rough_set) để giảm số chiều Chọn tác vụ khai thác liệu Để đạt mục đích ta cần, ta chọn tác vụ khai thác liệu cho phù hợp Thơng thường có tác vụ sau:  Đặc trưng(feature)  Phân biệt (discrimination)  Kết hợp(association)  Phân lớp(classfication)  Xu thế(trend analysis)  Gom cụm(clusterity)  Phân tích độ lệch  Phân tích độ Khai thác liệu: Tìm kiếm tri thức Sau tiến hành bước bước q trình, ta tiến hành khai thác tìm kiếm tri thức Đánh giá mẫu tìm Ta cần đánh giá lại tri thức tìm được, ta sử dụng tri thức nào, tri thức dư thừa, không cần thiết Biểu diễn tri thức Ta biểu diễn tri thức vừa thu thập dạng ngôn ngữ tự nhiên hình thức cho người dùng hiểu tri thức Sử dụng tri thức vừa khám phá Ta tham khảo tiến trình KĐ(Knowledge Discovery in Databases) để hiểu rõ khai phá liệu: Hình 2.1 Knowledge Discovery in Databases Chuẩn bị liệu (data preparation), bao gồm q trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu(data selection), biến đổi liệu(data transformation) Khai thác liệu(data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô Đánh giá(evaluation): dựa tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu Triển khai(deployment) Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà trình lặp có quay trở lại bước qua Ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương phápthống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (DataWarehousing) cơng cụ phân tích trực tuyến (OLAP- On Line AnalyticalProcessing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như:  Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài chínhvà dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận,  Thống kê, phân tích liệu hỗ trợ định  Điều trị y học chăm sóc y tế: số thơng tin chuẩn đốn bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng,thuốc, )  Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố  Text mining Web mining: Phân lớp văn trang Web, tóm tắt vănbản,  Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìmkiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene sốbệnh di truyền,  Mạng viễn thông : Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ,… 1.2 Tổng quan hệ hỗ trợ định Hệ hỗ trợ định hệ thống thông tin, có nhiệm vụ cung cấp thơng tin hỗ trợ cho việc định để tham khảo giải vấn đề Hệ hỗ trợ định dùng cho nhân hay tổ chức hỗ trợ gián tiếp trực tiếp Trong lĩnh vực y tế, hệ hỗ trợ định dựa vào tri thức học cung cấp thông tin chuẩn đốn cho nhân viên y tế Thơng tin trích lọc để cung cấp cách thơng minh có giá trị cho q trình chuẩn đốn, theo dõi điều trị bệnh hiệu hơn, từ ta thấy số lợi ích hệ hỗ trợ định y tế sau: • Tăng cường chất lượng chuẩn đốn, chăm sóc bệnh nhân • Giảm nguy sai sót để tránh tình nguy hiểm cho bệnh nhân • Tăng cường hiệu ứng dụng công nghệ thông tin vào lĩnh vực y tế để giảm bớt thủ tục giấy tờ không cần thiết Hình 2.2 Sơ đồ hệ hỗ trợ định 1.3 Tổng quan phân lớp liệu Ngày phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thông tin ẩn người trích rút định nghiệp vụ thơng minh Phân lớp dự đốn hai dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước Trong đó, dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục Ví dụ mơ hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mưa, hay nắng dựa vào thông số độ ẩm, sức gió, nhiệt độ,… ngày hơm ngày trước Hay nhờ luật xu hướng mua hàng khách hàng siêu thị, nhân viên kinh doanh sách đắn lượng mặt hàng chủng loại bày bán… Một mơ hình dự đốn dự đốn lượng tiền tiêu dùng khách hàng tiềm dựa thông tin thu nhập nghề nghiệp khách hàng Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực khác như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn thuật toán đời trước sử dụng chế liệu cư trú nhớ (memory resident), thường thao tác với lượng liệu nhỏ Một số thuật toán đời sau sử dụng kỹ thuật cư trú đĩa cải thiện đáng kể khả mở rộng thuật toán với tập liệu lớn lên tới hàng tỉ ghi Quá trình phân lớp liệu gồm hai bước: • Bước thứ (learning) Quá trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước Đầu vào q trình tập liệu có cấu trúc mơ tả thuộc tính tạo từ tập giá trị thuộc tínhđó Mỗi giá trị gọi chung phần tử liệu (data tuple), mẫu (sample), ví dụ (example), đối tượng (object), ghi (record) hay trường hợp (case) Khoá luận sử dụng thuật ngữ với nghĩa tương đương Trong tập liệu này, phần tử liệu giả sử thuộc lớp định trước, lớp giá trị thuộc tính chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu bước thường quy tắc phân lớp dạng luật dạng if-then, định, công thức logic, hay mạng nơron Q trình mơ tả hình 2.3 Hình 2.3 Quá trình phân lớp liệu - (a) Bước xây dựng mơ hình phân lớp • Bước thứ hai (classification) Bước thứ hai dùng mơ hình xây dựng bước trước để phân lớp liệu Trước tiên độ xác mang tính chất dự đốn mơ hình phân lớp vừa tạo ước lượng Holdout kỹ thuật đơn giản để ước lượng độ xác Kỹ thuật sử dụng tập liệu kiểm tra với mẫu gán nhãn lớp Các mẫu chọn ngẫu nhiên độc lập với mẫu tập liệu đào tạo Độ xác mơ hình tập liệu kiểm tra đưa tỉ lệ phần trăm các mẫu tập liệu kiểm tra mơ hình phân lớp (so với thực tế) Nếu độ xác mơ hình ước lượng dựa tập liệu đào tạo kết thu khả quan mơ hình ln có xu hướng “q vừa” liệu Q vừa liệu tượng kết phân lớp trùng khít với liệu thực tế q trình xây dựng mơ hình phân lớp từ tập liệu đào tạo kết hợp đặc điểm riêng biệt tập liệu Do cần sử dụng tập liệu kiểm tra độc lập với tập liệu đào tạo Nếu độ xác mơ hình chấp nhận được, mơ hình sử dụng để phân lớp liệu tương lai, liệu mà giá trị thuộc tính phân lớp chưa biết Hình 2.4 Q trình phân lớp liệu - (b1)Ước lượng độ xác mơ hình Hình 2.5 Q trình phân lớp liệu - (b2) Phân lớp liệu Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, định tới thành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm thuật tốn phân lớp nhanh, hiệu quả, có độ xác cao có khả mở rộng Trong khả mở rộng thuật tốn đặc biệt trú trọng phát triển CHƯƠNG 2: KỸ THUẬT PHÂN LỚP VÀ THUẬT TOÁN DECISION TREE 2.1 Giới thiệu kỹ thuật phân lớp Khai phá liệu Phân lớp dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đoán xu hướng liệu Quá trình gồm hai bước: - Bước học (giai đoạn huấn luyện): xây dựng phân lớp (classifier) việc phân tích/học tập huấn luyện - Bước phân lớp (classification): phân lớp liệu/đối tượng độ xác phân lớp đánh giá chấp nhận (acceptable) Tổng quan phân lớp liệu: Hình 3.1 Tổng quan phân lớp liệu 2.2 Thuật tốn Decision Tree Decision Tree cơng cụ phổ biến để phân lớp dự báo, đánh giá cao: - Tốc độ học tương đối nhanh so với phương pháp khác - Có thể chuyển thành luật cách dễ dàng - Sự xác tốt - Đòi hỏi tiền xử lý đơn giản 10 Thuật toán Decision Tree thực qua bước sau: - B1 Tạo nút T gồm tất mẫu - B2 Nếu tất mẫu T có nhãn “Yes” gán nhãn nút T “Yes” dừng - B3 Nếu tất mẫu T có nhãn “No” gán nhãn nút T “No” dừng - B4 Nếu mẫu T có “Yes” “No” Chọn thuộc tính X có giá trị v1, , Chia tập mẫu theo giá trị X thành tập T1, , Tn Tạo n nút Ti (i=1 n) với nút cha nút T - B5 Thực lặp cho nút Ti (i=1 n) quay lại B2 Ví dụ minh họa thuật tốn Decision Tree: Ta có bảng thời tiết định xem có chơi tennis hay khơng Bước 1: Ta thấy có có khơng tổng số 14 Ta tính Entropy(S) = = 0,94 Sau ta tính: Gain(S, Quang cảnh) = E(S) - E(SNắng) - E(SÂm u) - E(SMưa) 11 = 0,94 - )0,971 - )0,0 - )0,971 = 0,247 Tương tự ta tính Gain(S, Nhiệt độ), Gain(S, Độ ẩm), Gain(S, Gió) theo thứ tự ta 0.029, 0.151, 0.048 Bước 2: Ta thấy Gain(S, Quang cảnh) có kết cao nên ta chọn Quang cảnh để tính Entropy Ta có bảng sau: Quang cảnh Nhiệt độ D1 Nắng Nóng D2 Nắng Nóng D8 Nắng Ấm áp D9 Nắng Mát D11 Nắng Ấm áp Tính Entropy(S) = = 0,97 Độ ẩm Cao Cao TB TB TB Gió Nhẹ Mạnh Mạnh Nhẹ Mạnh Chơi Khơng Khơng Khơng Có Có Sau ta tính: Gain(S, Nhiệt độ) = E(S) - E(SNóng) - E(SẤm áp) - E(SMát) = 0,97 - )0,0 - )1 - )0,0 = 0,57 Tương tự ta tính Gain(S, Độ ẩm), Gain(S, Gió) theo thứ tự ta 0.424, 0.024 Quang cảnh Nhiệt độ D4 Mưa Ấm áp D5 Mưa Mát D6 Mưa Mát D10 Mưa Ấm áp D14 Mưa Ấm áp Tính Entropy(S) = = 0,97 Độ ẩm Cao TB TB TB Cao Gió Nhẹ Nhẹ Mạnh Nhẹ Mạnh Chơi Có Có Khơng Có Khơng Sau ta tính: Gain(S, Nhiệt độ) = E(S) - E(SẤm áp) - E(SMát) = 0,97 - )0,91 - )1 = 0,024 Tương tự ta tính Gain(S, Độ ẩm), Gain(S, Gió) theo thứ tự ta 0.024, 0.97 Bước 3: Kết luận ta có biểu đồ hình 12 2.3 Áp dụng sử dụng thuật tốn Decision tree vào phân loại lồi hoa Iris Tập liệu bao gồm 150 số khác loài hoa Iris Tập liệu bao gồm thuộc tính: SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species Đây toán phân lớp sử dụng phương pháp phân lớp khác Bayesian, SVM, k-nearest neighbor để phân loại cho kết khả quan Chúng hình dung tập liệu thơng qua biểu diễn dạng file csv 13 CHƯƠNG 3: THỰC HIỆN VÀ ĐÁNH GIÁ 3.1 Xây dựng mơ hình Weka Hình 3.1 Nhập liệu vào Weka 14 Hình 3.2 Dữ liệu đưa vào phân loại 15 Hình 3.3 Các thuộc tính liệu lồi hoa Iris 150 liệu Hình 3.4 Đầu phân lớp 16  Đầu phân lớp: Các thuộc tính: SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species Hình 3.5 Sơ đồ sau phân lớp 17 KẾT LUẬN Sau thời gian thực hiện, chúng em thực số kết sau:  Tìm hiểu khai phá liệu  Vai trò khai phá liệu  Tìm hiểu thuật tốn Decision Tree Chúng em tìm hiểu lý thuyết xác suất đến thuật tốn Decision Tree Tuy độ xác cịn chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy cô giúp đỡ để tốn chúng em hồn thiện 18 ... TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN 1.1 Khái niệm khai phá liệu 1.1.1 Khai phá liệu ? Khai phá liệu (data mining) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm... CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN 1.1 Khái niệm khai phá liệu 1.1.1 Khai phá liệu ? 1.1.2 Quy trình khai phá liệu 1.2 Tổng quan hệ hỗ trợ... hình liệu phát mẫu, luật Ngân hàng liệu (DataWarehousing) cơng cụ phân tích trực tuyến (OLAP- On Line AnalyticalProcessing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có

Ngày đăng: 09/04/2022, 07:25

TỪ KHÓA LIÊN QUAN

w