1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài khai phá dữ liệu sử dụng phân lớp trong đánh giá chất lượng rượu dựa trên thành phần hóa học

28 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,85 MB

Nội dung

lOMoARcPSD|16827617   TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU Đề tài: KHAI PHÁ DỮ LIỆU SỬ DỤNG PHÂN LỚP TRONG ĐÁNH GIÁ CHẤT LƯỢNG RƯỢU DỰA TRÊN THÀNH PHẦN HÓA HỌC Sinh viên thực hiện: TRẦN MINH ĐỨC NGUYỄN QUỐC HÀ NGUYỄN TIẾN DŨNG Giáo viên hướng dẫn: VŨ VĂN ĐỊNH Lớp: D15CNPM4 Khoa: CÔNG NGHỆ THÔNG TIN Chun ngành: CƠNG NGHỆ PHẦN MỀM  Khóa: 2020 – 2025  Hà Nội, tháng năm 2023 lOMoARcPSD|16827617   PHIẾU CHẤM ĐIỂM Họ tên Điểm Chữ ký Chữ ký Ghi Trần Minh Đức  Nguyễn Quốc Hà  Nguyễn Tiến Dũng Giảng viên chấm: Họ tên Giảng viên chấm 1: Giảng viên chấm 2: lOMoARcPSD|16827617   MỤC LỤC LỜI MỞ ĐẦU .1 CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu .2 1.1.1 Diễn giải 1.1.2 Các phương pháp khai thác liệu .3 1.1.3 Một số tính bật khai phá liệu 1.1.4 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu 1.1.6 Các công cụ khai phá liệu 1.2 Tiền xử lý 1.2.1 Dữ liệu .6 1.2.2 Làm liệu (data cleaning) 1.2.2.1 Các vấn đề liệu .8 1.2.2.2 Nguồn gốc/lý liệu không 1.2.2.3 Giải pháp thiếu giá trị thuộc tính .8 1.2.2.4 Giải pháp liệu chứa nhiễu/lỗi 1.2.3 Tích hợp liệu (data integration) 1.2.4 Biến đổi liệu (data transformation) 1.2.5 Thu giảm liệu (data reduction) .10 CHƯƠNG KỸ THUẬT PHÂN LỚP DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU 12 2.1 Giới thiệu phân lớp 12 2.2 Phân lớp phương pháp quy nạp định 12 2.2.1 Khái niệm câu định .12 2.2.2 Thuật toán quy nạp định .13 lOMoARcPSD|16827617   2.2.3 Độ lơi thông tin (Information Gian) định 13 2.2.4 Nội dung giải thuật học định ID3: 14 2.2.5 Những thiếu sót giải thuật ID3 15 2.2.6 Giới thiệu 15 2.2.7 Giải thuật mở rộng C4.5 16 2.2.8 Thu giảm định lập luận suy dẫn 16 2.2.9 Giải thuật mở rộng See5/C5.0 .17 CHƯƠNG ỨNG DỤNG PHÂN LỚP TRONG ĐÁNH GIÁ CHẤT LƯỢNG RƯỢU DỰA TRÊN THÀNH PHẦN HÓA HỌC 19 3.1 Đánh giá chất lượng rượu 19 3.1.1 Phát biểu toán 19 3.1.2 Bộ liệu 19 3.1.3 Code xử lý liệu .21 3.1.4.1 Code 21 3.1.4.2 Chạy liệu 23 3.1.4.3 Biểu đồ định 23 KẾT LUẬN 24 lOMoARcPSD|16827617   LỜI MỞ ĐẦU Trong lời báo cáo “Khai phá liệu sử dụng phân lớp đánh giá chất lượng rượu dựa thành phần hóa học ”, nhóm chúng em muốn gửi lời cảm ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực làm Chúng em xin chân thành gửi lời cảm ơn tới thầy, cô giáo Trường Đại Học Điện Lực nói chung thầy giáo Khoa Cơng nghệ thơng tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học tập Đặc biệt, chúng em xin gửi lời cảm ơn đến Giảng viên hướng dẫn Vũ Văn Định, giảng viên Khoa Công nghệ thông tin - Trường Đại Học Điện Lực Thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, chúng em khơng tiếp thu thêm nhiều kiến thức bổ ích mà học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em q trình học tập cơng tác sau Do thời gian thực có hạn kiến thức cịn nhiều hạn chế nên làm nhóm chúng em chắn khơng tránh khỏi thiếu sót định Chúng em mong nhận ý kiến đóng góp thầy, giáo bạn để nhóm em có thêm kinh nghiệm tiếp tục hoàn thiện báo cáo Chúng em xin chân thành cảm ơn! lOMoARcPSD|16827617   CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu Khai phá liệu (data mining): Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính… Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngoài  bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích trình "khám phá kiến thức sở liệu" KDD 1.1.1 Diễn giải Khai phá liệu bước trình khai thác tri thức ( Knowledge Discovery  Process), bao gồm: -Xác định vấn đề không gian liệu để giải vấn đề ( Problem understanding and data understanding ) -Chuẩn bị liệu ( Data preparation), bao gồm trình làm liệu (data cleaning ), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) -Khai thác liệu ( Data mining ): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thơ -Đánh giá ( Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu -Triển khai ( Deployment ) -Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà trình lặp có quay trở lại bước qua lOMoARcPSD|16827617   1.1.2 Các phương pháp khai thác liệu Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước Hồi qui (Regression): Khám phá chức học dự đoán, ánh xạ mục liệu thành biến dự đốn giá trị thực Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến người ta tìm cách xác định tập hợp hữu hạn cụm để mô tả liệu Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến  phương pháp cho việc tìm kiếm mơ tả nhỏ gọn cho (hoặc tập hợp con) liệu Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục mơ tả  phụ thuộc đáng kể biến giá trị tính tập liệu phần tập liệu Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Khám phá thay đổi quan trọng liệu 1.1.3 Một số tính bật khai phá liệu - Dự đoán mẫu dựa xu hướng liệu - Tính tốn dự đốn kết - Tạo thơng tin phản hồi để phân tích - Tập trung vào sở liệu lớn - Phân cụm liệu trực quan 1.1.4 Quy trình khai phá liệu Các bước quan trọng khai phá liệu bao gồm: Bước 1: Tiền xử lý, làm liệu – Trong bước này, liệu làm cho khơng có tạp âm hay bất thường liệu Bước 2: Tích hợp liệu – Trong q trình tích hợp liệu, nhiều nguồn liệu kết hợp lại thành lOMoARcPSD|16827617   Bước 3: Lựa chọn liệu – Trong bước này, liệu trích xuất từ sở liệu Bước 4: Chuyển đổi liệu – Trong bước này, liệu chuyển đổi để thực phân tích tóm tắt hoạt động tổng hợp Bước 5: Khai phá liệu – Trong bước này, trích xuất liệu hữu ích từ nhóm liệu có Bước 6: Đánh giá mẫu – Chúng ta phân tích số mẫu có liệu Bước 7: Trình bày thơng tin – Trong bước cuối cùng, thông tin thể dạng cây, bảng, biểu đồ ma trận Quá trình thực qua bước: 1- Tìm hiểu lĩnh vực tốn (ứng dụng): Các mục đích tốn, tri thức cụ thể lĩnh vực 2- Tạo nên (thu thập) tập liệu phù hợp 3Làm tiền xử lý liệu 4- Giảm kích thức liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5- Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp 6- Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp 7Tiến hành khai phá liệu 8- Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… - Sử dụng tri thức khai phá lOMoARcPSD|16827617   Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: - Phân tích thị trường chứng khoán - Phát gian lận - Quản lý rủi ro phân tích doanh nghiệp… 1.1.6 Các công cụ khai phá liệu RapidMiner: Công cụ phải kể tới RapidMiner Đây cơng cụ khai phá liệu phổ biến Được viết tảng JAVA không yêu cầu mã hóa để vận hành Ngồi ra, cịn cung cấp chức khai thác liệu khác tiền xử lý liệu, biểu diễn liệu, lọc, phân cụm Weka: Công cụ cho đời Đại học Wichita phần mềm khai thác liệu mã nguồn mở Tương tự RapidMiner, cơng cụ khơng u cầu mã hóa sử dụng GUI đơn giản Sử dụng Weka, người dùng gọi trực tiếp thuật toán học máy nhập chúng mã Java Weka trang bị đa dạng chức trực quan hóa, tiền xử lý, phân loại, phân cụm lOMoARcPSD|16827617   Knime: Với khả hoạt động vơ mạnh mẽ tích hợp nhiều thành phần khác học máy khai phá liệu để cung cấp tảng KNime hỗ trợ người dùng nhiều việc xử lý phân tích liệu, trích xuất, chuyển đổi tải liệu Apache Mahout: Từ tảng Big Data Hadoop, người ta cho cho đời thêm Apache Mahout với mục đích giải nhu cầu ngày tăng khai phá liệu hoạt động phân tích Hadoop Nó trang bị nhiều chức học máy khác phân loại, hồi quy, phân cụm Oracle Data Mining: Khi sử dụng Oracle Data Mining cho phép người dùng thực khai phá liệu sở liệu SQL để trích xuất khung hình biểu đồ Các phân tích hiển thị cách trực quan giúp người dùng dễ dàng đưa dự đoán cho kế hoạch tương lai TeraData: TeraData cung cấp dịch vụ kho chứa công cụ khai phá liệu  Nhờ khả thông minh trang bị, cơng cụ dựa tần suất sử dụng liệu người dùng thực việc cho phép truy cập nhanh hay chậm Với liệu bạn thường xuyên cần sử dụng, TeraData cho phép truy cập nhanh liệu sử dụng Đối với liệu, nhập kho yêu cầu cần thiết Orange: Công cụ lập trình Python với giao diện trực quan tương tác dễ dàng Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu học máy thông minh, đơn giản 1.2 Tiền xử lý Quá trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu thao tác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp,  biến đổi, thu giảm liệu 1.2.1 Dữ liệu Tập liệu - Một tập liệu (dataset) tập hợp đối tượng (object) thuộc tính chúng - Mỗi thuộc tính (attribute) mơ tả đặc điểm đối tượng lOMoARcPSD|16827617   giá trị thay thế, cho giá trị cũ tương ứng với giá trị Các phương pháp biến đổi liệu: - Làm trơn (smoothing): Loại bỏ nhiễu/lỗi khỏi liệu - Kết hợp (aggregation): Sự tóm tắt liệu, xây dựng khối liệu - Khái quát hóa (generalization): Xây dựng phân cấp khái niệm - Chuẩn hóa (normalization): Đưa giá trị khoảng định + Chuẩn hóa min-max, giá trị nằm khoảng [new_mini , new_maxi] + Chuẩn hóa z-score, với μi , σi : giá trị trung bình độ lệch chuẩn thuộc tính i + Chuẩn hóa thang chia 10, với j giá trị số nguyên nhỏ cho: max({vnew}) < - Xây dựng thuộc tính dựa thuộc tính ban đầu 1.2.5 Thu giảm liệu (data reduction) Một kho liệu lớn chứa lượng liệu lên đến terabytes làm cho trình khai phá liệu chạy thời gian, nên thu giảm liệu Việc thu giảm liệu thu biểu diễn thu gọn, mà sinh (hoặc xấp xỉ) kết khai phá tập liệu ban đầu Các chiến lược thu giảm: - Giảm số chiều (dimensionality reduction), loại bỏ bớt thuộc tính khơng (ít) quan trọng - Giảm lượng liệu (data/numberosity reduction) 10 lOMoARcPSD|16827617   + Kết hợp khối liệu + Nén liệu + Hồi quy + Rời rạc hóa 11 lOMoARcPSD|16827617   CHƯƠNG KỸ THUẬT PHÂN LỚP DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Giới thiệu phân lớp 2.1 Phân lớp liệu kĩ thuật dựa tập huấn luyện giá trị nhãn lớp thuộc thuộc tính phân lớp sử dụng việc phân lớp liệu Phân lớp tiên đoán loại lớp nhãn Bên cạnh kĩ thuật phân lớp có hình thức tương tự kỹ thuật tiên đoán ,kĩ thuật tiên đoán khác vói phân lớp chỗ  phân lớp liên quan đến tiên đốn loại lớp nhãn cịn kĩ thuật tiên đốn mo hình hàm đánh giá liên tục Kĩ thuật phân lớp tiến hành bao gồm bước : Xây dựng mơ hình sử dụng mơ hình Xây dựng mơ hình: là mơ tả tập hợp lớp định nghĩa trước đó: mẫu gán thuộc lớp định nghĩa trướ xác định thuộc tính nhãn lớp , tập hợp sử dụng việc sử dụng mơ hình gọi tập huấn luyện Mơ hình biểu diễn luật  phân lớp, định công thức tốn học Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp liệu tương lai phân lớp cho đối tượng chưa biết đến trước sử dụng mơ hình, người ta thường phải đánh giá tính xác mơ hình đó: nhãn biết đến mẫu kiểm tra so sánh với kết phân lớp mơ hình, độ xác phần trăm tập hợp mẫu kiểm tra mà phân loại mô hình, tập kiểm tra độc lập với tập huấn luyện Phân lớp hình thức giám sát tức :  tập liệu huấn luyện( quan sát, thẩm định…)đi đôi với nhãn định lớp quan sát, liệu  phân lớp dựa tập huấn luyện Nược lại với hình thức học giám sát hình thức học khơng giám sát lúc nhãn lớp tập liệu huấn luyện đến  Phân lớp phương pháp quy nạp định 2.2.1 Khái niệm câu định Cây định flow-chart giống cấu trúc , nút bên biểu thị 2.2 kiểm tra thuộc tính , nhánh biểu diễn đầu kiểm tra , nút biểu diễn nhãn lớp phân bó lớp Việc tạo định bao gồm giai đoạn : Tạo tỉa 12 lOMoARcPSD|16827617   Để tạo thời điểm bắt đầu tất ví dụ huấn luyện gốc sau đỏ  phân chia ví dụ huấn luyện theo cách đệ qui dựa thuộc tính chọn Việc tỉa xát định xóa nhánh mà có phần tử hỗn loạn phần tử nằm ngồi (những phần tử khơng thể phân vào lớp đó) Việc sử dụng định sau : Kiểm tra giá trị thuộc tính mẫu định 2.2.2Thuật toán quy nạp định Giải thuật (giải thuật tham lam) chia thành bước sau: Cây xây dựng đệ qui từ xuống (top-down) theo cách thức chia để trị (divide-conquer) Ở thời điểm bắt đầu , tất ví dụ huấn luyện gốc Thuộc tính phân loại ( giá trị liên tục chúng rời rạc hóa) Những ví dụ huấn luyện phân chia đệ qui dựa thuộc tính mà chọn lựa Kiểm tra thuộc tính chọn dựa tảng heristic định lượng thống kê Điều kiện để dừng việc phân chia : 1.Tất mẫu huấn luyện node cho trước thuộc lớp 2.Khơng cịn thuộc tính cịn lại để phân chia tiếp 3.Khơng cịn mẫu cịn lại 2.2.3 Độ lơi thông tin (Information Gian) định Information gain đại lượng sử dụng để chọn lựa thuộc tính với information gain lớn Giả sử có hai lớp , P N Cho tập hợp ví dụ S chứa p phần tử lớp P n phần tử lớp N Khối lượng thông tin , cần để định mẫu tùy ý S thuộc P N định nghĩa là: I(p,n) = -[p/(p+n)]log [p/(p+n)] − [n/(p+n)]log [n/(p+n)] 13 lOMoARcPSD|16827617   Giả sử sử dụng thuộc tính A tập hợp S phân hoạch thành tập hợp {Sı,S2, ,Sv} Nếu Sị chứa mẫu P nị mẫu N entropy thông tin mong đợi cần để phân loại đối tượng S : Thông tin nhận nhánh A : Gain(A)=I(p,n)-E(A) 2.2.4 Nội dung giải thuật học định ID3: ID3 giải thuật học định phát triển Ross Quinlan (1983) Ý tưởng giải thuật ID3 để xây dựng định việc sử dụng cách tìm kiếm từ xuống tập hợp cho trước để kiểm tra thuộc tính nút Để chọn thuộc tính mà hữu ích cho phân loại tập hợp cho trước, đưa hệ đo độ lợi thơng tin Để tìm cách tối ưu để phân loại tập hợp thông tin , vấn đề đặt cần phải làm tối thiểu hóa ( Chẳng hạn, tối thiểu chiều cao cây) Như cần số chức mà đánh giá trường hợp nào cho  phân chia cân Hệ đo độ lợi thông tin hàm ID3 (Learning Sets S, Attributes Sets A, Attributesvalues V) Return Decision Tree Begin Đầu tiên nạp learning sets , tạo nút gốc cho định 'rootNode', thêm learning set S vào nút gốc tập For rootNode, tính  Entropy(rootNode.subset) If Entropy(rootNode.subset)==0, then rootNode.subset bao gồm records tất với giá trị cho giá trị thuộc tính xát định, trả nút với decision attribute:attribute value; If Entropy(rootNode.subset)!=0, then 14 lOMoARcPSD|16827617   tính độ lợi thơng tin (information gain) cho thuộc tính trái (chưa sử dụng để phân chia), tìm thuộc tính A với Maximum(Gain(S,A)) Tạo nút rootNode thêm vào rootNode định For rootNode, áp dụng ID3(S,A,V) cách đệ qui đạt node mà có entropy=0 hay đạt nút 2.2.5 Những thiếu sót giải thuật ID3 Trường hợp thiếu sót thứ : Một thiếu sót quan trọng ID3 khơng gian phân chia hợp lệ node cạn kiệt Một phân chia phân hoạch trường hợp không gian mà kết đạt từ việc thử nghiệm node định ID3 cháu cho phép kiểm tra tại thuộc tính đơn nhánh kết cho từ kiểm tra Trường hợp thiếu sót thứ hai : Một thiếu sót mà ID3 mắc phải dựa vào nhiều vào số lượng tập hợp liệu đưa vào Quản lý tạp nhiễu tập liệu vào vô quan trọng ứng dụng giải thuật học định vào giới thực Cho ví dụ , có lẫn tạp tập liệu đưa vào số lượng ví dụ đưa vào nhỏ để tạo ví dụ điển hình hàm mục tiêu ID3 dẫn đến việc tạo định sai Có nhiều mở rộng từ giải thuật ID3 phát triển để áp dụng luật học định vào giới thực , post-pruning tree , quản lý thuộc tính giá trị thực , liên quan đến việc thiếu thuộc tính , sử dụng tiêu chuẩn chọn lựa thuộc tính khác thu thập thông tin 2.2.6 Giới thiệu Việc mở rộng qui nạp định áp dụng cho thuộc tính giá trị liên tục : Định nghĩa cách uyển chuyển thuộc tính giá trị bị rời rạc mà phân chia giá trị thuộc tính thành tập rời rạc khoảng Mở rộng qui nạp định áp dụng cho giá trị thuộc tính thiếu sót cách : Gán giá trị thiếu sót giá trị thơng thường thuộc tính gán khả với giá trị 15 lOMoARcPSD|16827617   Việc mở rộng qui nạp định áp dụng cho xây dựng thuộc tính : Tạo thuộc tính dựa tồn mà chúng thể thưa thớt Điều giúp thu giảm việc phân mảnh , lặp lại việc tạo 2.2.7 Giải thuật mở rộng C4.5 C4.5 mở rộng giải thuật ID3 số khía cạnh sau: Trong việc xây dựng định, chúng liên hệ với tranning set mà có records với giá trị thuộc tính khơng biết đến việc đánh giá việc thu thập thông tin tỉ số thu thập thơng tin , cho thuộc tính  bằng việc xem xét record mà thuộc tính định nghĩa Trong việc sử dụng định , phân loại record mà có giá trị thuộc tính khơng biết việc ước lượng kết có khả sãy ra.Trong ví dụ chơi đánh gơn , đưa record mà outlook sunny humidity chưa cho biết , xử lý sau : Chúng ta di chuyển từ nút gốc Outlook đến nút Humidity theo cung đánh nhân sunny Ở điểm từ lúc giá trị Humidity để ý humidity 75 có records, humidity lớn 75 có records có record khơng hoạt động Như điều đưa câu trả lời cho record khả (0.4,06) cho chơi gơn khơng chơi gơn Chúng ta liên hệ đến giá trị liên tục Giả sử thuộc tính Ci có tầm giá trị thuộc tính liên tục Chúng ta xem xét giá trị tập learning set Cho chúng xắp sếp thứ tự tăng dần A1, A2, ,Am sau với giá trị Ai i=1,2, ,m.Chúng ta chia records thành có giá trị từ Ci trở lên bao gồm Aj có giá trị lớn Aj Với lần phân hoạch tính lại giá trị thu thập tỉ số thu thập chọn phân hoạch có tỉ số thu thập thơng tin nhận tối đa Trong ví dụ chơi Golf , humidity T training set xát định thông tin cho lần phân chia tìm phân chia tốt 75 Phạm vi thuộc tính trở thành {75} Chú ý phương  pháp liên quan đến số quan trọng việc tính tốn 2.2.8 Thu giảm định lập luận suy dẫn Việc xây dựng định nhờ vào training set cách chúng xây dựng liên quan nghiêm ngặt đến hầu hết record tập huấn luyện Trong thực tế , để làm điều hồn tồn phức tạp Với đường dài không 16 lOMoARcPSD|16827617   Việc thu giàm định thực việc thay thành nút lá.Sự thay thực nơi mà luật định thiết lập tần suất lỗi gây lớn nút lá.Cho ví dụ với đơn giản sau: chứa records thứ training red success thứ hai trainning blue failures sau Test Set tìm thấy red failures blue success , xem xét việc thay việc thay node đơn Failure Sau việc thay cịn lại lỗi thay lỗi Winston làm để sử dụng Fisher's exact test để xát định thuộc tính phân loại thực phụ thuộc vào thuộc tính khơng xát định Nếu điều khơng sãy thuộc tỉnh khơng xát định khơng cần phải xuất đường định Quinlan Breiman đề nghị heuristic phức tạp cho việc thu giảm định Một điều dễ dàng làm dẫn luật từ định : viết luật từ đường định từ gốc đến Vế trái luật xây dựng dễ dàng từ nhãn nút nhãn cung  Những luật rút rút gọn sau: Gọi LHS LHS luật Cho LHS’ nhận cách thu giảm số điều kiện LHS Chúng ta chắn thay LHS LHS’ luật tập training set thỏa mãn LHS LHS’ tương đương Một luật thu giảm cách sử dụng metacondition ví dụ “ khơng có luật khác áp dụng ” 2.2.9 Giải thuật mở rộng See5/C5.0 “See5 dạng nghệ thuật hệ thống xây dựng phân loại dạng thức định tập luật ” See5 thiết kế hoạt động sở liệu lớn kết hợp đổi 17 lOMoARcPSD|16827617   boosting Kết tạo See5 C5.0 tương tự Hoạt động trước Windows95/98/NT C5.0 phần hoạt động Unix See C5.0 công cụ khai khái liệu phức tạp cho mẫu khai phá liệu mà phát họa loại tập hợp chúng thành đối tượng phân loại sử dụng chúng để tiên đốn Đặc điểm C5.0 : ■ C5.0 thiết kế để phân tích sở liệu quan trọng chứa đựng hàng ngàn đến hàng trăm ngàn records.và hàng chục đến hàng trăm số liệu tên field ■ Để tối đa khả giải thích, đối tượng phân loại See5.0 /C5.0 diễn tả định tập luật if – then - Dạng thức dễ hiểu so với neutron network ■ C5.0 dễ dàng sử dụng không gọi kiến thức cao cấp thống kê máy học 18 lOMoARcPSD|16827617   CHƯƠNG ỨNG DỤNG PHÂN LỚP TRONG ĐÁNH GIÁ CHẤT LƯỢNG RƯỢU DỰA TRÊN THÀNH PHẦN HÓA HỌC 3.1 Đánh giá chất lượng rượu 3.1.1 Phát biểu toán Bài toán đánh giá chất lượng rượu dựa thành phần hóa học -Giá trị input: -Giá trị output: 3.1.2 Bộ liệu Bộ liệu gồm cột với: Dữ liệu đầu vào X gồm: Pclass (hạng khách hàng) Name (tên khách hàng) Sex (giới tính) Age (tuổi) SibSp (số anh, chị, em, vợ, chồng tàu) Parch (Số lượng cha me/ cái) Fare (giá vé) Embarked (điểm bắt đầu) Dữ liệu đầu y gồm: Survived y khả sống sót, với y = sống, ngược lại y = chết 19 lOMoARcPSD|16827617    Hình 3.1 Dữ liệu cụ thể  20 lOMoARcPSD|16827617   Code xử lý liệu 3.1.4.1 Code 3.1.3 21 lOMoARcPSD|16827617   22 lOMoARcPSD|16827617   3.1.4.2 Chạy liệu 3.1.4.3 Biểu đồ định 23 lOMoARcPSD|16827617   KẾT LUẬN Sau thời gian thực hiện, chúng em thực số kết sau: Tìm hiểu vềề khai phá liệu Vai trị khai phá liệu Tìm hiểu vềề thuật tốn K-Means Tìm hiểu vềề  K-means giải toán phân cụm người mắc bệnh chết trền quốc gia Chúng em tim hiểu lý thuyết xác suất đến thuật toán K-means Tuy độ xác cịn chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy cố giúp đỡ để toán chúng em hoàn thiện ⦁ ⦁ ⦁ ⦁ 24

Ngày đăng: 17/05/2023, 19:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w