KHAI PHÁ DỮ LIỆU SỬ DỤNG VÉC-TƠ HỖ TRỢ (SVM) PHÂN LỚP SỨC KHỎE BÀO THAI, XÁC ĐỊNH ĐỘ PH VÀ PHÂN LOẠI ĐỘNG VẬT TRONG SỞ THÚ

27 5 0
KHAI PHÁ DỮ LIỆU SỬ DỤNG VÉC-TƠ HỖ TRỢ (SVM) PHÂN LỚP SỨC KHỎE BÀO THAI, XÁC ĐỊNH ĐỘ PH VÀ PHÂN LOẠI ĐỘNG VẬT TRONG SỞ THÚ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI KHAI PHÁ DỮ LIỆU SỬ DỤNG VÉC TƠ HỖ TRỢ (SVM) PHÂN LỚP SỨC KHỎE BÀO THAI, XÁC ĐỊNH ĐỘ PH V[.]

lOMoARcPSD|17343589 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU SỬ DỤNG VÉC-TƠ HỖ TRỢ (SVM) PHÂN LỚP SỨC KHỎE BÀO THAI, XÁC ĐỊNH ĐỘ PH VÀ PHÂN LOẠI ĐỘNG VẬT TRONG SỞ THÚ Sinh viên thực : NGUYỄN XUÂN VIỆT ĐÀO ĐỨC THẮNG NGUYỄN HỮU VIỆT Giảng viên hướng dẫn : VŨ VĂN ĐỊNH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : HTTMDT Lớp : D13HTMDT1 Khóa : 2018-2023 Hà Nội, ngày … tháng … năm 2021 lOMoARcPSD|17343589 PHIẾU CHẤM ĐIỂM Sinh viên thực Họ tên Nguyễn Xuân Việt 18810340718 Đào Đức Thắng Nguyễn Hữu Việt Chữ ký Ghi Chú lOMoARcPSD|17343589 MỤC LỤC LỜI CẢM ƠN CHƯƠNG TỔNG QUAN ĐỀ TÀI .2 1.1 Đặt vấn đề 1.1.1 Các khái niệm khai phá liệu 1.1.1.1 Khai phá liệu 1.1.1.2 Các bước khai phá liệu 1.1.1.3 Ứng dụng khai phá liệu 1.2 Tiền xử lý liệu 1.2.1 Dữ liệu .4 1.2.2 Làm liệu (data cleaning/cleansing) 1.2.3 Tích hợp liệu (data integration) 1.2.4 Biến đổi liệu (data transformation) 1.2.5 Thu giảm liệu (data reduction) 1.3 Phương pháp xử lý 1.3.1 Phân lớp liệu .5 1.3.2 Phân cụm 1.3.3 Luật kết hợp 1.3.4 Hồi quy tuyến tính CHƯƠNG PHÂN TÍCH VÀ THIẾT KẾ BÀI TỐN 2.1 Tổng quan véc-tơ hỗ trợ SVM .7 2.2 Thuật toán SVM .7 2.2.1 Mơ hình tốn học 2.2.2 Độ xác thuật toán 2.2.3 Nghiệm thuât toán .9 2.3 Mô tả toán 10 2.3.1 Dữ liệu “Fetal_health.csv” .10 lOMoARcPSD|17343589 2.3.1.1 Phát biểu toán .10 2.3.1.2 Yêu cầu 10 2.3.1.3 Bộ liệu 10 2.3.2 Dữ liệu “Zoo.csv” 12 2.3.3 Dữ liệu “ph-data.csv” 13 CHƯƠNG THỰC NGHIỆM .15 KẾT LUẬN 20 lOMoARcPSD|17343589 DANH MỤC HÌNH ẢNH Hình 1.2.1 Ví dụ datase Hình 2.1 Ví dụ margin Hình 2.2 Mơ hình liệu phân lớp với véc-tơ hỗ trợ .8 Hình 2.3.1.3 Bộ liệu Fetal health 12 Hình 2.3.2 Dữ liệu “zoo.csv” 13 Hình 2.3.3 Dữ liệu “ph-data.csv” 14 Hình 3.1.1 Dữ liệu “fetal_health.csv” 16 Hình 3.1.2 Kết phân lớp liệu 16 Hình 3.2.1 Dữ liệu “zoo.csv” 17 Hình 3.2.2 Kết phân lớp liệu 18 Hình 3.3.1 Dữ liệu “ph-data” 19 Hình 3.3.2 Kết phân lớp liệu 19 lOMoARcPSD|17343589 LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy, cô giáo Khoa Công nghệ thông tin, trường Đại học Điện Lực, tạo điều kiện cho em thực đề tài Để hồn thành báo cáo đề tài “Khai phá liệu sử dụng véc-tơ hỗ trợ(SVM) phân loại sức khỏe bào thai, độ ph phân loại động vật sở thú”, nhóm em xin gửi lời cảm ơn chân thành tới thầy VŨ VĂN ĐỊNH, truyền đạt, giảng dạy cho chúng em kiến thức, kinh nghiệm qúy báu thời gian học tập rèn luyện, tận tình hướng dẫn chúng em trình làm báo cáo Nhóm em gửi lời cảm ơn tới bạn bè đóng góp ý kiến quý báu để nhóm em hồn thành báo cáo tốt Tuy nhiên, thời gian trình độ có hạn nên báo cáo chắn không tránh khỏi thiếu sót, nhóm em mong đóng góp ý kiến thầy tồn thể bạn Một lần nữa, em xin chân thành cảm ơn ln mong nhận đóng góp q báu tất người Nhóm sinh viên thực Nguyễn Xuân Việt Nguyên Hữu Việt Đào Đức Thắng lOMoARcPSD|17343589 CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề Ứng dụng công nghệ thông tin vào việc lưu trữ xử lý thông tin ngày áp dụng hầu hết lĩnh vực, điều tạo lượng lớn liệu lưu trữ với kích thước tăng lên khơng ngừng Đây điều kiện tốt cho việc khai thác kho liệu để đem lại tri thức có ích với cơng cụ truy vấn, lập việc khai thác kho liệu để đem lại tri thức có ích với cơng cụ truy vấn, lập bẳng biểu khai phá liệu Khai phá liệu kỹ thuật dựa tảng nhiều lý thuyết xác xuất, thống kê, máy học nhằm tìm kiếm tri thức tiềm ẩn kho liệu có kích thước lớn mà người dùng khó nhận biết kỹ thuật thông thường Nguồn liệu y khoa lớn, áp dụng khai phá liệu lĩnh vực mang lại nhiều ý nghĩa cho ngành y tế Nó cung cấp thơng tin q giá nhằm hỗ trợ việc chuẩn đoán điều trị sớm giúp bệnh nhân thoát nhiều bệnh hiểm nghèo Ứng dụng sử dụng véc-tơ hỗ trợ (svm) khai phá liệu nhằm xây dựng hệ thống chuẩn đốn hướng nghiên cứu đề tài Sau phân tích số thuật toán đặc điểm liệu thu nhập số lượng sản phẩm phân loại hình, đề tài đề xuất ứng dụng mơ hình phân lớp liệu SVM để tìm quy luật tìm ẩn liệu 1.1.1 Các khái niệm khai phá liệu 1.1.1.1 Khai phá liệu Khai phá liệu (data mining) hay khai phá liệu từ tri thức (knowledge discovery from data) việc trích rút mẫu tri thức quan trọng từ lượng liệu lớn 1.1.1.2 Các bước khai phá liệu Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) Chuẩn bị liệu (Data preparation), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô lOMoARcPSD|17343589 Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu Triển khai (Deployment) Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà q trình lặp có quay trở lại bước qua 1.1.1.3 Ứng dụng khai phá liệu Kinh tế - ứng dụng kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại, ngân hàng, Đưa báo cáo giàu thông tin, phân tích rửi ro trước đưa chiến lược kinh doanh, sản xuất, phân loại khách hàng từ phân định thi trường, thị phân:… Khoa học: Thiên văn học - dự đoán đường thiên thể, hành tinh, ; Cơng nghệ sinh học – tìm gen mới, giống mới,… Web: công cụ tìm kiếm 1.2 Tiền xử lý liệu Quá trình xử lý liệu thơ/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) từ cải thiện chất lượng kết khai phá Quá trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu khai thác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm liệu Hình 1.2 Hình ảnh tri thức lOMoARcPSD|17343589 1.2.1 Dữ liệu -Một tập liệu (dataset) tập đối tượng (object) thuộc tính chúng -Mỗi thuộc tính (attribute) mơ tả đặc điểm đối tượng Hình 1.2.1 Ví dụ datase 1.2.2 Làm liệu (data cleaning/cleansing) Đối với liệu thu nhập được,cần xác định vấn đề ảnh hưởng cho khơng sạch.Bởi vậy, liệu khơng sạch(có chưá lỗi, nhiễu, khơng đầy đủ, dự liệu khơng qn) tri thức khám phá bị ảnh hưởng không đáng tin cậy,sẽ dẫn đến định khơng xác Do đó, cần gán giá trị thuộc tính cịn thiếu,sửa chữa liệu nhiễu/lỗi, xác định loại bỏ ngoại lai,giải mâu thuẫn liệu 1.2.3 Tích hợp liệu (data integration) Tích hợp liệu trình trộn liệu từ nguồn khác vào kho liệu có sẵn cho q trình khai phá liệu Yêu cầu chung tích hợp giảm thiếu (tránh tốt nhất) dư thừa mâu thuẫn Giúp cải thiện mâu thuẫn trình khai phá liệu nâng cao chất lượng kết tri thức thu 1.2.4 Biến đổi liệu (data transformation) Biến đổi liệu việc chuyển toàn tập giá trị thuộc tính sang tập giá trị thay thế, cho giá trị cũ tương ứng với giá trị lOMoARcPSD|17343589 1.2.5 Thu giảm liệu (data reduction) Một kho liệu lớn chứa lượng liệu lên đến terabytes làm cho trình khai phá liệu chạy thời gian, nên thu giảm liệu Việc thu giảm liệu thu biểu diễn thu gọn, mà sinh (hoặc xấp xỉ) kết khai phá tập liệu ban đầu 1.3 Phương pháp xử lý Khai phá liệu chuyên ngành rộng có nhiều hướng nghiên cứu tốn khác Tuy nhiên, chúng tiếp cận theo hướng sau: 1.3.1 Phân lớp liệu Phân lớp liệu việc xây dựng mơ hình mà phân đối tượng thành lớp để dự đoán giá trị bị số thuộc tính liệu hay tiêu đoán giá trị liệu xuất tương lai Quá trình gồm bước: - Bước học (giai đoạn huấn luyện): xây dựng phân loại (classifier) việc phân tích/ học tập huấn luyện - Bước phân loại (classification): phân loại liệu/đối tượng mức độ xác phận phân loại đánh giá chấp nhận Các giải thuật phân loại liệu: - Phân loại liệu với định (decision tree) - Phân loại liệu với mạng Bayesian - Phân loại liệu với mạng neural - Phân loại liệu với k phần tử gần (k-nearest neighbor) - Phân loại liệu với SVM… 1.3.2 Phân cụm Phân cụm việc nhóm tập đối tượng có đặc điểm giống hay gần giống vào nhóm Các đối tượng nhóm tương tự với so với đối tượng cụm khác Phương pháp phân cụm hỗ trợ giai đoạn tiền xử lý liệu, mô tả phân bố liệu/đối tượng… Các phương pháp phân cụm phổ biến: - Phân hoạch(partitioning): phân hoạch tạo đánh giá theo tiêu chí - Phân cấp(hierarchical): phân rã tập liệu/đối tượng có thứ tự phân cấp theo tiêu chí lOMoARcPSD|17343589 tác vụ khác Theo trực quan, siêu mặt phẳng có khoảng cách lớn đến điểm liệu huấn luyện gần lớp (cịn gọi lề chức năng), nói chung, lề lớn lỗi tổng quát phân loại thấp Hình bên cho thấy hàm định cho tốn phân tách tuyến tính, với ba mẫu ranh giới lề, gọi “vectơ hỗ trợ”: Hình 2.2 Mơ hình liệu phân lớp với véc-tơ hỗ trợ Cho vectơ đào tạo xi∈Rp, i = 1,…, n, hai lớp vectơ y∈{1,−1}n, mục tiêu chúng tơi tìm w∈Rp b∈R cho dự đoán đưa sign(wTϕ(x)+b) xác cho hầu hết mẫu SVC giải vấn đề sau: Theo trực giác, chúng tơi cố gắng tối đa hóa lợi nhuận (bằng cách giảm thiểu ||w||2=wTw), đồng thời phải chịu hình phạt mẫu bị phân loại sai nằm ranh giới ký quỹ Lý tưởng giá trịyi(wTϕ(xi)+b) ≥1cho tất mẫu, điều cho thấy dự đốn hồn hảo Nhưng vấn đề thường khơng phải lúc phân tách hồn hảo với siêu phẳng, cho phép số mẫu khoảng cách xaζitừ ranh giới ký quỹ lOMoARcPSD|17343589 xác họ Điều khoản hình phạt Ckiểm sốt thời gian hình phạt này, kết là, hoạt động tham số quy định ngược (xem lưu ý bên dưới) Vấn đề kép nguyên thủy với k1, k2, …, kn số liệu thuộc cụm thứ k Các bước lặp lại vị trí trung tâm cụm khơng đổi sau bước lặp 2.2.2 Độ xác thuật toán Hàm mát thuật SVM đặc trưng cho độ xác ngày lớn khoảng cách từ điểm liệu tới siêu mặt phẳng lớn 2.2.3 Nghiệm tht tốn Bài tốn tối ưu SVM tốn tìm ww bb cho margin đạt giá trị lớn Khi hàm định phân liệu vào lớp thứ i tập n , 2-Iớp là: 2.2.4 Tóm tắt thuật tốn Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Phương pháp SVM yêu cầu liệu đƣợc diễn tả nhƣ vector số thực Nhƣ đầu vào chƣa phải số ta cần phải tìm cách chuyển chúng dạng số SVM Tiền xử lý liệu: Thực biến đổi liệu phù hợp cho trình tính tốn, tránh số q lớn mơ tả thuộc tính Thƣờng nên co giãn (scaling) liệu để chuyển đoạn [-1, 1] [0, 1] Chọn hàm hạt nhân: Lựa chọn hàm hạt nhân phù hợp tƣơng ứng cho toán cụ thể để đạt đƣợc độ xác cao q trình phân lớp Thực việc kiểm tra chéo để xác định thám số cho ứng đụng Điều định đến tính xác q trình phân lớp Sử dụng tham số cho việc huấn luyện với tập mẫu Trong trình huấn luyện sử dụng thuật tốn tối ƣu hóa khoảng cách siêu phẳng trình phân lớp, xác định hàm phân lớp không gian đặc trƣng nhờ việc ánh xạ liệu vào không gian đặc trƣng cách mô tả hạt nhân, giải cho hai trƣờng hợp liệu phân tách khơng phân tách tuyến tính không gian đặc trƣng Kiểm thử tập liệu Test 2.3 Mơ tả tốn 2.3.1 Dữ liệu “Fetal_health.csv” 2.3.1.1 Phát biểu toán Dự báo sức khỏe bao thai dựa số liệu nhịp tim, huyết áp, - Giá trị input ma trận 2126x22 Bao gồm kết máy chụp tim (CTG) Bản thân thiết bị hoạt động cách gửi xung siêu âm đọc phản ứng nó, làm sáng tỏ nhịp tim thai nhi (FHR), chuyển động thai nhi, co thắt tử cung - Giá trị output lớp sức khỏe bào thai bao gồm lớp: Bình thường, nghi can, có bệnh lý 2.3.1.2 Yêu cầu - Lấy liệu - Trích chọn đặc trưng từ tập liệu lấy - Xử lý, làm liệu - Tiến hành phân lớp 10 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - Dữ liệu hoá đồ thị 2.3.1.3 Bộ liệu Bộ liệu bao gồm 22 thuộc bao gồm: - baseline_value: giá trị vạch biên - accelerations: tốc độ phát triển - fetal_movement: chuyển động bào thai - uterine_contractions: co tử cung - light_decelerations: giảm nhẹ - severe_decelerations: giảm nghiêm trọng - prolongued_decelerations: giảm kéo dài - abnormal_short_term_variability: thay đổi ngắn hạn bất thường - mean_value_of_short_term_variability: giá trị trung bình biến đổi ngắn hạn - percentage_of_time_with_abnormal_long_term_variability: tỷ lệ thời gian với biến đổi lâu dài bất thường - mean_value_of_long_term_variability: giá trị trung bình biến thiên dài hạn - histogram_width: biểu đồ chiều rộng - histogram_min: biểu đồ giá trị nhỏ - histogram_max: biểu đồ giá trị lớn - histogram_number_of_peaks: biểu đồ số đỉnh - histogram_number_of_zeroes: số lượng biểu đồ số - histogram_mode: biểu đồ dáng - histogram_mean: biểu đồ trung bình cộng - histogram_median: biểu đồ trung bình 11 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - histogram_variance: phương sai biểu đồ - histogram_tendency: xu hướng biểu đồ - fetal_health: sức khỏe thai nhi gồm kết quả: o sức khỏe bình thường o có nghi can bệnh lí o thai nhi mang bệnh lí Bộ liệu khơng có thuộc tính bị thiếu Hình 2.3.1.3 Bộ liệu Fetal health 2.3.2 Dữ liệu “Zoo.csv” Số thuộc tính: 18 bao gồm animal_name cộng với thuộc tính lớp, tất thuộc tính có giá trị Thơng tin thuộc tính: - animal_name: tên gọi lồi vật - hair(long): có khơng 12 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - feathers(lơng vũ): có khơng - eggs(trứng): Magie (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - milk(sữa): nhôm (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - airborne(khả bay): Silicon (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - aquatic(thủy sinh): Kali (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - predator(động vật ăn thịt): Calxi (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - toothed(có răng): Bari (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - backbone(xương sống): Sắt (đơn vị đo: phần trăm trọng lượng oxit tương ứng) - breathes(sự thở): - venomous(nọc độc): - fins(vây): - legs(chân): - tail(đuôi): - domestic(trong nước): - catsize: có khơng - class_type (loại động vật): Động vật có vú Loại chim Lồi bị sát Lồi cá Lồi lưỡng cư Lồi trùng 13 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Lồi động vật khơng xương sống Bộ liệu khơng có thuộc tính bị thiếu Hình 2.3.2 Dữ liệu “zoo.csv” 2.3.3 Dữ liệu “ph-data.csv” Số thuộc tính liệu là: , tất thuộc tính giá trị số Thơng tin thuộc tính bao gồm: - blue(màu xanh da trời): số màu xanh da trời theo mơ hình màu RGB - green(màu xanh cây): số màu xanh theo mô hình màu RGB - red(màu đỏ): số màu đỏ theo mơ hình màu RGB - label(nhãn độ ph): o độ ph o độ ph o độ ph o độ ph o độ ph o độ ph o độ ph o độ ph o độ ph o 10 độ ph 10 o 11 độ ph 11 o 12 độ ph 12 o 13 độ ph 13 14 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 o 14 độ ph 14 Bộ liệu khơng có thuộc tính bị thiếu Hình 2.3.3 Dữ liệu “ph-data.csv” 15 Downloaded by v? ngoc (vuchinhhp10@gmail.com) ... Đặt vấn đề 1.1.1 Các khái niệm khai phá liệu 1.1.1.1 Khai phá liệu 1.1.1.2 Các bước khai phá liệu 1.1.1.3 Ứng dụng khai phá liệu 1.2 Tiền xử lý liệu... cho việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập bẳng biểu khai phá liệu Khai phá... lớp liệu SVM để tìm quy luật tìm ẩn liệu 1.1.1 Các khái niệm khai phá liệu 1.1.1.1 Khai phá liệu Khai phá liệu (data mining) hay khai phá liệu từ tri thức (knowledge discovery from data) việc

Ngày đăng: 10/01/2023, 23:17

Tài liệu cùng người dùng

Tài liệu liên quan