1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo chuyên đề học phần khai phá dữ liệu đề tài khai phá dữ liệu đánh giá xe

34 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE Sinh viên thực hiện: Giảng viên hướng dẫn: Ngành: Chuyên ngành: Lớp: Ph-m Văn Đ-t - 19810310664 Nguyễn Thanh T>ng - 19810310181 Đ? Đăng Tuê @ - 19810310346 TS Vũ Văn Định Công nghệ thông tin Công nghệ phần mềm D14CNPM2 Hà Nội, 25/3/2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: HỌ TÊN CHỮ KÝ GHI CHÚ Ph m Văn Đ t 19810310664 Ngu n Thanh T ng 19810310181 Đ Đăng Tuê 19810310346 Giảng viên chấm thi: HỌ TÊN CHỮ KÝ GHI CHÚ Giảng viên chấm thi 1: Giảng viên chấm thi 2: MỤC LỤC PHIẾU CHẤM ĐIỂM CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề Cơ sở hình thành đề tài 6 Mục tiêu đề tài Đối tượng phương pháp nghiên cứu Ý nghĩa đề tài Bố cục đề tài CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu 2.1.2 Quy trình khai phá liệu 2.1.3 Ứng dụng Khai phá liệu 12 2.2 Tổng quan hệ h trợ định .13 2.3 Bài toán phân lớp khai phá liệu 13 2.3.1 Khái niệm phân lớp 13 2.3.2 Quá trình phân lớp liệu .14 CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES .16 3.1 Cơ sở liệu xây dựng mơ hình 16 3.2 Phương pháp Bayes sử dụng khai phá liệu 16 3.2.1 Giới thiệu phương pháp Bayes khai phá liệu .16 3.2.2 Thuật toán Bayes 21 a, Phân lo i phần tử 21 b, Sai số Bayes 21 3.3 Thuật tốn Nạve Bayes giải tốn khai phá liệu tơ kvm chất lượng 22 3.3.1 Lý chọn thuật tốn Nạve Bayes 22 3.3.2 Tập liệu ô tô kvm chất lượng 23 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 29 4.1 Xây dựng mơ hình Nạve Bayes Weka 29 Kết luận 36 Tài liệu tham khảo 37 LỜI CẢM ƠN Ngày nay, việc ứng dụng công nghệ thông tin trở nên phổ biến hầu hết quan, doanh nghiệp, trường học đặc biệt việc áp dụng giải pháp tin học công tác quản lý Trong năm trở l i đây, với tốc độ phát triển vũ bão, CNTT dần làm cho sống người trở nên thú vị đơn giản Vì để bắt kịp với nhịp độ phát triển xã hội, kiến thức học giảng đường vô c ng quan trọng m i Sinh viên chúng em Chúng em xin chân thành cảm ơn thầy, cô môn tận tình giảng d y chúng em suốt thời gian học tập vừa qua Nhờ có d y tận tình thầy, để giúp chúng em hoàn thành đồ án Chúng em chân thành xin gửi lời cảm ơn đặc biệt đến thầy giáo Vũ Văn Định người tận tình hướng dẫn môn Khai phá liệu cho chúng em buổi học Cô giúp trang bị cho chúng em kiến thức môn học động lực để tiếp tục đường chinh phục công nghệ Chúng em xin chân thành cảm ơn thầy cô! Sinh viên thực Ph m Văn Đ t Đ Đăng Tuê Nguy n Thanh T ng CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề Hiện nay, để đánh giá mức độ an tồn tơ nay, thơng thường người mua tham khảo kết đánh giá từ ba tổ chức uy tín hàng đầu NHTSA, IIHS Euro NCAP Các tổ chức đưa thử nghiệm an tồn với dịng xe sử dụng phổ biến, quy chuẩn xếp h ng an tồn tơ tính với mức an tồn cao xe đ t Dự án nhằm phát hãng xe kvm chất lượng lừa đảo lừa đảo cách sử dụng kỹ thuật khai thác liệu Cơ sở hình thành đề tài Theo nhiều báo cáo, vụ tai n n ô tô xảy m i ngày với nhiều lý khác phần trăm xe chưa đảm bảo an toàn la cao nên cần tổ chức uy tín hàng đầu để đánh giá mơt cách xác NHTSA Cơ quan An tồn Giao thơng Cao tốc Quốc gia Mỹ, thành lập vào năm 1970 bảo lãnh Chính phủ Mỹ Tổ chức thành lập nhằm cải thiện tình tr ng an toàn đường quốc gia thử nghiệm ô tô để kiểm tra mức độ thiệt h i va ch m Sau NHTSA đánh giá mức độ an toàn dựa phần trăm tổn thương người ngồi xe sau xảy va ch m IIHS viết tắt Insurance Institute for Highway Safety, thành lập hiệp hội bảo hiểm lớn t i Mỹ vào năm 1959 Đây quan có chương trình đánh giá an tồn xe tơ uy tín với danh sách xếp h ng “Top Safety Pick+” bao gồm xe xuất sắc vượt qua toàn kiểm tra đ t số điểm ấn tượng Euro NCAP tổ chức đánh giá an tồn tơ thành lập năm 1997 Phịng thí nghiệm Nghiên cứu Giao thơng Bộ Giao thông Anh Quốc Mục tiêu đề tài Các hãng xe chưa đ t chất lượng quảng bá cách rơng rãi chất lượng xe chưa thực tốt Dự án nhằm phát xe kvm chất lượng lừa đảo cách sử dụng kỹ thuật khai thác liệu Tiêu chuẩn W3C xác định đặc điểm sử dụng để phân biệt xe kvm chất lượng Những đặc điểm sử dụng để phân lo i Bằng cách sử dụng kỹ thuật khai thác liệu, chúng tơi t o mơ hình phân lo i sử dụng để quản lý mơ hình hóa liệu Điều giúp đưa dự đoán cho d xe kvm hay đ t chất lượng Đối tượng phương pháp nghiên cứu Đề tài tập chung vào nghiên cứu kỹ thuật phân lớp khai phá dữu liệu(cụ thể nghiên cứu thuật tốn Naive bayes) để áp dụng vào việc phân tích sở liệu xe kvm chất lượng Ý nghĩa đề tài Bố cục đề tài Đề tài chia thành phần: Chương 1: Tổng quan đề tài Chương 2: Khai phá liệu Chương 3: Xây dựng mơ hình dữu liệu sử dụng Naive bayes Chương 4: Thực nghiệm đánh giá CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu Khai phá liệu (data mining) Là trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp t i giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc d hiểu để sử dụng tiếp.Ngồi bước phân tích thơ, cịn liên quan tới sở liệu khía c nh quản lý liệu, xử lý liệu trước, suy xvt mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức t p, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" KDD Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: • Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) • Chuẩn bị liệu (Data preparation), bao gồm q trình làm s ch liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) • Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thơ • Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu • Triển khai (Deployment) Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối c ng mà q trình lặp có quay trở l i bước qua 2.1.2 Quy trình khai phá liệu 2.1.2.1 Nghiên cứu lĩnh vực Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định tri thức ta cần chất lọc, từ định hướng để tránh tốn thời gian cho tri thức không cần thiết 2.1.2.2 T o tập tin li u đầu vào Ta xây dựng tập tin để lưu trữ liệu đầu vào để máy tính lưu trữ xử lý 2.1.2.3 Tiền xử lý, làm s ch, mã hóa Ở bước ta tiến hành bỏ bớt liệu rườm rà, không cần thiết, tinh chỉnh l i cấu trúc liệu mã hóa chúng để tiện cho trình xử lý 2.1.2.4 Rút gọn chiều Thơng thường tập liệu có chiều lớn sinh lượng dự liệu khổng lồ,ví dụ với n chiều ta có 2^n nguyên tổ hợp Do , bước quan trọng giúp giảm đáng kể hao tổn tài nguyên trình xử lý tri thức.Thông thường ta d ng Rough set (http://en.wikipedia.org/wiki/Rough_set) để giảm số chiều 2.1.2.5 Chọn tác vụ khai thác liệu Để đ t mục đích ta cần, ta chọn tác vụ khai thác liệu cho ph hợp.Thơng thường có tác vụ sau: • Đặc trưng(feature) • Phân biệt(discrimination) • Kết hợp(association) • Phân lớp(classification) • Gom cụm(clusterity) • Xu thế(trend analysis) • Phân tích độ lệch • Phân tích độ 2.1.2.6 Chọn thuật giải khai thác liệu 2.1.2.7 Khai thác liệu: Tìm kiếm tri thức Sau tiến hành bước bước trình , ta tiến hành khai thác tìm kiếm tri thức 2.1.2.8 Đánh giá mẫu tìm Ta cần đánh giá l i tri thức tìm , ta sử dụng tri thức , tri thức dư thừa,không cần biết 2.1.2.9 Biểu di n tri thức Ta biểu di n tri thức vừa thu nhập d ng ngơn ngữ tự nhiên hình thức cho người d ng hiểu tri thức 2.1.2.10 Sử dụng tri thức vừa khám phá Ta tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ khai phá dữu liệu: Hình 2.1: Knowledge Discovery in Databases 10 Ví dụ: Dữ liệu minh họa hình: Có lớp: xanh đỏ; N: tổng số đối tượng P(xanh) = |xanh|/N = 40/60 P(đỏ) = |đỏ|/N = 20/60 Với xác suất tiên nghiệm xác định trên: P(xanh) P(đỏ) xác định nhãn lớp cho đối tượng x hình Lấy x làm tâm, vẽ vòng tròn giới h n đối tượng lân cận với x, tính: P(x|xanh) = |xanh lân cận|/|xanh| = 1/40 P(x|đỏ) = |đỏ lân cận|/|đỏ| = 3/20 P(xanh|x) = P(x|xanh).P(xanh) = (1/40 *40/40) = 1/60 P(đỏ|x) = P(x|đỏ).P(đỏ) = (3/20 * 20/60) = 1/20 x gán nhãn đỏ 20

Ngày đăng: 23/06/2023, 09:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w