Báo cáo chuyên đề học phần khai phá dữ liệu đề tài khai phá dữ liệu đánh giá xe

34 5 0
Báo cáo chuyên đề học phần khai phá dữ liệu đề tài khai phá dữ liệu đánh giá xe

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐÁNH GIÁ XE Sinh viên thực hiện: Giảng viên hướng dẫn: Ngành: Chuyên ngành: Lớp: Ph-m Văn Đ-t - 19810310664 Nguyễn Thanh T>ng - 19810310181 Đ? Đăng Tuê @ - 19810310346 TS Vũ Văn Định Công nghệ thông tin Công nghệ phần mềm D14CNPM2 Hà Nội, 25/3/2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: HỌ TÊN CHỮ KÝ GHI CHÚ Phm Văn Đt 19810310664 Ngun Thanh Tng 19810310181 Đ Đăng Tuê  19810310346 Giảng viên chấm thi: HỌ TÊN CHỮ KÝ GHI CHÚ Giảng viên chấm thi 1: Giảng viên chấm thi 2: MỤC LỤC PHIẾU CHẤM ĐIỂM CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề .6 Cơ sở hình thành đề tài Mục tiêu đề tài .7 Đối tượng phương pháp nghiên cứu Ý nghĩa đề tài Bố cục đề tài CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu 2.1.2 Quy trình khai phá liệu 2.1.3 Ứng dụng Khai phá liệu 12 2.2 Tổng quan hệ h trợ định 13 2.3 Bài toán phân lớp khai phá liệu 13 2.3.1 Khái niệm phân lớp 13 2.3.2 Quá trình phân lớp liệu 14 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỮ LIỆU SỬ DỤNG NAIVE BAYES 16 3.1 Cơ sở liệu xây dựng mơ hình 16 3.2 Phương pháp Bayes sử dụng khai phá liệu 16 3.2.1 Giới thiệu phương pháp Bayes khai phá liệu 16 3.2.2 Thuật toán Bayes 21 a, Phân loi phần tử 21 b, Sai số Bayes 21 3.3 Thuật tốn Nạve Bayes giải tốn khai phá liệu tơ kvm chất lượng 22 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 3.3.1 Lý chọn thuật tốn Nạve Bayes 22 3.3.2 Tập liệu ô tô kvm chất lượng 23 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .29 4.1 Xây dựng mơ hình Nạve Bayes Weka 29 Kết luận .36 Tài liệu tham khảo .37 LỜI CẢM ƠN Ngày nay, việc ứng dụng công nghệ thông tin trở nên phổ biến hầu hết quan, doanh nghiệp, trường học đặc biệt việc áp dụng giải pháp tin học cơng tác quản lý Trong năm trở li đây, với tốc độ phát triển vũ bão, CNTT dần làm cho sống người trở nên thú vị đơn giản Vì để bắt kịp với nhịp độ phát triển xã hội, kiến thức học giảng đường vô cng quan trọng mi Sinh viên chúng em 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Chúng em xin chân thành cảm ơn thầy, mơn tận tình giảng dy chúng em suốt thời gian học tập vừa qua Nhờ có dy tận tình thầy, để giúp chúng em hồn thành đồ án Chúng em chân thành xin gửi lời cảm ơn đặc biệt đến thầy giáo Vũ Văn Định người tận tình hướng dẫn mơn Khai phá liệu cho chúng em buổi học Cô giúp trang bị cho chúng em kiến thức môn học động lực để tiếp tục đường chinh phục công nghệ Chúng em xin chân thành cảm ơn thầy cô! Sinh viên thực Phm Văn Đt Đ Đăng Tuê  Nguyn Thanh Tng CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI Đặt vấn đề Hiện nay, để đánh giá mức độ an tồn tơ nay, thơng thường người mua tham khảo kết đánh giá từ ba tổ chức uy tín hàng đầu NHTSA, IIHS Euro NCAP Các tổ chức đưa thử nghiệm an tồn với dịng xe sử dụng phổ biến, quy chuẩn xếp hng an toàn ô tô tính với mức an tồn cao xe đt Dự án nhằm phát 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 hãng xe kvm chất lượng lừa đảo lừa đảo cách sử dụng kỹ thuật khai thác liệu Cơ sở hình thành đề tài Theo nhiều báo cáo, vụ tai nn ô tô xảy mi ngày với nhiều lý khác phần trăm xe chưa đảm bảo an toàn la cao nên cần tổ chức uy tín hàng đầu để đánh giá mơ t cách xác NHTSA Cơ quan An tồn Giao thơng Cao tốc Quốc gia Mỹ, thành lập vào năm 1970 bảo lãnh Chính phủ Mỹ Tổ chức thành lập nhằm cải thiện tình trng an tồn đường quốc gia thử nghiệm ô tô để kiểm tra mức độ thiệt hi va chm Sau NHTSA đánh giá mức độ an toàn dựa phần trăm tổn thương người ngồi xe sau xảy va chm IIHS viết tắt Insurance Institute for Highway Safety, thành lập hiệp hội bảo hiểm lớn ti Mỹ vào năm 1959 Đây quan có chương trình đánh giá an tồn xe ô tô uy tín với danh sách xếp hng “Top Safety Pick+” bao gồm xe xuất sắc vượt qua toàn kiểm tra đt số điểm ấn tượng Euro NCAP tổ chức đánh giá an tồn tơ thành lập năm 1997 Phịng thí nghiệm Nghiên cứu Giao thơng Bộ Giao thông Anh Quốc Mục tiêu đề tài Các hãng xe chưa đt chất lượng quảng bá cách rơ ng rãi chất lượng xe chưa thực tốt Dự án nhằm phát xe kvm chất lượng lừa đảo cách sử dụng kỹ thuật khai thác liệu Tiêu chuẩn W3C xác định đặc điểm sử dụng để phân biệt xe kvm chất lượng Những đặc điểm sử dụng để phân loi Bằng cách sử dụng kỹ thuật khai thác liệu, chúng tơi to mơ hình phân loi sử dụng để quản lý 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 mơ hình hóa liệu Điều giúp đưa dự đoán cho d xe kvm hay đt chất lượng Đối tượng phương pháp nghiên cứu Đề tài tập chung vào nghiên cứu kỹ thuật phân lớp khai phá dữu liệu(cụ thể nghiên cứu thuật tốn Naive bayes) để áp dụng vào việc phân tích sở liệu xe kvm chất lượng Ý nghĩa đề tài Bố cục đề tài Đề tài chia thành phần: Chương 1: Tổng quan đề tài Chương 2: Khai phá liệu Chương 3: Xây dựng mơ hình dữu liệu sử dụng Naive bayes Chương 4: Thực nghiệm đánh giá CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu (Data Mining) 2.1.1 Khái niệm Khai phá liệu Khai phá liệu (data mining) Là trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp ti giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc d hiểu để sử dụng tiếp.Ngồi bước phân tích thơ, cịn liên quan tới sở liệu khía cnh 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 quản lý liệu, xử lý liệu trước, suy xvt mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" KDD Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: • Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) • Chuẩn bị liệu (Data preparation), bao gồm trình làm sch liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) • Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thơ • Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu • Triển khai (Deployment) Q trình khai thác tri thức khơng trình từ bước đến bước cuối cng mà trình lặp có quay trở li bước qua 2.1.2 Quy trình khai phá liệu 2.1.2.1 Nghiên cứu lĩnh vực Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định tri thức ta cần chất lọc, từ định hướng để tránh tốn thời gian cho tri thức không cần thiết 2.1.2.2 To tập tin liu đầu vào 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Ta xây dựng tập tin để lưu trữ liệu đầu vào để máy tính lưu trữ xử lý 2.1.2.3 Tiền xử lý, làm sch, mã hóa Ở bước ta tiến hành bỏ bớt liệu rườm rà, không cần thiết, tinh chỉnh li cấu trúc liệu mã hóa chúng để tiện cho trình xử lý 2.1.2.4 Rút gọn chiều Thơng thường tập liệu có chiều lớn sinh lượng dự liệu khổng lồ,ví dụ với n chiều ta có 2^n ngun tổ hợp Do , bước quan trọng giúp giảm đáng kể hao tổn tài nguyên q trình xử lý tri thức.Thơng thường ta dng Rough set (http://en.wikipedia.org/wiki/Rough_set) để giảm số chiều 2.1.2.5 Chọn tác vụ khai thác liệu Để đt mục đích ta cần, ta chọn tác vụ khai thác liệu cho ph hợp.Thơng thường có tác vụ sau: • Đặc trưng(feature) • Phân biệt(discrimination) • Kết hợp(association) • Phân lớp(classification) • Gom cụm(clusterity) • Xu thế(trend analysis) • Phân tích độ lệch 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 • Phân tích độ 2.1.2.6 Chọn thuật giải khai thác liệu 2.1.2.7 Khai thác liệu: Tìm kiếm tri thức Sau tiến hành bước bước q trình , ta tiến hành khai thác tìm kiếm tri thức 2.1.2.8 Đánh giá mẫu tìm Ta cần đánh giá li tri thức tìm , ta sử dụng tri thức , tri thức dư thừa,không cần biết 2.1.2.9 Biểu din tri thức Ta biểu din tri thức vừa thu nhập dng ngơn ngữ tự nhiên hình thức cho người dng hiểu tri thức 2.1.2.10 Sử dụng tri thức vừa khám phá Ta tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ khai phá dữu liệu: Hình 2.1: Knowledge Discovery in Databases 10 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Ví dụ: Dữ liệu minh họa hình: Có lớp: xanh đỏ; N: tổng số đối tượng P(xanh) = |xanh|/N = 40/60 P(đỏ) = |đỏ|/N = 20/60 Với xác suất tiên nghiệm xác định trên: P(xanh) P(đỏ) xác định nhãn lớp cho đối tượng x hình Lấy x làm tâm, vẽ vòng tròn giới hn đối tượng lân cận với x, tính: P(x|xanh) = |xanh lân cận|/|xanh| = 1/40 P(x|đỏ) = |đỏ lân cận|/|đỏ| = 3/20 P(xanh|x) = P(x|xanh).P(xanh) = (1/40 *40/40) = 1/60 P(đỏ|x) = P(x|đỏ).P(đỏ) = (3/20 * 20/60) = 1/20 x gán nhãn đỏ 20 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 3.2.2 Thuật toán Bayes a, Phân lo-i phần tử Cho k tổng thể w1, w2, , wk có biến quan sát với hàm mật độ xác suất xác định f1(x), f2(x), …, fk(x) xác suất tiên nghệm cho tổng thể , , , , q1 q2 qk q1  q2   qk 1 Ta có nguyên tắc phân loi phần tử với biến quan sát x phương pháp Bayes sau: Nếu ( ) ( ) max g x q f x  j j xếp phần tử vào , wj (1) Trong đó: qi xác suất tiên nghiệm tổng thể thứ i, g (x) q f (x) i  i i gmax (x)  maxg1 (x), g2 (x), ,gk (x) b, Sai số Bayes  Trường hợp tổng thể Trong trường hợp không quan tâm đến xác suất tiên nghiệm q w1 , ta có:  = P(w2|w1) = qf  dx n R x  : xác suất phân loi phần tử vào w2 thuộc w1  = P(w1|w2) = q f  dx n R x   ( : xác su ) ất phân loi phần tử vào w1 thuộc w2 Trong đó:   | ( ) (1 ) ( ) , 1 R x qf x q f x n    R2 x | qf1 (x) (1 q) f (x) n    Xác suất sai lầm phân loi Bayes gọi sai số Bayes xác định công thức: Pe  1 2 Khi quan tâm đến xác suất tiên nghiệm q w1  trở thành    trở thành   với: 21 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Trong đó: Đặt (q)  (q, 1 q), sai số Bayes xác định bởi:   ;     gọi chung hai thành phần sai số Bayes  Trường hợp nhiều tổng thể: Sai số Bayes phân loi k tổng thể xác định biểu thức: Để thuận lợi tính toansai số Bayes, người ta thường tính xác xuất phân loi sai số Bayes tính bởi: 3.3 Thuật tốn Nạve Bayes giải tốn khai phá liệu ô tô k†m chất lượng 3.3.1 Lý chọn thuật tốn Nạve Bayes Theo thống kê, 99% thơng tin Web vơ ích với 99% người dng Web Trong phần Web không quan tâm li bị búi vào kết nhận tìm kiếm Vậy ta cần phải khai phá Web để nhận trang web chất lượng cao theo tiêu chuẩn người dng? Như thấy điểm khác việc tìm kiếm CSDL truyền thống với việc tìm kiếm Internet Những thách thức đẩy mnh việc nghiên cứu khai phá sử dụng tài nguyên Internet Thông tin trang Web đa 22 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 dng mặt nội dung hình thức Tuy nhiên cng với đa dng số lượng lớn thông tin nảy sinh vấn đề web lừa đảo Một thách thức mà nghiên cứu phải đối mặt khơng có liệu đào to đáng tin cậy Trong thực tế, thách thức phải đối mặt với nhà nghiên cứu lĩnh vực 3.3.2 Tập liệu ô tô k†m chất lượng Một thách thức mà nghiên cứu chúng tơi phải đối mặt khơng có liệu đào to đáng tin cậy Trong thực tế, thách thức phải đối mặt với nhà nghiên cứu lĩnh vực Tuy nhiên, mặc d nhiều viết dự đoán trang web lừa đảo sử dụng kỹ thuật khai thác liệu phổ biến ngày này, khơng có tập liệu đào to đáng tin cậy công bố, khơng có thỏa thuận tài liệu tính dứt khốt đặc trưng cho trang web lừa đảo, khó để định hình tập liệu bao gồm tất tính Trong viết này, chúng tơi làm sáng tỏ tính quan trọng chứng minh hợp lý hiệu việc dự đoán trang web lừa đảo Tập liệu gồm thuộc tính sau: Các thuộc tính địa chỉ: Using the IP Address: Nếu địa IP sử dụng thay cho tên miền URL, chẳng hn như, http://125.98.3.123/fake.html, người dng chắn cố lấy cắp thông tin cá nhân họ Đôi khi, địa IP chí cịn chuyển đổi thành mã thập lục phân hiển thị liên kết sau http: //0x58.0xCC.0xCA.0x62/2/paypal.ca/index.html 23 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Long URL to Hide the Suspicious Part: Những kẻ lừa đảo sử dụng URL dài để ẩn phần nghi ngờ địa Ví dụ: http://federmacedoadv.com.br/3f/aze/ab51e2e319e51502f416dbe46b773a5e/? cmd=_home&dispatch=11004d58f5b74f8dc1e7c2e8dd4105e811004d58f5b74 f8dc1e7c2e8dd4105e8@phishing.website.html Using URL Shortening Services “TinyURL”: Rút ngắn URL phương pháp Web World Wide Web, URL làm nhỏ đáng kể chiều dài dẫn đến trang web bắt buộc Điều thực phương tiện Chuyển hướng HTTP HTTP tên miền ngắn, liên kết đến trang web có URL dài Ví dụ: URL ăn http://portal.hud.ac.uk/ rút ngắn thành URL bit.ly/19DXSk4 URL’s having “@” Symbol: Việc sử dụng biểu tượng @ @ URL khiến trình duyệt bỏ qua thứ trước biểu tượng @ @ địa thực thường theo biểu tượng @ @ Redirecting using “//”: Sự tồn ti tên // // đường dẫn URL có nghĩa người dng chuyển hướng đến trang web khác Một ví dụ URL là: http://www.legitimate.com//http://www.phishing.com Adding Prefix or Suffix Separated by (-) to the Domain: Biểu tượng dấu gch ngang sử dụng URL hợp pháp Những kẻ lừa đảo có xu hướng thêm tiền tố hậu tố phân tách (-) vào tên miền để người dng cảm thấy họ xử lý trang web hợp pháp Ví dụ: http://www.Confirme-paypal.com/ Sub Domain and Multi Sub Domains: ví dụ liên kết sau: http://www.hud.ac.uk/students/ Https: Sự tồn ti HTTPS quan trọng tính hợp pháp trang web 24 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Domain Registration Length: Dựa thực tế trang web lừa đảo tồn ti khoảng thời gian ngắn, tên miền đáng tin cậy thường trả trước vài năm Trong tập liệu, thấy tên miền lừa đảo dài sử dụng năm Favicon: Favicon hình ảnh đồ họa (biểu tượng) liên kết với trang web cụ thể Nhiều tác nhân người dng có trình duyệt đồ họa trình đọc tin hiển thị favicon lời nhắc nhở trực quan danh tính trang web địa Nếu favicon tải từ tên miền khác với tên miền hiển thị địa chỉ, trang web coi lừa đảo Các thuộc tính bất thường: Request URL: URL yêu cầu kiểm tra xem đối tượng bên ngồi có trang web hình ảnh, video âm có tải từ tên miền khác hay không Trong trang web hợp pháp, địa trang web hầu hết đối tượng nhúng trang web chia sẻ cng tên miền Links in , and tags: trang web hợp pháp sử dụng thẻ để cung cấp siêu liệu tài liệu HTML điều phổ biến; Thẻ để to tập lệnh phía máy khách; thẻ để lấy tài nguyên web khác Server Form Handler (SFH): Các SFH có chứa chui trống khoảng trống: trống coi đáng ngờ hành động nên thực theo thơng tin gửi Ngồi ra, tên miền SFH khác với tên miền trang web, điều cho thấy trang web đáng ngờ thơng tin gửi xử lý tên miền bên Submitting Information to Email Bắt đăng nhập email Abnormal URL: địa bất thường 25 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Các tính dựa HTML JavaScript: Website Forwarding: trang web hợp pháp chuyển hướng tối đa lần Mặt khác, trang web lừa đảo có tính chuyển hướng lần Status Bar Customization: Kẻ lừa đảo sử dụng JavaScript để hiển thị URL giả trng thái cho người dng Để trích xuất tính này, phải khai thác mã nguồn trang web, đặc biệt kiện onMouseOver, kiểm tra xem có thực thay đổi trng thái không Disabling Right Click : Kẻ lừa đảo sử dụng JavaScript để vơ hiệu hóa chức nhấp chuột phải để người dng xem lưu mã nguồn trang web Tính xử lý xác sử dụng onMouseOver để ẩn Liên kết Using Pop-up Window: nhiều cửa sổ bật lên … 26 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Hình 3.2: Bảng liệu dataset thuộc tính trang web lừa đảo Với mi thông tin trang web, liệu bao gồm tập hợp số kể trang web lừa đảo tức class -1 Về chất toán phân loi lớp sử dụng phương pháp phân loi khác SVM, Random Forest, KNN… để phân loi cho kết tốt Nếu có hội nhóm trình bày phương pháp dịp khác Chúng ta hình dung tập liệu thông qua biểu din dng file CSV sau, cột cuối cng kết luận trang web có lừa đảo hay khơng, cột li tương ứng với số 27 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Nạve Bayes Weka Hình 4.1: Nhập liệu vào Weka 28 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Hình 4.3: Đầu phân lớp  Đầu phân lớp: - Các thuộc tính: Buying Maint Doors Persons Lug_boot Safety Unacc 29 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Chế độ kiểm tra: Xác thực chvo 10 lần Hình 4.4: Đầu phân lớp Nạve Bayes thuộc tính buying Kết kiểm tra Trường hợp phân loi xác Trường hợp phân loi khơng xác Hệ số tương quan Li tuyệt đối Li bình thường gốc Li tương đối tuyệt đối Li bình phương gốc tương đối Nạve bayes 3044 17.613% 1422 82.387% -0.0986 0.3757 0.4338 100.1788% 100.1868% 30 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Tổng số trường hợp 1726 Hình 4.5: Đầu phân lớp Nạve Bayes thuộc tính safety 31 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Kết kiểm tra Trường hợp phân loi xác Trường hợp phân loi khơng xác Hệ số tương quan Li tuyệt đối Li bình thường gốc Li tương đối tuyệt đối Li bình phương gốc tương đối Nạve bayes 457 26.4774 % 1269 73.5226 % -0.1029 0.4453 0.4724 100.2009% 100.21% Tổng số trường hợp 11055 32 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 Kết luận Sau thời gian thực hiện, chúng em thực số kết sau:  Tìm hiểu khai phá dữu liệu  Vai trị khai pha liệu  Tìm hiểu thuật tốn bayes  Tìm hiểu bayes giải toán phát xe kvm chất lượng Chúng em tìm hiểu lý thuyết xác xuất đến thuật tốn Nạve Bayes ứng dụng tốn phát xe kvm chất lượng Tuy độ xác chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy cô giúp đỡ để tốn chúng em hồn thiện 33 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66 37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

Ngày đăng: 08/09/2023, 00:27

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan