1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cáo đồ án khai thác dữ liệu

20 42 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

1.1 Xây dựng bài toán • Yêu cầu đề bài: Phân loại nội dung email theo người gửi. • Loại bài toán: Text Classification. • Mục tiêu: Xây dựng được mô hình phân loại có thể dự đoán được người gửi (trong danh sách training) từ 1 nội dung email (chưa gặp trong training) được cung cấp. • Dữ liệu: Dữ liệu có nhãn, data là nội dung của email; label là người gửi email đó. 1.2 Hiểu giải thuật 1.2.1 Thuật toán SVM (Support Vector Machine) • là một thuật toán giám sát, nó có thể sử dụng cho cả việc phân loại hoặc đệ quy. Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại. Trong thuật toán này, chúng ta vẽ đồi thị dữ liệu là các điểm trong n chiều ( ở đây n là số lượng các tính năng bạn có) với giá trị của mỗi tính năng sẽ là một phần liên kết. Sau đó chúng ta thực hiện tìm "đường bay" (hyper-plane) phân chia các lớp. Hyper-plane nó chỉ hiểu đơn giản là 1 đường thẳng có thể phân chia các lớp ra thành hai phần riêng biệt. • Support Vectors hiểu một cách đơn giản là các đối tượng trên đồ thị tọa độ quan sát, Support Vector Machine là một biên giới để chia hai lớp tốt nhất.

Ngày đăng: 05/07/2021, 20:45

Xem thêm:

TỪ KHÓA LIÊN QUAN

Mục lục

    Chương 1: Xây dựng bài toán

    1.1 Xây dựng bài toán

    1.2.1 Thuật toán SVM (Support Vector Machine)

    1.2.2 Thuật toán MLP (Multi-Layer Perceptron)

    1.2.3 Tại sao chọn SVM và MLP?

    1.2.4 Vẽ sơ đồ giải thuật

    1.2.6 Chạy từng bước minh họa:

    1.2.6.1 Quá trình chuẩn bị dữ liệu

    1.2.6.2 Quá trình tiền xử lý dữ liệu

    1.2.6.3 Quá trình xử lý dữ liệu

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w