Phương pháp phân tích dữ liệu

Một phần của tài liệu 2404_012305 (Trang 26 - 29)

3.4.1. Phương pháp rừng ngẫu nhiên

Theo Breiman (2001) nguyên tắc cơ bản của bộ phân loại này là đào tạo nhiều cây quyết định và để các cây đó cùng tạo ra một phân loại. Mỗi cây đó được huấn luyện trên một tập hợp con của dữ liệu huấn luyện được rút ra với sự thay thế. Quy trình đào tạo tương tự như cách đào tạo cây quyết định thông thường ngoại trừ một điểm khác biệt. Tại mỗi phần tách trong cây, một lựa chọn ngẫu nhiên của các tính năng được chọn, từ đó tính năng cho phần tách được chọn. Thông thường căn bậc hai của số lượng đối tượng có sẵn được sử dụng cho số lượng đối tượng phải được vẽ. Lý do cho việc lựa chọn đặc điểm ngẫu nhiên này là để giảm mối tương quan giữa các cây riêng lẻ.

tập hợp con ngẫu nhiên của các đặc điểm được chọn để dựa vào đó phân tách. Đối với một phân loại với p đặc trưng, số đặc trưng được sử dụng nhiều nhất được xem xét để phân tách là ự^ hoặc Iog2 (p). Quá trình xây dựng cây này dẫn đến N cây quyết định riêng biệt được kết hợp trong một bộ phân loại duy nhất. Điều này có thể được thực hiện bằng cách để mỗi người phân loại bỏ phiếu hoặc lấy trung bình các dự đoán xác suất.

3.4.2. Phương pháp cây quyết định

Cây quyết định bao gồm các nút lệnh được kết nối với nhau tạo thành một cây gốc, nghĩa là cây có một nút lệnh gốc duy nhất là điểm bắt đầu. Tất cả các nút lệnh sau đều có một cạnh đến

duy nhất, nếu nút lệnh cũng có các cạnh đi thì nó được gọi là nút lệnh bên trong. Mỗi nút lệnh bên trong phân chia tập dữ liệu theo một logic nhất định. Trong phân loại, sự phân chia này thường dựa trên giá trị của một đối tượng địa lý nhất định. Các nút lệnh có cạnh tới nhưng không

có cạnh đi ra ngoài được gọi là lá. Lá được ký vào một nhãn dựa trên nhãn nào là thích hợp nhất.

Sau khi một cây đã được xây dựng, việc phân loại được thực hiện bằng cách bắt đầu ở nút lệnh gốc và theo dõi qua các nút lệnh bên trong cho đến khi đạt đến điểm nghỉ (Rokach và Maimon, 2005).

Việc xây dựng cây quyết định tối ưu chỉ khả thi đối với các vấn đề nhỏ do yêu cầu tính toán

(Zuech và cộng sự, 1996). Điều này dẫn đến sự cần thiết của các thuật toán thực nghiệm. Trong nghiên cứu này, thuật toán CART sẽ được sử dụng. Cây quyết định được huấn luyện trên một tập đặc trưng chứa X = Xi, ..., Xnvà các nhãn tương ứng Y = yi, ..., yn. Tại mỗi nút m, phần liên quan của tập hợp được biểu diễn bằng Qm. Thuật toán xây dựng bằng cách cố gắng tìm phép tách

ớ = (j, tm) với đặc trưng j và ngưỡng tm, tách Q thành Qieft(B)Qright(B) với tạp chất được giảm thiểu. Một số biện pháp có thể được sử dụng để cô lập tạp chất mà Gini và Entropy được sử dụng

rộng rãi. Công thức 2.13 cho thấy cách tính Gini, pmk là xác suất của một mẫu có nhãn k nằm trong nút mI(yi = k) là một nếuyi = k và ngược lại bằng không.

-=⅛ ∑'(y' = k)

H(Xm ) = ∑i⅛rt (1-pm* )

c(Qrn ,e) = ɪ H(oleft (β)) +⅛i. H(Qrlgltt (β))

™m ™m

Quá trình này được thực hiện theo cách đệ quy. Sau mỗi lần lặp, quá trình được lặp lại cho

QieftQright cho đến khi đạt được tiêu chí dừng. Tiêu chí này có thể là độ sâu tối đa hoặc số lượng mẫu còn lại tối thiểu.

3.4.3. Phương pháp hồi quy logistic

Theo Cox (1958) hồi quy logistic là sử dụng các kỹ thuật được phát triển cho hồi quy tuyến

tính để mô hình hóa xác suất của một mẫu thuộc một lớp nhất định. Điều này được thực hiện bằng cách sử dụng một hàm dự báo tuyến tính, Công thức 2.9, là một tổ hợp tuyến tính của m giá trị đặc trưng và m + 1 hệ số hồi quy.

m

f(i) = β0 + ɪ βiXi

i=l

Hồi quy logistic khác với các dạng hồi quy khác do cách thức của dự báo tuyến tính được liên kết với xác suất của một kết quả nhất định. Nó biến đổi đầu ra của bộ dự đoán tuyến tính bằng cách sử dụng hàm logit, được mô tả trong Hình 2.4, là nhật ký tự nhiên của tỷ lệ cược. Một

lợi thế của việc sử dụng hàm logit là nó nhận bất kỳ giá trị thực nào làm đầu vào và trả về giá trị từ 0 đến 1.

Iogit(Py) = In ( P* } = f(í)

Vl-PC

Sử dụng phép biến đổi trên của công cụ dự đoán tuyến tính, có thể xác định phương trình sau cho xác suất của một mẫu dương tính.

p(x) = (1 + e ι6^"+∑'=1∣','x'' )-1

Cuối cùng là mô tả một phương pháp có thể được sử dụng để xác định các hệ số. Không giống như trong hồi quy tuyến tính, không thể xác định giá trị đóng cho phương trình xác định các hệ số. Thay vào đó, các phương pháp khác như ước tính tỷ lệ tối đa được sử dụng. Trong phương pháp này, một quá trình lặp lại được sử dụng trong đó trong mỗi lần lặp, các hệ số được thay đổi một chút để cố gắng cải thiện khả năng xảy ra tối đa. Trong dự án nghiên cứu này, hai

Phương pháp thứ hai là saga sử dụng gradient trung bình ngẫu nhiên. Phương pháp thứ hai thường

nhanh hơn trên các tập dữ liệu lớn.

Một phần của tài liệu 2404_012305 (Trang 26 - 29)

Tải bản đầy đủ (DOCX)

(61 trang)
w