Giải thuật C4.5 22

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 31 - 36)

Giải thuật cây quyết định C4.5 là phương pháp học có giám sát. Cho một tập dữ liệu các thuộc tính được định giá trị mà trong đó, mỗi trường hợp được mô tả bằng tập hợp các thuộc tính và thuộc về một trong các lớp riêng biệt, C4.5 học một ánh xạ từ các giá trị thuộc tính đến các lớp học có thểđược áp dụng để phân loại cho dữ liệu mới, trường hợp chưa được biết trước đó

23

C4.5 không chỉ là một giải thuật, mà nhiều hơn nữa còn là bộ các giải thuật: C4.5 cắt nhánh, C4.5 không cắt nhánh.

Do cắt nhánh làm giảm kích thước của cây do loại bỏ bớt các nhánh thừa trong quá trình xây dựng cây do đó làm giảm sự phức tạp của kết quả phân lớp và độ chính xác của dự báo cũng tốt hơn. Nên trong khóa luận này, tôi sử dụng giải thuật C4.5 cắt nhánh

Gii thut phân lp s dng C4.5 ct nhánh

FormTree (T)

(1)ComputerClassFrequency(T) (2)If OneClass or FewCases

Return a leaf;

Create a decision node N; (3)For Each Attribute A

ComputeGain (A); (4)N.test=AttributeWithBestGain; (5)If(N.test is continuous)

Find Threshold;

(6)For Each T’ in the splitting of T (7)If(T’ is Empty) Child of N is a leaf else (8)Child of N = FormTree(T’); (9)ComputeErrors of N; Return N;

24

Giải thuật này có thểđược mô tả theo một cách khác nhau như sau: [5]

Cho một tập S các trường hợp, C4.5 đầu tiên khởi tạo một cây dùng giải thuật chia để trị như:

• Nếu tất cả các trường hợp trong S đều cùng một lớp hay tập S nhỏ, cây chỉ có một nút lá với nhãn là nhãn của đa số trong tập S.

• Ngược lại, chọn kiểm tra dựa trên một thuộc tính có hai hay nhiều giá trị thuộc tính. Thực hiện việc tính toán kiểm tra này xác định được gốc của cây và cùng với sự phân hoạch tập S thành các tập con tương ứng S1, S2,…theo giá trị mỗi thuộc tính của thuộc tính vừa xét chọn. Áp dụng đệ qui cho mỗi tập con vừa được tạo.

• Thông thường có nhiều kiểm tra để có thểđược chọn ở bước cuối này. C4.5 dùng hai tiêu chuẩn heuristics để xếp hạng ưu tiên các thuộc tính được chọn: độ lợi thông tin (information gain) và tỉ lệ gain (gain ratio).

• Các thuộc tính có thể là kiểu loại, kiểu số và các thuộc tính này xác định dạng của việc kiểm tra các giá trị thuộc tính. Cho một thuộc tính A kiểu số có dạng {A ≤h, A>h} với ngưỡng h được xác định bằng cách xếp thứ thự tập S dựa trên thuộc tính A và chọn cắt phân hoạch giữa các giá trị liên tiếp và chọn giá trị cao nhất theo chuẩn đánh giá được dùng như nêu trên. Nếu A là một thuộc tính giá trị rời rạc thì mặc định sẽ có mỗi giá trị thuộc tính cho mỗi bước đánh giá, nhưng một chọn lựa cho phép nhóm hai hay

nhiều tập con với mỗi giá trị thuộc tính cho mỗi bước kiểm tra.

• Cây ban đầu sau đó được cắt nhánh để tránh ‘overfitting’. Giải thuật cắt nhánh dựa trên một ước lượng thiểu số của tỉ lệ các lỗi có liên quan đến tập N trường hợp. Tập E không thuộc về các lớp đa số. Thay vì E/N, giải thuật C4.5 xác định một giới hạn trên của một phân phối nhị thức khi sự kiện E được quan sát trong N mẫu thử, một tham số riêng được sử dụng thường có giá trị là 0.25.

25

trường hợp và E lỗi là N lần tỉ lệ lỗi thiêu số như nêu trên. Cho mỗi cây con, C4.5 thêm các lỗi được ước lượng của các nhánh và so sánh nó với cây con được thay thế bới một lá; nếu kết quả sau cùng không cao hơn kết quả trước đó, cây con bị cắt. Tương tự, C4.5 kiểm tra các lỗi ước lượng nếu cây con được thay bằng một nhánh của nó và khi điều này tồn tại và có ích, cây được sửa đổi lại. Quá trình cắt nhánh được hoàn tất xuyên qua cây.

Tng kết

Như vậy, ta đã biết một cây quyết định gồm những thành phần nào, các độđo, các thuật toán dùng trong quyết định. Tóm lại, để xây dựng được một cây quyết định, chúng ta cần nắm vững những khái niệm sau:

• Cấu trúc của một cây quyết định: nút lá, nhánh

• Độđo sử dụng để xác định điểm chia để xây dựng được một cây tối ưu

So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một sốưu điểm sau:

• Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn

• Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết. Các kỹ thuật khác thường đòi hỏi chuấn hóa dữ liệu, cần tạo các biến phụ và loại bỏ các giá trị rỗng

• Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số

• Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được

• Có thể thẩm định một mô hình bằng các kiểm tra thống kê. Điều này làm cho ta có thể tin tưởng vào mô hình

26

• Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có thể dung máy tính cá nhân để phân tích các lượng dữ liệu lớn trong thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định

27

Chương 3. Mô hình cây quyết định trong dự báo xu thế của thị trường chứng khoán

3.1. Gii thiu chung v d liu thi gian thc

Định nghĩa: Dữ liệu thời gian thực hay chuỗi tuần tự theo thời gian (time series) là một chuỗi các giá trị của một đại lượng nào đó được ghi nhận là tuần tự theo thời gian [6, 15].

Những tập dữ liệu chuỗi thời gian rất lớn, xuất hiện trong nhiều lĩnh vực khác nhau như y khoa, kỹ thuật, kinh tế, tài chính....

Ví dụ: Số lượng hàng hóa được bán ra trong 12 tháng năm 2008 của một công ty. Các giá trị của chuỗi tuần tự theo thời gian của đại lượng X được kí hiệu là X1, X2, ….Xt,….Xn. với Xt là giá trị của X tại thời điểm t

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 31 - 36)