Giới thiệu về Random Forest

2.4.1. Cây quyết định

Cây quyết định là một cấu trúc biểu diễn dưới dạng cây. Trong đĩ, mỗi nút trong biểu diễn một thuộc tính, mỗi nhánh biểu diễn giá trị cĩ thể cĩ của thuộc tính, mỗi lá biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc.

Hình 2.2 Biểu diễn cây quyết định cơ bản

Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo, nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong tương ứng với một biến, đường nối giữa nĩ với nút con của nĩ thể hiện giá trị cụ thể cho biến đĩ. Mỗi nút lá đại diện cho giá trị dự đốn của biến mục tiêu, cho trước các giá trị dự đốn của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đĩ. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Cây quyết định là một cây phân cấp cĩ cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp) cĩ thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đĩ thuộc tính phân lớp phải cĩ kiểu dữ liệu là Binary hoặc Ordinal.

Tĩm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp của nĩ, cây quyết định sẽ sinh ra các luật để dự đốn lớp của các đối tượng chưa biết.

So với các phương pháp KPDL khác, cây quyết định là một trong những hình thức mơ tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối với người dùng nhưng lại hiệu quả nên được sử dụng nhiều. Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mơ hình thống kê tuyến tính bậc 2, cây quyết định, mơ hình di truyền... Trong số những mơ hình đĩ, cây quyết định được đánh giá là một cơng cụ mạnh, phổ biến, đặt biệt là thích hợp cho DM nĩi chung và cho phân lớp dữ liệu nĩi riêng.

2.4.2. Mơ hình Random Forest

Để xử lý dữ liệu huấn luyện và xây dựng mơ hình nhận biết hành vi ngã cho máy học, tơi đề xuất sử dụng Random Forest – một thuật tốn data mining đơn giản, dễ hiểu và mang lại hiệu suất cao cho những dạng bài tốn nhận biết hành vi.

Random Forest (rừng ngẫu nhiên) là thuật tốn phân lớp các thuộc tính của dữ liệu. thuật tốn này là một trong những cơng trình nghiên cứu của Leo Breiman – Chuyên gia thống kê tại Đại học California, Berkeley. Đây là thuật tốn học cĩ giám sát sử dụng các cây (tree) làm nền tảnh dự đốn, nĩi cách khác Random Forest là một tập hợp các Decision Tree (Cây quyết định), mỗi cây sẽ được chọn các giá trị là các thuộc tính ngẫu nhiên.

Random Forest rất đơn giản và linh hoạt, cĩ thể áp dụng cho cả bài tốn Phân loại (Classification) và bài tốn Hồi quy (Regression). Do cũng là một trong chuỗi thuật tốn Decision tree nên ta cĩ thể dùng Random Forest để xây dựng một mơ hình dự đốn hành vi. Thuật tốn sẽ sinh ra các cây với các nút (internal node) tương ứng với một biến, các nút thấp hơn là giá trị dự đốn của biến mục tiêu; sau khi lựa chọn biến thuật tốn sẽ nhận biết biến đĩ dựa trên thuộc tính của nĩ và đưa ra câu hỏi phù hợp nhất, câu hỏi tốt sẽ đưa ra 2 nhánh là 2 nốt thấp hơn, rồi lại dựa vào thuộc tính để hỏi tiếp. Khi khơng cịn đưa ra được câu hỏi nữa thuật tốn sẽ dừng lại, tới đây quá trình xây dựng cây quyết định đã xong, bước tiếp theo sẽ sử dụng chúng để đưa ra kết quả phù hợp với yêu cầu đưa ra ban đầu.

Thuật tốn cĩ lợi thế khi sử dụng rất nhiều các cây quyết định độc lập, đảm bảo tính khách quan cho các kết quả dự đốn. Khi kết thúc quá trình bỏ phiếu cho các kết quả, kết quả nào cĩ số cây dự đốn cao nhất sẽ được chọn. ngồi ra để đảm bảo kết quả là khách quan nhất, thuật tốn sẽ tự động thay đổi đối tượng một cách ngẫu nhiên, xĩa ngẫu nhiên và nhân lên ngẫu nhiên một số đối tượng khác. Quá trình đĩ cĩ tên là Bootstrapping, ngồi ra nếu câu hỏi tốt nhất được thuật tốn đưa ra mà ta khơng sử dụng chúng thì sẻ bị bỏ qua và khơng được tạo cây, quá trình tiếp theo này gọi là Attibute sampling.

ta tính tốn ra được cách chia các thuộc tính về các nốt một cách tối ưu nhất và cứ lặp lại bước chia đĩ đến hết ‘k’ feartures. Sau đĩ lặp lại lần lượt cả quá trình trên để tạo ra 1 Forest với ‘n’ cây.

Để sử dụng mơ hình vừa rồi cho tập test ta đưa bộ dữ liệu test vào mơ hình cây vừa tạo để dự đốn kết quả đầu ra, tính số vote của từng kết quả và lấy kết quả cĩ số vote cao nhất làm kết quả của mơ hình.

Random Forest là một phương pháp Supervised Learning do vậy cĩ thể xử lý được các bài tốn về Classification (phân loại) và Regression (dự báo về các giá trị). Trong khuơn khổ báo cáo tơi sử dụng phương pháp Regression (dự báo về các giá trị) để thực hiện dự đốn.

Kết luận chương 2

Chương 2 đã trình bày tương đối đầy đủ về khai phá dữ liệu (Data mining), các kỹ thuật trong khai phá dữ liệu, các phương pháp để xử lí dữ liệu cũng như các loại thơng số liên quan. Nêu lên khái niệm của tập dữ liệu thu thập cũng như nghiên cứu chi tiết về thuật tốn Random Forest cũng như cách thức áp dụng vào bài tốn.

CHƯƠNG 3

PHƯƠNG PHÁP GIẢI QUYẾT Mơ tả bài tốn

Dự báo là một nhu cầu khơng thể thiếu cho những hoạt động của con người trong bối cảnh bùng nổ thơng tin. Dự báo sẽ cung cấp những cơ sở cần thiết cho các hoạch định, và cĩ thể nĩi riêng nếu khơng cĩ khoa học dự báo thì những định hướng tương lai của con người vạch ra sẽ khơng cĩ sự thuyết phục.

Bài tốn phân tích xu thế thị trường tiền điện tử chính là thực hiện dự báo xu hướng giá cả các đơng coin trong tương lai dựa vào thơng tin thu thập được trong quá khứ và hiện tại. Đã cĩ nhiều nhĩm nghiên cứu về bài tốn này, đưa ra những mơ hình dự đốn khác nhau và đạt được nhiều kết quả khả quan.

.2 Biểu diễn cây quyết định cơ bản

Quy trình giải quyết bài tốn