Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
4,51 MB
Nội dung
NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH BÁO CÁO GIỮA KÌ MƠN : KHAI PHÁ DỮ LIỆU Đề tài : RANDOM FOREST AGRORITHSM (Thuật toán Rừng ngẫu nhiên) Nhóm SVTH: Nhóm Lớp: D01 GVHD: ThS.Nguyễn Hoàng Ân Tp Hồ Chí Minh, tháng 11 năm 2023 Nguyễn Thị Út Lê Thành Trưởng DANH MỤC HÌNH ẢNH Hình 1.1 Sơ đồ mô tả hoạt động Random Forest Hình 2.1 Mơ tả liệu Hình 2.2 Mơ tả liệu 11 Hình 2.3 Hiển thị số dòng DataFrame 11 Hình 2.4 Mơ tả liệu 12 Hình 2.5 Thơng tin liệu Hình 2.6 Kiểm tra liệu bị thiếu 12 Hình 2.7 Biểu đồ phân phối tuổi (Age) 13 Hình 2.8 Biểu đồ phân phối số lần liên lạc (Campaign) 13 Hình 2.9 Biểu đồ phân phối số ngày từ gọi trước (Pdays) 14 Hình 2.10 Biểu đồ phân phối số ngày từ gọi trước (Pdays) 14 Hình 2.11 Biểu đồ phân phối biến mục tiêu (Y) 14 Hình 2.12 Biểu đồ mối liên hệ Age Camppaign 15 Hình 2.13 Biểu đồ mối liên hệ nghề nghiệp Khách hàng (job) với việc đăng ký tài khoản tiết kiệm (Y) 16 Hình 2.14 Chia tập Test tập Train 17 Hình 2.15 Dự đốn việc đăng ký khoản tiết kiệm 17 Hình 2.16 Dự đốn việc đăng ký khoản tiết kiệm 17 Hình 2.17 Đánh giá hiệu suất 18 Hình 2.18 Kết đánh giá hiệu suất 18 MỤC LỤC CHƯƠNG GIỚI THIỆU CHUNG VỀ THUẬT TOÁN RANDOM FOREST 1.1 Giới thiệu Thuật toán 1.2 Các đặc điểm Random Forest 1.3 Ưu điểm Random Forest 1.4 Nhược điểm Random Forest 1.5 Các ứng dụng Random Forest 1.6 Nguyên lý hoạt động thuật toán Random Forest 1.7 Sự khác biệt định Random Forest CHƯƠNG XÂY DỰNG MỘT MƠ HÌNH PHÂN LOẠI BẰNG RANDOM FOREST BẰNG CÁCH SỬ DỤNG THƯ VIỆN SCIKIT-LEARN 10 2.1 Giới thiệu 10 2.2 Q trình xây dựng đánh giá mơ hình phân loại tập liệu 12 16 2.1.1 Tiền xử lý liệu 20 2.1.2 Trực quan hóa liệu 2.1.3 Mơ hình hóa liệu: TÀI LIỆU THAM KHẢO CHƯƠNG GIỚI THIỆU CHUNG VỀ THUẬT TỐN RANDOM FOREST 1.1 Giới thiệu Thuật tốn Random Forest thuật tốn có giám sát sử dụng cho phân loại hồi quy Tuy nhiên, chủ yếu sử dụng cho toán phân loại tập hợp Decision Tree, mà chọn theo thuật toán dựa vào ngẫu nhiên Thuật toán Random Forest tạo định mẫu liệu sau lấy dự đoán từ số chúng cuối chọn giải pháp tốt cách bỏ phiếu Đây phương pháp tổng hợp tốt định đơn lẻ làm giảm phù hợp mức cách lấy trung bình kết 1.2 Các đặc điểm Random Forest ✓ Tích hợp nhiều định Random Forest kết hợp số định để tạo mơ hình tổng hợp Mỗi định huấn luyện độc lập phần ngẫu nhiên liệu sử dụng phần ngẫu nhiên đặc trưng (feature) Quá trình cho phép Random Forest tận dụng đa dạng liệu đặc trưng để tạo mơ hình mạnh mẽ tránh tình trạng overfitting, tượng mơ hình q phù hợp với liệu huấn luyện việc dự đoán liệu Random Forest cho phép đánh giá tầm quan trọng đặc trưng việc đưa định, giúp cải thiện khả diễn giải mơ hình ✓ Sự đa dạng định Để đảm bảo tính đa dạng định, Random Forest sử dụng kỹ thuật quan trọng gọi tái chọn mẫu ngẫu nhiên (bootstrap) để tạo tập liệu riêng biệt cho định Trong trình này, số mẫu từ tập liệu gốc lựa chọn ngẫu nhiên để tạo thành tập khác nhau, tập sử dụng để huấn luyện định riêng Kỹ thuật giúp đảm bảo tính đa dạng mơ hình Random Forest cách đảm bảo định huấn luyện liệu khác Kết là, mơ hình tổng hợp tránh tượng overfitting (q khớp) trở nên mạnh mẽ việc dự đoán liệu ✓ Tính ổn định khả chống nhiễu Random Forest: Một ưu điểm quan trọng Random Forest khả giảm thiểu tác động nhiễu (noise) liệu Điều thực thơng qua việc tích hợp nhiều định vào mơ hình Khi kết hợp nhiều định, Random Forest tạo mơ hình tổng hợp có tính ổn định khả khái quát hóa tốt Nhờ vào việc sử dụng nhiều định độc lập, mơ hình Random Forest trở nên nhạy cảm liệu nhiễu Điều có nghĩa có nhiễu liệu đầu vào, mơ hình có khả tạo dự đốn xác so với mơ hình đơn lẻ Điều cải thiện tính ổn định đáng tin cậy mơ hình việc xử lý liệu thực tế, nơi nhiễu thường xảy 1.3 Ưu điểm Random Forest ✓ Khả thực hai nhiệm vụ Phân loại Hồi quy sử dụng cho phân lớp hồi quy ✓ Xử lý tập liệu lớn với kích thước cao: Nó có khả xử lý tập liệu lớn với kích thước cao ✓ Khả xử lý liệu bị thiếu: Random Forest xử lý liệu bị thiếu trì độ xác ✓ Khơng u cầu chuẩn hóa liệu: Random Forest khơng u cầu chuẩn hóa liệu ✓ Giảm thiểu overfitting: Bằng cách sử dụng nhiều định, Random Forest giảm thiểu nguy overfitting ✓ Tính quan trọng: Random Forest cung cấp cách dễ dàng để đánh giá quan trọng tính ✓ Khả mơ hình hóa tương tác tính năng: Random Forest mơ hình hóa tương tác tính ✓ Khả chịu nhiễu tốt: Random Forest có khả chịu nhiễu tốt ✓ Dễ dàng để điều chỉnh tối ưu hóa: Có nhiều tham số điều chỉnh để tối ưu hóa mơ hình ✓ Khả mở rộng: Random Forest mở rộng để xử lý vấn đề phức tạp 1.4 Nhược điểm Random Forest Mặc dù Random Forest sử dụng cho nhiệm vụ phân loại hồi quy, khơng phù hợp cho nhiệm vụ Hồi quy ✓ Phức tạp: Sự phức tạp nhược điểm thuật toán Rừng ngẫu nhiên Việc xây dựng Rừng ngẫu nhiên khó tốn thời gian nhiều so với định ✓ u cầu nhiều tài ngun tính tốn: Cần nhiều tài ngun tính tốn để triển khai thuật toán Rừng ngẫu nhiên ✓ Kém trực quan: Nó trực quan trường hợp có sưu tập lớn định ✓ Chậm tạo dự đoán: Random forests chậm tạo dự đốn có nhiều định Bất đưa dự đoán, tất rừng phải đưa dự đoán cho đầu vào cho trước sau thực bỏ phiếu 1.5 Các ứng dụng Random Forest Random Forest sử dụng để giải nhiều loại toán phân loại, bao gồm: Document continues below Discover more fDraotma :mining DM1001 Trường Đại học Ngâ… documents Go to course 2023KPDL Kiem Tra - Bài tập tự luận Khai… None 317 qd nhno hsx - Agribank None 50 BÀI TẬP TỪ ĐỒNG NGHĨA Mức độ 14 Vat ly dai 94% (17) cuong Scarselli 2009 - mơ hình neural network 20 Cơ sở 100% (1) liệu Correctional Administration Criminology 96% (114) English - huhu 10 Led hiển thị 100% (3) • Phân loại hình ảnh: Sử dụng để phân loại đối tượng hình ảnh, chẳng hạn phân loại đối tượng ảnh chụp tự động phân loại tế bào ung thư ảnh chụp y tế • Phân loại văn bản: Sử dụng để phân loại văn bản, chẳng hạn phân loại email thành spam không spam phân loại báo thành chủ đề khác • Phân loại liệu khách hàng: Để phân loại liệu khách hàng, chẳng hạn phân loại khách hàng thành nhóm khác dựa hành vi mua sắm họ phân loại khách hàng có khả rời bỏ cơng ty hay khơng Một số trường hợp sử dụng cụ thể Random Forest lĩnh vực Tài chính, Ngân ✓ Dự báo Rủi ro Tín dụng: Mơ hình Hồi quy Random Forest: Sử dụng để dự đoán biến liên tục mức độ nợ rủi ro tín dụng dựa biến đầu vào lịch sử tín dụng, tỷ lệ nợ, thu nhập ✓ Phân loại Giao dịch Gian lận: Mơ hình Phân loại Random Forest: Sử dụng để phân loại giao dịch thành lớp "bình thường" "nghi ngờ" dựa đặc trưng mơ hình hành vi giao dịch số liệu thống kê ✓ Dự đốn Giá Cổ Phiếu Thị Trường Tài chính: Mơ hình Hồi quy Random Forest: Áp dụng để dự đoán giá cổ phiếu số thị trường dựa lịch sử giá cổ phiếu, số tài chính, yếu tố khác ✓ Phân loại Khách hàng Tiếp thị Đối tượng: Mơ hình Phân loại Random Forest: Được triển khai để phân loại khách hàng thành phân khúc dựa hành vi tài chính, giúp tối ưu hóa chiến lược tiếp thị quản lý quan hệ khách hàng 1.6 Nguyên lý hoạt động thuật toán Random Forest hình rừng huấn luyện dựa phối hợp luật kết hợp (ensembling) trình lấy mẫu tái lặp (bootstrapping) Cụ thể thuật toán tạo nhiều định mà huấn luyện dựa nhiều mẫu khác kết dự báo dựa số kết nhiều từ tổng số kết toàn định Như kết dự báo tổng hợp từ nhiều mơ hình nên kết chúng không bị lệch, đồng thời phương sai nhỏ so với mô hình, giúp cho mơ hình khắc phục tượng overfitting Thuật toán hoạt động theo bước Bước Tạo tập ngẫu nhiên từ liệu huấn luyện cách sử dụng phương pháp Bootstrap Phương pháp giúp tạo tập có số lượng mẫu với số lượng mẫu liệu gốc, chứa mẫu trùng lặp mẫu bị bỏ sót Bước Xây dựng định (Decision Tree) cho tập liệu Quá trình xây dựng thực cách lặp lại bước sau: ✓ Chọn ngẫu nhiên số lượng thuộc tính từ tập hợp thuộc tính có sẵn Số lượng thuộc tính chọn thường nhỏ tổng số thuộc tính có sẵn ✓ Tại nút cây, sử dụng tiêu chí để chọn thuộc tính tốt để phân chia liệu Tiêu chí thường dựa tách biệt lớp liệu độ xếp liệu thuộc tính ✓ Tiếp tục chia nút đạt điều kiện dừng, chẳng hạn đạt đến độ sâu tối đa khơng cịn liệu khơng thể tách tiếp Bước Lặp lại bước bước nhiều lần để tạo tập hợp định Số lượng xác định trước thơng qua tham số Bước Khi dự đốn, tập hợp đưa dự đoán riêng Đối với tốn phân loại, phương pháp đa số (majority voting) sử dụng để đưa dự đoán cuối Đối với toán hồi quy, dự đốn cuối giá trị trung bình dự đoán từ Sơ đồ giải thích hoạt động thuật tốn Random Forest: Hình 1.1 Sơ đồ mô tả hoạt động Random Forest 1.7 Sự khác biệt định Random Forest Tính Cây định Rừng ngẫu nhiên Tính khả thi Dễ hiểu Khó hiểu Độ xác Độ xác thay đổi Độ xác cao Thích ứng Có khả thích ứng q mức Ít có khả thích ứng quá mức với liệu mức với liệu Các giá trị Có thể bị ảnh hưởng nhiều Khá ổn định với giá trị ngoại lệ giá trị ngoại l ngoại Dễ dàng Phức tạp Liên quan đến liên lạc cuối chiến dịch tại: : Loại hình liên lạc (Biến phân loại: "cellular","telephone") : Tháng liên lạc cuối năm (Biến phân loại: "jan", "feb", "mar", : ngày liên lạc cuối tuần (Biến phân loại: : thời lượng liên lạc cuối cùng, tính giây (số) Lưu ý quan trọng: thuộc tính ảnh hưởng lớn đến mục tiêu đầu (ví dụ, duration=0 y="no") Tuy nhiên, thời lượng khơng biết trước thực gọi Ngoài ra, sau gọi kết thúc, y rõ ràng Do đó, biến đầu vào nên bao gồm cho mục đích so sánh nên loại bỏ ý định tạo mơ hình dự đốn thực tế Các thuộc tính khác: : số lần liên lạc thực chiến dịch khách hàng (số, bao gồm liên lạc cuối cùng) : số ngày trôi qua kể từ khách hàng liên lạc cuối từ chiến dịch trước (số; 999 có nghĩa khách hàng chưa liên lạc trước đó) – số lần liên lạc thực trước chiến dịch khách hàng (số) : kết chiến dịch tiếp thị trước (phân loại: Các thuộc tính ngữ cảnh xã hội kinh tế : tỷ lệ biến động việc làm số theo quý (số) : số giá tiêu dùng số hàng tháng (số) : số tin cậy người tiêu dùng số hàng tháng (số) : tỷ lệ euribor tháng số hàng ngày (số) : số lượng nhân viên số theo quý (số) Biến đầu (mục tiêu mong muốn): Khách hàng đăng ký khoản tiết kiệm khơng? (Nhị phân: "yes","no") 2.2 Q trình xây dựng đánh giá mơ hình phân loại tập liệu 2.1.1 Tiền xử lý liệu Import thư viện Sử dụng lệnh import để đưa vào chương trình thư viện cần thiết, bao gồm Pandas (đối với xử lý liệu), NumPy (đối với tính tốn số học), Matplotlib Seaborn (đối với trực quan hóa liệu), số phần Scikit learn (đối với tiền xử Thống kê mô tả tập liệu google colab Đọc liệu vào DataFrame Hiển thị số dòng DataFrame: 10 Sử dụng df.head() để xem số dịng DataFrame Hình 2.3 Hiển thị số dịng DataFrame Thống kê mơ tả: Sử dụng df.describe() để xem thống kê mô tả mean, min, max, phần Hình 2.4 Mơ tả liệu Thông tin liệu: Sử dụng df.info() để xem thông tin liệu, bao gồm số lượng giá trị không thiếu loại liệu cột 11 Hình 2.5 Thông tin liệu Kiểm tra liệu bị thiếu Hình 2.6 Kiểm tra liệu bị thiếu Khi kiểm tra, nhóm khơng phát biến có liệu bị thiếu 2.1.2 Trực quan hóa liệu Vẽ biểu đồ đồ thị để hiểu rõ phân phối biến Biểu đồ phân phối tuổi (Age) 12 Hình 2.7 Biểu đồ phân phối tuổi (Age) Biểu đồ phân phối số lần liên lạc (Campaign) Hình 2.8 Biểu đồ phân phối số lần liên lạc (Campaign) Biểu đồ phân phối số ngày từ gọi trước (Pdays) 13 Hình 2.9 Biểu đồ phân phối số ngày từ gọi trước (Pdays) Hình 2.10 Biểu đồ phân phối số ngày từ gọi trước (Pdays) Biểu đồ phân phối biến mục tiêu (Y) Hình 2.11 Biểu đồ phân phối biến mục tiêu (Y) 14 Nhận xét: Tỷ lệ giá trị mục tiêu no yes 2:1 Điều cho thấy biến mục tiêu (Y) có phân phối lệch phía giá trị no Số lượng khách hàng có giá trị mục tiêu yes tương đối Điều cho thấy có số lượng nhỏ khách hàng tập liệu khách hàng tiềm có khả mua Phân tích mối quan hệ biến để tìm xu hướng mẫu Phân tích mối quan hệ tuổi số lần liên lạc Hình 2.12 Biểu đồ mối liên hệ Age Camppaign Nhận xét: Phân tích mối quan hệ tuổi số lần liên lạc Biểu đồ phân tán tuổi số lần liên lạc khách hàng tập liệu cho thấy mối quan hệ khơng tuyến tính Số lần liên lạc có xu hướng tăng tuổi tăng, tốc độ tăng trưởng giảm dần tuổi cao Cụ thể, khách hàng độ 15 tuổi 20 30 có khoảng 20 lần liên lạc trung bình, khách hàng độ tuổi 30 40 tăng lên khoảng 25 lần Đối với khách hàng độ tuổi 40 50, số lần liên lạc tăng lên khoảng 30 lần, cho khách hàng 50 tuổi, tăng khoảng 35 lần Có thể giải thích điều nhiều yếu tố rảnh rỗi khách hàng trẻ nhu cầu sản phẩm dịch vụ khách hàng lớn tuổi mối liên hệ nghề nghiệp Khách hàng (job) với việc đăng ký tài khoản tiết kiệm (Y) Hình 2.13 Biểu đồ mối liên hệ nghề nghiệp Khách hàng (job) với việc đăng ký tài khoản tiết kiệm (Y) 2.1.3 Mơ hình hóa liệu: Chia tập liệu thành tập huấn luyện tập kiểm tra 16