Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
2,55 MB
Nội dung
lOMoARcPSD|17838488 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH KHOA TÀI CHÍNH TIỂU LUẬN MƠN HỌC PHÂN TÍCH DỮ LIỆU DOANH SỐ BÁN HÀNG CỦA BIG MART BẰNG PHẦN MỀM ORANGE Giảng Viên: TS Th愃Āi Kim Ph甃⌀ng M愃̀ lơꄁp h漃⌀c phn: 22C1INF50905940_ST6 Chuyên Ngành: Đu tư tài – Khóa: 47 Nhóm Sinh Viên: Nhan Tơ Hồng Vinh 31211021325 Lê Th椃⌀ Dìm Hằng 31211023367 Ngô Th椃⌀ Ngân 31211026580 Th愃Āi Bảo Trâm 31211023542 Lâm Th椃⌀ M礃̀ Th甃y 31211023861 TP Hồ Chí Minh, ngày 30 th愃Āng 10 năm 2022 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 BẢNG PHÂN CÔNG NHIỆM VỤ ST T H漃⌀ tên MSSV Nhiệm v甃⌀ Nhan Tô Ho愃ng Vinh 31211021325 Lê Thị Diễm Hằng 31211023367 Ngô Thị Ngân 31211026580 - Tiền xử lý liệu - Mô tả liệu 100% Thái Bảo Trâm 31211023542 - Mô tả liệu - Tiến h愃nh phân cụm liệu 100% Lâm Thị Mỹ Thùy 31211023861 - Tổng quan lý thuyết - Tổng hợp kết & kết luận 100% - Chọn liệu -Tiến h愃nh phân lớp v愃 dự báo - Tổng hợp kết - Chọn liệu - Tổng quan lý thuyết - Kết luận Downloaded by hây hay (vuchinhhp3@gmail.com) Đ愃Ānh gi愃Ā 100% 100% lOMoARcPSD|17838488 MỤC LỤC MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng quan vềề phân cụm liệu 1.2 Tổng quan vềề toán phân lớp liệu 1.3 Giới thiệu vềề Python phâền mềềm Orange 1.4 Lý chọn lựa đềề tài CHƯƠNG MÔ TẢ VÀ TIỀN XỬ LÝ BỘ DỮ LIỆU 2.1 Mô tả liệu 2.2 Tiềền xử lý liệu CHƯƠNG KHAI THÁC DỮ LIỆU 11 3.1 Các phương pháp phân cụm liệu 11 3.2 Thực phân cụm liệu 11 3.3 Các mơ hình phân lớp liệu 16 3.4 Thực phân lớp liệu tềến hành d ự báo doanh sôế bán hàng 20 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM 29 CHƯƠNG KẾT LUẬN 33 5.1 Các kềết đạt 33 5.2 Những hạn chềế hướng phát triển 33 TÀI LIỆU THAM KHẢO Downloaded by hây hay (vuchinhhp3@gmail.com) 35 lOMoARcPSD|17838488 CHƯƠNG TỔNG QUAN 1.1 Tổng quan phân c甃⌀m liệu 1.1 Khái niệm - Phân cụm liệu l愃 q trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng v愃o cụm/nhóm tương ứng Trong đó: • Các đối tượng cụm có tính chất tương tự • Các đối tượng thuộc cụm/nhóm khác có tính chất khác 1.2 Đặc điểm Nhiệm vụ l愃 tìm v愃 đo đạc khác biệt đối tượng liệu Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số nhóm (khác với b愃i tốn phân lớp) Một phương pháp phân cụm tốt l愃 phương pháp tạo cụm có chất lượng cao: ● Độ tương đồng bên cụm cao ● Độ tương tự cụm thấp (khác biệt cao) Các ứng dụng điển hình: ● Công cụ phân cụm liệu độc lập ● L愃 giai đoạn tiền xử lý cho thuật toán khác 1.3 Ứng dụng B愃i toán phân cụm ứng dụng phổ biến thực tế l愃: ● Dự báo khách h愃ng tiềm ● Phân tích xu hướng h愃nh vi khách h愃ng ● Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ nh愃 cung cấp ● Phân tích đặc tính sản phẩm dịch vụ ● Đánh giá kết hoạt động kinh doanh ● Phân tích h愃nh vi người dùng mạng xã hội 1.2 Tổng quan to愃Ān phân lơꄁp liệu 1.2.1 Khái niệm Một hướng nghiên cứu khai phá liệu l愃 phân lớp liệu (Classification) Việc phân tích liệu bao gồm: phân lớp v愃 dự đốn với mục đích tạo mơ hình mơ tả lớp liệu có vai trị quan trọng hay dự đoán xu Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 tương lai liệu Quá trình phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value) Đối với khái niệm thuật ngữ “Phân lớp liệu” hiểu l愃 q trình phân bổ đối tượng liệu v愃o hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình n愃y xây dựng dựa tập liệu gán nhãn trước (thuộc lớp n愃o) Quá trình gán nhãn (thuộc lớp n愃o) cho đối tượng liệu l愃 q trình phân lớp liệu 1.2.2 Ứng dụng Trong năm gần đây, phân lớp liệu thực thu hút lượng lớn nh愃 nghiên cứu nhiều lĩnh vực đa dạng khác nhau: học máy (Machine Learning), hệ chuyên gia (Expert System), thống kê (Statistics), Ngo愃i ra, việc phân lớp liệu cịn có vai trị quan trọng số ng愃nh Đối với ng愃nh T愃i Ngân h愃ng phân lớp liệu ứng dụng để dự báo giá chứng khốn, xếp hạng tín dụng cá nhân, đánh giá rủi ro t愃i Với ng愃nh Sale & Marketing ứng dụng v愃o việc dự báo doanh thu, dự báo khách h愃ng trung th愃nh Cịn ng愃nh Kinh tế ứng dụng để xem xét dự báo khủng hoảng kinh tế, dự báo cung cầu 1.3 Giơꄁi thiệu Python phn mềm Orange Python l愃 ngơn ngữ lập trình hướng đến đối tượng đa năng, phát minh Guido v愃 Rossum (trong cuối năm 1980) Python sở hữu cấu trúc liệu cấp cao mạnh mẽ v愃 hệ thống thư viện rộng lớn Nó vận h愃nh theo chế cấp phát nhớ tự động với cú pháp đơn giản v愃 rõ r愃ng, gần gũi v愃 dễ sử dụng người học Kể từ năm 2003, Python xếp v愃o số mười ngơn ngữ lập trình phổ biến Chỉ số Cộng đồng Lập trình TIOBE Chính nên ngơn ngữ lập trình n愃y sử dụng việc lập trình từ ứng dụng đơn giản thuật toán nâng cao phức tạp Một số ứng dụng ngơn ngữ Python: q trình phát triển website (Các tảng web phổ biến như: Flask, Plone, Django, CMS, Pyramid, ); áp dụng v愃o khoa học v愃 phân tích liệu số lĩnh vực Data Analytics, Machine Learning, Computing Science; Python cịn l愃 ngơn ngữ để tạo ngun mẫu phần mềm; ngo愃i tính chất dễ sử dụng Python cịn dùng để giảng dạy lập trình Phần mềm Orange l愃 cơng cụ trực quan để nghiên cứu thuật toán machine learning v愃 thực h愃nh data mining Những người khơng có kỹ mã hóa sử dụng Orange cách dễ d愃ng Người ta thực nhiệm vụ từ chuẩn bị liệu đến đánh giá mơ hình m愃 khơng cần viết dòng lệnh Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 n愃o Orange có cửa sổ l愃m việc chính: Data, visualize, model, evaluate, unsupervised ● Data: dùng để rút trích, biến đổi, v愃 nạp liệu (ETL process) ● Visualize: dùng để biểu diễn biểu đồ (chart) nhằm cải thiện q trình phân tích liệu tốt ● Model: gồm h愃m machine learning phân lớp liệu, có Neural Network gồm hyperparameter để bạn xây dựng nhanh Deep learning ● Evaluate: phương pháp đánh giá mơ hình máy học ● Unsupervised: gồm h愃m machine learning gom nhóm liệu 1.4 Lý ch漃⌀n lựa đề tài Với trình dần chuyển số hóa xã hội ng愃y tất ng愃nh từ t愃i chính, ngân h愃ng, kinh tế, giáo dục, hình th愃nh nên khối lượng liệu khổng lồ Bởi thế, liệu thực tế mang vai trò đặc biệt việc vận h愃nh, ứng dụng v愃 lưu trữ thông tin quan trọng người tiêu dùng Như ng愃nh khác, việc lưu trữ thông tin khách h愃ng, sản phẩm ng愃nh sản xuất kinh doanh ng愃y c愃ng trở nên thiết yếu Điển liệu đề cập đến b愃i luận đến từ Big Mart v愃o năm 2013 gồm 1559 sản phẩm có phân phối 10 cửa h愃ng th愃nh phố khác Ngo愃i ra, cịn có số thuộc tính định sản phẩm v愃 cửa h愃ng xác định cụ thể Với lượng lớn liệu thu thập, để hình th愃nh sở để phân tích đặc tính sản phẩm v愃 cửa h愃ng đóng vai trị quan trọng q trình xây dựng mơ hình để dự đốn v愃 dự đoán doanh thu sản phẩm doanh thu tương lai cửa h愃ng Để thực trình trên, ta cần phần mềm kỹ thuật hỗ trợ Nhận tính cấp thiết đó, nhóm chúng tơi tiến h愃nh thực q trình xử lý liệu phần mềm Orange Từ kỹ thuật khai thác tối đa liệu b愃i thu hoạch trình b愃y số kỹ thuật phân lớp liệu Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 CHƯƠNG MÔ TẢ VÀ TIỀN XỬ LÝ BỘ DỮ LIỆU 2.1 Mô tả liệu Tên liệu Ý nghĩa Vai trò Weight Cân nặng sản phẩm Feature Fat Content H愃m lượng chất béo sản phẩm Feature Product Visibility Phần trăm khả nhìn thấy sản phẩm nhìn từ bên ngo愃i v愃o cửa h愃ng Feature Product Type Loại sản phẩm Feature Downloaded by hây hay (vuchinhhp3@gmail.com) Phân phối lOMoARcPSD|17838488 MRP Giá bán lẻ cao sản phẩm Feature OutletID ID cửa h愃ng Feature Establishment year Năm cửa h愃ng mở Feature Outlet Size Độ lớn cửa h愃ng Feature LocationType Loại th愃nh phố m愃 cửa h愃ng hoạt động Feature Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Outlet Type Loại cửa h愃ng Feature Outlet Sales Doanh thu cửa h愃ng Target Product ID Mã số sản phẩm skip Vì liệu nhằm dự đốn doanh thu cửa h愃ng nên Outlet Sales l愃 biến mục tiêu nhóm nghiên cứu Cịn biến cịn lại đóng vai trị l愃 biến đặc tính dùng để giải thích cho biến mục tiêu, ngoại trừ Product ID bỏ qua (skip) khơng giải thích biến mục tiêu Từ đồ thị phân phối cho thấy giá bán hợp lý doanh thu chủ yếu mức từ đến $6000 sản phẩm (Baking goods, Bread, Breakfast, Canned, Dairy, ) Tuy nhiên, liệu cung cấp ban đầu chưa xử lý có đến 4,3% liệu cịn thiếu v愃 liệu chưa xử lý nên liệu sau phân phối hiện, truyền tải cách dễ hiểu v愃 cách 2.2 Tiền xử lý liệu Đây l愃 bước quan trọng trước tiến h愃nh phân tính liệu Orange Hầu hết liệu ban đầu chứa giá trị bị thiếu (missing values) Chúng cần xử lý v愃 l愃m trước đem phân tích cơng cụ chuyên dụng có sẵn Orange Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 2.2.1 Bộ liệu ban đầu đưa vào phần mềm Orange Hình thể m愃n hình tùy chọn cho liệu cần tiền xử lý Bộ liệu có 499 quan sát (Instances), 4,3% tỷ lệ có liệu bị thiếu (missing values), khơng có biến mục tiêu (no target variable) v愃 có biến meta (biến biến đổi) l愃 ProductID Hình 2.2.2 Bảng liệu chưa tiền xử lý Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.2 Nhập liệu xử lý vào điều chỉnh biến mục tiêu ● C愃Āc mơ hình phân lơꄁp sử d甃⌀ng: ● Phân lớp định (Decision Tree) Hình 3.4.3 Phương pháp Decision Tree Tùy chọn thơng số mơ hình Tree: Induce binary tree: Tạo mơ hình nhị phân 20 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Min number of instances in leaves: Khi chọn, giá trị nhỏ m愃 thuật toán khơng tạo phân chia m愃 có quan sát số lượng định v愃o nhánh n愃o (theo hình l愃 quan sát) Do not split subsets smaller than: Không cho phép thuật tốn phân chia tập hợp có quan sát số lượng định (theo hình l愃 5) Limit the maximal tree depth: Giới hạn độ sâu đến số lượng nhánh định (theo hình l愃 100) Stop when majority reaches [%]: Dừng phân lớp đạt với tỷ lệ phần trăm cụ thể (theo hình l愃 95) ● Phân lớp phương pháp SVM (Support Vector Machine) Hình 3.4.4 Phương pháp SVM Tùy chọn thông số SVM: (Tất thông số Orange c愃i đặt mặc định để thuận tiện cho việc chạy mơ hình) Cost (C): Tham số cho h愃m cost function soft margin, h愃m n愃y có chức kiểm soát ảnh hưởng véc-tơ hỗ trợ riêng lẻ Regression loss epsilon (ε): Tham số cho mô hình ε-SVR, áp dụng cho tác vụ hồi quy ● Phân lớp phương pháp mạng nơ-ron nhân tạo (Neural Network) 21 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.5 Phương pháp Neural Network Tùy chọn thông số Neural Network: Neurons per hidden layer: Yếu tố đại diện cho số lượng tế b愃o nơ-ron thần kinh lớp ẩn Ở mục Activation, chọn ReLu: H愃m đơn vị tuyến tính sửa chữa Ở mục Solver, chọn Adam: Một trình tối ưu hóa dựa q trình liên kết với xác suất ngẫu nhiên Maximal number of iterations: Số lần lặp lại tối đa ● Phân lớp phương pháp hồi quy logistic (Logistic Regression) Hình 3.4.6 Phương pháp Logistic Regression Tuỳ chọn Regularization type l愃 Ridge (L2), độ mạnh (Strength) l愃 C= Logistic Regression tiến h愃nh quy trình xử lý mặc định khơng có quy trình tiền xử lý n愃o khác c愃i đặt ● Đ愃Ānh gi愃Ā c愃Āc mơ hình phân lơꄁp: Sau phân lớp phương pháp kể trên, tiến h愃nh đánh giá Test and Score – cơng cụ chun dụng có sẵn Orange 22 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Ở bảng điều chỉnh, chọn mục Random sampling (Lấy mẫu ngẫu nhiên) Với lặp lại l愃 50 (Repeat train/test) v愃 kích thước 66% (Training set size) Hình 3.4.7 Thực Test and Score để đánh giá mơ hình Theo kết từ hình trên, ta thấy phương pháp Logistic Regression có số AUC cao (AUC = 0.788) v愃 lớn AUC phương pháp sử dụng Các số lại Logistic Regression cho kết cao nên l愃 phương pháp tốt để phân lớp v愃 đưa dự báo Quy trình thực dự b愃Āo bằng phương ph愃Āp Logistic Regression: 23 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.8 Các bước dự báo Logistic Regression Orange Đầu tiên, nhóm tiến h愃nh trích 10% liệu từ liệu phân lớp cần dự báo v愃 nhập lên Orange Hình 3.4.9 Các bước trích 10% liệu phân lớp dùng để dự báo Hình 3.4.10 Thiết lập mẫu 10% liệu từ liệu phân lớp 24 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.11 Bảng liệu sau trích 10% liệu phân lớp Sau lưu bảng liệu mẫu 10% tiến h愃nh nhập v愃o Orange để dự báo Hình 3.4.12 Nhập liệu đầu vào 25 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.13 Bảng liệu cần dự báo Theo kết từ Test and Score, phương pháp Logistic Regression l愃 phù hợp nên nhóm tiến h愃nh nối đường từ Logistic Regression widget đến Predictions widget để hệ thống thực dự báo Hình 3.4.14 Kết dự báo phương pháp Logistic Regression 26 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 3.4.15 Bảng kết dự báo 27 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 CHƯƠNG CÁC KẾT QUẢ THỰC NGHIỆM Sau sử dụng nghiên cứu, phân tích sử dụng mơ hình phân lớp gồm: Decision Tree, Neural Network, Support Vector Machine, Logistic Regression việc dự báo doanh thu Kết đánh giá mơ hình cho thấy Logistic Regression cho kết v愃 độ xác cao (AUC, CA, F1, Precision, Recall) mơ hình phân lớp, v愃 SVM có điểm số thấp mơ hình phân lớp dựa liệu m愃 tác giả cung cấp Hình 4.1 Kết Test and Score Để xác minh bốn mơ hình phân lớp, Logistic mang lại kết mơ hình tốt v愃 hiệu nhất, nhóm nghiên cứu sử dụng ROC Analysis, Ma trận nhầm lẫn để đánh giá 28 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 4.2 Logistic Confusion Matrix Hình 4.3 Decision Tree Confusion Matrix Hình 4.4 SVM Confusion Matrix 29 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 4.5 Neural Network Confusion Matrix Hình 4.6 ROC Analysis Từ kết Confusion matrix v愃 ROC Analysis, ta thấy mức độ xác lẫn hiệu Logistic Regression cho kết tốt mơ hình phân lớp cịn lại Ở Confusion Matrix, dù mơ hình đánh giá l愃 bị lỗi loại v愃 loại 2, nhiên Logistic Regression lại cho kết với độ xác cao l愃 75,4% số lượng dự đốn xác, sát l愃 Decision Tree với phần trăm xác l愃 70,9% Ở ROC Analysis, đường ROC Logistic gần với điểm (0,1) so với mơ hình cịn lại, từ hình vẽ ta thấy kết thấp so với ROC Logistic Regression 30 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Nên để đảm bảo tính xác dự báo, nhóm nghiên cứu sử dụng Logistic Regression để dự báo doanh thu v愃 hình ảnh sau l愃 kết dự báo doanh thu cửa h愃ng Hình 4.7 Prediction Lấy ví dụ từ quan sát với mã sản phẩm (Product ID) l愃 FDQ20, cửa h愃ng kinh doanh sản phẩm n愃y thuộc doanh thu [0;1883.9] với 95,85%, 3,49% với nhóm thứ 2, 0.18% với nhóm thứ v愃 0,05% với nhóm thứ Tương tự với 50 quan sát lại 31 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 CHƯƠNG KẾT LUẬN 5.1 C愃Āc kết đạt Sau nghiên cứu v愃 thực h愃nh phân lớp liệu, đánh giá mơ hình dựa liệu cung cấp: Logistic Regression, SVM, Tree, Neural Network việc dự báo doanh thu cửa h愃ng Ta thấy Logistic Regression mang lại kết tốt v愃 có hiệu xác mơ hình Bên cạnh đó, SVM mang lại kết thấp v愃 hiệu mơ hình cịn lại Chúng ta dễ d愃ng nhận điều n愃y sau đánh giá kết chạy mơ hình dựa điểm số AUC, CA, F1, Precision v愃 Overall, v愃 ROC Analysis lẫn Confusion Matrix Do đó, nhóm sử dụng Logistic Regression để dự báo doanh thu cửa h愃ng v愃 nhận kết theo bảng Hình 5.1.1 Prediction Tổng kết lại, dựa liệu m愃 nhóm nghiên cứu sử dụng dùng để nghiên cứu v愃 thực h愃nh, phạm vi nghiên cứu b愃i Logistic regression có ý nghĩa thực tiễn tốt mơ hình cịn lại 5.2 Những hạn chế hươꄁng ph愃Āt triển Nếu dựa liệu nhỏ v愃 dễ d愃ng xử lý, mơ hình phân lớp trở nên nhanh chóng v愃 linh hoạt Tuy nhiên, liệu lớn khiến trình thực b愃i luận gặp nhiều khó khăn, lộ rõ điểm yếu mơ ứng dụng Orange nói chung 32 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Thứ nhất, nói trên, liệu lớn khiến cho việc mơ hình khơng đạt hiệu cao v愃 tốn nhiều thời gian để mơ hình hoạt động, q trình l愃m nhanh đơn giản m愃 không tốn nhiều thời gian Điều n愃y dẫn đến trì trệ việc nghiên cứu v愃 thử nghiệm mơ hình Thứ hai, liệu khơng phù hợp với khai thác liệu nói chung v愃 Orange nói riêng, liệu nhóm sử dụng phù hợp với thuật toán thống kê Python v愃 đưa mơ hình tốt v愃 dự báo rõ r愃ng V愃 để cải thiện v愃 phù hợp với việc nghiên cứu, nhóm xử lý biến Outlet Sales từ biến tuyến tính th愃nh phi tuyến tính, giúp b愃i nghiên cứu nhóm đạt hiệu tốt mơ hình hoạt động tốt 33 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 TÀI LIỆU THAM KHẢO Nguồn Internet: Understanding Longistc Regression: https://www.geeksforgeeks.org/understanding-logistic-regression/ Logistic Regression – B愃i toán Machine Learning: https://viblo.asia/p/logistic-regression-bai-toan-co-ban-trong-machine-learning924lJ4rzKPM Advantages and Disadvantages of Logistic Regression Learning: https://www.geeksforgeeks.org/advantages-and-disadvantages-of-logisticregression/? fbclid=IwAR0winRlUMAnNSh4ZKxyiPWTDjSP90hHhu9owaFMUCfzZjQgGnd R9qLjXyM Giới thiệu Support Vector Machine: https://viblo.asia/p/gioi-thieu-ve-supportvector-machine-svm-6J3ZgPVElmB Xây dựng mô hình Neural Network: https://trituenhantao.io/kien-thuc/xay-dungmo-hinh-neural-network/ Advantages and disadvantages of neural network: http://way2benefits.com/advantages-disadvantages-neural-networks Mơ hình định (decision tree) — Deep AI KhanhBlog (phamdinhkhanh.github.io) 34 Downloaded by hây hay (vuchinhhp3@gmail.com) ... mềềm Orange 1.4 Lý chọn lựa đềề tài CHƯƠNG MÔ TẢ VÀ TIỀN XỬ LÝ BỘ DỮ LIỆU 2.1 Mô tả liệu 2.2 Tiềền xử lý liệu CHƯƠNG KHAI THÁC DỮ LIỆU 11 3.1 Các phương pháp phân cụm liệu 11 3.2 Thực phân cụm liệu. .. to愃Ān phân lơꄁp liệu 1.2.1 Khái niệm Một hướng nghiên cứu khai phá liệu l愃 phân lớp liệu (Classification) Việc phân tích liệu bao gồm: phân lớp v愃 dự đoán với mục đích tạo mơ hình mơ tả lớp liệu. .. cần phần mềm kỹ thuật hỗ trợ Nhận tính cấp thiết đó, nhóm chúng tơi tiến h愃nh thực trình xử lý liệu phần mềm Orange Từ kỹ thuật khai thác tối đa liệu b愃i thu hoạch trình b愃y số kỹ thuật phân