HDSD clementine cơ sở dự liệu

35 950 8
HDSD clementine cơ sở dự liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hướng dẫn sử dụng Phần mềm clementine 12.0 Bảng mô tả sử dụng phần mềm Clementine Cách sử dụng các thuật ngữ trong clementine Giáo trình cơ sở dữ liệu trường đại học kinh tế Sile bài giảng giảng viên trường ĐH Kinh Tế TP.HCM

Khai thác liệu kinh doanh LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU CLEMENTINE 12.0 Cửa sổ làm việc: managers Treams project palette Hình 1.1: Cửa sổ làm việc clementine File: (stream, managers, project, outputs) khởi tạo, mở file có sẵn, lưu file… Edit: Các lựa chọn undo, cắt/dán, delete, rename… file (stream, models, project, outputs) Insert: Thực số thao tác liệu (chức gần giống Palette) View: tắt/mở công cụ, palette, managers, project Tools : số tùy chọn nâng cao: tạo mật khẩu, quản lý palette… 1.1 Cửa sổ chính: Stream (lưu đồ dòng chảy): Là khu vực lớn cửa sổ Clementine nơi mà bạn xây dựng thao tác liệu Stream tạo cách giống vẽ đồ, cách thức để khai thác liệu Mỗi hoạt động đại diện biểu tượng node, node liên kết với dòng giống dòng chảy liệu thông qua hoạt động GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Bạn làm việc (thực nhiều lưu đồ) lúc stream, mở stream Trong phiên, stream lưu trữ managers , phía bên phải cửa sổ Clementine 1.2 Các Palette nodes: Hầu hết liệu công cụ mô hình hóa Clementine cư trú bảng nút, phía cửa sổ Để thêm node vào dòng liệu, bạn cần click đúp vào biểu tượng từ Palette Nodes kéo thả chúng vào stream Sau kết nối chúng để tạo dòng, đại diện cho dòng chảy liệu Mỗi palette nodes chứa tập nút liên quan, sử dụng cho giai đoạn khác hoạt động dòng chảy, chẳng hạn như: • Sources: Các nút đưa liệu vào Clementine • Record Ops Các nút thực hoạt động liệu, chẳng hạn lựa chọn, hợp nhất, thêm • Field Ops Các nút thực hoạt động items liệu, lọc, them items mới, xác định kiểu liệu cho items định • Graphs: Các nút đồ họa hiển thị liệu trước sau thực bước khai thác liệu • Modeling: (Mô hình hóa) Các nút sử dụng mô hình hóa thuật toán có sẵn Clementine, mạng thần kinh, định, thuật toán clustering, xếp liệu • Output: Các nút xuất loạt liệu, bảng biểu, kết mô hình, xem Clementine gửi trực tiếp đến ứng dụng khác, chẳng hạn SPSS Excel 1.2.a Giới thiệu Sources nodes: Chọn node Sources: Bạn chọn số nguồn lưu trữ liệu, ví dụ bạn chọn nguồn SPSS, bạn click đúp chọn biểu tượng SPSS File kéo thả vào Stream GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Hình 1.2: Chọn nguồn liệu file SPSS Sau bạn click đúp vào biều tượng để hướng dẫn đến file liệu spss : Hình 1.3: Cửa sổ khai báo nguồn liệu file SPSS Import file: Chọn đường dẫn cho file liệu Filter: Mặc định chọn toàn liệu, bạn chọn hạn chế số biến để phục vụ cho mục đích bạn GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Types: Mặc định bạn định nghĩa file dự liệu gốc, bạn thay đổi: kiểu giá trị(types), values, missing Khi có liệu, chọn apply ok Hình 1.4: cửa sổ khai báo liệu file excel Nút nguồn Excel cho phép bạn nhập liệu từ phiên Microsoft Excel Import file: Chỉ định tên vị trí tập tin excel để nhập vào Use named range: Cho phép bạn định loạt tên cột định nghĩa bảng tính Excel Click vào nút chọn( ) để chọn từ danh sách phạm vi có sẵn Tất hàng phạm vi quy định trả về, bao gồm hàng trống Với tên sử dụng, vùng liệu lại giá trị khai thác Worksheet: Chỉ định worksheet chọn vào, số hay theo tên: • Index Xác định giá trị số cho worksheet mà bạn chọn vào, bắt đầu cho sheet đầu tiên, cho sheet thứ hai, • Name Chỉ định tên worksheet mà bạn chọn vào Click vào nút ( ) để chọn từ danh sách worksheet sẵn GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Data range: Bạn nhập liệu bắt đầu với hàng không trống với phạm vi rõ ràng: • First non-blank row: Định vị biến không trống sử dụng góc bên trái vùng liệu Nếu gặp hàng trống tiếp theo, bạn chọn để ngừng đọc (stop reading) chọn hàng trở lại trống để tiếp tục đọc tất liệu vào cuối bảng tính (return blank rows), bao gồm hàng trống • Explicit range: Cho phép bạn định phạm vi rõ ràng hàng cột (ví dụ, A3: G178) Tất hàng phạm vi quy định trả về, bao gồm hàng trống First row contains field names :Hàng chứa tên biến Chỉ hàng phạm vi quy định nên sử dụng trường tên Nếu không chọn, tên trường tạo tự động Lưu ý: Theo mặc định, với cột (biến) chứa hai hay nhiều kiểu (type) liệu số chuỗi, hai giá trị bị (không có giá trị giống spss) Clementine Không giống Excel-Clementine không cho phép lưu trữ loại hỗn hợp biến Để tránh điều này, bạn tự thiết lập định dạng ô văn bảng tính Excel, tạo giá trị (bao gồm số) để đọc 1.2.b Giới thiệu Record Operations: Các nút sử dụng để thay đổi liệu Các hoạt động quan trọng việc hiểu chuẩn bị liệu cho khai thác liệu chúng cho phép bạn chỉnh liệu cho nhu cầu riêng The select node: chọn loại bỏ tập hợp dòng liệu dựa điều kiện cụ thể Ví dụ, bạn chọn liệu khu vực định ví dụ: (thành phố) = (thành phố HCM) Đây cửa sổ làm việc nút select: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Hình 1.5: Bảng select Mode: Chỉ định xem dòng liệu chọn loại trừ thỏa mãn điều kiện • Include Chọn bao gồm dòng liệu đáp ứng điều kiện lựa chọn • Discard Chọn để loại trừ hồ sơ đáp ứng điều kiện lựa chọn Condition: Hiển thị điều kiện lựa chọn sử dụng để kiểm tra mà bạn tự nhập vào biểu cửa sổ sử dụng Expression Builder cách nhấn vào máy tính (Expression Builder) nút bên phải cửa sổ Select node sử dụng để lấy mẫu Thông thường, bạn sử dụng nút sample cho hoạt động Tuy nhiên, điều kiện bạn muốn xác định phức tạp thông số cung cấp, bạn tạo điều kiện riêng bạn cách sử dụng nút Select Ví dụ (thành phố) = random(40) the sample node: Các nút lựa chọn mẫu cho tập hợp hồ sơ Một loạt loại mẫu hỗ trợ, bao gồm ngẫu nhiên đơn giản, phân tầng, khối Lấy mẫu hữu ích để cải thiện hiệu suất, để chọn nhóm hồ sơ liên quan, giao dịch để phân tích GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Hình 1.5: Bảng sample Sample method : simple Mode: Chọn (bao gồm) loại trừ hồ sơ cho phương thức sau đây: Chọn phương pháp lấy mẫu từ tùy chọn sau: • First Chọn lấy n hồ sơ liệu Ví dụ, kích thước mẫu tối đa thiết lập 10.000, bạn 10.000 hồ sơ • 1-trong-n Chọn mẫu theo kiểu bước nhảy Ví dụ, n thiết lập đến 5, hồ sơ lấy 5,10,15,20 • Random% Chọn mẫu ngẫu nhiên tỷ lệ phần trăm liệu Ví dụ, bạn thiết lập tỷ lệ phần trăm đến 20, 20% liệu chọn The balance node: Các nút chỉnh cân cân liệu, phù hợp với điều kiện quy định Các thị điều chỉnh cân tỷ lệ hồ sơ theo điều kiện đặt GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh The Aggregate node: Nút tổng hợp thay chuỗi hồ sơ đầu vào với tóm tắt, tổng hợp hồ sơ đầu The recency, frequency, monetary (RFM): The sort node: Xếp loại hồ sơ tăng giảm dựa giá trị hay nhiều tiêu chí The merge node: Các nút Merge có nhiều hồ sơ đầu vào tạo ghi đầu có chứa số tất lĩnh vực đầu vào Nó hữu ích cho việc sáp nhập liệu từ nhiều nguốn khác The distinct node: Loại bỏ hồ sơ The append node: Các nút Thêm hồ sơ, Nó hữu dụng cho việc kết hợp liệu với cấu trúc tương tự liệu khác 1.2.c Giới thiệu Field operations: Sau thăm dò liệu ban đầu, bạn phải lựa chọn, làm sạch, xây dựng liệu để chuẩn bị cho phân tích Các lĩnh vực hoạt động bảng chứa nhiều nút hữu ích cho việc chuyển đổi chuẩn bị the type node: Nút xác định kiểu liệu Thiết lập vai trò biến cho mục đích xây dựng mô hình, xác định kiểu liệu, giá trị…cho biết liệu lưu trữ chuỗi, số nguyên, số thực, ngày tháng, thời gian GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh Hình 1.5: Cửa sổ khai báo type • Values: Bạn sử dụng toàn values có file gốc cách chọn Read Values, tạo cách cột Values bạn chọn specify Các nhãn mà bạn định nút hình hiển thị Clementine tùy thuộc vào lựa chọn bạn thực thuộc tính dòng hộp thoại • Missing values: Được sử dụng để xác định giá trị coi khoảng trắng • Value checking: Trong cột Kiểm tra, bạn thiết lập tùy chọn để đảm bảo giá trị trường phù hợp với phạm vi quy định the filter node: Lọai bỏ số biến the reclassify node: Phân loại lại, nút chuyển đổi tập giá trị rời rạc khác Phân loại lại hữu dụng cho thu gọn danh mục tập hợp liệu để phân tích the bining node: Các nút Binning tự động tạo thiết lập dựa giá trị số biến thành giá trị phân loại Ví dụ, bạn chuyển đổi biến thu nhập dạng số GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM Khai thác liệu kinh doanh thành dạng biến nhóm thu nhập theo trung bình độ lệch chuẩn Nếu bạn có cài đặt SPSS cấp phép máy tính bạn, Transform SPSS, thực lệnh cú pháp SPSS nguồn liệu Clementine the Partition node: Các nút phân vùng tạo lĩnh vực phân vùng, chia tách liệu vào tập hợp riêng cho việc thực hiện, thử nghiệm, kiểm tra việc xây dựng mô hình the restructure node the transpose node:Các nút Transpose giao dịch hoán đổi liệu hàng cột 1.2.d Export node: Cung cấp chế xuất liệu định dạng khác để giao tiếp với công cụ phần mềm khác bạn Các nút xuất SPSS đầu liệu SPSS Định dạng SAV Clementine đặt tên biến cho số biến kết tên SPSS gây lỗi tên biến SPSS giới hạn đến 64 ký tự bao gồm số ký tự, chẳng hạn dấu cách, dấu hiệu đồng đô la ($), dấu gạch ngang (-) Có hai cách để điều chỉnh hạn chế này: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 10 Khai thác liệu kinh doanh Hình 4.9:Kết Two Step Kết kiểm tra phân cụm kỹ thuật Two Step tốt nhiều : Với 273 quan sát dùng làm kiểm tra có 217(193+24) quan sát phân loại đạt 79,49% tỉ lệ cao Toàn tranh thực phân tích cụm, nắm nguyên tắc bản, bạn sáng tạo theo ý thích để có thông tin mong muốn GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 21 Khai thác liệu kinh doanh Hình 4.10:Steam với kỹ thuật phân cụm 5.Mạng Thần kinh: Sau có bứơc chuẩn bị liệu: Sources(khai báo liệu), type (kiểu liệu), Partition(phân vùng) cần Sử dụng liệu gian lận bảo hiểm để làm ví dụ, hầu hết mô hình phân loại đạt hiệu liệu bị lệch (1.67% có gian lận) Do đó, chọn mẫu 120 ( 60 có gian lận, 60 không gian lận) để chạy mô hình Chọn mô hình Neural Net palette : GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 22 Khai thác liệu kinh doanh Hình 5.1: Bảng Neural Fields/Usecustom settings/ Ở khung Targets bạn đưa biến Outcom vào, khung Inputs bạn đưa biến Age, Gender,Claim,Tickets,Claims,Atty vào Hình 5.2: Bảng khai báo biến GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 23 Khai thác liệu kinh doanh Hình 5.3: Bảng tùy chọn neural Model: Model name: Tên mô hình Use partitioned data: Sử dụng liệu phân vùng Method: Phương pháp Có sáu phương pháp để xây dựng mô hình mạng thần kinh: • Quick: Phương pháp dựa đặc trưng liệu thực cách đơn giản để tìm hình dạng thích hợp (cấu trúc liên kết) cho mạng • Dynamic: Phương pháp tạo cấu trúc liên kết đầu tiên, từ cách thêm / loại bỏ đơn vị ẩn lúc tiến • Multiple: Phương pháp tạo nhiều cấu trúc liên kết mạng khác (các số xác phụ thuộc vào liệu) Các mạng sau thực song song Kết thúc, mô hình với lỗi sai lệch thực tế thấp mô hình cuối • Prune Phương pháp bắt đầu với mạng lưới rộng lớn loại bỏ đơn GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 24 Khai thác liệu kinh doanh vị yếu lớp ẩn đầu vào Phương pháp thường chậm, thường mang lại kết tốt so với phương pháp khác • RBFN Mạng lưới sở chức bố trí hình tròn (RBFN) sử dụng kỹ thuật tương tự k-Mean clustering để phân vùng liệu dựa giá trị biến mục tiêu • Exhaustive prune: Phương pháp có liên quan đến phương pháp Prune Nó bắt đầu với mạng lưới rộng lớn loại bỏ đơn vị yếu lớp ẩn đầu vào Với ExhaustivePrune, mạng lưới đào tạo tham số lựa chọn để đảm bảo việc tìm kiếm kỹ lưỡng không gian mô hình tìm thấy tốt Phương pháp thường chậm nhất, thường mang lại kết tốt Lưu ý phương pháp nhiều thời gian để thực hiện, đặc biệt với liệu lớn Prevent overtraining: Ngăn chặn làm việc sức Tùy chọn chia tách liệu ngẫu nhiên vào thực riêng biệt đặt thử nghiệm cho mục đích xây dựng mô hình Xác định tỷ lệ liệu sử dụng để thực hộp% mẫu nút mạng thần kinh, phần lại liệu sử dụng để xác nhận Set random seed: Đặt hạt giống ngẫu nhiên Một hạt giống ngẫu nhiên cụ thể luôn tạo trình tự giá trị ngẫu nhiên, trường hợp thực nút mang lại mô hình tạo Stop on Bạn chọn tiêu chí ngăn chặn sau đây: • Default Với thiết lập này, mạng ngừng đào tạo mạng dường đạt đến trạng thái tối ưu thực • Accuracy: Độ xác (%) Với tùy chọn này, chương trình tiếp tục xác định đạt Điều không xảy ra, bạn làm gián đoạn đào tạo điểm lưu mạng với độ xác tốt đạt • Cycles Với tùy chọn này, chương trình tiếp tục cho số quy định chu kỳ (đi qua liệu) • Time: (phút) Với tùy chọn này, chương trình tiếp tục ghi rõ thời gian (theo phút) Lưu ý chương trình chút vượt thời hạn quy định để hoàn thành chu trình hành GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 25 Khai thác liệu kinh doanh Hình 5.3:Stream neural Chúng ta dùng thêm node analysis output để thể bảng kết Hình 5.4:Kết phân cụm 5.000 bước liệu phân tích GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 26 Khai thác liệu kinh doanh Hình 5.5: Kết phân cụm 5.000 bước liệu kiểm tra: Hình 5.6: Kết phân cụm 20.000 bước liệu phân tích: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 27 Khai thác liệu kinh doanh Hình 5.7: Kết phân cụm 20.000 bước liệu kiểm tra: 6.Cây định: Gồm có mô hình C-RT, Chaid,Quest, C5.0 Việc phân loại hồi quy (C & R) Cây nút tạo định cho phép bạn quan sát dự đoán phân loại tương lai Phương pháp sử dụng phân vùng đệ quy để phân chia hồ sơ đào tạo thành đoạn cách giảm thiểu tạp chất bước, nút coi "tinh khiết" 100% trường hợp nút rơi vào thể loại cụ thể trường mục tiêu Mục tiêu dự báo lĩnh vực nhiều hay phân loại, tất chia tách nhị phân (chỉ có hai phân nhóm) Các nút QUEST cung cấp phương pháp phân loại nhị phân để xây dựng định, thiết kế để giảm thời gian xử lý cần thiết C & R , làm giảm xu hướng tìm thấy phương pháp phân loại để ưu tiên cho dự báo cho phép chia tách nhiều Dự báo lĩnh vực dãy số, lĩnh vực mục tiêu phải phân loại Tất chia tách nhị phân Các nút CHAID tạo định sử dụng số liệu thống kê chi bình phương để xác định tối ưu chia tách Không giống C & R QUEST GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 28 Khai thác liệu kinh doanh nút, CHAID tạo nonbinary, có nghĩa số chia tách có nhiều hai nhánh Mục tiêu dự báo lĩnh vực nhiều hay phân loại Nhưng phải nhiều thời gian để tính toán Các nút C5.0 xây dựng định, thiết lập quy tắc Mô hình hoạt động cách chia tách mẫu dựa lĩnh vực cung cấp thông tin thu tối đa cấp Các lĩnh vực mục tiêu phải phân loại Có thể chia thành nhiều hai nhóm Chúng ta thử mô hình đánh giá, Các khai báo mô nhau: Chúng ta chọn liệu gian lận bảo hiểm làm ví dụ: Với mô hình C-RT: Fields/ chọn Use custom settings/ Đưa biến outcome vào khung Target, đưa biến lại: gender,claim,tickets,claims, atty vào khung Inputs Partition: đưa biến phân vùng vào có Use frequency field : sử dụng tần số Use weight field: sử dụng trọng số Hình 5.8: Khai báo biến GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 29 Khai thác liệu kinh doanh Hình 5.9: Bảng Model Model name: Tên mô hình Use partition data: phân vùng liệu Mode phương pháp sử dụng để xây dựng mô hình General model: mô hình mặc định Launch interactive session :cho phép bạn xây dựng bạn cấp thời điểm, chỉnh sửa nhỏ tỉa mong muốn Độ sâu tối đa Xác định số lượng tối đa nhánh bên gốc C5.0 GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 30 Khai thác liệu kinh doanh Hình 5.10: Bảng Model C5.0 Model: Model name: Xác định tên mô hình Use partition data : liệu phân vùng Output type: bạn muốn mô hình kết Quyết định thiết lập quy tắc Group symbolics Nếu tùy chọn không chọn, C5.0 tạo nút cho giá trị biến sử dụng để phân chia nút cha Ví dụ, C5.0 chia tách vào lĩnh vực COLOR (với giá trị Red, Green, Blue), tạo phân chia ba chiều theo mặc định Tuy nhiên, tùy chọn chọn, hồ sơ hợp COLOR = RED tương tự hồ sơ hợp COLOR = BLUE, tạo phân chia hai chiều, với màu xanh lục nhóm, The Blues Red với nhóm khác Use boosting: Các thuật toán C5.0 có phương pháp đặc biệt để cải thiện độ xác nó, gọi boosting Nó hoạt động cách xây dựng mô hình khác chuỗi Mô hình xây dựng theo cách thông thường Sau đó, mô hình thứ hai xây dựng cách mà tập trung vào GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 31 Khai thác liệu kinh doanh hồ sơ phân loại sai mô hình Sau đó, mô hình thứ ba xây dựng để tập trung vào lỗi mô hình thứ hai, Cuối cùng, trường hợp phân loại cách áp dụng toàn mô hình , cách sử dụng thủ tục biểu để kết hợp dự đoán riêng biệt vào tổng thể dự đoán.Nhưng đòi hỏi phải thực lâu Số lượng thử nghiệm tùy chọn cho phép bạn kiểm soát nhiều mô hình sử dụng Cross-validate Nếu tùy chọn chọn, C5.0 sử dụng tập mô hình xây dựng phần nhỏ liệu thử nghiệm để ước tính xác mô hình xây dựng liệu đầy đủ Điều hữu ích liệu bạn nhỏ để chia nghiệm xác định Mô hình xây dựng xác nhận chéo thực lúc Mode: simple: Favor: Theo mặc định, C5.0 cố gắng để xây dựng xác với accuracy Trong số trường, dẫn đến hiệu suất mô hình áp dụng cho liệu Chọn generality để sử dụng cài đặt thuật toán nhạy cảm với vấn đề Experted noise (%) Xác định tỷ lệ dự kiến liệu có sai sót việcthực thiết lập GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 32 Khai thác liệu kinh doanh Hình 5.10: Stream định Kết phân cụm với kỹ thuật C_RT: Kết phân cụm với kỹ thuật Quest: Kết phân cụm với kỹ thuật Chaid: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 33 Khai thác liệu kinh doanh Kết phân cụm với kỹ thuật C5.0: Phân tích rổ hàng mua: Hiệp hội quy tắc kết hợp kết luận cụ thể (việc mua sản phẩm cụ thể) với tập hợp điều kiện (việc mua số sản phẩm khác) Ví dụ, quy tắc bia [...]... việc với Clementine là một quá trình ba bước: • Trước tiên, bạn đọc dữ liệu vào Clementine • Sau đó, chạy dữ liệu thông qua một loạt các thao tác • Và cuối cùng, gửi dữ liệu đến một đích đến Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các nguồn thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến là một mô hình, biểu đồ hay kiểu dữ liệu đầu... Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 21 Khai thác dữ liệu trong kinh doanh Hình 4.10:Steam với kỹ thuật phân cụm 5.Mạng Thần kinh: Sau khi đã có các bứơc chuẩn bị dữ liệu: Sources(khai báo dữ liệu) , type (kiểu dữ liệu) , Partition(phân vùng) nếu cần Sử dụng dữ liệu gian lận bảo hiểm để làm ví dụ, hầu hết các mô hình phân loại đạt hiệu quả kém nếu dữ liệu bị lệch (1.67% có gian lận) Do đó, chọn mẫu 120... trên dữ liệu phân tích GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 26 Khai thác dữ liệu trong kinh doanh Hình 5.5: Kết quả phân cụm 5.000 bước trên dữ liệu kiểm tra: Hình 5.6: Kết quả phân cụm 20.000 bước trên dữ liệu phân tích: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 27 Khai thác dữ liệu trong kinh doanh Hình 5.7: Kết quả phân cụm 20.000 bước trên dữ liệu kiểm... để kết hợp những dự đoán riêng biệt vào một tổng thể dự đoán.Nhưng nó cũng đòi hỏi phải thực hiện lâu Số lượng thử nghiệm tùy chọn cho phép bạn kiểm soát nhiều mô hình được sử dụng Cross-validate Nếu tùy chọn này được chọn, C5.0 sẽ sử dụng một tập các mô hình được xây dựng trên một phần nhỏ của dữ liệu thử nghiệm để ước tính chính xác của một mô hình được xây dựng trên những dữ liệu đầy đủ Điều này... tích cụm: Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops) để khai báo lại kiểu scale cho toàn bộ các biến: GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 12 Khai thác dữ liệu trong kinh doanh Hình 4.1: Strean chuẩn bị dữ liệu Đây là bước chuẩn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp... động bằng cách xây dựng các mô hình khác nhau trong một chuỗi Mô hình đầu tiên được xây dựng theo cách thông thường Sau đó, một mô hình thứ hai được xây dựng trong một cách mà nó tập trung vào các GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 31 Khai thác dữ liệu trong kinh doanh hồ sơ đã được phân loại sai bởi các mô hình đầu tiên Sau đó, một mô hình thứ ba được xây dựng để tập trung... mất nhiều thời gian để thực hiện, đặc biệt là với bộ dữ liệu lớn Prevent overtraining: Ngăn chặn làm việc quá sức Tùy chọn này chia tách các dữ liệu ngẫu nhiên vào thực hiện riêng biệt và đặt thử nghiệm cho mục đích xây dựng mô hình Xác định tỷ lệ dữ liệu được sử dụng để thực hiện trong hộp% mẫu trong nút mạng thần kinh, và phần còn lại của dữ liệu sẽ được sử dụng để xác nhận Set random seed: Đặt hạt... Khai thác dữ liệu trong kinh doanh Hình 5.3: Bảng tùy chọn neural Model: Model name: Tên mô hình Use partitioned data: Sử dụng dữ liệu phân vùng Method: Phương pháp Có sáu phương pháp để xây dựng mô hình mạng thần kinh: • Quick: Phương pháp này dựa các đặc trưng của dữ liệu thực hiện một cách đơn giản để tìm được một hình dạng thích hợp (cấu trúc liên kết) cho mạng • Dynamic: Phương pháp này tạo ra... phân để xây dựng cây quyết định, được thiết kế để giảm thời gian xử lý cần thiết hơn C & R , trong khi cũng làm giảm xu hướng tìm thấy trong các phương pháp phân loại cây để ưu tiên cho những dự báo cho phép chia tách nhiều hơn Dự báo lĩnh vực có thể được dãy số, nhưng các lĩnh vực mục tiêu phải được phân loại Tất cả chia tách là nhị phân Các nút CHAID tạo ra cây quyết định sử dụng số liệu thống kê... Kinh Tế TPHCM 28 Khai thác dữ liệu trong kinh doanh nút, CHAID có thể tạo ra cây nonbinary, có nghĩa là một số chia tách có nhiều hơn hai nhánh Mục tiêu và dự báo lĩnh vực có thể được nhiều hay phân loại Nhưng phải mất nhiều thời gian để tính toán Các nút C5.0 xây dựng hoặc là một cây quyết định, hoặc thiết lập một quy tắc Mô hình này hoạt động bằng cách chia tách các mẫu dựa trên các lĩnh vực cung cấp

Ngày đăng: 08/05/2016, 12:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan