1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu clementine áp dụng vào bài khai phá dữ liệu thống kê dân số

55 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 2,05 MB

Nội dung

, 7/2010 LỜI CẢM ƠN Em xin tỏ lòng biết ơn sâu sắc tới thầy giáo Nguyễn Trịnh Đông - người hướng dẫn trực tiếp, bảo tận tình, góp ý sâu sắc suốt q trình học tập, nghiên cứu để em hồn thành khóa luận Em xin bày tỏ lịng biết ơn đến thầy giáo môn Công nghệ thông tin trường Đại học Dân lập Hải Phòng trực tiếp giảng dạy, góp ý, động viên em suốt bốn năm học qua Em xin gửi lời cảm ơn đến thành viên lớp CT1002, người bạn bên cạnh động viên, tạo điều kiện thuận lợi em tìm hiểu, hồn thành tốt khóa luận Cuối em xin bày tỏ lịng biết ơn đến gia đình, bạn bè chia sẻ động viên em hồn thành khóa luận Hải Phịng, Ngày 09 tháng 07 năm 2010 Sinh viên Phạm Ngọc Hùng Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 MỤC LỤC LỜI CẢM ƠN MỤC LỤC LỜI MỞ ĐẦU DANH SÁCH HÌNH VẼ CHƯƠNG : TỔNG QUAN VỀ DATA MINING 1.1 Tổng quan Datamining 1.1.1 Giới thiệu chung Datamining 1.1.2 Quá trình khám phá tri thức CSDL 1.1.3 Các kỹ thuật áp dụng Datamining 1.1.4 Ứng dụng Datamining 1.2 Phân cụm liệu thuật toán phân cụm liệu 1.2.1.Giới thiệu chung phân cụm liệu 1.2.2 Một số thuật toán phân cụm liệu CHƯƠNG 2: PHẦN MỀM CLEMENTINE 10 2.1 Giới thiệu chung Clementine 10 2.2 Quá trình xử lý liệu Clementine 11 CHƯƠNG 3: ÁP DỤNG CLEMENTINE VÀO BÀI TOÁN 25 KHAI PHÁ DỮ LIỆU 25 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC A: CÁC NÚT ĐỂ XÂY DỰNG MƠ HÌNH 40 Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 LỜI MỞ ĐẦU Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Trên sở áp dụng vào khai phá liệu thống kê dân số Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 DANH SÁCH HÌNH VẼ Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức CSDL Hình 3: Mơ vấn đề PCDL Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 CHƯƠNG : TỔNG QUAN VỀ DATA MINING 1.1 Tổng quan Datamining 1.1.1 Giới thiệu chung Datamining Data Mining lĩnh vực xuất hiện, nhằm tự động khai thác thông tin, tri thức có tính tiềm ẩn, hữu ích từ CSDL lớn đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết khoa học ứng dụng thành công khám phá tri thức, cho thấy, Data Mining lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẳn so với cơng cụ phân tích liệu truyền thống Hiện nay, Data Mining ứng dụng ngày rộng rãi lĩnh vực : Thương mại, tài chính, điều trị y học, viễn thông, tin – sinh,… Data Mining hướng nghiên cứu đời thập niên trở lại đây, kỹ thuật áp dụng lĩnh vực phần lớn thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê, tính toán hiệu cao Do phát triển nhanh Data Mining phạm vi áp dụng phương pháp tìm kiếm tri thức, nên có nhiều quan điểm khác Data Mining Tuy nhiên, mức trừu tượng định, định nghĩa Data Mining sau : Định nghĩa : DATA MINING trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn Khám phá tri thức CSDL (Knowledge Discovery in Databases - KDD) mục tiêu Data Mining, hai khái niệm Data Mining KDD nhà khoa học hai lĩnh vực xem tương đương với Thế nhưng, phân chia cách chi tiết Data Mining bước q trình KDD 1.1.2 Quá trình khám phá tri thức CSDL Quá trình khám phá tri thức CSDL gồm giai đoạn sau: Trích chọn liệu : bước trích chọn tập liệu cần khai phá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định Tiền xử lý liệu : bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán, v.v.), rút gọn liệu (sử dụng hàm nhóm Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hóa Biến đổi liệu : bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau Data mining: bước áp dụng kỹ thuật phân tích (phần nhiều kỹ thuật học máy) nhằm để khai thác liệu, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian tồn q trình KDD Đánh giá biểu diễn tri thức : mẫu thông tin mối liên hệ liệu khám phá bước chuyển dạng biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, v.v Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Hình 1: 1.1.3 Các kỹ thuật áp dụng Datamining Nếu đứng quan điểm học máy (Machine Learning), kỹ thuật Data Mining, bao gồm :  Học có giám sát (Supervised learning):  Học khơng có giám sát (Unsupervised learning):  Học nửa giám sát (Semi - Supervised learning): Nếu vào lớp tốn cần giải quyết, Data Mining bao gồm kỹ thuật áp dụng sau : Phân lớp dự đoán (classification and prediction): Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 Luật kết hợp (association rules): Phân tích chuỗi theo thời gian (sequential/ temporal patterns Phân cụm (clustering/ segmentation): Mô tả khái niệm (concept description and summarization): Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức CSDL 1.1.4 Ứng dụng Datamining Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình như: Bảo hiểm Tài thị trường chứng khốn : phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận… Phân tích dũ liệu hỗ trợ định Điều trị chăm sóc y tế : Một số thơng tin chuẩn đoán lưu bệnh hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc ) Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố Text mining & Web mining: phân lớp văn trang web, tóm tắt văn … Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố chất lượng dịch vụ… Lĩnh vực xã hội: toán thống kê dân số, toán dự báo dân số…để từ đưa cách khắc phục thích hợp 1.2 Phân cụm liệu thuật toán phân cụm liệu 1.2.1.Giới thiệu chung phân cụm liệu Phân cụm liệu lĩnh vực liên ngành phát triển mạnh mẽ thống kê, học máy, nhận dạng, Data mining, … Ở mức nhất, người ta đưa định nghĩa PCDL sau : "PCDL kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định" Như vậy, PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định phương pháp phân cụm Chúng ta minh hoạ vấn đề phân cụm hình sau : Hình 3: Mơ vấn đề PCDL Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 Trong hình trên, sau phân cụm thu bốn cụm phần tử "gần nhau" "tương tự" xếp vào cụm, phần tử "xa nhau" "phi tương tự" chúng thuộc cụm khác 1.2.2 Một số thuật toán phân cụm liệu a Họ thuật toán phân hoạch - Thuật toán k-means - Thuật toán PAM (Partioning Around Medoids) - Thuật toán CLARA (Clustering LARge Applications) - Thuật toán CLARANS (Clustering LARge ApplicatioNS) b Các thuật toán phân cụm phân cấp - Thuật toán BIRCH - Thuật toán CURE c Các thuật toán phân cụm dựa mật độ - Thuật toán DBSCAN - Thuật toán OPTICS - Thuật toán DENCLUE d Một số thuật toán phân cụm liệu đặc thù - Thuật toán STING - Thuật toán CLIQUE - Thuật toán EM e Phân cụm liệu mờ - Thuật toán FCM - Thụât toán FCM f Phân cụm song song tập liệu hỗn hợp - Thuật toán k- prototypes - Thuật toán song song k - prototypes Phạm Ngọc Hùng – Lớp CT1002 , 7/2010 CHƯƠNG 2: PHẦN MỀM CLEMENTINE 2.1 Giới thiệu chung Clementine Clementine sản phẩm SPSS inc, SPSS Clementine sản phẩm mơ hình hóa q trình khai phá liệu, cho phép người dùng nhanh chóng phát triển mơ hình dự đốn trước cách sử dụng kinh nghiệm thực tế triển khai chúng vào lĩnh vực cụ thể tốt Phần mềm Clementine gồm có tab chính: Tab Favorites: Chỉnh sửa nút lựa chọn mặc định Tab Source : Nguồn liệu, nhập liệu vào Clementine Tab Record Ops : Thực thao tác ghi liệu ; lựa chọn, trộn, thêm trường liệu Tab Field Ops : Thực thao tác trường liệu lọc, chuyển hóa trường liệu mới, xác định kiểu liệu Tab Graphs( đồ thị) : bao gồm nút hiển thị đồ họa trước sau Modeling ( mơ hình hóa) gồm nút Plot, nút Web, nút Histogram, biểu đồ đánh giá Phạm Ngọc Hùng – Lớp CT1002 10 , 7/2010 BIỂU TƯỢNG MÔ TẢ lập, hay flag) cho trường liệu, thiết lập tùy chọn để xử lý giá trị null tích hệ thống, thiết lập vai trò trường liệu cho mục đích làm mẫu, xác định trường liệu nhãn giá trị, xác định giá trị cho trường Filter Nút Filter lọc (loại bỏ) lĩnh vực, đặt lại tên trường, đồ trường từ nút nguồn khác Plot Nút Plot cho thấy mối quan hệ trường số Bạn tạo đồ cách sử dụng điểm (a scatterplot) dòng 10.Distribution Nút Distribution( phân phối) cho thấy xuất giá trị, chẳng hạn loại chấp, giới tính Thơng thường, bạn sử dụng nút Distribution cho thấy cân liệu, mà bạn sau khắc phục cách sử dụng nút cân trước tạo mơ hình 11 Histogram Nút Histogram cho thấy xuất giá trị cho trường số Nó thường dùng để khám phá liệu trước thao tác xây dựng mơ hình Tương tự nút Distribution, nút Histogram thường xuyên cho thấy cân liệu 12 Neural Net Nút Neural Net ( nút mạng nơ-ron) sử dụng mơ hình đơn giản giơng cách làm việc não người xử lý thơng tin Nó hoạt động cách mô số lượng lớn đơn vị xử lý kết nối đơn giản, giống phiên trừu tượng tế bào thần kinh Mạng lưới thần kinh có nhiều chức lập dự tốn nói chung u cầu tối thiểu thống kê kiến thức toán học để đào tạo áp dụng 13 Kohonen Nút Kohonen tạo loại mạng nơron sử dụng để tập hợp nhóm liệu vào nhóm riêng biệt Khi mạng thiêt lâp đầy đủ, ghi xuất gần đồ Phạm Ngọc Hùng – Lớp CT1002 41 , 7/2010 BIỂU TƯỢNG MÔ TẢ số lượng, ghi xuất khác xa 14 C5.0 Nút C5.0 xây dựng định quy định Mơ hình hoạt động cách chia tách mẫu dựa trường liệu cung cấp thông tin thu tối đa cấp Các mục tiêu phải rõ ràng Được chia thành nhiều hai nhóm 15 C&R Tree Nút C&R Tree (phân loại hồi qui) dựa phân loại phương pháp dự báo Tương tự C5.0, phương pháp sử dụng phân vùng đệ quy chia ghi thành đoạn có giá trị tương tự đầu Bắt đầu cách kiểm tra trường liệu đầu vào để tìm chia tốt nhất, chia thành hai nhóm con, sau chia thành hai nhóm nhiều hơn, vậy, tiêu chí dừng kích hoạt Tất chia tách nhị phân 16 K-Means Các nút K-Means nhóm tập liệu thành nhóm khác (hoặc cụm) Xác định số phương pháp cố định cụm, lặp lặp lại giao ghi cho cụm, điều chỉnh trung tâm cụm sàng lọc khơng cịn cải thiện mơ hình Thay cố gắng để dự đốn kết quả, có nghĩa k-mean sử dụng q trình gọi học khơng có giám sát để phát tập hợp trường liệu đầu vào 17 Table Nút Table (bảng) hiển thị liệu định dạng bảng, mà ghi vào tập tin Điều hữu ích lúc mà ngươì sư dụng cần phải kiểm tra giá trị liệu bạn hay xuất chúng để dễ dàng đọc 18 Flat File Nút Flat File ghi liệu vào tập tin văn Nó hữu dụng để xuất liệu đọc phân tích khác bảng tính Phạm Ngọc Hùng – Lớp CT1002 42 , 7/2010 BIỂU TƯỢNG 19 Enterprise View MÔ TẢ Nút Enterprise View tạo kết nối đến doanh nghiệp, cho phép bạn đọc Enterprise View liệu vào dịng đóng gói mơ hình kiện truy cập từ kho lưu trữ người dùng khác 20 Fixed File Nút Fixed File : nhập liệu từ trường liệu không đổi từ tập tin văn bản-có nghĩa là, tập tin mà trường khơng giới hạn, vị trí tương tự có chiều dài cố định Kho liệu tạo di chuyển thường lưu trữ dạng cố định 21 SPSS File Nút SPSS File xuất liệu đầu SPSS Định dạng SAV Các File SAV đọc SPSS Base sản phẩm khác Đây định dạng sử dụng cho tập tin nhớ cache Clementine 22 Dimensions Nút Dimensions (Kích thước) xuất liệu đầu định dạng sử dụng phần mềm SPSS nghiên cứu thị trường, liệu Thư viện phải cài đặt để sử dụng nút 23 SAS File Các nút SAS nhập liệu vào Clementine 24 Excel Nút Excel xuất liệu đầu định dạng Microsoft Excel (xls) Tùy chọn, bạn chọn để khởi động Excel tự động mở tập tin xuất liệu nút thực 25 User Input Nút User Input : tạo tổng hợp liệu từ đầu cách thay đổi liệu có Điều hữu ích, ví dụ, bạn muốn tạo tập liệu kiểm tra cho người mẫu Phạm Ngọc Hùng – Lớp CT1002 43 , 7/2010 BIỂU TƯỢNG MÔ TẢ 26 Balance Nút Balance (cân bằng) sửa chữa cân tập liệu, phù hợp với điều kiện quy định Các thị điều chỉnh cân tỷ lệ hồ sơ, nơi mà điều kiện yếu tố quy định 27 RFM Aggregate Các Recency, Tần số, tiền tệ (RFM) cho phép bạn có nhật ký liệu khách hàng giao dịch, truyền liệu không sử dụng, kết hợp tất liệu giao dịch lại chúng vào hàng mà danh sách chúng bị xử lý, có giao dịch đưa ra, tổng giá trị tiền tệ người giao dịch 28 Sort Nút Sort : Phân loại loại ghi vào tăng hay giảm dựa giá trị nhiều trường liệu 29 Merge Nút Merge: chứa nhiều ghi đầu vào tạo ghi đầu có chứa số tất trường liệu đầu vào Nó hữu ích cho việc hợp liệu từ nguồn khác 30 Append Nút Append : Hữu dụng cho việc kết hợp với cấu trúc tương tự tập hợp liệu liệu khác 31 Distinct Nút Distinct : loại bỏ ghi, cách loại bỏ ghi chuyển qua để đến dòng liệu thay Phạm Ngọc Hùng – Lớp CT1002 44 , 7/2010 BIỂU TƯỢNG MÔ TẢ 32 Ensemble Nút Ensemble : kết hợp hai nhiều mơ hình nuggets để có dự đốn xác thu từ mơ hình 33 Filler Nút Filler : điền giá trị thay trường liệu lưu trữ thay đổi Bạn chọn để thay giá trị dựa điều kiện Clem, chẳng hạn @ BLANK (@ lĩnh vực) Ngồi ra, bạn chọn để thay tất khoảng trống giá trị null với giá trị cụ thể Một nút Filler thường sử dụng với nút Type để thay giá trị tích Nút Anonymize : biến đổi tên trường giá trị đại diện 34 Anonymize cuối cùng, làm liệu gốc Điều hữu ích bạn muốn cho phép người khác xây dựng mơ hình cách sử dụng liệu nhạy cảm, chẳng hạn tên khách hàng chi tiết khác 35 Reclassify Nút Reclassify : biến đổi tập giá trị rời rạc khác Reclassify hữu dụng cho loại liêu bị tập hợp liệu để phân tích 36 Binning Nút Binning (tự động) : tạo trường liệu thiết lập dựa giá trị nhiều trường liệu 37 RFM Analysis Nút RFM Analysis : xác định số lượng mà khách hàng tốt cách kiểm tra gần họ mua cửa hàng bạn (recency), mức độ thường xuyên mua (tần số), có giao dịch (tiền tệ) 38 Partition Nút Partition (phân vùng) tạo phân vùng trường liệu, tách liệu vào tập riêng cho việc đào tạo, thử Phạm Ngọc Hùng – Lớp CT1002 45 , 7/2010 BIỂU TƯỢNG MÔ TẢ nghiệm, giai đoạn xây dựng mơ hình 39 SetToFlag Nút SeToFlag : Tập hợp nhiều trường liệu gốc dựa giá trị cụ thể xác định cho nhiều lĩnh vực thiết lập 40 Restructure Restructure (Cơ cấu lại) chuyển đổi nhóm trường liệu vào nhóm trường dân cư với giá trị trường liệu khác Ví dụ, cho trường liệu đặt tên loại tốn, với giá trị tín dụng, tiền mặt, ghi nợ, ba trường liệu tạo (tín dụng, tiền mặt, thẻ ghi nợ), người mà chứa giá trị thực tế toán thực 41 Transpose Nút Transpose : hoán đổi liệu hàng cột để ghi trở thành trường liệu trường liệu trở thành ghi 42 Time Intervals Nút Time Intervals (khoảng thời gian) : quy định tạo khoảng nhãn (nếu cần) cho liệu mô hình chuỗi thời gian 43 History History tạo trường liệu có chứa liệu từ trường liệu ghi trước Được sử dụng cho liệu tuần tự, chẳng hạn liệu chuỗi thời gian Trước sử dụng nút History, bạn muốn xếp liệu cách sử dụng nút Sort 44 SPSS Nút SPSS Transform : thực biến đổi liệu cách sử Phạm Ngọc Hùng – Lớp CT1002 46 , 7/2010 BIỂU TƯỢNG MÔ TẢ Transform dụng cú pháp lệnh SPSS 45 Field Reorder Nút Field Reorder : xác định trình tự xuất trường liệu trung bình Chúng ảnh hưởng đến hình hiển thị trường loạt địa điểm, chẳng hạn bảng, danh sách, Field Chooser Chúng hữu ích làm việc với tập hợp liệu rộng để làm cho trường liệu rõ ràng 46 Graphboard Nút Graphboard : cung cấp nhiều loại khác đồ thị Sử dụng nút này, bạn chọn trường liệu mà bạn muốn khai thác sau chọn đồ thị từ người có sẵn cho liệu chọn nút tự động lọc loại đồ thị mà không làm việc với lựa chọn trường 47 Collection Nút Collection (sưu tập) cho thấy phân bố giá trị trường số mà liên quan đến giá trị khác (Nó tạo đồ thị tương tự histograms) Đó hữu ích cho việc minh họa biến trường liệu có giá trị thay đổi theo thời gian Sử dụng đồ họa 3-D, bạn bao gồm trục biểu tượng hiển thị phân phối theo thể loại 48 Multiplot Nút Multiplot tạo đồ có hiển thị nhiều trường liệu Y trường liệu X Multiplots hữu ích bạn muốn khám phá biến động biến số theo thời gian 49 Web Nút Web : minh họa phát triển mối quan hệ giá trị hai nhiều biểu tượng Biểu đồ sử dụng đường nối có độ rộng khác để sức mạnh kết nối Bạn sử dụng nút Web ví dụ, để khám phá mối quan hệ việc mua Phạm Ngọc Hùng – Lớp CT1002 47 , 7/2010 BIỂU TƯỢNG MÔ TẢ nhóm hạng mục trang web thương mại điện tử 50 Time Plot Nút Time Plot hiển thị nhiều tập hợp liệu chuỗi thời gian Thông thường, trước tiên bạn sử dụng khoảng thời gian để tạo TimeLabel(bảng thời gian) 51 Evaluation Nút Evaluation : đánh giá so sánh mơ hình dự báo Biểu đồ cho thấy đánh dự đoán kết mơ hình cụ thể Nó loại ghi dựa giá trị dự đoán độ tin cậy dự đốn Nó chia tách ghi thành nhóm có kích thước (quantiles) sau phát họa giá trị tiêu chí kinh doanh cho quantile từ cao đến thấp 52 Binary Classifier Nút Binary Classifier : tạo so sánh số mơ hình khác cho kết nhị phân (có khơng có), cho phép bạn lựa chọn cách tiếp cận tốt cho phân tích cho Một số thuật tốn mơ hình hỗ trợ, làm cho chọn phương pháp bạn muốn sử dụng,và tiêu chuẩn để so sánh kết Các nút tạo tập mơ hình dựa tùy chọn định xếp hạng ứng viên tốt theo tiêu chuẩn mà bạn định 53 Numeric Predictor Nút Numeric : dự đoán số ước lượng so sánh mơ hình cho kết nhiều số liên tục cách sử dụng số phương pháp khác nút hoạt động theo cách thức tương tự nút Binary Classifier, cho phép bạn chọn thuật toán để sử dụng thử nghiệm để kết hợp với nhiều tùy chọn mơ hình thuật toán hỗ trợ bao gồm mạng lưới thần kinh, C & R Tree, CHAID, hồi quy tuyến tính, hồi quy tuyến tính tổng quát, máy vector hỗ trợ (SVM) Mơ hình so sánh dựa tương quan lỗi, số biến sử dụng 54 Time Nút Time Series ước lượng số mũ làm mịn, tích hợp Đường trung bình (Arima), đa biến Arima (hoặc chuyển giao chức năng) Phạm Ngọc Hùng – Lớp CT1002 48 , 7/2010 BIỂU TƯỢNG MÔ TẢ Series mơ hình liệu chuỗi thời gian tạo dự báo hiệu tương lai Một nút Time Series luôn phải trước nút khoảng thời gian 55 QUEST Nút QUEST cung cấp phương pháp phân loại nhị phân để xây dựng định, thiết kế để giảm thời gian xử lý cần thiết cho C & R làm giảm xu hướng tìm thấy phương pháp phân loại để ưu tiên cho phép nhiều dự đoán chia tách 56 CHAID Nút CHAID tạo định sử dụng số liệu thống kê để xác định tối ưu chia tách Không giống C & R Tree QUEST nút CHAID tạo nonbinary, có nghĩa số chia tách có nhiều hai chi nhánh Mục tiêu trường liệu dự đoán nhiều 57 Decision List Nút Decision List xác định nhóm con, phân đoạn, cho thấy khả cao thấp kết nhị phân tương đối so với tổng dân số Bạn kết hợp kiến thức kinh doanh bạn thành mơ hình cách thêm phân đoạn tuỳ chỉnh riêng bạn xem trước mơ hình thay cạnh để so sánh kết bao gồm danh sách quy tắc, quy định điều kiện kết 58 Regression Hồi quy tuyến tính kỹ thuật phổ biến cho thống kê liệu làm cho dự đốn xác làm giảm thiểu sai lệch dự đoán số lượng giá tri thực tế 59 Factor / Các Factor / PCA cung cấp liệu giảm mạnh kỹ thuật để giảm bớt phức tạp liệu phân tích thành phần Phạm Ngọc Hùng – Lớp CT1002 49 , 7/2010 BIỂU TƯỢNG MƠ TẢ PCA (PCA) tìm thấy kết hợp tuyến tính trường nhập liệu Yếu tố phân tích cố gắng xác định yếu tố để giải thích mơ hình tương quan lĩnh vực quan sát Đối với hai phương pháp tiếp cận, mục tiêu tìm thấy số lượng nhỏ lĩnh vực mà hiệu thu tóm tắt thơng tin thiết lập ban đầu lĩnh vực 60 Feature Selection Nút Feature Selection : loại bỏ trường liệu dự báo dựa tiêu chuẩn (chẳng hạn tỷ lệ phần trăm giá trị tích); sau xếp tầm quan trọng yếu tố dự đốn cịn lại liên quan đến mục tiêu Ví dụ, với tập liệu với hàng trăm dự đốn tiềm năng, có nhiều khả có ích kết mơ hình bệnh nhân 61 Discriminant Nút Discriminant làm cho giả định chặt chẽ hồi quy, thay giá trị, bổ sung phân tích hồi quy đáp ứng giả định đặt 62 Logistic Logistic kỹ thuật thống kê để phân loại hồ sơ dựa giá trị trường liệu đầu vào Nó tương tự hồi quy tuyến tính có kết cụ thể rõ ràng thay dải số 63 Genlin Mơ hình generalized linear (tuyến tính tổng qt) mở rộng mơ hình tuyến tính tổng quát để biến phụ thuộc tuyến tính liên quan đến yếu tố thông qua chức liên kết định Hơn nữa, mơ hình cho phép biến phụ thuộc để có phân phối khơng bình thường Nó bao gồm chức số mơ hình thống kê, bao gồm hồi quy tuyến tính, thống kê logic cho liệu Phạm Ngọc Hùng – Lớp CT1002 50 , 7/2010 BIỂU TƯỢNG MÔ TẢ 64 Cox Nút Cox (hồi quy) cho phép bạn xây dựng mơ hình cho tồn tai thời gian Mơ hình tạo chức để dự đoán xác suất kiện quan tâm xảy thời gian định (t) cho giá trị biến có yếu tố dự báo 65 SVM Nút SVM (Support Vector Machine) cho phép bạn phân loại liệu SVM hoạt động tốt với tập liệu lớn 66 Bayes Net Các nút mạng Bayes cho phép bạn xây dựng mơ hình xác suất cách kết hợp quan sát ghi lại liệu với kiến thức thực tế để thiết lập khả xảy 67 SLRM Nút SLRM :cho phép bạn xây dựng mơ hình có trường hợp đơn lẻ, số lượng nhỏ trường hợp 68 GRI Nút phát nguyên tắc liên kết liệu Ví dụ, khách hàng mua dao cạo râu sữa tắm có khả mua kem cạo râu GRI xử lý đầu vào rõ ràng, mục tiêu phải rõ ràng 69 Apriori Nút Apriori lấy quy tắc từ liệu, tạo quy tắc với nội dung thông tin cao Apriori cung cấp năm phương pháp khác quy tắc lựa chọn sử dụng chương trình để xử lý tập liệu lớn hiệu Đối với liệu lớn, Apriori thường phát triển nhanh GRI, khơng giới hạn vào số lượng quy tắc giữ lại, xử lý quy tắc lên đến 32 điều kiện Apriori yêu cầu đầu vào đầu tất trường liệu phải rõ ràng, mang lại hiệu tốt tối ưu hóa cho loại liệu Phạm Ngọc Hùng – Lớp CT1002 51 , 7/2010 BIỂU TƯỢNG MƠ TẢ 70 CARMA Mơ hình CARMA chép quy tắc từ liệu mà không yêu cầu bạn định.Trái ngược với Apriori GRI, nút CARMA cung cấp thiết lập để hỗ trợ xây dựng quy tắc Điều có nghĩa quy tắc tạo sử dụng đa dạng ứng dụng, ví dụ, để tìm danh mục sản phẩm, dịch vụ (tiền đề) mà kết mục mà bạn muốn quảng cáo mùa lễ 71 Sequence Các nút Sequence( trình tự) phát nguyên tắc liên kết liệu theo định hướng thời gian Sequence danh sách mục mà có xu hướng xảy theo thứ tự dự đoán Các nút Sequence dựa thuật toán CARMA nguyên tắc liên kết, sử dụng phương pháp two-pass hiệu cho việc tìm kiếm chuỗi 72 TwoStep Các nút TwoStep sử dụng phương pháp two-step clustering Bước tạo pass thông qua liệu để nén liệu đầu vào quản lý subclusters Bước thứ hai sử dụng phương pháp phân nhóm theo thứ bậc để hợp subclusters thành cụm lớn lớn TwoStep có lợi tự động ước tính số lượng tối ưu cụm cho liệu Nó xử lý loại liệu lớn cách hiệu 73 Anomaly Nút Anomaly phát bất thường trường hợp bất thường, mà khơng phù hợp với mơ hình liệu "normal" 74 Custom Table Nút Custom Table hỗ trợ loạt lựa chọn, bao gồm khả làm chồng liệu, biến lớp, để hiển thị tóm lược cho thống kê lớn, để hiển thị nhiều tập hợp 75 Matrix Nút Matrix tạo bảng cho thấy mối quan hệ trường liệu Nó thường sử dụng để hiển thị mối quan hệ hai trường liệu mang tính tượng trưng, hiển thị mối quan hệ trường flag trường Phạm Ngọc Hùng – Lớp CT1002 52 , 7/2010 BIỂU TƯỢNG MÔ TẢ number 76 Analysis Nút Analysis ( Phân tích) đánh giá khả để tạo mơ hình xác Phân tích nút khác thực so sánh giá trị dự báo giá trị thực tế cho nhiều mơ hình Chúng so sánh mơ hình dự đốn với 77 Data Audit Nút Data Audit (kiểm toán liệu) cung cấp nhìn tồn diện liệu, bao gồm số liệu thống kê tóm tắt, lược đồ histograms phân phối cho trường liêu, thông tin đầu ra, thiếu giá trị Kết hiển thị ma trận xếp sử dụng để tạo kích thước đồ thị nút chuẩn bị liệu 78 Transform Nút Transform( chuyển đổi): cho phép bạn chọn trực quan xem trước kết biến đổi trước áp dụng chúng vào trường liệu lựa chọn 79 Statistics Nút Statistics ( Thống kê) cung cấp thơng tin tóm tắt trường liệu số Nó tính tốn số liệu thống kê tóm tắt cho trường liệu riêng biệt tương quan trường liệu 80 Means Ví dụ, bạn so sánh: doanh thu trước sau thực chương trình khuyến so sánh khoản thu từ khách hàng không nhận khuyến với người làm 81 Report Nút Report( Báo cáo) : tạo báo cáo có chứa định dạng văn cố định liệu biểu thức khác xuất phát từ liệu Bạn rõ định dạng báo cáo cách sử dụng văn mẫu để xác định văn số lượng cơng việc Bạn cung cấp văn cách sử dụng thẻ HTML mẫu cách thiết lập tùy chọn tab đầu Chúng bao gồm giá trị liệu đầu có điều kiện khác Phạm Ngọc Hùng – Lớp CT1002 53 , 7/2010 BIỂU TƯỢNG MÔ TẢ cách sử dụng Clem 82 Set Globals Nút Set Globals quét liệu tính giá trị, sử dụng Clem Ví dụ, bạn sử dụng nút để tính tốn thống kê độ tuổi sau sử dụng tổng số tuổi Clem cách chèn chức @ GLOBAL_MEAN (tuổi) 83 SPSS Output Nút Output SPSS cho phép gọi thủ tục SPSS để phân tích liệu Clementine Một loạt thủ tục có sẵn để phân tích SPSS 84 SPSS Export Nút SPSS Export (xuất liệu đầu SPSS) Định dạng SAV Các File SAV đọc SPSS sản phẩm khác Đây định dạng sử dụng cho tập tin nhớ cache Clementine 85 Dimensions Nút Dimensions (Kích thước) xuất liệu đầu 86 SAS Export Nút SAS Export xuất liệu đầu dạng SAS SAS định dạng tập tin có sẵn: SAS cho Windows/OS2, SAS cho UNIX, SAS Phiên / 87 Publisher Nút Publisher "phiên bản" đóng gói stream thực engine Thời gian chạy bên Phạm Ngọc Hùng – Lớp CT1002 54 , 7/2010 BIỂU TƯỢNG MÔ TẢ nhúng ứng dụng bên ngồi để sử dụng mơi trường sản xuất Phạm Ngọc Hùng – Lớp CT1002 55 ... phương pháp truyền thống Trong phần em áp dụng phần mềm SPSS Clementine để xây dựng mơ hình nhằm khai phá liệu liệu thống kê dân số thành phố Hải Phòng năm 2009, từ rút số tri thức áp dụng thực... DỤNG CLEMENTINE VÀO BÀI TOÁN KHAI PHÁ DỮ LIỆU Sản phẩm phần mềm SPSS Clementine phần mềm hữu ích việc thống kê liệu hỗ trợ khai phá liệu Như biết để tìm kiếm thơng tin, tri thức kho liệu lớn việc... phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Trên sở áp dụng vào khai phá liệu thống kê

Ngày đăng: 06/04/2021, 18:33

w