Nghiên cứu công cụ data mining trong SQL server 2000

26 775 0
Nghiên cứu công cụ data mining trong SQL server 2000

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu công cụ Data Mining SQL Server 2000 Trang MỤC LỤC Giới thiệu Các thuật toán Data Mining Microsoft 3 Xây dựng mô hình Data Mining Analysis Services 2000 .6 3.1 Nguồn liệu cho mô hình data mining 3.2 Tạo mô hình data mining 3.3 Huấn luyện mô hình data mining 3.4 Duyệt qua nội dung mô hình data mining 3.5 Dùng mô hình data mining thực dự báo 12 Kết luận 15 Phụ lục A: Kết thử nghiệm 16 A.1 Kết thực thi thuật toán đònh 16 A.1.1 Kết thực thi Training liên kết bảng16 A.1.2 Kết thực thi Training có liên kết bảng 19 A.2 Kết thực thi thuật toán Clustering (phân lớp) .21 A.2.1 Kết thực thi Training liên kết bảng21 A.2.2 Kết thực thi Training có liên kết bảng 23 Phụ lục B: Một số thuật ngữ .25 Phụ lục C: Chương trình demo 26 Tài liệu tham khảo: 27 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Nghiên cứu công cụ Data Mining SQL Server 2000 Giới thiệu Trong môi trường thương mại điện tử ngày nay, lónh vực data mining ngày thu hút nhiều quan tâm Nhờ vào phương tiện tự động hay bán tự động, data mining khảo sát phân tích lượng lớn liệu để rút mẫu qui luật có ý nghóa Các thông tin giúp công ty kinh doanh chẳng hạn hiểu rõ khách hàng để từ có chiến lược phù hợp nhằm nhằm cải thiện hoạt động tiếp thò, bán hàng hỗ trợ khách hàng Qua nhiều năm hoạt động, công ty kinh doanh tích luỹ sở liệu (CSDL) lớn từ ứng dụng Lập kế hoạch sử dụng nguồn tài nguyên cho hoạt động kinh doanh (Enterprise Resource Planning (ERP)), Quản lý khách hàng (Client Relationship Management (CRM)), hay từ hệ thống điều hành khác Người ta tin có giá trò chưa khai thác tiềm ẩn bên liệu Các kỹ thuật data mining giúp lấy mẫu Gần Microsoft đưa OLE DB cho giao diện lập trình ứng dụng (API) Data Mining với nhiều data mining provider hàng đầu API đònh nghóa ngôn ngữ truy vấn data mining dựa cú pháp SQL Các mô hình data mining (Data Mining Model) xem dạng đặc biệt bảng quan hệ Các tính toán dự báo xem dạng đặc biệt phép kết Microsoft SQL Server 2000 Analysis Services cung cấp Microsoft data mining provider dựa OLE DB cho chuẩn Data Mining Provider gồm hai thuật toán data mining: Microsoft Decision Trees Microsoft Clustering Các thuật toán Data Mining Microsoft Hai thuật toán data mining SQL Server 2000, Microsoft Decision Trees (MDT) Microsoft Clustering, kết nhiều năm nghiên cứu Microsoft Research Sau trình bày tóm tắt hai thuật toán Thuật toán Microsoft Decision Trees (cây đònh) Cây đònh có lẽ kỹ thuật phổ biến cho việc lập mô hình dự báo Bảng sau tập liệu huấn luyện (training data) dùng để dự báo credit risk Customer ID Debt level Income level Employment type Credit risk High High Self-employed Bad High High Salaried Bad High Low Salaried Bad Low Low Salaried Good Low Low Self-employed Bad Low High Self-employed Good Nghiên cứu công cụ Data Mining SQL Server 2000 Low High Salaried Trang Good Sau đònh tạo từ tập liệu này: Trong ví dụ này, thuật toán Decision Tree xác đònh thuộc tính quan trọng Debt level, rẽ nhánh thực dựa debt level Node với Debt = High node (cả ba trường hợp bad credit risk) Node với Debt = Low lẫn lộn (3 trường hợp good credit risk, trường hợp bad credit risk) Tiếp theo, Employment thuộc tính quan trọng Tương tự node với Employment = Salaried node Trên ví dụ nhỏ dựa vào liệu tổng hợp, cho thấy đònh dùng thuộc tính có liên quan để dự báo credit risk Khi phạm vi vấn đề mở rộng gây khó khăn cho việc rút luật cách thủ công Thuật toán chạy hàng trăm thuộc tính hàng triệu record để đưa đònh mô tả luật dự báo credit risk Có nhiều thuật toán khác với phương pháp rẽ nhánh khác dùng để xây dựng đònh Microsoft Decision Tree phân lớp theo xác suất (Probabilistic Classification Tree) Nó giống với C4.5, mặc đònh dùng Bayesian score làm tiêu chuẫn rẽ nhánh thay Entropy Thuật toán Microsoft Clustering Clustering nghóa tìm nhóm (hay cluster) tập liệu gồm tập có record tương tự Nó khác với mô hình dự báo chỗ thuộc tính đích tập liệu Thuật toán clustering đònh thuộc tính “ẩn” cách khảo sát tập liệu Có nhiều phương pháp phân nhóm liệu Các thuật toán phổ biến K-Means, phương pháp khối liên kết nhiều tầng, lập mô hình pha trộn cách dùng thuật toán Expectation-Maximization (EM) để liên Nghiên cứu công cụ Data Mining SQL Server 2000 Trang kết mô hình pha trộn theo xác suất tới tập liệu Các record tập liệu thuộc cluster khác tuỳ thuộc vào cách thiết lập giới hạn Xét CSDL nhân viên, nhân viên gồm ba thuộc tính: age, salary, vested amount Người sử dụng muốn có bảng độ tuổi trung bình nhân viên có vested amount khoảng 100K-200K, 200K-400K, 400K-1000K có lương khoảng 50K-100K, 100K-200K, 200K-300K Đây loại liệu ba chiều Các record liệu n-chiều xem điểm không gian nchiều Chẳng hạn, record dạng (age, salary) xem điểm không gian 2-chiều, với chiều age chiều salary Hình 3a 3b minh hoạ hai cách biểu diễn cho ví dụ Việc tìm cluster không gian nhiều chiều (4 chiều hay lớn hơn) phức tạp người Nếu đơn giản biểu diễn liệu điểm không giúp ích nhiều Tuy nhiên, thuật toán clustering tự động tìm cluster tập liệu Mỗi cluster thể phân bố Thuật toán Microsoft Clustering có sở thuật toán Expectation and Maximization (EM) Thuật toán lặp lặp lại hai bước Trong bước đầu tiên, gọi bước E hay “Expectation”, thành phần cluster trường hợp tính Trong bước thứ hai, gọi bước M hay “Maximization”, thông số (parameter) mô hình ước lượng lại dựa vào thành phần cluster EM tương tự với K-Means, với bước sau đây: Thiết lập phương tiện khởi tạo Gán trường hợp cho phương tiện cách sử dụng vài độ đo khoảng cách Tính phương tiện dựa vào thành viên cluster Thiết lập biên cho vùng chứa dựa vào phương tiện Lặp lại chu kỳ hội tụ EM khác với K-Means nhiều khía cạnh Điểm khác biệt chủ yếu EM không xác đònh biên rõ ràng cluster Một trường hợp gán cho cluster với Nghiên cứu công cụ Data Mining SQL Server 2000 Trang xác suất Sau minh hoạ vài lần lặp thuật toán EM cho tập liệu chiều Giả sử liệu cluster có phân bố Gauss Các phương tiện cluster hoán đổi sau lần lặp Hầu hết thuật toán Clustering phải đọc tất trỏ liệu vào nhớ, điều gây vấn đề nghiêm trọng khả tải nhớ xử lý tập liệu lớn Để giải vấn đề này, thuật toán Microsoft Clustering dùng phạm vi sở, chọn lựa lưu trữ phần CSDL quan trọng tóm tắt phần khác Tư tưởng chủ đạo đọc liệu vào vùng nhớ theo khối dựa vào mô hình data mining cập nhật để gom trường hợp gần dựa vào phân bố Gauss, trường hợp nén lại Thuật toán Microsoft Clustering cần lần duyệt qua liệu thô Xây dựng mô hình Data Mining Analysis Services 2000 3.1 Nguồn liệu cho mô hình data mining Xét câu hỏi: khách hàng có nhiều nguy rời bỏ ngân hàng dựa thông tin khách hàng, thông tin giao dòch họ với ngân hàng Để trả lời câu hỏi này, bảng CSDL quan hệ sau dùng đến: - Bảng Customer: chứa thông tin khách hàng ngân hàng bao gồm: age (tuổi khách hàng), income (thu nhập), educational level (trình độ học vấn), house value (giá trò nhà), loan (nợ),… - Bảng Purchases: chứa thông tin giao dòch khách hàng bao gồm: checking accounts (tài khoản vãng lai), money market savings (tiền gởi tiết kiệm), … Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Mô hình quan hệ cho hai bảng sau: 3.2 Tạo mô hình data mining Khi tạo mô hình data mining (DMM), bạn phải đònh nghóa cấu trúc thuộc tính cho mô hình Để đònh nghiã DMM Microsolf OLE DB for Data Mining API, dùng lệnh CREATE DATA MINING MODEL Tương tự lệnh CREATE TABLE, lệnh tạo mô hình đònh nghóa cấu trúc thuộc tính nó, hoàn toàn liệu Cũng tương tự thế, lệnh đònh nghóa khoá, cột, thuật toán dùng tham số dùng cho việc huấn luyện DMM sau Cú pháp đònh nghóa mô hình data mining: CREATE MINING MODEL () USING [()] Tuy nhiên, cột DMM yêu cầu thông tin đặc thù, nên có số mở rộng đưa vào cú pháp SQL chuẩn Sau ví dụ áp dụng cho cấu trúc bảng mô tả trên: CREATE MINING MODEL [Model_MDT_Churn_Prediction] ([Customer Id] LONG KEY, [Income] DOUBLE CONTINUOUS , [Other Income] DOUBLE CONTINUOUS , [Loan] DOUBLE CONTINUOUS , [Age] DOUBLE CONTINUOUS , [Region Name] TEXT DISCRETE , [Home Years] DOUBLE CONTINUOUS , [House Value] DOUBLE CONTINUOUS , [Education Level] TEXT DISCRETE , [Home Type] TEXT DISCRETE , [Churn Yes No] TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Các từ khoá LONG, DOUBLE TEXT đònh nghóa kiểu liệu cột Tuy nhiên có vài mở rộng so với SQL chuẩn Từ khoá KEY đònh cột (các cột) làm khoá Hai từ khoá CONTINUOUS (liên tục) DISCRETE (rời rạc) hai giá trò có cho cột nội dung Từ khoá PREDICT đònh cột kết dự báo Chú ý: bạn tạo mô hình data mining từ Analysis Manager, lệnh CREATE MINING MODEL phát sinh tự động 3.3 Huấn luyện mô hình data mining Sau tạo mô hình data mining, bước huấn luyện mô hình Huấn luyện mô hình nghóa chạy mô hình liệu dùng để huấn luyện (training data) cách dùng thuật toán đặc thù Đây bước tốn nhiều thời gian Thuật toán lặp lại vài lần tập liệu huấn luyện để tìm mẫu ẩn bên tập liệu OLE DB for Data Mining API che giấu phức tạp việc huấn luyện mô hình cách cung cấp lệnh INSERT lệnh dùng để huấn luyện Mặc dù có lượng liệu khổng lồ đưa vào mô hình data mining giai đoạn này, không lưu trữ liệu nào, thay vào lưu trữ mẫu chúng Khi mô hình huấn luyện, ứng dụng khách duyệt qua nội dung mô hình thực truy vấn tập liệu Cú pháp lệnh INSERT: INSERT [INTO] [ ] Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Ví dụ: Huấn luyện cho mô hình Model_MDT_Churn_ Prediction tạo INSERT INTO [Model_MDT_Churn_ Prediction] (SKIP, [Income], [Other Income], [Loan], [Age], [Region Name], [Home Years], [House Value], [Education Level], [Home Type], [Churn Yes No]) OPENROWSET(‘SQLOLEDB’, ’…’, SELECT DISTINCT [CustomerID], [Income], [OtherIncome], [Loan], [Age], [RegionName], [HomeYears], [HouseValue], [EducationLevel], [HomeType], [Churn_Yes_No] FROM Customers) 3.4 Duyệt qua nội dung mô hình data mining Khi mô hình huấn luyện, từ Analysis Manager bạn duyệt qua nội dung mô hình dùng tree browser Trong browser này, nội dung hiển thò dạng đồ hoạ, cho phép lướt qua phần nội dung khác Nội dung DMM tập luật, công thức, phân lớp, phân bố, node, hay thông tin khác có nguồn gốc từ tập liệu đặc biệt cách dùng kỹ thuật data mining Tuỳ theo kỹ thuật data mining dùng tạo DMM mà loại nội dung khác mô hình Nội dung DMM đònh khác với nội dung DMM clustering Duyệt qua nội dung mô hình cung cấp kiến thức quan trọng bên liệu Trong nhiều trường hợp, cho phép nhà phân tích liệu hiểu mẫu qui luật dự đoán đặc điểm liệu Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 10 Sau mẫu tìm thấy thuật toán Decision Trees chạy tập liệu huấn luyện: Ta duyệt qua tất trường hợp có mô hình Xét mô hình DMM với cột sau: Gender (giới tính), Age (tuổi) HairColor (màu tóc) Sau mô hình huấn luyện, cột Gender có trạng thái (giá trò) “Male” (nam), “Female” (nữ), “Missing” (không biết) Đối với cột HairColor, DMM nhìn thấy ghi nhớ giá trò “Black”, “Gray”, “Missing” Đối với cột Age, DMM thấy tất giá trò liên tục nó, không ghi nhớ giá trò phân biệt mà ghi nhớ giá trò minimum (nhỏ nhất), mean (trung bình), maximum (lớn nhất) Giả sử mô hình xây dựng để dự báo cột HairColor từ tập liệu 100 người, nội dung DMM sau: Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 11 Câu truy vấn: SELECT *, PredictProbability(HairColor) FROM HairColorPredictDMM Có kết sau: Gender Age HairColor P(HairColor) Male Black 667 Male Gray 267 Male NULL 067 Male 91 Black 300 Male 91 Gray 625 Male 91 NULL 075 Male 45 Black 667 Male 45 Gray 267 Male 45 NULL 067 Male NULL Black 600 Male NULL Gray 350 Male NULL NULL 05 Female Black 933 Female Gray 067 Female NULL 000 Female 91 Black 300 Female 91 Gray 625 Female 91 NULL 075 Female 45 Black 933 Female 45 Gray 067 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 13 [WHERE ] Mệnh đề : đònh tập liệu có thuộc tính dự báo cách kết hợp tập với tri thức mô hình DMM PREDICTION JOIN: trường hợp thực tế từ kết hợp với tập trường hợp có từ mô hình thông qua phép toán PREDICTION JOIN Sự kết hợp trường hợp liệu nguồn với tất trường hợp có thông qua PREDICTION JOIN mặt ngữ nghóa khác với phép kết CSDL quan hệ chuẩn, lý đơn giản sau đây: - Các trường hợp DMM tất giá trò có thuộc tính (cột) có kiểu dạng CONTINUOUS, nhiên PREDICTION JOIN phải kết hợp giá trò continuous xác trường hợp liệu nguồn với giá trò phân bố DMM Với ví dụ tập tất trường hợp có nêu trên, lệnh sau trả record trường hợp có DMM có cột Age chứa giá trò “Minimum”, “Mean”, “Maximum”, “Missing” ứng với (2, 45, 91, “Missing”): SELECT * FROM GenderPredictDMM WHERE Gender = 'Male' AND Age = 30 Tuy nhiên, PREDICTION JOIN sử dụng đònh mô tả cho mô hình tìm thấy phân bố HairColor cho phái nam 30 tuổi sau: Black = 667, Grey = 267, Missing = 067 - Các trường hợp DMM thể đầy đủ giá trò có cho cột dùng để dự báo, người thực dự báo thường mong đợi giá trò đơn “tốt nhất” Xét câu truy vấn sau: SELECT * FROM GenderPredictDMM WHERE Gender = 'Male' AND Age = 45 Kết sau: Gender Age HairColor Male 45 Black Male 45 Gray Male 45 NULL - PREDICTION JOIN cần có vài ràng buộc giả đònh gặp giá trò không xác đònh (missing) trường hợp nguồn Một PREDICTION JOIN mô hình đơn giản trường hợp mà age 30, gender không biết, cho kết HairColor “Black” với xác suất 80% Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 14 Tổng quát, PREDICTION JOIN chọn trường hợp từ tập liệu input, dựa vào điều kiện mô tả mệnh đề ON để tìm tập trường hợp tương ứng DMM Mệnh đề : tập phát biểu phân cách dấu phẩy, phát biểu cột đơn giản dùng để tham chiếu, hay chứa chức dự báo Các cột tham chiếu từ DMM hay từ truy vấn liệu nguồn ON Điều kiện kết: dòng tập trường hợp có DMM nhất, nên kết với dòng truy vấn nguồn trường hợp thực thông qua mệnh đề từ khoá ON Điều kiện kết kết hợp cột DMM với cột truy vấn nguồn Điều kiện kết có phát biểu “=” cho cột kết, phát biểu nối với qua từ khoá AND trường có nhiều cột kết Mệnh đề WHERE : giới hạn trường hợp trả từ truy vấn dự báo Ví dụ: Hãy dự báo khách hàng có nhiều nguy rời bỏ ngân hàng (=80%) dựa thông tin khách hàng: SELECT FLATTENED [T1].[CustomerID], [T1].[Income], T1.[OtherIncome], [T1].[Loan], [T1].[Age], [T1].[RegionName], [T1].[HomeYears], [T1].[HouseValue], [T1].[EducationLevel], [T1].[HomeType], [T1].[Churn_Yes_No]) FROM [Model_MDT_Churn_Prediction] AS [M1] PREDICTION JOIN OPENROWSET('SQLOLEDB', ’…;data source=D:\customer.mdb', SELECT DISTINCT [CustomerID], [Income], [OtherIncome], [Loan], [Age], [RegionName], [HomeYears], [HouseValue], [EducationLevel], [HomeType], [Churn_Yes_No] FROM Customers) AS [T1] ON [M1] [Customer Id]= [T1] [CustomerID] WHERE PredictProbability([M1] [Churn_Yes_No]) > 0.8 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 15 Kết luận Data mining nhanh chóng trở thành kỹ thuật phân tích sử dụng rộng rãi Báo cáo mô tả hai thuật toán data mining SQL Server 2000 Analysis Services: Microsoft Decision Trees (MDT) Microsoft Clustering Báo cáo đưa cách xây dựng mô hình data mining giúp giải vấn đề kinh doanh Các kết thực nghiệm huấn luyện mô hình data mining, dùng hai thuật toán với thiết lập thông số khác trình bày phụ lục A Các kết chứng tỏ hai thuật toán thực thi nhanh áp dụng tập liệu lớn Chẳng hạn, thuật toán Microsoft Decision Trees tốn khoảng 100 phút để huấn luyện mô hình data ming với 10 triệu trường hợp 25 thuộc tính Với SQL Server 2000 Analysis Services, data mining không đặc quyền nhà thống kê Người sử dụng không cần biết đến phức tạp thuật toán data mining Mỗi người phát triển CSDL có khả tạo huấn luyện mô hình data mining nhúng tính nâng cao vào ứng dụng họ Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 16 Phụ lục A: Kết thử nghiệm Sau nhóm xin trình bày trình chạy thử nghiệm dùng hai thuật toán đònh thuật toán clustering Việc hiểu rõ tác động yếu tố tới thời gian thực thi thuật toán giúp nhà phát triển có lựa chọn mô hình tối ưu nhất, giảm thiểu thời gian thực thi máy Khi thực thi thuật toán, yêu tố sau ảnh hưởng tới thời gian thực thi: - Số trường hợp - Số lượng thuộc tính - Số trạng thái (giá trò) - Số trạng thái thuộc tính liên kết - Sự thưa thớt bảng (sparseness of the table) - Số lượng phân lớp thuật toán phân lớp Trong thử nghiệm sau, thông số thay đổi, thông số khác giữ nguyên Thời gian thực hiên cho biết tác động yếu tố thay đổi tới trình thực thi thuật toán A.1 Kết thực thi thuật toán đònh A.1.1 Kết thực thi Training liên kết bảng Thường sau chuẩn bò liệu, liệu nằm bảng Và dự đoán thường dựa bảng Tác động số lượng thuộc tính tham gia dự đoán (input Attributes) Các thông số Training cases Predictable Attribute Input Attributes Number of states Số lượng 000 000 Varying :10, 20, 50, 100, 200 25 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 17 Nhận xét : - Thời gian thực thi tăng tuyến tính số lượng thuộc tính tăng - Thời gian thực thi nhanh : 130 phút cho triệu trường hợp với 200 thuộc tính Tác động kích thước liệu ( số trường hợp) Các thông số Training cases Predictable Attribute Input Attributes Number of states Số lượng Varying :10 000 đến 10 triệu 20 25 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 18 Nhận xét : - Thời gian thực thi tăng tuyến tính số lượng trường hợp tăng - Thời gian thực thi nhanh : 20 giây cho 10 000 trường hợp và100 phút cho 20 triệu trường hợp Tác động số lượng trạng thái thuộc tính tham gia dự đoán Các thông số Training cases Predictable Attribute Input Attributes Number of states Số lượng triệu 20 Varying : 2,5,10,25,50 Nhận xét : - Thời gian thực thi tăng tuyến tính số lượng trạng thái nhỏ 10 - Khi số lượng trạng thái tăng, thuật toán khó khăn việc xác đònh liệu hữu dụng tạo Khi chiều cao giảm dẫn đến thời gian training giảm Tác động số lượng thuộc tính cần phải dự đoán ( Predictable Attributes) Các thông số Training cases Predictable Attribute Input Attributes Number of states Số lượng triệu Varying :1,2,4,16,32 40 25 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 19 Nhận xét: thời gian thực thi tăng mạnh tuyến tính tuỳ thuộc vào số lượng thuộc tính dự đoán Nguyên có nhiều thuộc tính cần dự đoán việc tạo làm song song A.1.2 Kết thực thi Training có liên kết bảng Bảng kết hợp khái niệm giới thiệu OLE DB cho Data mining Đây đặc tính mạnh, cho phép trả lời nhiều câu hỏi dự đoán phức tạp Ví dụ câu hỏi liệt kê sản phẩm khác hấp dẫn khách hàng dựa vào sản phẩm mà họ mua Nếu khái niệm bảng kết hợp việc phân tích liệu cho câu hỏi khó khăn Tác động số lượng trạng thái thuộc tính bảng kết hợp Các thông số Case table Training cases Predictable Attribute Input Attributes Number of states Nested table Input Attributes Number of states ( banking product) Products perchased per Custommer Số lượng 200 000 25 Varying: 100 đến 1000 Ỉ50 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 20 Nhận xét : - Thời gian thực thi nhiều thời gian bảng kết hợp - Khi số lượng sản phẩm tăng 255 thời gian bắt đầu giảm Nguyên thuật toán sử dụng kỹ thuật lựa chọn đặc điểm để lọc thông tin quan trọng nhất, sản phẩm lại dùng mô hình lề (marginal model) - Khi số lượng gía trò khoá bảng kết hợp nhiều hơn, mức độ giao dòch khách hàng trì cũ trò khoá bảng kết hợp phân bố thưa Do đó, có mẫu liên quan cho khoá Cây trở nên nhỏ hơn, thời gian training giảm Tác động số lượng sản phẩm mà khách hàng mua Các thông số Case table Training cases Predictable Attribute Input Attributes Number of states Nested table Input Attributes Number of states ( banking product) Products perchased per Custommer Số lượng 200 000 25 1000 10 Ỉ50 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 21 Nhận xét: thời gian thực thi tăng tuyến tính Tác động số lượng trường hợp bảng Các thông số Số lượng Case table Training cases Predictable Attribute Input Attributes Number of states Varying 10 000 Ỉ 200 000 25 Nested table Input Attributes Number of states ( banking product) Products perchased per Custommer 20 25 Nhận xét : thời gian thực thi tăng tuyến tính A.2 Kết thực thi thuật toán Clustering (phân lớp) A.2.1 Kết thực thi Training liên kết bảng Tác động số lượng phân lớp (Number of clusters) Nghiên cứu công cụ Data Mining SQL Server 2000 Các thông số Training cases Predictable Attribute Input Attributes Number of states Identifiable clusters Trang 22 Số lượng 000 000 20 20 5,10,20 Nhận xét: thời gian thực thi gần tuyến tính Thực tương tự đối với: Tác động số lượng thuộc tính tham gia dự đoán Các thông số Training cases Predictable Attribute Input Attributes Number of states Identifiable clusters Số lượng 000 000 20 20 10 Nhận xét : - Thời gian thực thi tăng tuyến tính Với triệu trường hợp, tốn khoảng 230 phút với 50 thuộc tính input - Đối với biến liên tục tốn nhiều thời gian training so với biến rời rạc Nguyên tính toán lân cận cho biến liên tục phức tạp so với biến rời rạc Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 23 Tác động kích thước liệu ( số trường hợp) Các thông số Training cases Predictable Attribute Input Attributes Number of states Identifiable clusters Số lượng 10 000,25 000, 50 000, 75 000, 100 000, triệu 20 50 10 Nhận xét : - Thời gian thực thi tăng tuyến tính - Tốn 100 phút cho triệu trường hợp 910 phút cho 10 triệu trường hợp Thuật toán Microsoft Clustering chậm khoảng lần so với thuật toán MDT trường hợp Thực tương tự Tác động số lượng trạng thái thuộc tính tham gia dự đoán A.2.2 Kết thực thi Training có liên kết bảng Tác động số lượng trạng thái thuộc tính bảng kết hợp Các thông số Case table Training cases Predictable Attribute Input Attributes Number of states Nested table Input Attributes Number of states ( banking product) Products perchased per Custommer Số lượng 200 000 20 Varying: 100 đến 1000 25 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 24 Nhận xét : - Thời gian training giảm số lượng trạng thái tăng Có hai lý dẫn đến kết Thứ nhất, thuật toán lựa chọn thuộc tính ngăn cản số thuộc tính tăng vượt 255 Thư hai, số thuộc tính giảm, mật độ phân bố liệu thấp Kết có không đủ mẫu cho thuật toán để xác đònh cluster tạo thành, thuật toán dùng lần lặp - Số thuộc tính input lúc giảm chọn lựa đặc điểm Một vài thuộc tính nhóm lại với phân bố thưa thớt liệu Thực tương tự đối với: Tác động số lượng sản phẩm mà khách hàng mua Tác động số lượng trường hợp bảng Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 25 Phụ lục B: Một số thuật ngữ Phần giới thiệu ngắn gọn số thuật ngữ data mining Các thuật ngữ giới thiệu Microsoft OLE DB for Data Mining specification Data Mining Model (mô hình data mining): Một data mining model tương tự với bảng quan hệ Nó chứa cột khoá, cột input, cột dự báo Một mô hình gắn với thuật toán data mining Sau giai đoạn huấn luyện, mô hình data mining lưu trữ mẫu khám phá thuật toán data mining tập liệu dùng cho việc huấn luyện Một mô hình data mining xem “bảng thực sự” chứa dòng ứng cho kết hợp có giá trò phân biệt cột mô hình Khi huấn luyện, mô hình dùng cho việc dự báo Columns (cột): Một cột mô hình data mining tương tự với cột bảng quan hệ, gọi “biến” hay “thuộc tính” Có ba loại cột khác mô hình data mining: cột input, cột dự báo, hay cột input dự báo Mô hình data mining sử dụng tập thuộc tính input trường hợp để dự báo thuộc tính output Trong báo cáo này, cột thuộc tính dùng States (trạng thái): Mỗi thuộc tính có tập giá trò có Các giá trò gọi trạng thái thuộc tính Cases (trường hợp): Data mining liên quan đến việc phân tích trường hợp Một trường hợp thực thể thông tin Một trường hợp đơn giản, chẳng hạn phân tích loan risk khách hàng, thông tin khách hàng trường hợp Một trường hợp phức tạp hơn, chẳng hạn mô hình data mining dự báo danh sách sản phẩm khách hàng mua dựa vào thông tin khách hàng thông tin giao dòch họ Mô hình kết kết hợp thông tin khách hàng với danh sách sản phẩm mà họ mua Loại trường hợp gọi trường hợp kết hợp (nested case) Trong báo cáo này, thuật ngữ “kích thước mẫu” (sample size) dùng để số trường hợp Case Tables (bảng trường hợp) Nested Tables (bảng kết hợp): Bảng trường hợp bảng chứa thông tin trường hợp liên quan với phần liệu không kết hợp Bảng kếp hợp là bảng chứa thông tin liên quan đến phần liệu kết hợp Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 26 Phụ lục C: Chương trình demo - Chương trình demo download tại: http://download.microsoft.com/download/biztalkserver/book/1.0/nt5xp/enus/sql2kdatamining.msi Chương trình có kích thước 32 MB, xuất tháng 9-2002 - Đóa mềm đính kèm lưu file word báo cáo Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 27 Tài liệu tham khảo: [1]Performance Study of Microsoft Data Mining Algorithms Sanjay Soni - UNISYS Zhaohui Tang - Microsoft Jim Yang – Microsoft [2]Các Hệ Cơ sỏ tri thức GS.TSKH : Hoàng Kiếm TS:Đỗ Văn Nhơn ThS: Đỗ Phúc 2002 [3]Knowledge-Based System for Engineers and Scientists Adrian A.Hopegood 1993 [4] OLE DB for Data Mining Specification Version 1.0 Microsoft Corporation JULY 2000 [...]... khách hàng mua Tác động của số lượng các trường hợp trong bảng chính Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 25 Phụ lục B: Một số thuật ngữ Phần này giới thiệu ngắn gọn một số thuật ngữ data mining Các thuật ngữ này được giới thiệu trong Microsoft OLE DB for Data Mining specification Data Mining Model (mô hình data mining) : Một data mining model thì tương tự với một bảng quan hệ Nó... hình data ming với 10 triệu trường hợp và 25 thuộc tính Với SQL Server 2000 Analysis Services, data mining không còn là đặc quyền của các nhà thống kê Người sử dụng không cần biết đến các phức tạp của các thuật toán data mining Mỗi người phát triển CSDL đều có khả năng tạo và huấn luyện các mô hình data mining và nhúng các tính năng nâng cao vào các ứng dụng của họ Nghiên cứu công cụ Data Mining trong. .. download tại: http://download.microsoft.com/download/biztalkserver/book/1.0/nt5xp/enus /sql2 kdatamining.msi Chương trình này có kích thước là 32 MB, được xuất bản tháng 9-2002 - Đóa mềm đính kèm lưu file word của báo cáo này Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 27 Tài liệu tham khảo: [1]Performance Study of Microsoft Data Mining Algorithms Sanjay Soni - UNISYS Zhaohui Tang - Microsoft... OPENROWSET('SQLOLEDB', ’… ;data source=D:\customer.mdb', SELECT DISTINCT [CustomerID], [Income], [OtherIncome], [Loan], [Age], [RegionName], [HomeYears], [HouseValue], [EducationLevel], [HomeType], [Churn_Yes_No] FROM Customers) AS [T1] ON [M1] [Customer Id]= [T1] [CustomerID] WHERE PredictProbability([M1] [Churn_Yes_No]) > 0.8 Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 15 4 Kết luận Data mining. .. này mô tả hai thuật toán data mining trong SQL Server 2000 Analysis Services: Microsoft Decision Trees (MDT) và Microsoft Clustering Báo cáo cũng đưa ra cách xây dựng các mô hình data mining giúp giải quyết các vấn đề trong kinh doanh Các kết quả thực nghiệm trong huấn luyện các mô hình data mining, dùng cả hai thuật toán với các thiết lập các thông số khác nhau được trình bày trong phụ lục A Các kết... giữa một mô hình đơn giản và một trường hợp mà trong đó age là 30, gender không biết, sẽ cho kết quả của HairColor là “Black” với xác suất là 80% Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 14 Tổng quát, PREDICTION JOIN sẽ chọn một trường hợp từ tập dữ liệu input, và dựa vào điều kiện mô tả trong mệnh đề ON để tìm tập các trường hợp tương ứng trong DMM Mệnh đề : là... table Input Attributes Number of states ( banking product) Products perchased per Custommer Số lượng 200 000 1 5 25 5 1000 10 Ỉ50 Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 21 Nhận xét: thời gian thực thi tăng tuyến tính Tác động của số lượng các trường hợp trong bảng chính Các thông số Số lượng Case table Training cases Predictable Attribute Input Attributes Number of states Varying... FROM PREDICTION JOIN ON Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 13 [WHERE ] Mệnh đề : chỉ đònh tập dữ liệu mới có các thuộc tính được dự báo bằng cách kết hợp tập này với tri thức trong mô hình DMM PREDICTION JOIN: các trường hợp thực tế từ được kết... (nested case) Trong báo cáo này, thuật ngữ “kích thước mẫu” (sample size) được dùng để chỉ số các trường hợp Case Tables (bảng trường hợp) và Nested Tables (bảng kết hợp): Bảng trường hợp là bảng chứa thông tin trường hợp liên quan với phần dữ liệu không được kết hợp Bảng kếp hợp là là bảng chứa thông tin liên quan đến phần dữ liệu được kết hợp Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang... toán sẽ khó khăn trong việc xác đònh dữ liệu hữu dụng khi tạo cây Khi đó chiều cao của cây giảm và dẫn đến thời gian training giảm Tác động của số lượng các thuộc tính cần phải dự đoán ( Predictable Attributes) Các thông số Training cases Predictable Attribute Input Attributes Number of states Số lượng 1 triệu Varying :1,2,4,16,32 40 25 Nghiên cứu công cụ Data Mining trong SQL Server 2000 Trang 19 Nhận .. .Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Nghiên cứu công cụ Data Mining SQL Server 2000 Giới thiệu Trong môi trường thương mại điện tử ngày nay, lónh vực data mining ngày... 0.8 Nghiên cứu công cụ Data Mining SQL Server 2000 Trang 15 Kết luận Data mining nhanh chóng trở thành kỹ thuật phân tích sử dụng rộng rãi Báo cáo mô tả hai thuật toán data mining SQL Server 2000. .. savings (tiền gởi tiết kiệm), … Nghiên cứu công cụ Data Mining SQL Server 2000 Trang Mô hình quan hệ cho hai bảng sau: 3.2 Tạo mô hình data mining Khi tạo mô hình data mining (DMM), bạn phải đònh

Ngày đăng: 03/01/2016, 19:29

Mục lục

  • 2. Các thuật toán Data Mining của Microsof

  • 3. Xây dựng các mô hình Data Mining bằng

    • 3.1. Nguồn dữ liệu cho mô hình data minin

    • 3.2. Tạo mô hình data mining

    • 3.3. Huấn luyện mô hình data mining

    • 3.4. Duyệt qua nội dung của mô hình data m

    • 3.5. Dùng mô hình data mining thực hiện d

    • Phụ lục A: Kết quả thử nghiệm

      • A.1. Kết quả thực thi trên thuật toán c

        • A.1.1. Kết quả thực thi Training khi không

        • A.1.2. Kết quả thực thi Training khi có s

        • A.2. Kết quả thực thi trên thuật toán C

          • A.2.1. Kết quả thực thi Training khi không

          • A.2.2. Kết quả thực thi Training khi có s

          • Phụ lục B: Một số thuật ngữ

          • Phụ lục C: Chương trình demo

          • Tài liệu tham khảo:

Tài liệu cùng người dùng

Tài liệu liên quan