Khai phá dữ liệu dùng MS SQL Server 2012

43 812 2
Khai phá dữ liệu dùng MS SQL Server 2012

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Lớp Cao Học khóa 5 ngành Khoa Học Máy Tính 11.2012 BÀI THU HOẠCH MÔN HỌC Khai phá dữ liệu và kho dữ liệu Đề tài Khai phá dữ liệu dùng MS SQL Server 2012 Giảng viên hướng dẫn: PGS-TS Đỗ Phúc Người thực hiện: Trần Kim Hoàng Quốc (CH1001062) 42 Mục lục 1.Giới thiệu 4 1.1Các giải thuật KPDL trong SQL Server Analysis Service 4 1.2Lựa chọn đúng giải thuật 5 1.2.1Chọn theo loại giải thuật 5 1.2.2Chọn theo tác vụ 6 2.Tìm hiểu các giải thuật KPDL trong SSAS 7 2.1Giải thuật Luật kết hợp 7 2.1.1Sơ lược về giải thuật 7 2.1.2Hiện thực giải thuật 8 2.1.3Cấu hình cho mô hình luật kết hợp 9 2.2Giải thuật Gom cụm 11 2.2.1Sơ lược về giải thuật 11 2.2.2Hiện thực giải thuật 11 2.2.3Cấu hình cho mô hình Gom cụm 13 2.3Giải thuật Cây quyết định 14 2.3.1Sơ lược về giải thuật 14 2.3.2Hiện thực giải thuật 15 2.3.3Cấu hình cho mô hình 15 2.4Giải thuật Naive Bayes 16 2.4.1Sơ lược về giải thuật 16 2.5Giải thuật Hồi quy tuyến tính 17 2.5.1Sơ lược về giải thuật 17 2.6Giải thuật Hồi quy logic 17 2.6.1Sơ lược về giải thuật 17 2.7Giải thuật Neural Network 17 2.7.1Sơ lược về giải thuật 17 2.8Giải thuật Gom cụm dãy 17 2.8.1Sơ lược về giải thuật 17 2.9Giải thuật Chuỗi thời gian 17 2.9.1Sơ lược về giải thuật 17 42 3.Cách sử dụng SSAS 2012 và các giải thuật để khai phá dữ liệu 18 3.1Chuẩn bị Analysis Services database 18 3.1.1Tạo Analysis Services project 18 3.1.2Định nghĩa Data Source 19 3.1.3Định nghĩa Data Source View 19 3.2Tạo cấu trúc KPDL 20 3.2.1Tạo cấu trúc cho mô hình KPDL 20 3.2.2Data Type và Content Type 22 3.2.3Dữ liệu thử nghiệm 23 3.3Thêm và xử lý các mô hình 23 3.4Khám phá các mô hình 26 3.4.1Khảo sát kết quả của Cây quyết định 28 3.4.2Khảo sát kết quả của Gom cụm 30 3.4.3Khảo sát kết quả của Naive Bayes 34 3.5Thử nghiệm các mô hình 37 3.5.1Kiểm tra độ chính xác với Lift chart 37 3.5.2Kiểm thử với mô hình sàng lọc 38 3.6Thực hiện dự đoán 39 3.6.1Chuẩn bị dữ liệu 40 3.6.2Thiết kế câu truy vấn và xem kết quả 41 4.Kết luận 42 5.Tài liệu tham khảo 43 42 Khám phá tri thức trong lượng dữ liệu khổng lồ là một trong những xu hướng công nghệ nổi bật hiện nay. Các giải thuật khai phá dữ liệu đã ra đời từ 20 năm về trước đã và đang được ứng dụng nhiều trong nghiên cứu khoa học và công nghệ. Có một số ứng dụng có thể thấy trong đời sống như khai thác dữ liệu phục vụ cho bán hàng, tiếp thị. Tuy nhiên dường như có rất ít doanh nghiệp sử dụng hiệu quả công cụ này. Bài thu hoạch này đặt mục tiêu tìm hiểu các giải thuật khai thác dữ liệu, đồng thời thực hiện triển khai các giải thuật ấy trên một công cụ thực tế, để có thể nhận ra được khả năng ứng dụng kiến thức về giải thuật kết hợp với sức mạnh công cụ để thực hiện tác vụ khai thác dữ liệu. Công cụ được sử dụng ở đây là Microsoft SQL Server 2012 SP1. Do giới hạn về thời gian nên bài viết chỉ đi vào chi tiết một số giải thuật thông dụng. Phần sau của bài viết tập trung vào các kỹ năng sử dụng công cụ SSDT của SQL Server để thực hiện khai thác dữ liệu trên cơ sở dữ liệu mẫu AdventureWorksDW2012 của Microsoft. Tất cả nội dung và chương trình của bài thu hoạch này được lưu trữ tại https://sites.google.com/site/quocupload/ 1. Giới thiệu 1.1 Các giải thuật KPDL trong SQL Server Analysis Service Giải thuật khai phá dữ liệu là tập các phép tính toán và heuristic để tạo ra mô hình khai phá dữ liệu từ dữ liệu. Để tạo ra mô hình, trước hết giải thuật sẽ phân tích dữ liệu được cung cấp, tìm kiếm các loại khuôn mẫu hay khuynh hướng. Giải thuật sẽ dùng kết quả phân tích này để định ra các thông số tối ưu cho việc tạo mô hình khai phá dữ liệu. Các thông số này sau đó được áp dụng trên toàn bộ tập dữ liệu để rút ra những quy luật, khuynh hướng và các chỉ số thống kê chi tiết. Các giải thuật có thể tạo ra các dạng mô hình khai phá dữ liệu khác nhau như: • Một tập các cụm (cluster) mô tả sự liên hệ giữa các trường hợp dữ liệu • Một cây quyết định để dự đoán và mô tả các điều kiện ảnh hưởng đến kết quả • Một mô hình toán học có thể dự đoán việc bán hàng • Một tập các luật mô tả các mặt hàng được gom nhóm trong các giao dịch như thế nào, và xác suất mà các sản phẩm sẽ được mua cùng lúc. 42 Microsoft SQL Server Analysis Services (SSAS) cung cấp các giải thuật sau đây để sử dụng cho các dự án khai phá dữ liệu. Các giải thuật này được hiện thực dựa trên các phương pháp khai phá dữ liệu thông dụng nhất. Các giải thuật này có thể được điều chỉnh hoặc lập trình dùng các API hoặc dùng các thành phần khai phá dữ liệu trong SQL Server Integration Services. Giải thuật Luật kết hợp Giải thuật Gom cụm Giải thuật Cây quyết định Giải thuật Hồi quy tuyến tính Giải thuật Hồi quy logic Giải thuật Naive Bayes Giải thuật Neural Network Giải thuật Gom cụm dãy Giải thuật Chuỗi thời gian 1.2 Lựa chọn đúng giải thuật Việc lựa chọn đúng giải thuật cũng khá khó khăn bởi vì cùng một tác vụ ta có thể sử dụng các giải thuật khác nhau. Các giải thuật lại cho ra các kết quả khác nhau. Có giải thuật có thể cho ra các loại kết quả khác nhau, chẳng hạn như cây quyết định có thể dùng để dự đoán, và cũng có thể dùng để xác định các cột không ảnh hưởng đến kết quả dự đoán. 1.2.1 Chọn theo loại giải thuật Analysis Services có các nhóm giải thuật sau Phân loại (classification) Dự đoán một hay vài biến rời rạc dựa theo các thuộc tính khác trong tập dữ liệu. Hồi quy (regression) Dự đoán một hay vài biến liên tục (như lợi nhuận hay tổn thất) dựa theo các thuộc tính khác trong tập dữ liệu. Gom cụm / Phân đoạn (segmentation) Chia dữ liệu thành các nhóm hay cụm của các phần tử có các thuộc tính tương tự. Kết hợp (association) Tìm các mối liên hệ giữa các thuộc tính khác nhau trong bộ dữ liệu. Ứng dụng phổ biến nhất của nhóm giải thuật này là tạo ra các luật kết hợp, có thể dùng trong phân tích giỏ hàng. Phân tích chuỗi (sequence analysis) Tổng kết các chuỗi hay tập phổ biến trong dữ liệu, ví dụ như thứ tự vào các trang web. 42 Không nhất thiết phải sử dụng một giải thuật. Các nhà phân tích kinh nghiệm có thể dùng một giải thuật để xác định các biến đầu vào tốt, sau đó dùng giải thuật khác để dự đoán kết quả dựa trên dữ liệu đó. SSAS cho phép xây dựng nhiều mô hình trên một cấu trúc khai phá, do đó trong một dự án khai phá dữ liệu, ta có thể dùng một giải thuật gom cụm, một mô hình cây quyết định, và một mô hình naïve Bayes để có các góc nhìn khác nhau về dữ liệu. Ta cũng có thể dùng các giải thuật khác nhau trong một dự án để thực hiện các tác vụ khác nhau, chẳng hạn như có thể dùng hồi quy để có được dự báo tài chính, mạng neural để phân tích các yếu tố ảnh hưởng đến doanh số bán hàng. 1.2.2 Chọn theo tác vụ Bảng sau là một số các đề nghị giúp cho việc lựa chọn giải thuật trong các tác vụ thường gặp Tác vụ Giải thuật Dự đoán một thuộc tính rời rạc • Xác định các khách hàng trong một dánh sách người mua là có triển vọng tốt hay không. • Tính toán xác suất một máy chủ có thể hỏng trong vòng 6 tháng tới. • Phân loại kết quả điều trị bệnh và khám phá các yếu tố liên quan. Cây quyết định Naive Bayes Gom cụm Neural Network Dự đoán một thuộc tính liên tục • Dự báo doanh số bán hàng sang năm. • Dự đoán lượng du khách dựa theo dữ liệu cũ và xu hướng mùa. • Định mức rủi ro theo thống kê cho trước. Cây quyết định Chuỗi thời gian Hồi quy tuyến tính Dự đoán một chuỗi • Phân tích chuỗi click trong web site của công ty. • Phân tích các yếu tố dẫn đến hư hỏng máy chủ. • Phân tích chuỗi hoạt động trong quy trình khám chữa bệnh ngoại trú và rút ra kinh nghiệm để thực hiện tốt nhất các khâu chung. Gom cụm dãy Tìm nhóm các mặt hàng được mua chung • Dùng phân tích giỏ hàng để xác định vị trí đặt sản phẩm. • Gợi ý các sản phẩm để khách hàng mua thêm. Luật kết hợp Cây quyết định 42 • Phân tích các dữ liệu khảo sát từ các khách hàng đến tham dự một sự kiện để biết các hoạt động hay gian hàng có liên quan và lên kế hoạch cho lần sau. Tìm nhóm các phần tử tương tự nhau • Tạo các nhóm bệnh nhân rủi ro dựa theo thống kê hay hành vi. • Phân tích người dùng bằng thói quen duyệt web hay mua sắm. • Xác định các máy chủ có tính chất sử dụng tương tự. Gom cụm Gom cụm dãy 2. Tìm hiểu các giải thuật KPDL trong SSAS 2.1 Giải thuật Luật kết hợp 2.1.1 Sơ lược về giải thuật Một trong những phương pháp KTDL thông dụng nhất là tìm tập mặt hàng phổ biến (frequent itemsets) từ một CSDL các giao dịch, và từ đó rút ra các luật kết hợp. Tập phổ biến là tập các mặt hàng có tần suất xuất hiện lớn hơn hay bằng một mức hỗ trợ thấp nhất [minimum support] do người dùng chỉ định. Việc tìm tập phổ biến là không đơn giản khi số lượng item lên đến vài chục hay vài trăm ngàn. Khi tập phổ biến đã được xác định thì có thể dễ dàng tìm ra luật kết hợp có độ chắc chắn lớn hơn hay bằng mức chắc chắn thấp nhất [minimum confidence] do người dùng chỉ định. Apriori là giải thuật nền tảng để tìm tập phổ biến. “Mẹo” Apriori chỉ ra rằng “nếu một tập là không phổ biến thì tất cả các tập chứa nó cũng không phải là tập phổ biến”. Gọi F k là tập phổ biến kích thước k, C k là tập ứng cử viên kích thước k. Giải thuật Apriori thực hiện như sau: • Tạo tập phổ biến kích thước 1, chỉ cần đếm trong CSDL và chọn những item thỏa mãn yêu cầu minimum support. • Lặp việc tìm tập phổ biến với kích thước từ 2 đến k. o Tạo tập ứng cử viên C k từ tập phổ biến F k-1 tìm được trong lần lặp thứ k-1 1. Bước kết hợp: Ghép tập F k-1 với chính nó để tăng kích thước itemset thêm 1 như sau: 42 • p, q ϵ F k-1 ; p và q có chung (k-2) item • thêm vào Ck một itemset cấu thành bởi (k-2) item giống nhau và 2 item khác nhau 2. Bước rút gọn: Xóa tất cả itemset c ϵ C k nếu trong c có (k-1) item không nằm trong F k-1 (áp dụng mẹo Apriori) o Quét CSDL để tính độ hỗ trợ của từng itemset trong C k . o Chọn những tập nào thỏa yêu cầu min-support đưa vào tập phổ biến F k . Giải thuật luật kết hợp của SSAS là một hiện thực của giải thuật Apriori. Cả hai giải thuật, cây quyết định và luật kết hợp, đều có thể dùng để phân tích các mối liên kết, tuy nhiên các luật tìm được của 2 giải thuật có thể khác nhau. Cây quyết định dựa vào độ lợi thông tin, còn luật kết hợp thì dựa vào độ chắc chắn (confidence). Do đó một luật có độ chắc chắn cao trong mô hình luật kết hợp có thể không cần thiết vì nó không cung cấp thông tin mới. 2.1.2 Hiện thực giải thuật Trong mô hình luật kết hợp, các biến kiểu Boolean như Có/Không thường được dùng nhất để gán cho các thuộc tính. Ví dụ phân tích giỏ hàng dùng biến boolean gán cho sản phẩm để thể hiện mặt hàng có hay không trong giỏ hàng. Support: số lượng trường hợp có chứa itemset đang xét, có thể gọi là tần suất xuất hiện. Chỉ những itemset có support đạt ngưỡng thì mới có mặt trong mô hình. Itemset phổ biến: là một phần tử trong tập phổ biến, có support cao hơn mức ngưỡng được cấu hình trong tham số MINIMUM_SUPPORT. Ví dụ: itemset {A,B,C} và giá trị của MINIMUM_SUPPORT là 10. Để itemset này có thể có mặt trong mô hình, mỗi item A, B, và C phải được tìm thấy trong ít nhất 10 trường hợp và kết hợp {A,B,C} cũng phải được tìm thấy trong ít nhất 10 trường hợp. 42 MINIMUM_SUPPORT: thông thường đây là số lượng trường hợp đếm được có chứa itemset, nhưng ta có thể diễn tả bằng phần trăm số lần xuất hiện trong tổng số các trường hợp. Ví dụ nếu cho MINIMUM_SUPPORT = 0.03 nghĩa là itemset phải xuất hiện ít nhất 3% trong tổng số các trường hợp. Confidence: ngưỡng để xác định một luật kết hợp thì lại không dựa trên số lần xuất hiện hay tỷ lệ phẩn trăm, mà nó là một con số xác suất và được gọi là confidence. Ví dụ: {A,B,C} có 50 trường hợp; {A,B,D} có 50 trường hợp; ngoài ra còn có thêm có 50 trường hợp có {A,B} mà không có {C} hay {D}. Như vậy {A,B} chưa phải là yếu tố đủ chắc chắn để dự đoán {C}. Để xác định khả năng đúng của một luật (chẳng hạn luật “nếu {A,B} thì {C}), ta tính confidence cho luật bằng support({A,B,C})/support({A,B}). MINIMUM_PROBABILITY: Có thể cài đặt giá trị này để giới hạn số lượng luật kết hợp mà giải thuật sẽ sinh ra. Lift (hay Importance): thể hiện độ quan trọng của itemset hay luật kết hợp được tìm thấy. 2.1.3 Cấu hình cho mô hình luật kết hợp Ta có thể cài đặt các thông số sau cho mô hình luật kết hợp. Thay đổi các thông số này có thể làm ảnh hưởng đến tốc độ và độ chính xác của mô hình. MAXIMUM_ITEMSET_COUNT Xác định số lượng itemset tối đa được phép phát sinh. Nếu để trống thì chương trình sẽ dùng giá trị mặc định là 200,000. Lưu ý: Itemset được xếp hạng dựa trên chỉ số support. Các itemset có cùng support thì sẽ có thứ tự ngẫu nhiên. MAXIMUM_ITEMSET_SIZE Xác định số lượng item tối đa có trong một itemset. Nếu giá trị này bằng 0 thì sẽ không giới hạn cho kích thước của itemset. Giá trị mặc định là 3. Lưu ý: Nếu giảm giá trị này thì có thể rút ngắn thời gian tạo mô hình, do việc xử lý mô hình sẽ ngưng khi kích thước itemset đạt đến giới hạn. 42 MAXIMUM_SUPPORT Xác định số lần xuất hiện tối đa của một itemset. Thông số này được dùng để loại bỏ bớt những item xuất hiện quá thường xuyên và có thể là sẽ không cần thiết. Nếu giá trị này nhỏ hơn 1, đó là tỷ lệ phần trăm, nếu lớn hơn 1 thì là số đếm các trường hợp có itemset xuất hiện. Giá trị mặc định là 1. MINIMUM_ITEMSET_SIZE Xác định số lượng tối thiểu các item trong một itemset. Nếu tăng giá trị thông số này thì mô hình sẽ có thể có ít itemset hơn. Thông số này có thể dùng để bỏ qua những itemset nhỏ, chẳng hạn itemset đơn (chỉ có một item). Giá trị mặc định là 1. Lưu ý: Không thể giảm thời gian xử lý bằng cách tăng thông số này, bởi vì giải thuật bắt buộc phải tính xác suất của tất cả các itemset từ nhỏ đến lớn. Có thể tăng giá trị này để loại bỏ các itemset nhỏ ra khỏi tập kết quả. MINIMUM_PROBABILITY Xác định xác suất tối thiểu để chấp nhận một luật là đúng. Ví dụ nếu giá trị này là 0.5, chỉ những luật nào có xác suất trên 50% mới được tạo. Giá trị mặc định là 0.4. MINIMUM_SUPPORT Xác định số lần tối thiểu itemset phải có mặt trước khi giải thuật tạo luật. Nếu giá trị này nhỏ hơn 1, đó là tỷ lệ phần trăm, nếu lớn hơn 1 thì là số đếm các trường hợp có itemset xuất hiện. Giá trị mặc định là 0.03, nghĩa là để có mặt trong mô hình, itemset phải được tìm thấy trong ít nhất 3% trường hợp. Giải thuật có thể tự động tăng giá trị này nếu thiếu bộ nhớ. OPTIMIZED_PREDICTION_COUNT Chỉ định số item được cached để tối ưu hóa dự đoán. Giá trị mặc định là 0. Nếu dùng giá trị mặc định, giải thuật sẽ trả về tất cả các dự đoán theo như yêu cầu truy vấn. [...]... Long Double Dữ liệu thử nghiệm Ở bước gần cuối của quy trình tạo cấu trúc KPDL này, ta sẽ chia tập dữ liệu hiện có thành hai phần: huấn luyện và thử nghiệm Việc phân chia này là cần thiết để đánh giá độ chính xác của mô hình Thông thường, phần lớn dữ liệu sẽ được dùng cho huấn luyện, và chỉ một phần nhỏ dùng cho thử nghiệm Mặc định SSAS chọn 30% dữ liệu để thử nghiệm Tập dữ liệu huấn luyện là dùng để tạo... không tham gia vào mô hình Chúng sẽ được dùng sau khi mô hình được xây dựng để người dùng có thể truy vấn (drillthrough) và thử nghiệm 3.2.2 Data Type và Content Type Khi tạo mô hình, ta phải định nghĩa kiểu dữ liệu cho từng cột Kiểu dữ liệu (data type) cho biết dữ liệu là số hay văn bản, để chương trình biết cách xử lý dữ liệu của cột tương ứng Mỗi kiểu dữ liệu hỗ trợ một hoặc một số kiểu nội dung... các cây 42 regression trên dữ liệu tự động biến đổi gọi là Auto-Regression Tree (ART) Đối với dự đoán dài hạn, Time Series dùng giải thuật Auto-Regressive Integrated Moving Average (ARIMA) Có thể chọn tỷ lệ sử dụng các giải thuật bằng cấu hình tham số cho mô hình 3 Cách sử dụng SSAS 2012 và các giải thuật để khai phá dữ liệu Để học cách sử dụng SSAS thực hiện khai phá dữ liệu, ta sử dụng giáo trình... sẵn có trên MSDN Trong bài thu hoạch này, người viết thử dùng phiên bản mới nhất hiện nay là SQL Server 2012 SP1 Để thực hiện chương trình này, cần phải cài đặt: - SQL Server 2012 SP1 (lưu ý cần phải cài đặt Visual Studio 2010 SP1 trước) - AdventureWorksDW2012 database, download từ http://msftdbprodsamples.codeplex.com/downloads/get/165405 Lưu ý khi attach DB cần cấp quyền Full Control cho SQL service... mô hình KPDL, còn tập thử nghiệm là để kiểm tra độ chính xác của mô hình SSAS lấy mẫu dữ liệu một cách ngẫu nhiên để bảo đảm hai tập dữ liệu là tương tự nhau Sau khi mô hình đã được xử lý xong dùng tập dữ liệu huấn luyện, ta sẽ kiểm tra mô hình bằng cách thực hiện các dự đoán trên tập dữ liệu thử nghiệm Bởi vì tập dữ liệu thử nghiệm có chứa giá trị của các cột dự đoán, nên ta có thể biết được mô hình...Nếu dùng một giá trị khác 0, số lượng dự đoán trả về sẽ là giá trị này Thông số này có thể giúp tăng tốc độ dự đoán 2.2 Giải thuật Gom cụm 2.2.1 Sơ lược về giải thuật Giải thuật gom cụm sử dụng kỹ thuật lặp để nhóm các trường hợp trong tập dữ liệu thành từng cụm có đặc tính tương tự nhau Phân nhóm dữ liệu này giúp ích cho việc khám phá và tìm ra những bất thường trong dữ liệu, hoặc cũng có thể dùng. .. cho nó Nó chỉ học từ những mối liên hệ tồn tại trong dữ liệu và từ các cụm mà nó tìm thấy 2.2.2 Hiện thực giải thuật Có hai phương pháp được áp dụng trong giải thuật này và người dùng có thể chọn lựa: Kmeans hoặc EM (Expectation Maximization) K-means là một giải thuật gom cụm “cứng”, nghĩa là mỗi điểm dữ liệu chỉ có thể thuộc một cụm, và điểm dữ liệu đó có một xác suất duy nhất trong cụm EM là giải... selection MINIMUM_SUPPORT Số node lá nhỏ nhất cần để phát sinh 1 rẽ nhánh trong cây Mặc định là 10 Có thể phải tăng số này nếu tập dữ liệu rất lớn để tránh huấn luyện thừa SCORE_METHOD Phương pháp dùng để tính điểm rẽ nhánh 1: Entropy 3: Bayesian with K2 Prior 4[mặc định]: Bayesian Dirichlet Equivalent (BDE) with uniform prior SPLIT_METHOD Phương pháp dùng để rẽ nhánh 1: Binary – rẽ cây thành 2 nhánh... (điểm, cụm) Gom cụm EM: Giải thuật EM lặp lại việc tinh giản một mô hình cụm ban đầu để phù hợp với dữ liệu, và xác định xác suất mà một điểm sẽ tồn tại trong một cụm Giải thuật dừng khi mô hình xác 42 suất phù hợp với dữ liệu Hàm logarit tương tự (log-likelihood) của dữ liệu cho trong mô hình được dùng để đánh giá mức độ phù hợp này Nếu quá trình này sinh ra cụm rỗng, hoặc cụm có quá ít thành viên... sinh ra ngẫu nhiên khi triển khai mô hình, dựa trên số ngẫu nhiên này mà dữ liệu sẽ được phân chia vào tập huấn luyện và tập thử nghiệm Việc gán cố định chỉ nhằm để dữ liệu được phân 42 phối giống nhau trong mỗi lần xử lý mô hình Các hình kế tiếp là bước xử lý cấu trúc và tất cả các mô hình của nó 42 3.4 Khám phá các mô hình Sau khi các mô hình được xử lý, ta có thể khám phá chúng để thấy những khuynh . Cao Học khóa 5 ngành Khoa Học Máy Tính 11 .2012 BÀI THU HOẠCH MÔN HỌC Khai phá dữ liệu và kho dữ liệu Đề tài Khai phá dữ liệu dùng MS SQL Server 2012 Giảng viên hướng dẫn: PGS-TS Đỗ Phúc Người. thiệu 1.1 Các giải thuật KPDL trong SQL Server Analysis Service Giải thuật khai phá dữ liệu là tập các phép tính toán và heuristic để tạo ra mô hình khai phá dữ liệu từ dữ liệu. Để tạo ra mô hình, trước. lúc. 42 Microsoft SQL Server Analysis Services (SSAS) cung cấp các giải thuật sau đây để sử dụng cho các dự án khai phá dữ liệu. Các giải thuật này được hiện thực dựa trên các phương pháp khai phá dữ liệu

Ngày đăng: 10/04/2015, 00:12

Từ khóa liên quan

Mục lục

  • 1. Giới thiệu

    • 1.1 Các giải thuật KPDL trong SQL Server Analysis Service

    • 1.2 Lựa chọn đúng giải thuật

      • 1.2.1 Chọn theo loại giải thuật

      • 1.2.2 Chọn theo tác vụ

      • 2. Tìm hiểu các giải thuật KPDL trong SSAS

        • 2.1 Giải thuật Luật kết hợp

          • 2.1.1 Sơ lược về giải thuật

          • 2.1.2 Hiện thực giải thuật

          • 2.1.3 Cấu hình cho mô hình luật kết hợp

          • 2.2 Giải thuật Gom cụm

            • 2.2.1 Sơ lược về giải thuật

            • 2.2.2 Hiện thực giải thuật

            • 2.2.3 Cấu hình cho mô hình Gom cụm

            • 2.3 Giải thuật Cây quyết định

              • 2.3.1 Sơ lược về giải thuật

              • 2.3.2 Hiện thực giải thuật

              • 2.3.3 Cấu hình cho mô hình

              • 2.4 Giải thuật Naive Bayes

                • 2.4.1 Sơ lược về giải thuật

                • 2.5 Giải thuật Hồi quy tuyến tính

                  • 2.5.1 Sơ lược về giải thuật

                  • 2.6 Giải thuật Hồi quy logic

                    • 2.6.1 Sơ lược về giải thuật

                    • 2.7 Giải thuật Neural Network

                      • 2.7.1 Sơ lược về giải thuật

                      • 2.8 Giải thuật Gom cụm dãy

                        • 2.8.1 Sơ lược về giải thuật

                        • 2.9 Giải thuật Chuỗi thời gian

                          • 2.9.1 Sơ lược về giải thuật

                          • 3. Cách sử dụng SSAS 2012 và các giải thuật để khai phá dữ liệu

                            • 3.1 Chuẩn bị Analysis Services database

                              • 3.1.1 Tạo Analysis Services project

                              • 3.1.2 Định nghĩa Data Source

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan