Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
916,5 KB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA TPHCM BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Đề tài: Khai phá dữ liệu trong SQL Server Giảng viên: PGS.TS Đỗ Phúc Học viên: Đào Thị Phấn Mã số: CH1101118 TPHCM, Tháng 11/2012 Trang 2 MỤC LỤC LỜI NÓI ĐẦU 3 Phần 1: Tổng quan khai phá dữ liệu 4 1.1. Khai phá dữ liệu là gì? 4 1.2. Các ứng dụng và chức năng của khai phá dữ liệu 4 1.3. Các bước trong khai phá dữ liệu 5 1.4. Một số phương pháp khai phá dữ liệu 6 Phần 2: Khai phá dữ liệu trong SQL Server 2005 8 2.1. Các bước khai phá dữ liệu c ủa Microsoft 8 2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server 8 2.3. Vấn đề sử dụng các thuật toán 14 2.4. Công cụ khai phá dữ liệu 16 2.5. Khai phá dữ liệu bằng câu lệnh SQL 20 PHỤ LỤC 24 TÀI LIỆU THAM KHẢO 32 Trang 3 LỜI NÓI ĐẦU Trong môi trường thương mại điện tử ngày nay, lĩnh vực khai phá dữ liệu (data mining) ngày càng thu hút nhiều sự quan tâm. Nhờ vào các phương tiện tự động hay bán tự động, data mining khảo sát và phân tích trên một lượng lớn dữ liệu để rút ra những mẫu và qui luật có ý nghĩa. Các thông tin này giúp các công ty kinh doanh chẳng hạn như hiểu rõ khách hàng hơn để từ đó có các chiến lược phù hợp hơn nhằm nhằm cải thiện hoạt độ ng tiếp thị, bán hàng và hỗ trợ khách hàng. Trong những năm gần đây, Microsoft đã đưa ra OLE DB cho giao diện lập trình ứng dụng (API) data mining với nhiều data mining provider hàng đầu. API này định nghĩa một ngôn ngữ truy vấn data mining dựa trên cú pháp SQL (Structured Query Language). Các mô hình data mining (Data Mining Model) được xem như là một dạng đặc biệt của bảng quan hệ. Các tính toán dự báo được xem như là một dạng đặc biệt của phép kết. Hệ quản trị dữ liệu Microsoft SQL Server 2005 cung cấp Microsoft data mining provider d ựa trên OLE DB cho chuẩn Data Mining. Provider này gồm một số thuật toán data mining phổ biến như Microsoft Decision Trees, Microsoft Clustering, Microsoft Naïve Bayes, … Tiểu luận này trình bày khái quát về khai phá dữ liệu, đồng thời trình bày sự hỗ trợ khai phá dữ liệu trong một hệ quản trị cơ sở dữ liệu phổ biến, đó là SQL Server 2005 và cuối cùng là minh họa cho quá trình khai thác dữ liệu trên một công cụ của SQL Server 2005. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Khai Phá Dữ Liệu và Kho Dữ Liệu đã truyền đạt cho em những kiến thức vô cùng quý báu. Em cũng xin chân thành cảm ơn quý Thầy Cô thuộc phòng đào tạo Sau đại học đã tạo điều kiện về tài liệu tham khảo để em có thể hoàn thành môn học này. Chân thành cảm ơn! Trang 4 Phần 1: Tổng quan khai phá dữ liệu 1.1. Khai phá dữ liệu là gì? Khai phá dữ liệu nhằm rút trích thông tin hữu ích, chưa biết, tiềm ẩn, phân tích dữ liệu bán tự động, giải thích dữ liệu trên các tập dữ liệu lớn. Khai phá dữ liệu - Data mining, là một bước của tiến trình KDD (Knowledge Discovery in Database), cung cấp tri thức hỗ trợ ra quyết định, dự báo và khái quát dữ liệu, tiến trình này bao gồm: • Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). • Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). • Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ra một nguồn tri thức thô. • Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. • Triển khai (Deployment). Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua. 1.2. Các ứng dụng và chức năng của khai phá dữ liệu • Phân tích dữ liệu, hỗ trợ ra quyết định - Phân tích quản lý thị trường - Quản lý phân tích rủi ro - Quản lý và phân tích các sai hỏng • Các ứng dụng khác như: khai thác văn bản, phân chia tài liệu Web, điều trị y học, tài chính, bảo hiểm, • Chức năng của khai phá dữ liệu - Mô tả khái niệm. Trang 5 - Luật kết hợp - Phân lớp và dự đoán - Gom cụm - Khai phá chuỗi 1.3. Các bước trong khai phá dữ liệu Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ li ệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn b ộ quá trình (nếu mô hình dữ liệu thay đổi), v.v… Tiếp theo là công việc thu thập và tiền xử lý dữ liệu. Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nều phải truy nhập vào toàn bộ nội dung của cơ sở dữ liệu và làm những việc như trên. Có rất nhiều giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản c ủa cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá dư thừa đối với mục đích của việc khai phá dữ liệu. Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn d ưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, …). Hình 1: Các bước khai phá dữ liệu Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý dữ liệu Giải thuật khai phá dữ liệu Thkê tóm tắt Mẫu DL trực tiề p Trang 6 1.4. Một số phương pháp khai phá dữ liệu a) Phương pháp quy nạp (induction) Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp. + Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. + Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu. b) Cây quyết định và luật +Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằ m phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị của thuộc tính của đối tượng tới lá. +Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng NẾU P THÌ Q, với P là mệnh đề đúng với một phần trong cơ sở dữ liệu, Q là mệnh đề dự đoán. c) Phát hiện các luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật k ết hợp tìm được. Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A ⇒ B. Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X⇒B sao cho tần số của luật không nhỏ hơ n ngưỡng σ cho trước và độ tin cậy của luật không Trang 7 nhỏ hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu, có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp. d) Các phương pháp phân lớp và hồi quy phi tuyến Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàm mành), hàm đa thức) phù hợp với các kết hợp của các giá trị biế n vào. Các phương pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi, v.v… e) Gom cụm và phân đoạn (clustering and segmentation) Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm. Mẫu đầu ra c ủa quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu. Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các tham số của các thành phần. Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal partitioning). f) Các phương pháp dựa trên mẫu Sử dụng các m ẫu mô tả từ cơ sở dữ liệu để tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình. Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồi quy và các hệ thống suy diễn dựa trên tình huống (case-based reasoning). g) Mạng nơron (neuron network) Mạng nơron là tiếp cận tính toán liên quan đến việc phát triển các c ấu trúc toán học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng nơron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được. Trang 8 Phần 2: Khai phá dữ liệu trong SQL Server 2005 2.1. Các bước khai phá dữ liệu của Microsoft Trong khai phá dữ liệu, khi đã có được một tập dữ liệu người ta muốn khai thác thông tin từ nó một cách hiệu quả nhằm phục vụ cho công việc. Và Microsoft đưa ra một chuẩn gồm 6 bước để khai thác dữ liệu một cách hiệu quả. 1) Định nghĩa vấn đề 2) Chuẩn bị vấn đề 3) Khám phá dữ liệu 4) Xây d ựng mô hình 5) Khai thác và đánh giá mô hình 6) Triển khai mô hình và nâng cấp mô hình Hình 2: Các bước khai phá dữ liệu của Microsoft 2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server Hệ quản trị cơ sở dữ liệu MS SQL Server 2005 ngoài tính năng phổ biến là hỗ trợ người dùng quản trị và truy vấn dữ liệu, còn được cải tiến thêm khả năng khai thác thông tin được tích hợp trong một số công cụ, khiến cho việc triển khai và quản lý dễ dàng hơn. Microsoft cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở các thuật toán khai phá dữ liệu (Data Mining) sau: a) Microsoft Decision Tree (Cây quyết định) Trang 9 Thuật toán Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo rất tốt các mô hình dự đoán. Sử dụng thuật toán này có thể dự đoán cả các thuộc tính rời rạc và liên tục . Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát sự ảnh hưởng của mỗi thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đoán. Và tiếp đến nó sử dụng các thuộ c tính input (với các quan hệ rõ ràng) để tạo thành một nhóm phân hoá gọi là các node. Khi một node mới được thêm vào mô hình, một cấu trúc cây sẽ được thiết lập. Node đỉnh của cây sẽ miêu tả sự phân tích (bằng thống kê) của các thuộc tính dự đoán thông qua các mẫu. Mỗi node thêm vào sẽ được tạo ra dựa trên sự sắp xếp các trường của thuộc tính dự đoán, để so sánh với dữ liệu input. Nếu một thuộc tính input được coi là nguyên nhân củ a thuộc tính dự đoán (to favour one state over another), một node mới sẽ thêm vào mô hình. Mô hình tiếp tục phát triển cho đến lúc không còn thuộc tính nào, tạo thành một sự phân tách (split) để cung cấp một dự báo hoàn chỉnh thông qua các node đã tồn tại. Mô hình đòi hỏi tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nó, nhằm thiết lập một sự phân phối không cân xứng giữa các trường trong thuộc tính dự đoán, vì thế cho phép dự đoán kết quả của thuộc tính dự đoán một cách tốt nhất. b) Microsoft Clustering(Gom cụm) Thuật toán này sử dụng kỹ thuật lặp để nhóm các bản ghi từ một tập hợp dữ liệu vào một liên cung cùng có đặc điểm giống nhau. Sử dụng liên cung này người dung có thể khám phá dữ liệu, tìm hiểu về các quan hệ đã tồn tại, mà các quan hệ này không dễ dàng tìm được một cách hợp lý thông qua quan sát ng ẫu nhiên. Thêm nữa, có thể dự đoán từ các mô hình liên cung đã được tạo bởi thuật toán. Ví dụ, xem xét một nhóm người sống ở cùng một vùng, có cùng một loại xe, ăn cùng một loại thức ăn và mua cùng một sản phẩm. Đây là một liên cung của dữ liệu, một liên cung khác có thể bao gồm những người cùng đến một nhà hàng, cùng mức lương, và được đi nghỉ ở nước ngoài hai lần trong năm. Khi quan sát nhữ ng liên cung này được phân phối ra sao, có thể biết rõ hơn sự ảnh hưởng của các bản ghi trong một tập hợp dữ liệu, cũng như sự ảnh hưởng này có ảnh hưởng gì đến kết quả của thuộc tính dự đoán. Trang 10 c) Microsoft Naïve Bayes Thuật toán này xây dựng mô hình khai mỏ dữ liệu nhanh hơn các thuật toán khác, phục vụ việc phân loại và dự đoán. Nó tính toán khả năng có thể xảy ra trong mỗi trường hợp lệ của thuộc tính input, gán cho mỗi trường một thuộc tính có thể dự đoán. Mỗi trường này có thể sau đó được sử dụng để dự đoán kết quả của thuộc tính dự đoán dự a vào những thuộc tính input đã biết. Các khả năng sử dụng để sinh ra các mô hình được tính toán và lưu trữ trong suốt quá trình xử lý của khối lập phương (cube: các mô hình được dựng lên từ các khối lập phương). Microsoft Naïve Bayes chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và nó xem xét tất cả các thuộc tính input độc lập. Ngoài ra, thuật toán còn cho ra một mô hình khai mỏ đơn giản (có thể được coi là điểm xuấ t phát của data mining), bởi vì hầu như tất cả các tính toán sử dụng trong khi thiết lập mô hình, được sinh ra trong xử lí của cube (mô hình kích thước hợp nhất), kết quả được trả về nhanh chóng. Điều này tạo cho mô hình một lựa chọn tốt để khai phá dữ liệu, khám phá các thuộc tính input được phân bố trong các trường khác nhau của thuộc tính cần dự đoán. d) Microsoft time series : (chuỗi thời gian) Thuật toán này tạo ra những mô hình được sử dụng để dự đoán các biến tiếp theo từ OLAP (On-Line Analytical Processing) và các nguồn dữ liệu quan hệ. Ví dụ, sử dụng thuật toán này để dự đoán bán hàng và lợi nhuận dựa vào các dữ liệu quá khứ trong một cube . Sử dụng thuật toán này có thể chọn một hoặc nhiều biến để dự đoán (nhưng các biến là phải liên tục). Có thể có nhiều trường hợp cho mỗi mô hình. Tậ p các trường hợp xác định vị trí của một nhóm, như là ngày tháng khi xem việc bán hàng thông qua vài tháng hoặc vài năm trước. Mỗi trường hợp có thể bao gồm một tập các biến (ví dụ như bán hàng tại các cửa hàng khác nhau). Thuật toán này có thể sử dụng sự tương quan của thay đối biến số (cross-variable) trong dự đoán của nó, ví dụ bán hàng trước kia tại một cửa hàng có thể rất hữu ích trong việc dự báo bán hàng hiện t ại tại những cửa hàng khác. [...]... một trong hầu hết các nhiệm vụ quan trọng trong khai phá dữ liệu: dọn dẹp và chuẩn bị dữ liệu cho việc thiết lập mô hình Trong khai phá dữ liệu, người dùng cần thực hiện chuyển đổi hoàn toàn các dữ liệu lặp đi lặp lại để dọn dẹp (clean) dữ liệu, trước khi sử dụng dữ liệu để huấn luyện (train) một mô hình khai mỏ Sử dụng các nhiệm vụ và các chuyển đổi trong DTS người dùng hoàn toàn có thể phối hợp dữ liệu. .. hợp và khai thác khả năng tiềm tàng của một cơ sở dữ liệu như SQL Server Integrating Services, SQL Server Analysis Services, SQL Server Management Studio, Data Transformation Services, SQL Server Reporting Services, …Sau đây sẽ trình bày một số công cụ hỗ trợ khai phá dữ liệu trong SQL Server như đã nêu trên a) SQL Server Analysis Services (SSAS) SSAS là một dịch vụ hỗ trợ mạnh mẽ việc phân tích, khai. .. khai phá dữ liệu trong SQL Server 2005 Đó là Khai phá dữ liệu trên Business Intelligent Developtment Studio (BIDS) Cơ sở dữ liệu được sử dụng để minh họa có tên là AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp Cơ sở dữ liệu mẫu này có thể download từ trang web của Microsoft và theo các hướng dẫn để cài vào SQL Server Mục đích của việc xây dựng các mô hình khai. .. đích ứng dụng khai phá dữ liệu mà chọn các thuật toán phù hợp để đạt hiệu quả cao bởi mỗi mô hình của thuật toán trả về một kiểu kết quả khác nhau Trang 15 2.4 Công cụ khai phá dữ liệu Từ trước đến nay, SQL Server được biết đến với vai trò là một hệ quản trị cơ sở dữ liệu có trách nhiệm hỗ trợ quản lý, lưu trữ dữ liệu với Database Engine Tuy nhiên, từ phiên bản SQL Server 2005 thì bộ SQL Server đã được... giảm bớt số cột trong tập dữ liệu (dataset), bởi Decision Trees có thể xác định các cột không ảnh hưởng đến mô hình khai mỏ cuối cùng Ngoài ra, cũng không phải sử dụng các thuật toán độc lập với nhau – trong một giải pháp khai phá dữ liệu, có thể sử dụng một số thuật toán để khai phá dữ liệu, và tiếp đó sử dụng một số thuật toán khác dể dự đoán các kết quả cụ thể thông qua các dữ liệu đó Ví dụ có... Sau khi dữ liệu đã được cân đối và chuẩn bị cho việc khai mỏ, hầu như mọi nhiệm vụ kết hợp với giải pháp tạo một tác vụ khai phá được thể hiện trong BIDS Sử dụng các công cụ BIDS, người dùng có thể phát triển và kiểm tra giải pháp khai phá dữ liệu, sử dụng một xử lý lặp để xác định mô hình nào là tốt nhất cho hoàn cảnh đưa ra Khi người phát triển (developer) hài lòng với giải pháp, nó được triển khai. .. của cơ sở dữ liệu quan hệ - HOLAP (Hybrid OLAP): Đây là mô hình tích hợp của cả hai mô hình trên dữ liệu thông thường được lưu trữ dưới dạng cơ sở dữ liệu quan hệ trong khi các dữ liệu tổng hợp được lưu trữ dưới dạng đối tượng SSAS Nếu dữ liệu yêu cầu là dạng tổng hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu là dạng chi tiết truy vấn sẽ được dịch và truy vấn tại cơ sở dữ liệu quan... đoán tài chính, và một thuật toán luật cơ sở để thi hành việc phân tích market basket (giỏ thị trường ) Mô hình khai phá dữ liệu có thể dự đoán những giá trị, sản phẩm sơ lược của dữ liệu, và tìm ra những tương quan ẩn Nhằm giúp việc lựa chọn thuật toán cho giải pháp khai phá dữ liệu trong SQL Server, bảng mô tả dưới đây trình bày sự phân loại các thuật toán vào một số chức năng tác vụ đặc trưng: Trang... tàng bên trong của một hệ cơ sở dữ liệu, là một trong những dịch vụ chính của SQL Server 2005 dùng để xây dựng các chiều và cubes cho nhà kho dữ liệu (Data warehouse) SSAS là một phần của nền tảng quản lý doanh nghiệp thông minh (Business Intelligence), nó không chỉ là một thành phần của SQL Server, nó còn được sử dụng trên NET Framework và môi trường phát triển Visual Studio SSAS trong SQL Server 2005... khi kết hợp dữ liệu với lập trình 2.5 Khai phá dữ liệu bằng câu lệnh SQL Trước khi tạo mô hình khai phá dữ liệu (data mining model – DMM), cần định nghĩa cấu trúc và các thuộc tính cho mô hình Để định nghĩa một DMM mới, dùng lệnh CREATE DATA MINING MODEL Tương tự như lệnh CREATE TABLE, lệnh tạo mô hình này chỉ định nghĩa cấu trúc và các thuộc tính của nó, chứ hoàn toàn không Trang 20 có dữ liệu Ngoài . quan khai phá dữ liệu 4 1.1. Khai phá dữ liệu là gì? 4 1.2. Các ứng dụng và chức năng của khai phá dữ liệu 4 1.3. Các bước trong khai phá dữ liệu 5 1.4. Một số phương pháp khai phá dữ liệu. phá dữ liệu 6 Phần 2: Khai phá dữ liệu trong SQL Server 2005 8 2.1. Các bước khai phá dữ liệu c ủa Microsoft 8 2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server 8 2.3. Vấn đề. Naïve Bayes, … Tiểu luận này trình bày khái quát về khai phá dữ liệu, đồng thời trình bày sự hỗ trợ khai phá dữ liệu trong một hệ quản trị cơ sở dữ liệu phổ biến, đó là SQL Server 2005 và