Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữcác dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ
Trang 1ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SỸ
KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU
Đề tài:
XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ
LIỆU VÀ CÔNG CỤ BUSSINESS
Trang 3LỜI MỞ ĐẦU
Thời đại công nghệ thông tin càng ngày càng phát triển, với lượng dữ liệu thôngtin cũng càng ngày càng một lớn dần, vấn đề đặt ra cho chúng ta là làm thế nào để lưutrữ và tận dụng tốt những nguồn thông tin mà chúng ta đang có
Với thực tế thì một minh chứng rõ ràng nhất cho chúng ta thấy là vấn đề kinhdoanh của các công ty kinh doanh và sản xuất các sản phẩm cho người sử dụng Nếunhư không nắm bắt được thị trường, không khai thác được những tiềm năng kháchhàng, không biết nhu cầu khách hàng của chúng ta đang cần gì thì việc kinh doanh sẽkhông phát triển tốt hơn khi chúng ta nắm bắt được nhu cầu khách hàng và đáp ứngđược nhu cầu khách hàng, có kế hoạch tiếp thị tốt cho những khách hàng tiềm năng
Trong bài tìm hiểu này với thời gian ngắn em xin trình bày vấn đề tìm hiểu củamình về khai thác dữ liệu và công cụ khai phá dữ liệu rất có tiềm năng của Microsofttích hợp trong SQL server 2008R2 là BUSINESS INTELLIGENCE DEVELOPMENTSTUDIO (BIDS)
Em xin chân thành cảm ơn PGS.TS Đỗ Phúc – Giảng viên môn học cơ sở dữliệu nâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơnban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tinqua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để
em có thể hoàn thành môn học này
Em xin chân thành cảm ơn
Lê Thị Xuân Diệu
Trang 4Phần I KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1 Tổng quan về cơ sở dữ liệu và sự xuất hiện của khai phá dữ liệu
1.1 Tổ chức và khai thác cơ sở dữ liệu truyền thống
Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đãđược phát triển từ những năm 60 Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đãđược tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lĩnh vực hoạtđộng của con người và xã hội Theo như đánh giá cho thấy, lượng thông tin trên thếgiới cứ sau 20 tháng lại tăng gấp đôi Kích thước và số lượng cơ sở dữ liệu thậmchí còn tăng nhanh hơn Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng
5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII Với
sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn,
bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựngcác hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình Điềunày đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơngiản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng,v.v… đều được ghi vào trong máy tính Cho đến nay, con số ày đã trở nên khổng
lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữcác dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử cácgiao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, …Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đãgiúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu Mô hình cơ sở
dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọngtrong việc tổ chức và khai thác các cơ sở dữ liệu đó Cho đến nay, không một tổchức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ
Trang 51.2 Bước phát triển mới của việc tổ chức và khai thác các CSDL
Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tincũng được chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng như sản xuất, tàichính, buôn bán thị trường v.v Như vậy, bên cạnh chức năng khai thác dữ liệu có tínhchất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các hệthống thông tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu cầu trong thực
tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó Các quyết địnhcần phải có càng nhanh càng tốt và phải chính xác dựa trên những dữ liệu sẵn có trongkhi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian raquyết định cũng như khả năng hiểu hết được nội dung dữ liệu Lúc này các mô hìnhCSDL truyền thống và ngôn ngữ SQL đã cho thấy không có khả năng thực hiện côngviệc này Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồnày, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệthống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, cóchất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó Các kỹ thuật đó
được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) và môi trường các dữ liệu có được gọi là các kho dữ liệu (data warehouse).
Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp chongười dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tácnghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc
hiện tại Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định Nói cách khác, một kho dữ liệu bao gồm:
- Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào.
- Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập bảng dữ liệu của dữ liệu.”
Trang 6Chiết xuất dữ liệuLàm sạch dữ liệu
Nạp dữ liệu.
MetaData
Kho dữ liệu trong DBMS
Data Mart
Hệ thống phân phối thông tin
Các công cụ hỏi đáp, báo cáo
Các công cụ OLAP
Các công cụ khai phá dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính
- Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin
- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin
- Chứa các bảng dữ liệu có kích thước lớn
- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng vàcác liên kết nhiều bảng
Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có
chức năng giống như một kho lưu trữ thông tin trung tâm Trong đó, dữ liệu tác nghiệp
và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu Kho lưu trữ trung tâm
được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt
động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ
liệu
Trang 7Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần:
- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tácnghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu
- Kho dữ liệu về dữ liệu (MetaData)
- Các kỹ thuật xây kho
- Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data marts): là nơi các
dữ liệu được khoanh vùng theo chủ đề đến một giới hạn nào đó và có thểđược thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng
Với các kho dữ liệu này, cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp, nghĩa là với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu; ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh.
- Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp(OLAP) và khai phá dữ liệu (data mining) Đây chính là các cách khai
thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những
dữ liệu thô Điểm mạnh và yếu của các kỹ thuật này ta sẽ phân tích kỹhơn ở những phần sau
- Quản trị kho dữ liệu
- Hệ thống phân phối thông tin
Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức Như đã đề cập ở trên, các kho dữ liệu được sử dụng theo ba cách chính:
Trang 8- Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai tháccác thông tin bằng các công cụ vấn đáp và báo cáo Tuy nhiên, nhờ cóviệc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các
dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việcnâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báocáo) Bằng cách tạo ra một tầng ẩn giữa CSDL và người dùng, các dữliệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất.Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập
và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớtđược sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữliệu khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phứctạp Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa racác dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “trithức”
- Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP) Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụlàm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thìphân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giảthuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khảnăng đưa ra được các giả thuyết
Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho nó
rất khó có thể được sử dụng cho những mục đích như đưa ra các giả tuyết từ các thôngtin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyếtgiải thích được hành vi của một nhóm khách hàng)
Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết
Trang 9phát triển của dữ liệu Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa
được khai thác và thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực
tuyến (off-line) Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìmhiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệuđó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thôngminh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thươngtrường
Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trongnghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới đáp ứng cả nhu cầu
trong khoa học cũng như trong hoạt động thực tiễn Đó chính là công nghệ Khai phá
dữ liệu (data mining) Đây chính là ứng dụng thứ ba của kho dữ liệu.
2 Khai phá dữ liệu là gì?
2.1 Khái niệm
Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80 Nó
bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩntrong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quanđến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình cótính chính quy (regularities) trong tập dữ liệu
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để
chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu
3 Khai thác các kỹ thuật khai thác dữ liệu
3.1 Khai thác tập phổ biến và luật kết hợp
Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng
dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm
Trang 10phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng.Một luật kết hợp X->Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồngthời tập Y Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lýkhách hàng…từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồnkho…
Khai thác mẫu tuần tự:
Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến
cố trong các CSDL hướng thời gian Một luật mô tả tuần tự có dạng tiêu biểu X->Yphản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y
Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triến hành vi của đối tượng
Phân lớp dữ liệu:
Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã đượcxếp lớp Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng đểtạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dự liệu học Các luậtphân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu Phân lớp dữ liệu có vaitrò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển Áp dụngvào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phânlớp khách hàng
Khai thác cụm:
Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng Các đối tượngđược gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm saocho mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu Cáccụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm Dovậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữliệu lớn
Trang 11Phần I PHÂN LỚP DỮ LIỆU
Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong cáclớp đã được xác định trước Phân lớp dữ liệu gồm hai bước là xây dựng môhình và vận hành mô hính
1 Phân lớp quy nạp trên cây quyết định
Cây quyết định gồm các nút trong biểu diễn giá trị thuộc tính, các nhánh biểudiễn đầu ra của kiểm tra, nút lá biểu diễn nhãn lóp Cây quyết định được tạotheo hai giai đoạn là tạo cây và tỉa nhánh
Trong giai đoạn tạo cây, lúc bắt đầu tất cả các mẫu học đều nằm ở nút gốc, sau
đó các mẫu học được phân chia một cách đệ quy dựa trên thuộc tính được chọn.Bước tỉa nhánh nhằm tìm và xóa những nhánh có phần tử không thể xếp vàolớp nào cả
Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giátrị trên nhánh của cây quyết định
Thuật toán tạo cây quyết định bao gồm các bước sau:
Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia đểtrị
Bước 2: Ban đầu tất cả mẫu học đều nằm ở gốcBước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạchóa)
Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọnlựa
Bước 5: Kiểm tra những thuộc tính được chọn dựa trên heristic hoặc củamột tiêu chuẩn thống kê
Điều kiện để dừng phân chia tập học:
Tất cả những mẫu học đối với một nút cho trước đều cùng lớp;
Trang 12Không còn thuộc tính nào để phân chia tiếp;
Không còn mẫu học
Độ lợi thông tin (information gain): Là đại lượng được dùng để chọn thuộc
tính nhằm phân chia tập học Thuộc tính được chọn là thuộc tính có độ lợithông tin lớn nhất
Cho hai lớp P và N và tập học S Lớp P có p phần tử và lớp N có n phần tử.Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp
N được xác định bởi:
I(p,n)=p+ n p log2 p
p+n−¿
p p+ nlog2
n p+n
Ví dụ tiêu biểu: play tennis
Trang 132 Phương pháp phân lớp BAYES
Bài tốn phân lớp cĩ thể hình thức hĩa bằng xác suất a-posteriori:
P(C) = tần số liên quan của các mẫu thuộc lớp C
C sao cho P(C|X) lớn nhất = C sao cho P(X|C)·P(C) lớn nhất
Vấn đề: tính P(X|C) là khơng khả thi!
Phân lớp Nạve Bayesian
Thừa nhận Nạve: sự độc lập thuộc tính
P(x 1 ,…,x k |C) = P(x 1 |C)·…·P(x k |C)
Nếu thuộc tính thứ i là rời rạc: P(x i |C) được ước lượng bởi tần số liên quan của
các mẫu cĩ giá trị x i cho thuộc tính thứ i trong lớp C
Nếu thuộc tính thứ i là liên tục: P(x i |C) được ước lượng thơng qua một hàm mật
độ Gaussian
Tính tốn dễ dàng trong cả hai trường hợp
Trang 14Ví dụ 1:
Trang 15Ví dụ 2:
Phân lớp X:
Một mẫu chưa thấy X = <mưa, nóng, cao, không>
P(X|p)·P(p) = P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) =3/9·2/9·3/9·6/9·9/14 = 0.010582
P(X|n)·P(n) = P(mưa|n)·P(nóng|n)·P(cao|n)·P(không|n)·P(n) =2/5·2/5·4/5·2/5·5/14 = 0.018286
Mẫu X được phân vào lớp n (không chơi tennis)
Gom cụm
Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưađược gán nhãn Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoặcgom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm.Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các điểmnằm trong cùng một cụm Một số ứng dụng tiêu biểu của gom cụm như:
Xem xét phân bố dữ liệu
Tiền xử lý cho các thuật toán khác;
Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thịthích hợp
Phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách quy hoạchphù hợp;
Phân loại nhà theo vị trí, giá trị
Phân loại khách hàng để có chính sách bảo hiểm hợp lý;
Phân loại bệnh nhân;
Một phương pháp gom cụm tốt nếu đạt các tính chất sau:
Có độ tương tự cao trong cùng cụm
Có độ tương tự thấp giữa các cụm
Có khả năng phát hiện các mẫu ẩn
Trang 16 Có khả năng làm việc hiệu quả với lượng dữ liệu lớn;
Có khả năng làm việc với nhiều loại dữ liệu khác nhau;
Có khả năng khám phá ra các cụm có phân bố theo dạng khác nhau;
Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập
Có khả năng làm việc với nhiễu và mẫu cá biệt;
Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu;
Làm việc tốt trên CSDL có số chiều cao;
Chấp nhận các ràng buộc do người dùng chỉ định;
Có thể hiểu và sử dụng được kết quả gom cụm
Trang 17Phần III GIỚI THIỆU CÔNG CỤ XÂY DỰNG MÔ HÌNH KHAI
PHÁ DỮ LIỆU BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT
Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức và
khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng như xây dựng mô hình khaiphá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft
BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
1 Microsoft Decision Tree (Cây quyết định)
2 Microsoft Clustering (Phân cụm)
3 Microsoft Navie Bayes (Phân lớp với Bayes rule)
4 Microsoft Time Series (Chuỗi thời gian)
5 Microsoft Association (Luật kết hợp)
6 Microsoft Sequence Clustering (Phân tích chuỗi)
7 Microsoft Neural Network (Mạng Neural)
8 Microsoft Linear Regression (Hồi qui tuyến tính)
9 Microsoft Logistics Regression (Hồi qui Logistics)
1 Qui trình xây dựng mô hình khai phá dữ liệu BIDS như sau:
a Tạo mới một project (Analysis Service Project)
b Tạo một Data Source
c Tạo một Data Source view
d Tạo một Mining model structure
e Tạo các Mining models
f Khai thác Mining models
g Kiểm tra độ chính xác của Mining Models
h Sử dụng Mining Models để dự đoán
Trang 182 Mô tả dữ liệu và mục tiêu khai phá
Cơ sở dữ liệu được sử dụng để minh họa trong bài tìm hiểu này làAdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sảnxuất xe đạp Từ phiên bản SQL Server 2005 không tích hợp sẵn cơ sở dữ liệu này vàkhi có nhu cầu hoặc muốn thử nghiệm chúng ta có thể cài đặt thêm vào
3 Mục đích của việc xây dựng các mô hình khai phá dữ liệu:
Để phân loại khách hàng và tìm ra các khách hàng tiềm năng cũng như có thể
dự đoán khách hàng nào có thể mua sản phẩm cùa công ty Adventure Works giúp bộphận Marketing xây dựng chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường tìmkiếm khách hàng, mở rộng kinh doanh
4 Mô tả từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS
4 1 Khởi động SQL Server Business Intelligence Development Studio (BIDS) tạo một project mới loại Analys Services Project mới có tên “
SQL2008_BIDS”