1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIỆU VÀ CÔNG CỤ BUSSINESS INTELLIGENCE DEVELOPMENT STUDIO

37 1,3K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 740,26 KB

Nội dung

Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữcác dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ

Trang 1

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SỸ



KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU

Đề tài:

XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ

LIỆU VÀ CÔNG CỤ BUSSINESS

Trang 3

LỜI MỞ ĐẦU



Thời đại công nghệ thông tin càng ngày càng phát triển, với lượng dữ liệu thôngtin cũng càng ngày càng một lớn dần, vấn đề đặt ra cho chúng ta là làm thế nào để lưutrữ và tận dụng tốt những nguồn thông tin mà chúng ta đang có

Với thực tế thì một minh chứng rõ ràng nhất cho chúng ta thấy là vấn đề kinhdoanh của các công ty kinh doanh và sản xuất các sản phẩm cho người sử dụng Nếunhư không nắm bắt được thị trường, không khai thác được những tiềm năng kháchhàng, không biết nhu cầu khách hàng của chúng ta đang cần gì thì việc kinh doanh sẽkhông phát triển tốt hơn khi chúng ta nắm bắt được nhu cầu khách hàng và đáp ứngđược nhu cầu khách hàng, có kế hoạch tiếp thị tốt cho những khách hàng tiềm năng

Trong bài tìm hiểu này với thời gian ngắn em xin trình bày vấn đề tìm hiểu củamình về khai thác dữ liệu và công cụ khai phá dữ liệu rất có tiềm năng của Microsofttích hợp trong SQL server 2008R2 là BUSINESS INTELLIGENCE DEVELOPMENTSTUDIO (BIDS)

Em xin chân thành cảm ơn PGS.TS Đỗ Phúc – Giảng viên môn học cơ sở dữliệu nâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơnban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tinqua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để

em có thể hoàn thành môn học này

Em xin chân thành cảm ơn

Lê Thị Xuân Diệu

Trang 4

Phần I KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

1 Tổng quan về cơ sở dữ liệu và sự xuất hiện của khai phá dữ liệu

1.1 Tổ chức và khai thác cơ sở dữ liệu truyền thống

Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đãđược phát triển từ những năm 60 Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đãđược tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lĩnh vực hoạtđộng của con người và xã hội Theo như đánh giá cho thấy, lượng thông tin trên thếgiới cứ sau 20 tháng lại tăng gấp đôi Kích thước và số lượng cơ sở dữ liệu thậmchí còn tăng nhanh hơn Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng

5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII Với

sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn,

bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựngcác hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình Điềunày đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơngiản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng,v.v… đều được ghi vào trong máy tính Cho đến nay, con số ày đã trở nên khổng

lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữcác dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử cácgiao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, …Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đãgiúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu Mô hình cơ sở

dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọngtrong việc tổ chức và khai thác các cơ sở dữ liệu đó Cho đến nay, không một tổchức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ

Trang 5

1.2 Bước phát triển mới của việc tổ chức và khai thác các CSDL

Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tincũng được chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng như sản xuất, tàichính, buôn bán thị trường v.v Như vậy, bên cạnh chức năng khai thác dữ liệu có tínhchất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các hệthống thông tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu cầu trong thực

tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó Các quyết địnhcần phải có càng nhanh càng tốt và phải chính xác dựa trên những dữ liệu sẵn có trongkhi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian raquyết định cũng như khả năng hiểu hết được nội dung dữ liệu Lúc này các mô hìnhCSDL truyền thống và ngôn ngữ SQL đã cho thấy không có khả năng thực hiện côngviệc này Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồnày, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệthống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, cóchất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó Các kỹ thuật đó

được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) và môi trường các dữ liệu có được gọi là các kho dữ liệu (data warehouse).

Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp chongười dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tácnghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc

hiện tại Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định Nói cách khác, một kho dữ liệu bao gồm:

- Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào.

- Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập bảng dữ liệu của dữ liệu.”

Trang 6

Chiết xuất dữ liệuLàm sạch dữ liệu

Nạp dữ liệu.

MetaData

Kho dữ liệu trong DBMS

Data Mart

Hệ thống phân phối thông tin

Các công cụ hỏi đáp, báo cáo

Các công cụ OLAP

Các công cụ khai phá dữ liệu

Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính

- Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin

- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin

- Chứa các bảng dữ liệu có kích thước lớn

- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng vàcác liên kết nhiều bảng

Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có

chức năng giống như một kho lưu trữ thông tin trung tâm Trong đó, dữ liệu tác nghiệp

và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu Kho lưu trữ trung tâm

được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt

động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ

liệu

Trang 7

Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần:

- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tácnghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu

- Kho dữ liệu về dữ liệu (MetaData)

- Các kỹ thuật xây kho

- Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data marts): là nơi các

dữ liệu được khoanh vùng theo chủ đề đến một giới hạn nào đó và có thểđược thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng

Với các kho dữ liệu này, cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp, nghĩa là với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu; ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh.

- Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp(OLAP) và khai phá dữ liệu (data mining) Đây chính là các cách khai

thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những

dữ liệu thô Điểm mạnh và yếu của các kỹ thuật này ta sẽ phân tích kỹhơn ở những phần sau

- Quản trị kho dữ liệu

- Hệ thống phân phối thông tin

Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức Như đã đề cập ở trên, các kho dữ liệu được sử dụng theo ba cách chính:

Trang 8

- Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai tháccác thông tin bằng các công cụ vấn đáp và báo cáo Tuy nhiên, nhờ cóviệc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các

dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việcnâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báocáo) Bằng cách tạo ra một tầng ẩn giữa CSDL và người dùng, các dữliệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất.Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập

và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớtđược sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữliệu khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phứctạp Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa racác dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “trithức”

- Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực

tuyến (OLAP) Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụlàm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thìphân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giảthuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khảnăng đưa ra được các giả thuyết

Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho nó

rất khó có thể được sử dụng cho những mục đích như đưa ra các giả tuyết từ các thôngtin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyếtgiải thích được hành vi của một nhóm khách hàng)

Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết

Trang 9

phát triển của dữ liệu Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa

được khai thác và thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực

tuyến (off-line) Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìmhiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệuđó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thôngminh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thươngtrường

Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trongnghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới đáp ứng cả nhu cầu

trong khoa học cũng như trong hoạt động thực tiễn Đó chính là công nghệ Khai phá

dữ liệu (data mining) Đây chính là ứng dụng thứ ba của kho dữ liệu.

2 Khai phá dữ liệu là gì?

2.1 Khái niệm

Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80 Nó

bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩntrong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quanđến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình cótính chính quy (regularities) trong tập dữ liệu

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để

chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu

3 Khai thác các kỹ thuật khai thác dữ liệu

3.1 Khai thác tập phổ biến và luật kết hợp

Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng

dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm

Trang 10

phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng.Một luật kết hợp X->Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồngthời tập Y Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lýkhách hàng…từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồnkho…

Khai thác mẫu tuần tự:

Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến

cố trong các CSDL hướng thời gian Một luật mô tả tuần tự có dạng tiêu biểu X->Yphản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y

Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triến hành vi của đối tượng

Phân lớp dữ liệu:

Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã đượcxếp lớp Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng đểtạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dự liệu học Các luậtphân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu Phân lớp dữ liệu có vaitrò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển Áp dụngvào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phânlớp khách hàng

Khai thác cụm:

Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng Các đối tượngđược gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm saocho mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu Cáccụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm Dovậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữliệu lớn

Trang 11

Phần I PHÂN LỚP DỮ LIỆU

Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong cáclớp đã được xác định trước Phân lớp dữ liệu gồm hai bước là xây dựng môhình và vận hành mô hính

1 Phân lớp quy nạp trên cây quyết định

Cây quyết định gồm các nút trong biểu diễn giá trị thuộc tính, các nhánh biểudiễn đầu ra của kiểm tra, nút lá biểu diễn nhãn lóp Cây quyết định được tạotheo hai giai đoạn là tạo cây và tỉa nhánh

Trong giai đoạn tạo cây, lúc bắt đầu tất cả các mẫu học đều nằm ở nút gốc, sau

đó các mẫu học được phân chia một cách đệ quy dựa trên thuộc tính được chọn.Bước tỉa nhánh nhằm tìm và xóa những nhánh có phần tử không thể xếp vàolớp nào cả

Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giátrị trên nhánh của cây quyết định

Thuật toán tạo cây quyết định bao gồm các bước sau:

Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia đểtrị

Bước 2: Ban đầu tất cả mẫu học đều nằm ở gốcBước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạchóa)

Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọnlựa

Bước 5: Kiểm tra những thuộc tính được chọn dựa trên heristic hoặc củamột tiêu chuẩn thống kê

Điều kiện để dừng phân chia tập học:

Tất cả những mẫu học đối với một nút cho trước đều cùng lớp;

Trang 12

Không còn thuộc tính nào để phân chia tiếp;

Không còn mẫu học

Độ lợi thông tin (information gain): Là đại lượng được dùng để chọn thuộc

tính nhằm phân chia tập học Thuộc tính được chọn là thuộc tính có độ lợithông tin lớn nhất

Cho hai lớp P và N và tập học S Lớp P có p phần tử và lớp N có n phần tử.Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp

N được xác định bởi:

I(p,n)=p+ n p log2 p

p+n−¿

p p+ nlog2

n p+n

Ví dụ tiêu biểu: play tennis

Trang 13

2 Phương pháp phân lớp BAYES

Bài tốn phân lớp cĩ thể hình thức hĩa bằng xác suất a-posteriori:

P(C) = tần số liên quan của các mẫu thuộc lớp C

C sao cho P(C|X) lớn nhất = C sao cho P(X|C)·P(C) lớn nhất

Vấn đề: tính P(X|C) là khơng khả thi!

Phân lớp Nạve Bayesian

Thừa nhận Nạve: sự độc lập thuộc tính

P(x 1 ,…,x k |C) = P(x 1 |C)·…·P(x k |C)

Nếu thuộc tính thứ i là rời rạc: P(x i |C) được ước lượng bởi tần số liên quan của

các mẫu cĩ giá trị x i cho thuộc tính thứ i trong lớp C

Nếu thuộc tính thứ i là liên tục: P(x i |C) được ước lượng thơng qua một hàm mật

độ Gaussian

Tính tốn dễ dàng trong cả hai trường hợp

Trang 14

Ví dụ 1:

Trang 15

Ví dụ 2:

Phân lớp X:

Một mẫu chưa thấy X = <mưa, nóng, cao, không>

P(X|p)·P(p) = P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) =3/9·2/9·3/9·6/9·9/14 = 0.010582

P(X|n)·P(n) = P(mưa|n)·P(nóng|n)·P(cao|n)·P(không|n)·P(n) =2/5·2/5·4/5·2/5·5/14 = 0.018286

Mẫu X được phân vào lớp n (không chơi tennis)

Gom cụm

Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưađược gán nhãn Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoặcgom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm.Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các điểmnằm trong cùng một cụm Một số ứng dụng tiêu biểu của gom cụm như:

Xem xét phân bố dữ liệu

Tiền xử lý cho các thuật toán khác;

Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thịthích hợp

Phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách quy hoạchphù hợp;

Phân loại nhà theo vị trí, giá trị

Phân loại khách hàng để có chính sách bảo hiểm hợp lý;

Phân loại bệnh nhân;

Một phương pháp gom cụm tốt nếu đạt các tính chất sau:

 Có độ tương tự cao trong cùng cụm

 Có độ tương tự thấp giữa các cụm

 Có khả năng phát hiện các mẫu ẩn

Trang 16

 Có khả năng làm việc hiệu quả với lượng dữ liệu lớn;

 Có khả năng làm việc với nhiều loại dữ liệu khác nhau;

 Có khả năng khám phá ra các cụm có phân bố theo dạng khác nhau;

 Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập

 Có khả năng làm việc với nhiễu và mẫu cá biệt;

 Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu;

 Làm việc tốt trên CSDL có số chiều cao;

 Chấp nhận các ràng buộc do người dùng chỉ định;

 Có thể hiểu và sử dụng được kết quả gom cụm

Trang 17

Phần III GIỚI THIỆU CÔNG CỤ XÂY DỰNG MÔ HÌNH KHAI

PHÁ DỮ LIỆU BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT

Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức và

khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng như xây dựng mô hình khaiphá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft

BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:

1 Microsoft Decision Tree (Cây quyết định)

2 Microsoft Clustering (Phân cụm)

3 Microsoft Navie Bayes (Phân lớp với Bayes rule)

4 Microsoft Time Series (Chuỗi thời gian)

5 Microsoft Association (Luật kết hợp)

6 Microsoft Sequence Clustering (Phân tích chuỗi)

7 Microsoft Neural Network (Mạng Neural)

8 Microsoft Linear Regression (Hồi qui tuyến tính)

9 Microsoft Logistics Regression (Hồi qui Logistics)

1 Qui trình xây dựng mô hình khai phá dữ liệu BIDS như sau:

a Tạo mới một project (Analysis Service Project)

b Tạo một Data Source

c Tạo một Data Source view

d Tạo một Mining model structure

e Tạo các Mining models

f Khai thác Mining models

g Kiểm tra độ chính xác của Mining Models

h Sử dụng Mining Models để dự đoán

Trang 18

2 Mô tả dữ liệu và mục tiêu khai phá

Cơ sở dữ liệu được sử dụng để minh họa trong bài tìm hiểu này làAdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sảnxuất xe đạp Từ phiên bản SQL Server 2005 không tích hợp sẵn cơ sở dữ liệu này vàkhi có nhu cầu hoặc muốn thử nghiệm chúng ta có thể cài đặt thêm vào

3 Mục đích của việc xây dựng các mô hình khai phá dữ liệu:

Để phân loại khách hàng và tìm ra các khách hàng tiềm năng cũng như có thể

dự đoán khách hàng nào có thể mua sản phẩm cùa công ty Adventure Works giúp bộphận Marketing xây dựng chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường tìmkiếm khách hàng, mở rộng kinh doanh

4 Mô tả từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS

4 1 Khởi động SQL Server Business Intelligence Development Studio (BIDS) tạo một project mới loại Analys Services Project mới có tên “

SQL2008_BIDS”

Ngày đăng: 09/04/2015, 22:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
3. Hướng dẫn sử dụng công cụ khai phá dữ liệu trong SQL tại trang web http://bis.net.vn/forums/t/458.aspxhttp://bis.net.vn/forums/p/450/826.aspx#826 Link
5. Tìm dữ liệu để thử nghiệm trên SQL Server 2008R2 tại trang web http://stackoverflow.com/questions/10870537/where-to-download-adventureworks2008-msi Link
1. Bài giảng môn khai phá dữ liệu tác giả PGS.TS. Đỗ Phúc Khác
2. Giáo trình Khai Phá Dữ liệu tác giả PGS.TS. Đỗ Phúc đại học Quốc Gia, đại học công nghệ thông tin TPHCM Khác
4. Tài liệu kỹ thuật phân lớp trong khai phá dữ liệu của Bùi Trung Hiếu Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w