1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG DATA MINING CHO PHÁT TRIỂN CÁC THUÊ BAO ĐIỆN THOẠI CỐ ĐỊNH

61 534 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 2,31 MB

Nội dung

Khả năng ứng dụng kỹ thuật khai phá dữ liệu Data Mining để phát hiện các quy luật ẩn chứa trong khối dữ liệu khổng lồ, giúp đưa ra các quyếtđịnh đúng đắn mang lại cho các doanh nghiệp vi

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

2 Quá trình phát hiện tri thức

5

2.1 Hình thành và định nghĩa bài toán

5

2.2 Thu thập và tiền xử lý dữ liệu

5

2.3 Khai phá dữ liệu và rút ra các tri thức

6

2.4 Phân tích và kiểm định kết quả

6

2.5 Sử dụng các tri thức phát hiện được

6

3 Quá trình khai phá dữ liệu

7

4 Chức năng của khai phá dữ liệu

9

5 Các kỹ thuật khai phá dữ liệu

9

5.1 Phân lớp dữ liệu

10

5.2 Phân cụm dữ liệu

Trang 3

10

5.3 Khai phá luật kết hợp

10

5.4 Hồi quy

11

5.5 Giải thuật di truyền

11

5.6 Mạng nơron

11

5.7 Cây quyết định

11

6 Các dạng dữ liệu có thể khai phá được

11

7 Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu

12

7.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu

12

7.2 Ứng dụng của khai phá dữ liệu

12

8 Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu

13

CHƯƠNG II: TÌM HIỂU VỀ CÔNG CỤ SQL 2005

14

I SQL Manager Studio 14

II SQL Intergrate 14

III SQL Analysis 14

1 Data Source

14

2 Data Source Views

14

3 Khối – Cube

14

Trang 4

4 Measures, Attributes and Hierarchies (kỹ thuật của UDM)

15

5 Mining Structures

15

6 Roles, Assemblies, and Miscellaneous

15

IV SQL Report 15

CHƯƠNG III TÌM HIỂU BÀI TOÁN : PHÁT TRIỂN THUÊ BAO

16

I Lược đồ quan hệ kho dữ liệu

16

II Sơ đồ tích hợp dữ liệu từ các File Excel và Kho dữ liệu

17

1 Tích hợp từ các File Excel vào Bộ đệm

17

2 Tích hợp từ bộ đệm vào Kho dữ liệu

37

3 Các kết quả đưa ra đạt được và dự kiến

56

Đối với nghành Bưu chính Viễn thông, xu thế hội nhập, cạnh tranh, sức ép giảm giácước viễn thông, những đòi hỏi xã hội đối với việc nâng cao chất lượng các dịch vụ

Trang 5

bưu chính viễn thông ngày càng cao Ở một số lĩnh vực, một số dịch vụ, việc cạnhtranh đã trở nên gay gắt.

Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồmchi tiết cuộc gọi, thông tin cảnh báo tình trạng hệ thống mạng viễn thông và thông tin

dữ liệu về khách hàng Khả năng ứng dụng kỹ thuật khai phá dữ liệu (Data Mining)

để phát hiện các quy luật ẩn chứa trong khối dữ liệu khổng lồ, giúp đưa ra các quyếtđịnh đúng đắn mang lại cho các doanh nghiệp viễn thông cơ hội để phát triển dựatrên các hoạch định chính xác mang tính lịch sử và thực tiễn cao Đây là một hướng

đi phù hợp và đã sớm được áp dụng phổ biến ở nhiều công ty viễn thông lớn trên thếgiới

Chính vì lý do đó Ứng dụng DataMining cho phát triển các thuê bao điện thọai cốđịnh sẽ giúp phát triển các thuê bao đặc biệt ở Hà Nội

Kết hợp giữa lý thuyết và thực tế công việc của mình thiết nghĩ đó là điều kiện tốtnhất để hoàn thiện bản thân Học đi đôi với hành là vậy Sau đây em xin đi sâu vàonội dung chi tiết của bài thu hoạch:

B NỘI DUNG CHÍNH

Mục tiêu đề tài là sử dụng công cụ SQL 2005 trong ứng dụng DataMining choviệc phát triển các thuê bao điện thoại cố định ở Hà Nội, bao gồm các vấn đề chínhsau:

• Nắm bắt được khái quát lý thuyết về DataMining

• Công cụ sử dụng SQL 2005

• Đưa ra được các báo cáo, kết quả bài toán phát triển thuê bao điện thoại

cố định giúp cho việc đưa ra các quyết định nhằm giúp ích cho việc đưa

ra chiến lược phát triển thuê bao ở Hà Nội

Trang 6

CHƯƠNG I: LÝ THUYẾT VỀ KHO DỮ LIỆU (DATA WAREHOUSE DW) VÀ KHAI PHÁ DỮ LIỆU (DATA MINING)

-I Kho dữ liệu (Data Warehouse-DW)

Có thể nói gọn ngành tin học trong ba từ là lưu trữ, xử lý và khác thác thôngtin Về mặt lưu trữ, các hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt Tuy nhiên, khilượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt trong những ngànhnhư ngân hàng, tài chính…đã làm nảy sinh khái niệm DataWarehouse hay kho dữliệu

Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết

kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.

Nói cách khác, kho dữ liệu là một tập hợp các cơ sở dữ liệu rất lớn tới hàngtrăm GB hay thậm chí hàng Terabyte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ

và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới nghiệp vụ

hệ thống

Mục tiêu chính của kho dữ liệu là giải quyết những vấn đề cơ bản sau:

1. Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau

2. Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc

dữ liệu theo những hướng chủ đề nhất định

3. Tổng hợp và kết nối dữ liệu

4. Đồng bộ hóa các nguồn dữ liệu với DW

5. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như làcác công cụ chuẩn để phục vụ cho DW

6. Quản lý những siêu dữ liệu

7. Cung cấp các thông tin được tích hợp, tóm tắt hoặc được liên kết, được tổchức theo các chủ đề

8. Dùng trong các hệ thống hỗ trợ quyết đinh

II Khai phá dữ liệu

1 Khám phá tri thức và khai phá dữ liệu là gì?

Trang 7

Phát hiện tri thức (Knowledge Discovery ) trong các cơ sở dữ liệu là một qui

trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức,mới, khả ích, và có thể hiểu được

Còn khai thác dữ liệu (data mining) là một ngữ tương đối mới, nó ra đời vào

khoảng những năm cuối của của thập kỷ 1980 Có rất nhiều định nghĩa khác nhau vềkhai phá dữ liệu Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệunhư sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc

và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn,tiến sĩ Fayyad đã phát biểu: ”Khai phá dữ liệu thường được xem là việc khám phá trithức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đâychưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong cơ

sở dữ liệu.” Còn các nhà thống kê thì xem "khai phá dữ liệu như là một quá trìnhphân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra cácmẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó

sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện đượccho tập con mới của dữ liệu"

Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thứcgồm có các thụât toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệuquả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu

2 Quá trình phát hiện tri thức

Quá trình khám phá tri thức được tiến hành qua 5 bước sau:

Trang 8

Hình 1 Quá trình khám phá tri thức

2.1 Hình thành và định nghĩa bài toán

Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽquyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phươngpháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu

2.2 Thu thập và tiền xử lý dữ liệu

Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể

là từ các kho dữ liệu hay nguồn thông tin internet) Trong giai đoạn này dữ liệu cũngđược tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu cho phù hợp với phươngpháp khai phá dữ liệu được chọn lựa trong bước trên

Bước này thường chiếm nhiều thời gian nhất trong quá trình khám phá tri thức

Các giải thuật tiền xử lý dữ liệu bao gồm :

1 Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ đượcthay thế bởi các giá trị thích hợp

2 Khử sự trùng lắp: các đối tượng dữ liệu trùng lắp sẽ bị loại bỏ đi

Kỹ thuật này không được sử dụng cho các tác vụ có quan tâmđến phân bố dữ liệu

3 Giảm nhiễu: nhiễu và các đối tượng tách rời khỏi phân bố chung

sẽ bị loại đi khỏi dữ liệu

4 Chuẩn hoá: miền giá trị của dữ liệu sẽ được chuẩn hoá

Trang 9

5 Rời rạc hoá: các dạng dữ liệu số sẽ được biến đổi ra các giá trịrời rạc.

6 Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có

7 Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt

2.3 Khai phá dữ liệu và rút ra các tri thức

Đây là bước quan trọng nhất trong tiến trình khám phá tri thức Kết quả củabước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu Một môhình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả hệthống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu được nảy sinh Còn một mẫu làmột cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu

2.4 Phân tích và kiểm định kết quả

Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả

và dự đoán Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợpvới lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng

2.5 Sử dụng các tri thức phát hiện được

Trong bước này, các tri thức khám phá được sẽ được củng cố, kết hợp lạithành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức

đó Các mô hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng cácmôdun hỗ trợ việc đưa ra quyết định

Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ vớinhau trong bối cảnh chung của hệ thống Các kỹ thuật được sử dụng trong giai đoạntrước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng trong các giaiđoạn tiếp theo Các bước của quá trình khám phá tri thức có thể được lặp đi lặp lạimột số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện

3 Quá trình khai phá dữ liệu

Khai phá dữ liệu (Data mining - DM) là một khái niệm ra đời vào những năm

cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông

tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai

Trang 10

Pattern Discovery

Transforme

d Data

Cleansed PreprocessedPreparated

Target Data

Gathering

Data Mining

Selection

Transformation

Cleansing processing

Pre-Preparation

Envalution of Rule

Interne

Interne

phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra

các mẫu hình có tính chính quy (regularities) trong tập dữ liệu

Có thể chia khai thác dữ liệu thành hai dạng chính: khia thác dữ liệu theohướng kiểm tra và khai thác dữ liệu theo hướng khám phá Trong khai thác dữ liệutheo hướng kiểm tra, người dùng đề xuất giả thiết, hệ thống kiểm tra tính đúng đắncủa giả thiết Khai thác dữ liệu theo hướng kiểm tra bao gồm: truy vấn, báo cáo, phântích đa chiều, phân tích thống kê… Ngược lại, khai thác dữ liệu theo hướng khámphá sẽ tìm kiếm các tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tất cảcác giả thiết khả dĩ Do không gian tìm kiếm lớn, nên rất nhiều heuristic đã được đềxuất nhằm nâng cao hiệu suất của thuật giải tìm kiếm

Tri thức được rút ra có thể được dùng để:

- Giải thích dữ liệu: Cung cấp sự hiểu biết dâu sắc và rất hữu ích về hành vi

của các đối tượng, giúp cho các doanh nghiệp hiểu rõ hơn những khách hàng của họ

- Dự báo: dự đoán giá trị của những đối tượng mới

+ Khuynh hướng mua hàng của khách hàng

+ Xác định rủi ro tín dụng đối với một khách hàng

+ Định hướng tập trung nguồn lực của doanh nghiệp

Ngày nay, khi công cụ thu thập dữ liệu tự động và công nghiệp lưu trữ dữ liệu ngàycàng hoàn thiện giúp con người tạo lập và quản lý một lượng dữ liệu khổng lồ trongcác CSDL, kho dữ liệu (Data Warehouse) thì nhu cầu nắm bắt dữ liệu, trích rút thôngtin trở thành cấp thiết và có ý nghĩa Mặt khác, với nhu cầu ngày càng cao hơn, conngười không bằng lòng với những dữ liệu đơn giản thu được từ các kỹ thuật trướcđây Từ nhu cầu nắm bắt tri thức về các mối quan hệ giữa chúng, xa hơn nữa là pháthiện những quy luật trong lĩnh vực đó Khai phá dữ liệu ra đời và đáp ứng các nhucầu cần thiết đó

Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 2

10

Trang 11

Hình 2 Quá trình khai phá dữ liệu 6 giai đoạn

Bắt đầu quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất Đây là mộtquá trình rất phức tạp và khó khăn như: quản lý các tập dữ liệu, phải lặp đi lặp lạitoàn bộ quá trình,.v.v

 Gom dữ liệu (Gathering)

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Là bướckhai thác trong một cơ sở dữ liệu, một kho dữ liệu hoặc dữ liệu từ các nguồnứng dụng Web

 Trích lọc dữ liệu (Selection)

Dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn, ví dụ chọn tất

cả những người có tuổi đời từ 25 – 35 và có trình độ đại học

 Làm sạch, tiền xử lý và chuẩn bị dữ liệu (Cleansing, Pre-processing

Trang 12

những dạng dữ liệu không chặt chẽ, phi logic, loại bỏ những dữ liệu dư thừakhông có giá trị.

 Chuyển đổi dữ liệu (Transformation)

Bước chuyển đổi dữ liệu: dữ liệu được sử dụng và điều khiển bởi việc tổchức lại giúp chuyển đổi phù hợp với mục đích khai thác

 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

Là bước mang tính tư duy trong khai phá dữ liệu Giai đoạn sử dụng nhiềuthuật toán khác nhau để trích ra các mẫu dữ liệu Thuật toán thường dùng lànguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,.v.v

 Đánh giá kết quả mẫu (Evaluation of Result)

Là giai đoạn cuối trong quá trình khai phá dữ liệu Các mẫu dữ liệu đượcchiết xuất ra bởi phần mềm khai phá dữ liệu Không phải mẫu dữ liệu nàocũng hữu ích, đôi khi còn bị sai lệch Vì vậy, cần ưu tiên những tiêu chuẩnđánh giá để chiết xuất ra các tri thức (Knowlege) cần thiết

4 Chức năng của khai phá dữ liệu

Khai phá dữ liệu có hai chức năng cơ bản đó là: chức năng dự đoán và chức năng mô tả

5 Các kỹ thuật khai phá dữ liệu

Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện haichức năng mô tả và dự đoán

- Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc cácđặc tính chung của dữ liệu trong CSDL hiện có Một số kỹ thuật khai phátrong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp(Summarisation), trực quan hoá (Visualization), phân tích sự phát triển và

độ lệch (Evolution and deviation analyst),…

- Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựavào các suy diễn trên cơ sở dữ liệu hiện thời Một số kỹ thuật khai phá

Trang 13

trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyếtđịnh (Decision tree), thống kê (statictics), mạng nơron (neural network),luật kết hợp,….

Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiệnnay là :

5.1 Phân lớp dữ liệu:

Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu.Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữliệu( mỗi mẫu 1 lớp) Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chínhxác của mô hình chấp nhận được

5.2 Phân cụm dữ liệu:

Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập

dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng

5.3 Khai phá luật kết hợp:

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa cácgiá trị dữ liệu trong cơ sở dữ liệu Đầu ra của giải thuật luật kết hợp là tập luật kếthợp tìm được Phương pháp khai phá luật kết hợp gồm có hai bước:

- Bước 1: Tìm ra tất cả các tập mục phổ biến Một tập mục phổ biến đượcxác định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu

- Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phảithoả mãn độ hỗ trợ và độ tin cậy cực tiểu

5.4 Hồi quy:

Phương pháp hồi quy tương tự như là phân lớp dữ liệu Nhưng khác ở chỗ nódùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trịrời rạc

Trang 14

5.5 Giải thuật di truyền:

Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giảithuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trongsinh học

5.6 Mạng nơron:

Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biếnhiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khảnăng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của conngười

Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo, dựđoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các xuhướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuynhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiềukhó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm

5.7 Cây quyết định.

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phânlớp và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đốitượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuậtnày thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối vớingười sử dụng

6 Các dạng dữ liệu có thể khai phá được

- CSDL quan hệ

- CSDL đa chiều

- CSDL giao dịch

- CSDL quan hệ - đối tượng

- CSDL không gian và thời gian

- CSDL đa phương tiện

Trang 15

7 Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá

dữ liệu

7.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu

Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành vàlĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê,máy học, trí tuệ nhân tạo, csdl, thuật toán toán học, tính toán song song với tốc độcao, thu thập cơ sở tri thức cho hệ chuyên gia,…

7.2 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vựckhác nhau Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi

kỹ thuật cao, như tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệthống sản xuất; Được ứng dụng cho việc quy hoạch và phát triển các hệ thống quản

lý và sản xuất trong thực tế như dự đoán tải sử dụng điện, mức độ tiêu thụ sản phẩm,phân nhóm khách hàng; Áp dụng cho các vấn đề xã hội như phát hiện tội phạm, tăngcường an ninh…

Một số ứng dụng cụ thể như sau :

- Khai phá dữ liệu được sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định

- Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông tin dichuyền, tìm mối liên hệ giữa các hệ gen và chuẩn đoán một số bệnh dichuyền

- Trong y học: khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng,chuẩn đoán bệnh

- Tài chính và thị trường chứng khoán: Khai phá dữ liệu để phân tích tìnhhình tài chính, phân tích đầu tư, phân tích cổ phiếu

- Khai thác dữ liệu web

- Trong thông tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng,điều khiển và lập lịch trình…

- Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phântích dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận

Trang 16

8 Các thách thức và hướng phát triển của phát hiện tri thức và khai phá

- Dữ liệu bị thiếu hoặc bị nhiễu

- Quan hệ giữa các trường phức tạp

- Vấn đề giao tiếp với người sử dụng và kết hợp với các tri thức đã có

- Tích hợp với các hệ thống khác

- …

Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua đượctất cả những thách thức trên Chú trọng vào việc mở rộng ứng dụng để đáp ứng chomọi lĩnh vực trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệutrong những lĩnh vực đã có khai phá dữ liệu Tạo ra các phương pháp khai phá dữliệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu quả Tạo ratương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển quá trình khaiphá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫuđáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu Ứng dụngkhai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trongviệc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an toàn và bảo mậtthông tin trong khai phá dữ liệu

CHƯƠNG II: TÌM HIỂU VỀ CÔNG CỤ SQL 2005

I SQL Manager Studio

Quản lý CSDL: cho phép quản lý dự án một cách tốt nhất từ việc tạo đến khibảo trì CSDL

Trang 17

Các chức năng hầu như tương tự với SQL Manager 2000, ngoài ra SQLManager Studio 2005 còn hỗ trợ việc quản lý của các dự án SQL Analysis, SQLIntegrate, SQL Report Quản lý các hoạt động Chạy của các dự án.

Hỗ trợ khả năng tích hợp một cách linh hoạt, có thể sử dụng được các Query

để phụ giúp cho quá trình tích hợp dữ liệu, có thể bổ sung dữ liệu mới mà có liênquan tới dữ liệu đã có trong CSDL(dữ liệu có tính tham chiếu)

1 Project bao gồm nhiều Cube khác nhau Cube bao gồm các độ đo và các

chiều Xây dựng Cube có thể sử dụng theo mô hình star schema và snowflake

schema

4 Measures, Attributes and Hierarchies (kỹ thuật của UDM)

- Measures: là thông tin chính cần phân tích

- Attributes: là các thông tin về chiều cần phân tích theo các hướng khác nhau

Trang 18

- Hiearchies: là khả năng Tổng quát hóa và Chi tiết hóa của DataMining.

Hỗ trợ khả năng sử dụng các SQL để tạo ra các dữ liệu Tổng quát hơn

6 Roles, Assemblies, and Miscellaneous

Report trong SQL đưa ra các báo cáo từ dữ liệu có trực tiếp trong CSDL.Ngoài ra bao gồm các dữ liệu khác như dữ liệu từ việc Phân tích các Khối, dữ liệu từphân tích DataMining

Report hỗ trợ việc định dạng báo cáo: dữ liệu có thể được định dạng tùy theo ýmuốn: dữ liệu dạng số, ngày đặc biệt hỗ trợ rất nhiều dạng biểu đồ mang tính trựcquan cho người xem báo cáo

Basic Report: Tạo các báo cáo đơn giản như sử dụng các Query

thông thường trong SQL để đưa thông tin ra

Group Report: Tạo ra các nhóm báo cáo giúp cho việc định dạng khuôn

dạng của 1 nhóm để đưa dữ liêu lên Server Trong đó bao gồm việc tạo cácMẫu báo cáo

CHƯƠNG III TÌM HIỂU BÀI TOÁN : PHÁT TRIỂN THUÊ BAO

Bài toán Phát triển thuê bao điện thoại ở Hà Nội gắn liền với việc ngày càng

có nhiều khách hàng làm Hợp đồng, đăng kí sử dụng các dịch vụ của Bưu điện Cơ

Trang 19

sở dữ liệu bao gồm có 19 bảng : DICHVU_VT, DOITUONG, DONVI,QUANHUYEN, DUONGPHO, MAPHO, PHUONGXA, HD_KHACHHANG,HD_THANHTOAN, HD_THUEBAO, KIEU_LD, KIEU_TT, LOAI_HD,LOAI_KH, LOAI_NV, LOAIHINH_TB, NGANHANG, NHANVIEN,PHI_HOPDONG

Ứng dụng bài toán Phát triển thuê bao sử dụng SQL 2005

I Lược đồ quan hệ kho dữ liệu

II Sơ đồ tích hợp dữ liệu từ các File Excel vào Kho dữ liệu

1 Tích hợp từ các File Excel vào Bộ đệm

Trang 20

 Tích hợp dữ liệu từ nguồn Excel vào bảng QUANHUYEN

• Tạo kết nối tới nguồn exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Chèn dữ liệu vào bộ đệm

Trang 21

• Tạo kết nối tới nguồn Exel

• Chuyển đổi dữ liệu sao cho đúng kiểu

• Kiểm tra ràng buộc tham chiếu với bảng Quanhuyen

• Chèn dũ liệu vào bộ đệm

Trang 22

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Chèn dữ liệu vào bộ đệm

Trang 23

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu cho đúng

• Kiểm tra ràng buộc tham chiếu với bảng PHUONGXA

• Kiểm tra ràng buộc tham chiếu với bảng DUONGPHO

• Chèn dữ liệu vào bộ đệm

Tích hợp dữ liệu từ nguồn Excel vào bảng

Trang 24

ICHVU_VIENTHONG

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Chèn dữ liệu vào bộ đệm

Trang 25

•Tạo kết nối tới nguồn Excel

•Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

•Chèn dữ liệu vào bộ đệm

Trang 26

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG

• Chèn dữ liệu vào bộ đệm

Trang 27

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG

• Chèn dữ liệu vào bộ đệm

Trang 28

• Tạo kết nối tới nguồn Exel

• Chuyển đổi dữ liệu sao cho đúng kiểu

• Kiểm tra ràng buộc tham chiếu với bảng LOAI_HD

• Kiểm tra ràng buộc tham chiếu với bảng DICHVU_VIENTHONG

Trang 29

• Tạo kết nối tới nguồn Exel

• Chuyển đổi dữ liệu sao cho đúng kiểu

• Chèn dữ liệu vào bộ đệm

Trang 30

• Tạo kết nối tới nguồn Exel

• Chuyển đổi kiểu dữ liệu sao cho đúng kiểu

• Chèn dữ liệu vào bộ đệm

Ngày đăng: 09/04/2015, 21:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Bài giảng trực tuyến cùng tài liệu trên diễn đàn của thầy PGS.TS Đỗ Phúc 2. PGS.TS Đỗ Phúc, Giáo trình “Khai thác dữ liệu”, Nhà xuất bản: Đại HọcQuốc Gia TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Khai thác dữ liệu
Nhà XB: Nhà xuất bản: Đại HọcQuốc Gia TP Hồ Chí Minh
3. Võ Huỳnh Tâm - Trần Ngân Bình, "Giáo trình trí tuệ nhân tạo", Nhà xuất bản: Đại học Cần Thơ Sách, tạp chí
Tiêu đề: Giáo trình trí tuệ nhân tạo
Nhà XB: Nhà xuấtbản: Đại học Cần Thơ
5. Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques (2001), ISBN 1-55860-489-8 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques
Năm: 2001
4. Introduction to Knowledge Discovery and Data Mining, Institute of Information Technology Khác
6. Thomas, Data mining: Definittions and decision tree examples, State university of New York Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w