Tiểu luận môn khai phá dữ liệu MINING DỮ LIỆU KIÊN LONG BANK

Vì vậy, chúng ta phải làm sao đảm bảo việckhai thác dữ liệu một cách hiệu quả nhất.Trong phạm vi của bài thu hoạch nhỏ này, em sẽ giới thiệu về kĩ thuật SupportVector Machines và Datamin

Trang 1

của hầu hết các quốc gia trên thế giới Vì vậy, chúng ta phải làm sao đảm bảo việckhai thác dữ liệu một cách hiệu quả nhất.

Trong phạm vi của bài thu hoạch nhỏ này, em sẽ giới thiệu về kĩ thuật SupportVector Machines và Dataming ứng dụng trong CSDL Ngân hàng Kiên Long Quađây, chúng em cũng xin được gửi lời cảm ơn đến Giáo sư - Tiến sỹ Đỗ Phúc, người

đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học

“DataMining”

Trang 2

MỤC LỤC

Mở đầu 1

PHẦN I : GIỚI THIỆU SUPPORT VECTOR MACHINES 3

I GIỚI THIỆU 3

II Ý TƯỞNG CỦA PHƯƠNG PHÁP 3

PHẦN II : MINING DỮ LIỆU KIÊN LONG BANK 6

I CREATE A DATA MINER PROJECT 6

II BUILD A DATA MINER WORKFLOW 7

Tài liệu tham khảo 24

Trang 3

SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê SVM sẽ cốgắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test ErrorMinimisation)

II Ý TƯỞNG CỦA PHƯƠNG PHÁP

Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau [1].

Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, x i là vector dữ liệuđược biểu diễn xi=(wi1, wi2, …, win), winR là trọng số của đặc trưng tn Với tập dữ liệu huấn

luyện Tr={(x1, y1), (x 2 , y 2 ), …, (x l , y l )}, (x i R n ), yi{+1, -1}, cặp (x i , y i ) được hiểu là vector x i

được gán nhãn là y i

Nếu coi mỗi x i được biểu diễn tương ứng với một điểm dữ liệu trong không gian R n thì ý

tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian chiều để phân chia dữ liệu sao cho tất cả các điểm x + được gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x + )>0), các điểm x - được gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x - )<0)[2].

n-Hình 1: H2 là mặt phẳng tốt nhất

Trang 4

để biến đổi thành dạng đẳng thức là rất phức tạp và khó khăn Hiện nay đã có những bộ thưviện đã hỗ trợ cho việc tính toán trên như : SVMlight, LIBSVM, jSVM, …

Ví dụ: Giả sử ta có một tập các điểm được gán nhãn dương (+1):

{s1 = (1,0), s2 = (3,1), s3 = (3, -1)}

Trang 5

Bởi vì chúng ta sử dụng SVM tuyến tính nên hảm () - dùng để chuyển đổi vector từ

không gia dữ liệu đầu vào sang không gian đặc trưng – sẽ bằng () I  Biểu thức trên được viết lại như sau:

Siêu phẳng phân chia 2 lớp đó là: y = wx + b với w = (1, 0) và b = -2

Hình 4: Siêu phẳng được biểu diễn trên R+

Trang 6

PHẦN II :

MINING DỮ LIỆU KIÊN LONG BANK

I CREATE A DATA MINER PROJECT

1 In the Data Miner tab, right-click user, and select New Project :

2 In the Create Project window, enter a project name (in this example

KLB_Mining) and then click OK

Trang 7

II BUILD A DATA MINER WORKFLOW

1 Right-click your project and select New Workflow

2 Xuất hiện :

Trang 8

3 Click the Data category

Drag and drop the Data Source

Trang 9

Chọn table KHACHHANG_KLB Next

Trang 10

Chọn Finish

Trang 11

4 Drag and drop the Explore Data

5 Link the data source and explore data

Right-click the data source, select Connect

Double-click the Explore Data, select the TIEPTUC

Trang 12

Right-click the Explore Data node and select Run.

Trang 13

Right-click the Explore Data, select View Data

Trang 15

6.Create Classification

Bạn muốn dự đoán các khách hàng có nhiều khả năng tiếp tục sử dụng sảnphẩm Do đó, bạn sẽ chỉ định một mô hình phân loại Theo mặc định, Oracle DataMiner chọn tất cả các thuật toán hỗ trợ cho một mô hình phân loại

Click on Models

Drag the Classification

Trang 16

Connect the data source node to the classification

In the Edit Classification window:

A Select BUY_INSURANCE as the Target

B Select CUSTOMER_ID as the Case Id

Trang 17

Right-click the classification build node and select Run

Trang 19

Tiếp theo, create a new Data Source

Chọn bảng CUST_INSUR_LTV_SAMPLE, và sau đó nhấn Finish

Open the Evaluate and Apply

Trang 20

Connect the Class Build node to the Apply Mode

Connect the KHACHHANG_KLB1 node to the Apply Mode

Trang 21

Để có được thông tin này, bạn cần phải thêm một số cột đầu ra (thên hết cũngđược)

A Kích chuột phải vào nút APPLY MODEL và chọn Edit

Kết quả: Cửa sổ xuất hiện Chú ý rằng các cột Dự đoán và xác suất được xácđịnh tự động

B Ta có thể thêm thông tin bằng cách chọn tab Data Columns, và nhấp vào dấu

“+” như sau :

Trang 22

 Chọn các cột trong danh sách thuộc tính có sẵn

 Sau đó nhấn OK

Sau đó ,Run

Trang 23

Connect the Apply Model node to the OUTPUT

Right-click the OUTPUT_2_4 và select Run

Trang 24

Right-click OUTPUT_2_4 và select View Data

Đây là dữ liệu khách hàng sau khi đã thực hiện, với cột “Y” có khả năng tiếptục sử dụng sản phẩm !

Trang 25

2 Oracle Data Miner 11g

http://www.oracle.com/technetwork/database/options/odm/

dataminerworkflow-168677.html

3 Wikipedia

http://en.wikipedia.org/wiki/Support_vector_machine

Định dạng
Số trang	25
Dung lượng	1,42 MB