Vì vậy, chúng ta phải làm sao đảm bảo việckhai thác dữ liệu một cách hiệu quả nhất.Trong phạm vi của bài thu hoạch nhỏ này, em sẽ giới thiệu về kĩ thuật SupportVector Machines và Datamin
Trang 1của hầu hết các quốc gia trên thế giới Vì vậy, chúng ta phải làm sao đảm bảo việckhai thác dữ liệu một cách hiệu quả nhất.
Trong phạm vi của bài thu hoạch nhỏ này, em sẽ giới thiệu về kĩ thuật SupportVector Machines và Dataming ứng dụng trong CSDL Ngân hàng Kiên Long Quađây, chúng em cũng xin được gửi lời cảm ơn đến Giáo sư - Tiến sỹ Đỗ Phúc, người
đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho chúng em về môn học
“DataMining”
Trang 2MỤC LỤC
Mở đầu 1
PHẦN I : GIỚI THIỆU SUPPORT VECTOR MACHINES 3
I GIỚI THIỆU 3
II Ý TƯỞNG CỦA PHƯƠNG PHÁP 3
PHẦN II : MINING DỮ LIỆU KIÊN LONG BANK 6
I CREATE A DATA MINER PROJECT 6
II BUILD A DATA MINER WORKFLOW 7
Tài liệu tham khảo 24
Trang 3SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê SVM sẽ cốgắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test ErrorMinimisation)
II Ý TƯỞNG CỦA PHƯƠNG PHÁP
Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau [1].
Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, x i là vector dữ liệuđược biểu diễn xi=(wi1, wi2, …, win), winR là trọng số của đặc trưng tn Với tập dữ liệu huấn
luyện Tr={(x1, y1), (x 2 , y 2 ), …, (x l , y l )}, (x i R n ), yi{+1, -1}, cặp (x i , y i ) được hiểu là vector x i
được gán nhãn là y i
Nếu coi mỗi x i được biểu diễn tương ứng với một điểm dữ liệu trong không gian R n thì ý
tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian chiều để phân chia dữ liệu sao cho tất cả các điểm x + được gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x + )>0), các điểm x - được gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x - )<0)[2].
n-Hình 1: H2 là mặt phẳng tốt nhất
Trang 4để biến đổi thành dạng đẳng thức là rất phức tạp và khó khăn Hiện nay đã có những bộ thưviện đã hỗ trợ cho việc tính toán trên như : SVMlight, LIBSVM, jSVM, …
Ví dụ: Giả sử ta có một tập các điểm được gán nhãn dương (+1):
{s1 = (1,0), s2 = (3,1), s3 = (3, -1)}
Trang 5Bởi vì chúng ta sử dụng SVM tuyến tính nên hảm () - dùng để chuyển đổi vector từ
không gia dữ liệu đầu vào sang không gian đặc trưng – sẽ bằng () I Biểu thức trên được viết lại như sau:
Siêu phẳng phân chia 2 lớp đó là: y = wx + b với w = (1, 0) và b = -2
Hình 4: Siêu phẳng được biểu diễn trên R+
Trang 6PHẦN II :
MINING DỮ LIỆU KIÊN LONG BANK
I CREATE A DATA MINER PROJECT
1 In the Data Miner tab, right-click user, and select New Project :
2 In the Create Project window, enter a project name (in this example
KLB_Mining) and then click OK
Trang 7II BUILD A DATA MINER WORKFLOW
1 Right-click your project and select New Workflow
2 Xuất hiện :
Trang 83 Click the Data category
Drag and drop the Data Source
Trang 9Chọn table KHACHHANG_KLB Next
Trang 10Chọn Finish
Trang 114 Drag and drop the Explore Data
5 Link the data source and explore data
Right-click the data source, select Connect
Double-click the Explore Data, select the TIEPTUC
Trang 12Right-click the Explore Data node and select Run.
Trang 13Right-click the Explore Data, select View Data
Trang 156.Create Classification
Bạn muốn dự đoán các khách hàng có nhiều khả năng tiếp tục sử dụng sảnphẩm Do đó, bạn sẽ chỉ định một mô hình phân loại Theo mặc định, Oracle DataMiner chọn tất cả các thuật toán hỗ trợ cho một mô hình phân loại
Click on Models
Drag the Classification
Trang 16Connect the data source node to the classification
In the Edit Classification window:
A Select BUY_INSURANCE as the Target
B Select CUSTOMER_ID as the Case Id
Trang 17Right-click the classification build node and select Run
Trang 19Tiếp theo, create a new Data Source
Chọn bảng CUST_INSUR_LTV_SAMPLE, và sau đó nhấn Finish
Open the Evaluate and Apply
Trang 20Connect the Class Build node to the Apply Mode
Connect the KHACHHANG_KLB1 node to the Apply Mode
Trang 21Để có được thông tin này, bạn cần phải thêm một số cột đầu ra (thên hết cũngđược)
A Kích chuột phải vào nút APPLY MODEL và chọn Edit
Kết quả: Cửa sổ xuất hiện Chú ý rằng các cột Dự đoán và xác suất được xácđịnh tự động
B Ta có thể thêm thông tin bằng cách chọn tab Data Columns, và nhấp vào dấu
“+” như sau :
Trang 22 Chọn các cột trong danh sách thuộc tính có sẵn
Sau đó nhấn OK
Sau đó ,Run
Trang 23Connect the Apply Model node to the OUTPUT
Right-click the OUTPUT_2_4 và select Run
Trang 24Right-click OUTPUT_2_4 và select View Data
Đây là dữ liệu khách hàng sau khi đã thực hiện, với cột “Y” có khả năng tiếptục sử dụng sản phẩm !
Trang 252 Oracle Data Miner 11g
http://www.oracle.com/technetwork/database/options/odm/
dataminerworkflow-168677.html
3 Wikipedia
http://en.wikipedia.org/wiki/Support_vector_machine