Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.1.2 Phan loai bài toán phân lớp: - Nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được
Trang 1
BO GIAO DUC VA DAO TAO DAI HOC KINH TE TP HO CHi MINH TRUONG CONG NGHE VA THIET KE
whe
UEH UNIVERSITY
ĐỎ AN MON HOC
DE TAI:
PHAN TICH DU LIEU KHA NANG ROI BO DICH VU CUA KHACH HANG DUA
TREN BO DU LIEU TELCO CUSTOMER CHURN BANG PHAN MEM ORANGE
Hoc phan: Khoa Hoc Dit Liéu
Nhóm Sinh Viên:
1 Hoàng Thị Thu Hương
2 Nguyễn Triệu Khã Văn
Chuyên Ngành: KINH TÉ HỌC ỨNG DỤNG Khóa: K47
Giảng Viên: TS Đặng Ngọc Hoàng Thành
Trang 21.3 Lý Do Chọn Lựa Đề Tàii - c1 T1 111111111 511 H1 TH HH HH nh HH HH Hy 8 CHƯƠNG 2 CÁC MÔ HÌNH PHẦN LỚP DỮ LIỆU 2252525252 S2S2<szccccea 9 2.1 Các Mô Hình Phân Lớp Dữ Liệu . - - - 22311111211 n HH HS HH 1 152511111 ca 9 2.1.1 Mô Hình Logistic Regression 2201210011111 11H vờ 9 2.1.2 Mô Hình Decision Tree L Q.20 00111 n2 HH TT nn TH kh vn 10 2.1.3 Mô Hình Support Vector Machine - 2.000 QS S222 HH key 11 2.1.4 Mô Hình Neural Nefwork - 2000011122 H TH HH TT TH ng kg 13 2.2 Quy Trình Phân Lớp Dữ Liệu L 220000 0122222111111 12 111v ng rưy 14
2.2.1 Phan Chia Dit LiGu oo 15 V208 ¡8890 5 0 e 16
2.2.3 Đánh Giá Tính Hiệu QUả 7-02-0022 101220121110101 111v ng ng 29 CHUONG 3 CAC KET QUÁ THỰC NGHIỆM S222 S222 x2Eerrrrrre 35
4.2 Những Hạn Chế và Hướng Phát Triên + 5 2212323 112325111 525125 1111 1EEce 43
TÀI LIỆU THAM KHÁO - 5 2 22212111115211121212111111111121111111 1110010101211 cee 45
Trang 3LOI CAM ON
Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành nhất tới thầy
Dang Ngoc Hoang Thành vì đã giúp chúng em trong suốt thời gian tìm hiểu và hoàn thành bài dự án “Phân tích dữ liệu khả năng rời bỏ dịch vụ của khách hàng dựa trên
bộ dữ liệu Telco Customer Churn bằng phan mém Orange” Trong qua trinh hoc tap
và nghiên cứu về bộ môn Khoa hoc dữ liệu, chúng em luôn nhận được sự quan tam,
giúp đỡ, hướng dẫn tận tình và tâm huyết từ thầy Thầy đã giúp chúng em tích lũy thêm nhiều kiến thức để có cái nhìn sâu sắc và hoàn thiện hơn trong bộ môn này nói riêng và trong cuộc sóng thực tế nói chung Thông qua đồ án này, nhóm em xin được trình bày lại những kiến thức đã tiếp thu được trong học phân vừa qua Dựa trên những kiến thức mà thầy đã giảng dạy trong những buôi học, nhóm chúng em
đã vận dụng được đề có thể thực hiện tốt bài dự án này
Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức của mỗi người luôn có những hạn ché nhất định Do đó, trong quá trình hoàn thành bài tiêu luận, chắc chắn
sẽ không tránh khỏi những thiếu sót và hạn chế Thé nên, nhóm chúng em rất mong nhận được sự đóng góp quý báu, những ý kiến nhận xét, phê bình từ phía thầy và
các ban dé nhóm chúng em được hoàn thiện hơn
Một làn nữa, nhóm chúng em xin kính chúc thầy sức khỏe, hạnh phúc và thành
công trên con đường giảng dạy của mình
Xin chân thành cảm ơn!
CHUONG 1 TONG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu
1.1.2 Phan loai bài toán phân lớp:
- Nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân lớp nào
- Có nhiều bài toàn phân lớp dữ liệu như:
Trang 4+ Phân lớp nhị phân, hđây là bài toán gán nhãn dữ liệu cho đối tượng vào 1 trong 2
lớp khác nhau dựa vào việc dữ liệu đó có hay không có tác dụng đặc trưng của bộ phân
phân lớp (n=2)
+ Phân lớp đa lớp, đây là quá trình phân lớp dữ liệu với số lượng lớp lónhơn 2 (n>2)
+ Phân lớp đơn nhãn, mỗi đổi tượng dữ liệu chỉ thuộc vào 1 lớp duy nhát
+ Phân lớp đa nhãn, một đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác
nhau
1.1.3 Các ứng dụng phân lớp dữ liệu
- Trong lĩnh vực kinh tế:
+ Tài chính ngân hàng: Dự báo giá chứng khoán; xép hạng tín dụng cá nhân và tô
chức; đánh giá rủi ro tài chính;
+ Sales & Marketing: Dự báo doanh thu; dự báo khách hàng trung thành;
+ Kinh tế học: Dự báo khủng hoảng kinh tế; dự báo cung cầu:
- Ngoài ra, ứng dụng của bài toán phân lớp dữ liệu này cũng được sử dụng rất nhiều và rộng rãi trong thực tế cuộc sông như: bài toán nhận dạng khuôn mặt, nhận diện giọng nói,
phát hiện email spam
1.2 Giới Thiệu Về Python và Phần Mềm Orange
1.2.1 Giới thiệu về Python
1.2.1.1 Định nghĩa về Python
Python là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, hướng
đối tượng đơn giản, dễ học, mạnh mẽ, cấp cao Python có cấu trúc cú pháp ít hơn các ngôn
ngữ khác
—_ Python được thông dịch: Python được trình thông dịch xử lý trong thời gian chạy Bạn không can phải biên dịch chương trình của mình trước khi thực hiện nó Nó
tương tự với PERL và PHP
— Python là tương tác: Tại một dấu nhắc Python bạn có thẻ tương tác trực tiếp với
trình thông dịch để viết chương trình Python
— Python là hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng hoặc
kỹ thuật lập trình đóng gói mã trong các đối tượng
— Python là ngôn ngữ của người mới bắt đầu: Python là ngôn ngữ tuyệt vời cho các lập trình viên mới bắt đầu và hỗ trợ phát triên một loạt các ứng dụng từ xử lý văn bản đơn giản, lập trình web, cho đến lập trình game
1.2.1.2 Lịch sử của Python:
— Python được Guido van Rossum phát triển vào cuối những 1980 và đầu những năm 1990 tại Viện nghiên cứu quóc gia về toán học và khoa học máy tính ở Hà
Lan.
Trang 5Python có nguồn góc từ nhiều ngôn ngữ khác, bao gòm ABC, Modula-3, C, C++,
Algol-68, SmallTalk và Unix shell và các ngôn ngữ script khác Python có bản
quyền, giống như Perl, mã nguôn Python hiện có sẵn theo giấy phép GNU (GPL)
Python hiện được duy trì bởi một nhóm phát triển cót lõi tại viện nghiên cứu quóc gia về toán học và khoa học máy tính ở Hà Lan Guido van Rossum vẫn
giữ một vai trò quan trọng trong việc chi đạo tiến trình của nó
Python 2.0 đã được phát hành vào ngày l6 tháng 10 năm 2000 và có nhiều tinh năng mới, bao gòm bộ thu gom rác theo chu kỷ (cycle-detecting garbage) và hỗ
trợ Unicode Với việc phát hành này quá trình phát triên đã được thay đổi và trở nên minh bạch hơn và cộng đồng hậu thuẫn
Python 3.0 được phát hành năm 2008, sau một thời gian dài thử nghiệm Cho tới nam 2017, Python dang co phiên bản 3.7
1.2.1.3 Các tinh nang cua Python
— Cac tinh nang cia Python bao gém:
Dễ đọc: Mã Python được định nghĩa rõ ràng hơn và có thể nhìn thấy bằng mắt
Dé bao tri: Mã nguồn của Python kha dé bao tri
Một thư viện tiêu chuân rộng: Phản lớn thư viện của Python rất dễ đính kèm và
đa nền táng tương thích trên UNIX, Windows va Macintosh
Chế độ tương tác: Python có hỗ trợ cho chế độ tương tác cho phép kiểm tra
tương tác và debug
Portable: Python cé thé chạy trên nhiều nền táng phần cứng khác nhau và có cùng giao diện trên tất cá các nèn táng
Có thê mở rộng: Bạn có thẻ thêm các module cấp thấp vào trình thông dịch
Python Các module này cho phép các lập trình viên thêm hoặc tùy chính các
công cụ của mình đề hiệu quả hơn
Cơ sở dữ liệu: Python cung cấp phương thức giao tiếp cho tất cá các cơ sở dữ
liệu
Lập trình GUI: Python hỗ trợ các ứng dụng GUI có thể được tạo và chuyên sang nhiều cuộc gọi hệ thống, thư viện và hệ thống cửa số, như Windows MFC, Macintosh và hệ thông X Window của Unix
Khả năng mở rộng: Python cung cấp cấu trúc và hỗ trợ tốt hơn cho các chương
trình lớn hơn so với kịch ban lệnh shell
—_ Ngoài các tính năng được đề cập ở trên, Python còn có một danh sách lớn các tính
năng khác, một số tính năng được liệt kê bên dưới:
+ Nó hỗ trợ các phương pháp lập trình thủ t và có cầu trúc cũng như OOP
Trang 6Nó có thẻ dễ dàng tích hợp với C, C++, COM, ActiveX, CORBA và Java
1.2 Giới Thiệu Về Python và Phần Mềm Orange
1.2.2 Giới thiệu Phần Mềm Orange
—_ Như chúng ta đã biết, khai thác dữ liệu là một lĩnh vực khá khó dé khám phá và nghiên cứu bởi nó là một quá trình trích xuất, khám phá các vấn đề từ một nguồn
dữ liệu lớn và đòi hỏi tính chính xác Chính vì vậy, rất nhiều phần mềm đã ra doi dé giúp cho con người dễ dàng hơn trong việc nghiên cứu những vấn đề thuộc lĩnh vực khó này Một trong những phần mèn tiêu biểu đó chính là phần mềm Orange
— Orange la một bộ công cụ trực quan hóa dữ liệu, khai thác và phân tích dữ liệu Phần
mèm có một loạt các chức năng để phân tích dữ liệu từ đơn gián đến phức tạp, tạo
ra các biêu đồ đẹp và thú vị, đồng thời cũng giúp cho việc khai thác dữ liệu và học
máy dễ dàng hơn
—_ Hệ thống của Orange còn được gọi là Widget cung cấp các chức năng cơ bản như
đọc dữ liệu, hiên thị dữ liệu dạng báng, lựa chọn thuộc tính đặc điểm của dữ liệu,
huắn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các
phân tử dữ liệu, Người dùng có thể tương tác khám phá các hình ảnh trực quan
hoặc đưa ra các tập con đã được chọn vào các VWidget khác
— Data: Ding dé rut trích, biến đôi, và nạp dữ liệu (ETL process)
Edit Domain Color Statistics — Save Data
— Visualize: ding dé biéu dién biéu dé (chart) giúp quan sát dữ liệu được tốt hơn
Trang 7Forest Viewer Nomogram
— Model: gsm cac ham may hoc (machine learning) phân lớp dữ liệu với Tree, Logictis Regression, SVM
9)» fis lat 23
a a tha bet
: >» g&
8 Z
Trang 8— Evaluate: La cac phương pháp đánh giá mô hình như : Test& Score, Prediction, Confusion
Score Predictions Matrix Analysis
Lit Curve Calibration
— Unsupervised: Gém cac ham may hoc (machine learing) gom nhóm dữ liệu như: Distance, K-means
Distance Hierarchical k-Means Louvain
Map Clustering Clustering
Trang 9Orange3-Network 1.6.0 Orange3-Prototypes 0.15.0
Onn med Limealalall 1, £4 x
® induce association and classification rules
® filter rules by the antecedent or consequent part
1.3 Lý Do Chọn Lựa Đề Tài
Trước khi bắt đầu, chúng em xin phép được trình bày lý do chọn đề tài này Đầu tiên,
là một sinh viên thuộc chuyên ngành kinh tế Những môn học và só liệu hàng ngày chúng
em được tiếp xúc là những vấn đẻ liên quan mật thiết đến ngành kinh tế như là doanh số bán hàng, thị trường, thu nhập, các nhà đầu tư, Điều này đã khiến nhóm em quyết định chọn đề tài có liên quan khá lớn đến ngành kinh té Bên cạnh đó, trong thời buôi mà kinh
tế - xã hội phát triển một cách nhanh chóng, vấn đẻ thiết yêu mà các nhà kinh tế quan tâm đến không hiên nhiên chỉ là việc làm sao đề phát triển kinh tế, làm sao đê mọi người gia nhập vào thị trường của họ mà đặc biệt hơn hết đó là việc quan tâm đén tính bèn vững của thị trường Làm sao để có thể giữ chân khách hàng luôn bèn vững với dịch vụ của một doanh nghiệp nào đó Có thẻ thấy rằng trong thực tế ngày nay, vấn đề về mức độ khách hàng rời bỏ dịch vụ bây giờ là một trong những vấn đề nhận được khá nhiều sự quan tâm
của không những các doanh nghiệp và các nhà làm kinh tế mà còn thu hút sự quan tâm
nhiệt tình của hầu hét những người tiêu dùng hiện nay Mức độ rời bỏ của khách hàng bi
ảnh hưởng bởi các biến như: chi phí dich hàng tháng, phương thức thanh toán phí, loại hình
dịch vụ, Từ các biến ảnh hưởng trên, nhóm chúng em quyết định thực hiện đề tài ' Phân
tích dữ liệu khả năng rời bỏ dịch vụ của khách hàng dựa trên bộ dữ liệu Telco Customer
Churn bang phần mềm Orange” Và việc phân tích được nhóm chúng em dựa trên các biến xung quanh việc khách hàng tiêu dùng dịch vụ đề đánh giá mức độ và khả năng khách
có rời bỏ dịch vụ của doanh nghiệp hay không.
Trang 10CHƯƠNG 2 CAC MO HINH PHAN LOP DU LIEU
2.1 Cac M6 Hinh Phan Lép Dw Liéu
2.1.1 M6 Hinh Logistic Regression
Hồi quy logistic là một phương pháp phân tích thông kê được sử dụng để dự đoán giá
trị dữ liệu dựa trên các quan sát trước đó của tập dữ liệu Mục đích của hỏi quy logistic là
ước tính xác suất của các sự kiện, bao gồm xác định mối quan hệ giữa các tính năng từ đó
dự đoán xác suất của các kết quá Chính vì vậy, đói voi hoi quy logistic ta sé cé: Input: dit
liệu input (ta sẽ coi có hai nhãn là 0 và 1) Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn 1
Hồi quy logistic được áp dụng từ đầu thế kỷ XX trong ngành khoa học sinh học Sau
đó mở rộng ra các ngành khoa học xã hội và được sử dụng khi biến phụ thuộc là phân loại
+
+
+
Có 3 dạng hỏi quy Logistic:
Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thẻ xảy ra Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quá/lớp trở lên có thể
có mà thứ tự được xép ngẫu nhiên
Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả / lớp có thê có được xếp theo đúng thứ tự
Mô hình hỏi quy Logistic sử dụng đề chúng ta dự đoán biến phân loại bởi một hay nhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thé là thứ tự, rời rac, Đồi với biến độc lập có thẻ là một khoảng hay một tỉ lệ, rời rạc, hay có thể hỗn hợp của tất cá
Chúng ta có thê biêu diễn công thức của phương pháp hồi quy Logistic như sau:
d Z=Y WX;
¡=0
P(y) =sigmoid(z) =
l+eZ Trong đó:
- _ d là số lượng thuộc tính của dữ liệu
- -_ w là trọng só, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chinh
lại cho phù hợp
Ứng dụng:
Dự đoán email có phải spam hay không
Dự đoán giao dịch ngân hàng là gian lận hay không
Dự đoán khói u lành hay ác tính
Dự đoán khoản vay có trả được không
Dự đoán khoản đầu tư vào start-up có sinh lãi hay không
Trang 11Hinh 2.1 Vi du ve bai toan phan lép Hai quy Logistic (Logistic Regression)
2.1.2 M6 Hinh Decision Tree
Cây quyết định là một cây phân cấp có cầu trúc được dùng để phân lớp các đôi tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thẻ thuộc các kiều dữ liệu khác nhau
như Nhị phân (Binary), Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phái có kiểu dữ liệu là Binary hoặc Ordinal
Từ dữ liệu về các đôi tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô
tá, phân loại, tông quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồi quy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô hình có giá trị cuối cùng nằm mục đích chính là phân loại
Cây quyét định là một trong những hình thức mô tá dữ liệu trực quan nhất, dễ hiểu nhát đối với người dùng Cấu trúc của một cây quyết định bao gồm các nút và các nhánh
Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tat là nhãn) Các nút khác còn lại được gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiễn nhiên các thuộc tính này phải khác thuộc tính phân lớp Mỗi một nhánh của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên
miền giá trị của nút đó Nút đầu tiên gọi là nút gốc của cây
10
Trang 12+ Không đòi hỏi việc chuân hóa dữ liệu
+ Có thê xử lý trên nhiều kiểu dữ liệu khác nhau
+ Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
— Khuyét diém:
+ Khó giải quyết trong tình huông dữu liệu phụ thuộc thời gian
+ Chi phi xây dựng mô hình cao
2.1.3 Mô Hình Support Vector Machine
SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng
một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu, thuật toán này giúp phân loại chúng vào hai lớp khác nhau Theo cách nhìn trực quan, đề tối ưu kết quả phân lớp thì phải xác định siêu phang (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cá các lớp xa nhất có thẻ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau Đề hiểu rõ sâu hơn, chúng ta đi tìm các khái niệm về Margin
cũng như là Support Vector
Đầu tiên, đối với Margin, nó được xem là khoảng cách giữa siêu phẳng (trong trường hợp không gian 2 chiều là đường thăng) đến 2 điểm dữ liệu gần nhát tương ứng với 2 phân lớp SVM có gắng tối ưu bằng cách tối đa hóa giá trị margin này, từ đó tìm ra siêu phẳng
11
Trang 13dep nhát để phân 2 lớp dữ liệu Nhờ vậy, SVM có thê giảm thiểu việc phân lớp sai
(misclassiñcation) đối với điểm dữ liệu mới đưa vào
x)
Hình 2.3 Mô hình thể hién gia tri Margin va Support Vectors
Tiếp theo, ở Support Vectors, bài toán của chúng ta trở thành tìm ra hai đường biên
của hai lớp dữ liệu sao cho khoảng cách giữa hai đường này là lớn nhất Siêu phẳng cách
đều hai biên đó chính là siêu phăng cần tìm Nhìn vào hình 2.3 ta có thẻ xác định được các
điểm xanh, đỏ nằm trên hai đường biên (màu xanh lá) được gọi là các support vector, vì chúng có nhiệm vụ hỗ trợ đề tìm ra siêu phẳng (đường nét đứt màu cam ở hình 2.3)
Do đó, có thê thấy rằng SVM là một thuật toán phân loại nhị phân Với bộ dữ liệu huấn luyện có hai thuộc tính sẵn có, SVM xây dựng một mô hình đề phân loại các dữ liệu
dự báo vào hai thuộc tính Hiện nay, thuật toán này ra đời rất nhiều biến thê để phù hợp với các bài toán phân lớp khác nhau và cũng có thê được sử dụng cho hồi quy hoặc các
Trang 14+ Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tót
+ Chưa thể hiện tính xác suất trong phân lớp
— Ung dung:
+ Xây dựng mô hình chuẩn đoán bệnh trong y học Dựa vào các biến mục tiêu là các chỉ số xét nghiệm lâm sàng, thuật toán đưa ra các dự báo về một só loại bệnh như gan nhiễm mỡ, suy thận, tiều đường
+ Phân loại các hình ảnh, tin tức, văn bản
+ Mô hình phát hiện gian lận
2.1.4 Mô Hình Neural Network
Neural network (hay Mạng no-ron nhân tạo), là mạng sử dụng các mô hình toán học
phức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bán tìm ân trong bộ
dữ liệu Chúng dựa trên mô hình hoạt động của các tế bào than kinh và khớp thần kinh trong não của con người Neural Network là sự kết nói các nút đơn giản, còn được gọi là
tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút, do đó
có tên là mạng nơ-ron nhân tạo Nói cách khác đây được xem là hệ thống của các tế bào thần kinh nhân tạo, có thẻ là hữu cơ hoặc nhân tạo về bản chát
Neural Network có khá năng thích ứng được với mọi thay đổi từ đầu vào Do vậy, nó
có thể đưa ra được mọi kết quá một cách tót nhất có thẻ mà bạn không cần phái thiết ké lại những tiêu chí đầu ra Khái niệm này có nguồn góc từ trí tuệ nhân tạo, đang nhanh chóng trở nên phố biến hơn trong sự phát triển của những hệ thông giao dịch điện tử
Kiến trúc mạng Neural Network là sự kết hợp của những tang perceptron hay con goi
là perceptron đa tầng Và mỗi một mạng Neural Network thường bao gồm 3 kiểu tầng là:
* Tang input layer (tang vao): Tang nay nằm bên trái cùng của mạng, thề hiện cho các đầu vào của mạng
- - Tầng output layer (tằng ra): Là tầng bên phái cùng và nó thẻ hiện cho những đầu ra
của mạng
* Tang hidden layer (tàng ân): Tàng này nằm giữa tàng vào và tàng ra nó thẻ hiện cho
quá trình suy luận logic của mạng
13
Trang 15
Hidden layer 1 Hidden layer 2
Hình 2.4 Ví dụ thể hiện mô hình Neural Network (Mang No-ron)
— Ung dung:
+ Mang no ron nhaén tạo được ứng dụng cho rat nhiéu lĩnh vực như: tài chính, giao
dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bao tri san pham
+ Neural Network còn được sử dụng khá rộng rãi cho những hoạt động kinh doanh
khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị, đánh
giá rủi ro và phát hiện gian lận
+ Nhiều trường hợp còn sử dụng mạng nơ ron nhân tạo để thực hiện đánh giá và khai quật những cơ hội giao dịch dựa vào việc phân tích dữ liệu lịch sử Mạng noron còn
được áp dụng rất phô biến đề phân biệt sự phụ thuộc giữa các phi tuyến lẫn nhau
của đầu vào Đây là vấn đề mà các mô hình phân tích kỹ thuật khác không thê đáp ứng được Dù vậy, sự chính xác của việc áp dụng mạng nơron nhân tạo vào dự đoán
giá cô phiêu hoàn toàn khác nhau
2.2 Quy Trình Phân Lớp Dữ Liệu
— Như chúng ta đã biết, phân lớp dữ liệu là quá trình phân một đổi tượng dữ liệu vào
một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được
xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)
— Kỹ thuật này được dùng đề phân tích các thông tin cần thiết từ kho dữ liệu có sẵn
Vì thế, đối với kỹ thuật này, chúng ta sẽ cần phải áp dụng các thuật toán khác nhau
và tùy thuộc vào mục tiêu sử dụng Đây cũng là kỹ thuật có vai trò quan trong trong
việc dự báo các quy luật, xu hướng bằng cách mô tá các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thẻ
14
Trang 16° - Tải vào bộ nhớ train set
* Chuyén sang tab Classify
¢« Lwya chon Percentage Split 70%
Phương pháp này phù hợp để sử dụng cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu
có thê không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)
2.2.1.2 Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích thước (g ọi là các fold)
K-Fold cross validation sẽ giúp chúng ta đánh giá một model đầy đủ và chính xác hơn khi chúng ta có một tập dữ liệu không lớn Để sau đó chúng ta đưa ra quyết định model đó có phù hợp với dữ liệu, bài toán hiện tại hay không
Phương pháp K-fold thường được sử dụng nhiều hơn do mô hình sẽ được huấn
luyện và đánh giá trên nhiều phần dữ liệu khác nhau Từ đó tăng độ tin cậy cho các
độ đo đánh giá của mô hình
Phương pháp Hold-out thường cho hiệu quả tốt trên các tập dữ liệu lớn Tuy nhiên,
ở các tập dữ liệu nhỏ hoặc vừa phải, hiệu quả của mô hình sủ dụng phương pháp này phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia dữ liệu
Xây dựng mô hình phân chia dữ liệu:
15
Trang 17— Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)
Xây dựng mô hình là mô tá một tập những lớp được định nghĩa trước Trong quá trình
huần luyện nhằm xây dựng một mô hình mô tá một tập dữ liệu có sẵn Đầu vào của quá trình này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phan tử dữ liệu được
giá định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp Mỗi bộ giá trị được gọi chung là một
phân tử dữ liệu, có thê là các mẫu, ví dụ, đối tượng, hay trường hợp Kết quá của bước này
là mô hình phân lớp đã được huần luyện (trình phân lớp)
16
Trang 18
Hình 2.5 Mô hình biểu diễn xây dựng mô hình phan lớp
— Bước 2: Sử dụng mô hình
Bước 2.1: Đánh giá mô hình:
—_ Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý
Tuy nhiên, thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hình
tiền hành phân lớp
— Tinh đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán
nhãn của dữu liệu đầu vào và kết quá phân lớp mô hình Holdout là một kỹ | thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các các mẫu trong tập dữ liệu dự báo được mô hình phân lớp đúng (so với thực té) Kết quả
của bước này là mô hình sẽ được sử dụng đề phân lớp những dữ liệu cần thiết
trong tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa
biết nếu của mô hình phủ hợp và có độ chính xác cao
17
Trang 19
Kết quả phan lớp
Age |Car Typel Risk
| [High | |
Hình 2.7 Mô hình biểu diễn phân lớp dữ liệu mới
CO M6 hinh Logistic Regression:
— Xây dựng mô hình:
18
Trang 20— = Show: Proportion of predicted ~ Logistic Regression
Trang 21ROC Analysis - Orange
BB Logistic R >
Curves
Merge Predictions from Folds ~ >
(- Show convex ROC curves
() Show ROC convex hull
Analysis
@ Default threshold (0.5) point
@ Show performance line
Merge Predictions from Folds ~ 3>
©) Show convex ROC curves
(©) Show ROC convex hull
Analysis
@ Default threshold (0.5) point
@ Show performance line
Trang 22— Két qua dy bao:
Tnfo Churn
¬ Logistic Regression zistic Regression (N jistic Regres
19 features (0.0 % missing data) 1
Target with 2 values 2
3 meta attributes 3
Variables 4
@ Show variable labels (if present) 5
© Visualize numeric values 6
@ Color by instance dasses 7
Trang 23— Bang Confusion Matrix:
23! Confusion Matrix - Orange
— Đường cong ROC:
ROC Analysis - Orange
Merge Predictions from Folds ~| >|;
() Show convex ROC curves
() Show ROC convex hull
Analysis
@ Default threshold (0.5) point
@ Show performance line