1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án phân tích dữ liệu khả năng rời bỏ dịch vụ của khách hàng dựa trên bộ dữ liệu telco customer churn bằng phần mềm orange

46 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Khả Năng Rời Bỏ Dịch Vụ Của Khách Hàng Dựa Trên Bộ Dữ Liệu Telco Customer Churn Bằng Phần Mềm Orange
Tác giả Hoàng Thị Thu Hương, Nguyễn Triệu Khã Văn
Người hướng dẫn TS. Đặng Ngọc Hoàng Thành
Trường học Đại Học Kinh Tế Tp Hồ Chí Minh
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Đồ Án Môn Học
Năm xuất bản 2022
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 46
Dung lượng 9,03 MB

Nội dung

Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 1.1.2 Phan loai bài toán phân lớp: - Nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được

Trang 1

BO GIAO DUC VA DAO TAO DAI HOC KINH TE TP HO CHi MINH TRUONG CONG NGHE VA THIET KE

whe

UEH UNIVERSITY

ĐỎ AN MON HOC

DE TAI:

PHAN TICH DU LIEU KHA NANG ROI BO DICH VU CUA KHACH HANG DUA

TREN BO DU LIEU TELCO CUSTOMER CHURN BANG PHAN MEM ORANGE

Hoc phan: Khoa Hoc Dit Liéu

Nhóm Sinh Viên:

1 Hoàng Thị Thu Hương

2 Nguyễn Triệu Khã Văn

Chuyên Ngành: KINH TÉ HỌC ỨNG DỤNG Khóa: K47

Giảng Viên: TS Đặng Ngọc Hoàng Thành

Trang 2

1.3 Lý Do Chọn Lựa Đề Tàii - c1 T1 111111111 511 H1 TH HH HH nh HH HH Hy 8 CHƯƠNG 2 CÁC MÔ HÌNH PHẦN LỚP DỮ LIỆU 2252525252 S2S2<szccccea 9 2.1 Các Mô Hình Phân Lớp Dữ Liệu . - - - 22311111211 n HH HS HH 1 152511111 ca 9 2.1.1 Mô Hình Logistic Regression 2201210011111 11H vờ 9 2.1.2 Mô Hình Decision Tree L Q.20 00111 n2 HH TT nn TH kh vn 10 2.1.3 Mô Hình Support Vector Machine - 2.000 QS S222 HH key 11 2.1.4 Mô Hình Neural Nefwork - 2000011122 H TH HH TT TH ng kg 13 2.2 Quy Trình Phân Lớp Dữ Liệu L 220000 0122222111111 12 111v ng rưy 14

2.2.1 Phan Chia Dit LiGu oo 15 V208 ¡8890 5 0 e 16

2.2.3 Đánh Giá Tính Hiệu QUả 7-02-0022 101220121110101 111v ng ng 29 CHUONG 3 CAC KET QUÁ THỰC NGHIỆM S222 S222 x2Eerrrrrre 35

4.2 Những Hạn Chế và Hướng Phát Triên + 5 2212323 112325111 525125 1111 1EEce 43

TÀI LIỆU THAM KHÁO - 5 2 22212111115211121212111111111121111111 1110010101211 cee 45

Trang 3

LOI CAM ON

Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành nhất tới thầy

Dang Ngoc Hoang Thành vì đã giúp chúng em trong suốt thời gian tìm hiểu và hoàn thành bài dự án “Phân tích dữ liệu khả năng rời bỏ dịch vụ của khách hàng dựa trên

bộ dữ liệu Telco Customer Churn bằng phan mém Orange” Trong qua trinh hoc tap

và nghiên cứu về bộ môn Khoa hoc dữ liệu, chúng em luôn nhận được sự quan tam,

giúp đỡ, hướng dẫn tận tình và tâm huyết từ thầy Thầy đã giúp chúng em tích lũy thêm nhiều kiến thức để có cái nhìn sâu sắc và hoàn thiện hơn trong bộ môn này nói riêng và trong cuộc sóng thực tế nói chung Thông qua đồ án này, nhóm em xin được trình bày lại những kiến thức đã tiếp thu được trong học phân vừa qua Dựa trên những kiến thức mà thầy đã giảng dạy trong những buôi học, nhóm chúng em

đã vận dụng được đề có thể thực hiện tốt bài dự án này

Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức của mỗi người luôn có những hạn ché nhất định Do đó, trong quá trình hoàn thành bài tiêu luận, chắc chắn

sẽ không tránh khỏi những thiếu sót và hạn chế Thé nên, nhóm chúng em rất mong nhận được sự đóng góp quý báu, những ý kiến nhận xét, phê bình từ phía thầy và

các ban dé nhóm chúng em được hoàn thiện hơn

Một làn nữa, nhóm chúng em xin kính chúc thầy sức khỏe, hạnh phúc và thành

công trên con đường giảng dạy của mình

Xin chân thành cảm ơn!

CHUONG 1 TONG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu

1.1.2 Phan loai bài toán phân lớp:

- Nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân lớp nào

- Có nhiều bài toàn phân lớp dữ liệu như:

Trang 4

+ Phân lớp nhị phân, hđây là bài toán gán nhãn dữ liệu cho đối tượng vào 1 trong 2

lớp khác nhau dựa vào việc dữ liệu đó có hay không có tác dụng đặc trưng của bộ phân

phân lớp (n=2)

+ Phân lớp đa lớp, đây là quá trình phân lớp dữ liệu với số lượng lớp lónhơn 2 (n>2)

+ Phân lớp đơn nhãn, mỗi đổi tượng dữ liệu chỉ thuộc vào 1 lớp duy nhát

+ Phân lớp đa nhãn, một đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác

nhau

1.1.3 Các ứng dụng phân lớp dữ liệu

- Trong lĩnh vực kinh tế:

+ Tài chính ngân hàng: Dự báo giá chứng khoán; xép hạng tín dụng cá nhân và tô

chức; đánh giá rủi ro tài chính;

+ Sales & Marketing: Dự báo doanh thu; dự báo khách hàng trung thành;

+ Kinh tế học: Dự báo khủng hoảng kinh tế; dự báo cung cầu:

- Ngoài ra, ứng dụng của bài toán phân lớp dữ liệu này cũng được sử dụng rất nhiều và rộng rãi trong thực tế cuộc sông như: bài toán nhận dạng khuôn mặt, nhận diện giọng nói,

phát hiện email spam

1.2 Giới Thiệu Về Python và Phần Mềm Orange

1.2.1 Giới thiệu về Python

1.2.1.1 Định nghĩa về Python

Python là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, hướng

đối tượng đơn giản, dễ học, mạnh mẽ, cấp cao Python có cấu trúc cú pháp ít hơn các ngôn

ngữ khác

—_ Python được thông dịch: Python được trình thông dịch xử lý trong thời gian chạy Bạn không can phải biên dịch chương trình của mình trước khi thực hiện nó Nó

tương tự với PERL và PHP

— Python là tương tác: Tại một dấu nhắc Python bạn có thẻ tương tác trực tiếp với

trình thông dịch để viết chương trình Python

— Python là hướng đối tượng: Python hỗ trợ kỹ thuật lập trình hướng đối tượng hoặc

kỹ thuật lập trình đóng gói mã trong các đối tượng

— Python là ngôn ngữ của người mới bắt đầu: Python là ngôn ngữ tuyệt vời cho các lập trình viên mới bắt đầu và hỗ trợ phát triên một loạt các ứng dụng từ xử lý văn bản đơn giản, lập trình web, cho đến lập trình game

1.2.1.2 Lịch sử của Python:

— Python được Guido van Rossum phát triển vào cuối những 1980 và đầu những năm 1990 tại Viện nghiên cứu quóc gia về toán học và khoa học máy tính ở Hà

Lan.

Trang 5

Python có nguồn góc từ nhiều ngôn ngữ khác, bao gòm ABC, Modula-3, C, C++,

Algol-68, SmallTalk và Unix shell và các ngôn ngữ script khác Python có bản

quyền, giống như Perl, mã nguôn Python hiện có sẵn theo giấy phép GNU (GPL)

Python hiện được duy trì bởi một nhóm phát triển cót lõi tại viện nghiên cứu quóc gia về toán học và khoa học máy tính ở Hà Lan Guido van Rossum vẫn

giữ một vai trò quan trọng trong việc chi đạo tiến trình của nó

Python 2.0 đã được phát hành vào ngày l6 tháng 10 năm 2000 và có nhiều tinh năng mới, bao gòm bộ thu gom rác theo chu kỷ (cycle-detecting garbage) và hỗ

trợ Unicode Với việc phát hành này quá trình phát triên đã được thay đổi và trở nên minh bạch hơn và cộng đồng hậu thuẫn

Python 3.0 được phát hành năm 2008, sau một thời gian dài thử nghiệm Cho tới nam 2017, Python dang co phiên bản 3.7

1.2.1.3 Các tinh nang cua Python

— Cac tinh nang cia Python bao gém:

Dễ đọc: Mã Python được định nghĩa rõ ràng hơn và có thể nhìn thấy bằng mắt

Dé bao tri: Mã nguồn của Python kha dé bao tri

Một thư viện tiêu chuân rộng: Phản lớn thư viện của Python rất dễ đính kèm và

đa nền táng tương thích trên UNIX, Windows va Macintosh

Chế độ tương tác: Python có hỗ trợ cho chế độ tương tác cho phép kiểm tra

tương tác và debug

Portable: Python cé thé chạy trên nhiều nền táng phần cứng khác nhau và có cùng giao diện trên tất cá các nèn táng

Có thê mở rộng: Bạn có thẻ thêm các module cấp thấp vào trình thông dịch

Python Các module này cho phép các lập trình viên thêm hoặc tùy chính các

công cụ của mình đề hiệu quả hơn

Cơ sở dữ liệu: Python cung cấp phương thức giao tiếp cho tất cá các cơ sở dữ

liệu

Lập trình GUI: Python hỗ trợ các ứng dụng GUI có thể được tạo và chuyên sang nhiều cuộc gọi hệ thống, thư viện và hệ thống cửa số, như Windows MFC, Macintosh và hệ thông X Window của Unix

Khả năng mở rộng: Python cung cấp cấu trúc và hỗ trợ tốt hơn cho các chương

trình lớn hơn so với kịch ban lệnh shell

—_ Ngoài các tính năng được đề cập ở trên, Python còn có một danh sách lớn các tính

năng khác, một số tính năng được liệt kê bên dưới:

+ Nó hỗ trợ các phương pháp lập trình thủ t và có cầu trúc cũng như OOP

Trang 6

Nó có thẻ dễ dàng tích hợp với C, C++, COM, ActiveX, CORBA và Java

1.2 Giới Thiệu Về Python và Phần Mềm Orange

1.2.2 Giới thiệu Phần Mềm Orange

—_ Như chúng ta đã biết, khai thác dữ liệu là một lĩnh vực khá khó dé khám phá và nghiên cứu bởi nó là một quá trình trích xuất, khám phá các vấn đề từ một nguồn

dữ liệu lớn và đòi hỏi tính chính xác Chính vì vậy, rất nhiều phần mềm đã ra doi dé giúp cho con người dễ dàng hơn trong việc nghiên cứu những vấn đề thuộc lĩnh vực khó này Một trong những phần mèn tiêu biểu đó chính là phần mềm Orange

— Orange la một bộ công cụ trực quan hóa dữ liệu, khai thác và phân tích dữ liệu Phần

mèm có một loạt các chức năng để phân tích dữ liệu từ đơn gián đến phức tạp, tạo

ra các biêu đồ đẹp và thú vị, đồng thời cũng giúp cho việc khai thác dữ liệu và học

máy dễ dàng hơn

—_ Hệ thống của Orange còn được gọi là Widget cung cấp các chức năng cơ bản như

đọc dữ liệu, hiên thị dữ liệu dạng báng, lựa chọn thuộc tính đặc điểm của dữ liệu,

huắn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các

phân tử dữ liệu, Người dùng có thể tương tác khám phá các hình ảnh trực quan

hoặc đưa ra các tập con đã được chọn vào các VWidget khác

— Data: Ding dé rut trích, biến đôi, và nạp dữ liệu (ETL process)

Edit Domain Color Statistics — Save Data

— Visualize: ding dé biéu dién biéu dé (chart) giúp quan sát dữ liệu được tốt hơn

Trang 7

Forest Viewer Nomogram

— Model: gsm cac ham may hoc (machine learning) phân lớp dữ liệu với Tree, Logictis Regression, SVM

9)» fis lat 23

a a tha bet

: >» g&

8 Z

Trang 8

— Evaluate: La cac phương pháp đánh giá mô hình như : Test& Score, Prediction, Confusion

Score Predictions Matrix Analysis

Lit Curve Calibration

— Unsupervised: Gém cac ham may hoc (machine learing) gom nhóm dữ liệu như: Distance, K-means

Distance Hierarchical k-Means Louvain

Map Clustering Clustering

Trang 9

Orange3-Network 1.6.0 Orange3-Prototypes 0.15.0

Onn med Limealalall 1, £4 x

® induce association and classification rules

® filter rules by the antecedent or consequent part

1.3 Lý Do Chọn Lựa Đề Tài

Trước khi bắt đầu, chúng em xin phép được trình bày lý do chọn đề tài này Đầu tiên,

là một sinh viên thuộc chuyên ngành kinh tế Những môn học và só liệu hàng ngày chúng

em được tiếp xúc là những vấn đẻ liên quan mật thiết đến ngành kinh tế như là doanh số bán hàng, thị trường, thu nhập, các nhà đầu tư, Điều này đã khiến nhóm em quyết định chọn đề tài có liên quan khá lớn đến ngành kinh té Bên cạnh đó, trong thời buôi mà kinh

tế - xã hội phát triển một cách nhanh chóng, vấn đẻ thiết yêu mà các nhà kinh tế quan tâm đến không hiên nhiên chỉ là việc làm sao đề phát triển kinh tế, làm sao đê mọi người gia nhập vào thị trường của họ mà đặc biệt hơn hết đó là việc quan tâm đén tính bèn vững của thị trường Làm sao để có thể giữ chân khách hàng luôn bèn vững với dịch vụ của một doanh nghiệp nào đó Có thẻ thấy rằng trong thực tế ngày nay, vấn đề về mức độ khách hàng rời bỏ dịch vụ bây giờ là một trong những vấn đề nhận được khá nhiều sự quan tâm

của không những các doanh nghiệp và các nhà làm kinh tế mà còn thu hút sự quan tâm

nhiệt tình của hầu hét những người tiêu dùng hiện nay Mức độ rời bỏ của khách hàng bi

ảnh hưởng bởi các biến như: chi phí dich hàng tháng, phương thức thanh toán phí, loại hình

dịch vụ, Từ các biến ảnh hưởng trên, nhóm chúng em quyết định thực hiện đề tài ' Phân

tích dữ liệu khả năng rời bỏ dịch vụ của khách hàng dựa trên bộ dữ liệu Telco Customer

Churn bang phần mềm Orange” Và việc phân tích được nhóm chúng em dựa trên các biến xung quanh việc khách hàng tiêu dùng dịch vụ đề đánh giá mức độ và khả năng khách

có rời bỏ dịch vụ của doanh nghiệp hay không.

Trang 10

CHƯƠNG 2 CAC MO HINH PHAN LOP DU LIEU

2.1 Cac M6 Hinh Phan Lép Dw Liéu

2.1.1 M6 Hinh Logistic Regression

Hồi quy logistic là một phương pháp phân tích thông kê được sử dụng để dự đoán giá

trị dữ liệu dựa trên các quan sát trước đó của tập dữ liệu Mục đích của hỏi quy logistic là

ước tính xác suất của các sự kiện, bao gồm xác định mối quan hệ giữa các tính năng từ đó

dự đoán xác suất của các kết quá Chính vì vậy, đói voi hoi quy logistic ta sé cé: Input: dit

liệu input (ta sẽ coi có hai nhãn là 0 và 1) Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn 1

Hồi quy logistic được áp dụng từ đầu thế kỷ XX trong ngành khoa học sinh học Sau

đó mở rộng ra các ngành khoa học xã hội và được sử dụng khi biến phụ thuộc là phân loại

+

+

+

Có 3 dạng hỏi quy Logistic:

Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thẻ xảy ra Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quá/lớp trở lên có thể

có mà thứ tự được xép ngẫu nhiên

Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả / lớp có thê có được xếp theo đúng thứ tự

Mô hình hỏi quy Logistic sử dụng đề chúng ta dự đoán biến phân loại bởi một hay nhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thé là thứ tự, rời rac, Đồi với biến độc lập có thẻ là một khoảng hay một tỉ lệ, rời rạc, hay có thể hỗn hợp của tất cá

Chúng ta có thê biêu diễn công thức của phương pháp hồi quy Logistic như sau:

d Z=Y WX;

¡=0

P(y) =sigmoid(z) =

l+eZ Trong đó:

- _ d là số lượng thuộc tính của dữ liệu

- -_ w là trọng só, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chinh

lại cho phù hợp

Ứng dụng:

Dự đoán email có phải spam hay không

Dự đoán giao dịch ngân hàng là gian lận hay không

Dự đoán khói u lành hay ác tính

Dự đoán khoản vay có trả được không

Dự đoán khoản đầu tư vào start-up có sinh lãi hay không

Trang 11

Hinh 2.1 Vi du ve bai toan phan lép Hai quy Logistic (Logistic Regression)

2.1.2 M6 Hinh Decision Tree

Cây quyết định là một cây phân cấp có cầu trúc được dùng để phân lớp các đôi tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thẻ thuộc các kiều dữ liệu khác nhau

như Nhị phân (Binary), Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phái có kiểu dữ liệu là Binary hoặc Ordinal

Từ dữ liệu về các đôi tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô

tá, phân loại, tông quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồi quy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô hình có giá trị cuối cùng nằm mục đích chính là phân loại

Cây quyét định là một trong những hình thức mô tá dữ liệu trực quan nhất, dễ hiểu nhát đối với người dùng Cấu trúc của một cây quyết định bao gồm các nút và các nhánh

Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tat là nhãn) Các nút khác còn lại được gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiễn nhiên các thuộc tính này phải khác thuộc tính phân lớp Mỗi một nhánh của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên

miền giá trị của nút đó Nút đầu tiên gọi là nút gốc của cây

10

Trang 12

+ Không đòi hỏi việc chuân hóa dữ liệu

+ Có thê xử lý trên nhiều kiểu dữ liệu khác nhau

+ Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn

— Khuyét diém:

+ Khó giải quyết trong tình huông dữu liệu phụ thuộc thời gian

+ Chi phi xây dựng mô hình cao

2.1.3 Mô Hình Support Vector Machine

SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng

một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu, thuật toán này giúp phân loại chúng vào hai lớp khác nhau Theo cách nhìn trực quan, đề tối ưu kết quả phân lớp thì phải xác định siêu phang (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cá các lớp xa nhất có thẻ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau Đề hiểu rõ sâu hơn, chúng ta đi tìm các khái niệm về Margin

cũng như là Support Vector

Đầu tiên, đối với Margin, nó được xem là khoảng cách giữa siêu phẳng (trong trường hợp không gian 2 chiều là đường thăng) đến 2 điểm dữ liệu gần nhát tương ứng với 2 phân lớp SVM có gắng tối ưu bằng cách tối đa hóa giá trị margin này, từ đó tìm ra siêu phẳng

11

Trang 13

dep nhát để phân 2 lớp dữ liệu Nhờ vậy, SVM có thê giảm thiểu việc phân lớp sai

(misclassiñcation) đối với điểm dữ liệu mới đưa vào

x)

Hình 2.3 Mô hình thể hién gia tri Margin va Support Vectors

Tiếp theo, ở Support Vectors, bài toán của chúng ta trở thành tìm ra hai đường biên

của hai lớp dữ liệu sao cho khoảng cách giữa hai đường này là lớn nhất Siêu phẳng cách

đều hai biên đó chính là siêu phăng cần tìm Nhìn vào hình 2.3 ta có thẻ xác định được các

điểm xanh, đỏ nằm trên hai đường biên (màu xanh lá) được gọi là các support vector, vì chúng có nhiệm vụ hỗ trợ đề tìm ra siêu phẳng (đường nét đứt màu cam ở hình 2.3)

Do đó, có thê thấy rằng SVM là một thuật toán phân loại nhị phân Với bộ dữ liệu huấn luyện có hai thuộc tính sẵn có, SVM xây dựng một mô hình đề phân loại các dữ liệu

dự báo vào hai thuộc tính Hiện nay, thuật toán này ra đời rất nhiều biến thê để phù hợp với các bài toán phân lớp khác nhau và cũng có thê được sử dụng cho hồi quy hoặc các

Trang 14

+ Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tót

+ Chưa thể hiện tính xác suất trong phân lớp

— Ung dung:

+ Xây dựng mô hình chuẩn đoán bệnh trong y học Dựa vào các biến mục tiêu là các chỉ số xét nghiệm lâm sàng, thuật toán đưa ra các dự báo về một só loại bệnh như gan nhiễm mỡ, suy thận, tiều đường

+ Phân loại các hình ảnh, tin tức, văn bản

+ Mô hình phát hiện gian lận

2.1.4 Mô Hình Neural Network

Neural network (hay Mạng no-ron nhân tạo), là mạng sử dụng các mô hình toán học

phức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bán tìm ân trong bộ

dữ liệu Chúng dựa trên mô hình hoạt động của các tế bào than kinh và khớp thần kinh trong não của con người Neural Network là sự kết nói các nút đơn giản, còn được gọi là

tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút, do đó

có tên là mạng nơ-ron nhân tạo Nói cách khác đây được xem là hệ thống của các tế bào thần kinh nhân tạo, có thẻ là hữu cơ hoặc nhân tạo về bản chát

Neural Network có khá năng thích ứng được với mọi thay đổi từ đầu vào Do vậy, nó

có thể đưa ra được mọi kết quá một cách tót nhất có thẻ mà bạn không cần phái thiết ké lại những tiêu chí đầu ra Khái niệm này có nguồn góc từ trí tuệ nhân tạo, đang nhanh chóng trở nên phố biến hơn trong sự phát triển của những hệ thông giao dịch điện tử

Kiến trúc mạng Neural Network là sự kết hợp của những tang perceptron hay con goi

là perceptron đa tầng Và mỗi một mạng Neural Network thường bao gồm 3 kiểu tầng là:

* Tang input layer (tang vao): Tang nay nằm bên trái cùng của mạng, thề hiện cho các đầu vào của mạng

- - Tầng output layer (tằng ra): Là tầng bên phái cùng và nó thẻ hiện cho những đầu ra

của mạng

* Tang hidden layer (tàng ân): Tàng này nằm giữa tàng vào và tàng ra nó thẻ hiện cho

quá trình suy luận logic của mạng

13

Trang 15

Hidden layer 1 Hidden layer 2

Hình 2.4 Ví dụ thể hiện mô hình Neural Network (Mang No-ron)

— Ung dung:

+ Mang no ron nhaén tạo được ứng dụng cho rat nhiéu lĩnh vực như: tài chính, giao

dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bao tri san pham

+ Neural Network còn được sử dụng khá rộng rãi cho những hoạt động kinh doanh

khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị, đánh

giá rủi ro và phát hiện gian lận

+ Nhiều trường hợp còn sử dụng mạng nơ ron nhân tạo để thực hiện đánh giá và khai quật những cơ hội giao dịch dựa vào việc phân tích dữ liệu lịch sử Mạng noron còn

được áp dụng rất phô biến đề phân biệt sự phụ thuộc giữa các phi tuyến lẫn nhau

của đầu vào Đây là vấn đề mà các mô hình phân tích kỹ thuật khác không thê đáp ứng được Dù vậy, sự chính xác của việc áp dụng mạng nơron nhân tạo vào dự đoán

giá cô phiêu hoàn toàn khác nhau

2.2 Quy Trình Phân Lớp Dữ Liệu

— Như chúng ta đã biết, phân lớp dữ liệu là quá trình phân một đổi tượng dữ liệu vào

một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được

xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)

— Kỹ thuật này được dùng đề phân tích các thông tin cần thiết từ kho dữ liệu có sẵn

Vì thế, đối với kỹ thuật này, chúng ta sẽ cần phải áp dụng các thuật toán khác nhau

và tùy thuộc vào mục tiêu sử dụng Đây cũng là kỹ thuật có vai trò quan trong trong

việc dự báo các quy luật, xu hướng bằng cách mô tá các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thẻ

14

Trang 16

° - Tải vào bộ nhớ train set

* Chuyén sang tab Classify

¢« Lwya chon Percentage Split 70%

Phương pháp này phù hợp để sử dụng cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu

có thê không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)

2.2.1.2 Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích thước (g ọi là các fold)

K-Fold cross validation sẽ giúp chúng ta đánh giá một model đầy đủ và chính xác hơn khi chúng ta có một tập dữ liệu không lớn Để sau đó chúng ta đưa ra quyết định model đó có phù hợp với dữ liệu, bài toán hiện tại hay không

Phương pháp K-fold thường được sử dụng nhiều hơn do mô hình sẽ được huấn

luyện và đánh giá trên nhiều phần dữ liệu khác nhau Từ đó tăng độ tin cậy cho các

độ đo đánh giá của mô hình

Phương pháp Hold-out thường cho hiệu quả tốt trên các tập dữ liệu lớn Tuy nhiên,

ở các tập dữ liệu nhỏ hoặc vừa phải, hiệu quả của mô hình sủ dụng phương pháp này phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia dữ liệu

Xây dựng mô hình phân chia dữ liệu:

15

Trang 17

— Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)

Xây dựng mô hình là mô tá một tập những lớp được định nghĩa trước Trong quá trình

huần luyện nhằm xây dựng một mô hình mô tá một tập dữ liệu có sẵn Đầu vào của quá trình này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phan tử dữ liệu được

giá định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp Mỗi bộ giá trị được gọi chung là một

phân tử dữ liệu, có thê là các mẫu, ví dụ, đối tượng, hay trường hợp Kết quá của bước này

là mô hình phân lớp đã được huần luyện (trình phân lớp)

16

Trang 18

Hình 2.5 Mô hình biểu diễn xây dựng mô hình phan lớp

— Bước 2: Sử dụng mô hình

Bước 2.1: Đánh giá mô hình:

—_ Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý

Tuy nhiên, thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào mô hình

tiền hành phân lớp

— Tinh đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán

nhãn của dữu liệu đầu vào và kết quá phân lớp mô hình Holdout là một kỹ | thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các các mẫu trong tập dữ liệu dự báo được mô hình phân lớp đúng (so với thực té) Kết quả

của bước này là mô hình sẽ được sử dụng đề phân lớp những dữ liệu cần thiết

trong tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa

biết nếu của mô hình phủ hợp và có độ chính xác cao

17

Trang 19

Kết quả phan lớp

Age |Car Typel Risk

| [High | |

Hình 2.7 Mô hình biểu diễn phân lớp dữ liệu mới

CO M6 hinh Logistic Regression:

— Xây dựng mô hình:

18

Trang 20

— = Show: Proportion of predicted ~ Logistic Regression

Trang 21

ROC Analysis - Orange

BB Logistic R >

Curves

Merge Predictions from Folds ~ >

(- Show convex ROC curves

() Show ROC convex hull

Analysis

@ Default threshold (0.5) point

@ Show performance line

Merge Predictions from Folds ~ 3>

©) Show convex ROC curves

(©) Show ROC convex hull

Analysis

@ Default threshold (0.5) point

@ Show performance line

Trang 22

— Két qua dy bao:

Tnfo Churn

¬ Logistic Regression zistic Regression (N jistic Regres

19 features (0.0 % missing data) 1

Target with 2 values 2

3 meta attributes 3

Variables 4

@ Show variable labels (if present) 5

© Visualize numeric values 6

@ Color by instance dasses 7

Trang 23

— Bang Confusion Matrix:

23! Confusion Matrix - Orange

— Đường cong ROC:

ROC Analysis - Orange

Merge Predictions from Folds ~| >|;

() Show convex ROC curves

() Show ROC convex hull

Analysis

@ Default threshold (0.5) point

@ Show performance line

Ngày đăng: 10/08/2024, 16:08