1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng các phương pháp thống kê trong Fintech

80 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Các Phương Pháp Thống Kê Trong Fintech
Tác giả Lê Thị Nhật Lệ
Người hướng dẫn TS. Nguyễn Duy Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Công nghệ thông tin
Thể loại khóa luận tốt nghiệp đại học
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 80
Dung lượng 17,83 MB

Nội dung

BO AN TOT NGHIEPỨng dung của Python là rat lớn trong việc tao các ứng dụng tài chính, chang hạn như tối ưu hóa danh mục đầu tư, định giá số, phân tích tương tác, đữ liệu lớn với Hadoop,

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA CÔNG NGHỆ THÔNG TIN 1

TOT NGHIỆP ĐẠI HỌC

ỨNG DỤNG CÁC PHƯƠNG PHÁP THÓNG KÊ TRONG

FINTECH

Giảng viên hướng dẫn : TS NGUYÊN DUY PHƯƠNG

Sinh viên thựchiện : LÊ THỊ NHẬT LỆ

Lớp : D17CNPM04

Mã sinh viên : B17DCCN369 Khóa : 2017-2022

Hệ : ĐẠI HỌC CHÍNH QUY

Hà Nội - Tháng 12 /2021

Trang 2

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA CÔNG NGHỆ THÔNG TIN 1

Trang 3

BO AN TOT NGHIEP

LOI CAM ON

Đối với một sinh viên trường Hoc Viện Công Nghệ Bưu Chính Viễn Thông, đồ

án tốt nghiệp là một minh chứng cho những kiến thức đã có được sau bốn năm rưỡihọc tập Trong suốt quá trình học tập cũng như thực hiện đồ án này, ngoài những cố

gắng của bản thân, em đã nhận được rất nhiều những sự quan tâm giúp đỡ, hướng

dẫn tận tình của các thầy cô cùng với những lời động viên khuyến khích từ phía giađình, bạn bè những lúc em gặp khó khăn Em xin bày tỏ lời cảm ơn chân thành đếnmoi nguoi.

Dau tiên, em xin tỏ lòng biết on sâu sắc đến thay Nguyễn Duy Phuong đã tậntình hướng dẫn, định hướng cho em trong suốt quá trình thực hiện đề tài Các thầyluôn cho em những lời khuyên quý báu và truyền đạt cho em rất nhiều kiến thức, kinhnghiệm trong suốt quá trình làm đỗ án

Em xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin, học viện

Công nghệ Bưu chính Viễn thông đã tận tình day dỗ và cho em những kiến thức bổ

ich, làm nền tảng dé em hoàn thành khóa luận, cũng là hành trang dé em tự tin bước

vào cuộc sông, công viéc trong tương lai.

Em cũng xin được gửi lời cảm ơn tới các bạn trong nhóm làm đồ án đã luôn bên

cạnh, hỗ trợ giúp đỡ em rất nhiều trong suốt quá trình học tập tại trường, cũng như

trong quá trình thực hiện đồ án này

Vi thời gian có hạn và trình độ hiéu biét của bản thân còn nhiêu hạn chê Cho nên trong đô án không thê tránh khỏi những thiêu sót, em rât mong nhận được sự đóng

góp ý kiên của tât cả các thây cô cũng như bạn bè đê đô án của em được hoàn thiện

hơn.

Hà Nội, tháng 12 năm 2021

Lệ

Lê Thị Nhật Lệ

Trang 4

BO AN TOT NGHIEP

NHAN XET

(Của giảng viên phản biện)

Trang 5

BO AN TOT NGHIEP

NHAN XET, DANH GIA, CHO DIEM

(Của Người hướng dẫn)

Trang 6

BO AN TOT NGHIEP

Ki HIEU VA CUM TU VIET TAT

STT Ky hiéu Tiéng Anh Tiéng Viét

1 FINTECH Financial Technology Công nghệ tài chính

2 IT Information Technology Công nghệ thông tin

3 TB medium Giá trị trung bình

4 CART Classification and Phân loại và cây hồi quy

Regression Trees

5 VCB Vietcombank Vietcombank

6 LSTM Long Short Term Memory | Mô hình mang bộ nhớ dài

networks han ngăn hạn

7 1G Information Gain Luong thông tin thu thêm

Trang 7

BO AN TOT NGHIEP

HINH ANH

Hình 1.1 Giao diện ứng dụng CUA ÌOIHO << Ă <1 1.91 995 11g v 12

Hình 1.2 Giao diện ứng dụng của FLHLHđy «SH g9 13

Hình 2.1 Biểu diễn về CAMP se ©sẻ+xe£+s£EteEteExeExeerteEterteereerserkerrerrkee 21Hình 2.2 Đường thị trường vốn CÌML s- se ©e£+e++se+xe+xeexeerss+xerxeersee 23

Hình 2.3 Biểu đồ lợi nhuận kp VỌH e°©cs 5s Se<SseceeEEeereerketkerrerreereerrerreee 24

Hình 2.4 Kết quả thong kê chỉ tiết của liỖÌ qW\ -s s©cs©ss se ceeceersreecsscsscse 28Hình 2.5 Đồ thị quan hệ giữa X và Y - e- e-ceccceeEeeteereererrrrrrresreeree 30

Hình 2.6 Đồ thị biểu diễn giá trị của hàm Sigimoid -. s se css©sscssccsee 34

Hình 2.7 Cấu trúc của mô hình Cây quyét din . -2 c2 se se secsessessesscse 42Hình 2.8 Hình ảnh dau ra cho bài toán dự đoán khả năng chơi Tennis 46

Hình 2.9 Cấu trúc sơ đồ tinh toán của LSTM -e-scse©ce©see+secxsecssee 47

Hình 2.10 M6 hình: LSTM 2-2 ©<©©e£©+e£©x£ExeE+seExeerxeereerreerxerrserreerreee 48

Hình 3.1 Data_ set dự đoán kha năng cho vay dang CSV c1 se 52

Hình 3.2 Biểu đô các bién phân loại độc lp . -2 2 se se sececescssesscse 55

Hình 3.3 Biéu đồ các biến thang đo thứ bậc độc lập . -«©-sccse- 56Hình 3.4 Biểu đồ các biến số độc lap isessesssessesssssssssessesssssesssessesssssssssessssssssssssessssssesees 57

Hình 3.5 Biéu đồ thể hiện mỗi quan hệ của từng hai biỄn -5 5 s2 60

Hình 3.6 Biểu đồ mối quan hệ giữa Loan_Amount và Loan _sfafs 61

Hình 3.7 Kết quả dự đoán dau ra của thuật toán hoi quy Logistic - - 64Hình 3.8 Kết quả dự đoán dau ra của thuật toán hoi quy Logistie - 65Hình 3.9 Data_set cho dự đoán giá cỗ phiỄu - sec se ©ss©xeexeersecsecreereee 66

Hình 3.10 Dé thị giá đóng cửa của CP VCB khoảng thời gian muốn thống kê 68

Hình 3.11 Đồ thị đầu ra so sánh giữa dự đoán và thre té -s scss s2 70

Hình 3.12 Kết quá dau ra cho mô hình hôi quy Logistic -s s-cs-ss s2 72

Hình 3.13 Kết quả đầu ra cho mô hình Decission Tree -s sc-scss s2 73Hình 3.14 Thống kê giá đóng cửa cia VCB trong khoảng thời gian từ 30/06/200972/1/08 74Hình 3.15 Dé thị biểu diễn kết quả dự đoán so với thực tế của mô hình 74Hình 3.16 Kết quả đầu ra dự đoán giá cỗ phiếu ngày tiếp theo . - 74

Trang 8

1.2 Giới Thiệu vé FintecÌh escesccsececeeteeEesEksErsetseEssettsersereserssersrrssre 9

13 Lịch sử ra đời và phát triển của Fintecn -eccscccescsecsseeeesessessese 91.4 Ảnh hưởng của Fintech đối với Việt ÍN@I c-sccscsscsseceeeesrsscse 11

1.5 Những doanh nghiệp Fintech hàng đầu Việt Nam -« 11CHUONG II CÁC PHƯƠNG PHAP THONG KỂ s sss©sse 14

2.1 Phương pháp thong kê mô tả -ee-ee©ceeccesceeeveeeteetteeteeetsertsteeesee 14

2.1.1 Độ lệch chuẩn thống kê -2ce-©e°©sẻ©xe£teEsetxsEteErsereeresrrerrerree 15

2.1.2 Phương sai thong kÊ 2-2 -< 5< se +eEEEEeEksEkeEketeteerrrrerrsrrereereeree 16

2.1.3 Phin trăm thong Ké 2° << ©e+E£EEEsEEsEksEkeEktterkerrrrrsrrerrereeree 17

2.1.4 Tương quan thong Kb eccessessessessssssssssessessessessesssssssssssssessessessessesssssssssseeseess 192.2 Phương pháp thống kê suy luận (Dự đoán) -esececesceeeeeesscsscsee 19

2.2.1 Mô hình hồi quy tuyén tÍnh - - 2° s- se £sEksEkeEteEereersrrsersrseresree 19

2.2.2 Mô hình hồi quy LogiSfÍ€ - e- 5< scsccecescesEeseeeteererrerrsrrsreereeree 31

2.2.3 M6 hinh Decission Tree 17a 41 2.3 Mô hình mang Nerual LLS TÌÌMH << << s v91 1 19x 54 46

CHUONG III UNG DUNG VÀ THỰC NGHIEM 5° << 51

B.D Ung Aung 7a 51

BLL Thiet lap Né thong cesccccsscsesssssssssesssssesssessessessssssessessssssssscsscssssssesecsscsseesessees 51

3.1.2 Dự đoán khả năng cho vay của ngân hàng cho các hỗ sơ - SI

3.1.3 Dự đoán giá cỗ phiếu bằng mô hình L.STÌM - e- s©s©cs+s 65

3.2 Kết quả thực nghiệm và đánh giá s5 s sssessese=seesessessesse 713.2.1 Chạy tht ng hid << HH nợ 71 3.2.2 Đánh id eccsecsssssecssesssecssessecssecssessscssssssesssesssesascssecasessscssecanecsscsasesnecasessseeseess 75

Trang 9

BO AN TOT NGHIEP

HƯỚNG PHAT TTRIÈN - 5 << << <9 99 E4 4E 4s 393 se 77

TÀI LIEU THAM KHHẢO 2-2-2 s£©Ss£©S££Es££SseEss£Essezssexsersserssersee 78

Trang 10

BO AN TOT NGHIEPCHUONG I TONG QUAN VE FINTECH

Trong thời gian gần đây, không chỉ ở Việt nam mà trên thé giới, “Fintech” là cum

từ thường xuyên được đề cập đến, thế nhưng không phải ai cũng hiểu cặn kẽ về loại

hình kinh doanh mới này Fintech đã phát triển thành làn sóng ở nhiều nước trên thếgiới Những dịch vụ tài chính dựa trên nền tảng công nghệ này mang lại nhiều tiện íchcho người tiêu dùng và mở ra nhiều tiềm năng mới trong việc nâng cao khả năng tiếpcận tài chính Chương này sẽ nghiên cứu về quá trình hình thành và xu hướng phát triểncủa Fintech cũng như nghiên cứu về những chuyển động của Fintech tại một số quốcgia trên thế giới trong đó có Việt nam trong suốt thập kỷ qua

LI Lido chọn đề tài

Đối với Fintech hiện nay, ngoài những dịch vụ thông thường như thanh toán,

chuyên tiền, thủ tục số, fintech còn cung cấp các dịch vụ trải rộng thêm như cho vaynăng cấp, gọi von cộng đồng, tư van tài chính cá nhân, công nghệ số, quản lí đầu tư vàquản trị dữ liệu Vì vậy việc lay dữ liệu sẵn dé thống kê và đưa ra dự đoán cho đầu tu

tương lai là khá cần thiết cho các nhà đầu tư Tuy nhiên việc tiếp cận với dữ liệu lớn

như bigdata thì việc thống kê truyền thống trở nên khá phức tạp và khó khăn Vận

dụng công nghệ và học máy, em muốn nghiên cứu về việc ứng dụng các phương phápthong kê vào trong fintech dé giảm thiểu việc tính toán thông thường và tăng xác suấtchính xác.

Python được thực hành rộng rãi trong các lĩnh vực tài chính khác nhau, chăng hạnnhư ngân hàng, đầu tư quản lý, bảo hiểm và thậm chí là bất động sản, để xây dựng cáccông cụ giúp mô hình tài chính, quan lý rủi ro va giao dịch Ngay cả các tập đoàn taichính lớn nắm lay Python dé xây dựng cơ sở hạ tầng của ho dé quản lý vị trí, định giá,

rủi ro hệ thống quan lý và giao dịch Python được áp dụng cho các mô hình định giá

cô điền, tính tuyến tính và phi tuyến tính của tài chính, thủ tục số và mô hình lãi suất,tạo nên nền tảng của các mô hình tài chính phức tạp Nền tảng Quartz của Bank of

America sử dụng Python để quản lý vị trí, định giá và quản lý rủi ro Nền tảng Athenacủa JP Morgan, rủi ro đa thị trường hệ thống quản lý và giao dịch, sử dụng Python để

Trang 11

BO AN TOT NGHIEP

Ứng dung của Python là rat lớn trong việc tao các ứng dụng tài chính, chang hạn

như tối ưu hóa danh mục đầu tư, định giá số, phân tích tương tác, đữ liệu lớn với

Hadoop, v.v Với rất nhiều khía cạnh được xem xét, việc lựa chọn ngôn ngữ lập trình

phù hợp có thể giống như một nhiệm vụ bat khả thi Tuy nhiên, các liên doanh

FinTech dường như đặc biệt thích một công nghệ: Python Và có thé nói rang Python

và Fintech là một sự kết hợp hoàn hảo

L2 Giới Thiệu về Fintech

Thuật ngữ Fintech là viết tắt của “Financial Technology”, hiểu nôm na là công nghệ

tài chính Fintech đề cập đến sức mạnh tông hợp giữa tài chính và công nghệ, tận dụng

đến sự sáng tạo của công nghệ đề sử dụng cho các hoạt động tài chính, tăng cường hoạtđộng kinh doanh và cung cấp các dịch vụ tài chính

Fintech không bắt nguồn từ những hệ thống tiền tệ hiện có mà đánh dấu sự xâm lấn

của IT vào những hệ thống tiền tệ đó, mô tả công nghệ mới nhằm cải thiện và tự động

hoá việc cung cấp va sử dụng các dich vụ tài chính Fintech có thé ở dạng phần mềm,

dịch vụ hoặc doanh nghiệp cung cấp các cách thức công nghệ tiên tiến để làm cho cácquy trình tài chính hiệu quả hơn bằng cách phá vỡ các phương pháp truyền thống

Về cốt lõi, fintech được sử dụng để giúp các công ty, chủ sở hữu doanh nghiệp và

người tiêu dùng quản lý tốt hơn các hoạt động tài chính, quy trình và cuộc sống của họbằng cách sử dụng phần mềm và thuật toán chuyên biệt được sử dụng trên máy tính vàngày càng phô biến trên điện thoại thông minh

Một số ứng dụng nỗi bật nhất của fintech là thanh toán di động, ứng dụng dau tư tựđộng (cố van Robo), tiền điện tử, các dịch vụ khác hỗ trợ hoạt động ngân hàng (ví dụ:cham điểm tín dụng, tiết kiệm và huy động vốn cộng đồng), doanh nghiệp cho vay trựctuyến và nền tảng huy động vốn từ cộng đồng

1.3 Lịch sử ra đời và phát triển của Fintech

Trang 12

Ban đầu thuật ngữ này chỉ được dùng khi nói về hệ thống xử lí dữ liệu BACK_END

thiết lập mạng lưới người tiêu dùng của các tổ chức tài chính thương mại Tuy nhiên,

kể từ năm 2010, thuật ngữ Fintech đã được mở rộng dé nói về bat kỳ đối mới công nghệ

nào trong lĩnh vực tài chính bao gồm các cải tiễn về tài chính, giáo dục ngân hàng, bán

lẻ đầu tư thậm chí là cả về lĩnh vực tiền điện tử như Bitcoin Từ sự bùng nỗ của cuộccách mang internet và nền tảng di động ngành công nghệ tài chính đã bùng nô Fintechvốn ban đầu chỉ áp dụng cho các ứng dụng văn phòng của các ngân hàng hoặc các công

ty thương mai nay đã lấn sang các lĩnh vực tài chính và hướng đến người dùng phổ

thông.

Theo chỉ số phân tích, có đến 1/3 người sử dụng ít nhất hai hoặc nhiều dịch vụ

Fintech.và những người tiêu dùng này ngày càng nhận thức được fintech là một phần

quan trọng trong cuộc sống hằng ngày

Các công ty Fintech được chia làm 2 nhóm:

e Nhom công ty phục vụ người tiêu dùng, cung cấp các công cụ kỹ thuật số dé cải

thiện cách cá nhân vay mượn quản lý tiền bạc, tài trợ vốn cho các start up

e Nhóm các công ty thuộc dang Back_office hỗ trợ công nghệ cho các định chế

tài chính.

Eintech có thé được cho là có thé tái định hình tài chính, tác động rất mạnh đến cácthành phần quan trọng nhất của ngành này Theo dự đoán của Morgan Stanley, khối

lượng các khoản vay trực tuyến ở Mỹ sẽ chạm mốc 120 tỷ USD vào cuối thập kỷ này

so với con số khiêm tốn là 20 triệu USD của năm 2015 Ở lĩnh vực quản ý đầu tư thìnhững ông lớn như Black Rock có dịch vu Robo tư van và sử dụng các thuật toán dé

tự động điều chỉnh danh mục đầu tư tương ứng với mức độ chấp nhận rủi ro của khách

hàng thậm chí một s6 các động cơ đang sử dụng trí thông minh nhân tạo dé giao dich

Trang 13

BO AN TOT NGHIEP

thậm chi là ngân hàng trung ương Anh cũng dang thử nghiệm sử dụng các loại tiền ảo

để thay thế cho các phương thức chuyên tiền và tài sản truyền thống

Tuy nhiên khi Fintech phát triển thì sự thuận lợi của nó sẽ có thé khiến cho một sốngười tham gia một số dịch vụ mà thực sự không hiểu về nó và những người lo ngại làFintech sẽ thay thế cho các ngân hàng vật lý truyền thống, khi đó thì những gia đình có

thu nhập thấp và ít kiến thức sẽ không có điều kiện dé tiếp xúc với các dịch vụ ngân

hàng.

14 Anh hưởng của Fintech doi với Việt Nam

Việt nam những năm trở lại đây đang chứng kiến sự phát triển mạnh mẽ của fintech

Số lượng các công ty Fintech tham gia cung ứng các dịch vu thị trường Việt Nam đãtăng lên 2 lần.Từ con số 40 công ty vào cuối năm 2016 đã tăng lên tới gần 100 công ty

ở thời điểm hiện tại trải rộng trong nhiều lĩnh vực khác nhau

Không chỉ những công ty start up Fintech mới vào cuộc mà những ngân hàng thươngmai đã và đang dần chuyền đổi vận hành hệ thống ngân hàng số trên nền tảng công nghệhiện đại như là ngân hàng BIDV, Vietinbank, VP Bank hay là TP Bank đáp ứng phục

vụ khách hàng nhanh chóng và thông suốt Vượt qua Thương mại điện tử và nhiềungành khác, công nghệ Fintech là lĩnh vực dẫn đầu trong những ngành khởi nghiệp hútvốn đầu tư trong năm 2018

L5 Những doanh nghiệp Fintech hàng dau Việt Nam

1.5.1 Momo:

Momo được thành lap năm 2007, ví điện tử Momo là ứng dung vi điện tử trênđiện thoại thông minh được xây dựng và phát triển bởi một công ty tại Việt Nam có

tên là công ty cô phần di động trực tuyến (M_Sevice) Day là một công ty chuyên hoạt

động trong lĩnh vực Fintech và được thành lập va điều hành bởi ông Phạm Thành Đức.Momo cho phép người dùng thanh toán trực tuyến (online payment), thực hiện chuyểntiền ngang hang mua các ứng dụng trò chơi, nạp tén cũng như thanh toán các hoá đơntiện ích Momo hiện hỗ trợ thanh toán cho gần 100 nhà cung cấp dịch vụ và doanh

Trang 14

BO AN TOT NGHIEP

nghiệp trực tuyến được tích hợp với 24 ngân hang trong nước cũng như các loại thanhtoán quốc tế bao gồm VISA, MASTER_CARD, JCB

Hình 1.1, Giao điện ứng dụng của Momo

MoMo đã có mặt trên 2 hệ điều hành iOS và Android với hơn 23 triệu người tin và

sử dụng Momo cung cấp cho khách hàng trải nghiệm thanh toán chỉ với một chạm (OneTouch Payment) với hơn hàng trăm các tiện ích dịch vụ như: Chuyên tiền, Thanh toánhóa đơn, Mua vé xe lửa, Mua vé máy bay, Vé xem phim, Thu-Chi hộ và Thương mại

trên di động Hiện tai Momo còn tích hợp thêm các dịch vụ thanh toán trực tuyến chocác app giao đồ ăn, giao hàng và thậm chí là thu học phí online

=> Có thé nói Momo là một trong những công ty khởi nghiệp Fintech hang đầu Việt

Nam.

Trang 15

BO AN TOT NGHIỆP

1.5.2 Finhay

Finhay là 1 trong 50 công ty mới nỗi lọt vào danh sách 100 công ty công nghệ tàichính hàng đầu thế giới Năm 2019, ứng dụng giúp tối ưu hoá vốn nhàn rỗi bằng cáchlập các danh mục đầu tư bao gồm các chứng chỉ quỹ của quỹ đầu tư tại Việt Nam tùy

theo khẩu vị rủi ro của mỗi khách hàng Tại thời điểm tháng 10 năm 2019, Finhay đã

cán mốc 200,000 người dùng

Robot advisor đã có thé thay thế những người tư vấn truyền thống và ứng dụngcông nghệ Big-Data vào đề tư van cho các nhà đầu tư nhỏ lẻ dé họ biết phân bồ tiền của

họ vào đâu dé có được sô tiên tôi ưu hơn.

at) Viettol & 23:01 ® T 339/5

©

Khêng ky hon Ngân hàng

Kỹ hạn Không ky han Không ky han

Lãi 4.0% /nôm Dưới 1.0%/nam

Kỹ trẻ lại Hang thang Hang tháng

Rang buộc Rút bất cứ khi noo Rut bết cứ khi noo

Finhay là ứng dụng huấn luyén

tải Shin áo bo 5 i i al

Trang 16

BO AN TOT NGHIEP

CHUONG II CAC PHUONG PHAP THONG KE

Trong thé giới phát triển ngày nay, thống kê dang đóng một vai trò vô cùng quantrọng trong lĩnh vực nghiên cứu, thu thập, phân tích và trình bày dữ liệu dưới dạng cóthể đo lường được Phương pháp thống kê bao gồm các phương pháp dự báo được kết

hợp cùng với lý thuyết Thống kê được chia ra làm 2 lĩnh vực: thống kê mô tả và

thống kê suy luận Do vậy, mỗi lĩnh vực có riêng một chức năng của nó, kết hợp 2

chức năng của 2 lĩnh vực này ta sẽ được chức năng của thống kê

2.1 Phương pháp thong kê mô tả

Mục tiêu:

e Tổ chức và tóm tắt số liệu một cách hiệu quả

e Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu (số

liệu trung bình, trung vi, số trội, và ý nghĩa của nó)

e Tính toán sự biến động của số liệu (khoảng giao động, phương sai, độ lệch

chuân) và ý nghĩa của chúng.

Thống kê mô tả cung cấp các chỉ số cơ bản của biến số với đữ liệu của mẫu nghiêncứu Hau hết các nghiên cứu định lượng đều cần cung cấp các chỉ số thống kê mô tả dégiúp người đọc hiểu về dữ liệu sử dụng Các chỉ số và cách trình bày có thể khác nhau

với biến định lượng và biến định danh Đối với các biến có giá trị liên tục (biến định

lượng) Các nhà nghiên cứu thường cung cấp các chỉ số như giá trị trung bình, giá trịlớn nhất, giá trị nhỏ nhất và độ lêch chuẩn của biến Trong một số trường hợp thì cầnthêm giá trị trung vị Đối với các biến định danh Các nhà nghiên cứu thường cung cấp

các chỉ sô như tân suat, tỷ lệ phân trăm trong tông sô, giá tri trung vi, giá tri yÊu Vi.

Thống kê mô tả được sử dụng dé mô tả những đặc tính cơ bản của dữ liệu thu thập

được từ nghiên cứu thực nghiệm qua các cách thức khác nhau Cùng với phân tích đồhọa đơn giản, chúng tạo ra nên tảng của mọi phân tích định lượng về số liệu Dé hiểu

được các hiện tượng và ra quyết định đúng đắn, cần năm được các phương pháp cơ bảncủa mô tả dữ liệu Có rất nhiều kỹ thuật hay được sử dụng Có thé phân loại các kỹ thuật

này như sau:

Trang 17

BO AN TOT NGHIEP

e Biểu diễn dit liệu bang đồ họa trong đó các đồ thi mô ta dữ liệu hoặc giúp so

sánh dir liệu;

e Biểu diễn dit liệu thành các bảng số liệu tóm tắt về dit liệu;

e Thống kê tóm tắt (dưới dạng các giá trị thống kê đơn nhất) mô ta dit liệu

2.1.1 Độ lệch chuẩn thống kê

Độ lệch chuân là một con sô mô tả mức độ trải rộng của các quan sát Một hàm

toán học sẽ gặp khó khăn trong việc dự đoán các giá trị chính xác, nêu các quan sát

được "dàn trải" Độ lệch chuẩn là một thước đo của độ không đảm bảo

* D6 lệch chuẩn thấp có nghĩa là hầu hết các con số đều gần với giá trị trung

xi là giá trị của điểm i trong tập dit liệu

X là giá trị của tập dữ liệu

n là tổng số quan sát trong tập dữ liệuGiá trị x trung bình được tính bang cách tông tất ca các quan sát va chia cho số

quan sát.

Trang 18

BO AN TOT NGHIEP

Phương sai cho mỗi điểm dit liệu được tính bang cách trừ giá trị của quan sát với

giá trị trung bình Kết quả sau đó được bình phương và được chia cho số quan sát trừmột Căn bậc hai của phương sai dé tìm độ lệch chuẩn

2.1.2 Phương sai thong kê

Phương sai là một con số khác cho biết mức độ dàn trải của các giá trị Trên thực

tế, nếu bạn lay căn bậc hai cua phương sai, ban sẽ có được độ lệch chuẩn Hoặc ngượclại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai Trước tiên,

chúng ta sẽ sử dụng tập dữ liệu với 10 quan sát dé đưa ra ví dụ về cách chúng tôi có

thé tính toán phương sai:

Khoảng thời gian Average Pulse Max Pulse Calorie Burnage Hours Work Hours Sleep

Phương sai thường được biểu thị bằng ký hiệu Hình vuông Sigma: ø ^ 2

> Chúng ta muốn tìm phương sai của Average_Pulse

Bước 1: Tim giá trị trung bình:

(80+85+90+95+100+105+110+115+120+125)/ 10 = 102.5

Giá trị trung bình là 102,5

Bước 2: Đối với mỗi giá trị, tìm sự khác biệt so với giá trị trung bình

Trang 19

-22.5 -17.5 -12.5

-2.5 2.5 7.5 12.5 17.5 22.5

WoW wn own tn own

22.5^2 =

306.25 586.25

Bước 4: Phương sai là số trung bình của các giá trị bình phương này

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +

506.25) / 10 = 206.25

Phương sai là 206,25.

2.1.3 Phân trăm thống kê

Phần trăm được sử dụng trong thống kê để cung cấp cho bạn một số mô tả giá trị

mà một phần trăm nhất định của các giá trị thấp hơn

Trang 20

Chúng ta giải thích nó băng một số vi dụ, sử dụng Average Pulse.

« Phan trăm 25% của Average Pulse có nghĩa là 25% của tat cả các buổi tập có

nhịp đập trung bình là 100 nhịp mỗi phút hoặc thấp hơn Nếu chúng ta lật lại

câu lệnh, điều đó có nghĩa là 75% tat cả các buổi tập có nhịp đập trung bình là

100 nhịp mỗi phút hoặc cao hơn

« 75% phan trăm của Average Pulse có nghĩa là 75% của tat cả các budi dao tạo

có xung trung bình là 111 hoặc thấp hơn Nếu chúng ta lật lại báo cáo, điều đó

có nghĩa là 25% trong số tất cả các budi tập có nhịp đập trung bình là 111 nhịp

mỗi phút hoặc cao hơn

Ví dụ: Tìm phân vị 10% cho Max_Pulse

Trang 21

BO AN TOT NGHIEP

e Max_Pulse = health_data ["Max_Pulse"] - Tach bién Max Pulse khỏi tap dtr

liệu sức khỏe day đủ

« _ np.percentile() được sử dụng dé xác định rang chúng tôi muốn phân vị 10% từ

Max_ Pulse.

=> Phần trăm 10% của Max_Pulse là 120 Điều này có nghĩa là 10% của tất cả

các buổi đào tạo có Max_Pulse là 120 hoặc thấp hơn

2.1.4 Tương quan thống kê

Tương quan đo lường mối quan hệ giữa hai biến Chúng ta đề cập rằng một hàm

có mục dich dé dự đoán một giá trị, bang cách chuyền đổi đầu vào (x) thành dau ra (f(x)) Chúng ta cũng có thê nói rằng một hàm sử dụng mối quan hệ giữa hai biến để dự

đoán.

Hệ số tương quan không bao giờ được nhỏ hơn -1 hoặc cao hơn 1

e1 =có một mối quan hệ tuyến tính hoàn hảo giữa các biến (như

Average Pulse so với Calorie_Burnage)e0 = không có mối quan hệ tuyến tính giữa các biến

e -1 = có một mối quan hệ tuyến tính phủ định hoàn hảo giữa các biến

2.2 Phương pháp thống kê suy luận (Dự đoán)

Thống kê suy luận có thê được đối chiếu với thống kê mô tả Thống kê mô tả chỉ

quan tâm đến các thuộc tính của dữ liệu được quan sát và nó không dựa trên giả định

rằng đữ liệu đến từ một tập hợp lớn hơn Trong học máy, thuật ngữ suy luận đôi khiđược sử dụng thay thé dé có nghĩa là "đưa ra dự đoán, bang cách đánh giá một môhình đã được dao tao", trong ngữ cảnh này, các thuộc tính suy luận của mô hình đượcgọi là đào tạo hoặc học tập (thay vì suy luận), và sử dụng mô hình dé dự đoán được

gọi là suy luận (thay vì dự đoán)

2.2.1 Mô hình héi quy tuyến tính

2.2.1.1 Tổng quan về mô hình hồi quy tuyến tinh

Trang 22

BO AN TOT NGHIEP

Động lực học phi tuyến đóng một vai trò quan trọng trong thé giới của chúng ta Môhình tuyến tính thường được sử dụng trong lĩnh vực kinh tế do tính đơn giản của chúng

cho các nghiên cứu và mô hình hóa dễ dàng hơn Trong tài chính, các mô hình tuyến

tính được sử dụng rộng rãi để giúp định giá chứng khoán và thực hiện phân bổ danh

mục đầu tư tối ưu, trong số những việc hữu ích khác Một trong tầm quan trọng của tính

tuyến tính trong mô hình tài chính là sự đảm bảo của nó rang một van dé cham dứt ởmột giải pháp tôi ưu toan câu.

Đề thực hiện dự đoán và dự báo, phân tích hồi quy được sử dụng rộng rãi trong lĩnh

vực thống kê để ước tính mối quan hệ giữa các biến Với một thư viện toán học là mộttrong những sức mạnh lớn nhất của Python (Python thường được sử dụng như một ngônngữ viết kịch bản khoa học dé hỗ trợ trong những van đề này) Các mô-đun như các góiSciPy và NumPy chứa nhiều hàm hồi quy tuyến tính cho dữ liệu các nhà khoa học dé

làm việc cùng.

Trong quan lý danh mục đầu tư truyền thống, việc phân bồ tài sản tuân theo một môhình tuyến tính và các nhà đầu tư có phong cách đầu tư riêng Chúng tôi có thể nêu vấn

dé của phân bé danh mục đầu tư vào một hệ phương trình tuyến tính, chứa các giá tri

bằng nhau hoặc bat bình đăng Các hệ thống tuyến tính này sau đó có thé được biểu

diễn dưới dạng ma trận dưới dạng:

Ax=b

Trong đó:

A là giá trị hệ số đã biết của chúng ta

B là kết quả quan sát được

x là vecto.

Hon nữa, x chứa trọng lượng bảo mật tối ưu dé tối đa hóa tiện ích của chúng ta Sửdụng đại số ma trận, chúng ta có thể giải cho x băng phương pháp trực tiếp hoặc giántiếp

Trang 23

BO AN TOT NGHIEP

2.2.1.2 Mô hình định giá tai sản vẫn va dòng sản phẩm bảo mật(CAMP)

Trong CAPM nổi tiếng, mối quan hệ giữa rủi ro và tỷ lệ lợi nhuận trong một chứngkhoán được mô tả như sau:

Rị = Rr + Bi(Rmxt — Rp)

R,: Lợi nhuận kì vọng.

Rr: lợi nhuận phi rủi ro.

Rinke — Re: bù đắp rủi ro dựa trên rủi ro của toàn hệ thống

B;: hệ sô đo lường mức độ biên động lợi nhuận.

Đôi với một bao mật i, lợi nhuận của nó được định nghĩa là R; và beta của nó là

B; CAPM xác định lợi nhuận của chứng khoán bằng tông của lãi suất phi rủi ro Rf vànhân của bản beta của nó với phân bù rủi ro Phân bù rủi ro có thê được coi là thị

trường lợi nhuận vượt mức của danh mục đâu tư không bao gôm lãi suât phi rủi ro.

Hình sau là một biéu diễn trực quan của CAPM:

Capital Market Line

Ri Rmit4

Trang 24

BO AN TOT NGHIEP

Vệ hệ sô Beta: Hệ sô Beta là hệ sô đo lường mức độ biên động lợi nhuận cô phiêuriêng biệt so với mức độ biến động lợi nhuận danh mục đầu tư thị trường

e Nếu B; =1, khi nền kinh tế tốt hay xấu thì tốc độ tăng giảm Lợi Nhuận của cô

phiếu riêng biệt bằng với tốc độ tăng giảm Lợi Nhuận thị trường

e Nếu Ø;=0.5, khi nền kinh tế tốt thì Lợi Nhuận cô phiếu riêng biệt tăng chậm

hơn (=1/2) Lợi Nhuận thị trường nhưng khi nền kinh tế xấu thì Lợi Nhuận cổphiếu riêng biệt giảm chậm hơn Lợi Nhuận thị trường

e Nếu Ø;=2, khi nền kinh tế tốt thì Lợi Nhuận cô phiếu riêng biệt tăng nhanh hơn

(2 lần) Lợi Nhuận thị trường nhưng khi nền kinh tế xấu thì Lợi Nhuận cô phiếuriêng biệt giảm nhanh hơn Lợi Nhuận thị trường.

Beta là thước đo rủi ro hệ thống của cổ phiếu, một rủi ro không thể đa dạng hóa

Về bản chất, nó mô ta độ nhạy của lợi tức cổ phiếu liên quan đến diễn biến trên thị

trường Ví dụ:

e Một cô phiếu có beta bằng 0 không tạo ra lợi nhuận vượt quá bat kế hướng thị

trường di chuyên nó chỉ có thé phát triển ở lãi suất phi rủi ro

© Cổ phiếu có hệ số beta là 1 cho biết rang cô phiếu đó di chuyên hoàn hảo với

thị trường.

Beta được tính toán bằng cách chia hiệp phương sai của lợi nhuận giữa cổ phiếu

và thị trường với phương sai của thị trường trả về

Mô hình CAPM do lường mối quan hệ giữa rủi ro và lợi nhuận cổ phiếu đối với

moi cô phiếu trong rô danh mục đầu tư Bằng cách phác thảo tổng thé của mối quan

hệ này, chúng ta có được sự kết hợp hoặc trọng lượng của các chứng khoán rủi ro tạo

ra mức thấp nhất rủi ro danh mục đầu tư đối với mọi mức sinh lời của danh mục đầu

tư Một nha đầu tư mong muốn nhận được một lợi tức cụ thể sẽ sở hữu một sự kết hợp

như vậy của một danh mục đầu tư tối ưu cung cấp ít rủi ro nhất có thể Sự kết hợp củacác danh mục đầu tư tối ưu nằm doc theo dong được gọi là biên giới hiệu qua

(efficient frontier).

Trang 25

BO AN TOT NGHIEP

Doc theo biên giới hiệu quả, tồn tại một điểm tiếp tuyến biểu thị điều tốt nhất

danh mục đầu tư tối ưu có sẵn mang lại tỷ suất sinh lợi cao nhất dé đôi lây TỦI ro thấpnhất có thé Danh mục đầu tư tối ưu tại điểm tiếp tuyến này được gọi là danh mục thị

trường.

Tén tai một đường thắng được vẽ từ danh mục đầu tư thị trường đến lãi suất ph

rủi ro Đường này được gọi là đường thị trường vốn (CML) CML có thể được coi là

tỷ lệ Sharpe cao nhất hiện có trong số tất cả các tỷ lệ Sharpe khác của danh mục đầu

tư tối ưu Ty lệ Sharpe là một thước đo hiệu suất được điều chỉnh theo rủi ro được

định nghĩa là danh mục đầu tư lợi nhuận vượt quá lãi suất phi rủi ro trên một don vi

rủi ro của nó theo độ lệch chuẩn Các nhà đầu tư đặc biệt quan tâm đến việc nắm giữcác tô hợp tài sản cùng đường CML Chúng ta hãy nhìn vào hình đồ họa sau:

Capital Market Line Efficient Frontier Market Portfolio

Re

* Standard Deviation (ơ]

Hình 2.2 Đường thị trường von CML

Một dòng quan tâm khác trong các nghiên cứu CAPM là dòng thị trường chứngkhoán (SML) SML vẽ biểu đồ lợi nhuận kỳ vọng của tài sản so với phiên bản beta

của nó Đối với bảo mật có giá tri beta của 1, lợi nhuận của nó hoàn toàn phù hợp vớilợi nhuận của thị trường Bất kỳ bảo mật nào có giá cao hơn SML được coi là đang

được định giá thấp vì các nhà đầu tư mong đợi lợi nhuận cao hơn do cùng một lượng

rủi ro Ngược lai, bat kỳ bảo mật nao có giá đưới SML đều được coi là được định giáquá cao:

Trang 26

Hình 2.3 Biểu đô lợi nhuận kỳ vọng

Giả sử chúng ta quan tâm đến việc tìm beta B; của một chứng khoán Chúng ta

có thê hôi quy cô phiêu của công ty tra lại 7; so với lợi nhuận cua thi trường 7 cùng

Sử dụng mô-đun thống kê của SeiPy, chúng ta sẽ thực hiện hồi quy bình

phương nhỏ nhất trên mô hình CAPM và lay các giá trị của @ và B; bằng cách chạy

đoạn mã sau bằng Python:

Trang 27

BO AN TOT NGHIEP

In [1]: |""" Linear regression with SciPy

from scipy import stats stock_returns = [@.@65, @.0265, -@.@593, -@.001, 8.8346]

rong về độ dốc bằng 0 và sai số chuẩn của ước tính Chúng ta quan tâm đến việc tìm

độ dốc và giao điểm của đường thang => Beta của cổ phiếu là 0,5077

Phương trình mô tả SML có thể được viết như sau:

EŒ,) = Ry + Bi[E(Rm) — Ry]

E(Rm) — Rp : Phan rủi ro của thị trườngE(R,,) : Lợi suất kì vọng của chứng khoán i

Rg: Lãi suất phi rủi ro

E(R;,): Lợi suất kì vọng của thị trường

B,: Phan bù rủi ro của chứng khoán i

Giả sử lãi suất phi rủi ro là 5 phan trăm và phan bù rủi ro thị trường là 8,5 phan

trăm Lợi tức kỳ vọng của cô phiêu là bao nhiêu?

Dựa trên CAPM, vốn chủ sở hữu với một phiên bản beta 0,5077 sẽ có phần bù rủi

ro là 0,5077 x 8,5%, hay 4,3% Không rủi ro tỷ lệ là 5 phần trăm, do đó, lợi nhuận kỳvọng trên vôn chủ sở hữu là 9,3 phân trăm.

Nếu bảo mật được quan sát trong cùng một khoảng thời gian dé có lợi nhuận cao

Trang 28

BO AN TOT NGHIEP

định giá thấp hơn, vì nhà đầu tư có thể mong đợi lợi nhuận lớn hơn với cùng một sỐ

tiền rủi ro

Ngược lại, lợi nhuận của chứng khoán có được quan sát dé có lợi tức thấp hơn

không (ví dụ: 7 phần trăm) so với lợi nhuận dự kiến như được ngụ ý bởi SML, bao

mật có thê nói là định giá quá cao Nhà đầu tư nhận được ít lợi nhuận hơn nếu giả sửcùng một lượng rủi ro.

2.2.1.3 Mô hình lý thuyết định giá kinh doanh chênh lệch giác (APT)

CAPM gặp phải một số hạn chế, chang hạn như việc sử dụng phương sai trung bìnhkhuôn khổ và thực tế là lợi nhuận được nắm bat bởi một yếu tổ rủi ro - hệ số rủi ro thịtrường Trong một danh mục dau tu đa dang, rủi ro phi hệ thống của các cô phiếu khácnhau sẽ hủy bỏ ra ngoài và về cơ bản là loại bỏ.

Mô hình Lý thuyết định giá qua kinh doanh chênh lệch giá (APT) đã được đưa ra

dé giải quyết những thiếu sót và đưa ra một cách tiếp cận chung dé xác định giá tài sản

khác so với giá tri trung bình và phương sai.

Mô hình APT giả định rằng lợi nhuận bảo mật được tạo ra theo các mô hình nhiềuyếu tố, bao gồm sự kết hợp tuyến tính của một số Các yếu tổ rủi ro Các yếu tô đó có

thể là tỷ lệ lạm phát, tốc độ tăng trưởng GDP, lãi suất tỉ lệ thực tế hoặc cổ tức

Phương trình định giá cân bằng tài sản theo mô hình APT như sau:

ELR,] = ai + B¿AFt + Bi2F2 + + BijF;

Với:

e E[R,| : là tỷ lệ lợi nhuận kỳ vọng trên chứng khoán i.

e a;: là lợi nhuận kỳ vọng i nếu các yếu tố không đáng ké

e Bj: Độ nhạy của tài san thứ i đối với yếu tố thứ j

e F;: là giá trị của yếu tô thứ j ảnh hưởng đến tỉ suất sinh lời nhuận của cô

phiếu thứ i

Trang 29

BO AN TOT NGHIEP

Vi mục tiêu của chúng ta là tim tat cả các giá tri của a; và B, chúng ta sẽ thực

hiện một tuyến tính đa biến hồi quy trên mô hình APT

2.2.1.4 Mô hình tuyến tinh da biến của các mô hình nhân tô

Nhiều gói Python như SciPy đi kèm với một số biến thé của hồi quy chức năng

Đặc biệt, gói mô hình thống kê là một bổ sung cho SciPy với thống kê mô tả và ướclượng mô hình thống kê

Trong ví dụ này, chúng ta sẽ sử dụng hàm ols của mô-đun statsmodels dé thực

hiện hồi quy bình phương nhỏ nhất thông thường và xem tóm tắt của nó

e Giả sử rằng bạn đã triển khai mô hình APT với bảy yếu tổ trả về các giá tri

của Y Hãy xem xét tập hợp dữ liệu sau được thu thập trong 9 thời gian cáckhoảng thời gian, tl đến t9 X1 đến X7 là các biến độc lập được quan sát tạimỗi thời kỳ Do đó các vấn đề hồi quy được cau trúc như:

Y = Xiiky + Xi2Fo ie Xi7Fy + C

Có thé thực hiện một hồi quy bình phương nhỏ nhất thông thường đơn giản

trên các giá trị của X và Y với mã sau:

In [1]: |""" Least squares regression with statsmodels """

import numpy as np import statsmodels.api as sm

# Generate some sample data num_periods = 9

all_values = np.array([np.random random(8}

# Filter the data y_values = all values[:, @] # First column values as Y xvalues = all values[:, 1:] # ALL other values as X x_values = sm.add_constant(x_values) # Include the intercept results = sm.OLS(y_values, x_values).fit()

# Regress and fit the model

In [2]: #Let's view the detailed statistics of the regression:

Trang 30

BO AN TOT NGHIEP

OLS Regression Results

Dep Variable: y R-squared: 0.863

Model: OLS Adj R-squared: -8.098 Method: Least Squares F-statistic: 0.8982

Date: Sat, 27 Nov 2821 Prob (F-statistic): 0.674

Time: 13:39:37 Log-Likelihood: 5.6398

No Observations: 9 AIC: 4.728

Df Residuals: 1 BIC: 6.298

Df Model: 7 Covariance Type: nonrobust

Kurtosis: 1.715 Cond No 52.0

Hình 2.4 Kết quả thống kê chỉ tiết của hồi quy

Tương tự, chúng ta có thé sử dụng hàm params dé hién thi các hệ số quantâm của chúng ta:

In [3]: print (results.params)

[ 2.93918629 -1.84233383 -@.96689911 -@.724997@5 -2.@7974878 1.29095302 -@.5090974 6.24347854]

= Cả hai lệnh gọi ham đều tạo ra các giá trị hệ số giống nhau cho mô hình APT

trong cùng một thứ tự.

2.2.1.5 Tối ưu hóa tuyến tính

Trong lý thuyết định giá CAPM và APT, chúng ta đã giả định tính tuyến tính

trong các mô hình và được giải quyết cho giá bảo mật dự kiến băng cách sử dụng

hỗồi quy trong Python Khi số lượng chứng khoán trong danh mục đầu tư tăng lên,

một số hạn chế nhất định là xuất hiện Một nhà quản lý danh mục đầu tư sẽ thay

mình bị hạn chế bởi những quy tắc trong việc thực hiện các mục tiêu nhất định donhà đầu tư ủy quyền

Trang 31

BO AN TOT NGHIEP

Việc tối ưu hóa tuyến tính giúp ta khắc phục được van dé phân bổ danh mục dau

tư Tối ưu hóa tập trung vào việc giảm thiêu hoặc tối đa hóa giá trị chức năng của

mục tiêu Các ví dụ là tối đa hóa lợi nhuận và giảm thiểu biến động Các mục tiêu

này thường được điều chỉnh bởi các quy định nhất định, chăng hạn như không có

quy tắc bán khống (một cách kiếm lợi nhuận từ sự tụt giảm giá của một loại chứng

khoán như cô phiếu hay trái phiếu), giới hạn về số lượng chứng khoán dau tu,

V.V

Thật không may, trong Python không có gói chính thức duy nhất hỗ trợ giải phápnày Tuy nhiên, có các gói của bên thứ ba với việc triển khai thuật toán simplex cholập trình tuyến tính Với mục đích của cuộc trình diễn này, chúng ta sẽ sử dụng

PuLP, một trình mô hình lập trình tuyến tính mã nguồn mở, dé hỗ trợ chúng ta

trong việc này van đề lập trình tuyến tính cụ thé

2.2.1.6 Một bài toán toi ưu hóa tuyến tính đơn giản

Giả sử rằng chúng ta quan tâm đến việc đầu tư vào hai chứng khoán X và Y

Chúng ta muốn tìm ra số đơn vị thực tế cần đầu tư cho mỗi 3 đơn vị bảo mật X và 2đơn vi bảo mật Y, sao cho tổng số đơn vị được đầu tư là tối đa, trong đó khả thi

Tuy nhiên, có một sô hạn chê nhât định đôi với chiên lược đâu tư của chúng ta:

e_ Cứ 2 đơn vị bảo mật X được đầu tư và 1 đơn vị bảo mật Y được đầu tu, tổng

khối lượng không được vượt quá 100

¢ Đối với mỗi đơn vị chứng khoán X và Y được dau tư, tổng khối lượng không

được vượt quá 80.

e Tổng khối lượng được phép đầu tư vào chứng khoán X không được vượt quá

40.

e_ Không được phép bán khống đối với cả hai loại chứng khoán

Bài toán tối đa hóa có thé được biểu diễn băng toán học như sau:

Tối đa hóa: f(x,y) = 3x + 2y

Điêu kiện:

Trang 32

Bằng cách vẽ các ràng buộc trên đồ thị x y, tập hợp các giải pháp khả thi

được hiên thi trong khu vực màu xám được tô đậm:

— 2x+y<=100 x+y<=80

x<=40

Hình 2.5 Đồ thi quan hệ giữa X va Y

Van đề có thé được chuyên sang Python với gói PuLP:

In [22]: ””" A simple linear optimization problem with 2 variables """

import pulp

x = pulp.LpVariable("x", lowBound=@)

y = pulp.LpVariable("y", lowBound=0) problem = pulp.LpProblem("A simple maximization objective", pulp LpMaximize)

problem += 3*x + 2*y, “The objective function"

problem += 2*x + y <= 10@, “1st constraint”

problem += x + y <= 80, “2nd constraint"

problem += x <= 48, "3rd constraint”

Trang 33

BO AN TOT NGHIEP

Hàm LpVariable() xác định một biến cần giải quyết

Hàm LpProblem() khởi tạo van đê với mô tả văn bản về vân dé và loại tôi ưuhóa, trong trường hợp này là phương pháp tối đa hóa

Phép toán + = cho phép thêm một số ràng buộc tùy ý, cùng với mô tả văn bản

Cuối cùng, ham solve() được gọi dé bat đầu thực hiện tối ưu hóa tuyến tính.

Mỗi giá trị biến được in dé hiển thị các giá trị mà trình tối ưu hóa đã giải quyết

cho chúng ta

In [39]: print ("Maximization Results:”)

for variable in problem.variables(x):

Kết qua cho thấy rằng có thé dat được giá trị lớn nhất là 180 khi gid trị của x là

20 và y là 60 trong khi đáp ứng tập hợp các ràng buộc đã cho.

2.2.2 Mô hình hồi quy Logistic

2.2.2.1 Tổng quan về Hoi quy Logistic

Logistic Regression là một phương pháp thống kê phân loại các đối tượng cógiám sát, thường được sử dung rất nhiều trong thống kê dé phân tích và dự đoán,

mở rộng sang các ứng dụng trong học máy Hồi quy logistic được ứng dụng rộng

rãi trong phân tích kinh tế nói chung và rủi ro trong tín dụng nói riêng Cụ thể hơn,

mô hình này giúp Ngân hàng xác định khả năng khách hàng sẽ có rủi ro tín dụng

(biến phụ thuộc) trên cơ sở sử dụng các nhân tố có ảnh hưởng đến khách hàng (biến

độc lập).

Thuật toán Hồi quy Logistic (Logistic Regression) là một thuật toán thuộcnhóm các thuật toán phân lớp Không giống như hồi quy tuyến tính, thuật toán Hồi

Trang 34

BO AN TOT NGHIEP

ánh xa tới hai hoặc nhiêu lớp rời rac (chó, mèo, ) Nó được sử dụng trong phân

mêm thông kê đê hiêu môi quan hệ giữa biên phụ thuộc và một hoặc nhiêu biên độclập bằng cách ước tính xác suất sử dụng phương trình hồi quy logistic

Ứng dụng của logistic trong dự đoán tài chính: Dự báo phân loại email có phảispam hay không, dự báo khả năng rời dịch vụ của khách hàng, dự báo khả năng

khách hàng sẽ mua sản phẩm bắt kỳ, hay đăng ký dịch vụ, dự báo khả năng trả nợ

của khách hàng.

So sánh hồi quy tuyến tính và hồi quy Logistic:

e Hồi quy tuyến tính được sử dụng dé tạo ra các giá trị liên tục như giá nhà,

thu nhập, dân số, v.v Trong hồi quy logistic, chúng ta thường tính xác suấtnam giữa khoảng 0 và 1 (bao gồm cả hai) Sau đó, xác suất có thé được sửdụng đề phân loại dữ liệu Ví dụ: nếu xác suất được tính toán lớn hơn 0,5,

thì dữ liệu thuộc về lớp A và nếu không, nhỏ hơn 0,5, dữ liệu thuộc về lớp

B.

e©_ Dự đoán hồi quy Logistic là rời rac (chi cho phép các giá trị hoặc danh mục

cụ thé) Chúng ta cũng có thé xem điểm xác suất của các dự đoán

e Hồi quy logistic gần giống với hồi quy tuyến tính ngoại trừ cách chúng

được sử dụng Hồi quy tuyến tính được sử dụng dé giải các bài toán hồi

quy, trong khi hồi quy Logistic được sử dụng dé giải các bài toán phân loại

2.2.2.2 Cách hoạt động của Logistic Regression

Mô hình hồi quy logistic là một mô hình hồi quy mà trong đó:

Biến đầu vào, biến giải thích: là những biến phân loại hoặc định lượng được

mã hoá thành sô Dau ra: dau ra của mô hình là giá trị 0 hoặc 1.

Thay vì điều chỉnh một đường thăng hoặc siêu phăng như trong mô hình hồi

quy tuyến tính, mô hình hôi quy logistic sử dung ham logistic dé phản ánh đầu ra

của một phương trình tuyến tính giữa 0 và 1 Với hàm này, bạn có thể ánh xạ các

giá trị thực của các dự đoán thành xác suât.

Trang 35

Trong hồi quy logistic y chỉ có thé nằm trong khoảng từ 0 đến 1, vi vay, chúng

ta hãy chia phương trình trên cho (1-y):

Ty 0 for y = 0,and infinity ƒor y = 1

Nhưng chúng ta cần phạm vi từ -[infinity] đến +[infinity], sau đó lấy logarit

của phương trình, nó sẽ trở thành:

Log | = bo + byx, + b2Xx2 + + b„Xn

Phương trình trên là phương trình cuối cùng cho hồi quy logistic

Thuật toán trên dùng ham sigmoid logistic dé đưa ra đánh giá theo xác suất

Trang 36

BO AN TOT NGHIEP

Sigmoid Function

2.2.2.3 Triển khai thuật toán Logistic Regression với bài toán ví dụ

Đề hiểu cách triển khai Logistic Regression trong Python, chúng ta sẽ sử dụng

ví dụ dưới đây:

Một ngân hàng có chương trình cho vay ưu đãi cho các đối tượng mua nhà là

chung cư Gan đây có một số chung cư rất hap dan (vi trí đẹp, giá 6n ) nên lượng

hồ sơ người nộp cho chương trình ưu đãi tăng nhanh và nhiều Bình thường ta có

thé duyệt 10-20 hồ sơ một ngày dé quyết định xem những hồ sơ nào đủ điều kiện

vay hoặc không đủ điều kiện vay, vậy nhưng gần đây ngân hàng nhận được

1000-2000 hồ sơ mỗi ngày nên không thể xử lý hết hồ sơ và ngân hàng cần có một giải

pháp dé có thé dự đoán hé sơ mới là có nên cho vay hay không?

Sau khi phân tích thì ta thấy rằng 2 yếu tô chính quyết định đến việc được vaytiền là mức lương và kinh nghiệm làm việc của chủ hộ gia đình(Năm) Sau đây là

dữ liệu ngân hàng có từ trước đên nay:

Trang 37

Về mặt logic, giờ chúng ta cần tìm đường thăng phân chia giữa các điểm cho

vay và từ choi và có thê dự đoán được các diém dữ liệu mới

3.0 e

-e

2.5 5 GÀ

Nw °kinh nghiệm (nam) " u

Từ đồ thị trên ta thấy dự đoán hồ sơ của người có mức lương 5 triệu với 0.5 năm

kinh nghiệm là không cho vay.

Giờ ta phải di tìm xác suất cho vay của một hồ sơ, là giá tri trong đoạn [0, 1] Ta

sử dụng ham sigmoid trong logistic regression

10

Cho vay

Vệ co bản thì chúng ta sé có các bước sau cho | bài toán Machine learning:

- _ Thiết lập mô hình

- Thiết lập hàm mất mát (Loss Function)

- Tim tham sô băng việc tôi ưu hàm mat mát

- Dự đoán dir liệu mới dựa vào ham mat mát vừa tìm được

Mô hình

Trang 38

BO AN TOT NGHIEP

Ta sử dụng ham Sigmoid dé ánh xa dự đoán theo xác suất

Trong đó S(z) đầu ra là từ 0 đến I.(Ước tính xác suất)

Z: là giá tri đầu vào hàm( Thuật toán dự đoán, ví dụ mx+b)

e : là số e trong logarit tự nhiên

Goi xÍ là lương của hồ sơ thứ i

Gọi x4, là số năm kinh nghiệm làm việc của hồ sơ thứ i

p(x! = 1) =f, là xác suất mà mô hình dự đoán đủ điều kiện cho vay

p(x! = 0) = 1— Ø, là xác suất mà mô hình dự đoán không được vay

Trang 39

BO AN TOT NGHIỆP

ˆ in (r)

Vị =Ol(wot wi ex, +w2*Xx ) in

= l+e (Mù #At| ty PDAs

Ham Loss Function

Giờ ta can 1 hàm dé đánh giá độ tốt của model (tức là độ dự đoán chính xác)

Nhận xét:

Nếu hồ sơ i được cho vay thì yi càng gần | nghĩa là mô hình dự đoán xác suấtcho hồ sơ 1 càng cao

Nếu hồ so i không được cho vay thi yi càng gần 0 nghĩa là mô hình dự đoán

xác xuất cho hỗ sơ i càng cao

Với mỗi điểm x! ta gọi làm loss function :

L=—(y; * logỚ,) + (1 — yi) * log — Ø,)

Trang 40

Ham L tăng từ 0 đến 1 khi mô hình dự đoán gần y';=0( tức là giá tri dy đoán

gan với giá trị thật y,) thì L rất nhỏ Khi mô hình dự đoán gần =1 (tức là giá trị

dự đoán ngược lại với giá trị thật) thì L rất lớn => Hàm L cảng nhỏ thì mô hình

dự đoán cảng gần với giá trị thật Vậy dé xác suất dự đoán chính xác nhất thì Lphải min.

Tính đạo hàm bằng kỹ thuật Chain Rule

Ngày đăng: 08/03/2024, 13:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w