BO AN TOT NGHIEPỨng dung của Python là rat lớn trong việc tao các ứng dụng tài chính, chang hạn như tối ưu hóa danh mục đầu tư, định giá số, phân tích tương tác, đữ liệu lớn với Hadoop,
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN 1
TOT NGHIỆP ĐẠI HỌC
ỨNG DỤNG CÁC PHƯƠNG PHÁP THÓNG KÊ TRONG
FINTECH
Giảng viên hướng dẫn : TS NGUYÊN DUY PHƯƠNG
Sinh viên thựchiện : LÊ THỊ NHẬT LỆ
Lớp : D17CNPM04
Mã sinh viên : B17DCCN369 Khóa : 2017-2022
Hệ : ĐẠI HỌC CHÍNH QUY
Hà Nội - Tháng 12 /2021
Trang 2HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA CÔNG NGHỆ THÔNG TIN 1
Trang 3BO AN TOT NGHIEP
LOI CAM ON
Đối với một sinh viên trường Hoc Viện Công Nghệ Bưu Chính Viễn Thông, đồ
án tốt nghiệp là một minh chứng cho những kiến thức đã có được sau bốn năm rưỡihọc tập Trong suốt quá trình học tập cũng như thực hiện đồ án này, ngoài những cố
gắng của bản thân, em đã nhận được rất nhiều những sự quan tâm giúp đỡ, hướng
dẫn tận tình của các thầy cô cùng với những lời động viên khuyến khích từ phía giađình, bạn bè những lúc em gặp khó khăn Em xin bày tỏ lời cảm ơn chân thành đếnmoi nguoi.
Dau tiên, em xin tỏ lòng biết on sâu sắc đến thay Nguyễn Duy Phuong đã tậntình hướng dẫn, định hướng cho em trong suốt quá trình thực hiện đề tài Các thầyluôn cho em những lời khuyên quý báu và truyền đạt cho em rất nhiều kiến thức, kinhnghiệm trong suốt quá trình làm đỗ án
Em xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin, học viện
Công nghệ Bưu chính Viễn thông đã tận tình day dỗ và cho em những kiến thức bổ
ich, làm nền tảng dé em hoàn thành khóa luận, cũng là hành trang dé em tự tin bước
vào cuộc sông, công viéc trong tương lai.
Em cũng xin được gửi lời cảm ơn tới các bạn trong nhóm làm đồ án đã luôn bên
cạnh, hỗ trợ giúp đỡ em rất nhiều trong suốt quá trình học tập tại trường, cũng như
trong quá trình thực hiện đồ án này
Vi thời gian có hạn và trình độ hiéu biét của bản thân còn nhiêu hạn chê Cho nên trong đô án không thê tránh khỏi những thiêu sót, em rât mong nhận được sự đóng
góp ý kiên của tât cả các thây cô cũng như bạn bè đê đô án của em được hoàn thiện
hơn.
Hà Nội, tháng 12 năm 2021
Lệ
Lê Thị Nhật Lệ
Trang 4BO AN TOT NGHIEP
NHAN XET
(Của giảng viên phản biện)
Trang 5BO AN TOT NGHIEP
NHAN XET, DANH GIA, CHO DIEM
(Của Người hướng dẫn)
Trang 6BO AN TOT NGHIEP
Ki HIEU VA CUM TU VIET TAT
STT Ky hiéu Tiéng Anh Tiéng Viét
1 FINTECH Financial Technology Công nghệ tài chính
2 IT Information Technology Công nghệ thông tin
3 TB medium Giá trị trung bình
4 CART Classification and Phân loại và cây hồi quy
Regression Trees
5 VCB Vietcombank Vietcombank
6 LSTM Long Short Term Memory | Mô hình mang bộ nhớ dài
networks han ngăn hạn
7 1G Information Gain Luong thông tin thu thêm
Trang 7BO AN TOT NGHIEP
HINH ANH
Hình 1.1 Giao diện ứng dụng CUA ÌOIHO << Ă <1 1.91 995 11g v 12
Hình 1.2 Giao diện ứng dụng của FLHLHđy «SH g9 13
Hình 2.1 Biểu diễn về CAMP se ©sẻ+xe£+s£EteEteExeExeerteEterteereerserkerrerrkee 21Hình 2.2 Đường thị trường vốn CÌML s- se ©e£+e++se+xe+xeexeerss+xerxeersee 23
Hình 2.3 Biểu đồ lợi nhuận kp VỌH e°©cs 5s Se<SseceeEEeereerketkerrerreereerrerreee 24
Hình 2.4 Kết quả thong kê chỉ tiết của liỖÌ qW\ -s s©cs©ss se ceeceersreecsscsscse 28Hình 2.5 Đồ thị quan hệ giữa X và Y - e- e-ceccceeEeeteereererrrrrrresreeree 30
Hình 2.6 Đồ thị biểu diễn giá trị của hàm Sigimoid -. s se css©sscssccsee 34
Hình 2.7 Cấu trúc của mô hình Cây quyét din . -2 c2 se se secsessessesscse 42Hình 2.8 Hình ảnh dau ra cho bài toán dự đoán khả năng chơi Tennis 46
Hình 2.9 Cấu trúc sơ đồ tinh toán của LSTM -e-scse©ce©see+secxsecssee 47
Hình 2.10 M6 hình: LSTM 2-2 ©<©©e£©+e£©x£ExeE+seExeerxeereerreerxerrserreerreee 48
Hình 3.1 Data_ set dự đoán kha năng cho vay dang CSV c1 se 52
Hình 3.2 Biểu đô các bién phân loại độc lp . -2 2 se se sececescssesscse 55
Hình 3.3 Biéu đồ các biến thang đo thứ bậc độc lập . -«©-sccse- 56Hình 3.4 Biểu đồ các biến số độc lap isessesssessesssssssssessesssssesssessesssssssssessssssssssssessssssesees 57
Hình 3.5 Biéu đồ thể hiện mỗi quan hệ của từng hai biỄn -5 5 s2 60
Hình 3.6 Biểu đồ mối quan hệ giữa Loan_Amount và Loan _sfafs 61
Hình 3.7 Kết quả dự đoán dau ra của thuật toán hoi quy Logistic - - 64Hình 3.8 Kết quả dự đoán dau ra của thuật toán hoi quy Logistie - 65Hình 3.9 Data_set cho dự đoán giá cỗ phiỄu - sec se ©ss©xeexeersecsecreereee 66
Hình 3.10 Dé thị giá đóng cửa của CP VCB khoảng thời gian muốn thống kê 68
Hình 3.11 Đồ thị đầu ra so sánh giữa dự đoán và thre té -s scss s2 70
Hình 3.12 Kết quá dau ra cho mô hình hôi quy Logistic -s s-cs-ss s2 72
Hình 3.13 Kết quả đầu ra cho mô hình Decission Tree -s sc-scss s2 73Hình 3.14 Thống kê giá đóng cửa cia VCB trong khoảng thời gian từ 30/06/200972/1/08 74Hình 3.15 Dé thị biểu diễn kết quả dự đoán so với thực tế của mô hình 74Hình 3.16 Kết quả đầu ra dự đoán giá cỗ phiếu ngày tiếp theo . - 74
Trang 81.2 Giới Thiệu vé FintecÌh escesccsececeeteeEesEksErsetseEssettsersereserssersrrssre 9
13 Lịch sử ra đời và phát triển của Fintecn -eccscccescsecsseeeesessessese 91.4 Ảnh hưởng của Fintech đối với Việt ÍN@I c-sccscsscsseceeeesrsscse 11
1.5 Những doanh nghiệp Fintech hàng đầu Việt Nam -« 11CHUONG II CÁC PHƯƠNG PHAP THONG KỂ s sss©sse 14
2.1 Phương pháp thong kê mô tả -ee-ee©ceeccesceeeveeeteetteeteeetsertsteeesee 14
2.1.1 Độ lệch chuẩn thống kê -2ce-©e°©sẻ©xe£teEsetxsEteErsereeresrrerrerree 15
2.1.2 Phương sai thong kÊ 2-2 -< 5< se +eEEEEeEksEkeEketeteerrrrerrsrrereereeree 16
2.1.3 Phin trăm thong Ké 2° << ©e+E£EEEsEEsEksEkeEktterkerrrrrsrrerrereeree 17
2.1.4 Tương quan thong Kb eccessessessessssssssssessessessessesssssssssssssessessessessesssssssssseeseess 192.2 Phương pháp thống kê suy luận (Dự đoán) -esececesceeeeeesscsscsee 19
2.2.1 Mô hình hồi quy tuyén tÍnh - - 2° s- se £sEksEkeEteEereersrrsersrseresree 19
2.2.2 Mô hình hồi quy LogiSfÍ€ - e- 5< scsccecescesEeseeeteererrerrsrrsreereeree 31
2.2.3 M6 hinh Decission Tree 17a 41 2.3 Mô hình mang Nerual LLS TÌÌMH << << s v91 1 19x 54 46
CHUONG III UNG DUNG VÀ THỰC NGHIEM 5° << 51
B.D Ung Aung 7a 51
BLL Thiet lap Né thong cesccccsscsesssssssssesssssesssessessessssssessessssssssscsscssssssesecsscsseesessees 51
3.1.2 Dự đoán khả năng cho vay của ngân hàng cho các hỗ sơ - SI
3.1.3 Dự đoán giá cỗ phiếu bằng mô hình L.STÌM - e- s©s©cs+s 65
3.2 Kết quả thực nghiệm và đánh giá s5 s sssessese=seesessessesse 713.2.1 Chạy tht ng hid << HH nợ 71 3.2.2 Đánh id eccsecsssssecssesssecssessecssecssessscssssssesssesssesascssecasessscssecanecsscsasesnecasessseeseess 75
Trang 9BO AN TOT NGHIEP
HƯỚNG PHAT TTRIÈN - 5 << << <9 99 E4 4E 4s 393 se 77
TÀI LIEU THAM KHHẢO 2-2-2 s£©Ss£©S££Es££SseEss£Essezssexsersserssersee 78
Trang 10BO AN TOT NGHIEPCHUONG I TONG QUAN VE FINTECH
Trong thời gian gần đây, không chỉ ở Việt nam mà trên thé giới, “Fintech” là cum
từ thường xuyên được đề cập đến, thế nhưng không phải ai cũng hiểu cặn kẽ về loại
hình kinh doanh mới này Fintech đã phát triển thành làn sóng ở nhiều nước trên thếgiới Những dịch vụ tài chính dựa trên nền tảng công nghệ này mang lại nhiều tiện íchcho người tiêu dùng và mở ra nhiều tiềm năng mới trong việc nâng cao khả năng tiếpcận tài chính Chương này sẽ nghiên cứu về quá trình hình thành và xu hướng phát triểncủa Fintech cũng như nghiên cứu về những chuyển động của Fintech tại một số quốcgia trên thế giới trong đó có Việt nam trong suốt thập kỷ qua
LI Lido chọn đề tài
Đối với Fintech hiện nay, ngoài những dịch vụ thông thường như thanh toán,
chuyên tiền, thủ tục số, fintech còn cung cấp các dịch vụ trải rộng thêm như cho vaynăng cấp, gọi von cộng đồng, tư van tài chính cá nhân, công nghệ số, quản lí đầu tư vàquản trị dữ liệu Vì vậy việc lay dữ liệu sẵn dé thống kê và đưa ra dự đoán cho đầu tu
tương lai là khá cần thiết cho các nhà đầu tư Tuy nhiên việc tiếp cận với dữ liệu lớn
như bigdata thì việc thống kê truyền thống trở nên khá phức tạp và khó khăn Vận
dụng công nghệ và học máy, em muốn nghiên cứu về việc ứng dụng các phương phápthong kê vào trong fintech dé giảm thiểu việc tính toán thông thường và tăng xác suấtchính xác.
Python được thực hành rộng rãi trong các lĩnh vực tài chính khác nhau, chăng hạnnhư ngân hàng, đầu tư quản lý, bảo hiểm và thậm chí là bất động sản, để xây dựng cáccông cụ giúp mô hình tài chính, quan lý rủi ro va giao dịch Ngay cả các tập đoàn taichính lớn nắm lay Python dé xây dựng cơ sở hạ tầng của ho dé quản lý vị trí, định giá,
rủi ro hệ thống quan lý và giao dịch Python được áp dụng cho các mô hình định giá
cô điền, tính tuyến tính và phi tuyến tính của tài chính, thủ tục số và mô hình lãi suất,tạo nên nền tảng của các mô hình tài chính phức tạp Nền tảng Quartz của Bank of
America sử dụng Python để quản lý vị trí, định giá và quản lý rủi ro Nền tảng Athenacủa JP Morgan, rủi ro đa thị trường hệ thống quản lý và giao dịch, sử dụng Python để
Trang 11BO AN TOT NGHIEP
Ứng dung của Python là rat lớn trong việc tao các ứng dụng tài chính, chang hạn
như tối ưu hóa danh mục đầu tư, định giá số, phân tích tương tác, đữ liệu lớn với
Hadoop, v.v Với rất nhiều khía cạnh được xem xét, việc lựa chọn ngôn ngữ lập trình
phù hợp có thể giống như một nhiệm vụ bat khả thi Tuy nhiên, các liên doanh
FinTech dường như đặc biệt thích một công nghệ: Python Và có thé nói rang Python
và Fintech là một sự kết hợp hoàn hảo
L2 Giới Thiệu về Fintech
Thuật ngữ Fintech là viết tắt của “Financial Technology”, hiểu nôm na là công nghệ
tài chính Fintech đề cập đến sức mạnh tông hợp giữa tài chính và công nghệ, tận dụng
đến sự sáng tạo của công nghệ đề sử dụng cho các hoạt động tài chính, tăng cường hoạtđộng kinh doanh và cung cấp các dịch vụ tài chính
Fintech không bắt nguồn từ những hệ thống tiền tệ hiện có mà đánh dấu sự xâm lấn
của IT vào những hệ thống tiền tệ đó, mô tả công nghệ mới nhằm cải thiện và tự động
hoá việc cung cấp va sử dụng các dich vụ tài chính Fintech có thé ở dạng phần mềm,
dịch vụ hoặc doanh nghiệp cung cấp các cách thức công nghệ tiên tiến để làm cho cácquy trình tài chính hiệu quả hơn bằng cách phá vỡ các phương pháp truyền thống
Về cốt lõi, fintech được sử dụng để giúp các công ty, chủ sở hữu doanh nghiệp và
người tiêu dùng quản lý tốt hơn các hoạt động tài chính, quy trình và cuộc sống của họbằng cách sử dụng phần mềm và thuật toán chuyên biệt được sử dụng trên máy tính vàngày càng phô biến trên điện thoại thông minh
Một số ứng dụng nỗi bật nhất của fintech là thanh toán di động, ứng dụng dau tư tựđộng (cố van Robo), tiền điện tử, các dịch vụ khác hỗ trợ hoạt động ngân hàng (ví dụ:cham điểm tín dụng, tiết kiệm và huy động vốn cộng đồng), doanh nghiệp cho vay trựctuyến và nền tảng huy động vốn từ cộng đồng
1.3 Lịch sử ra đời và phát triển của Fintech
Trang 12Ban đầu thuật ngữ này chỉ được dùng khi nói về hệ thống xử lí dữ liệu BACK_END
thiết lập mạng lưới người tiêu dùng của các tổ chức tài chính thương mại Tuy nhiên,
kể từ năm 2010, thuật ngữ Fintech đã được mở rộng dé nói về bat kỳ đối mới công nghệ
nào trong lĩnh vực tài chính bao gồm các cải tiễn về tài chính, giáo dục ngân hàng, bán
lẻ đầu tư thậm chí là cả về lĩnh vực tiền điện tử như Bitcoin Từ sự bùng nỗ của cuộccách mang internet và nền tảng di động ngành công nghệ tài chính đã bùng nô Fintechvốn ban đầu chỉ áp dụng cho các ứng dụng văn phòng của các ngân hàng hoặc các công
ty thương mai nay đã lấn sang các lĩnh vực tài chính và hướng đến người dùng phổ
thông.
Theo chỉ số phân tích, có đến 1/3 người sử dụng ít nhất hai hoặc nhiều dịch vụ
Fintech.và những người tiêu dùng này ngày càng nhận thức được fintech là một phần
quan trọng trong cuộc sống hằng ngày
Các công ty Fintech được chia làm 2 nhóm:
e Nhom công ty phục vụ người tiêu dùng, cung cấp các công cụ kỹ thuật số dé cải
thiện cách cá nhân vay mượn quản lý tiền bạc, tài trợ vốn cho các start up
e Nhóm các công ty thuộc dang Back_office hỗ trợ công nghệ cho các định chế
tài chính.
Eintech có thé được cho là có thé tái định hình tài chính, tác động rất mạnh đến cácthành phần quan trọng nhất của ngành này Theo dự đoán của Morgan Stanley, khối
lượng các khoản vay trực tuyến ở Mỹ sẽ chạm mốc 120 tỷ USD vào cuối thập kỷ này
so với con số khiêm tốn là 20 triệu USD của năm 2015 Ở lĩnh vực quản ý đầu tư thìnhững ông lớn như Black Rock có dịch vu Robo tư van và sử dụng các thuật toán dé
tự động điều chỉnh danh mục đầu tư tương ứng với mức độ chấp nhận rủi ro của khách
hàng thậm chí một s6 các động cơ đang sử dụng trí thông minh nhân tạo dé giao dich
Trang 13BO AN TOT NGHIEP
thậm chi là ngân hàng trung ương Anh cũng dang thử nghiệm sử dụng các loại tiền ảo
để thay thế cho các phương thức chuyên tiền và tài sản truyền thống
Tuy nhiên khi Fintech phát triển thì sự thuận lợi của nó sẽ có thé khiến cho một sốngười tham gia một số dịch vụ mà thực sự không hiểu về nó và những người lo ngại làFintech sẽ thay thế cho các ngân hàng vật lý truyền thống, khi đó thì những gia đình có
thu nhập thấp và ít kiến thức sẽ không có điều kiện dé tiếp xúc với các dịch vụ ngân
hàng.
14 Anh hưởng của Fintech doi với Việt Nam
Việt nam những năm trở lại đây đang chứng kiến sự phát triển mạnh mẽ của fintech
Số lượng các công ty Fintech tham gia cung ứng các dịch vu thị trường Việt Nam đãtăng lên 2 lần.Từ con số 40 công ty vào cuối năm 2016 đã tăng lên tới gần 100 công ty
ở thời điểm hiện tại trải rộng trong nhiều lĩnh vực khác nhau
Không chỉ những công ty start up Fintech mới vào cuộc mà những ngân hàng thươngmai đã và đang dần chuyền đổi vận hành hệ thống ngân hàng số trên nền tảng công nghệhiện đại như là ngân hàng BIDV, Vietinbank, VP Bank hay là TP Bank đáp ứng phục
vụ khách hàng nhanh chóng và thông suốt Vượt qua Thương mại điện tử và nhiềungành khác, công nghệ Fintech là lĩnh vực dẫn đầu trong những ngành khởi nghiệp hútvốn đầu tư trong năm 2018
L5 Những doanh nghiệp Fintech hàng dau Việt Nam
1.5.1 Momo:
Momo được thành lap năm 2007, ví điện tử Momo là ứng dung vi điện tử trênđiện thoại thông minh được xây dựng và phát triển bởi một công ty tại Việt Nam có
tên là công ty cô phần di động trực tuyến (M_Sevice) Day là một công ty chuyên hoạt
động trong lĩnh vực Fintech và được thành lập va điều hành bởi ông Phạm Thành Đức.Momo cho phép người dùng thanh toán trực tuyến (online payment), thực hiện chuyểntiền ngang hang mua các ứng dụng trò chơi, nạp tén cũng như thanh toán các hoá đơntiện ích Momo hiện hỗ trợ thanh toán cho gần 100 nhà cung cấp dịch vụ và doanh
Trang 14BO AN TOT NGHIEP
nghiệp trực tuyến được tích hợp với 24 ngân hang trong nước cũng như các loại thanhtoán quốc tế bao gồm VISA, MASTER_CARD, JCB
Hình 1.1, Giao điện ứng dụng của Momo
MoMo đã có mặt trên 2 hệ điều hành iOS và Android với hơn 23 triệu người tin và
sử dụng Momo cung cấp cho khách hàng trải nghiệm thanh toán chỉ với một chạm (OneTouch Payment) với hơn hàng trăm các tiện ích dịch vụ như: Chuyên tiền, Thanh toánhóa đơn, Mua vé xe lửa, Mua vé máy bay, Vé xem phim, Thu-Chi hộ và Thương mại
trên di động Hiện tai Momo còn tích hợp thêm các dịch vụ thanh toán trực tuyến chocác app giao đồ ăn, giao hàng và thậm chí là thu học phí online
=> Có thé nói Momo là một trong những công ty khởi nghiệp Fintech hang đầu Việt
Nam.
Trang 15BO AN TOT NGHIỆP
1.5.2 Finhay
Finhay là 1 trong 50 công ty mới nỗi lọt vào danh sách 100 công ty công nghệ tàichính hàng đầu thế giới Năm 2019, ứng dụng giúp tối ưu hoá vốn nhàn rỗi bằng cáchlập các danh mục đầu tư bao gồm các chứng chỉ quỹ của quỹ đầu tư tại Việt Nam tùy
theo khẩu vị rủi ro của mỗi khách hàng Tại thời điểm tháng 10 năm 2019, Finhay đã
cán mốc 200,000 người dùng
Robot advisor đã có thé thay thế những người tư vấn truyền thống và ứng dụngcông nghệ Big-Data vào đề tư van cho các nhà đầu tư nhỏ lẻ dé họ biết phân bồ tiền của
họ vào đâu dé có được sô tiên tôi ưu hơn.
at) Viettol & 23:01 ® T 339/5
©
Khêng ky hon Ngân hàng
Kỹ hạn Không ky han Không ky han
Lãi 4.0% /nôm Dưới 1.0%/nam
Kỹ trẻ lại Hang thang Hang tháng
Rang buộc Rút bất cứ khi noo Rut bết cứ khi noo
Finhay là ứng dụng huấn luyén
tải Shin áo bo 5 i i al
Trang 16BO AN TOT NGHIEP
CHUONG II CAC PHUONG PHAP THONG KE
Trong thé giới phát triển ngày nay, thống kê dang đóng một vai trò vô cùng quantrọng trong lĩnh vực nghiên cứu, thu thập, phân tích và trình bày dữ liệu dưới dạng cóthể đo lường được Phương pháp thống kê bao gồm các phương pháp dự báo được kết
hợp cùng với lý thuyết Thống kê được chia ra làm 2 lĩnh vực: thống kê mô tả và
thống kê suy luận Do vậy, mỗi lĩnh vực có riêng một chức năng của nó, kết hợp 2
chức năng của 2 lĩnh vực này ta sẽ được chức năng của thống kê
2.1 Phương pháp thong kê mô tả
Mục tiêu:
e Tổ chức và tóm tắt số liệu một cách hiệu quả
e Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu (số
liệu trung bình, trung vi, số trội, và ý nghĩa của nó)
e Tính toán sự biến động của số liệu (khoảng giao động, phương sai, độ lệch
chuân) và ý nghĩa của chúng.
Thống kê mô tả cung cấp các chỉ số cơ bản của biến số với đữ liệu của mẫu nghiêncứu Hau hết các nghiên cứu định lượng đều cần cung cấp các chỉ số thống kê mô tả dégiúp người đọc hiểu về dữ liệu sử dụng Các chỉ số và cách trình bày có thể khác nhau
với biến định lượng và biến định danh Đối với các biến có giá trị liên tục (biến định
lượng) Các nhà nghiên cứu thường cung cấp các chỉ số như giá trị trung bình, giá trịlớn nhất, giá trị nhỏ nhất và độ lêch chuẩn của biến Trong một số trường hợp thì cầnthêm giá trị trung vị Đối với các biến định danh Các nhà nghiên cứu thường cung cấp
các chỉ sô như tân suat, tỷ lệ phân trăm trong tông sô, giá tri trung vi, giá tri yÊu Vi.
Thống kê mô tả được sử dụng dé mô tả những đặc tính cơ bản của dữ liệu thu thập
được từ nghiên cứu thực nghiệm qua các cách thức khác nhau Cùng với phân tích đồhọa đơn giản, chúng tạo ra nên tảng của mọi phân tích định lượng về số liệu Dé hiểu
được các hiện tượng và ra quyết định đúng đắn, cần năm được các phương pháp cơ bảncủa mô tả dữ liệu Có rất nhiều kỹ thuật hay được sử dụng Có thé phân loại các kỹ thuật
này như sau:
Trang 17BO AN TOT NGHIEP
e Biểu diễn dit liệu bang đồ họa trong đó các đồ thi mô ta dữ liệu hoặc giúp so
sánh dir liệu;
e Biểu diễn dit liệu thành các bảng số liệu tóm tắt về dit liệu;
e Thống kê tóm tắt (dưới dạng các giá trị thống kê đơn nhất) mô ta dit liệu
2.1.1 Độ lệch chuẩn thống kê
Độ lệch chuân là một con sô mô tả mức độ trải rộng của các quan sát Một hàm
toán học sẽ gặp khó khăn trong việc dự đoán các giá trị chính xác, nêu các quan sát
được "dàn trải" Độ lệch chuẩn là một thước đo của độ không đảm bảo
* D6 lệch chuẩn thấp có nghĩa là hầu hết các con số đều gần với giá trị trung
xi là giá trị của điểm i trong tập dit liệu
X là giá trị của tập dữ liệu
n là tổng số quan sát trong tập dữ liệuGiá trị x trung bình được tính bang cách tông tất ca các quan sát va chia cho số
quan sát.
Trang 18BO AN TOT NGHIEP
Phương sai cho mỗi điểm dit liệu được tính bang cách trừ giá trị của quan sát với
giá trị trung bình Kết quả sau đó được bình phương và được chia cho số quan sát trừmột Căn bậc hai của phương sai dé tìm độ lệch chuẩn
2.1.2 Phương sai thong kê
Phương sai là một con số khác cho biết mức độ dàn trải của các giá trị Trên thực
tế, nếu bạn lay căn bậc hai cua phương sai, ban sẽ có được độ lệch chuẩn Hoặc ngượclại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai Trước tiên,
chúng ta sẽ sử dụng tập dữ liệu với 10 quan sát dé đưa ra ví dụ về cách chúng tôi có
thé tính toán phương sai:
Khoảng thời gian Average Pulse Max Pulse Calorie Burnage Hours Work Hours Sleep
Phương sai thường được biểu thị bằng ký hiệu Hình vuông Sigma: ø ^ 2
> Chúng ta muốn tìm phương sai của Average_Pulse
Bước 1: Tim giá trị trung bình:
(80+85+90+95+100+105+110+115+120+125)/ 10 = 102.5
Giá trị trung bình là 102,5
Bước 2: Đối với mỗi giá trị, tìm sự khác biệt so với giá trị trung bình
Trang 19-22.5 -17.5 -12.5
-2.5 2.5 7.5 12.5 17.5 22.5
WoW wn own tn own
22.5^2 =
306.25 586.25
Bước 4: Phương sai là số trung bình của các giá trị bình phương này
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Phương sai là 206,25.
2.1.3 Phân trăm thống kê
Phần trăm được sử dụng trong thống kê để cung cấp cho bạn một số mô tả giá trị
mà một phần trăm nhất định của các giá trị thấp hơn
Trang 20Chúng ta giải thích nó băng một số vi dụ, sử dụng Average Pulse.
« Phan trăm 25% của Average Pulse có nghĩa là 25% của tat cả các buổi tập có
nhịp đập trung bình là 100 nhịp mỗi phút hoặc thấp hơn Nếu chúng ta lật lại
câu lệnh, điều đó có nghĩa là 75% tat cả các buổi tập có nhịp đập trung bình là
100 nhịp mỗi phút hoặc cao hơn
« 75% phan trăm của Average Pulse có nghĩa là 75% của tat cả các budi dao tạo
có xung trung bình là 111 hoặc thấp hơn Nếu chúng ta lật lại báo cáo, điều đó
có nghĩa là 25% trong số tất cả các budi tập có nhịp đập trung bình là 111 nhịp
mỗi phút hoặc cao hơn
Ví dụ: Tìm phân vị 10% cho Max_Pulse
Trang 21BO AN TOT NGHIEP
e Max_Pulse = health_data ["Max_Pulse"] - Tach bién Max Pulse khỏi tap dtr
liệu sức khỏe day đủ
« _ np.percentile() được sử dụng dé xác định rang chúng tôi muốn phân vị 10% từ
Max_ Pulse.
=> Phần trăm 10% của Max_Pulse là 120 Điều này có nghĩa là 10% của tất cả
các buổi đào tạo có Max_Pulse là 120 hoặc thấp hơn
2.1.4 Tương quan thống kê
Tương quan đo lường mối quan hệ giữa hai biến Chúng ta đề cập rằng một hàm
có mục dich dé dự đoán một giá trị, bang cách chuyền đổi đầu vào (x) thành dau ra (f(x)) Chúng ta cũng có thê nói rằng một hàm sử dụng mối quan hệ giữa hai biến để dự
đoán.
Hệ số tương quan không bao giờ được nhỏ hơn -1 hoặc cao hơn 1
e1 =có một mối quan hệ tuyến tính hoàn hảo giữa các biến (như
Average Pulse so với Calorie_Burnage)e0 = không có mối quan hệ tuyến tính giữa các biến
e -1 = có một mối quan hệ tuyến tính phủ định hoàn hảo giữa các biến
2.2 Phương pháp thống kê suy luận (Dự đoán)
Thống kê suy luận có thê được đối chiếu với thống kê mô tả Thống kê mô tả chỉ
quan tâm đến các thuộc tính của dữ liệu được quan sát và nó không dựa trên giả định
rằng đữ liệu đến từ một tập hợp lớn hơn Trong học máy, thuật ngữ suy luận đôi khiđược sử dụng thay thé dé có nghĩa là "đưa ra dự đoán, bang cách đánh giá một môhình đã được dao tao", trong ngữ cảnh này, các thuộc tính suy luận của mô hình đượcgọi là đào tạo hoặc học tập (thay vì suy luận), và sử dụng mô hình dé dự đoán được
gọi là suy luận (thay vì dự đoán)
2.2.1 Mô hình héi quy tuyến tính
2.2.1.1 Tổng quan về mô hình hồi quy tuyến tinh
Trang 22BO AN TOT NGHIEP
Động lực học phi tuyến đóng một vai trò quan trọng trong thé giới của chúng ta Môhình tuyến tính thường được sử dụng trong lĩnh vực kinh tế do tính đơn giản của chúng
cho các nghiên cứu và mô hình hóa dễ dàng hơn Trong tài chính, các mô hình tuyến
tính được sử dụng rộng rãi để giúp định giá chứng khoán và thực hiện phân bổ danh
mục đầu tư tối ưu, trong số những việc hữu ích khác Một trong tầm quan trọng của tính
tuyến tính trong mô hình tài chính là sự đảm bảo của nó rang một van dé cham dứt ởmột giải pháp tôi ưu toan câu.
Đề thực hiện dự đoán và dự báo, phân tích hồi quy được sử dụng rộng rãi trong lĩnh
vực thống kê để ước tính mối quan hệ giữa các biến Với một thư viện toán học là mộttrong những sức mạnh lớn nhất của Python (Python thường được sử dụng như một ngônngữ viết kịch bản khoa học dé hỗ trợ trong những van đề này) Các mô-đun như các góiSciPy và NumPy chứa nhiều hàm hồi quy tuyến tính cho dữ liệu các nhà khoa học dé
làm việc cùng.
Trong quan lý danh mục đầu tư truyền thống, việc phân bồ tài sản tuân theo một môhình tuyến tính và các nhà đầu tư có phong cách đầu tư riêng Chúng tôi có thể nêu vấn
dé của phân bé danh mục đầu tư vào một hệ phương trình tuyến tính, chứa các giá tri
bằng nhau hoặc bat bình đăng Các hệ thống tuyến tính này sau đó có thé được biểu
diễn dưới dạng ma trận dưới dạng:
Ax=b
Trong đó:
A là giá trị hệ số đã biết của chúng ta
B là kết quả quan sát được
x là vecto.
Hon nữa, x chứa trọng lượng bảo mật tối ưu dé tối đa hóa tiện ích của chúng ta Sửdụng đại số ma trận, chúng ta có thể giải cho x băng phương pháp trực tiếp hoặc giántiếp
Trang 23BO AN TOT NGHIEP
2.2.1.2 Mô hình định giá tai sản vẫn va dòng sản phẩm bảo mật(CAMP)
Trong CAPM nổi tiếng, mối quan hệ giữa rủi ro và tỷ lệ lợi nhuận trong một chứngkhoán được mô tả như sau:
Rị = Rr + Bi(Rmxt — Rp)
R,: Lợi nhuận kì vọng.
Rr: lợi nhuận phi rủi ro.
Rinke — Re: bù đắp rủi ro dựa trên rủi ro của toàn hệ thống
B;: hệ sô đo lường mức độ biên động lợi nhuận.
Đôi với một bao mật i, lợi nhuận của nó được định nghĩa là R; và beta của nó là
B; CAPM xác định lợi nhuận của chứng khoán bằng tông của lãi suất phi rủi ro Rf vànhân của bản beta của nó với phân bù rủi ro Phân bù rủi ro có thê được coi là thị
trường lợi nhuận vượt mức của danh mục đâu tư không bao gôm lãi suât phi rủi ro.
Hình sau là một biéu diễn trực quan của CAPM:
Capital Market Line
Ri Rmit4
Trang 24BO AN TOT NGHIEP
Vệ hệ sô Beta: Hệ sô Beta là hệ sô đo lường mức độ biên động lợi nhuận cô phiêuriêng biệt so với mức độ biến động lợi nhuận danh mục đầu tư thị trường
e Nếu B; =1, khi nền kinh tế tốt hay xấu thì tốc độ tăng giảm Lợi Nhuận của cô
phiếu riêng biệt bằng với tốc độ tăng giảm Lợi Nhuận thị trường
e Nếu Ø;=0.5, khi nền kinh tế tốt thì Lợi Nhuận cô phiếu riêng biệt tăng chậm
hơn (=1/2) Lợi Nhuận thị trường nhưng khi nền kinh tế xấu thì Lợi Nhuận cổphiếu riêng biệt giảm chậm hơn Lợi Nhuận thị trường
e Nếu Ø;=2, khi nền kinh tế tốt thì Lợi Nhuận cô phiếu riêng biệt tăng nhanh hơn
(2 lần) Lợi Nhuận thị trường nhưng khi nền kinh tế xấu thì Lợi Nhuận cô phiếuriêng biệt giảm nhanh hơn Lợi Nhuận thị trường.
Beta là thước đo rủi ro hệ thống của cổ phiếu, một rủi ro không thể đa dạng hóa
Về bản chất, nó mô ta độ nhạy của lợi tức cổ phiếu liên quan đến diễn biến trên thị
trường Ví dụ:
e Một cô phiếu có beta bằng 0 không tạo ra lợi nhuận vượt quá bat kế hướng thị
trường di chuyên nó chỉ có thé phát triển ở lãi suất phi rủi ro
© Cổ phiếu có hệ số beta là 1 cho biết rang cô phiếu đó di chuyên hoàn hảo với
thị trường.
Beta được tính toán bằng cách chia hiệp phương sai của lợi nhuận giữa cổ phiếu
và thị trường với phương sai của thị trường trả về
Mô hình CAPM do lường mối quan hệ giữa rủi ro và lợi nhuận cổ phiếu đối với
moi cô phiếu trong rô danh mục đầu tư Bằng cách phác thảo tổng thé của mối quan
hệ này, chúng ta có được sự kết hợp hoặc trọng lượng của các chứng khoán rủi ro tạo
ra mức thấp nhất rủi ro danh mục đầu tư đối với mọi mức sinh lời của danh mục đầu
tư Một nha đầu tư mong muốn nhận được một lợi tức cụ thể sẽ sở hữu một sự kết hợp
như vậy của một danh mục đầu tư tối ưu cung cấp ít rủi ro nhất có thể Sự kết hợp củacác danh mục đầu tư tối ưu nằm doc theo dong được gọi là biên giới hiệu qua
(efficient frontier).
Trang 25BO AN TOT NGHIEP
Doc theo biên giới hiệu quả, tồn tại một điểm tiếp tuyến biểu thị điều tốt nhất
danh mục đầu tư tối ưu có sẵn mang lại tỷ suất sinh lợi cao nhất dé đôi lây TỦI ro thấpnhất có thé Danh mục đầu tư tối ưu tại điểm tiếp tuyến này được gọi là danh mục thị
trường.
Tén tai một đường thắng được vẽ từ danh mục đầu tư thị trường đến lãi suất ph
rủi ro Đường này được gọi là đường thị trường vốn (CML) CML có thể được coi là
tỷ lệ Sharpe cao nhất hiện có trong số tất cả các tỷ lệ Sharpe khác của danh mục đầu
tư tối ưu Ty lệ Sharpe là một thước đo hiệu suất được điều chỉnh theo rủi ro được
định nghĩa là danh mục đầu tư lợi nhuận vượt quá lãi suất phi rủi ro trên một don vi
rủi ro của nó theo độ lệch chuẩn Các nhà đầu tư đặc biệt quan tâm đến việc nắm giữcác tô hợp tài sản cùng đường CML Chúng ta hãy nhìn vào hình đồ họa sau:
Capital Market Line Efficient Frontier Market Portfolio
Re
* Standard Deviation (ơ]
Hình 2.2 Đường thị trường von CML
Một dòng quan tâm khác trong các nghiên cứu CAPM là dòng thị trường chứngkhoán (SML) SML vẽ biểu đồ lợi nhuận kỳ vọng của tài sản so với phiên bản beta
của nó Đối với bảo mật có giá tri beta của 1, lợi nhuận của nó hoàn toàn phù hợp vớilợi nhuận của thị trường Bất kỳ bảo mật nào có giá cao hơn SML được coi là đang
được định giá thấp vì các nhà đầu tư mong đợi lợi nhuận cao hơn do cùng một lượng
rủi ro Ngược lai, bat kỳ bảo mật nao có giá đưới SML đều được coi là được định giáquá cao:
Trang 26Hình 2.3 Biểu đô lợi nhuận kỳ vọng
Giả sử chúng ta quan tâm đến việc tìm beta B; của một chứng khoán Chúng ta
có thê hôi quy cô phiêu của công ty tra lại 7; so với lợi nhuận cua thi trường 7 cùng
Sử dụng mô-đun thống kê của SeiPy, chúng ta sẽ thực hiện hồi quy bình
phương nhỏ nhất trên mô hình CAPM và lay các giá trị của @ và B; bằng cách chạy
đoạn mã sau bằng Python:
Trang 27BO AN TOT NGHIEP
In [1]: |""" Linear regression with SciPy
from scipy import stats stock_returns = [@.@65, @.0265, -@.@593, -@.001, 8.8346]
rong về độ dốc bằng 0 và sai số chuẩn của ước tính Chúng ta quan tâm đến việc tìm
độ dốc và giao điểm của đường thang => Beta của cổ phiếu là 0,5077
Phương trình mô tả SML có thể được viết như sau:
EŒ,) = Ry + Bi[E(Rm) — Ry]
E(Rm) — Rp : Phan rủi ro của thị trườngE(R,,) : Lợi suất kì vọng của chứng khoán i
Rg: Lãi suất phi rủi ro
E(R;,): Lợi suất kì vọng của thị trường
B,: Phan bù rủi ro của chứng khoán i
Giả sử lãi suất phi rủi ro là 5 phan trăm và phan bù rủi ro thị trường là 8,5 phan
trăm Lợi tức kỳ vọng của cô phiêu là bao nhiêu?
Dựa trên CAPM, vốn chủ sở hữu với một phiên bản beta 0,5077 sẽ có phần bù rủi
ro là 0,5077 x 8,5%, hay 4,3% Không rủi ro tỷ lệ là 5 phần trăm, do đó, lợi nhuận kỳvọng trên vôn chủ sở hữu là 9,3 phân trăm.
Nếu bảo mật được quan sát trong cùng một khoảng thời gian dé có lợi nhuận cao
Trang 28BO AN TOT NGHIEP
định giá thấp hơn, vì nhà đầu tư có thể mong đợi lợi nhuận lớn hơn với cùng một sỐ
tiền rủi ro
Ngược lại, lợi nhuận của chứng khoán có được quan sát dé có lợi tức thấp hơn
không (ví dụ: 7 phần trăm) so với lợi nhuận dự kiến như được ngụ ý bởi SML, bao
mật có thê nói là định giá quá cao Nhà đầu tư nhận được ít lợi nhuận hơn nếu giả sửcùng một lượng rủi ro.
2.2.1.3 Mô hình lý thuyết định giá kinh doanh chênh lệch giác (APT)
CAPM gặp phải một số hạn chế, chang hạn như việc sử dụng phương sai trung bìnhkhuôn khổ và thực tế là lợi nhuận được nắm bat bởi một yếu tổ rủi ro - hệ số rủi ro thịtrường Trong một danh mục dau tu đa dang, rủi ro phi hệ thống của các cô phiếu khácnhau sẽ hủy bỏ ra ngoài và về cơ bản là loại bỏ.
Mô hình Lý thuyết định giá qua kinh doanh chênh lệch giá (APT) đã được đưa ra
dé giải quyết những thiếu sót và đưa ra một cách tiếp cận chung dé xác định giá tài sản
khác so với giá tri trung bình và phương sai.
Mô hình APT giả định rằng lợi nhuận bảo mật được tạo ra theo các mô hình nhiềuyếu tố, bao gồm sự kết hợp tuyến tính của một số Các yếu tổ rủi ro Các yếu tô đó có
thể là tỷ lệ lạm phát, tốc độ tăng trưởng GDP, lãi suất tỉ lệ thực tế hoặc cổ tức
Phương trình định giá cân bằng tài sản theo mô hình APT như sau:
ELR,] = ai + B¿AFt + Bi2F2 + + BijF;
Với:
e E[R,| : là tỷ lệ lợi nhuận kỳ vọng trên chứng khoán i.
e a;: là lợi nhuận kỳ vọng i nếu các yếu tố không đáng ké
e Bj: Độ nhạy của tài san thứ i đối với yếu tố thứ j
e F;: là giá trị của yếu tô thứ j ảnh hưởng đến tỉ suất sinh lời nhuận của cô
phiếu thứ i
Trang 29BO AN TOT NGHIEP
Vi mục tiêu của chúng ta là tim tat cả các giá tri của a; và B, chúng ta sẽ thực
hiện một tuyến tính đa biến hồi quy trên mô hình APT
2.2.1.4 Mô hình tuyến tinh da biến của các mô hình nhân tô
Nhiều gói Python như SciPy đi kèm với một số biến thé của hồi quy chức năng
Đặc biệt, gói mô hình thống kê là một bổ sung cho SciPy với thống kê mô tả và ướclượng mô hình thống kê
Trong ví dụ này, chúng ta sẽ sử dụng hàm ols của mô-đun statsmodels dé thực
hiện hồi quy bình phương nhỏ nhất thông thường và xem tóm tắt của nó
e Giả sử rằng bạn đã triển khai mô hình APT với bảy yếu tổ trả về các giá tri
của Y Hãy xem xét tập hợp dữ liệu sau được thu thập trong 9 thời gian cáckhoảng thời gian, tl đến t9 X1 đến X7 là các biến độc lập được quan sát tạimỗi thời kỳ Do đó các vấn đề hồi quy được cau trúc như:
Y = Xiiky + Xi2Fo ie Xi7Fy + C
Có thé thực hiện một hồi quy bình phương nhỏ nhất thông thường đơn giản
trên các giá trị của X và Y với mã sau:
In [1]: |""" Least squares regression with statsmodels """
import numpy as np import statsmodels.api as sm
# Generate some sample data num_periods = 9
all_values = np.array([np.random random(8}
# Filter the data y_values = all values[:, @] # First column values as Y xvalues = all values[:, 1:] # ALL other values as X x_values = sm.add_constant(x_values) # Include the intercept results = sm.OLS(y_values, x_values).fit()
# Regress and fit the model
In [2]: #Let's view the detailed statistics of the regression:
Trang 30BO AN TOT NGHIEP
OLS Regression Results
Dep Variable: y R-squared: 0.863
Model: OLS Adj R-squared: -8.098 Method: Least Squares F-statistic: 0.8982
Date: Sat, 27 Nov 2821 Prob (F-statistic): 0.674
Time: 13:39:37 Log-Likelihood: 5.6398
No Observations: 9 AIC: 4.728
Df Residuals: 1 BIC: 6.298
Df Model: 7 Covariance Type: nonrobust
Kurtosis: 1.715 Cond No 52.0
Hình 2.4 Kết quả thống kê chỉ tiết của hồi quy
Tương tự, chúng ta có thé sử dụng hàm params dé hién thi các hệ số quantâm của chúng ta:
In [3]: print (results.params)
[ 2.93918629 -1.84233383 -@.96689911 -@.724997@5 -2.@7974878 1.29095302 -@.5090974 6.24347854]
= Cả hai lệnh gọi ham đều tạo ra các giá trị hệ số giống nhau cho mô hình APT
trong cùng một thứ tự.
2.2.1.5 Tối ưu hóa tuyến tính
Trong lý thuyết định giá CAPM và APT, chúng ta đã giả định tính tuyến tính
trong các mô hình và được giải quyết cho giá bảo mật dự kiến băng cách sử dụng
hỗồi quy trong Python Khi số lượng chứng khoán trong danh mục đầu tư tăng lên,
một số hạn chế nhất định là xuất hiện Một nhà quản lý danh mục đầu tư sẽ thay
mình bị hạn chế bởi những quy tắc trong việc thực hiện các mục tiêu nhất định donhà đầu tư ủy quyền
Trang 31BO AN TOT NGHIEP
Việc tối ưu hóa tuyến tính giúp ta khắc phục được van dé phân bổ danh mục dau
tư Tối ưu hóa tập trung vào việc giảm thiêu hoặc tối đa hóa giá trị chức năng của
mục tiêu Các ví dụ là tối đa hóa lợi nhuận và giảm thiểu biến động Các mục tiêu
này thường được điều chỉnh bởi các quy định nhất định, chăng hạn như không có
quy tắc bán khống (một cách kiếm lợi nhuận từ sự tụt giảm giá của một loại chứng
khoán như cô phiếu hay trái phiếu), giới hạn về số lượng chứng khoán dau tu,
V.V
Thật không may, trong Python không có gói chính thức duy nhất hỗ trợ giải phápnày Tuy nhiên, có các gói của bên thứ ba với việc triển khai thuật toán simplex cholập trình tuyến tính Với mục đích của cuộc trình diễn này, chúng ta sẽ sử dụng
PuLP, một trình mô hình lập trình tuyến tính mã nguồn mở, dé hỗ trợ chúng ta
trong việc này van đề lập trình tuyến tính cụ thé
2.2.1.6 Một bài toán toi ưu hóa tuyến tính đơn giản
Giả sử rằng chúng ta quan tâm đến việc đầu tư vào hai chứng khoán X và Y
Chúng ta muốn tìm ra số đơn vị thực tế cần đầu tư cho mỗi 3 đơn vị bảo mật X và 2đơn vi bảo mật Y, sao cho tổng số đơn vị được đầu tư là tối đa, trong đó khả thi
Tuy nhiên, có một sô hạn chê nhât định đôi với chiên lược đâu tư của chúng ta:
e_ Cứ 2 đơn vị bảo mật X được đầu tư và 1 đơn vị bảo mật Y được đầu tu, tổng
khối lượng không được vượt quá 100
¢ Đối với mỗi đơn vị chứng khoán X và Y được dau tư, tổng khối lượng không
được vượt quá 80.
e Tổng khối lượng được phép đầu tư vào chứng khoán X không được vượt quá
40.
e_ Không được phép bán khống đối với cả hai loại chứng khoán
Bài toán tối đa hóa có thé được biểu diễn băng toán học như sau:
Tối đa hóa: f(x,y) = 3x + 2y
Điêu kiện:
Trang 32Bằng cách vẽ các ràng buộc trên đồ thị x y, tập hợp các giải pháp khả thi
được hiên thi trong khu vực màu xám được tô đậm:
— 2x+y<=100 x+y<=80
x<=40
Hình 2.5 Đồ thi quan hệ giữa X va Y
Van đề có thé được chuyên sang Python với gói PuLP:
In [22]: ””" A simple linear optimization problem with 2 variables """
import pulp
x = pulp.LpVariable("x", lowBound=@)
y = pulp.LpVariable("y", lowBound=0) problem = pulp.LpProblem("A simple maximization objective", pulp LpMaximize)
problem += 3*x + 2*y, “The objective function"
problem += 2*x + y <= 10@, “1st constraint”
problem += x + y <= 80, “2nd constraint"
problem += x <= 48, "3rd constraint”
Trang 33BO AN TOT NGHIEP
Hàm LpVariable() xác định một biến cần giải quyết
Hàm LpProblem() khởi tạo van đê với mô tả văn bản về vân dé và loại tôi ưuhóa, trong trường hợp này là phương pháp tối đa hóa
Phép toán + = cho phép thêm một số ràng buộc tùy ý, cùng với mô tả văn bản
Cuối cùng, ham solve() được gọi dé bat đầu thực hiện tối ưu hóa tuyến tính.
Mỗi giá trị biến được in dé hiển thị các giá trị mà trình tối ưu hóa đã giải quyết
cho chúng ta
In [39]: print ("Maximization Results:”)
for variable in problem.variables(x):
Kết qua cho thấy rằng có thé dat được giá trị lớn nhất là 180 khi gid trị của x là
20 và y là 60 trong khi đáp ứng tập hợp các ràng buộc đã cho.
2.2.2 Mô hình hồi quy Logistic
2.2.2.1 Tổng quan về Hoi quy Logistic
Logistic Regression là một phương pháp thống kê phân loại các đối tượng cógiám sát, thường được sử dung rất nhiều trong thống kê dé phân tích và dự đoán,
mở rộng sang các ứng dụng trong học máy Hồi quy logistic được ứng dụng rộng
rãi trong phân tích kinh tế nói chung và rủi ro trong tín dụng nói riêng Cụ thể hơn,
mô hình này giúp Ngân hàng xác định khả năng khách hàng sẽ có rủi ro tín dụng
(biến phụ thuộc) trên cơ sở sử dụng các nhân tố có ảnh hưởng đến khách hàng (biến
độc lập).
Thuật toán Hồi quy Logistic (Logistic Regression) là một thuật toán thuộcnhóm các thuật toán phân lớp Không giống như hồi quy tuyến tính, thuật toán Hồi
Trang 34BO AN TOT NGHIEP
ánh xa tới hai hoặc nhiêu lớp rời rac (chó, mèo, ) Nó được sử dụng trong phân
mêm thông kê đê hiêu môi quan hệ giữa biên phụ thuộc và một hoặc nhiêu biên độclập bằng cách ước tính xác suất sử dụng phương trình hồi quy logistic
Ứng dụng của logistic trong dự đoán tài chính: Dự báo phân loại email có phảispam hay không, dự báo khả năng rời dịch vụ của khách hàng, dự báo khả năng
khách hàng sẽ mua sản phẩm bắt kỳ, hay đăng ký dịch vụ, dự báo khả năng trả nợ
của khách hàng.
So sánh hồi quy tuyến tính và hồi quy Logistic:
e Hồi quy tuyến tính được sử dụng dé tạo ra các giá trị liên tục như giá nhà,
thu nhập, dân số, v.v Trong hồi quy logistic, chúng ta thường tính xác suấtnam giữa khoảng 0 và 1 (bao gồm cả hai) Sau đó, xác suất có thé được sửdụng đề phân loại dữ liệu Ví dụ: nếu xác suất được tính toán lớn hơn 0,5,
thì dữ liệu thuộc về lớp A và nếu không, nhỏ hơn 0,5, dữ liệu thuộc về lớp
B.
e©_ Dự đoán hồi quy Logistic là rời rac (chi cho phép các giá trị hoặc danh mục
cụ thé) Chúng ta cũng có thé xem điểm xác suất của các dự đoán
e Hồi quy logistic gần giống với hồi quy tuyến tính ngoại trừ cách chúng
được sử dụng Hồi quy tuyến tính được sử dụng dé giải các bài toán hồi
quy, trong khi hồi quy Logistic được sử dụng dé giải các bài toán phân loại
2.2.2.2 Cách hoạt động của Logistic Regression
Mô hình hồi quy logistic là một mô hình hồi quy mà trong đó:
Biến đầu vào, biến giải thích: là những biến phân loại hoặc định lượng được
mã hoá thành sô Dau ra: dau ra của mô hình là giá trị 0 hoặc 1.
Thay vì điều chỉnh một đường thăng hoặc siêu phăng như trong mô hình hồi
quy tuyến tính, mô hình hôi quy logistic sử dung ham logistic dé phản ánh đầu ra
của một phương trình tuyến tính giữa 0 và 1 Với hàm này, bạn có thể ánh xạ các
giá trị thực của các dự đoán thành xác suât.
Trang 35Trong hồi quy logistic y chỉ có thé nằm trong khoảng từ 0 đến 1, vi vay, chúng
ta hãy chia phương trình trên cho (1-y):
Ty 0 for y = 0,and infinity ƒor y = 1
Nhưng chúng ta cần phạm vi từ -[infinity] đến +[infinity], sau đó lấy logarit
của phương trình, nó sẽ trở thành:
Log | = bo + byx, + b2Xx2 + + b„Xn
Phương trình trên là phương trình cuối cùng cho hồi quy logistic
Thuật toán trên dùng ham sigmoid logistic dé đưa ra đánh giá theo xác suất
Trang 36BO AN TOT NGHIEP
Sigmoid Function
2.2.2.3 Triển khai thuật toán Logistic Regression với bài toán ví dụ
Đề hiểu cách triển khai Logistic Regression trong Python, chúng ta sẽ sử dụng
ví dụ dưới đây:
Một ngân hàng có chương trình cho vay ưu đãi cho các đối tượng mua nhà là
chung cư Gan đây có một số chung cư rất hap dan (vi trí đẹp, giá 6n ) nên lượng
hồ sơ người nộp cho chương trình ưu đãi tăng nhanh và nhiều Bình thường ta có
thé duyệt 10-20 hồ sơ một ngày dé quyết định xem những hồ sơ nào đủ điều kiện
vay hoặc không đủ điều kiện vay, vậy nhưng gần đây ngân hàng nhận được
1000-2000 hồ sơ mỗi ngày nên không thể xử lý hết hồ sơ và ngân hàng cần có một giải
pháp dé có thé dự đoán hé sơ mới là có nên cho vay hay không?
Sau khi phân tích thì ta thấy rằng 2 yếu tô chính quyết định đến việc được vaytiền là mức lương và kinh nghiệm làm việc của chủ hộ gia đình(Năm) Sau đây là
dữ liệu ngân hàng có từ trước đên nay:
Trang 37Về mặt logic, giờ chúng ta cần tìm đường thăng phân chia giữa các điểm cho
vay và từ choi và có thê dự đoán được các diém dữ liệu mới
3.0 e
-e
2.5 5 GÀ
Nw °kinh nghiệm (nam) " u
Từ đồ thị trên ta thấy dự đoán hồ sơ của người có mức lương 5 triệu với 0.5 năm
kinh nghiệm là không cho vay.
Giờ ta phải di tìm xác suất cho vay của một hồ sơ, là giá tri trong đoạn [0, 1] Ta
sử dụng ham sigmoid trong logistic regression
10
Cho vay
Vệ co bản thì chúng ta sé có các bước sau cho | bài toán Machine learning:
- _ Thiết lập mô hình
- Thiết lập hàm mất mát (Loss Function)
- Tim tham sô băng việc tôi ưu hàm mat mát
- Dự đoán dir liệu mới dựa vào ham mat mát vừa tìm được
Mô hình
Trang 38BO AN TOT NGHIEP
Ta sử dụng ham Sigmoid dé ánh xa dự đoán theo xác suất
Trong đó S(z) đầu ra là từ 0 đến I.(Ước tính xác suất)
Z: là giá tri đầu vào hàm( Thuật toán dự đoán, ví dụ mx+b)
e : là số e trong logarit tự nhiên
Goi xÍ là lương của hồ sơ thứ i
Gọi x4, là số năm kinh nghiệm làm việc của hồ sơ thứ i
p(x! = 1) =f, là xác suất mà mô hình dự đoán đủ điều kiện cho vay
p(x! = 0) = 1— Ø, là xác suất mà mô hình dự đoán không được vay
Trang 39BO AN TOT NGHIỆP
ˆ in (r)
Vị =Ol(wot wi ex, +w2*Xx ) in
= l+e (Mù #At| ty PDAs
Ham Loss Function
Giờ ta can 1 hàm dé đánh giá độ tốt của model (tức là độ dự đoán chính xác)
Nhận xét:
Nếu hồ sơ i được cho vay thì yi càng gần | nghĩa là mô hình dự đoán xác suấtcho hồ sơ 1 càng cao
Nếu hồ so i không được cho vay thi yi càng gần 0 nghĩa là mô hình dự đoán
xác xuất cho hỗ sơ i càng cao
Với mỗi điểm x! ta gọi làm loss function :
L=—(y; * logỚ,) + (1 — yi) * log — Ø,)
Trang 40Ham L tăng từ 0 đến 1 khi mô hình dự đoán gần y';=0( tức là giá tri dy đoán
gan với giá trị thật y,) thì L rất nhỏ Khi mô hình dự đoán gần =1 (tức là giá trị
dự đoán ngược lại với giá trị thật) thì L rất lớn => Hàm L cảng nhỏ thì mô hình
dự đoán cảng gần với giá trị thật Vậy dé xác suất dự đoán chính xác nhất thì Lphải min.
Tính đạo hàm bằng kỹ thuật Chain Rule