Tron g lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định (tiếng A nh: decis ion tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế
hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.
Tron g lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một s ự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đ ó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn th ành các tập con dựa theo một kiểm tra g iá trị thuộc tính. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một p hân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một s ố cây quyết định để có thể cải thiện tỉ lệ phân loại.
Cây quyết định cũng là một p hương tiện có tính mô tả dành cho việc tính toán các xác s uất có điều kiện.
Cây quyết định có thể được mô tả như là s ự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước. Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = (x1, x2, x3..., xk, y)
Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3 ... là các biến s ẽ giúp ta thực hiện công việc đó
3.3.2.1 Các ki u cây quy t đ nh
Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là s ố th ực thay vì được s ử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
Cây phân loại (Class ification tree), nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua).
3.3.2.2 Ví d th c hành
Ta s ẽ dùng một ví dụ để giải thích về cây quyết định:
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. A nh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến ch ơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ưu hóa s ố nhân viên phục vụ mỗi ng ày bằng cách dựa theo thông tin dự báo thời tiết để đ oán xe m khi nào người ta s ẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xe m có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (windy) hay không.
Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.
Sau đó, để giải quyết bài toán của David, người ta đ ã đưa ra một mô hình cây quyết định.
Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán. Đây là một đồ thị có hướng phi chu trình dưới dạng một cây. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu. Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc, play (chơi), là s ử dụng biến Outlook. Phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mưa.
Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf. Và có một số người ham mê đến mức ch ơi golf cả khi trời mưa.
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 70%.
Cuối cùng, ta chia nhóm trời mưa thàn h hai và thấy rằng khách hàng sẽ không ch ơi golf nếu trời nhiều gió.
Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại. David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió. Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi nhiều
người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc.
Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều.
3.3.2.3 Các công th c
Gini impurity
Dùng trong thuật toán CART (Class ification and Regression Trees). Nó dựa vào việc bình phương các xác s uất thành viên cho mỗi thể loại đ ích trong nút. Giá trị của n ó tiến đến cực tiểu (bằng 0) khi mọi trường hợp trong nút rơi vào một thể loại đích duy nhất.
Giả s ử y nhận các giá trị trong {1, 2, ..., m} và gọi f(i,j) là tần xuất củ a giá trị j trong nút i. Nghĩa là f(i,j) là tỷ lệ các bản ghi với y=j được xếp vào nhóm i.
Entropy
Dùng trong các thuật toán s inh cây ID3, C4.5 và C5.0. Số đo này dựa trên khái niệm entropy trong lý thuyết thông tin (information theo ry).
3.3.2.4 Ư u điểm của cây quyết định
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một s ố ưu điểm:
Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định s au khi được giải thích ngắn.
Việc chu ẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết. Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng.
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ
gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron ch ỉ có thể dùng cho các biến có giá trị bằng số.
Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể d ễ d àng giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được.
Có thể thẩm định một mô hình bằng các kiểm tra thống kê. Điều này làm cho ta có thể tin tưởng vào mô hình.
Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có thể dùng máy tính cá nhân để p hân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định.
3.3.2.5 M r ng cây quy t đ nh thành đ th quy t đ nh
Tron g cây quyết định, mọi đường đi từ nút gốc đến nút lá được tiến hành bằng các phép hội (A ND). T rong đồ thị quyết định, có thể dùng các phép tuy ển (OR) để kết nối ghép hai hay nhiều đường lại với nhau.
Phần bù của cây quyết định là phân tích hình thái học (Morphological Analys is).
3.3.3 Ph ân tích độ nhạy
3.3.3.1 Khái niệm:
Phân tích độ nhạy là phép tính hiện giá hoặc những thước đo về s inh lợi khi cho các yếu tố tác động thay đổi.
Phương pháp phân tích độ nhạy kiể m nghiệm mức độ nhạy bén của một phương án hiện giá thuần cụ thể nào đó, thay đổi như thế nào dưới một số tác động giả thiết như: doanh thu, chi phí s ản xuất, dòng tiền…
Phân tích độ nhạy là phân chia liên tục cho mỗi biến số một vài giá trị tương ứng với các giả thiết trong tình huống xấu, tốt hoặc trung bình. Sau đó, phân tích tác động của các thay đổi này đối với hàm mục tiêu. Nhân tố nào nhạy cảm nhiều đối với hàm mục tiêu từ đó đề ra giải pháp quản trị vào những yếu tố nhạy cảm đó.
Ví dụ, giả s ử một d ự án đầu tư thì bị ảnh hưởng bởi doanh số và g iá trị thu hồi. NPV s ẽ được tính toán lại tương ứn g với s ự kết hợp đa dạng trong biến đổi của doanh số và giá trị thanh lý.
3.3.3.2 Vì sao phải phân tích độ nhạy?
Để đ ánh giá tính vững mạnh về mặt tài chính hay kinh tế trong thẩm định dự án, ta phải ước tính ngân lưu dự án trong tương lai. Trong mô hình cơ s ở, ngân lưu dự án trong tương lai được ước tính dựa trên các giá trị kỳ vọng.
Các giá trị kỳ vọng này được tính toán bằng cách:
Dựa vào các s ố liệu trong quá khứ
Lượng hóa các yếu tố tác động đến giá trị trong tương lai
Vậy, các kết quả thẩm định trong mô hình cơ sở như NPV hay IRR đều là g iá trị kỳ vọng, trung vị hay yếu vị (giá trị có xác s uất xảy ra lớn nhất). Các giá trị kỳ vọng, trung vị và yếu vị này là những ước lượng tốt nhất cho tương lai theo quan điểm của nhà phân tích, nhưng không phải là những gì chắc chắn s ẽ xảy ra.
Một số biến có ảnh hưởng tới kết quả thẩm định (NPV và IRR) có thể có mức độ không chắc chắn cao. Do vậy, các kết quả thẩm định cũng mang tính không chắc chắn. Việc dự báo chính xác các thông số của dự án trong tương lai để có thể áp các giá trị duy nhất thường là bất khả thi hay nếu khả thi thì cũng vô cùng tốn kém.
3.3.3.3 Quy trì nh phân tíc h độ nhạy
Để đối phó với các yếu tố bất định, dự án được thẩm định theo cách:
Giả định mọi việc s ẽ xảy ra đúng như dự kiến (tức là thô ng số dự án sẽ
nhận các giá trị kỳ vọ ng)
Tiến hành phân tích độ nhạy và/hay rủi ro bằng cách đánh giá tác động
của những thay đổi về thông số dự án tới kết quả thẩm định
Dựa trên kết quả phân tích để điều chỉnh lại qu yết định thẩm định và đề
Tron g đó, phân tích độ nhạy là nhằm xác đ ịnh những thông số có ảnh hưởng đáng kể đến tính khả thi của dự án và lượng hóa mức độ ảnh hưởng này. Cách tiến hành phân tích độ nhạy là cho giá trị của một thông số dự án thay đổi và chạy lại mô hình thẩm định để xem NP V, IRR và các tiêu chí thẩm định thay đổi như thế nào.
Tăng hay giảm giá trị của thông số theo những tỷ lệ phần trăm nhất định (10%, 20%,…) s o với giá trị trong mô hình cơ s ở (thường thì chỉ xem xét thay đổi hướng làm cho dự án xấu đi), rồi xác định xem NP V/IRR thay đổi như thế nào.
Nhận xét xe m yếu tố nào tác động đáng kể đến NPV/IRR
Tính các giá trị hoán chuyển (giá trị của các thông s ố mà tại đó NP V = 0 hay IRR bằng chi phí s ử dụng vốn.
3.3.34 Minh họa bằ ng s ố liệu
Giả s ử ta cần xe m xét một dự án đầu tư có dòng tiền kỳ vọng như s au:
Tính dòng tiền 0 1 2 3 4 TS CĐ ($900) Vốn lưu động -100 (1) Doanh số 537 520 505 490 (2) Giá bán $10.00 $10.00 $10.00 $10.00 (3) Chi phí biến đổi đơ n
vị $5.09 $5.39 $5.23 $6.11
(4) Doanh thu = (1) x (2) $5,370 $5,200 $5,050 $4,900
(5) Chi phí biến đổi = (1) x (3) 2,734 2,803 2,640 2,992
(6) Chi phí hoạt độn g trừ khấu hao
2,000 2,000 2,000 2,000
(7) Khấu hao 225 225 225 225
(8) Tổn g chi phí hoạt động = (6)+(7) $4,959 $5,028 $4,865 $5,217
(8)
(10) Thuế TNDN 25% 103 43 46 -79
(11) Thu nhập sau thuế = (9)-(10) $308 $129 $139 ($238)
(12) Khấu hao 225 225 225 225
(13) Thu th anh lý 50
(14) Thuế thu thanh lý 12.5
(15) Thu hồi vốn lưu động 100
CF = (11)+(12)+(13)-(14)+(15) ($1,000) $533 $354 $364 $125 Khấu hao Năm 1 2 3 4 TSCĐ $900 Tỉ lệ KH 25% 25% 25% 25% Khấu hao $225 $225 $225 $225
Tiến hành tính NPV và IRR ta thu được kết quả
N PV $135.31
IRR 17.465%
Thời gia n h oàn vốn 2.31
Theo dự án này, nếu bất kỳ một yếu tố nào thay đổi thì s ẽ dẫn đến sự thay đổi của NPV. Giả định 2 trường hợp xảy ra là 1 yếu tố nào đó có thể tăng hoặc giảm tối đa 25% thì NP V s ẽ thay đổi theo chiều hướng tốt nếu yếu tố đó làm t ăng doanh thu, giảm chi phí; ngược lại NPV s ẽ giả m nếu yếu tố thay đổi làm giả m doan h thu hoặc tăng chi phí.
Xét các yếu tố thay đổi trong bảng sau
Yếu tố thay đổi
Tình huống cơ sở
Dòng tiền tình hu ống cơ sở Xấu nhất C ơ sở Tốt nhất WAC C 10.00%
TSCĐ 0% -$900 25% 0% -25%
Doanh số 0% 537 520 505 490 -25% 0% 25%
Giá bán 0% $10.00 -25% 0% 25%
Chi phí biến đổi đơn
vị 0% $5.092 $5.39 1 $5.22 8 $6.10 6 25% 0% -25% Chi phí hoạt động trừ khấu hao 0% $2,000 25% 0% -25% WA CC 0% 10% 25% 0% -25%
Khi cho từng yếu tố thay đổi, tính lại NPV ta thu được kết quả:
NPV Doanh số Giá C P biến đổi Đ V C P h oạt động C Đ TSC Đ WAC C 25% 1,539.8 3,195.4 (1,520.3) (1,053.4) (89.7) 86.6 0% 135.3 135.3 135.3 135.3 135.3 135.3 -25% (1,269.2) (2,924.7) 1,790.9 1,324.0 360.3 188.1 Mô phỏng bằng đồ thị:
Theo số liệu tính được và nhìn vào độ thị, ta thấy NP V nhạy cảm nhất đối với s ự thay đổi của giá bán, tiếp theo là chi phí biến đổi đơn vị và doanh số.
Như vậy , để theo đuổi dự án này, nhà quản trị cần phải kiểm soát tốt những yếu tố trên. Ví dụ, ký những hợp đồng kỳ hạn mua nguyên vật liệu để tránh thay đổi giá; có các biện pháp để tăng doanh số bán hàng; …
Tiếp theo, ta tính toán những giá trị hoán chuyển (điểm hòa vốn) của từng yếu tố:
NPV = 0.00
Doanh số Giá C P biến đổi ĐV CP hoạt động CĐ TS CĐ WAC C 537 10 5.092 2000 900 10.00% % -2.41% -1.11% 2.04% 2.85% 15.03% 67.31% Giá trị - 10 - 2,057 1,035 16.73%
Theo kết quả tính toán được, nếu doanh số bán hàng giảm 2.41% mỗi năm s o với dự kiến h oặc ch i phí biến đổi đơn vị tăng 2.04% mỗi năm so với dự kiến thì dự án khôn g s inh lời. Xét yếu tố Giá trị tài s ản cố định, nếu giá trị đầu tư tăng 15.03% so với dự kiến tức từ 900$ lên 1035$ thì dự án này mới bị lỗ .
Sau khi xét các yếu tố trên, ta còn phải xe m xét xem khả năng thay đổi doanh s ố, chi phí biến đổi đơn vị có lớn hay không. Nếu xác s uất xảy ra cao thì chứng tỏ dự án có rủi ro cao. Nếu nhà đ ầu tư vẫn theo đuổi dự án này, thì việc q uản trị rủi ro thay đổi doanh s ố và chi phí biến đổi đơn vị phải được xem xét một cách nghiêm túc.
3.3.3.5 u nh c điểm của phân tích độ nhạy
a. Ưu điểm
Phân tích độ nhạy giúp xác đ ịnh được yếu tố then chốt ảnh hưởng đến việc đầu tư, dự đoán các trường hợp có th ể xảy ra khi các yếu tố đó thay đổi. Khi đầu tư s ẽ đưa ra các giải pháp tác động tích cực vào các yếu tố then chốt đó theo hướng có lợi cho nhà đầu