Dữ liệu t{i chính được thu thập bởi nhiều tổ chức như ng}n h{ng , c|c cơ quan chứng kho|n , cơ quan thuế , cơ quan kế to|n v{ kiểm to|n viên lớn chuyên cơ sở dữ liệu , vv v{ trong một số
Trang 1MỤC LỤC
DANH MỤC HÌNH ẢNH 2
TÓM TẮT 3
CHƯƠNG 1: GIỚI THIỆU 3
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM 5
CHƯƠNG 3: CÁC PHƯƠNG PHÁP SỬ DỤNG 6
3.1 Mạng Nơ ron 6
3.2 Thuật toán di truyền 7
3.3 Cây quyết định 8
3.4 Lý thuyêt tập thô 8
3.5 Cơ sở lý luận 8
CHƯƠNG 4: LĨNH VỰC ÁP DỤNG VÀ NGHIÊN CỨU 9
4.1 Dự báo phá sản 10
4.2 Sự quan tâm và những rủi ro tài chính 14
4.3 Gian lận quản lý 15
4.4 Dự đoán hiệu suất doanh nghiệp 16
4.5 Ước tính rủi ro tín dụng 16
CHƯƠNG 5: ĐÁNH GIÁ VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI 17
Bảng 1 Lĩnh vực ứng dụng 18
5.1 Phương pháp và mô hình 18
Bảng 2 Mô hình l{m việc 19
5.2 Dữ liệu 20
Bảng 3 Cỡ mẫu 20
5.3 Số liệu hiệu suất 21
CHƯƠNG 6: KẾT LUẬN 22
TÀI LIỆU THAM KHẢO 23
Trang 2DANH MỤC HÌNH ẢNH
Bảng 1 Lĩnh vực ứng dụng 18 Bảng 2 Mô hình l{m việc 19 Bảng 3 Cỡ mẫu 20
Trang 3TÓM TẮT
Công cụ khai ph| dữ liệu trở nên quan trọng đối với ng{nh t{i chính v{ kế to|n Khả năng ph}n loại v{ dự đo|n cho phép nó được sử dụng cho c|c mục đích của dự b|o ph| sản, mối quan t}m về tình trạng v{ dự đo|n khủng hoảng t{i chính , ph|t hiện gian lận quản lý , dự to|n rủi ro tín dụng , v{ dự đo|n hiệu suất của công ty Nghiên cứu n{y nhằm mục đích cung cấp cho nh{ nước một nghệ thuật xem xét c|c t{i liệu liên quan v{ để chỉ ra cơ hội nghiên cứu có liên quan
CHƯƠNG 1: GIỚI THIỆU
Khai th|c dữ liệu – DataMining (Khai ph| dữ liệu) l{ một lĩnh vực được vinh danh của khoa học m|y tính Nó xuất hiện ở cuối những năm 80 bởi c|c kh|i niệm v{ phương ph|p từ c|c lĩnh vực trí tuệ nh}n tạo, chứng nhận bản quyền, hệ thống cơ sở dữ liệu v{ thống kê, khai ph| dữ liệu nhằm mục đích kh|m ph| thông tin ẩn có gi| trị, phức tạp v{ không rõ r{ng từ một lượng lớn dữ liệu
Vì lý do n{y , một thuật ngữ tương đương cho khai ph| dữ liệu l{ Kh|m ph| tri thức trong cơ sở dữ liệu Knowledge Discovery in Databases ( KDD ) được bình đẳng hóa thường gặp trong văn học
Dữ liệu t{i chính được thu thập bởi nhiều tổ chức như ng}n h{ng , c|c cơ quan chứng kho|n , cơ quan thuế , cơ quan kế to|n v{ kiểm to|n viên lớn chuyên cơ sở dữ liệu , vv v{ trong một số trường hợp l{ công bố công khai Áp dụng kỹ thuật Khai ph| dữ liệu trên dữ liệu t{i chính có thể góp phần giải ph|p ph}n loại v{ dự đo|n c|c vấn đề v{ tạo thuận lợi cho qu| trình ra quyết định Ví dụ điển hình của vấn đề ph}n loại t{i chính doanh nghiệp ph| sản , ước tính rủi ro tín dụng , sẽ b|o c|o lo ngại , khủng hoảng t{i chính v{ dự đo|n hiệu suất của công ty
Tầm quan trọng của Khai ph| dữ liệu trong t{i chính v{ kế to|n đ~ được công nhận bởi nhiều tổ chức Viện Kế to|n công Mỹ đ~ x|c định khai ph| dữ liệu l{ một trong mười công nghệ h{ng đầu cho ng{y mai v{ Viện
Trang 4Kiểm to|n nội bộ đ~ được liệt kê khai ph| dữ liệu l{ một trong bốn ưu tiên nghiên cứu ( Koh , 2004)
Nghiên cứu về khai ph| dữ liệu trong t{i chính kế to|n v{ ứng dụng c|c kết quả của nó l{ một lĩnh vực nghiên cứu tương đối mới Mục đích của nghiên cứu n{y l{ cung cấp cho nh{ nước nghệ thuật đ|nh gi| về những nỗ lực nghiên cứu hiện nay về việc |p dụng khai ph| dữ liệu t{i chính v{ kế to|n
Đ|nh gi| n{y giới thiệu người đọc chủ đề cụ thể liên quan đến mục tiêu v{ phương ph|p l{m việc nghiên cứu Đặc biệt l{ nghiên cứu n{y cố gắng giải quyết c|c c}u hỏi sau:
- Cụ thể c|c lĩnh vực ứng dụng t{i chính m{ phương ph|p khai ph| dữ liệu đ~ được |p dụng l{ gì ?
- Phương ph|p khai ph| dữ liệu n{o đ~ được |p dụng v{ mở rộng được những gì ? L{m những phương ph|p tốt hơn phương ph|p truyền thống trước đ}y ?
- Phương ph|p hoạt động của c|c loại dữ liệu? L{ cỡ mẫu lớn đạt yêu cầu ? C|c phương ph|p lựa chọn tính năng |p dụng những gì đang có
?
- C|c số liệu hiệu suất tương đối c}n nhắc l{ gì?
Một nghiên cứu như vậy sẽ giúp c|c nh{ nghiên cứu để tr|nh chồng chéo nỗ lực v{ điểm chuẩn thực h{nh của mình chống lại sự ph|t triển mới Mục đích kh|c của nghiên cứu n{y l{ để chỉ khu vực m{u mỡ để biết thêm công việc nghiên cứu trong khu vực
Phần còn lại của b{i b|o n{y được tổ chức như sau:
- Phần 2 nói về T{i liệu tham khảo tìm kiếm thu thập được
- Phần 3 mô tả ngắn gọn của phương ph|p khai ph| dữ liệu |p dụng trong c|c t{i liệu thu thập được
- Phần 4 đề cập đến c|c ứng dụng cụ thể v{ nghiên cứu
Trang 5- Cuối cùng, tại mục 5 một vấn đề thẩm định v{ nghiên cứu tương lai quan trọng được b|o c|o
- Phần 6 l{ phần kết luận
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM
Đối với việc tìm kiếm c|c nghiên cứu liên quan đến việc |p dụng c|c
kỹ thuật khia ph| dữ liệu trong kế to|n t{i chính , chúng tôi đ~ nghiên cứu c|c tạp chí của bốn nh{ xuất bản : Elsevier,Emerald, Kluwer v{ Wiley B{i viết liên quan đ~ được tìm thấy trong c|c tạp chí:
- Asia Pacific Financial Markets (Thị trường t{i chính Ch}u Á Th|i Bình Dương)
- Decision Support Systems (Hệ hỗ trợ ra quyết định)
- European Journal of Operational Research (Tạp chí Ch}u Âu hoạt động nghiên cứu)
- Expert Systems with Applications (Hệ thống chuyên gia v{ c|c ứng dụng)
- Expert Systems with Applications
-
- Intelligent Systems in Accounting (Hệ thống thông minh trong Kế to|n)
- Finance & Management (T{i chính v{ quản lý)
- International Journal of Accounting Information Systems (Tạp chí quốc tế về hệ thống thông tin kế to|n)
- Journal of Forecasting (Tạp chí dự b|o)
- Knowledge Based Systems
Trang 6CHƯƠNG 3: CÁC PHƯƠNG PHÁP SỬ DỤNG
Thuật ngữ phương ph|p khai th|c dữ liệu l{ viết tắt của một số lượng lớn c|c thuật to|n, mô hình v{ kỹ thuật xuất ph|t từ thẩm thấu số liệu thống kê , học m|y , cơ sở dữ liệu v{ trực quan Một số c|c phương ph|p đ~ được |p dụng để kiểm tra dữ liệu t{i chính Phương ph|p khai ph|
dữ liệu phổ biến sẽ được đề cập đến trong nghiên cứu n{y l{ mạng nơ ron , thuật to|n di truyền , C}y Quyết định , Lý thuyết tập thô, trường hợp cơ sở
C|c tế b{o nơ ron được sắp xếp th{nh c|c lớp Một mạng lưới lớp bao gồm ít nhất một đầu v{o ( đầu tiên ) v{ đầu ra ( cuối cùng ) lớp Giữa c|c lớp đầu v{o v{ đầu ra có thể tồn tại một hoặc nhiều lớp ẩn C|c loại mạng nơ ron kh|c nhau có một số lượng c|c lớp kh|c nhau Sơ đồ
tự tổ chức chỉ có một lớp đầu v{o v{ đầu ra , trong khi mạng nơ ron lan truyền ngược có thêm một hoặc nhiều lớp ẩn
Sau khi c|c kiến trúc mạng được x|c định , mạng phải được huấn luyện Trong mạng lan truyền ngược một mô hình được |p dụng cho c|c lớp đầu v{o v{ đầu ra cuối cùng được x|c định theo lớp ra Sản lượng được so s|nh với kết quả mong muốn v{ c|c lỗi được truyền ngược trở lại trong mạng nơ ron bằng c|ch điều chỉnh trọng lượng của c|c kết nối Qu| trình n{y lặp đi lặp lại cho đến khi tỷ lệ lỗi chấp nhận được đạt tới C|c mạng nơ ron lan truyền ngược đ~ trở nên phổ biến cho c|c dự đo|n v{ ph}n loại c|c vấn đề
Trang 7Sơ đồ tự tổ chức l{ một nhóm v{ phương ph|p trực quan của học không gi|m s|t Đối với mỗi vector đầu v{o , đầu ra chỉ có một tế b{o
nơ ron sẽ được kích hoạt Vector trọng số của người chiến thắng được cập nhật để tương ứng với vector đầu v{o Như vậy, đầu v{o tương tự
sẽ được |nh xạ tới c|c tế b{o nơ ron đầu ra tương tự hoặc l}n cận tạo th{nh cụm Hai cấu trúc liên kết sơ đồ tự tổ chức thường được sử dụng l{ lưới hình chữ nhật, trong đó mỗi tế b{o nơ ron có bốn nút l|ng giềng v{ mạng tinh thể hình lục gi|c, nơi mỗi tế b{o thần kinh có s|u nút l|ng giềng
Một bất lợi quan trọng của mạng nơ ron l{ chúng hoạt động như hộp đen vì nó l{ khó khăn đối với con người để giải thích c|ch đạt quyết định của mình Tuy nhiên , c|c thuật to|n đ~ được đề xuất để trích xuất c|c quy tắc comprehendible từ mạng nơ ron Một phê bình kh|c trên mạng nơ ron l{ một số thông số như c|c cấu trúc liên kết mạng phải được x|c định bằng thực nghiệm
Có vẻ như l{ Mạng nơ ron thu hút sự quan t}m của nhiều nh{ nghiên cứu trong c|c lĩnh vực quan t}m của chúng tôi Cấu trúc v{ nguyên tắc l{m việc cho phép họ để đối phó với những vấn đề m{ một giải ph|p hiệu quả không |p dụng thuật to|n Kể từ khi họ học hỏi từ c|c ví dụ v{ kh|i qu|t để quan s|t mới có thể ph}n loại c|c mô hình trước đó không thấy Họ có khả năng để đối phó với c|c dữ liệu không đầy đủ, không rõ r{ng v{ ồn {o Không giống như c|c kỹ thuật thống kê truyền thống chúng không mang tiên về c|c tính chất ph}n phối dữ liệu, không phải họ giả định c|c biến đầu v{o độc lập
3.2 Thuật toán di truyền
Thuật to|n di truyền (GA) |p dụng ý tưởng từ sự tiến hóa tự nhiên nơi c| nh}n thích hợp nhất tồn tại Quy định liên quan đến một vấn đề được m~ hóa như một tập hợp c|c chuỗi trong số đó bao gồm c|c bit C|c chuỗi tạo th{nh một quần thể GA cho phép c|c chuỗi với gi| trị tập thể cao nhất để tồn tại v{ sinh sôi nảy nở đổi mới d}n số
Trang 8Một nhiễm sắc thể l{ một chuỗi ký tự đại diện cho một điểm trong không gian giải ph|p D}n số l{ một tập hợp c|c nhiễm sắc thể Sau khi tạo ngẫu nhiên của d}n số ban đầu mỗi nhiễm sắc thể được đ|nh gi| bằng c|ch sử dụng chức năng đ|nh gi| năng lực người dùng định nghĩa Vai trò của chức năng đ|nh gi| năng lực l{ để đ|nh gi| hiệu quả hoạt động của nhiễm sắc thể
Ba bước khai th|c được |p dụng cho c|c nhiễm sắc thể
- Sinh sản - nơi m{ c|c c| nh}n tự sinh sôi nảy nở bằng c|ch t|i tạo bản th}n với một x|c suất tương tự như gi| trị năng lực của chúng
- Giao nhau, nơi hai nhiễm sắc thể cùng trao đổi một số bit tạo ra nhiễm sắc thể mới
- Đột biến , hoạt động trên một nhiễm sắc thể duy nhất bằng c|ch thay đổi một hoặc nhiều bit X|c suất đột biến l{ rất thấp
3.3 Cây quyết định
C}y quyết định l{ một phương ph|p ph}n loại v{ dự đo|n, m{ liên tục quan s|t chia th{nh nhóm loại trừ lẫn nhau Phương ph|p tìm kiếm c|c thuộc tính tốt nhất t|ch mẫu v{o lớp học c| nh}n Nhóm liên tục được chia cho đến khi nhóm qu| nhỏ hoặc không có sự kh|c biệt ý nghĩa thống kê tồn tại giữa c|c tập con ứng cử viên Nếu c}y quyết định trở nên qu| lớn, nó cuối cùng sẽ được tỉa
3.4 Lý thuyêt tập thô
Lý thuyết tập thô được giới thiệu bởi Pawlak ( 1982) Mức độ lý thuyết tập hợp với kh|i niệm có thể th{nh viên của một nguyên tố trong một tập Cho một lớp C , xấp xỉ dưới của C bao gồm c|c mẫu đó chắc chắn thuộc về C xấp xỉ trên của C bao gồm c|c mẫu m{ không thể được định nghĩa l{ không thuộc C Lý thuyết tập thô có thể được sử dụng để
mô tả phụ thuộc giữa c|c thuộc tính , để đ|nh gi| tầm quan trọng của c|c thuộc tính, để đối phó với c|c dữ liệu không phù hợp v{ xử lý không chắc chắn ( Dimitras et al.1999 )
3.5 Cơ sở lý luận
Trang 9Cơ sở lý luận l{ một vấn đề lý luận phương ph|p giải quyết Để giải quyết một vấn đề , nó cố gắng để lấy một trường hợp tương tự từ một cơ sở trường hợp Vấn đề quan trọng l{ biện ph|p tương tự v{ việc thu hồi c|c trường hợp tương tự
Kỹ thuật phù hợp v{ phổ biến l{ l|ng giềng gần nhất , học tập quy nạp v{ kiến thức hướng dẫn Trong phiên bản đơn giản của nó, b{i to|n l|ng giềng gần nhất đ|nh gi| sự giống nhau của hai trường hợp bằng c|ch tính to|n khoảng c|ch Euclide của chúng
C|ch tiếp cận n{y giả định rằng tất cả c|c tính năng n{y đều có liên quan Vì đ}y không phải l{ luôn luôn như vậy , c|c thuật to|n được cải thiện giới thiệu tính năng trọng số đ~ được đề xuất
CHƯƠNG 4: LĨNH VỰC ÁP DỤNG VÀ NGHIÊN CỨU
Do khả năng dự đo|n v{ ph}n loại của chúng, kỹ thuật khai ph|
dữ liệu đ~ được sử dụng để tạo thuận lợi cho qu| trình kiểm to|n, dự đo|n hiệu suất của công ty, v{ để tạo điều kiện ước lượng rủi ro tín dụng
Trong lĩnh vực kiểm to|n, kỹ thuật khai ph| dữ liệu ph|t triển như l{ một đóng góp đầy hứa hẹn C|c sự kiện gần đ}y cho thấy vấn đề đ|ng kể trong qu| trình kiểm to|n Sự sụp đổ của Enron v{ Arthur Andersen v{ " cuốn s|ch nấu ăn " thực h{nh kế to|n |p dụng dường như rộng r~i, cung cấp bằng chứng cho việc thay đổi nhu cầu trong qu| trình kiểm to|n ( Koskivaara , 2004)
Theo b|o c|o của Kiểm to|n Tiêu chuẩn 56 (SAS 56) do AICPA , kiểm to|n viên ph|t triển / kỳ vọng của riêng mình v{ so s|nh những kỳ vọng với số lượng ghi hoặc tỷ lệ Trong việc ho{n th{nh nhiệm vụ n{y, kiểm to|n viên sử dụng c|c thủ tục ph}n tích m{ so s|nh mối quan hệ giữa c|c dữ liệu dự kiến với c|c mối quan hệ quan s|t thực tế Thủ tục ph}n tích cho phép việc kiểm tra tính chính x|c của c}n bằng của t{i khoản m{ không cần kiểm tra c|c giao dịch c| nh}n
Trang 10Fraser ph}n loại c|c kỹ thuật đ|nh gi| ph}n tích trong không định lượng như quét, định lượng đơn giản như xu hướng , tỷ lệ kiểm tra hợp lý chẳng hạn như ph}n tích quy hồi v{ mạng Nơ ron (Fraser et al.1997 ) (Koskivaara, 2004)
Một xu hướng hiện đại trong kiểm to|n l{ để nắm lấy c|c kh|i niệm về rủi ro kinh doanh , trong đó nhấn mạnh c|c mục tiêu chiến lược của một doanh nghiệp kinh doanh Trong c|ch tiếp cận từ trên xuống kiểm to|n viên hiểu được mục tiêu chiến lược v{ hoạt động xuống dưới
để qu| trình kinh doanh Kỹ thuật khai ph| dữ liệu như mạng Nơ ron , Giải thuật di truyền , Cơ sở lý luận v{ logic mờ có thể tạo thuận lợi cho phương ph|p tiếp cận dựa trên rủi ro kiểm to|n mới n{y ( Calderon v{ cộng sự , 2002)
Những b{i b{o nói đến lĩnh vực ứng dụng cụ thể trong lĩnh vực kiểm to|n bao gồm Dự b|o ph| sản, dự b|o động liên tục v{ t{i chính v{ gian lận trong quản lý
4.1 Dự báo phá sản
Dự b|o ph| sản dường như l{ chủ đề phổ biến nhất của việc |p dụng c|c kỹ thuật khai ph| dữ liệu trên dữ liệu t{i chính Doanh nghiệp ph| sản g}y thiệt hại kinh tế cho nh{ quản lý , c|c nh{ đầu tư , c|c chủ
nợ v{ người lao động cùng với chi phí x~ hội Những dự đo|n lý do ph| sản l{ một vấn đề quan trọng về t{i chính Dự b|o ph| sản bằng c|ch sử dụng dữ liệu b|o c|o t{i chính thu hút nguồn gốc của nó từ công việc của Altman năm 1968 Altman cho rằng thất bại của công ty l{ một qu| trình thời gian d{i v{ dữ liệu b|o c|o t{i chính phải bao gồm c|c tín hiệu cảnh b|o cho sự ph| sản sắp xảy ra Bằng c|ch |p dụng nhiều kỹ thuật ph}n tích biệt ông đ~ ph|t triển một mô hình dự đo|n ph| sản Kể từ nghiên cứu của Altman nhiều nh{ nghiên cứu ph|t triển mô hình thay thế bằng c|ch sử dụng kỹ thuật thống kê (Ohlson 1980 used Logit, Zmijewski 1984 used Probit) Trong những năm qua nỗ lực nghiên cứu
Trang 11đ~ được thực hiện để x}y dựng c|c mô hình sử dụng kỹ thuật khai ph|
dữ liệu
Lin v{ McClean (2001 ) đ~ cố gắng dự đo|n sự thất bại của công
ty bằng c|ch sử dụng phương ph|p kh|c nhau Hai trong số c|c phương ph|p thống kê ( Ph}n tích tín hiệu v{ Hồi quy logic ) Trong khi hai phương ph|p còn lại l{ kỹ thuật m|y học ( C}y quyết đinh - C5.0 v{ Mạng nơ ron) Ngo{i ra họ đề xuất một thuật to|n lai Mẫu của họ bao gồm dữ liệu về 1133 công ty Vương quốc Anh 690 công ty không thất bại v{ 106 công ty thất bại được sử dụng như tập huấn luyện Trong đó
289 công ty đ~ không thất bại v{ 48 công ty được sử dụng như tập kiểm tra Không có nỗ lực đ~ được thực hiện để phù hợp với c|c công ty thất bại v{ không thất bại 37 chỉ tiêu t{i chính có nguồn gốc từ bảng c}n đối v{ b|o c|o thu nhập đ~ được lựa chọn như l{ c|c biến đầu v{o Hai phương ph|p lựa chọn tính năng đ~ được sử dụng l{m giảm c|c biến đầu v{o đến 4 bằng c|ch sử dụng sự ph|n xét con người v{ 15 bằng c|ch sử dụng ANOVA
C|c t|c giả b|o c|o kết quả tốt hơn cho Mạng Nơ ron v{ c}y quyết định mô hình cho cả hai dựa trên ph|n xét của con người v{ lựa chọn tính năng ANOVA Cuối cùng , c|c t|c giả đề xuất một thuật to|n lai sử dụng độ ưu tiên có trọng số của ph}n loại kh|c nhau Hiệu suất nhỉnh hơn được b|o c|o cho c|c mô hình lai
TUng et al (2004) sử dụng một mô hình lai tích hợp Mạng nơ ron v{ hệ thống mờ Mô hình được gọi l{ "Generic Fuzzy Neural Network " l{ một cơ sở nguyên tắc bao gồm c|c quy tắc luật mờ IF-THEN có thể tự điều chỉnh c|c thông số của c|c quy tắc mờ sử dụng thuật to|n học có nguồn gốc từ c|c mô hình mạng nơ ron
Ưu điểm chính của mạng nơ ron mờ đ~ được đề cập l{ khả năng
mô hình hóa một vấn đề bằng c|ch sử dụng dễ hiểu của mô hình ngôn ngữ cấp cao thay vì biểu thức to|n học phức tạp Mô hình n{y đ~ được
|p dụng để dự đo|n sự ph| sản của ng}n h{ng Biến đầu v{o l{ 9 biến