Thông qua việc thực hiện đề tài "Ứng dụng mô hình hồi quy logistc dự đoán rủi ro tài chính", chúng em đã rèn luyện được kỹ năng tư duy phân tích, xử lý dữ liệu và trình bày thông tin một
TỔNG QUAN VÀ PHÁT BIỂU BÀI TOÁN
Tổng quan về học máy
Học máy (Machine Learning) là một lĩnh vực hấp dẫn và tiềm năng trong trí tuệ nhân tạo (AI), tập trung vào việc phát triển các thuật toán và mô hình cho phép máy tính tự động học hỏi và nâng cao hiệu suất thông qua dữ liệu.
Học máy khác biệt so với lập trình truyền thống, vì nó cho phép hệ thống máy tính tự nhận thức và tự động hóa quá trình học tập cùng với việc ra quyết định dựa trên các mẫu trong dữ liệu Điều này thật tuyệt vời, khi máy tính có khả năng tự "học" mà không cần sự can thiệp trực tiếp từ lập trình viên.
Thay vì lập trình máy tính để phân loại ảnh thủ công, các mô hình học máy có khả năng tự động học và phân loại các loại ảnh dựa trên dữ liệu mẫu Tương tự, thay vì viết mã để dự đoán xu hướng thị trường, các thuật toán học máy có thể tự phát hiện mẫu trong dữ liệu lịch sử, từ đó đưa ra dự đoán chính xác hơn.
Quá trình học tự động đang mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, phân tích dữ liệu lớn, tự động hóa quy trình và ra quyết định Học máy thực sự đang cách mạng hóa cách mà máy tính tương tác với môi trường xung quanh.
Hệ thống học máy hiện nay đóng vai trò quan trọng trong internet hiện đại, được ứng dụng rộng rãi trong việc đưa ra các khuyến nghị sản phẩm trên Amazon và gợi ý video trên Netflix.
Tất cả các truy vấn tìm kiếm trên Google đều dựa vào học máy để hiểu ngôn ngữ của người dùng và cá nhân hóa kết quả tìm kiếm Tương tự, Gmail áp dụng các mô hình học máy trong bộ lọc spam và phishing nhằm bảo vệ hộp thư của bạn khỏi những mối đe dọa.
Trợ lý ảo như Siri, Alexa, Google Assistant và Cortana là những sản phẩm tiêu biểu cho sức mạnh của học máy Chúng sử dụng công nghệ học máy để thực hiện nhận diện giọng nói và hiểu ngôn ngữ tự nhiên, đồng thời “càn quét” kho tàng trực tuyến nhằm cung cấp câu trả lời cho các truy vấn của người dùng.
Hình 1.1 Ví dụ về ứng dụng học máy
Nhưng đó chỉ là bề nổi, trên thực tế các hệ thống học máy được ứng dụng trong gần như mọi ngành công nghiệp, bao gồm:
- Thị giác máy tính trong xe tự lái, drone, và robot giao hàng;
- Chatbot và robot có khả năng tổng hợp và nhận diện ngôn ngữ và giọng nói;
- Các hệ thống giám sát quét khuôn mặt như ở Trung Quốc;
Máy quét X-quang đóng vai trò quan trọng trong việc phát hiện khối u, hỗ trợ nghiên cứu về các chuỗi tuần tự gene liên quan đến các căn bệnh Đồng thời, chúng cũng giúp xác định các phân tử cần thiết để phát triển những loại thuốc hiệu quả hơn.
- Bảo trì dự báo đối với hạ tầng IoT;
- Cho phép trải nghiệm mua sắm không thu ngân;
- Biên và phiên dịch các cuộc họp chính xác hơn…
Năm 2020, GPT-3 của OpenAI đã gây ấn tượng mạnh mẽ với khả năng viết lách tự nhiên, có thể tạo nội dung về hầu hết mọi chủ đề Được xây dựng trên một mạng lưới thần kinh, GPT-3 đã được huấn luyện bằng hàng tỷ bài viết tiếng Việt.
Anh trên web và có thể tạo ra các bài viết cũng như đưa ra câu trả lời cho mọi truy vấn
Học máy sẽ dẫn dắt sự phát triển của robot có khả năng học hỏi trực tiếp từ con người Hiện tại, các nhà nghiên cứu từ Nvidia đang phát triển một hệ thống học sâu nhằm giúp robot quan sát và học cách thực hiện các tác vụ chỉ bằng cách theo dõi con người làm việc.
1.1.3 Phân loại về Machine Learning
Machine learning (học máy) là một phần của trí tuệ nhân tạo và được chia thành ba loại chính: supervised learning, unsupervised learning, và reinforcement learning
Học có giám sát là phương pháp được áp dụng khi có dữ liệu huấn luyện với cặp giá trị đầu vào và đầu ra, gọi là "training data" Mục tiêu chính của học có giám sát là xây dựng mô hình dự đoán đầu ra cho các giá trị đầu vào mới dựa trên dữ liệu đã biết Phương pháp này thường được sử dụng trong các ứng dụng như phân loại, dự đoán và hồi quy.
Học không giám sát (Unsupervised learning) là phương pháp được áp dụng khi không có các cặp giá trị đầu vào và đầu ra Mục tiêu chính của nó là khám phá các mô hình, cấu trúc hoặc tính chất ẩn trong dữ liệu đầu vào Phương pháp này thường được sử dụng trong các ứng dụng như phân nhóm (clustering) và giảm chiều dữ liệu (dimensionality reduction).
Học tăng cường (Reinforcement learning) là phương pháp được áp dụng khi một hệ thống cần tương tác với môi trường nhằm tối ưu hóa chính sách Mục tiêu chính là xây dựng mô hình cho phép hệ thống tự động ra quyết định trong môi trường phức tạp dựa trên phản hồi từ môi trường Học tăng cường thường được sử dụng trong các ứng dụng như trò chơi điện tử, robotica và tự động hóa.
1.1.4 Những thách thức trong học máy
Mặc dù học máy ngày càng phát triển và được ứng dụng rộng rãi, nhưng vẫn tồn tại nhiều thách thức cần giải quyết Một số thách thức chính bao gồm vấn đề về dữ liệu, tính minh bạch trong các thuật toán, và khả năng giải thích kết quả.
Học máy yêu cầu một lượng dữ liệu lớn để huấn luyện các mô hình, tuy nhiên, việc thu thập, làm sạch và quản lý khối lượng dữ liệu khổng lồ này là một thách thức lớn Bên cạnh đó, chất lượng dữ liệu đóng vai trò quan trọng, ảnh hưởng trực tiếp đến độ chính xác của các mô hình.
Tổng quan về bài toán dự báo
1.2.1 Lịch sử về bài toán dự báo
Phân tích dự đoán có nguồn gốc từ những ngày đầu của phân tích thống kê, khi các nhà toán học và thống kê phát triển các mô hình dựa trên dữ liệu lịch sử để đưa ra dự đoán Những mô hình ban đầu chủ yếu tập trung vào hồi quy tuyến tính và các phương pháp thống kê cơ bản.
Sự phát triển của máy tính lớn đã nâng cao sức mạnh tính toán, cho phép thực hiện các phân tích phức tạp hơn Do đó, doanh nghiệp và nhà nghiên cứu đã tận dụng máy tính để phân tích các tập dữ liệu lớn, từ đó đưa ra dự đoán trong nhiều lĩnh vực như tài chính và tiếp thị.
1.2.1.3 Hệ thống hỗ trợ quyết định (1980-1990)
Trong thập niên 1980 và 1990, hệ thống hỗ trợ quyết định (DSS) đã trở nên phổ biến, tích hợp các công cụ phân tích dữ liệu và mô hình hóa nhằm hỗ trợ người ra quyết định Đồng thời, phân tích dự đoán cũng bắt đầu thu hút sự chú ý trong môi trường kinh doanh, giúp dự báo và đánh giá rủi ro hiệu quả.
Sự gia tăng khai thác dữ liệu vào cuối thế kỷ 20 đã tạo ra bước ngoặt quan trọng trong phân tích dự đoán, nhờ vào các kỹ thuật như mạng nơ-ron và thuật toán học máy, cho phép xử lý các tập dữ liệu lớn và phức tạp Thời kỳ này chứng kiến sự áp dụng rộng rãi trong các lĩnh vực như tài chính, chăm sóc sức khỏe và bán lẻ.
1.2.1.5 Học máy và Trí tuệ nhân tạo (2010 - Nay)
Trong những năm gần đây, học máy (ML) và trí tuệ nhân tạo (AI) đã trở thành yếu tố quan trọng trong phân tích dự đoán Các công nghệ này cho phép thực hiện các phân tích phức tạp, nhận diện mẫu và xây dựng mô hình dự đoán hiệu quả Đặc biệt, học sâu, một nhánh của học máy, đã đạt được thành công nổi bật trong các lĩnh vực như nhận diện hình ảnh và xử lý ngôn ngữ tự nhiên.
1.2.1.6 Phân tích dự đoán theo thời gian thực (Hiện tại – Tương lai)
Xu hướng hiện nay là phân tích dự đoán theo thời gian thực, cho phép các tổ chức đưa ra quyết định ngay lập tức Điều này đặc biệt quan trọng trong các lĩnh vực như tài chính, an ninh mạng và IoT, nơi mà phản ứng kịp thời trước những thay đổi là rất cần thiết.
Bài toán dự báo là thách thức quan trọng trong phân tích dữ liệu, nhằm dự đoán giá trị biến mục tiêu trong tương lai dựa trên dữ liệu lịch sử và các yếu tố ảnh hưởng Mục tiêu chính là xây dựng mô hình có khả năng nhận diện và ứng dụng các mẫu, xu hướng, quy luật từ dữ liệu để thực hiện dự đoán chính xác và đáng tin cậy.
1.2.2 Tình hình nghiên cứu trong nước
Dự báo đóng vai trò quan trọng tại Việt Nam, giúp cải thiện quản lý, định hình chiến lược và tối ưu hóa tài nguyên trong nhiều lĩnh vực khác nhau.
Có một số điểm đáng chú ý về tình hình phân tích dữ liệu tại Việt Nam:
Việt Nam đang ở giai đoạn đầu trong việc phát triển dự báo, với nhiều lĩnh vực vẫn đang trong quá trình tìm hiểu và thử nghiệm các phương pháp phân tích dữ liệu và dự báo mới Dự báo đóng vai trò quan trọng trong nông nghiệp, giúp dự đoán thời tiết, mùa màng và nhu cầu năng lượng Ngoài ra, trong lĩnh vực kinh tế, dự báo cũng được áp dụng để ước lượng tăng trưởng GDP, lạm phát và tỷ giá.
Thách thức trong việc dự báo tại Việt Nam xuất phát từ khả năng thu thập và quản lý dữ liệu chất lượng Dữ liệu thường không đầy đủ, đồng thời cũng gặp phải vấn đề về tính nhất quán và độ tin cậy, gây khó khăn trong quá trình phân tích và đưa ra quyết định.
1.2.3 Tình hình nghiên cứu ở nước ngoài
Trong lĩnh vực nghiên cứu dự báo, có nhiều công trình quốc tế liên quan đến tiểu luận, như bài viết “Solar Forecast Reconciliation and Effects of Improved Base Forecasts” trên IEEE Xplore của các tác giả Gokhan Mert Yagli, Dazhi Yang, Dipti Srinivasan và Monika Nghiên cứu này nhấn mạnh tầm quan trọng của việc dự báo sản lượng điện mặt trời trong việc vận hành hệ thống điện, với yêu cầu dự báo trên các quy mô địa lý và thời gian khác nhau, có thể được mô hình hóa theo dạng phân cấp.
Tại các quốc gia phát triển, dự báo đã trở thành một công cụ quan trọng, được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính, thương mại điện tử, y tế và năng lượng.
Các quốc gia nước ngoài đang kết hợp công nghệ mới như trí tuệ nhân tạo, học máy và phân tích dữ liệu lớn để nâng cao hiệu suất trong việc dự báo.
Các quốc gia phát triển có lợi thế trong việc tổng hợp dữ liệu từ nhiều nguồn khác nhau, điều này giúp nâng cao độ chính xác và sự đa dạng trong dự báo.
Bài toán "Phân tích dữ liệu và dự báo giá xe ô tô bằng phương pháp hồi quy tuyến tính" tập trung vào việc dự đoán giá trị của xe ô tô cũ và mới dựa trên các yếu tố như đặc điểm kỹ thuật và tính năng của xe Mục tiêu của nghiên cứu là xác định các yếu tố ảnh hưởng đến giá xe và áp dụng phương pháp hồi quy tuyến tính để xây dựng mô hình dự báo chính xác.
Phát biểu bài toán
1.3.1 Xác định đầu vào, đầu ra của bài toán Đầu vào bài toán là tập dữ liệu rủi ro tín dụng Đức Bộ dữ liệu gốc chứa
Tập dữ liệu gồm 1000 mục nhập với 20 thuộc tính phân loại do Giáo sư Hofmann chuẩn bị, mỗi mục đại diện cho một người nhận tín dụng từ ngân hàng Người nhận tín dụng được phân loại thành rủi ro tín dụng tốt hoặc xấu dựa trên các thuộc tính này Dữ liệu cung cấp thông tin đầy đủ và đa dạng, giúp mô hình học được mối quan hệ giữa các biến đầu vào và giá xe ô tô.
Bài viết này nhấn mạnh rằng dữ liệu có thể bao gồm các giá trị thiếu, ngoại lai và những vấn đề khác cần được xử lý trong quá trình tiền xử lý Để tìm hiểu thêm, bạn có thể tham khảo liên kết đến tập dữ liệu gốc dưới đây.
- Job (numeric: 0 - unskilled and non-resident, 1 - unskilled and resident, 2
- Housing (text: own, rent, or free)
- Saving accounts (text - little, moderate, quite rich, rich)
- Checking account (numeric, in DM - Deutsch Mark)
- Credit amount (numeric, in DM)
- Purpose(text: car, furniture/equipment, radio/TV, domestic appliances, repairs, education, business, vacation/others
Rủi ro tín dụng là biến mục tiêu mà mô hình được huấn luyện để dự đoán, có thể được biểu diễn dưới dạng giá trị thực hoặc phân loại thành Good và Bad, tùy thuộc vào yêu cầu của bài toán Ngoài ra, cần có thông số để đánh giá độ chính xác của mô hình.
Tiền xử lý dữ liệu là bước quan trọng nhằm đảm bảo chất lượng và hiệu suất của mô hình dự đoán rủi ro tài chính Quá trình này giúp phân tích dữ liệu một cách chi tiết, hiểu rõ đặc điểm và đặc trưng của dữ liệu tài chính Sự am hiểu này hỗ trợ xác định và xử lý các vấn đề như giá trị thiếu và ngoại lai, đồng thời tạo ra cái nhìn tổng quan về ngữ cảnh và tính đặc biệt của dữ liệu.
Phân tích các yếu tố ảnh hưởng đến rủi ro tài chính là rất quan trọng, bao gồm các chỉ số tài chính, yếu tố kinh tế vĩ mô và những yếu tố khác Hiểu rõ những yếu tố này không chỉ giúp tối ưu hóa hiệu suất mô hình tài chính mà còn nâng cao khả năng hiểu biết về các yếu tố quyết định rủi ro tài chính trong từng ngữ cảnh cụ thể.
Xây dựng mô hình hồi quy logistic là phương pháp hiệu quả để dự đoán rủi ro tài chính dựa trên các yếu tố ảnh hưởng đã được xác định Mô hình này nhằm tìm ra mối quan hệ giữa các biến độc lập và biến phụ thuộc, từ đó giúp hiểu rõ hơn về các yếu tố tác động đến rủi ro tài chính.
Dự đoán rủi ro tài chính là một quá trình quan trọng, sử dụng mô hình hồi quy logistic để phân tích và dự báo khả năng rủi ro cho các đối tượng dựa trên thông tin liên quan đã được cung cấp.
1.3.3 Ý nghĩa khoa học và thực tiễn
Khoa học dữ liệu đóng vai trò quan trọng trong việc khám phá mối liên hệ giữa các yếu tố ảnh hưởng và rủi ro tài chính thông qua việc áp dụng các kỹ thuật phân tích dữ liệu và hồi quy logistic Bằng cách tận dụng các phương pháp này, đề tài cung cấp thông tin giá trị về thị trường tài chính và quản lý rủi ro, đóng góp vào sự phát triển của lĩnh vực Khoa học Dữ liệu.
Nghiên cứu về dự đoán rủi ro tài chính cung cấp cái nhìn sâu sắc cho các công ty và tổ chức trong lĩnh vực tài chính, giúp họ nhận diện các yếu tố tác động đến rủi ro tài chính Thông tin này hỗ trợ việc đưa ra các quyết định quản lý rủi ro hiệu quả hơn.
Tư duy phân tích là yếu tố quan trọng trong việc thực hiện phân tích dữ liệu và xây dựng mô hình hồi quy logistic Kỹ năng này không chỉ giúp phát triển khả năng sáng tạo mà còn nâng cao khả năng áp dụng các phương pháp phân tích vào các vấn đề thực tiễn trong lĩnh vực tài chính và quản lý rủi ro.
1.3.4 Cơ hội và khó khăn dự tính
Trong nghiên cứu ứng dụng mô hình hồi quy logistic để dự đoán rủi ro tài chính, nhóm chúng em đã đối mặt với một bối cảnh phong phú, bao gồm cả những lợi ích tiềm năng và các thách thức đáng kể.
Dự đoán biến động rủi ro tài chính gặp khó khăn do khả năng dự báo chính xác sự thay đổi của rủi ro Các yếu tố bên ngoài như biến động kinh tế vĩ mô, chính sách của chính phủ và hành động của các tác nhân thị trường có thể làm gián đoạn chiến lược dự đoán, dẫn đến việc duy trì sự ổn định trở thành một thách thức lớn.
Các yếu tố bên ngoài như biến động kinh tế, thay đổi chính sách và sự kiện bất thường có thể gây ra ảnh hưởng khó lường đến rủi ro tài chính Sự không thể đoán trước này làm gia tăng độ phức tạp trong việc duy trì các mô hình dự đoán rủi ro một cách nhất quán và đáng tin cậy.
Thị trường tài chính cần nhanh chóng thích ứng với những thay đổi trong nhu cầu của nhà đầu tư, đặc biệt là sự gia tăng quan tâm đến các rủi ro mới nổi như rủi ro môi trường, xã hội và quản trị Những thay đổi này không chỉ tạo ra thách thức trong việc dự đoán rủi ro mà còn yêu cầu một cách tiếp cận linh hoạt để hiểu và đáp ứng hiệu quả nhu cầu của thị trường.
Việc ứng dụng mô hình hồi quy logistic trong dự đoán rủi ro tài chính mang lại cơ hội tối ưu hóa quản lý rủi ro và lập kế hoạch chiến lược Tuy nhiên, điều này cũng yêu cầu sự linh hoạt để ứng phó với biến động thị trường và ảnh hưởng từ bên ngoài Sự phân đôi này cho thấy tầm quan trọng của đổi mới liên tục và khả năng thích ứng trong lĩnh vực tài chính.
Các chỉ số đánh giá hệ thống phân lớp
Ma trận nhầm lẫn (confusion matrix) là công cụ đánh giá hiệu suất trong các bài toán phân loại học máy, với đầu ra có thể là hai hoặc nhiều lớp Đây là một bảng kích thước mxn, trong đó m là số lớp thực tế và n là số lớp được dự đoán Mỗi hàng của ma trận đại diện cho một lớp thực tế, trong khi mỗi cột thể hiện một lớp dự đoán.
Trong ma trận nhầm lẫn, các ô trên đường chéo chính thể hiện số lượng trường hợp được dự đoán đúng cho từng lớp, trong khi các ô khác cho thấy số lượng trường hợp bị dự đoán sai Cụ thể, ô tại hàng i, cột j phản ánh số lượng trường hợp thực tế thuộc lớp i nhưng bị dự đoán là lớp j Đường chéo chính của ma trận là biểu tượng cho số lượng trường hợp được dự đoán chính xác cho từng lớp.
Các ô nằm ngoài đường chéo chính thể hiện các trường hợp bị dự đoán sai
Trong hình 1.3, ví dụ về ma trận nhầm lẫn cho thấy rằng một số dữ liệu thực tế thuộc lớp 4 chưa được phân loại chính xác Cụ thể, hệ thống đã phân loại nhầm 465 mẫu vào lớp thứ 2.
Hàm mất mát (loss function) là chỉ số quan trọng để đo lường sự chênh lệch giữa giá trị dự đoán của mô hình và giá trị thực tế Một số hàm mất mát phổ biến bao gồm MSE (hàm trung bình bình phương sai số), CE (hàm cross entropy) và hàm mất mát Huber Mục tiêu chính trong quá trình huấn luyện mô hình là giảm thiểu hàm mất mát, nhằm làm cho các dự đoán của mô hình càng gần với giá trị thực tế càng tốt.
1.4.3 Độ Chính Xác: Độ chính xác(Accuracy) đo lường tỉ lệ phần trăm của các dự đoán đúng so với tổng số lượng mẫu trong tập dữ liệu Đây là một chỉ số đơn giản nhưng quan trọng, giúp đánh giá tổng quan về khả năng dự đoán của model Cụ thể, độ chính xác được tính bằng công thức sau:
• TP (True Positive): Số mẫu được dự đoán đúng, kết quả thực tế là dương tính (mẫu dương tính)
• TN (True Negative): Số mẫu hệ thống dự đoán đúng, kết quả thực tế là âm tính (mẫu âm tính)
• FP (False Positive, Lỗi Loại 1): Số mẫu hệ thống dự đoán sai thành dương tính, kết quả thực tế là âm tính (mẫu dương tính giả)
• FN (False Negative, Lỗi Loại 2): Số mẫu hệ thống dự đoán sai thành âm tính, kết quả thực tế là dương tính (mẫu âm tính giả)
Precision là tỷ lệ phần trăm các mẫu dương tính được dự đoán (TP) so với tổng số mẫu mà hệ thống cho là đúng Nó đánh giá khả năng của mô hình trong việc giảm thiểu các dự đoán sai về mẫu dương tính Công thức tính Precision được xác định như sau:
Recall, hay còn gọi là sensitivity, là một chỉ số đo lường tỷ lệ phần trăm của các dự đoán đúng tích cực so với tổng số mẫu tích cực thực tế trong tập dữ liệu Chỉ số này đánh giá khả năng của mô hình trong việc phát hiện và bao quát tất cả các mẫu dương tính, đồng thời giúp tránh được các mẫu âm tính giả Công thức tính Recall được sử dụng để xác định hiệu suất của mô hình trong việc nhận diện các trường hợp dương tính.
F1-score là chỉ số tổng hợp giữa precision và recall, được tính bằng trung bình điều hòa của hai chỉ số này Chỉ số này đánh giá sự cân bằng giữa precision và recall của mô hình, đặc biệt hữu ích khi các lớp trong tập dữ liệu không đồng đều Công thức tính F1-score như sau:
AUC-ROC, viết tắt của "Area Under the Receiver Operating Characteristic Curve", là một chỉ số quan trọng trong việc đánh giá hiệu suất của các mô hình phân loại trong machine learning Đường cong ROC thể hiện mối quan hệ giữa tỷ lệ true positive (TPR) và tỷ lệ false positive (FPR) của mô hình ở các ngưỡng quyết định khác nhau TPR là tỷ lệ phần trăm các trường hợp dự đoán đúng tích cực so với tổng số mẫu tích cực thực sự, trong khi FPR là tỷ lệ phần trăm các trường hợp dự đoán sai tích cực so với tổng số mẫu âm tính thực sự.
AUC-ROC là chỉ số đo lường diện tích dưới đường cong ROC, với giá trị nằm trong khoảng từ 0 đến 1 Một mô hình phân loại hoàn hảo sẽ đạt AUC-ROC bằng 1, trong khi mô hình phân loại ngẫu nhiên chỉ đạt AUC-ROC bằng 0.5 Điểm số AUC-ROC càng cao cho thấy mô hình có khả năng phân loại giữa các lớp khác nhau càng tốt.
Hình 1.4 Ví dụ về AUC - ROV
CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN
Phương pháp phân tích mô tả
Phân tích mô tả, hay còn gọi là thống kê mô tả, là phương pháp thống kê giúp tóm tắt và trình bày dữ liệu đã thu thập một cách rõ ràng và ngắn gọn Phương pháp này sử dụng các số liệu và biểu đồ trực quan để mô tả các đặc điểm chính của tập dữ liệu, nhằm đơn giản hóa và dễ hiểu hơn cho người đọc.
Phân tích mô tả nhằm mục đích hiểu sâu về dữ liệu, nhận diện các đặc trưng quan trọng và cung cấp cái nhìn tổng quan về phân phối cũng như biến đổi của dữ liệu.
Tùy thuộc vào loại biến hay kiểu dữ liệu để quyết định sử dụng các phương pháp tiếp cận phù hợp Dữ liệu được chia thành hai loại:
Dữ liệu định lượng (quantitative data) hay biến định lượng (quantitative variable) thường phản ánh số lượng hoặc giá trị số, chẳng hạn như tuổi, cân nặng, giá tiền, và âm lượng.
Dữ liệu thể loại, hay còn gọi là biến thể loại, là loại dữ liệu mô tả các đặc điểm hoặc chất lượng của các đối tượng, chẳng hạn như màu sắc, dân tộc và giới tính.
Hình 2.1 Sơ đồ phân loại phương pháp phân tích mô tả
Phân tích mô tả thường bao gồm các khía cạnh sau:
Thống kê tóm tắt bao gồm các số liệu cơ bản như trung bình, trung vị, độ lệch chuẩn và phân vị, giúp chúng ta nắm bắt được trung tâm và mức độ phân tán của dữ liệu.
Biểu đồ là công cụ hiệu quả để trình bày dữ liệu một cách trực quan, bao gồm các loại như biểu đồ cột, biểu đồ đường, biểu đồ hình tròn và biểu đồ hộp, giúp người dùng dễ dàng nhận biết sự phân bố và xu hướng của dữ liệu.
Phân tích phân phối dữ liệu giúp hiểu tỷ lệ xuất hiện của các giá trị trong tập dữ liệu, có thể thực hiện thông qua biểu đồ phân phối tần số hoặc biểu đồ kernel density.
Kiểm tra sự tương quan giữa các biến là một phần quan trọng trong phân tích mô tả Việc này có thể được thực hiện thông qua việc sử dụng biểu đồ tương quan hoặc tính toán hệ số tương quan Pearson để đánh giá mối liên hệ giữa các yếu tố.
Phân tích mô tả giúp xác định các điểm ngoại lệ trong dữ liệu, tức là những giá trị khác biệt rõ rệt so với phần còn lại.
Cuối cùng, việc phân tích mô tả không chỉ dừng lại ở việc tổng kết các đặc điểm quan trọng của dữ liệu mà còn bao gồm nhận xét về những mẫu thú vị, cũng như đánh giá điểm mạnh và điểm yếu của tập dữ liệu.
Phân tích mô tả cung cấp cái nhìn sâu sắc về tập dữ liệu ban đầu, từ đó tạo nền tảng vững chắc cho các phân tích tiếp theo như dự báo, phân tích hồi quy và machine learning.
2.1.2 Phương pháp phân tích trên từng biến
Khi phân tích một biến, mục tiêu chính là hiểu rõ các đặc điểm cơ bản của nó, bao gồm việc xác định và xử lý các giá trị ngoại lai Các giá trị ngoại lai là những dữ liệu rất khác biệt so với phần lớn các giá trị khác trong tập dữ liệu, có thể xuất hiện do lỗi nhập liệu, lỗi đo lường, hoặc các sự kiện hiếm gặp.
Hình 2.2 Biểu đồ Histogram giúp xác định giá trị ngoại lai (Outliers)
Việc xác định các outliers là rất quan trọng, đóng vai trò kết nối giữa phân tích mô tả và phân tích hồi quy Nhờ vào việc làm sạch các giá trị này trong giai đoạn tiền xử lý dữ liệu, chúng ta có thể cải thiện độ chính xác của phân tích hồi quy Tùy thuộc vào từng loại dữ liệu, phương pháp phân tích sẽ được điều chỉnh cho phù hợp.
Biểu đồ Histogram : Biểu đồ hiển thị tần suất xuất hiện của các khoảng giá trị dữ liệu
Các đại lượng thống kê như trung bình (mean), độ lệch chuẩn (stdev), trung vị (median) và phân vị (quartile) là những chỉ số quan trọng giúp mô tả đặc điểm của dữ liệu, bao gồm trung bình, phương sai và phân phối của nó.
Biểu đồ Box & Whisker (Boxplot) : Biểu đồ hiển thị tổng quan giá trị đó bao gồm các giá trị đại lượng thống kê đã tính được
Bảng tần suất (Frequency table) : Biểu đồ liệt kê các giá trị khác nhau của biến và số lần xuất hiện của mỗi giá trị
Biểu đồ cột (Bar chart) : Biểu đồ thể hiện tần suất của từng giá trị dữ liệu dưới dạng các cột đứng
Biểu đồ hình tròn hoặc donut (Pie chart, Donut chart) : Biểu đồ thể hiện phần trăm tần suất của từng giá trị trong tổng số
2.1.3 Phương pháp phân tích trên nhiều biến
Phân tích đa biến giúp hiểu rõ mối quan hệ và tương tác giữa các biến trong tập dữ liệu, từ đó phát hiện các mẫu, xu hướng và tương quan tiềm ẩn giữa chúng.
Một số phương pháp phân tích bài toán
Hồi quy Logistic, hay còn gọi là Hồi quy Logit, là một thuật toán phổ biến trong việc ước lượng xác suất mà một mẫu dữ liệu thuộc về một lớp cụ thể, chẳng hạn như xác suất một email là thư rác Nếu xác suất ước lượng cho lớp đó lớn hơn 50%, mô hình sẽ phân loại mẫu vào lớp dương (gán nhãn "1"); ngược lại, nếu xác suất nhỏ hơn hoặc bằng 50%, mẫu sẽ được phân loại vào lớp âm (gán nhãn "0") Do đó, Hồi quy Logistic hoạt động như một bộ phân loại nhị phân hiệu quả.
Mô hình hồi quy Logistic tính tổng trọng số các đặc trưng đầu vào (cộng với hệ số điều chỉnh) và cho ra logistic của tổng này
Trong công thức (2.1) hàm logistic - được ký hiệu là σ(x) - là một hàm sigmoid (sigmoid function) (có đồ thị dạng chữ S) cho đầu ra từ 0 đến 1 σ(x) = 1
Hình 2.4 Đồ thị hàm sigmoid
Khi mô hình Hồi quy Logistic đã ước lượng xác suất mẫu x thuộc lớp dương p ℎ 𝜃 (𝑥) nó có thể đưa ra dự đoán một cách dễ dàng
Lưu ý rằng σ (t) < 0.5 khi t < 0 và σ (t) ≥0.5 khi t ≥ 0 Vì vậy mô hình Hồi quy Logistic dự đoán là 1 nếu giá trị 𝜃 𝑇 𝑥 là dương và 0 nếu là âm
2.2.1.3 Huấn luyện và hàm chi phí
Mục tiêu của huấn luyện mô hình là xác định vector tham số 𝜃 nhằm tối đa hóa xác suất cho mẫu dương (y = 1) và tối thiểu hóa xác suất cho mẫu âm (y = 0) Ý tưởng này được thể hiện rõ trong hàm chi phí cho từng mẫu dữ liệu huấn luyện x.
Hàm chi phí này hợp lý vì khi t tiệm cận 0, -log(t) sẽ rất lớn, dẫn đến chi phí cao nếu mô hình ước lượng xác suất mẫu dương gần với 0 Ngược lại, chi phí cũng tăng cao nếu xác suất mẫu âm gần với 1 Tuy nhiên, khi t gần với 1, -log(t) sẽ gần bằng 0, nghĩa là chi phí sẽ gần như không có nếu xác suất ước lượng gần với 0 cho thuộc lớp âm hoặc gần với 1 cho mẫu thuộc lớp dương, điều này chính là mục tiêu mà chúng ta hướng tới.
Hàm chi phí trên toàn tập dữ liệu huấn luyện đại diện cho chi phí trung bình của tất cả các mẫu trong quá trình huấn luyện Nó có thể được diễn đạt qua biểu thức logarit mất mát (log loss).
Tin xấu là không có phương trình đóng để tính trực tiếp giá trị 𝜃 mà hàm chi phí đạt cực tiểu, không giống như Phương trình Pháp tuyến Tuy nhiên, tin tốt là hàm chi phí này là hàm lồi, cho phép thuật toán Hạ Gradient hoặc các thuật toán tối ưu khác tìm ra giá trị nhỏ nhất, miễn là tốc độ học không quá cao và người dùng kiên nhẫn Đạo hàm riêng 𝜃 𝑗 của hàm chi phí theo tham số thứ j của mô hình được tính theo công thức cụ thể.
Để huấn luyện mô hình Hồi quy Logistic, ta tính lỗi dự đoán cho mỗi mẫu và nhân với giá trị đặc trưng thứ j, sau đó lấy trung bình trên toàn bộ tập huấn luyện Khi có vector gradient chứa tất cả các đạo hàm riêng, ta có thể áp dụng trong thuật toán Hạ Gradient theo Batch Nếu sử dụng Hạ Gradient Ngẫu nhiên, chỉ tính gradient trên một mẫu duy nhất, trong khi Hạ Gradient theo Mini-batch tính gradient trên một mini-batch nhỏ.
Random Forest là một thuật toán học máy phổ biến trong lĩnh vực học có giám sát Thuật toán này có khả năng áp dụng cho cả bài toán phân loại và hồi quy, giúp cải thiện độ chính xác và hiệu suất trong việc dự đoán dữ liệu.
Machine Learning (ML) dựa trên khái niệm học tập theo nhóm, kết hợp nhiều bộ phân loại nhằm giải quyết các vấn đề phức tạp và nâng cao hiệu suất của mô hình.
Rừng ngẫu nhiên là một phương pháp phân loại sử dụng nhiều cây quyết định trên các tập con khác nhau của dữ liệu, nhằm cải thiện độ chính xác dự đoán Thay vì chỉ dựa vào một cây quyết định, rừng ngẫu nhiên tổng hợp các dự đoán từ từng cây và đưa ra kết quả cuối cùng dựa trên số phiếu đa số.
Số lượng cây lớn hơn trong rừng dẫn đến độ chính xác cao hơn và ngăn ngừa vấn đề trang bị quá mức
Hình 2.5 Ứng dụng của thuật toán rừng ngẫu nhiên
2.2.2.2 Mô hình thuật toán hoạt động
Random Forest là một mô hình tập hợp (ensemble) rất hiệu quả cho các bài toán phân loại, nhờ vào việc kết hợp hàng trăm mô hình nhỏ với các quy luật khác nhau để đưa ra quyết định cuối cùng Mặc dù mỗi mô hình con có thể có độ mạnh yếu khác nhau, nhưng nguyên tắc "wisdom of the crowd" cho phép Random Forest cải thiện độ chính xác phân loại so với việc sử dụng bất kỳ mô hình đơn lẻ nào.
Như tên gọi của nó, Random Forest (RF) dựa trên cơ sở :
2 Forest = nhiều cây quyết định (decision tree) Đơn vị của RF là thuật toán cây quyết định, với số lượng hàng trăm Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc : Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu Ở trạng thái sau cùng, mô hình RF thường hoạt động rất chính xác, nhưng đổi lại, ta không thể nào hiểu được cơ chế hoạt động bên trong mô hình vì cấu trúc quá phức tạp RF do đó là một trong số những mô hình hộp đen (black box)
Hình 2.6 Mô hình Random Forest
Quá trình làm việc có thể được giải thích trong các bước như sau:
Bước 1: Chọn điểm dữ liệu K ngẫu nhiên từ tập huấn luyện
Bước 2: Xây dựng cây quyết định liên kết với các điểm dữ liệu đã chọn (Tập con) Bước 3: Chọn số N cho cây quyết định mà bạn muốn xây dựng
Bước 5: Đối với các điểm dữ liệu mới, hãy thu thập dự đoán từ từng cây quyết định và phân loại các điểm dữ liệu này theo danh mục nhận được đa số phiếu bầu.
SVM, hay Support Vector Machine, là một thuật toán học có giám sát, chuyên dùng để phân loại dữ liệu thành hai hoặc nhiều lớp và cũng có thể áp dụng cho bài toán hồi quy Mục tiêu chính của SVM là xác định một siêu phẳng tối ưu nhằm phân chia dữ liệu trong không gian n-chiều.
Hyperplane: Siêu phẳng là một đường (trong không gian 2D), mặt phẳng
(trong không gian 3D), hoặc một siêu phẳng trong không gian cao hơn để phân chia các điểm dữ liệu thành các lớp khác nhau
Margin là khoảng cách giữa siêu phẳng và các điểm dữ liệu gần nhất từ mỗi lớp SVM (Support Vector Machine) tìm cách tối đa hóa margin này nhằm đảm bảo phân tách hiệu quả nhất giữa các lớp.
Support Vectors: Các điểm dữ liệu gần nhất với siêu phẳng quyết định vị trí của siêu phẳng và được gọi là support vectors
Linear SVM: Dùng khi dữ liệu có thể được phân tách bằng một siêu phẳng tuyến tính
SVM phi tuyến (Non-linear SVM) được áp dụng khi dữ liệu không thể phân tách bằng phương pháp tuyến tính Trong tình huống này, SVM sử dụng các hàm kernel để chuyển đổi dữ liệu vào không gian có chiều cao hơn, nơi mà việc phân tách tuyến tính trở nên khả thi Một số loại kernel phổ biến bao gồm:
RBF (Radial Basis Function) Kernel
2.2.3.4 Quá trình học của SVM
Công cụ phục vụ thực hiện bài toán
Hình 2.8 : Ngôn ngữ lập trình Python
Python là ngôn ngữ lập trình phổ biến, thường được dùng để phát triển web, phần mềm, tự động hóa và phân tích dữ liệu Sự phát triển của khoa học dữ liệu đã làm tăng ứng dụng của Python trong ngành phân tích dữ liệu Thư viện phong phú của Python, như Scrapy và BeautifulSoup4, hỗ trợ mạnh mẽ trong việc khai thác dữ liệu.
Python là một lựa chọn tuyệt vời cho phân tích dữ liệu nhờ vào khả năng xử lý dữ liệu và mô hình hóa với các thư viện như Pandas và Scikit-learn, cùng với khả năng trực quan hóa dữ liệu qua Matplotlib và Plotly Tuy nhiên, ngôn ngữ này vẫn gặp phải một số nhược điểm, bao gồm tốc độ xử lý hạn chế, mức tiêu thụ bộ nhớ cao và thiếu hỗ trợ cho môi trường di động.
Hình 2.9 Ngôn ngữ lập trình R
Ngôn ngữ R là một ngôn ngữ lập trình và môi trường tính toán thống kê phổ biến trong phân tích dữ liệu, cung cấp nền tảng mạnh mẽ cho phân tích thống kê, xử lý dữ liệu và tạo biểu đồ Với cộng đồng mã nguồn mở lớn, người dùng có thể dễ dàng chia sẻ mã nguồn và kiến thức R có đầy đủ thư viện phân tích dữ liệu và khả năng tích hợp tốt với môi trường nghiên cứu khoa học Tuy nhiên, R cũng gặp phải một số nhược điểm như sự phức tạp khi lập trình viên mới bắt đầu, khả năng xử lý dữ liệu lớn chưa tốt so với các ngôn ngữ khác và hiệu suất không luôn ổn định.
Python và R là hai ngôn ngữ phổ biến cho phân tích dữ liệu và thống kê, và việc chọn ngôn ngữ phù hợp phụ thuộc vào nhiều yếu tố như mục tiêu, kinh nghiệm cá nhân, loại dữ liệu và thư viện hỗ trợ Dưới đây là bảng so sánh giúp bạn quyết định công cụ phù hợp cho bài toán của mình.
Python là một ngôn ngữ lập trình đa năng, không chỉ phục vụ cho phân tích dữ liệu mà còn được ứng dụng rộng rãi trong phát triển ứng dụng, web, tự động hóa và machine learning.
- Thư viện phong phú : Có nhiều thư viện mạnh mẽ giúp thực hiện các tác vụ phân tích và xử lý dữ liệu một cách hiệu quả
- Cộng đồng lớn : python có cộng đồng lớn giúp việc chia sẻ, học hỏi dễ dàng hơn
R là một ngôn ngữ lập trình chuyên biệt cho thống kê và phân tích dữ liệu, được hỗ trợ bởi nhiều gói hữu ích như dplyr, ggplot2, tidyr và lubridate, giúp thực hiện các tác vụ phân tích chi tiết một cách hiệu quả.
- Biểu đồ phức tạp : Gói ggplot2 trong R cho phép tạo ra biểu đồ phức tạp và tùy chỉnh một cách dễ dàng
- Thống kê chuyên sâu : Mặc dù
Python có thư viện thống kê tốt, nhưng R vẫn là lựa chọn phổ biến hơn trong các nghiên cứu thống kê và phân tích dữ liệu chuyên sâu
- Thiếu phổ biến: R có tính chuyên môn hơn so với Python
- Sử dụng bộ nhớ: R có xu hướng sử dụng nhiều bộ nhớ hơn so với Python
Quản lý mã nguồn trong R gặp khó khăn hơn so với Python, vì R không hỗ trợ mã nguồn mở rộng và phân chia mã một cách dễ dàng Khi dự án phát triển, việc quản lý và tái sử dụng mã có thể trở nên phức tạp hơn.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Dữ liệu thực nghiệm
Tập dữ liệu German Credit Dataset là một bộ dữ liệu nổi tiếng trong lĩnh vực phân loại nhị phân, đặc biệt trong đánh giá rủi ro tín dụng Nguồn gốc của tập dữ liệu này là từ UCI Machine Learning Repository, với 1000 mẫu và 20 thuộc tính (không tính thuộc tính mục tiêu) Mỗi nhãn của điểm dữ liệu phản ánh khả năng tín dụng của người vay.
1 Trạng thái tài khoản séc hiện tại: o A11: < 0 DM o A12: 0 = 200 DM / lương hàng tháng ít nhất 1 năm o A14: không có tài khoản séc
2 Thời hạn vay (tháng): o Giá trị số thể hiện thời hạn vay tính bằng tháng
3 Lịch sử tín dụng: o A30: không vay tín dụng / đã hoàn trả tất cả tín dụng đúng hạn o A31: đã hoàn trả tất cả tín dụng tại ngân hàng này đúng hạn o A32: tín dụng hiện tại đã hoàn trả đúng hạn cho đến bây giờ o A33: đã chậm thanh toán trong quá khứ o A34: tài khoản nguy cấp / có các khoản tín dụng khác (không tại ngân hàng này)
4 Mục đích: o A40: mua xe (mới) o A41: mua xe (cũ) o A42: nội thất / thiết bị o A43: radio / tivi o A44: thiết bị gia dụng o A45: sửa chữa o A46: giáo dục o A47: (nghỉ dưỡng - không tồn tại?) o A48: đào tạo lại o A49: kinh doanh o A410: khác
5 Số tiền vay: o Giá trị số thể hiện số tiền vay
6 Tài khoản tiết kiệm/trái phiếu: o A61: < 100 DM o A62: 100