MẠNG NƠRON VÀ ỨNG DỤNG TRONG HỌC MÁY
Mạng nơron trong khai phá dữ liệu
Mục đích chính của khai phá dữ liệu là hiểu rõ ý nghĩa sâu sắc trong các bộ dữ liệu lớn Các giải pháp hiệu quả thường áp dụng phương pháp học máy để xây dựng mô hình phân tích.
Input Layer Hidden Layer Output Layer
Hình 7 Mạng nơron hồi quy
Học mạng nơron theo mô hình SOM đang trở thành một công cụ quan trọng trong việc quản lý khách hàng vay vốn ngân hàng Mạng nơron được ứng dụng rộng rãi trong các lĩnh vực khai phá dữ liệu tài chính, như dự đoán tỷ giá quy đổi và lập lịch cho tàu con thoi Các thuật toán học mạng nơron đã chứng minh hiệu quả trong cả học có giám sát và không giám sát Hướng phát triển mới của học mạng nơron tập trung vào việc cải tiến quy trình học để dễ hiểu hơn và rút ngắn thời gian học, điều này rất cần thiết trong khai phá dữ liệu.
Học quy nạp là phương pháp quan trọng trong khai phá dữ liệu, giúp xây dựng mô hình để hiểu sâu về dữ liệu Tùy thuộc vào từng công việc, có thể áp dụng học có giám sát hoặc không giám sát Dù là phương pháp nào, các thuật toán học đều khác nhau trong cách thể hiện mô hình Các phương pháp học mạng nơron sử dụng tham số thực trong mạng với các đơn vị xử lý đơn giản, cho thấy hiệu quả cao trong khai phá dữ liệu, đặc biệt với xu hướng học quy nạp.
Thuật toán học theo quy nạp trong khai phá dữ liệu sử dụng một tập cố định các ví dụ huấn luyện để xác định các thông số của mô hình thông qua quá trình tính toán lặp đi lặp lại Hai xu hướng chính xác định hướng ưu tiên của thuật toán bao gồm không gian giả thuyết giới hạn, nơi thuật toán học bị ràng buộc bởi các giả thuyết mà nó có thể tạo ra, và hướng ưu tiên, đề cập đến việc sắp xếp các mô hình kết hợp trong không gian giả thuyết Chẳng hạn, nhiều thuật toán học ban đầu tập trung vào việc đáp ứng một giả thuyết đơn giản và sau đó dần dần khảo sát các giả thuyết phức tạp hơn cho đến khi tìm ra hướng chấp nhận được.
Mạng nơron là phương pháp học phổ biến nhờ khả năng đại diện các giả thuyết và cung cấp dự đoán khái quát hơn so với các thuật toán khác Nhiều nghiên cứu đã chỉ ra rằng mạng nơron có thể mang lại độ chính xác cao trong một số lĩnh vực nhất định.
Giả thuyết đƣợc thể hiện trong huấn luyện mạng nơron bao gồm:
(2) Hàm chuyển đổi dùng cho các đơn vị ẩn và đơn vị đầu ra;
(3) Các tham số giá trị thực liên quan đến kết nối mạng (trọng số kết nối)
Các giả thuyết về mạng nơ-ron rất đa dạng, với hàng trăm đến hàng nghìn tham số giá trị thực liên quan đến đầu vào x và giá trị đích y Mặc dù việc mã hóa các tham số này không quá khó khăn, nhưng sự chênh lệch về số lượng tham số trong mạng có thể gây khó khăn trong việc hiểu chúng Hơn nữa, trong mạng đa lớp, các tham số thường có mối quan hệ không tuyến tính và không đơn điệu giữa đầu vào và đầu ra, khiến cho việc xác định rõ ảnh hưởng của các đặc điểm đến giá trị mong muốn trở nên khó khăn hơn.
Quá trình học của các phương pháp học mạng nơron chủ yếu liên quan đến việc sử dụng các phương pháp tối ưu gradient để điều chỉnh tham số mạng Học mạng nơron thực hiện hai bước chính: tính toán gradient của hàm lỗi và điều chỉnh tham số theo hướng gradient Tuy nhiên, quá trình học có thể diễn ra chậm và phụ thuộc vào các phương pháp khác nhau, do thủ tục tối ưu thường yêu cầu nhiều bước nhỏ và chi phí tính toán gradient cho mỗi bước có thể rất cao.
Phương pháp học mạng nơron hướng tới việc phát triển các thuật toán học tuyến tính, cho phép cập nhật giả thuyết sau mỗi ví dụ Nhờ vào việc cập nhật các tham số một cách liên tục, các thuật toán học mạng nơron tuyến tính thường đạt hiệu suất nhanh hơn so với các thuật toán xử lý theo khối, điều này mang lại lợi ích lớn cho việc xử lý tập dữ liệu.
Học mạng nơron theo mô hình SOM (Self-Organizing Map) có ứng dụng quan trọng trong việc quản lý khách hàng vay vốn ngân hàng Một giải pháp được coi là hiệu quả khi mô hình có thể phát hiện trong một lần duyệt qua tập dữ liệu lớn Điều này chứng tỏ rằng thời gian huấn luyện của các phương pháp học mạng nơron là hợp lý cho việc khai thác dữ liệu.
1.2.2 Khai phá dữ liệu tài chính
Theo Rao (1993), các mạng nơron đã đạt được những kết quả đáng chú ý nhờ vào việc tổng quát hóa qua hệ học các ví dụ cơ bản Những kết quả này chứng minh rằng các mạng nơron có khả năng tạo ra một độ xấp xỉ tùy ý cho bất kỳ ánh xạ không tuyến tính liên tục nào.
Mạng nơron ngày càng trở nên phổ biến trong lĩnh vực tài chính, với nhiều nghiên cứu chỉ ra rằng chúng mang lại lợi ích vượt trội so với các phương pháp truyền thống Các tác giả đã chỉ ra rằng mạng nơron đơn giản rất phù hợp cho các hệ thống tài chính thương mại, trong khi mạng nơron mờ thích hợp cho việc xây dựng mô hình tài chính và dự báo Mạng nơron hồi quy được sử dụng để dự đoán lỗi trong kinh doanh, và tiền xử lý dữ liệu cũng đóng vai trò quan trọng trong các ứng dụng này Một phương pháp tiền xử lý phổ biến là sử dụng hàm sigmoid để tăng tốc độ huấn luyện mạng Mặc dù mạng nơron gặp một số hạn chế trong việc giải thích, phù hợp với quan hệ logic và xử lý dữ liệu thiếu hụt, nhưng chúng vẫn nổi bật với tốc độ đáp ứng nhanh, khả năng chấp nhận sự phức tạp, tính linh hoạt và độc lập với đặc tính chuyên môn của lĩnh vực ứng dụng.
Mạng nơron hồi quy đã được ứng dụng rộng rãi trong lĩnh vực tài chính, đặc biệt là trong việc dự đoán tỷ giá hoán đổi ngoại tệ hàng ngày kết hợp với các kỹ thuật khác Lý do sử dụng mạng nơron hồi quy là vì chúng có khả năng xác định các quan hệ tạm thời trong chuỗi thời gian thông qua việc duy trì một khoảng trạng thái, đồng thời cho phép rút ra các luật giải thích dễ hiểu từ mạng hồi quy đã được huấn luyện.
Nơron đầu vào đóng vai trò quan trọng trong việc thể hiện đặc trưng của chuỗi dữ liệu theo thời gian, bao gồm các giá trị x(t), x(t-1), x(t-2), , x(t-k) với k là khoảng thời gian Các đầu vào này không chỉ giúp nơron đầu tiên phân tích dữ liệu mà còn hỗ trợ hai nơron đầu vào khác, nâng cao hiệu quả trong quá trình huấn luyện.
- Một lớp ẩn với năm liên kết các nơron đầy đủ
Hai nơron được huấn luyện với mục tiêu khác nhau: nơron đầu tiên tập trung vào việc dự đoán khả năng của những thay đổi tích cực, trong khi nơron thứ hai được đào tạo để dự đoán khả năng của những thay đổi tiêu cực.
Mô tả cô đọng được sử dụng như một chỉ số để giảm kích thước mạng nơron Năm 1997, Kohonen đã áp dụng kỹ thuật SOM để trích xuất chỉ số thông qua quá trình học không giám sát, nhằm hiểu sự phân bố của một tập mẫu mà không cần thông tin phân lớp Thuật toán SOM, cách phân lớp thông tin và ứng dụng của nó vào một bài toán cụ thể sẽ được trình bày chi tiết trong chương 2 của luận văn này.
Probability of positive changes of time series
Probability of negative changes of time series
Hình 8 Một ví dụ dùng mạng nơron hồi quy trong dự báo tài chính
Các phương pháp học sử dụng mạng nơron
Chức năng của mạng nơron phụ thuộc vào hình trạng mạng, bao gồm số lớp, số đơn vị trên mỗi lớp và cách các lớp liên kết, cùng với các trọng số của các liên kết nội tại Hình trạng mạng thường cố định, trong khi trọng số được xác định qua thuật toán huấn luyện Quá trình điều chỉnh trọng số để mạng nhận biết mối quan hệ giữa đầu vào và đầu ra mong muốn được gọi là học hay huấn luyện Thuật toán học chia thành hai nhóm chính: học có giám sát và học không có giám sát.
Mạng được huấn luyện thông qua việc cung cấp các cặp mẫu đầu vào và đầu ra mong muốn, với các cặp này được cung cấp bởi “thầy” hoặc hệ thống mà mạng hoạt động Mục tiêu là xây dựng mạng để đảm bảo rằng đầu ra của nó khớp với đầu ra mong muốn cho các đầu vào trong tập huấn luyện Để đạt được điều này, mạng cần được điều chỉnh dần dần do sự khác biệt giữa đầu ra thực tế và đầu ra mong muốn, và sự khác biệt này được thuật toán học sử dụng để điều chỉnh các trọng số trong mạng Quá trình điều chỉnh trọng số thường được xem như một bài toán xấp xỉ số, trong đó dữ liệu huấn luyện bao gồm các cặp (mẫu đầu vào x và đích tương ứng t), với mục tiêu tìm hàm f(x) thỏa mãn tất cả các mẫu học đầu vào.
Thuật toán BBP (Boosting-Based Perceptron)
Thuật toán BBP (Jackson & Carven, 1996) [12] là thuật toán học có giám sát đƣợc phát triển trên cơ sở thuật toán AdoBoost (Freund & Schapire, 1995) [11], là
Dữ liệu học Đầu vào Đầu ra mong muốn
Hàm đối t-ợng §Çu vào §Çu ra
Thay đổi trọng số §Ých
Hình 9 Mô hình học có giám sát
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng là một phương pháp hiệu quả Phương pháp này sử dụng thuật toán giả thuyết nổi (hypothesis-boosting), trong đó học một tập hợp các giả thuyết và kết hợp chúng thành một giả thuyết tổng thể Thuật toán giả thuyết nổi cho phép tạo ra các giả thuyết mạnh từ các giả thuyết yếu, với giả thuyết yếu chỉ dự đoán tốt hơn một chút so với ngẫu nhiên, trong khi giả thuyết mạnh có khả năng dự đoán chính xác cao.
Thuật toán BBP được ứng dụng rộng rãi trong khai phá dữ liệu nhờ vào những đóng góp quan trọng cho các mạng học Khác với các phương pháp mạng nơron truyền thống, BBP không sử dụng huấn luyện dựa trên gradient Mặc dù vậy, do các giả thuyết học là các bộ cảm ứng, thuật toán này vẫn được xem như một phương pháp mạng nơron Ý tưởng cốt lõi của BBP là bổ sung các đơn vị đầu vào mới cho giả thuyết học, sử dụng phân bố xác suất trên toàn bộ tập huấn luyện để chọn ra đầu vào phù hợp Nhờ vào việc thêm các đầu vào có trọng số, độ phức tạp của các giả thuyết có thể được kiểm soát một cách dễ dàng.
Các đầu vào được kết hợp chặt chẽ trong một giả thuyết tương ứng với các hàm Boolean, ánh xạ đến {-1, +1} Các đầu vào này là các đơn vị nhị phân với giá trị kích hoạt là -1 hoặc +1 Chúng có thể tương ứng với các giá trị Boolean hoặc các giá trị thử nghiệm định danh, chẳng hạn như màu sắc (ví dụ: màu = đỏ, x1 > 0.8), hoặc các kết hợp logic của các giá trị.
Thuật toán có khả năng kết hợp đầu vào tương ứng với hàm true, trong khi trọng số được gán cho đầu vào này phụ thuộc vào ngưỡng của bộ cảm ứng.
Trong mỗi lần lặp, đầu vào được chọn từ một tập hợp các khả năng và được thêm vào các giả thuyết Thuật toán BBP đo lường độ tương quan giữa từng đầu vào với hàm mục tiêu thông qua quá trình học, sau đó xác định đầu vào có độ tương quan cao nhất Độ tương quan giữa khả năng chọn lựa và hàm mục tiêu sẽ thay đổi qua mỗi lần lặp, nhờ vào việc điều chỉnh một phân bố trong tập huấn luyện.
Thuật toán BBP bắt đầu với giả thiết phân bố đồng đều trên tập huấn luyện, gán mức độ quan trọng ngang nhau cho mọi trường hợp Khi đầu vào đầu tiên được chọn, thuật toán điều chỉnh phân bố theo hướng tăng trọng số cho các ví dụ mà đầu vào không dự đoán chính xác Điều này giúp người học tập trung chú ý vào những ví dụ mà giả thuyết hiện tại không giải thích đúng, từ đó cải thiện khả năng học tập và dự đoán của mô hình.
Thuật toán dừng việc thêm trọng số đầu vào cho các giả thuyết sau khi thực hiện một số lần lặp đã được xác định trước hoặc khi không còn lỗi trên tập huấn luyện Việc chỉ thêm một đầu vào vào mạng trong mỗi lần lặp cho phép kiểm soát kích thước của bộ cảm ứng cuối cùng theo số lần lặp Giả thuyết trả về của BBP là một bộ cảm ứng có trọng số, trong đó mỗi đầu vào được kết hợp với một hàm lỗi tương ứng Bộ cảm ứng sử dụng hàm dấu để xác định lớp trả về.
Thuật toán BBP có hai hạn chế [12]:
Thuật toán này được thiết kế để thực hiện các nhiệm vụ học phân lớp nhị phân, nhưng cũng có thể áp dụng cho vấn đề học đa lớp bằng cách mỗi lớp học một bộ cảm ứng riêng biệt.
Hệ thống này giả định rằng đầu vào là các hàm boolean, do đó, để áp dụng vào các lĩnh vực thực tế, cần phải xử lý bằng cách rời rạc hóa các giá trị như đã đề cập.
Thuật toán Input: Tập S gồm m ví dụ, tập đầu vào C có ánh xạ tới {-1,+1}, số các tương tác T Output: Hàm h(x)
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) mang lại nhiều ứng dụng hữu ích trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân tích và phân loại dữ liệu khách hàng một cách hiệu quả, từ đó tối ưu hóa quy trình cho vay và nâng cao trải nghiệm khách hàng Việc áp dụng mạng nơ-ron SOM không chỉ cải thiện khả năng dự đoán mà còn hỗ trợ ngân hàng trong việc đưa ra các quyết định chiến lược dựa trên phân tích dữ liệu chính xác.
Nội dung thuật toán: for all xS
/* Phân bố ban đầu là nhƣ nhau */
/*Thêm giả thuyết */ h t := argmax ciC | E Dt [f(x).c i (x)] |
/* Cập nhập lại phân bố */
Return: h(x) 1.3.2 Học không giám sát
Học mạng nơron không giám sát là phương pháp học mà không có phản hồi từ môi trường để xác định tính chính xác của đầu ra Mạng cần tự động khám phá các đặc trưng, mối tương quan và lớp trong dữ liệu đầu vào Thực tế, hầu hết các biến thể của học không giám sát có đầu ra trùng với đầu vào, cho thấy rằng phương pháp này tương tự như mạng tự nhiên, giúp cô đọng thông tin từ dữ liệu Một số thuật toán học không giám sát sẽ được trình bày chi tiết trong chương 2.
Kết luận chương 1
Chương này trình bày cấu trúc mạng nơron với các thành phần chính như đơn vị xử lý, trạng thái kích hoạt, liên kết, luật lan truyền, hàm kích hoạt, độ lệch, luật học và môi trường hoạt động Mạng nơron được chia thành hai loại: mạng nơron truyền thẳng và mạng nơron hồi quy Các thuật toán học trong mạng nơron giúp quá trình học trở nên dễ hiểu và tiết kiệm thời gian, điều này rất quan trọng trong lĩnh vực khai phá dữ liệu.
Thuật toán học mạng nơron được phân thành hai loại chính: học có giám sát và học không có giám sát Trong đó, thuật toán BBP là đại diện cho phương pháp học có giám sát trong mạng nơron đơn lớp Chi tiết về thuật toán học không có giám sát sẽ được trình bày trong chương 2.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) đóng vai trò quan trọng trong việc quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân tích và phân loại dữ liệu khách hàng một cách hiệu quả, từ đó hỗ trợ ngân hàng đưa ra các quyết định chính xác hơn Ứng dụng của SOM trong bài toán này không chỉ nâng cao khả năng phục vụ khách hàng mà còn tối ưu hóa quy trình cho vay, giúp ngân hàng tăng cường hiệu quả hoạt động và nâng cao sự hài lòng của khách hàng.
THUẬT TOÁN SOM VỚI BÀI TOÁN PHÂN CỤM
Các phương pháp phân cụm
Mục đích của phân cụm là giảm kích thước dữ liệu thông qua việc phân loại và nhóm các thành phần dữ liệu tương tự Có nhiều kỹ thuật phân cụm điển hình được áp dụng.
Phân cụm theo phân cấp được thực hiện qua hai phương pháp chính: phương pháp hợp nhất các cụm dữ liệu nhỏ thành các cụm lớn hơn (từ dưới lên) và phương pháp chia nhỏ các cụm lớn thành các cụm nhỏ hơn (từ trên xuống) Cả hai phương pháp này đều tạo ra một cây phân cụm, hay còn gọi là dendrogram, để thể hiện mối quan hệ giữa các cụm.
Phân cụm bộ phận phân tích dữ liệu thành các cụm rời rạc thông qua thuật toán phân cụm tối thiểu theo một hàm chuẩn Độ chuẩn này thường liên quan đến việc tối thiểu hóa một số đo giống nhau trong tập ví dụ cho mỗi cụm, trong khi tối đa hóa sự khác biệt giữa các cụm Hiện nay, có nhiều phương pháp phân cụm bộ phận, trong đó thuật toán K-mean là một trong những phương pháp điển hình nhất.
- Phân cụm dựa trên mật độ (density-base) là các phương pháp phân cụm dựa vào liên kết và các hàm mật độ
- Phân cụm dựa trên lưới (grid-base) sử dụng cấu trúc nhân đa mức loang dần theo các cụm
Phân cụm dựa trên mô hình (model-base) thực hiện bằng cách xây dựng một mô hình giả định cho từng cụm, với mục tiêu chọn ra mô hình tối ưu nhất trong số các mô hình của các cụm.
- Các phương pháp khác như là tiếp cận mạng nơron và học ganh đua
Các kỹ thuật phân cụm đang được áp dụng rộng rãi trong nhiều lĩnh vực nghiên cứu Trong y tế, chúng giúp phân loại bệnh, xác định phương pháp chữa trị và triệu chứng Trong tài chính, phân cụm hỗ trợ nghiên cứu thị trường, lựa chọn quỹ đầu tư và ước lượng rủi ro tín dụng Ngoài ra, trong xử lý ảnh và nhận dạng mẫu, các kỹ thuật này cũng đóng vai trò quan trọng Trong môi trường web, phân cụm được sử dụng để phân loại tài liệu và phân tích dữ liệu Weblog nhằm phát hiện các nhóm có mẫu truy cập tương tự.
Dùng mạng nơron trong phân cụm
Học không giám sát sử dụng phương pháp quy nạp để phát hiện tính quy chuẩn trong tập dữ liệu Trong số nhiều thuật toán mạng nơron cho học không giám sát, học ganh đua (competitive learning) được coi là thuật toán phù hợp nhất cho khai phá dữ liệu Học ganh đua cũng minh họa sự hiệu quả của các phương pháp học mạng nơron một lớp.
Nhiệm vụ học xác định bởi học ganh đua là quá trình phân chia một ví dụ huấn luyện thành các cụm dữ liệu Các cụm này thể hiện quy tắc biểu diễn trong tập dữ liệu, với những minh hoạ tương tự được ánh xạ vào các lớp giống nhau.
Biến thể của học ganh đua, thường được gọi là học ganh đua đơn điệu, liên quan đến quá trình học trong mạng nơron một lớp Các đơn vị đầu vào đóng vai trò quan trọng trong việc xác định cách thức mà mạng nơron học hỏi và tối ưu hóa.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) có ứng dụng quan trọng trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân cụm các giá trị liên quan đến lĩnh vực ngân hàng, từ đó tạo ra các đơn vị đầu ra thể hiện các lớp khác nhau Việc áp dụng SOM trong quản lý khách hàng không chỉ tối ưu hóa quy trình mà còn nâng cao hiệu quả trong việc phân tích và dự đoán nhu cầu của khách hàng.
Giá trị đầu vào cho mỗi đầu ra trong phương pháp này là một tổ hợp tuyến tính của các đầu vào: i ji i j w x net
Trong mô hình này, x_i đại diện cho đầu vào thứ i, trong khi w_ji là trọng số kết nối đầu vào i với đầu ra j Đơn vị đầu ra có giá trị đầu vào cao nhất sẽ được xem là thắng, và kích hoạt của nó được gán giá trị 1, trong khi các kích hoạt khác sẽ có giá trị 0.
Quá trình huấn luyện cho học ganh đua liên quan đến hàm chi phí, trong đó a_j là kích hoạt của đầu ra thứ j, x_i là đầu vào thứ i, và w_ji là trọng số giữa đầu vào i và đầu ra j Luật cập nhật trọng số được xác định với α là hệ số tỷ lệ học.
Hình 10 Đơn vị xử lý ganh đua i
Ý tưởng chính của học ganh đua là xác định "độ tin cậy" cho tập con các ví dụ huấn luyện dựa trên mỗi đầu ra Chỉ có một đầu ra chiến thắng trong số các ví dụ được đưa ra, và vectơ trọng số cho đơn vị chiến thắng sẽ được điều chỉnh hướng về vectơ đầu vào Tương tự như quá trình huấn luyện, vectơ trọng số của mỗi đầu ra sẽ di chuyển về trung tâm của các ví dụ Sau khi hoàn thành huấn luyện, mỗi đầu ra sẽ đại diện cho một nhóm các ví dụ, và vectơ trọng số cho các đơn vị sẽ phù hợp với trọng tâm của các nhóm đó.
Học ganh đua liên quan chặt chẽ đến phương pháp phân cụm K thành phần chính, nhưng có sự khác biệt cơ bản Học ganh đua là phương pháp trực tuyến, cập nhật trọng số mạng sau mỗi ví dụ, trong khi phương pháp phân cụm K thành phần chính cập nhật sau tất cả các ví dụ Phương pháp học ganh đua đặc biệt phù hợp với các tập dữ liệu lớn, vì các thuật toán trực tuyến thường mang lại giải pháp nhanh hơn.
Thuật toán SOM (Self-Organizing Map) do giáo sư Teuvo Kohonen phát triển vào những năm 80, là một công cụ hiệu quả trong khai thác dữ liệu SOM thực hiện quá trình ánh xạ giúp giảm kích thước của tập huấn luyện, từ đó tối ưu hóa việc phân tích và xử lý dữ liệu.
Hình 11 Không gian ban đầu và SOM
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) là một phương pháp hiệu quả trong việc quản lý khách hàng vay vốn ngân hàng Phương pháp này giúp sinh ra hàm phân bố xác suất của dữ liệu, đồng thời linh hoạt xử lý dữ liệu thiếu Một trong những ưu điểm nổi bật của SOM là khả năng giải thích dễ dàng và hình dung trực quan Mô phỏng dữ liệu đa chiều cũng là một ứng dụng quan trọng của phương pháp này, mang lại nhiều lợi ích trong phân tích và quản lý thông tin khách hàng.
SOM, hay mạng tổ chức tự phát, là một kỹ thuật mạng nơron truyền thẳng sử dụng thuật toán học không giám sát, cụ thể là học ganh đua Kỹ thuật này hoạt động thông qua quá trình tự tổ chức, giúp sắp xếp đầu ra thành một hình học phản ánh dữ liệu ban đầu.
Xét một tập dữ liệu là các vectơ trong không gian n chiều:
Thông thường SOM gồm M nơron nằm trong một lưới (thường có kích thước 2 chiều) Một nơron thứ i là một vectơ mẫu có kích thước n:
Các nơron trong lưới được kết nối với nhau thông qua mối quan hệ láng giềng, trong đó các nơron liền kề được xác định dựa trên bán kính lân cận của nơron thứ i.
N i ( ) , i , j với d là bán kính lân cận
Các nơron lân cận được sắp xếp trong lưới hình chữ nhật hoặc lục giác, tùy thuộc vào bán kính Số lượng nơron lân cận xác định trọng tâm của ma trận kết quả, ảnh hưởng đến độ chính xác và khả năng sinh ma trận của SOM.
Trong thuật toán SOM, số lượng nơron và các quan hệ hình học được xác định từ đầu và thường được chọn đủ lớn để tối ưu hóa kích thước lân cận Nếu kích thước lân cận được chọn hợp lý, ma trận có thể giữ được thông tin ngay cả khi số nơron vượt quá số vectơ đầu vào Tuy nhiên, khi kích thước ma trận tăng lên, chẳng hạn như đến mười nghìn nơron, quá trình huấn luyện trở nên nặng nề và không còn hợp lý cho nhiều ứng dụng.
Trước khi bắt đầu huấn luyện, các vectơ trọng số ban đầu được thiết lập Thuật toán SOM không quá phụ thuộc vào dữ liệu đầu vào, ngay cả khi dữ liệu có thể bị thiếu, nhưng vẫn đảm bảo hội tụ nhanh chóng Có thể sử dụng một trong ba thủ tục khởi tạo điển hình để thực hiện quá trình này.
- Khởi tạo ngẫu nhiên, vectơ trọng số ban đầu đƣợc gán giá trị là các giá trị ngẫu nhiên đủ nhỏ
- Khởi tạo ví dụ, vectơ trọng số ban đầu đƣợc gắn với các ví dụ ngẫu nhiên rút ra từ tập dữ liệu
- Khởi tạo tuyến tính, vectơ trọng số ban đầu đƣợc gắn trong một không gian con tuyến tính bởi hai vectơ của tập dữ liệu ban đầu
Một vài ứng dụng của SOM
Thuật toán SOM đã đƣợc sử dụng trong nhiều lĩnh vực khác nhau với trên 5000 ứng dụng [13], SOM đã khẳng định đƣợc các ƣu điểm sau:
SOM (Self-Organizing Map) là công cụ hiệu quả trong phân tích dữ liệu, giúp người phân tích đưa ra quyết định nhanh chóng trên thị trường Nó hỗ trợ hiểu rõ hơn các vấn đề trong một tập dữ liệu lớn, góp phần nâng cao khả năng phân tích và ra quyết định thông minh.
- Có khả năng biểu diễn dữ liệu đa chiều dùng trong trình bày và làm báo cáo
Và đây cũng là một vấn đề chính đã đƣợc đề cập đến nhiều trong luận văn này
- Xác định các cụm dữ liệu (ví dụ các nhóm khách hàng) giúp cho việc tối ƣu phân bố nguồn lực (quảng cáo, tìm kiếm sản phẩm, )
- Có thể dùng để phát hiện sự gian lận trong thẻ tín dụng, và các lỗi dữ liệu
Bài viết này tập trung vào các vấn đề tài chính và ngân hàng, tạm thời chưa đề cập đến ứng dụng của SOM trong các lĩnh vực khác Trong phần này, chúng tôi sẽ giới thiệu hai ứng dụng của SOM trong lĩnh vực tài chính Ở chương tiếp theo, chúng tôi sẽ trình bày cách xây dựng một ứng dụng cụ thể của SOM trong phân cụm, dựa trên dữ liệu của một ngân hàng tại Việt Nam.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) có ứng dụng quan trọng trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân loại và phân tích dữ liệu khách hàng một cách hiệu quả, từ đó nâng cao khả năng phục vụ và tối ưu hóa quy trình cho vay Việc áp dụng SOM trong quản lý khách hàng không chỉ cải thiện trải nghiệm của khách hàng mà còn tăng cường hiệu suất hoạt động của ngân hàng.
2.3.1 Lựa chọn quỹ đầu tư
Khi lựa chọn quỹ đầu tư, nhà đầu tư cần xem xét nhiều yếu tố quan trọng như kết quả báo cáo tài chính gần đây, rủi ro, năng lực tài chính của quỹ, tỷ lệ doanh thu và chi phí, cùng với thời gian bổ nhiệm của người quản lý Thực tế, nhiều chương trình chỉ tập trung vào hai hoặc ba chỉ tiêu, trong khi các chương trình có minh họa hình vẽ cũng bị giới hạn trong cách thể hiện.
SOM có khả năng xử lý hiệu quả với mọi kích thước tập dữ liệu, cung cấp cách thể hiện dữ liệu trong ma trận hai chiều Nó cho phép trích xuất các tính chất tùy ý và đánh trọng số cho các cột, từ đó xây dựng chỉ số hợp nhất cho các mục tiêu tổng thể Để minh họa, chúng ta sẽ sử dụng cơ sở dữ liệu của Morningstar TM.
Trong bài viết này, chúng ta sẽ tìm kiếm và phân tích thông tin từ một tập hợp các quỹ đầu tư vào thị trường chứng khoán toàn cầu Tiêu chí lựa chọn quỹ bao gồm việc nhà lãnh đạo quỹ phải có nhiệm kỳ quản lý tối thiểu 3 năm.
Số cổ đông >= B + (B là một số >=3); (3) Tỷ lệ Morningstart >=4; (4) Tỷ lệ chi phí
Dựa trên tỷ lệ đầu tư chứng khoán từ 1%, chúng tôi đã xác định khoảng 50 quỹ đầu tư Sử dụng cơ sở dữ liệu của các quỹ, chúng tôi đã chọn ra các biến chính Tập dữ liệu đầu vào được lựa chọn một cách cẩn thận để đảm bảo giá trị của mỗi cột là đồng nhất.
Ma trận gồm 50 quỹ được thể hiện trong hình vẽ, với SOM cho thấy sự khác biệt giữa các quỹ với tỷ lệ 4 hoặc 5 Dữ liệu mô tả giúp phân cụm các quỹ theo cùng một loại, từ đó làm rõ sự khác biệt chính giữa chúng Thông tin này hỗ trợ việc lựa chọn thành phần danh mục đầu tư, ảnh hưởng tích cực đến mong muốn của nhà đầu tư.
Từ 50 quỹ trên thị trường chứng khoán toàn cầu, kết quả của SOM đã phân loại thành 3 nhóm chính, giúp hỗ trợ quá trình ra quyết định trong việc lựa chọn nhà quản lý quỹ phù hợp.
Nhóm 1 bao gồm các quỹ do người quản lý có ít hơn 3 năm kinh nghiệm điều hành Những quỹ này thường có danh mục đầu tư với doanh thu cao hơn, nhưng đi kèm với tỷ lệ phí tổn cũng cao.
Nhóm 2 bao gồm các quỹ có người quản lý đã phục vụ nhiều hơn số năm nhiệm kỳ quy định, chiếm phần đông trong tổng số quỹ Những quỹ này thường có doanh thu từ vốn đầu tư thấp hơn và tỷ lệ phí tổn cũng ở mức thấp hơn.
Nhóm Số lg nhóm Nhà quản lý
Nhóm 3 bao gồm các nhóm có người quản lý với số năm nhiệm kỳ gấp đôi nhóm 1, tuy nhiên doanh thu vốn đầu tư lại thấp hơn nhóm 2 và tỷ lệ phí tổn cũng là thấp nhất trong các nhóm.
2.3.2 Đánh giá rủi ro tín dụng giữa các nước
Một ví dụ khác về việc phân tích cơ hội đầu tư cho thị trường mới phát triển là việc xem xét các rủi ro liên quan đến đầu tư trong lĩnh vực này.
Hình 18 Mô phỏng SOM cho 50 quỹ có đầu tư chứng khoản
Học mạng nơ-ron theo mô hình SOM có ứng dụng quan trọng trong việc quản lý khách hàng vay vốn ngân hàng, đặc biệt trong các thị trường chứng khoán Mô hình SOM giúp phân tích và đánh giá các rủi ro, đồng thời nhóm các quốc gia có độ rủi ro tương đồng, từ đó hỗ trợ các quyết định tài chính hiệu quả hơn.
Bài viết của Greg Ip trên Phố Wall Journal năm 1997, mang tên “Mục đích đầu tư: trò chơi rủi ro”, đã phân tích 52 quốc gia dựa trên hiệu quả kinh tế, chính trị, rủi ro thị trường, khả năng thanh toán của thị trường chứng khoán, cùng với sự điều chỉnh và hiệu quả thị trường Các quốc gia được chia thành năm nhóm: (1) các nước giống Mỹ nhất; (2) các nước phát triển khác; (3) các thị trường mới và đang phát triển; (4) các thị trường mới hoàn toàn; và (5) các thị trường ranh giới.
Kết luận chương 2
Phương pháp học mạng nơron không giám sát, đặc biệt là thuật toán học ganh đua, là một phương pháp hiệu quả trong khai phá dữ liệu Chương này tập trung vào thuật toán SOM (Self-Organizing Map) trong bài toán phân cụm SOM là một kỹ thuật mạng nơron truyền thẳng, sử dụng thuật toán học không giám sát thông qua quá trình “tự tổ chức”, giúp sắp xếp đầu ra theo hình thức hình học của dữ liệu đầu vào.
SOM được sử dụng trong khai phá dữ liệu như một công cụ trung gian để giải quyết bài toán phân cụm dữ liệu Trước tiên, SOM sẽ phân cụm tập dữ liệu đầu vào, sau đó kết quả thu được từ SOM sẽ được áp dụng các phương pháp phân cụm theo phân cấp hoặc phân cụm bộ phận để hoàn thiện quá trình phân tích.
Phương pháp SOM (Self-Organizing Map) nổi bật so với các phương pháp phân cụm khác như phân cụm theo cây phân cấp, K thành phần chính và cực đại kỳ vọng nhờ vào nhiều ưu điểm vượt trội.
- Dữ liệu đầu vào có thế lớn, không hạn chế kích thước của dữ liệu
- Mô phỏng trực quan dữ liệu chính xác từ đó hiểu đƣợc cấu trúc của dữ liệu
- Tiết kiệm đƣợc thời gian vì khi làm việc trên các mẫu thì nhanh hơn so với dữ liệu trực tiếp
Chương này trình bày hai ứng dụng tiêu biểu của SOM trong khai thác dữ liệu tài chính, bao gồm việc lựa chọn quỹ đầu tư tài chính và đánh giá rủi ro tín dụng của các quốc gia trên thị trường chứng khoán toàn cầu.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) có ứng dụng quan trọng trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân loại và phân tích dữ liệu khách hàng một cách hiệu quả, từ đó tối ưu hóa quy trình cho vay và nâng cao trải nghiệm khách hàng Việc áp dụng SOM trong lĩnh vực ngân hàng không chỉ cải thiện khả năng dự đoán mà còn hỗ trợ trong việc ra quyết định chiến lược dựa trên dữ liệu thực tế.
ỨNG DỤNG MÔ HÌNH SOM TRONG BÀI TOÁN QUẢN LÝ KHÁCH HÀNG VAY VỐN NGÂN HÀNG
Phát biểu bài toán
Nhiều phương pháp khám phá tri thức và khai phá dữ liệu trong tài chính và kinh tế sử dụng mạng nơron không giám sát, trong đó phương pháp SOM nổi bật với khả năng trực quan hóa dữ liệu lớn, tạo ra các biểu diễn mối quan hệ phức tạp, cải thiện cụm và rút gọn dữ liệu SOM giúp khám phá tri thức bằng cách xác định các cấu trúc và mẫu mới trong dữ liệu Mặc dù ứng dụng của SOM trong tài chính, kinh tế và thị trường còn mới mẻ, nhưng đã có những ví dụ điển hình như phân loại quỹ đầu tư cho các dự án và đánh giá rủi ro tín dụng trên thị trường chứng khoán.
Dựa trên quy trình thực tế tại phòng tín dụng của các ngân hàng, tôi đề xuất áp dụng phương pháp SOM để đánh giá khách hàng là các doanh nghiệp có nhu cầu vay vốn Việc sử dụng SOM sẽ cung cấp cái nhìn trực quan, giúp cán bộ tín dụng và ban lãnh đạo đưa ra quyết định chính xác hơn khi xem xét đơn vay của khách hàng.
Quy trình cho vay tín dụng tại Ngân hàng được thực hiện theo các bước sau:
Khách hàng khi vay vốn tại ngân hàng cần cung cấp đầy đủ thông tin về khả năng thanh toán, vòng quay hàng tồn kho, kỳ thu tiền bình quân, doanh thu trên tổng tài sản, nợ phải trả, thu nhập, và kinh nghiệm của ban giám đốc Bên cạnh đó, họ cũng phải trình bày phương án kinh doanh sử dụng tiền vay, từ đó cán bộ tín dụng sẽ đánh giá tỷ lệ khả thi của kế hoạch đó.
- Cán bộ tín dụng nhập dữ liệu vào chương trình quản lý khách hàng của ngân hàng và thực hiện phân loại khách hàng
- Nhân viên tín dụng thay mặt khách hàng bảo vệ kế hoạch vay vốn của khách hàng trước hội đồng tín dụng
Các thành viên hội đồng tín dụng quyết định việc cho vay vốn dựa trên hồ sơ khách hàng đã được nhập vào chương trình quản lý Việc áp dụng SOM trong phân tích thông tin khách hàng giúp xử lý khối lượng lớn dữ liệu từ những khách hàng có nhu cầu, bao gồm cả những người chưa phải là khách hàng chính thức hoặc đã từng vay vốn Điều này không chỉ hỗ trợ nhân viên tín dụng trong việc bảo vệ quyền lợi của khách hàng trước hội đồng tín dụng mà còn giúp các thành viên đưa ra quyết định chính xác về việc đồng ý hay từ chối cho vay vốn.
Sử dụng công cụ SOM ToolBox để thể hiện trực quan các thông tin khách hàng Dữ liệu được lấy từ chương trình quản lý chung của Ngân hàng.
Giới thiệu công cụ SOM Toolbox
Công cụ SOM Toolbox, phát triển bởi nhóm SOM Toolbox tại trường Đại học Kỹ thuật Helsinki, là một thư viện chứa các hàm viết bằng Matlab, cung cấp bộ công cụ dễ sử dụng để xây dựng SOM phục vụ cho nghiên cứu Đặc biệt, trong lĩnh vực khai phá dữ liệu, SOM Toolbox được các nhà nghiên cứu đánh giá cao nhờ vào các hàm trực quan, đáp ứng nhu cầu cụ thể của người dùng.
Công cụ xử lý dữ liệu hỗ trợ khởi tạo và huấn luyện SOM trên nhiều trạng thái hình học khác nhau SOM được thể hiện trực quan qua nhiều phương pháp, cho phép phân tích các thuộc tính của SOM và dữ liệu ban đầu, bao gồm đặc tính của SOM, các cụm trên ma trận và mối liên hệ giữa các thuộc tính.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) là một phương pháp hiệu quả trong việc phân tích và quản lý dữ liệu, đặc biệt trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình SOM giúp hiểu và trực quan hóa dữ liệu một cách tổng quát, đồng thời có thể được ứng dụng để xây dựng các mẫu hình phù hợp với nhu cầu quản lý Việc kết hợp dữ liệu và công cụ Toolbox với SOM tạo ra một cặp hoàn hảo cho việc khai thác thông tin và tối ưu hóa quy trình quản lý khách hàng.
Cấu trúc chương trình
Công cụ SOM Toolbox bao gồm các hàm được lập trình bằng Matlab, giúp xây dựng hệ thống phân tích thông tin khách hàng Để sử dụng công cụ này, bạn cần thực hiện theo các bước hướng dẫn cụ thể.
- Xây dựng cấu trúc dữ liệu;
- Xử lý dữ liệu trước khi đưa vào huấn luyện;
- Khởi tạo mẫu và huấn luyện theo thuật toán SOM;
3.3.1 Xây dựng tập dữ liệu Đầu tiên, dữ liệu phải được đưa vào trong Matlab Dữ liệu được lấy từ chương trình quản lý của Ngân hàng lưu trong hệ quản trị cơ sở dữ liệu SQL Dữ liệu chính là một bảng thông tin khách hàng đã đƣợc lọc, chỉ lấy các thuộc tính đƣợc xét nhƣ sau: Bảng 1: Thông tin khách hàng ( dữ liệu của 30 khách hàng)
Vòng quay hàng tồn kho
Kỳ thu tiền bình quân
Doanh thu trên tổng tài sản
Nợ phải trả/tổng tài sản
Thu nhập trước thuế/doanh thu
Tỷ lệ khả thi của PA kinh doanh
Mỗi dòng dữ liệu đại diện cho một ví dụ hoặc một vectơ, trong đó các giá trị của dòng đó là các thành phần của vectơ hoặc các biến thể của tập dữ liệu Các biến thể này có thể bao gồm các thuộc tính khác nhau.
Học mạng nơ-ron theo mô hình SOM (Self-Organizing Map) có ứng dụng quan trọng trong bài toán quản lý khách hàng vay vốn ngân hàng Mô hình này giúp phân tích và tổ chức dữ liệu, cho phép nhận diện các nhóm khách hàng dựa trên các đặc điểm tương đồng Tuy nhiên, trong quá trình phân tích, có thể xảy ra tình trạng thiếu hụt một vài giá trị dữ liệu, điều này cần được xem xét kỹ lưỡng để đảm bảo độ chính xác của kết quả.
Công cụ SOM Toolbox gồm các cấu trúc dữ liệu sau:
- Data struct: gồm tất cả các thông tin liên quan đến tập dữ liệu
Tên trường Kiểu Kích thước Ý nghĩa
.type string Định danh kiểu cấu trúc (som_data)
.name string Định danh tập dữ liệu
.data matrix [m x n] Bảng dữ liệu ban đầu lables matrix [m x k] (k