Phân lớp dữ liệu Thiết kế mạng nơron

3. Cấu trúc của luận văn

2.2 Phân lớp dữ liệu Thiết kế mạng nơron

2.2.1 Giới thiệu về phân lớp

Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của các nhóm có thể. Phân lớp là một quá trình gồm hai bƣớc. Ở bƣớc thứ nhất, mô hình đƣợc học mô tả một tập hợp đƣợc định trƣớc của các lớp dữ liệu. Mô hình này đƣợc xây dựng bằng cách phân tích các thuộc tính của dữ liệu. Mỗi dữ liệu đƣợc giả thiết rằng thuộc một lớp đã định nghĩa trƣớc, và đƣợc xác định bởi nhãn của lớp (class lable). Trong phân lớp, dữ liệu đƣợc phân tích để xây dựng một mô hình tập hợp từ tập dữ liệu huấn luyện (training data set). Dữ liệu riêng lẻ tạo ra tập huấn luyện còn đƣợc gọi là mẫu huấn luyện (training examples) và đƣợc chọn ngẫu nhiên. Nếu các mẫu huấn luyện đƣợc đánh nhãn, bƣớc này còn đƣợc gọi là học có giám sát (Supervised learning). Nó đối lập với học không giám sát (unsupervised learning), thƣờng đƣợc gọi là phân cụm, trong đó nhãn cho mẫu huấn luyện là không biết và số lƣợng tập hợp của các lớp đƣợc học có thể không biết. Một số mô hình học thông dụng đƣợc sử dụng nhiều trong thực tế là luật kết hợp, cây quyết định (Decision tree), mạng nơron, SVM …

Bƣớc thứ hai là sử dụng mô hình đã đƣợc xây dựng ở bƣớc một để phân loại các mẫu dữ liệu chƣa có nhãn vào lớp tƣơng ứng. Đầu tiên sẽ đánh giá sự chính xác khi dự đoán. Có một số cách để đánh giá sự chính xác. Cách thƣờng đƣợc dùng là phƣơng pháp tiếp cận holdout, nó đánh giá sự chính xác dự báo của mô hình bằng việc đo độ chính xác trên một tập các mẫu mà tập này không đƣợc phép dùng khi xây dựng mô hình. Tập nhƣ vậy đƣợc gọi là tập thử (test data set). Những mẫu này đƣợc chọn ngẫu nhiên và độc lập với tập huấn luyện. Sự chính xác của mô hình dựa trên tập dữ liệu kiểm tra là phần trăm của tập mẫu test mà phân loại chính xác bởi mô hình. Với mỗi mẫu thử, nhãn đã biết của lớp đƣợc so sánh với sự dự đoán của mô hình học của lớp. Thuật toán học có thể dẫn tới lạc lối bởi những lỗi ngẫu nhiên và sự trùng lặp bên trong tập dữ liệu huấn luyện. Do đó, tập dữ liệu xác nhận có thể đƣợc kỳ vọng để cung cấp một sự kiểm tra an toàn chống lại việc over fitting các đặc trƣng giả mạo của tập dữ liệu huấn luyện (đó là, mô hình học có thể phân loại một số trƣờng hợp dị thƣờng đặc biệt của dữ liệu thử mà chƣa từng xuất hiện trong tập huấn luyện).

Hình 2-1 Mô hình phân lớp tiêu chuẩn

Tất nhiên, điều quan trọng là tập huấn luyện là đủ lớn để mô hình tự nó có thể học đƣợc phân bổ tốt nhất có thể của dữ liệu. Để giải quyết vấn đề này, phƣơng pháp thƣờng đƣợc áp dụng khi bộ dữ liệu không đủ lớn mà vẫn tăng khả năng phân lớp là sử dụng xác nhận chéo. Trong xác nhận chéo k-fold, dữ liệu có sẵn đƣợc phân thành k tập riêng lẻ với kích cỡ xấp xỉ nhau. Thủ tục xác nhận chéo tạo ra k sự lặp lại trong đó phƣơng pháp học đƣợc đƣa ra k-1 tập con để sử dụng nhƣ là dữ liệu huấn luyện, và nó đƣợc kiểm tra trên tập bên trái. Độ chính xác của xác nhận chéo của thuật toán đƣa ra thƣờng đơn giản là trung bình cộng của các độ đo chính xác từ những fold riêng lẻ.

Nếu độ chính xác của mô hình đƣợc coi nhƣ là chấp nhận đƣợc, mô hình có thể đƣợc sử dụng để phân lớp các mẫu về sau mà nhãn lớp là chƣa biết. Dữ liệu nhƣ vậy cũng đƣợc biết đến trong học máy nhƣ là các dữ liệu chƣa biết “unknown” hoặc dữ liệu trƣớc đây chƣa tồn tại “previously unseen”.

Thực nghiệm 1 Thực nghiệm 2 Thực nghiệm 3 Thực nghiệm 4 Tổng số mẫu Mẫu thử

Để có thể đánh giá đƣợc khả năng của một thuật toán phân lớp, ngƣời ta đã đề ra một số phép so sánh bao gồm:

- Chất lƣợng phân lớp: cho biết khả năng mô hình dự đoán chính xác nhãn lớp của dữ liệu không có nhãn.

- Tốc độ (Speed): cho biết chi phí tính toán liên quan trong việc xây dựng và sử dụng mô hình.

- Sự tráng kiện của mô hình (Robustness): cho biết khả năng mô hình tạo ra các dự đoán đúng với các dữ liệu nhiễu và dữ liệu với giá trị không đầy đủ.

- Tính khả chuyển (Scalability): cho biết khả năng xây dựng mô hình một cách hiệu quả với các dữ liệu khác nhau.

- Tính có thể hiểu đƣợc (Interpretability): cho biết mức độ chi tiết của thông tin đƣợc cung cấp bởi mô hình.

Trong luận văn này, chúng tôi đặc biệt quan tâm tới vấn đề chất lƣợng phân lớp và tính có thể hiểu đƣợc.

Độ đo chất lƣợng phân lớp tiêu chuẩn thể hiện thông qua độ chính xác (accuracy), độ hồi nhớ (recall) và độ đúng đắn (precision). Chúng đƣợc định nghĩa dựa trên công thức nhƣ hình dƣới. Chúng ta xem các lớp trong một vấn đề phân lớp nhị phân nhƣ là lớp dƣơng “possitive” và âm “negative” tƣơng ứng.

Bảng 2-1 Ma trận hỗn hợp trong phân lớp

Mẫu Phân lớp dƣơng Phân lớp âm

Lớp dƣơng thực tế n00 n01 Lớp âm thực tế n10 n11 Trong đó: accuracy = 11 10 01 00 11 00 n n n n n n     ; recall = 01 00 00 n n n  ; precision = 00 10 00 n n n 

Tính có thể hiểu đƣợc thƣờng đƣợc tính trong kích thƣớc của các bộ phân lớp.

2.2.2 Các phương pháp phân lớp

Có rất nhiều phƣơng pháp phân lớp, mỗi phƣơng pháp phân lớp đều có cách tính toán khác nhau. Sự khác nhau cơ bản của các phƣơng pháp này là ở thuật toán học quy nạp. Tuy nhiên, nhìn một cách tổng quan thì các phƣơng pháp đó đều phải thực hiện một số bƣớc chung nhƣ sau: đầu tiên, mỗi phƣơng pháp sẽ dựa trên các thông tin của các mẫu để biểu diễn mẫu thành dạng vector; sau đó, tuỳ từng phƣơng pháp mà ta sẽ áp dụng công thức và phƣơng thức tính toán khác nhau để thực hiện việc phân loại.

Sau đây là một số cách tiếp cận mà theo thực nghiệm thì có hiệu quả phân loại cao cũng nhƣ những thuận lợi và bất tiện của mỗi cách.

Phương pháp k người láng giềng gần nhất (k-NN Algorithm):

Ý tưởng:

Là phƣơng pháp nổi tiếng về hƣớng tiếp cận dựa trên xác suất thống kê. Khi cần phân loại mẫu mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine...) của tất cả các mẫu trong tập huấn luyện đến mẫu mới này để tìm ra k mẫu gần nhất (gọi là k “láng giềng”) sau đó dùng các khoảng cách này đánh trọng số cho tất cả các mẫu. Trọng số của một mẫu chính là tổng tất cả các khoảng cách ở trên của mẫu trong k láng giềng có cùng đặc trƣng, đặc trƣng nào không xuất hiện trong k láng giềng sẽ có trọng số bằng không. Sau đó các đặc trƣng đƣợc sắp xếp theo mức độ trọng số giảm dần và các đặc trƣng có trọng số cao sẽ đƣợc chọn là đặc trƣng của mẫu cần phân loại.

Ưu điểm:

Có một vài thuận lợi khi thực thi giải pháp này. Giải thuật này đƣợc xem nhƣ giải thuật tốt nhất để bắt đầu việc phân loại mẫu và là một giải thuật mạnh.

Một trong những thuận lợi của giải thuật này chính là sự rõ ràng và dễ dàng, đơn giản và dễ thực hiện. Đƣợc dựa trên phƣơng pháp trực tuyến với cách xử lý một số hỗn hợp các mẫu. Đặc biệt, giải thuật này còn kiểm tra các mẫu kề các mẫu mới, và cần vài thông số để làm việc này, nói cách khác giải thuật này hầu nhƣ không giới hạn. Dựa vào các nhân tố này, giải thuật này hoàn toàn hiệu quả thông qua thực nghiệm và dễ dàng áp dụng.

Một lợi ích nữa của k-NN là giải thuật này có thể đƣợc vận dụng để cải tiến hơn. Nói cách khác, giải thuật này nhanh chóng chỉnh sửa và phù hợp với các trƣờng hợp khác. Ví dụ, giải thuật có thể đƣợc áp dụng cho bất kỳ khoảng cách đo lƣờng nào khi nhập vào và các mẫu huấn luyện vì khoảng cách của các mẫu nhập vào có thể đƣợc giảm đi để cải tiến hiệu quả của giải thuật, do vậy k-NN có thể đƣợc áp dụng cho mẫu với bất kì khoảng cách nào trong mẫu đào tạo. Cũng vì thế mà hầu hết thời gian huấn luyện đòi hỏi cho phân loại mẫu trong giải thuật k-NN; giải thuật này đƣợc đánh giá là kỹ thuật chi phí trong các kỹ thuật. cuối cùng, k-NN là giải thuật mạnh có thể giám sát các nguồn tiềm năng lỗi.

Nhược điểm:

Rất khó có thể tìm ra k tối ƣu. Hơn nữa với trƣờng hợp mẫu có nhiễu thì việc phân loại là không tốt

Phương pháp Cây quyết định (Decision Tree Algorithm):

Ý tưởng:

Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút đƣợc gán nhãn là một đặc trƣng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trƣng trong mẫu cần phân lớp, và mỗi lá là nhãn của phân lớp. Việc phân lớp của một mẫu dj sẽ đƣợc duyệt đệ qui theo trọng số của những đặc trƣng có xuất hiện trong mẫu dj. Thuật toán lặp đệ qui đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá tìm đƣợc. Thông thƣờng việc phân lớp mẫu nhị phân sẽ tƣơng thích với việc dùng cây nhị phân.

Ưu điểm:

- Dễ hiểu, dễ cài đặt.

- Có thể chấp nhận trƣờng hợp tập dữ liệu huấn luyện có nhiễu, và cho hiệu quả phân loại tƣơng đối cao.

Nhược điểm:

Việc sử dụng giải thuật cây quyết định liên quan đến một số hạn chế quan trọng, dựa vào trạng thái nguyên thuỷ của thuật toán mà chia các vùng mẫu đƣợc đƣa vào các tập hợp con. Trƣớc tiên, giải thuật này chia những tập mẫu tuỳ thuộc vào đặc trƣng (một bộ phận từ ) mọi lúc, bằng cách sử dụng các đặc trƣng rõ ràng mọi lúc. Dựa vào các nhân tố này, giải thuật này sẽ bị sai nếu một lỗi bị nhìn thấy tại bất cứ mức độ nào, bởi vì cây con bên dƣới cấp bậc sẽ bị sai. Do đó, giải thuật cây quyết định không mạnh và nó dƣờng nhƣ mạo hiểm để quyết định những nhánh phân loại.

Một vấn đề khác là không có bảo vệ phù hợp giống nhƣ Support Vector Machines, vì vậy chúng có thể loại trừ các đặc trƣng. Điều này có nghĩa là chúng không thể chấp nhận một mẫu với số lƣợng lớn đặc trƣng nhƣ SVM, vì có quá nhiều đặc trƣng tạo nên tràn phù hợp và làm cho khả năng học kém hơn.

Một trở ngại khác là thời gian huấn luyện phân loại cao bởi vì giải thuật này cần so sánh tất cả những nhánh con có thể, nên mất nhiều thời gian để chia và duyệt các đặc trƣng.

Phương pháp Naïve Bayes

Ý tưởng :

Ý tƣởng cơ bản của phƣơng pháp xác suất Bayes là dựa vào xác suất có điều kiện của từ hay đặc trƣng xuất hiện trong mẫu với đặc trƣng để dự đoán đặc trƣng của mẫu đang xét. Điểm quan trọng cơ bản của phƣơng pháp này là các giả định độc lập:

- Các từ hay đặc trƣng của mẫu xuất hiện là độc lập với nhau.

- Vị trí của các từ hay các đặc trƣng là độc lập và có vai trò nhƣ nhau. Giả sử ta có:

- n đặc trƣng (lớp) đã đƣợc định nghĩa c1,c2,,cn

- Mẫu mới cần đƣợc phân loại dj

Để tiến hành phân loại mẫu dj, chúng ta cần phải tính đƣợc tần suất xuất hiện của các lớp ci (i 1,2,...,n) trong mẫu dj. Sau khi tính đƣợc xác suất của mẫu đối với các đặc trƣng, theo luật Bayes, mẫu sẽ đƣợc phân lớp vào đặc trƣng ci nào có xác suất cao nhất.

Thuận lợi:

Là phƣơng pháp đơn giản, cài đặt không phức tạp, tốc độ nhanh, với tập huấn luyện lớn thì cho kết quả vẫn tƣơng đối chính xác.

Nhược điểm:

Giải thuật Naïve Bayes cũng có những điểm yếu riêng mặc dù đƣợc xem là trình diễn tốt hơn giải thuật Cây quyết định.

Một trong những trở ngại là dựa trên luật gọi là các điều kiện độc lập. Có thể bị vi phạm bởi các trƣờng hợp trong thực tế, bởi vì Naïve Bayes thừa nhận các đặc trƣng trong mẫu độc lập riêng rẽ và đƣợc biểu diễn một cách nghèo nàn khi những đặc trƣng này có mối liên hệ với nhau. Hơn nữa, luật này không tạo đƣợc sự thƣờng xuyên cho việc xuất hiện các đặc trƣng. Một bất lợi khác nữa là giải thuật sử dụng nhiều tính toán và vì vậy thời gian bị chi phối.

Phương pháp mạng Nơron (Neural Network):

Ý tưởng:

Mô hình mạng neural gồm có ba thành phần chính nhƣ sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search algorithm). Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs).

Kiến trúc phẳng ( flat architecture ) : Mạng phân loại đơn giản nhất ( còn gọi là

mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không có lớp ẩn, kết quả trả về ở dạng hàm (functional form) tƣơng đƣơng với mô hình hồi quy logic. Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợp với việc điều chỉnh mô hình ứng với tập huấn luyện. Ví dụ, chúng ta có thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng không gian trọng số giảm dần (gradient descent in weight space) hoặc sử dụng thuật toán interated-reweighted least squares là thuật toán truyền thống trong hồi quy (logistic regression).

Kiến trúc môđun (modular architecture): Việc sử dụng một hay nhiều lớp ẩn

của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất. Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vào bằng cách khám phá ra những đặc trƣng ở mức cao hơn từ sự kết hợp đặc trƣng ở mức trƣớc.

2.3 Mạng Nơron

Một trong những kỹ thuật tiên tiến đƣợc sử dụng trong việc tạo quyết định tài chính là mạng Nơron. Mục này sẽ giới thiệu về mạng nơron đƣợc tạo và hoạt động nhƣ thế nào.

Các mạng nơron nhân tạo đƣợc tạo ra nhằm mục đích mô phỏng lại bộ não của con ngƣời. Có thể coi bộ não là một máy tính hay một hệ thống xử lý thông tin song song, phi tuyến và cực kỳ phức tạp. Nó có khả năng tự tổ chức các bộ phận cấu thành của nó, nhƣ là các tế bào thần kinh (nơron) hay các khớp nối thần kinh (synapse), nhằm thực hiện một số tính toán nhƣ nhận dạng mẫu và điều khiển vận động nhanh hơn nhiều lần các máy tính nhanh nhất hiện nay. Sự mô phỏng bộ não con ngƣời của mạng nơron là dựa trên cơ sở một số tính chất đặc thù rút ra từ các nghiên cứu về thần kinh sinh học. Lý thuyết về Mạng nơ ron nhân tạo, hay gọi tắt là “Mạng nơ ron”, đƣợc xây dựng xuất phát từ một thực tế là bộ não con ngƣời luôn luôn thực hiện các tính toán một cách hoàn toàn khác so với các máy tính số.

2.3.1. Mô hình một nơron perceptron

Một nơron perceptron là một phần tử xử lý gồm:

 n đầu vào xi, mỗi đầu vào ứng với một giá trị thực wi gọi là trọng số.  Một giá trị thực b gọi là ngƣỡng (bias).

 Một hàm kích hoạt f.  Giá trị ra y.

Giá trị ra của perceptron đƣợc tính theo quy tắc sau: ) ( 1 u f y b w x u n i i i     (2.1)

Hàm kích hoạt đƣợc sử dụng phổ biến là hàm sigmoid (còn gọi là hàm logistic) do tính phi tuyến và khả vi:

u e 1 1 ) u ( f    (2.2)

Ngoài ra còn có một số hàm kích hoạt khác: hàm tang hyperbolic (tanh), hàm softmax.

Khả năng tính toán của một nơron perceptron khá hạn chế. Để cải thiện ngƣời ta nối chúng thành mạng. Mô hình mạng đơn giản nhất là mạng perceptron truyền thẳng đa lớp MLP.

2.3.2. Mô hình mạng nơron MLP

Mạng nơron MLP n đầu vào, m đầu ra có mô hình nhƣ sau:

 Các nơron đƣợc chia thành các lớp: lớp sau đƣợc nối với lớp trƣớc. Lớp đầu

Phân lớp dữ liệu Thiết kế mạng nơron

Dữ liệu dùng trong thực nghiệm

Kết quả việc hỗ trợ quyết định