Trong sinh học mạng nơ-ron (Neural Networks -NN) [7] là một tập hợp các dây thần kinh kết nối với nhau. Ngày nay, thuật ngữ này cịn dùng để chỉ mạng nơ-ron nhân tạo (Artificial Neural Networks -ANN), là một tập hợp các
linh kiện điện tử hoặc chƣơng trình máy tính đƣợc thiết kế để mơ hình hĩa cách thức bộ não thực hiện. NN tƣơng tự với bộ não sinh học ở hai khía cạnh: Tri thức cĩ đƣợc thơng qua quá trình học tập và điểm kết nối các tế bào thần kinh đƣợc gọi là khớp thần kinh đƣợc sử dụng để lƣu trữ tri thức.
Kiến trúc mạng nơ-ron đƣợc định nghĩa bởi số lớp(layer), số đơn vị trên mỗi lớp và sự liên kết giữa các lớp nhƣ thế nào. Mạng nơ-ron nĩi chung cĩ thể đƣợc chia làm 2 loại: mạng truyền thẳng và mạng hồi quy.
Hình 2.5 - Mạng nơ-ron truyền thẳng nhiều lớp
Mạng truyền thẳng: Dịng dữ liệu giữa đơn vị đầu vào và đầu ra chỉ
truyền thẳng theo một hƣớng. Việc xử lý dữ liệu cĩ thể mở rộng ra thành nhiều lớp, nhƣng khơng cĩ các liên kết phản hồi. Điều đĩ cĩ nghĩa là khơng tồn tại các liên kết mở rộng từ các đơn vị đầu ra tới các đơn vị đầu vào trong cùng một lớp hay các lớp trƣớc đĩ.
Hình 2.6 - Mạng nơ- ron hồi quy
Mạng hồi quy: Khác với mạng truyền thẳng, thuộc tính động của mạng
hồi quy cĩ đƣợc từ các liên kết ngƣợc. Mạng hồi quy đƣợc dùng trong các trƣờng hợp khi cĩ thơng tin hiện thời đƣa vào mạng đĩ, nhƣng chuỗi đầu vào là rất quan trọng, và chúng ta cần mạng nơ ron đĩ lƣu trữ một bản ghi của các đầu vào trƣớc tiên và khuếch đại chúng với dữ liệu hiện thời đĩ để sinh ra câu trả lời.
Khả năng học là điều thu hút nhiều quan tâm nhất tới mạng nơ-ron. Cho trƣớc một bài tốn cụ thể để giải quyết, và một lớp các hàm 𝑓, việc học cĩ nghĩa là sử dụng một tập các quan sát để tìm hàm 𝑓∗ ∈ 𝐹 giải đƣợc bài tốn một cách tốt nhất.
Việc đĩ địi hỏi định nghĩa một hàm chi phí 𝐶: 𝐹 → 𝑅 sao cho, với lời giải tối ƣu 𝑓∗, 𝐶(𝑓∗) ≤ 𝐶(𝑓)∀𝑓 ∈ 𝐹
Hàm chi phí 𝐶 là một khái niệm quan trọng trong học máy, là một phép đo khoảng cách tới lời giải tối ƣu cho bài tốn cần giải quyết. Các thuật tốn học tìm kiếm trong khơng gian lời giải để đƣợc một hàm cĩ chi phí nhỏ nhất cĩ thể.
Học cĩ giám sát là quá trình huấn luyện lặp đi lặp lại cho đến khi kết
quả đạt đƣợc giá trị mong muốn đã biết, mà để làm đƣợc điều đĩ phải điều chỉnh dần mạng do tồn tại sự khác biệt giữa đầu ra thực tế và đầu ra mong muốn. Sự khác biệt này đƣợc thuật tốn học sử dụng để điều chỉnh các trọng số trong mạng.Việc điều chỉnh các trọng số nhƣ vậy thƣờng đƣợc mơ tả nhƣ một bài tốn xấp xỉ số - cho dữ liệu huấn luyện bao gồm các cặp (mẫu đầu vào x, và một đích tƣơng ứng t), mục đích là tìm hàm f(x) thoả mãn tất cả các mẫu học đầu vào.
Học khơng giám sát khơng sử dụng tri thức bên ngồi trong quá trình
học nên cịn đƣợc gọi là mạng tự tổ chức. Mạng sẽ phải khám phá các đặc trƣng, các điều chỉnh, các mối tƣơng quan, hay các lớp trong dữ liệu vào một cách tự động. Trong thực tế, đối với phần lớn các biến thể của học khơng giám sát, các đích trùng với đầu vào. Nĩi một cách khác, học khơng giám sát thực hiện một cơng việc tƣơng tự nhƣ một mạng tự nhiên liên hợp, cơ đọng thơng tin từ dữ liệu vào.
Chƣơng 3: ỨNG DỤNG BÀI TỐN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG
Chƣơng này giới thiệu về bài tốn phân lớp dữ liệu thuê bao rời mạng. Quy trình thực nghiệm phân lớp dữ liệu thuê bao rời mạng với các thuật tốn cây quyết định C4.5, NB, SVM; Sau khi tiến hành thực nghiệm thực hiện đánh giá các thuật tốn. Các thực nghiệm đƣợc tiến hành trên ngơn ngữ R để lựa chọn thuộc tính và phân lớp dữ liệu thuê bao rời mạng.