Mạng lưới thần kinh sẽ đưa ý tưởng này đến mức tốt nhất bằng cách sử dụng các thuật toán rất đơn giản, nhưng nhiều tham số được tối ưu hóa cao.. Bài tiểu luận sau đây sẽ trình bày nhiều
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Giảng viên hướng dẫn: TS Đỗ Trung Kiên
Nguyễn Văn Phú Nguyễn Tiến Đạt
HÀ NỘI – 2023
Trang 3MỤC L C Ụ
I GIỚI THI U VỆ ỀỀ Ử X LÝ TÍN HI U SỆ ỐỐ VÀ NEURAL NETWORK 1
II TỔNG QUAN VỀỀ M NG LẠ ƯỚI THẦỀN KINH – NEURAL NETWORK 12.1 Phát hi n m c tiêu 1ệ ụ
2.2 Kiếến trúc m ng l i th n kinh 3ạ ướ ầầ
Trang 4I GIỚI THIỆU VỀ XỬ LÝ TÍN HIỆU SỐ VÀ NEURAL NETWORK
Digital Signal Processing (DSP) – Xử lý tín hiệu số truyền thống được dựa trên các thuật toán , thay đổi dữ liệu từ dạng này sang dạng khác thông qua quy trình từng bước Hầu hết các kỹ thuật này cũng cần các thông số để hoạt động Ví dụ: bộ lọc đệ quy sử dụng hệ số đệ quy , phát hiện tính năng có thể được thực hiện theo tương quan và ngưỡng , hiển thị hình ảnh phụ thuộc vào cài đặt độ sáng và độ tương phản, v.v Các thuật toán mô tả những gì sẽ được thực hiện, trong khi các tham số cung cấp điểm chuẩn để đánh giá dữ liệu Việc lựa chọn đúng các tham số thường quan trọng hơn bản thân thuật toán Mạng lưới thần kinh sẽ đưa ý tưởng này đến mức tốt nhất bằng cách sử dụng các thuật toán rất đơn giản, nhưng nhiều tham số được tối ưu hóa cao Đây là một bước khởi đầu mang tính cách mạng so với nền tảng truyền thống của khoa học và kỹ thuật: logic toán học và lý thuyết hóa, sau đó là thực nghiệm Mạng lưới thần kinh thay thế các chiến lược giải quyết vấn đề này bằng phương pháp trial-and-erro, các giải pháp thực tế và phương pháp "cái này hoạt động tốt hơn cái kia" Bài tiểu luận sau đây sẽ trình bày nhiều vấn đề liên quan đến việc lựa chọn tham số trong cả mạng thần kinh và các thuật toán DSP truyền thống
II TỔNG QUAN VỀ MẠNG LƯỚI THẦN KINH – NEURAL
NETWORK
II.1 Phát hiện mục tiêu
Các nhà khoa học & kỹ sư thường cần biết liệu một đối tượng hoặc điều kiện cụ thể cótồn tại hay không Ví dụ, các nhà địa vật lý khám phá trái đất để tìm dầu mỏ, các bác sĩ khám bệnh cho bệnh nhân, các nhà thiên văn học tìm kiếm trí thông minh ngoài trái đất trong vũ trụ, v.v Những vấn đề này thường liên quan đến việc so sánh dữ liệu thu được với một ngưỡng Nếu vượt quá ngưỡng, mục tiêu (đối tượng hoặc điều kiện đang được tìm kiếm) được coi là có mặt
Cách tiếp cận thông thường để phát hiện mục tiêu (đôi khi được gọi là nhận dạng mẫu)
là một quy trình gồm hai bước:
Bước đầu tiên được gọi là trích xuất tính năng - feature extraction Điều này sử
dụng các thuật toán để giảm dữ liệu thô thành một số tham số, chẳng hạn như đường kính,
độ sáng, độ sắc nét của cạnh, v.v Các tham số này thường được gọi là các tính năng - features hoặc phân loại - classifiers Trích xuất tính năng là cần thiết để giảm lượng dữ
Trang 5liệu Ví dụ, một hình ảnh x-quang y tế có thể chứa hơn một triệu điểm ảnh Mục tiêu của trích xuất tính năng là chắt lọc thông tin thành một dạng tập trung hơn và dễ quản lý hơn Kiểu phát triển thuật toán này là một nghệ thuật hơn là khoa học Cần rất nhiều kinh nghiệm và kỹ năng để xem xét một vấn đề và nói: "Đây là những phân loại nắm bắt thông tin tốt nhất " Thuật ngữ Trial-and-erro đóng một vai trò quan trọng (Thuật ngữ này có nghĩa là thử các phương pháp khác nhau cho đến khi tìm được phương pháp đúng nhất)Trong bước thứ hai, chúng ta sẽ thực hiện đánh giá đối với các bộ phân loại để xác định xem mục tiêu có hiện diện hay không Nói cách khác, một số phương pháp được sử dụng để phân chia không gian tham số thành một vùng tương ứng với các vùng mục tiêu và không phải mục tiêu Điều này khá đơn giản đối với không gian một và hai tham số; các điểm dữ liệu đã biết được vẽ trên biểu đồ (chẳng hạn như Hình 26-3) và các vùng được phântách bằng mắt
Sự phân chia sau đó được viết vào một chương trình máy tính dưới dạng một phương trình hoặc một số cách khác để xác định vùng này với vùng khác Về nguyên tắc, kỹ thuật tương tự này có thể được áp dụng cho không gian tham số ba chiều Vấn đề là, bài toán chúng ta đặt ra có rất nhiều tham số được đưa vào, do đó đồ thị ba chiều rất khó để con người hiểu và hình dung (chẳng hạn như Hình 26-4)
Trang 6Nói tóm lại, chúng ta cần một cỗ máy có thể thực hiện phân chia không gian theo nhiều tham số, theo các tín hiệu mục tiêu và không phải mục tiêu Hệ thống phát hiện mục tiêu lý tưởng mà chúng ta muốn nói đến ở đây chính là mạng lưới thần kinh
II.2 Kiến trúc mạng lưới thần kinh
Con người và các động vật khác xử lý thông tin bằng mạng lưới thần kinh Chúng được hình thành từ hàng nghìn tỷ tế bào thần kinh trao đổi các xung điện ngắn gọi là điện thế hoạt động
Nghiên cứu mạng nơ-ron được thúc đẩy bởi hai mong muốn: hiểu rõ hơn về bộ não con người và phát triển các máy tính có thể xử lý các vấn đề trừu tượng và khó xác định Ví
dụ, các máy tính thông thường gặp khó khăn trong việc hiểu lời nói và nhận dạng khuôn mặtcủa mọi người Trong khi đó, con người làm rất tốt những nhiệm vụ này
Nhiều cấu trúc mạng thần kinh khác nhau đã được thử nghiệm, một số dựa trên việc bắt chước những gì một nhà sinh học nhìn thấy dưới kính hiển vi, một số dựa trên phân tích toán học Cấu trúc được sử dụng phổ biến nhất được thể hiện trong Hình 2.1
Trang 7Hình 2.1 Cấu trúc mạng thần kinh cơ bản
Mạng thần kinh này được hình thành bởi ba lớp: lớp đầu vào, lớp ẩn và lớp đầu
ra Mỗi lớp bao gồm một hoặc nhiều nút , được biểu thị trong sơ đồ này bằng các vòng tròn nhỏ Các đường giữa các nút biểu thị luồng thông tin từ nút này sang nút khác Trong loại mạng thần kinh cụ thể này, thông tin chỉ truyền từ đầu vào đến đầu ra (nghĩa là từ trái sang phải) Các loại mạng thần kinh khác có các kết nối phức tạp hơn, chẳng hạn như các đường dẫn phản hồi
Mỗi giá trị từ lớp đầu vào được sao chép và gửi đến cả các nút ẩn Điều này được tấtgọi là một cấu trúc liên kết đầy đủ Như được hiển thị trong Hình 2.2, các giá trị đi vào một nút ẩn được nhân với trọng số - weigh, một tập hợp các số được xác định trước được lưu trữ trong chương trình Các đầu vào có trọng số sau đó được thêm vào để tạo ra một số duy nhất Điều này được thể hiện trong biểu đồ bằng ký hiệu ∑ Trước khi rời khỏi nút, con
số này được chuyển qua một hàm toán học phi tuyến tính được gọi là sigmoid Đây là một đường cong hình chữ "s" giới hạn đầu ra của nút Nghĩa là, đầu vào của sigmoid là một giá trị giữa -∞ và +∞, trong khi đầu ra của nó chỉ có thể nằm trong khoảng từ 0 đến 1
Trang 8Hình 2.2 Nút hoạt động của mạng thần kinh
Mạng lưới thần kinh có thể có nhiều lớp và với bất kì số lượng nút nào Hầu hết các ứng dụng sử dụng cấu trúc ba lớp với tối đa vài trăm nút đầu vào Lớp
ẩn thường chiếm khoảng 10% kích thước của lớp đầu vào Trong trường hợp phát hiện mục tiêu, lớp đầu ra chỉ cần một nút duy nhất Đầu ra của nút này được đặt ngưỡng để cung cấp tín hiệu dương (positive) hoặc âm (negative) về
sự hiện diện hay vắng mặt của mục tiêu trong dữ liệu đầu vào
Bảng 2.1 là một chương trình để thực hiện lưu đồ hình 2.1 Điểm mấu chốt là kiến trúcnày rất đơn giản và rất tổng quát Sơ đồ quy trình tương tự này có thể được sử dụng cho nhiều vấn đề, bất kể những điều bất thường nào của chúng Khả năng cung cấp thao tác dữ liệu hữu ích của mạng nơ-ron nằm ở việc lựa chọn đúng các trọng số Đây là một sự khác biệt đáng kể so với quy trình xử lý thông tin thông thường, nơi các giải pháp được mô tả theo quy trình từng bước
Trang 9Bảng 2.1 Mạng lưới thần kinh cho lưu đồ
Ví dụ, hãy tưởng tượng một mạng lưới thần kinh để nhận dạng các đối tượng trong tín hiệu sonar Giả sử có 1000 mẫu từ tín hiệu được lưu trữ trong máy tính Làm thế nào để máytính xác định xem những dữ liệu này đại diện cho tàu ngầm, cá voi, ngọn núi dưới đáy biển hay không có gì cả? Xử lý tín hiệu số thông thường sẽ tiếp cận vấn đề này bằng toán học và thuật toán, chẳng hạn như phân tích tương quan và phổ tần số Với mạng thần kinh, 1000 mẫu được đưa vào lớp đầu vào một cách đơn giản, dẫn đến các giá trị xuất hiện ở lớp đầu
ra Bằng cách chọn trọng số phù hợp, đầu ra có thể được cấu hình để dự đoán nhiều loại thông tin Chẳng hạn, có thể có kết quả đầu ra cho: tàu ngầm (có/không), cá voi (có/không), núi dưới đáy biển (có/không), v.v
II.3 Cách thức hoạt động
Các trọng số cần thiết để tạo ra một mạng thần kinh thực hiện một nhiệm vụ cụ thể được tìm thấy bằng một thuật toán học tập Learning Algorithm - , cùng với các ví dụ về cách một hệ thống nên hoạt động Thuật ngữ học tập được sử dụng rộng rãi trong lĩnh vực mạng thần kinh để mô tả quá trình tập hợp các trọng số phù hợp; tuy nhiên, chúng ta có thể
sử dụng một mô tả tốt hơn bằng cách: xác định tập trọng số được tối ưu hóa dựa trên số liệu thống kê của các ví dụ
Trang 10Theo quan điểm phức tạp nhất, mạng nơ-ron là một phương pháp gán nhãn cho các vùng khác nhau trong không gian tham số Ví dụ, hãy xem xét mạng thần kinh của hệ thốngsonar với 1000 đầu vào và một đầu ra duy nhất Với lựa chọn trọng lượng phù hợp, đầu ra
sẽ gần bằng một nếu tín hiệu đầu vào là tiếng vọng từ tàu ngầm và gần bằng nếu đầu vào 0chỉ là tiếng ồn Điều này tạo thành một siêu không gian tham số có 1000 chiều Mạng thần kinh là một phương pháp gán giá trị cho từng vị trí trong siêu không gian này Nghĩa là,
1000 giá trị đầu vào xác định một vị trí trong siêu không gian, trong khi đầu ra của mạng thần kinh cung cấp giá trị tại vị trí đó Một bảng tra cứu có thể thực hiện nhiệm vụ này một cách hoàn hảo, giá trị đầu ra sẽ lưu trữ từng địa chỉ của đầu vào Sự khác biệt là mạng thần kinh tính toán giá trị tại mỗi vị trí (địa chỉ), chứ không phải lưu trữ một giá trị quá lớn Trên thực tế, kiến trúc mạng thần kinh thường được đánh giá bằng cách chúng phân tách siêu không gian tốt như thế nào đối với một số trọng số nhất định
Cách tiếp cận này cũng cung cấp một vài ý tưởng về cách xác định số nút cần thiết trong lớp ẩn Một không gian tham số có kích thước yêu cầu số để chỉ định một vị N Ntrí Xác định một vùng trong siêu không gian yêu cầu 2 các giá trị (nghĩa là giá trị tối thiểuN
và tối đa dọc theo mỗi trục xác định khối hình chữ nhật siêu không gian) Chẳng hạn, nhữngphép tính đơn giản này sẽ chỉ ra rằng một mạng thần kinh có 1000 đầu vào cần 2000 trọng
số để xác định một vùng của siêu không gian với một vùng khác Trong một mạng được kết nối hoàn toàn, điều này sẽ yêu cầu hai nút ẩn Số vùng cần thiết phụ thuộc vào bài toán cụ thể, nhưng có thể dự kiến sẽ ít hơn nhiều so với số chiều trong không gian tham số Mặc dù đây chỉ là một phép tính gần đúng thô, nhưng nó thường giải thích lý do tại sao hầu hết các mạng thần kinh có thể hoạt động với lớp ẩn có kích thước từ 2% đến 30% kích thước của lớp đầu vào
DSP thông thường dựa trên hai kỹ thuật, tích chập và phân tích Fourier Mạng thần kinh có thể thực hiện đồng thời cả 2 kỹ thuật này và cộng thêm nhiều kỹ thuật khác Giả sử một tín hiệu mẫu được lọc để tạo ra tín hiệu mẫu khác Theo kỹ thuật tích chập, mỗi N Nmẫu trong tín hiệu đầu ra là tổng trọng số của các mẫu đầu vào Bây giờ, hãy tưởng tượng một mạng thần kinh hai lớp với nút trong mỗi lớp Giá trị được tạo bởi mỗi nút lớp đầu ra Ncũng là tổng trọng số của các giá trị đầu vào Nếu mỗi nút ở lớp đầu ra sử dụng cùng trọng
số như tất cả các nút đầu ra khác, thì mạng sẽ thực hiện phép tích chập tuyến tính Tương tự như vậy, DFT (phân tích Fourier) có thể được tính toán bằng mạng thần kinh hai lớp với nút trong mỗi lớp Mỗi nút lớp đầu ra chúng ta sẽ tìm biên độ của một thành phần tần N
Trang 11số Điều này được thực hiện bằng cách làm cho trọng số của mỗi nút của lớp đầu ra giống như hình sin Tất nhiên, mạng thần kinh hai lớp sẽ kém hiệu quả hơn nhiều so với kiến trúc
ba lớp tiêu chuẩn Với kiến trúc ba lớp, các mạng thần kinh có thể đồng thời xử lý phi tuyến
và tuyến tính
III HUẤN LUYỆN VÀ ĐÁNH GIÁ KẾT QUẢ MẠNG THẦN KINH III.1 Huấn luyện mạng thần kinh
Hãy tưởng tượng bạn là một người leo núi trên đỉnh núi và màn đêm buông
xuống Bạn cần đến trại căn cứ của mình ở dưới chân núi, nhưng trong bóng tối chỉ với chiếc đèn pin yếu ớt của mình, bạn không thể nhìn thấy nhiều hơn một vài mét mặt đất trướcmặt Vậy làm thế nào để bạn xuống? Một chiến lược cơ bản và hiệu quả nhất là nhìn theo mọi hướng để xem mặt đất dốc xuống nhiều nhất theo hướng nào, rồi tiến về phía đó Lặp lại quá trình này nhiều lần và bạn sẽ dần dần đi xuống chân núi
Kịch bản này có vẻ như không liên quan đến mạng lưới thần kinh, nhưng thực ra đây lại là một phép loại suy tốt để chúng được huấn luyện Trên thực tế, đây là kỹ thuật chính được sử dụng và có tên là giảm dần độ dốc – Gradient Descent
Cách thức hoạt động của phương pháp giảm dần độ dốc tương tự như phép loại suy của người leo núi mà chúng ta đã đưa ra ở phía trên Đầu tiên, chúng ta bắt đầu với một dự đoán ngẫu nhiên về các tham số Sau đó, tìm ra hướng nào mà hàm mất mát dốc xuống nhiều nhất (liên quan đến việc thay đổi các tham số) và bước nhẹ theo hướng đó Nói cách khác, chúng ta xác định số lượng để điều chỉnh tất cả các tham số sao cho hàm mất mát giảm một lượng lớn nhất Cuối cùng, lặp đi lặp lại quá trình này cho đến khi tìm thấy điểm thấp nhất
Để tìm ra hướng dốc xuống nhiều nhất, cần phải tính toán độ dốc của hàm mất mát đốivới tất cả các tham số Độ dốc là sự tổng quát hóa nhiều chiều của đạo hàm ; nó là một vectơ chứa từng đạo hàm riêng của hàm đối với từng biến Nói cách khác, nó là một vectơ chứa hệ số góc của hàm mất mát dọc theo mỗi trục
Một hàm mất mát thông thường sẽ được đặc trưng bởi trọng số MSE (Mean Square Erro) có công thức:
J =
Có 2 tham số chúng ta cần tối ưu hóa là: và m b
Trang 12= =Chúng ta nên bước bao xa theo hướng đó? Điều này là một yếu tố quan trọng trong quá trình giảm dần độ dốc thông thường, được coi là một siêu tham số để quyết định theo cách thủ công Siêu tham số này còn được gọi là tốc độ học tập - nói chung là siêu tham số nhạy cảm và quan trọng nhất cần đặt và thường được ký hiệu là α Nếu như α được đặt quá thấp, có thể mất một thời gian dài để chạm đáy Nếu như α quá cao, chúng ta có thể vượt quá con đường chính xác hoặc thậm chí leo lên trên.
Hình 3.1 Đồ thị hàm loss với tốc độ học tập khác nhauVới bài toán có nhiều tham số hơn, chúng ta có công thức sau:
W :=
Công thức trên là công thức chính tắc để giảm độ dốc thông thường Nó được đảm bảomang đến cho chúng ta bộ tham số tốt nhất cho hồi quy tuyến tính hoặc cho bất kỳ vấn đề tối ưu hóa tuyến tính nào
Trang 13Để hiểu rõ hơn chúng ta sẽ xét một ví dụ về việc nhận dạng văn bản Dữ kiện đề bài đưa ra là in 26 chữ hoa: A, B, C, D … Y, Z, 50 lần trên một tờ giấy Tiếp theo, 1300 chữ cái này được chuyển đổi thành hình ảnh kỹ thuật số bằng cách sử dụng một trong nhiều thiết bị quét có sẵn cho máy tính cá nhân Hình ảnh kỹ thuật số lớn này sau đó được chia thành các hình ảnh nhỏ 10 × 10 pixel, mỗi hình ảnh chứa một chữ cái Thông tin này được lưu trữ dưới dạng cơ sở dữ liệu 1,3 Megabyte: 1300 hình ảnh; 100 pixel cho mỗi hình ảnh; 8 bit trên mỗi pixel Chúng ta sẽ sử dụng 260 hình ảnh đầu tiên trong cơ sở dữ liệu này để huấn luyện mạng thần kinh ( xác định trọng số) và phần còn lại để kiểm tra hiệu suất của nó.
Và nhiệm vụ được đưa ra là xác định hình ảnh 10×10 nào chứa nguyên âm A, E, I, O (hoặc U)
Mạng thần kinh được sử dụng trong ví dụ này là kiến trúc ba lớp truyền thống, được kết nối hoàn toàn với nhau Có 101 nút trong lớp đầu vào (100 giá trị pixel cộng với nút thiên vị), 10 nút trong lớp ẩn và 1 nút trong lớp đầu ra Khi một hình ảnh 100 pixel được áp dụng cho đầu vào của mạng, chúng tôi muốn giá trị đầu ra gần bằng nếu có nguyên âm và 1gần bằng nếu không có nguyên âm.0
Bảng 3.1 là chương trình chính mà máy tính sẽ thực hiện để tìm trọng số của mạng thần kinh mà bài toán đưa ra Đầu tiên, chương trình đặt mỗi trọng số thành một giá trị ban đầu tùy ý bằng cách sử dụng bộ tạo số ngẫu nhiên Như được hiển thị trong các dòng 190 đến 240, trọng số của lớp ẩn được gán các giá trị ban đầu trong khoảng từ -0,0005 đến 0,0005, trong khi trọng số của lớp đầu ra nằm trong khoảng từ -0,5 đến 0,5 Các phạm vi này được chọn có cùng thứ tự độ lớn mà các trọng số cuối cùng phải có Điều này dựa trên: (1) phạm vi giá trị trong tín hiệu đầu vào, (2) tổng số đầu vào tại mỗi nút và (3) phạm vi giá trị mà sigmoid đang hoạt động, đầu vào khoảng -5 < < 5 và đầu ra từ 0 đến 1 x