Tế bào Nơron nhân tạo có độ chính xác và tốc độ cao

Dựa vào các phân tích thông qua bảng 2 và 3 ở trên, có thể thấy kiến trúc của nhóm nghiên cứu rất đơn giản và dễ thực hiện trong khi hoạt động của mạng nơron nhân tạo hoàn toàn kiểm [r]

(1)

15

Tế bào Nơron nhân tạo có độ xác tốc độ cao Nguyễn Quang Anh, Nguyễn Hoàng Dũng*

Trường Đại học Bách Khoa Hà Nội, Số Đại Cồ Việt, Hai Bà Trưng, Hà Nội, Việt Nam Nhận ngày 16 tháng 12 năm 2016

Chỉnh sửa ngày 18 tháng 01 năm 2017; Chấp nhận đăng ngày 23 tháng 03 năm 2017

Tóm tắt: Bài báo tập trung trình bày thiết kế tế bào nơron nhân tạo với phương pháp học giám

sát có khả thích ứng với nhiều thuật tốn địi hỏi độ xác tốc độ cao Dựa thuật toán huấn luyện có giám sát cấu tạo nơron thực, nhóm nghiên cứu xây dựng kiến trúc nơron nhân tạo có kiến trúc tương tự kèm xử lý số thực Kiến trúc dễ dàng tăng tốc độ xử lý cách mở rộng số tầng thực mô theo cấu trúc đường ống (pipeline) Để đảm bảo tốc độ độ xác cao, nhóm nghiên cứu thực tối ưu số kiến trúc dịch xử lý số thực song song Chính tăng thêm số tầng cho kiến trúc tốc độ tăng lên nhanh tài nguyên tăng lên không đáng kể Kết tổng hợp chip FPGA Virtex hãng Xilinx cho thấy kiến trúc nơron nhóm nghiên cứu đề xuất hoạt động lên đến tầng thực theo cấu trúc pipeline tốc độ đạt tối đa 108Mhz

Từ khóa: nơron nhân tạo, xử lý số thực, đường ống, dịch

1 Giới thiệu chung

Mạng nơron nhân tạo (Artificial Neural Network) công cụ phi tuyến để mơ hình hóa mối quan hệ phức tạp liệu đầu vào kết đầu từ tập mẫu liệu Mạng nơron gồm nhóm tế bào nơron nhân tạo nối với để xử lý thông tin cách truyền theo kết nối tính giá trị lớp nơron Có ba hướng huấn luyện mạng nơron học có giám sát, học không giám sát học bám giám sát Mỗi hướng huấn luyện có ưu, nhược điểm khác Nhưng để đạt độ xác cao nhất, nhóm nghiên cứu sử dụng mơ hình học có giám sát Với tham số khởi tạo chế xấp xỉ hàm tùy ý, sau huấn luyện mạng xử lý _



Tác giả liên hệ ĐT: 84-913004120 Email: dung.nguyenhoang@hust.edu.vn

tương đối tốt liệu quan sát cho kết xác

(2)

các thuật toán số học địi hỏi độ xác cao mà tài ngun sử dụng cần phải tiết kiệm đảm bảo tốc độ xử lý Thiết kế dựa nghiên cứu nơron thực, nghiên cứu kiến trúc nơron nhân tạo song song [4] kiến trúc nơron nhân tạo nối tiếp [5] Trong đó, nhóm nghiên cứu sử thiết kế xử lý số thực theo chuẩn IEEE 754 [6] dịch bit để đảm bảo độ xác tốc độ thực

Trong báo nhóm nghiên cứu trình bày tổng quan mạng nơron nghiên cứu liên quan phần II; thiết kế xử lý số thực theo chuẩn IEEE 745 [6] dịch bit để tăng độ xác tốc độ phần III; kết mô thảo luận phần IV kết luận phần V

2 Tổng quan mạng nơron nghiên cứu liên quan

2.1 Tổng quan mạng nơron

Hình biểu diễn mơ hình xử lý thơng tin người [7] Thông tin từ môi trường đưa não người thông qua giác quan não xử lý Quá trình chia thành khối (1) khối tín hiệu điện tương tự; (2) khối phân tích tiền xử lý; (3) khối nhận diện đặc trưng (4) phân chia thành nhóm thông tin khác Trong não người chứa đến 100 tỉ nơron thần kinh (tế bào thần kinh) với chức truyền dẫn xung điện Nơron đơn vị cấu tạo hệ thống thần kinh phần quan não

Hình Mơ hình xử lý thơng tin người

Cấu tạo nơron thật não người minh họa hình Một nơron gồm có thân nơron (cell body) nơi xử lý tín hiệu đưa vào từ giác quan Các dây hình nhánh (dendrites) nơi nhận xung điện vào nơron sợi trục (axons) dây dài đưa xung điện sau trình xử lý từ thân nơron Giữa dây hình nhánh sợi trục có liên kết với gọi khớp thần kinh (synapse)

Dendrites

Synapse

Axon

Cell Body

Hình Cấu tạo nơron thật não người Dựa vào cấu tạo nơron thật não người, nhóm nghiên cứu đưa mơ hình cấu tạo nơron nhân tạo hình [8] Trong P1, P2 đến Pn đầu vào mạng nơron nhân tạo Tổng đầu vào sau nhân với trọng số định trừ ngưỡng cần so sánh để xác cao, kí hiệu giá trị n F hàm dùng để lọc ngưỡng giá trị n kết đầu mạng nơron nhân tạo a

P1 P2 P3

Pn

f

n a

(3)

Giả sử có mơ hình hai tập liệu kí hiệu hình trịn vng cần phân loại hình Thuật toán xử lý liệu mạng nơron nhân tạo chưa huấn luyện mô tả hình Các kí hiệu W trọng số mạng nơron nhân tạo B giá trị ngưỡng xử lý Ở mơ hình có hai tập liệu vào input input Dữ liệu đầu vào nhân với trọng số tương ứng W1 W2 trừ ngưỡng B sau mang so sánh Hình biểu diễn kết mơ hình bị lỗi phần tử hình vng bị phân loại nhầm sang bên tập liệu phần tử hình trịn

Hình Hai tập liệu cần phân loại riêng kí hiệu trịn vng

Hình Thuật tốn xử lý liệu mạng nơron nhân tạo

*

j j

input W  B 

Hình Mơ hình phân loại có lỗi khởi tạo trọng số

(4)

Output = T ?

Yes Start

End

Output = ?

W1 -= Alpha*Input1 W2 -= Alpha*Input2 B = B -

W1 += Alpha*Input1 W2 += Alpha*Input2 B = B +

No

Yes

Hình Thuật tốn học mạng nơron nhân tạo

*

j j j

W W  W

*

B   B B

* * *

*

j j

input W B

 *

j j

input W B



Hình Mơ hình phân loại sau điều chỉnh trọng số từ trình học

2.2 Các nghiên cứu liên quan

Tế bào nơron nhân tạo thường có hai hướng xử lý đưa liệu liên quan vào theo kiểu nối kiểu song song Hình 10 biểu diễn mơ hình mạng nơron xử lý nối tiếp [9] xử lý song song [4]

Hình Mơ hình mạng nơron xử lý

(5)

Bảng Ưu nhược điểm mạng nơron xử lý song song nối tiếp

Mơ hình mạng nơron

Ưu điểm Nhược điểm

Xử lý song song

- Xử lý liệu nhanh, đảm bảo tính tốn thời gian thực - Tăng tỉ lệ liệu đầu vào hiệu dụng tiết kiệm tài nguyên nhớ - Dễ đưa kỹ thuật pipeline để tăng tốc độ tính tốn

- Số nhân cộng tăng lên tương ứng với số đường liệu vào - Nếu có số lượng đường liệu vào lớn ảnh hưởng đến yêu cầu kích thước vi mạch thực

Xử lý nối tiếp

- Tiết kiệm nhiều tài nguyên cổng logic phần cứng

- Khó xây dựng hàng đợi đồng liệu đầu vào thực nhiều lớp nơron - Số ghi flipflop tăng lên để lưu giữ giá trị tiết kiệm cổng logic

- Bộ điều khiển trở nên phức tạp khó kiểm sốt - Thời gian chậm liệu vào phải tính tốn nối tiếp

- Chu kỳ vịng tính tốn lớn Dựa nghiên cứu đó, nhóm nghiên cứu xây dựng bảng so sánh ưu nhược điểm mơ hình mạng nơron xử lý nối tiếp xử lý song song trình bày bảng Với ưu nhược điểm mơ hình, nhóm nghiên cứu nhận thấy mơ hình xử lý liệu song song có nhiều ưu điểm hẳn so với mơ hình nối tiếp Tuy nhiên để hạn chế nhược điểm mơ hình này, nhóm nghiên cứu đề xuất trình bày số cải tiến cho mơ hình xử lý liệu song song phần báo

3 Kiến trúc mạng nơron song song

3.1 Cải tiến mơ hình mạng nơron xử lý liệu song song

Trong thiết kế kiến trúc mang nơron Christodoulou [10] sử dụng cộng nối tiếp cho (N-1) đầu vào sau nhân với trọng số Phương pháp thiếu hợp lý khơng tối ưu tảng phần cứng làm tăng thời gian trễ từ nhân lọc giá trị So với cấu tạo mạng nơron thật sự, nhóm nghiên cứu đưa thêm đường tín hiệu điều khiển đường liệu vào để thuận tiện trình xử lý Hình 11 minh họa sơ đồ khối mạng nơron nhân tạo có kiến trúc xử lý song song nhóm nghiên cứu đề xuất

Hình 11 Đề xuất mơ hình mạng nơron xử lý song song

(6)

Mladenov [4] sử dụng 10 bit cho phần thập phân xử lý tới sai số cỡ phần nghìn Ngồi ra, thiết kế Alessandro [13] sử dụng nhân vi điều khiển NIOS chip

FPGA để đọc liệu từ RAM xử lý số

thực hồn tồn lãng phí tài ngun thực tế cần xây dựng xử lý số thực để nâng cao độ xác cho ứng dụng Chính vậy, nhóm nghiên cứu thiết kế nhân cộng cách cải tiến thêm số module toán tử tảng kiến trúc cộng nhân số thực Prof Al-Khalili [14] theo chuẩn IEEE 754 Với kiến trúc không xử lý số thực, tần số hoạt động tối đa mạng nơron dễ dàng đạt đến 200MHz Tuy nhiên, kiến trúc xử lý số thực, để xử lý cần nhiều công đoạn nhân, dịch đếm nối tiếp nên tần số hoạt động tối đa bị giảm nhiều

Hình 12 Cấu trúc cập nhật trọng số Cấu trúc cập nhật số biểu diễn hình 12 Hình 13 mơ tả phần cấu trúc dịch bit Với nhân sử dụng khối dịch bit theo xung đồng hồ, thời gian để thực tính tốn phép nhân số thực tăng chu lên nhiều Đối với phép dịch theo xung đồng hồ, trường hợp tốt không xung xấu số xung kích thước đầu vào dịch Tiêu biểu cho trường hợp thiết kế Hung-Ming Tsai [15] Với kiến trúc dịch bit xử lý nối tiếp, lớp nơron Réjean Fontaine [16] cần sử dụng tới 46 xung đồng hồ để tính tốn Nếu muốn sử dụng kiến trúc để thực ứng dụng thời gian thực tần số hoạt động tối đa nơron phải lớn Vì vậy, nhóm nghiên cứu đề xuất kiến trúc dịch bit

song song 32 bit mạch tổ hợp dựa vào phương pháp chia đôi lựa chọn bit Ý tưởng phương pháp có số 32 bit cần dịch số lượng bit 0n32 Biến đổi giá trị n dạng số nhị phân có bit từ [4:0] với bit bit có trọng số thấp (Least Significant Bit – LSB) bit bit có trọng số cao (Most Significant Bit – MSB) Như vậy, giá trị n = b4 * 16 + b3 * + b2 * + b1 * +

b0 * Với dịch số có n bit số tầng dịch

là log2n Thuật tốn mơ tả sau:

- Xử lý bit LSB để xác định số 32 bit cần dịch số bit chẵn hay số bit lẻ

- Xử lý bit thứ để xác định số 32 bit cần dịch thêm 2-bit hay không?

- Xử lý bit MSB để xác định số 32 bit cần dịch thêm 16-bit hay không?

Thực tương tự dịch bit song song, đếm đếm số bit từ trái sang phải gặp bit

Hình 13 Một phần cấu trúc dịch bit

3.2 Trạng thái hoạt động mạng nơron xử lý liệu song song

(7)

trạng thái đợi khởi tạo trọng số Trạng thái trạng thái đợi liệu đầu vào để tính toán Trạng thái thực nhân liệu đầu vào với trọng số khởi tạo trạng thái Kết trạng thái chuyển sang trạng thái để xử lý thông tin tổng hợp Ở trạng thái cuối cùng, tế bào nơron xuất kết tiến hành hiệu chỉnh trọng số cần thiết để kết lần sau xác sau lặp lại trạng thái đợi liệu kết thúc hồn tồn

Hình 14 Trạng thái hoạt động mạng nơron nhân tạo xử lý song song nhóm nghiên cứu đề xuất

Hình 15 minh họa giản đồ thời gian hoạt động mạng nơron nhân tạo xử lý song song nhóm nghiên cứu đề xuất Tín hiệu clock sử dụng để điều khiển hoạt động hệ thống Tín hiệu reset đưa tế bào nơron trạng thái tạm ngừng hoạt động trước có tín hiệu khởi tạo đưa vào để khởi tạo trọng số tương ứng Sau liệu đưa vào trạng thái tín hiệu tính tốn thiết lập mức để tính tốn phép nhân trọng số với liệu đầu vào trạng thái 3, xử lý thông tin tổng hợp trạng thái kết thúc chu trình làm việc trạng thái trước quay trạng thái tín hiệu trạng thái biểu diễn hình 15 Kết tính tốn cập nhật trạng thái cuối

Hình 15 Giản đồ thời gian hoạt động mạng nơron nhân tạo xử lý song song nhóm nghiên cứu đề xuất

4 Kết thảo luận

4.1 Kiểm thử mô hình đề xuất tảng phần cứng

Dựa vào thiết kế xử lý theo kiến trúc song song, nhóm nghiên cứu tiến hành thử nghiêm vào ứng dụng nhận diện khuôn mặt John See [17] John See thử nghiệm thành công việc nhận dạng với 600 khuôn mặt dựa tập 100 ảnh mẫu theo mơ hình hình 16 với cơng cự sử dụng phần mềm máy tính Từ thực nghiệm cụ thể, John See tìm biểu thức để phân loại màu da theo đồ thị hình 17 Nhóm nghiên cứu tiến hành mơ cách tạo tập liệu huấn luyện phần mềm máy tình tiến hành kiểm chứng liệu cách so sánh với liệu John See Từ tập liệu tín hiệu phân loại, nhóm nghiên cứu sử dụng thư viện nhớ chuẩn Xilinx để tạo nhớ RAM chứa đường liệu mô thay cho việc kết nối trực tiếp tới liệu

Hình 16 Mơ hình nhận dạng khn mặt dựa vào màu da John See [17]

(8)

Để mô trình huấn luyện báo tảng phần cứng FPGA, nhóm nghiên cứu tạo tập liệu huấn luyện cho mạng nơron nhân tạo dựa biểu thức:

Cr ≤ 1.5862 * Cb + 20 [17]

Nhóm nghiên cứu tạo mẫu liệu có 2000 phần tử, với giá trị Cr, Cb Sau nhóm nghiên cứu đánh giá đưa tập T giá trị đích huấn luyện với thuật toán lựa chọn sau:

Cr = rand()%256; Cr = rand()%256; T = Cr ≤ 1.5862 * Cb + 20 < ? : 1;

Kết mơ máy tính cơng cụ phần mềm ngôn ngữ C với tốc độ học 0.0003 biểu diễn hình 18 Nhóm nghiên cứu muốn thử nghiệm kiến trúc mạng nơron có kiến trúc xử lý song song tảng phần cứng FPGA Vertex (40nm) hãng Xilinx Nhóm nghiên cứu mơ mạng nơron nhân tạo công cụ Isim Xilinx ISE với trọng số khởi tạo Sau trình học tập, mạng nơron nhân tạo cho kết hình 19:

Alpha = 0x399d4952 = 0.0003d; W2 = 0x3f800000 = 1d

W1 = 0x3fca751b = 1.5816988d; Bias = 41a00000 = 20d

Như dễ dàng nhân thấy sai số thực tảng phần cứng công cụ phần mềm là:

1.5862 1.5816988

0.284% 1.5862





Hình 18 Kết mô với tốc độ học 0.0003 ngôn ngữ C

Hình 19 Kết mơ với tốc độ học 0.0003 Isim Xilinx ISE

4.2 Kết nạp lên phần cứng FPGA hãng Xilinx

So sánh kết nhóm nghiên cứu thực tảng phần cứng hãng Xilinx kết đề cập nghiên cứu [18, 19] đề cập bảng Qua bảng so sánh nhận thấy công nghệ FPGA mà nhóm nghiên cứu sử dụng Virtex (40nm), số liệu đầu vào với tính tốn số thực lên đến 32 bít số tài nguyên phần cứng (LUT/LE ghi) lại nhiều so sánh với kết nghiên cứu trước

Bảng Kết so sánh thực tảng phần cứng

Đặc điểm [18] [19] Nhóm

nghiên cứu Công

nghệ

Virtex (65nm)

Cyclone II (90nm)

Virtex (40nm) Số liệu

đầu vào 5

Tính tốn

số thực 16 bit 32 bit 32 bit

LUT/LE 8984 8737 2254

Thanh ghi 7591 2867 341 Bộ nhân 18 DSP 42 nhân

9 bit 10 DSP Bảng biểu diễn kết so sánh thực tổng hợp mạng nơron nhân tạo xử lý song song với số tầng pipeline khác Qua bảng nhóm nghiên cứu nhận thấy với số tầng tăng lên tốc độ xử lý nhanh nhiều (tăng lên đến lần so sánh việc sử dụng tầng sử dụng tầng pipeline) tài nguyên phần cứng tăng lên không đáng kể

Bảng Kết so sánh thực tầng khác

(9)

Dựa vào phân tích thơng qua bảng trên, thấy kiến trúc nhóm nghiên cứu đơn giản dễ thực hoạt động mạng nơron nhân tạo hoàn toàn kiểm soát điều khiển Bằng cách tự xây dựng module cần thiết, nhóm nghiên cứu tạo tạo mạng nơron có nhiều điểm tối ưu tài nguyên phần cứng thời gian tính toán Trong trường hợp tăng thêm số tầng pipeline thiết kế cần tăng thêm số lượng trạng thái tương ứng để đồng liệu không cần phải thay đổi kiến trúc tổng thể

5 Kết luận hướng phát triển

Trong báo nhóm nghiên cứu trình bày tổng quan mạng nơron cách thiết kế xử lý số thực theo chuẩn IEEE 745 Thông qua nhóm nghiên cứu để xuất mơ hình cải tiến mạng nơron nhân tạo xử lý song song kiểm thử tảng phần cứng FPGA hãng Xilinx Bằng cách tự xây dựng module cần thiết, nhóm nghiên cứu tạo tạo mạng nơron có nhiều điểm tối ưu tài nguyên phần cứng thời gian tính tốn Trong trường hợp tăng thêm số tầng pipeline thiết kế cần tăng thêm số lượng trạng thái tương ứng để đồng liệu Trong thời gian tiếp theo, nhóm nghiên cứu đề xuất mơ hình mạng nơron có khả triển khai nhiều thuật tốn thiết bị sử dụng nguồn pin đòi hỏi độ xác cực cao kết hợp lai ưu điểm kiến trúc mạng nơron xử lý song song nối tiếp

Tài liệu tham khảo

[1] Sicheng Li, Chunpeng Wu, Helen, Boxun Li, Yu Wang, Qinru Qiu - “FPGA Acceleration of Recurrent Neural Network based Language Model”

[2] Lei Liu, Jianlu Luo, Xiaoyan Deng, Sikun Li – “FPGA-based Acceleration of Deep Neural Networks Using High Level Method” - 2015 10th International Conference on P2P, Parallel, Grid, Cloud and Internet Computing

[3] Eriko Nurvitadhi, Jaewoong Sim, David Sheffield, Asit Mishra, Srivatsan Krishnan, Debbie Marr - “Accelerating Recurrent Neural Networks in Analytics Servers: Comparison of FPGA, CPU, GPU, and ASIC”

[4] Philippe Dondon, Julien Carvalho, Rémi Gardere, Paul Lahalle, Georgi Tsenov and Valeri Mladenov - “Implementation of a Feed-forward Artificial Neural Network in VHDL on FPGA”- 978-1-4799-5888-7/14/$31.00 ©2014 IEEE [5] Yufei Ma, Naveen Suda, Yu Cao, Jae-sun Seo,

Sarma Vrudhula - “Scalable and Modularized RTL Compilation of Convolutional Neural Networks onto FPGA”

[6] “IEEE Standard for Floating-Point Arithmetic” - September 03,2015 at 19:44:10 UTC from IEEE Xplore

[7] Peng Li, Ming Liu, Xu Zhang and Hongda Chen - “Effcient Online Feature Extraction algorithm for Spile Sorting in A Multichannel FPGA-Based Neural Recording System” - 978-1-4799-2346-5/14/$31.00 ©2014 IEEE

[8] SAMI EL MOUKHLIS, ABDESSAMAD ELRHARRAS, ABDELLATIF HAMDOUN - “FPGA Implementation of Artificial Neural Networks” - IJCSI International Journal of Computer Science Issues, Vol 11, Issue 2, No 1, March 2014

[9] Suhap Sahin, Yasar Becerikli, and Suleyman Yazici - “Neural Network Implementation in Hardware Using FPGAs” - ICONIP 2006, Part III, LNCS 4234, pp 1105 – 1112, 2006 © Springer-Verlag Berlin Heidelberg 2006 [10] E.Al Zuraiqi, M.Joler, C.G.Christodoulou -

[11] Zbigniew Szadkowski, Krzysztof Pytel, Pierre Auger Collaboration - “Artificial Neural Network as a FPGA Trigger for a Detection of Very Inclined Air Showers”- IEEE TRANSACTIONS ON NUCLEAR SCIENCE - 0018-9499 © 2015 IEEE

[12] Alin Tisan , Jeannette Chin - “An End User Platform for FPGA-based design and Rapid Prototyping of FeedForward Artificial Neural Networks with on-chip Back Propagation learning”- 10.1109/TII.2016.2555936, IEEE [13] Gabriele-Maria LOZITO, Antonino LAUDANI,

(10)

ADVANCES IN ELECTRICAL AND ELECTRONIC ENGINEERING

[14] Asim J Al-Khalili of Concordia University – Distinguished Emeritus Professor, P Eng -

“FLOATING POINT ADDERS AND

MULTIPILERS”

[15] Cheng-Jian Lina, Hung-Ming Tsai - “FPGA implementation of a wavelet neural network with particle swarm optimization learning” - Mathematical and Computer Modelling 47 (2008) 982–996

[16] Charles Geoffroy, Jean-Baptiste Michaud, Marc-André Tétrault, Julien Clerk-Lamalice, Charles-Antoine Brunet, Roger Lecomte, Réjean Fontaine - “Real Time Artificial Neural Network FPGA Implementation for Triple Coincidences Recovery in PET”- 0018-9499 © 2015 IEEE -

IEEE TRANSACTIONS ON NUCLEAR SCIENCE, VOL 62, NO 3, JUNE 2015 [17] Nusirwan Anwar bin Abdul Rahman, Kit Chong

Wei, John See - “RGB-H-CbCr Skin Colour Model for Human Face Detection”- Faculty of Information Technology, Multimedia University [18] Ravikant G Biradar, Abhishek Chatterjee, Prabhakar Mishra, Koshy George - “FPGA Implementation of a Multilayer Artificial Neural Network using System-on-Chip Design Methodology”-978-1-4799-7171-8/15/$31.00 ©2015 IEEE

High Accuracy and Speed of an Artificial Neural Cell Nguyen Quang Anh, Nguyen Hoang Dung

Hanoi University of Science and Technology, No 1, Dai Co Viet, Hai Ba Trung, Hanoi, Vietnam

Abstracts: This paper focusses on the neural cell design with supervised learning method adapting

to many algorithms which require high speed and accuracy Based on the supervised learning method and real neural structure, we built an artificial neural architecture which can process real numbers This architecture easily increases the speed by expanding the floor numbers modeled on pipeline structure To ensure high speed and accuracy we try to optimize some blocks of the shifters and parallel processor real number architectures Therefore, when increasing the floor numbers of the pipeline architecture the processing frequency increases rapidly while resources are not significantly increased The synthesis results implementing on Xilinx Virtex FPGA show that our artificial neural architecture can operate up to floors of the pipeline structure and maximum speed is reached 108 Mhz

Định dạng
Số trang	10
Dung lượng	435,65 KB