Bài viết đề xuất một giải pháp định vị các đối tượng bay kích cỡ nhỏ, trong khoảng cách gần trên cơ sở sử dụng stereo camera với thuật giải học sâu (deep learning) để giải quyết vấn đề trên. Kết quả thử nghiệm giải pháp đề xuất cho kết quả hoạt động ổn định và có khả năng triển khai thực tế.
Kỷ yếu Hội nghị Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/08/2018 DOI: 10.15625/vap.2018.00020 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING Hà Mạnh Đào1 Trường Đại học Công nghiệp Hà Nội (HaUI) wncs2012@gmail.com, daohm@haui.edu.vn TÓM TẮT: Ở Việt Nam đối tượng bay nói chung, đối tượng bay khơng người lái nói riêng máy bay khơng người lái, Quadcopter, Flyingcam, phát triển mạnh mẽ Vấn đề định vị đối tượng đặc biệt quan tâm an ninh quốc phòng, phát triển kinh tế với Cách mạng Cơng nghiệp 4.0 có nhiều phương pháp định vị đối tượng phương pháp có điểm mạnh nhược điểm riêng Trong báo tác giả đề xuất giải pháp định vị đối tượng bay kích cỡ nhỏ, khoảng cách gần sở sử dụng stereo camera với thuật giải học sâu (deep learning) để giải vấn đề Kết thử nghiệm giải pháp đề xuất cho kết hoạt động ổn định có khả triển khai thực tế Từ khóa: stereo camera, học sâu, hệ thống định vị, đối tượng bay, Flyingcam I ĐẶT VẤN ĐỀ Trên giới đối tượng bay nói chung, đối tượng bay khơng người lái máy bay không người lái, Quadcopter, FlyingCam, phát triển mạnh mẽ Trong nước đối tượng bay xuất ngày nhiều ứng dụng phổ biến nhiều lĩnh vực khác Chính vấn đề định vị đối tượng đặc biệt quan tâm lĩnh vực an ninh quốc phòng, phát triển kinh tế với Cách mạng Cơng nghiệp 4.0, vấn đề an tồn cho tòa nhà chung cư, vùng trọng điểm, an ninh biên giới, Đã có nhiều phương pháp định vị đối tượng ứng dụng phương pháp định vị Rada, GPS, camera quang học, Laze độ phân giải cao để định vị đối tượng bay Phương pháp định vị đối tượng bay camera với thành tựu khoa học phát triển mạnh mẽ giới nước Việc xác định vị trí đối tượng chuyển động camera đòi hỏi phương pháp xử lý ảnh, phương pháp nhận dạng, phương pháp xác định vị trí đối tượng qua ảnh thu liên tiếp để từ xác định vận tốc đối tượng chuyển động đảm bảo thời gian thực Trong báo này, thực xây dựng hệ thống SCMS (Stereo Camera based Monitoring System) sử dụng nhiều modul với camera để thu ảnh phân tích nhận dạng đối tượng qua ảnh sử dụng thuật giải học sâu với mạng nơ ron tích chập (CNN) Từ hệ thống tiến hành tính tốn định vị đối tượng bay gửi qua mạng trung tâm giám sát hiển thị lưu trữ lên đám mây Phần báo bố trí sau: phần II đề xuất xây dựng hệ thống SCMS; phần III phần mô cuối phần kết luận II HỆ THỐNG SCSM VỚI THUẬT GIẢI HỌC SÂU A Mô tả hệ thống SCSM Hệ thống SCSM ứng dụng thuật toán định vị để giám sát đối tượng bay thể hình Hệ thống gồm thành phần: Modul thu thập xử lý ảnh Camera1 Mạng truyền thông PS1 Trung tâm IPS1 Camera2 Camera1 Trung tâm giám sát giám sát PS2 IPS2 Mạng truyền thông Camera2 Camera1 (Internet/4G) PSn Cloud IPSn Camera2 Hình Hệ thống định vị giám sát đối tượng Hà H Mạnh Đào 155 Moduul định vị cục sử dụng stereo camera PSi P với i=1, , n Trungg tâm giám sáát: Thu thập thhông tin định vị v đốii tượng nnhận dạng từ modul PS Si gửi quua mạng Internnet/4G Dữ liệệu định vị y Trun ng tâm giám ssát xử lý để looại bỏ liệu dư thừa gửi lưu lên đáám mây cho pphép truy cập theo t dõi đâu qua m mạng mây: Cho phéép lưu trữ liệu định vị nhằm n phục vụụ cho người sử ể truy xuất dụng Thànhh phần đám m giám sát vị trí ccác đối tượng bay ứ đâu qua mạn ng sử dụng cácc thiết bị di độộng B B Modul PSi nhận dạn ng ảnh với thu uật giải học sâ âu t phần xử lý ảnh, địnhh vị đối tượngg IPS (Image Processing Mỗi moodul PSi (i=1 n) gồm có camera thành System) S IPS phải p có tài nguuyên xử lý mạạnh PC nh húng PC104, Raspberry R Pi, FPGA, để ccó thể đáp ứng thời gian th hực IPS có nhiệm n vụ m thời điểm m thu đồng thờ ời ảnh từ camera, c thực tiền xử llý ảnh nhận n dạng đối đ tượng ảnh thông qua mạạng CNN Trêên sở đối tượng đượcc nhận dạng, IIPS thực hiiện tính vị trí 3D đối đ tượng tronng hệ tọa độ ccục hệ ttọa độ hệ thốn ng Sau ó chuyển ữ liệu trung tâm giá ám sát qua mạng m truyền thhông mạng Internet tốc đđộ cao 4G G 1 Thuật giải học h sâu Thuật giải g học sâu sử dụng mạng nơ ron tích chập c (CNN) để nhận dạng ccác đối tượngg bay Hình cấu trúc c lớp mộột mạng nơ roon CNN Nó ggồm loại lớp p chính: Lớp tíích chập, lớp sub-samplingg (pool), lớp đầ ầu (FC) Các C lớp mạng m sắpp xếp theo kiếnn trúc truyền thẳng, t lần lượ ợt sau lớp tích chập m lớp sub-sa ampling sau s lớp tích chhập cuối lớp đầu Các lớp tích chập c sub-saampling cácc lớp hai chiềuu lớp đầu lớp chiều c Hình Cấu C trúc lớp củaa CNN - Lớp tíích chập: Bản đồ đặc trưng đầu lớp p tích chập đư ược tính theo ccông thức sau [2]: Yk f (W Wk * x) (2) với v x ảnh vàào, lọc tíchh chập liên quaan đến đồ đặc trưng thứ ứ k Wk; ‘*’ thể toánn tử tích chập 2D; f (.) th hể hàm kích k hoạt phi tuyến cho phhép trích lọc c đặc trưng phi tuyến Hààm kích hoạt phi tuyến đượ ợc sử dụng phổ p biến n ReUL [3] thay cho hhàm sigmoid, hyperbolic h tan ngent mạạng nơ ron truuyền thống Lớp tổng hợp (poool/sub-samplinng): lớp cho c phép tổng g hợp để giảm m độ phân giảii không gian c đồ đặc đ trưng để đạt đ bấất biến không gian biiến dạng dịịch đầu vào L Lớp có thhể lấy trung bình đầu đ vào lấy cực đại giiá trị đầu vào Như ưng lớp tổng hợp thường sử dụụng toán tử cự ực đại theo hàm h sau [5]: (3) Ykij max xkpq ( p , q )ij c phép toánn tổng hợp liênn kết với đồ đặc trưng g thứ k; Ykij đầu vùng v tổng hợpp ij thể hiệnn phần tử xxung quanh vị trí (i, j) xkpq phần tử tạii vị trí (p, q) chứa 156 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING - Lớp kết nối đầy đủ (FC: Full Connection): Lớp có kết nối đầy đủ để thực chức lập luận mức cao Trong toán phân loại chuẩn sử dụng tốn tử Softmax [5] toán tử thường thay máy véc tơ trợ giúp (SVM) để cải tạo độ xác phân loại mẫu [6] Mạng CNN để sử dụng để nhận dạng ảnh nói chung, nhận đạng đối tượng bay nói riêng, phải huấn luyện CNN huấn luyện thuật học có giám sát Q trình huấn luyện thực chất q trình cực tiểu hàm sai số tín hiệu thực với tín hiệu đầu mong muốn sử dụng tập liệu mẫu cặp {xk, dk} với k=1, 2, , K Giả sử tập liệu huấn luyện gồm K ảnh đầu vào K mẫu đầu mong muốn xk ảnh đầu vào thứ k, dk mẫu ảnh đầu mong muốn tương ứng Hàm sai số CNN có dạng: E (w) KxN L K NL ( y k 1 n 1 k n d nk ) (1) Trong yk ảnh đầu thực tương ứng với cặp mẫu {xk, dk} kỳ huấn luyện Mạng CNN thường huấn luyện chế độ mini-batch với thuật giảm gradient sai số E (t ) Các thuật giảm gradient sai số phổ biến GD, GDMV, RPROP, CG, LM [2] Quá trình huấn luyện CNN gồm pha: Pha truyền thẳng pha truyền ngược để cập nhật trọng số cho liên kết lớp mạng nhằm làm giảm sai số đầu Quá trình xây dựng huấn luyện CNN nhận dạng đối tượng bay thực thông qua bước sau: Tạo tập liệu ảnh mẫu đối tượng bay gồm tập: Tập huấn luyện tập test Tạo mạng CNN Khởi tạo trọng liên kết ngưỡng (bias) Tính tốn đầu tương ứng với mẫu đầu vào (truyền xuôi) Huấn luyện mạng để đạt đầu mong muốn mẫu đầu vào (truyền ngược) Thực kiểm thử CNN với tập liệu test Trong bước xây dựng CNN, tập liệu huấn luyện CNN đóng vai trị quan trọng việc phân loại nhận dạng đối tượng Đối với đối tượng bay, tập liệu huấn luyện phải thu thập nhiều hình ảnh khác nhau, nhiều kích cỡ khác cho đối tượng đối tượng vào trường quan sát Camera với tư bay khoảng cách bay khác Xác định vị trí PSi a) Xác định vị trí hệ tọa độ PSi Xét hệ Camera gồm Camera1( Left Camera) Camera2 (Right Camera) hình Từ hình tọa độ đối tượng p (Xp, Yp, Zp) tính từ ảnh hệ camera theo công thức (2), (3), (4) Z P(xp, Zp E (2) (3) 01 02 Xp f Xl Left Camera (4) Xr Right Camera Hình Hệ stereo camera b) Tính tốn vị trí hệ tọa độ hệ thống Giả sử PSi có tọa độ 0i (xi, yi, zi) với i=1, ,n, đối tượng j hệ tọa độ cục 0i có tọa độ (xij, yij, zij) tọa độ đối tượng j hệ tọa độ hệ thống có tọa độ tương ứng (x,y,z) tính theo công thức (5) (xq, yq, zq, 1)= (xij, yij, zij, 1) R (5) với R ma trận biến đổi: R=RTRα RT, Rα phép biến đổi tịnh tiến phép biến đổi quay tương ứng xác định trước từ việc bố trí ban đầu modul PSi Ví dụ giả sử thời điểm T từ camera PS1 thu ảnh xác định tọa độ hệ trục tọa độ 01 A(15,7, Z0), B(10,11, Z0); từ camera PS2 tính tọa độ Hà Mạnh Đào 157 đối tượng C(6, 6, Z0) D(10, 11,Z0), giả sử độ xâu Z Trong hệ tọa độ hệ thống 0XY: 01y1x1 có tọa độ (10, 5, 0), 02x2y2 có tọa độ (14, 10, 0) tọa độ đối tượng A, B, C, D hệ 0XY xác định là: A’: (25,12, Z0), B’: (20,16, Z0), C’: (20, 16, Z0), D’: (30, 11, Z0) Các liệu tọa độ từ PS1, PS2 gửi Trung tâm giám sát xử lý xác định tọa độ đối tượng P->B’=C’, Q->A’, R->D’ (hình 4) y2 Y D(10,11) C(6,7) Y P(20,16) 02 Q(25,12) x2 y1 R(30,11) B(10,11) A(15,7) x1 01 X X Hình 4: Ánh xạ tọa độ đối tượng PSi vào 0XY C Trung tâm giám sát Begin Khởi động đồng hệ thống Thu liệu tọa độ từ PSi (i=1 n) Loại bỏ liệu dư thừa Cập nhật tọa độ lên đồ Google Map Gửi liệu lên đám mây Tiếp tục ? End Hình Lưu đồ thuật toán Trung tâm giám sát Trung tâm giám sát có nhiệm vụ: Đồng hóa modul PSi khởi động Quét nhận tọa độ đối tượng gửi về, cập nhật thực hiển thị đồ Google Map nhằm giám sát đối tượng Gửi liệu lên đám mây Lưu đồ thuật toán Trung tâm giám sát đơn giản thể hình 158 ĐỊNH VỊ V ĐỐI TƯỢNG G BAY NHỎ, K KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMER RA VỚI CÔNG G NGHỆ DEEP LEARNING L III MÔ Ô PHỎNG SC CSM Hệ thốnng mơ hình 5, trrong gồm PS1, PS2 chung m kit Raspbberry Pi3 với c camera có c thơng số nhhư sau: Kít Raspberry R Pi3: Kít sử dụng hhệ điều hành Raspbian R sử dụ ụng OpenWR RT Trên kít càài đặt mơi trườ ờng Python 3.4 vớ ới thư viện OppenCV3.3 Trrên hệ thống n mạng nơ ron r CNN với m mã Python sẽẽ chạy thực nhận dạng đối tượnng từ ảnh, mỗii kênh cameraa CNN mera: có thhơng số sau Camm o Ống kính t iêu cự: F6.0M MM o Focus khoảảng: 20MM o Độ phân giiải Video: 6440 x 480 o Kích thướcc: 3.8 x 1.5 x 3cm Hình Mơ hình mơ mo odul PS1, PS2 Hệ thốnng sử dụng C CNN AlexNett thư viện n OpenCV 3.3 viết tr ngôn nggữ Python Đâ ây CNN đ huấn luyyện trước với hhàng triệu mẫẫu Với CNN n cho phép huấn luyện thheo phương p háp chuyển giao với tập mẫu m (hìnhh 6) để đảm bảảo tốc độ huấnn luyện nhanh Hìình Tập mẫẫu huận luyện chuyển giao Quá trìnnh huấn luyệnn với tập mẫu mô phỏ ỏng thựcc PC C mạnh đượợc huấn luyện n 300 kỳ k huấn luyện X y2 y1 P1(x11,,y11,z) x1 O1 P2(x21,yy21,z) O2 x2 O Y PS1 PS S2 v hệ tọa độ cục hhệ thống Hình Bố ttrí PS1, PS2 với Hà H Mạnh Đào 159 Quá trìnnh test: Chươnng trình mơ phhỏng thực hiệện song song camera bốố trí hìnhh 7, thu u ảnh với th hời gian cắt mẫu m T=20 ms Từ cặp ảảnh IPS thực xác địịnh vị trí ccác đối tượng hệ trục tọa độ cục bộ, b tính tốn trrong hệ trục ttọa độ hệ thốnng gửi tới PC P để cập nhậật lên hìnnh giám sát h ệ thống Sau đ tổng hợp h vị trí từ PS để choo kết cuối Các thô ông số hệ caamera: B= 3,88 cm, f= 0,2 cm m, O1O2=30 cm, tọa độ O1(50, O 10,0), O2(80,10,0), O kkhoảng cách Z Z=1m từ cáác tọa độ x, y xác địnhh côngg thức (3), (4) tọa độ hệ h thống tính theo cơnng thức (5) Kếết thu đượ ợc tương ứng với v đối tượợng từ PS S thể bảng O222 O112 O21 O111 O13 O14 O244 O23 Hình K Kết ảnh thu u với đối đ tượng từ bbộ PS Bảng Tọaa độ cục (PS) tọa độ hệ th hống đốối tượng Objjects Tọa độ cục (xi, yi, zi) Tọa độ ộ hệ thống (X, Y, Z) Tọa độ Hệ thống sauu xử lý O11 O12 O13 O14 O21 O22 O23 O24 (20, 20, 1000) (30, 30, 1000) (40, 20, 1000) (50, 26, 1000) (-10, 20, 1000) (0, 30, 1000) (10, 20, 1000) (20, 26, 1000) (70, 30, 100) (80, 40, 100) (90, 30, 100) (100, 36, 100) (70, 30, 100) (80, 40, 100) (90, 30, 100) (100, 36, 100) O O11=O21 O O12=O22 O O13=O23 O O14=O24 IV KẾT LUẬN Vấn đềề an ninh, kinhh tế, xã hội đốối với đối tượng bay kíích cỡ vừa, nhhỏ, tốc độ thấpp thực tế t th hực mộtt vấn đề đáng qquan tâm Để quản lý, cảnh h báo, ngăn ch hặn vấn đềề tiêu cực từ cáác đối tượng n đòi hởi phải p giám sát đ vị trí tốcc độ đđối tượng Bài báo đ thực xxây dựng hệ thống định h vị sở s camera sử dụng d công nghhệ học sâu màà cụ thể mạạng nơ non tích chập (CNN)) Kết thử nghiệm chứng tỏ hệ th hống khả thhi thực ttế Tuy nhiên hệ thống nhiều hạn chế: Chưa thực nghiệm trongg thực tế, chưa a phân tách đ đối tượng che khuất nnhau, chưa thử nghiệm với hệ h thống GIS đám mây tthực tế, tập ữ liệu huấn lu uyện cịn Trong T thời giaan tới chúng ttôi khắc phhục hạn ch hế đồng thời ứng dụng hệ thống vàào giám sát ca acstoaf nhà chung c cư, giám m sát khuu vực nhậy cảm m; thử nghiệm m giám sát chu uyển hàng lậuu qua biên giớới với đối tượng bay khác k V TÀI LIIỆU THAM KHẢO K [1] Waseem Rawat, R Zenghhui, Deep Coonvolutional Neural N Netwo orks for Imagge Classificattion: A Comprehensive Review, Neural Computtation 29, 23522–2449, 2017 [2] S L Phunng and A Bouzerdoum, M MATLAB library for conv volutional neuural network, Technical Report, ICT Research Innstitute, Visuaaland Audio S Signal Processsing Laboratorry, University of Wollongonng [3] Nair, V., & Hinton, G E., Rectifed llinear units im mprove restrictted Boltzmannn machines, Proceedings of o the 27th Internationnal Conferencee on Machine Learning (pp 807–814), In nternational M Machine Learnning Society, 2010 [4] LeCun Y., Bengio, Y., & Hinton, G., D Deep learning g, Nature, 521(7553), 436–4444, 2015 [5] Szegedy, C., Liu, W., Jia, Y., Serrmanet, P., Reed, S., Anguelov, D., Rabinovich, A., Going de eeper with convolutionn, Proceedinggs of the IEE EE Conferencee on Computeer Vision andd Pattern Recognition (pp 1–9), Los Alamitos, CA: C IEEE Com mputer Societty, 2015 160 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING [6] Tang, Y., Deep learning using linear support vector machines, 2013 [7] Deepika Jaswal, Sowmya.V, K.P.Soman, Image Classification Using Convolutional Neural Networks , International Journal of Advancements in Research & Technology, Volume 3, Issue 6, ISSN 2278-7763 , June2014 FLYING OBJECT LOCATION ESTIMATION FROM A STEREO CAMERA BASED THE DEEP LEARNING TECHNOLOGY Ha Manh Dao ABSTRACT: In Vietnam, the flying subjects in general , unmanned objects in particular, such as unmanned aircraft, Quadcopter, FlyingCam, developed strongly The problem of locating these objects is particularly concerned in defense security, in the economic development with the industrial revolution 4.0 There are many methods of locating these objects but each method is has its strengths and weaknesses In this paper, the we proposes a solution for locating small size objects, distance near, low velocity, using a stereo camera with deep learning algorithm to solve the problem Test results show that the system can be deployed in practical applications ... Societty, 2015 160 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING [6] Tang, Y., Deep learning using linear support vector machines, 2013 [7] Deepika Jaswal,... dạng đối tượng Đối với đối tượng bay, tập liệu huấn luyện phải thu thập nhiều hình ảnh khác nhau, nhiều kích cỡ khác cho đối tượng đối tượng vào trường quan sát Camera với tư bay khoảng cách bay. .. kết với đồ đặc trưng g thứ k; Ykij đầu vùng v tổng hợpp ij thể hiệnn phần tử xxung quanh vị trí (i, j) xkpq phần tử tạii vị trí (p, q) chứa 156 ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ