Sử dụng học sâu trong bài toán xác định tâm làn đường cho các thiết bị tự hành

10 27 1
Sử dụng học sâu trong bài toán xác định tâm làn đường cho các thiết bị tự hành

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đề xuất một mô hình học sâu dựa trên kiến trúc mạng CNN để xác định tâm làn đường đối với các thiết bị tự hành, đảm bảo độ chính xác trong nhiều điều kiện môi trường về ánh sáng và địa hình; yêu cầu độ phức tạp tính toán thấp, dễ dàng xây dựng tập dữ liệu huấn luyện.

Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University SỬ DỤNG HỌC SÂU TRONG BÀI TOÁN XÁC ĐỊNH TÂM LÀN ĐƯỜNG CHO CÁC THIẾT BỊ TỰ HÀNH Nguyễn Ngọc Tuấn*, Lại Tiến Đệ Đại học Kỹ thuật Lê Q Đơn Tóm tắt Bài báo đề xuất mơ hình học sâu dựa kiến trúc mạng CNN để xác định tâm đường thiết bị tự hành, đảm bảo độ xác nhiều điều kiện môi trường ánh sáng địa hình; u cầu độ phức tạp tính tốn thấp, dễ dàng xây dựng tập liệu huấn luyện Từ khóa: Thiết bị tự hành; hệ thống hỗ trợ lái; thuật tốn xác định đường; trí tuệ nhân tạo; học sâu; mạng nơron tích chập CNN Đặt vấn đề Trong năm gần đây, với phát triển cơng nghệ thơng tin, trí tuệ nhân tạo, lĩnh vực tự động hóa phát triển mạnh mẽ Nhu cầu xe không người lái, thiết bị tự hành ngày lớn Trong đó, nhận dạng, xác định đường đối thiết bị tự hành (Autonomous vehicles) hệ thống hỗ trợ lái xe (Driver Assistance Systems) toán đặc biệt quan trọng, đòi hỏi ngày cao xác, an tồn nhiều điều kiện khác ánh sáng, thời tiết thay đổi, đa dạng môi trường hoạt động Đối với thiết bị tự hành công nghiệp trước đây, liệu đầu vào thường lấy từ cảm biến cảm biến hồng ngoại, cảm biến từ trường với thiết kế cố định môi trường hoạt động ánh sáng, line đường , điều làm giới hạn phạm vi hoạt động tính đa dụng thiết bị Những thiết bị tự hành đại ô tô không người lái, máy bay không người lái, robot vận chuyển hàng hóa, drone giao hàng tự động thường sử dụng hệ thống camera để thu thập liệu cho việc xác định quỹ đạo di chuyển Dữ liệu từ cảm biến camera xử lý thuật tốn xử lý ảnh thơng thường lọc màu, phát cạnh, xoay ảnh, lọc nhiễu để bóc tách line đường từ xác định đường tâm đường Tuy nhiên, thuật tốn thường thiếu ổn định với nhiễu độ sáng thay đổi, đường xuất bóng cây, đường bị mưa ướt chí khơng thể xác định đường line đường bị Một ví dụ minh họa sử dụng xử lý ảnh phát line đường hình Tuy nhiên, thực tế, vạch kẻ đường lúc rõ ràng ví dụ trên, line đường bị mờ bị phương tiện khác che khuất dẫn đến * Email: ngoctuanhvhn@gmail.com 78 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University thuật tốn khơng thể bóc tách Đây hạn chế lớn thuật toán xử lý ảnh thông thường Origin Gray scale Houghline detection Threshold Hình Các giai đoạn xử lý ảnh lọc xác định đường sử dụng camera Thời gian gần đây, lĩnh vực trí tuệ nhân tạo nói chung học sâu nói riêng đạt nhiều thành tựu đột phá nhiều lĩnh vực đời sống, công nghệ Học sâu (deep learning) nhánh ngành máy học dựa tập hợp thuật tốn để cố gắng mơ hình liệu trừu tượng hóa mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến nhằm xấp xỉ hàm số đầu (output) đầu vào (input) [1] Học sâu tập kỹ thuật học máy mạnh sử dụng mạng neuron nhân tạo nhiều lớp 79 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Nhiều kiến trúc học sâu khác mạng tri giác đa lớp (MLP: Multi Layers Perceptron), mạng neuron tích chập (CNN - Convolution Neutral Network) [2], mạng tin cậy sâu (DBN - Deep Belief Network) mạng neuron hồi quy (RNN - Recurrent Neutral Network) áp dụng cho lĩnh vực thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên, nhận dạng âm ngôn ngữ tin sinh học, chúng chứng minh tạo kết tốt nhiều nhiệm vụ khác Đã có nhiều nghiên cứu nhằm ứng dụng deep learning vào toán xác định đường cho kết tốt [3, 4, 5] Với thuật tốn sử dụng mơ hình deep learning, mơ hình thường xây dựng theo kiến trúc giống với mạng Segmentation [6], từ hình ảnh đầu vào, mơ hình phân loại pixel có phải đường hay khơng Hình Kiến trúc mạng Segmentation Hình Sử dụng mạng Segmentation để xác định đường (pixel màu đỏ ứng với đường) Tuy nhiên, mơ hình có vài hạn chế: - Xây dựng liệu huấn luyện mơ hình khó khăn, cơng việc gán nhãn cho pixel ảnh có phải đường khơng tốn nhiều thời gian, dễ xảy nhầm lẫn - Mơ hình có độ phức tạp tính tốn lớn, cần nhiều lớp convolution phần encoder decoder, cần xử lý mạnh mẽ GPU xử lý thời gian thực 80 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University - Nghiên cứu nhằm đề xuất mơ hình deep learning có khả tốt việc dự đốn đường cho thiết bị tự hành mà có lực xử lý nhỏ, dễ dàng việc xây dựng liệu huấn luyện Xây dựng mơ hình dự đốn vị trí tâm đường Mục tiêu nghiên cứu xây dựng mơ hình học sâu có kích thước nhỏ nhất, đơn giản mà đáp ứng yêu cầu toán xác định đường cho thiết bị tự hành nhiều điều kiện đường khác Đầu thuật toán vị trí tâm đường thiết bị cần hướng đến thay hình ảnh phân loại pixel mạng Segmentation Việc đầu thuật toán đơn giản làm giảm thiểu nhiều độ phức tạp tính tốn mơ hình Mơ hình đề xuất xây dựng kiến trúc mạng CNN (Convolution Neural Network) [6] thông thường Hình So sánh kiến trúc mạng CNN mạng Segmentation a) Kiến trúc mạng CNN; b) Kiến trúc mạng Segmentation 2.1 Kiến trúc mơ hình Đối với mạng neuron nhân tạo (Artificial Neural Network - ANN) thông thường, đặc trưng ảnh trích xuất thơng qua thuật toán xử lý ảnh lọc ảnh, thay đổi khơng gian màu, phép biến hình, threshold trước đưa vào mạng ANN Khi sử dụng lọc số [7] để xem xét vài đặc trưng ảnh (Hình 5) Tuy nhiên, mơ hình học sâu, đặc trưng trích xuất cách tự động thơng qua lớp trích xuất đặc trưng, đầu vào ảnh số, lớp tích chập (Convolution layers) thường sử dụng cho kết tốt Những mơ hình học sâu thường gọi mạng tích chập 81 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Hình Sử dụng lọc số để xem xét đặc trưng ảnh Giống lớp ẩn khác, lớp tích chập lấy liệu đầu vào, thực phép chuyển đổi để tạo liệu đầu vào cho lớp (đầu lớp đầu vào lớp sau) Phép biến đổi sử dụng phép tính tích chập Mỗi lớp tích chập chứa nhiều lọc - phát đặc trưng (filter - feature detector) cho phép phát trích xuất đặc trưng khác ảnh Mạng CNN tập hợp lớp tích chập chồng lên sử dụng hàm nonlinear activation ReLU [8] để kích hoạt trọng số node Mỗi lớp sau thông qua hàm kích hoạt tạo thơng tin trừu tượng cho lớp Đối với thuật tốn xử lý ảnh thơng thường, tham số lọc chọn theo mục đích cụ thể lọc phát cạnh, lọc làm sắc nét, lọc làm mờ… Tuy nhiên, mạng CNN tham số khởi tạo ngẫu nhiên (có thể theo phân bố xác suất đó, 0) q trình huấn luyện, mơ hình tự học tham số để trích xuất đặc trưng cần thiết ảnh Mơ hình nghiên cứu phát triển từ cấu trúc mạng CNN, đầu vào mạng ảnh RGB kích thước 160x240x3, mạng sử dụng hàm sigmoid hàm activation cuối cùng, trả vị trí tâm đường chuẩn hóa Hình Mơ hình mạng CNN dự đốn tâm đường 82 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Trong mơ hình CNN có khía cạnh cần quan tâm tính bất biến (Location Invariance) tính bố cục (Compositionality) Với đối tượng, đối tượng chiếu theo gốc độ khác (translation, rotation, scaling) độ xác thuật toán bị ảnh hưởng đáng kể Pooling layer cho bạn tính bất biến phép dịch chuyển, phép quay phép co giãn Tính bố cục cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thông qua convolution từ filter Đó lý CNNs cho mơ hình với độ xác cao Cũng giống cách người nhận biết vật thể tự nhiên Ngoài ra, để tăng tốc độ huấn luyện, nhóm tác giả sử dụng kỹ thuật chuẩn hóa trung gian (Batch Normalization) [9] sau lớp tích chập Dropout [10] để giảm tượng overfiting 2.2 Huấn luyện mơ hình 2.2.1 Xây dựng mơ hình Sử dụng ngơn ngữ python [11] Keras-Tensorflow [12] nhóm nghiên cứu xây dựng mơ hình Dưới kiến trúc cụ thể mơ hình: _ Layer (type) Output Shape Param # ================================================================= conv2d_1 (Conv2D) (None, 80, 120, 16) 1216 _ batch_normalization_1 (Batch (None, 80, 120, 16) 64 _ leaky_re_lu_1 (LeakyReLU) (None, 80, 120, 16) _ max_pooling2d_1 (MaxPooling2 (None, 40, 60, 16) _ conv2d_2 (Conv2D) (None, 40, 60, 32) 4640 _ batch_normalization_2 (Batch (None, 40, 60, 32) 128 _ leaky_re_lu_2 (LeakyReLU) (None, 40, 60, 32) _ max_pooling2d_2 (MaxPooling2 (None, 20, 30, 32) _ conv2d_3 (Conv2D) (None, 20, 30, 64) 18496 _ leaky_re_lu_3 (LeakyReLU) (None, 20, 30, 64) _ max_pooling2d_3 (MaxPooling2 (None, 10, 15, 64) _ conv2d_4 (Conv2D) (None, 10, 15, 128) 73856 83 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University _ leaky_re_lu_4 (LeakyReLU) (None, 10, 15, 128) _ max_pooling2d_4 (MaxPooling2 (None, 5, 7, 128) _ flatten_1 (Flatten) (None, 4480) _ dropout_1 (Dropout) (None, 4480) _ dense_1 (Dense) (None, 64) 286784 _ leaky_re_lu_5 (LeakyReLU) (None, 64) _ dense_2 (Dense) (None, 32) 2080 _ leaky_re_lu_6 (LeakyReLU) (None, 32) _ dense_3 (Dense) (None, 1) 33 _ activation_1 (Activation) (None, 1) ================================================================= Total params: 387,297 (3 trăm 87 nghìn 297) Trainable params: 387,201 Non-trainable params: 96 Tổng tham số mơ hình 387,297 Mơ hình bao gồm lớp Convolution, lớp Dense, sử dụng hàm LeakyReLU làm activation (hàm phi tuyến) lớp, hàm sigmoid lớp cuối 2.2.2 Chuẩn bị liệu Dữ liệu hình ảnh (bên trái hình 7, 8) thu thập camera Astra xe mơ hình sa hình “Cuộc đua số” năm 2019 tập đoàn FPT phối hợp Đài Truyền hình Việt Nam tổ chức (phần màu đỏ góc thể hướng rẽ xe ngã ba, ngã tư tiếp theo) Sử dụng Toolbox xây dựng python với opencv để gán nhãn tâm đường (màu xanh cây) hình bên phải sau sử dụng xử lý ảnh để xác định vị trí tâm đường chuẩn hóa theo chiều rộng ảnh Input data tập ảnh bên trái với label vị trí tâm đường chuẩn hóa tương ứng Dữ liệu chuẩn bị gồm 15000 ảnh với địa hình, cung đường điều kiện ánh sáng khác Dữ liệu chia thành tập con: tập huấn luyện (training set) để huấn luyện mơ hình, tập kiểm sốt (validation set) để giám sát overfiting mơ hình tập đánh giá (test set) dùng để đánh giá kết mơ hình sau huấn luyện 84 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Hình Ảnh camera thu thập liệu huấn luyện thiết bị di động di chuyển điều kiện đường làn, đường có bóng râm Hình Ảnh camera thu thập liệu huấn luyện thiết bị di động di chuyển đường hầm với cường độ ánh sáng thay đổi điều kiện khác 2.2.3 Kết Mơ hình huấn luyện phần cứng: CPU: Intel Core i5 8400 GPU: Nvidia GTX 1060 6GB Training data: 12000 Validation data: 1500 Optimizer: Adam Test data: 1500 batch_size: 512 tổng epochs: 60 Thời gian huấn luyện 10 phút Kết huấn luyện mô hình mạng Deep learning đề xuất xác định tâm đường đưa hình 9, sai lệch chuẩn hóa (1,0 tương đương với 2,4 m thực tế) tâm đường mơ hình dự đốn so với nhãn tập huấn luyện tập kiểm soát Sai lệch giảm qua nhiều vòng huấn luyện (epochs - vòng huấn luyện mơ hình học tồn liệu từ tập huấn luyện) Kết huấn luyện vòng cuối cùng: sai lệch tập huấn luyện (training loss) 0,0034 (  0,8 cm), sai lệch tập kiểm soát (validation loss) 0,0036 (  0,9 cm) (hàm lỗi - loss function: mean squared error) 85 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Training loss validation loss giảm đều, mượt cho thấy mơ hình hội tụ tốt không xảy tượng overfiting Trên tập kiểm tra, mơ hình cho kết sai lệch (loss) cuối 0,0056 (  1,3 cm), tương đối sát với tập kiểm sốt (0,0036) Hình Kết huấn luyện mơ hình mạng deep learning đề xuất xác định tâm đường Kết luận Có thể thấy mơ hình nhóm nghiên cứu đưa cách xác định vị trí tâm đường đưa kết dự đốn tâm đường xác với vị trí tâm đường gán nhãn Mơ hình sau huấn luyện cho kết dự đoán tốt thực nghiệm, xác định xác vị trí tâm đường điều kiện khác Tốc độ tính tốn cao, độ trễ trung bình 14 ms, đạt 60 fps Jetson Tx2, đảm bảo hoạt động thời gian thực phần cứng có khả tính tốn khơng q mạnh Kết nghiên cứu hồn thiện ứng dụng toán điều khiển thiết bị tự hành di chuyển môi trường đô thị Cụ thể, kết nghiên cứu áp dụng cho đội thi MTA_Race4Fun Đại học Kỹ thuật Lê Qúy Đôn thi “Cuộc đua số” năm 2019 Tập đồn FPT phối hợp Đài Truyền hình Việt Nam tổ chức Đội thi MTA_Race4Fun đạt chức vô địch tồn quốc Trong q trình thực nhiệm vịng bán kết (Miền Bắc) vòng chung kết quốc gia, với điều kiện sa hình thi đấu khác nhau, điều kiện ánh sáng thay đổi ngẫu nhiên (sử dụng đèn led màu khác tạo hiệu ứng, đường hầm, hiệu ứng bóng râm giả), địa hình thay đổi (đi đường hầm, cầu), có đoạn đường line bên (đoạn đường tuyết, đoạn đường khơng có line), kết mơ hình đưa để dự đốn tâm đường xác cao, khơng gặp cố, đảm bảo thiết bị di chuyển trơn tru Tài liệu tham khảo 86 MMichael Nielsen (2019) Neural Networks and Deep Learning Springer US, pp 2-4 Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016) Deep learning The MIT Press US, pp 326-365 Journal of Science and Technique - N.206 (5-2020) - Le Quy Don Technical University Malte Oeljeklaus, Frank Hoffmann, Torsten Bertram (2018) A Fast Multi-Task CNN for Spatial Understanding of Traffic Scenes 2018 21st International Conference on Intelligent Transportation Systems (ITSC), Maui, pp 2825-2830 Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam (2018) Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, 2018 European Conference on Computer Vision (ECCV), Munich, pp 833-851 Yuenan Hou, Zheng Ma, Chunxiao Liu, and Chen Change Loy (2019) Learning Lightweight Lane Detection CNNs by Self Attention Distillation 2019 International Conference on Computer Vision (ICCV), Seoul , pp 1013-1021 Sharif Amit Kamran (2018) Efficient Yet Deep Convolutional Neural Networks for Semantic Segmentation 2018 International Symposium on Advanced Intelligent Informatics (SAIN), Yogyakarta, pp 123-130 Sandipan Dey (2018) Hands-On Image Processing with Python: Expert techniques for advanced image analysis and effective interpretation of image data Packt UK Takio Kurita (2017) Improvement of learning for CNN with ReLU activation by sparse regularization 2017 International Joint Conference on Neural Networks (IJCNN), Anchorage, pp 2684-2691 Vignesh Thakkar, Suman Tewary, Chandan Chakraborty (2018) Batch Normalization in Convolutional Neural Networks 2018 Fifth International Conference on Emerging Applications of Information Technology (EAIT), Kolkata, pp 1-5 10 ByungSoo Ko, Han-Gyu Kim, Ho-Jin Choi (2017) Controlled dropout: A different dropout for improving training speed on deep neural network 2017 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Banff, pp 972-977 11 Franỗois Chollet (2017) Deep Learning with Python Manning US 12 Aurélien Géron (2017) Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems O'Reilly Media US USE OF DEEP LEARNING IN THE PROBLEM FOR DETERMINING THE CENTER OF ROAD LANE FOR AUTONOMOUS VEHICLES Abstract: The paper proposes a deep learning model based on CNN architecture in the problem of determining the center of the road lane for autonomous vehicles, helping to improve quality, ensure accuracy in many different environmental conditions in light, weather change and complex terrain; The requirement of calculation complexity is not too high and it is easy to build the training data set Keywords: Autonomous vehicles; advanced driver assitance systems; lane detection algorithm; artificial intelligence; deep learning; Convolution Neutral Network - CNN Ngày nhận bài: 31/12/2019; Ngày nhận sửa lần cuối: 08/4/2020; Ngày duyệt đăng: 23/6/2020  87 ... cầu toán xác định đường cho thiết bị tự hành nhiều điều kiện đường khác Đầu thuật toán vị trí tâm đường thiết bị cần hướng đến thay hình ảnh phân loại pixel mạng Segmentation Việc đầu thuật toán. .. xuất xác định tâm đường Kết luận Có thể thấy mơ hình nhóm nghiên cứu đưa cách xác định vị trí tâm đường đưa kết dự đốn tâm đường xác với vị trí tâm đường gán nhãn Mơ hình sau huấn luyện cho kết... detection Threshold Hình Các giai đoạn xử lý ảnh lọc xác định đường sử dụng camera Thời gian gần đây, lĩnh vực trí tuệ nhân tạo nói chung học sâu nói riêng đạt nhiều thành tựu đột phá nhiều lĩnh

Ngày đăng: 18/05/2021, 08:25

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan