Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và rất mất thời gian. Bài viết trình bày việc xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một phần của mạng Inception v3 đã huấn luyện.
Cơng nghệ thơng tin MƠ HÌNH HUẤN LUYỆN MẠNG NƠ-RON DỰA TRÊN ẢNH MƠ PHỎNG Đặng Hồng Minh*, Phạm Văn Lai Tóm tắt: Ngày nay, việc ứng dụng Deep Learning xử lý ảnh ngày phổ biến Trong trình khai thác học sâu, người ta dần nhận thấy mối liên hệ mạnh mẽ số lượng liệu đầu vào độ xác giải thuật Tuy nhiên thực tế, việc lấy liệu cho số đối tượng cần nhận dạng phức tạp thời gian Nhằm giải vấn đề đấy, việc học dựa liệu mô trở thành vấn đề nhiều nhóm nghiên cứu quan tâm Trong báo này, chúng tơi xây dựng mơ hình huấn luyện dựa ảnh nhân tạo thông qua việc sử dụng phần mạng Inception v3 huấn luyện Từ khóa: Deep learning (học sâu), Mạng nơ-ron, Mạng nơ-ron tích chập MỞ ĐẦU Deep Learning mơ hình mạnh mẽ cho tốn nhận dạng đối tượng từ ảnh Tuy nhiên, có nhược điểm đỏi hỏi lượng liệu lớn Do đó, nhu cầu học dựa ảnh mô đề Lý việc tạo ảnh mơ đơn giản nhiều so với việc thu thập ảnh thật Một số nhóm nghiên cứu tiến hành thử nghiệm, nhiên, kết khiêm tốn chưa thể ứng dụng rộng rãi Một số nghiên cứu kể đến sau: - “Học dựa ảnh mô phỏng, không giám sát thông qua huấn luyện đối nghịch” [1] Ý tưởng cơng trình xây dựng mạng đối nghịch (Generative Adversarial Network – GAN) [8] có khả tinh chỉnh ảnh mơ cho giống với ảnh thật Ảnh sau tinh chỉnh sử dụng làm liệu đầu vào cho mơ hình mạng nơ-ron nhận dạng đối tượng Tuy nhiên, mơ hình ứng dụng với đối tượng đơn giản(như mắt người) - “Huấn luyện phân loại đối tượng dựa liệu nhân tạo thông qua việc sử dụng autoencoder đa kênh” [2] Tư tưởng phương pháp sử dụng autoencoder đa kênh huấn luyện đồng thời ảnh thật ảnh nhân tạo [2] Đầu autoencoder ảnh tinh chỉnh để có độ chênh lệch Trong báo này, nhóm nghiên cứu tập trung nghiên cứu mơ hình mạng nơ-ron cho phép học dựa ảnh mơ LÝ THUYẾT CHUNG Mạng nơ-ron tích chập (CNN)[6] Mạng tích nơ-ron tích chập gồm hai thành phần lớp tích chập (Convolutional layer) lớp Pooling Trong đó, lớp tích chập bao gồm lọc có kích thước bước nhảy định nghĩa trước Các lọc trượt qua ảnh tạo kết khác Lớp Pooling xử lý kết từ lớp tích chập theo phương cách chọn phần tử cửa sổ trượt đại diện cho cửa sổ Kết cuối lớp Pooling làm phẳng trước đưa vào lớp Fully connected để nhận dạng 264 Đ H Minh, P V Lai, “Mơ hình huấn luyện mạng nơ-ron dựa ảnh mô phỏng.” Thông tin khoa học học công nghệ Hình 1 Kiến Kiến trúc mạng nnơ ơ-ron ron có sử sử dụng mạng tích chập nhận dạng ảnh M Mạng ạng Inception v3 mạng mạng nnơ ron ron nhân ttạo ạo đ đư ược ợc cấu th thành ành bởi nhiều lớp m mạng ạng CNN ((hình ình 2) M ạng Inception v3 đđược ợc xây dựng để huấn luyện dựa tr ên Mạng 10 tri triệu ệu ảnh 1000 lớp (loại) đối tượng ợng khác (theo CSDL ảnh ImageNet phiên bbản ản 2012) Inception v3 llàà một mơ hhình ình có ttỉỉ lệ lỗi thấp nh ất (3.46%) Hình Kiến trúc mạng Inception v3 Kiến Theo nguyên lý ho hoạt ạt động m mình, ình, m ột lớp mạng CNN được huấn luyện hội ội tụ, chứa lọc cho phép tổng hợp đặc tr ưng tương trưng ứng tr ên ảnh Nói cách khác, lớp mạng CNN tập hợp nhiều lọc vvàà lọc trích đặc tr trưng ưng khác ttừ ảnh Khi đó, mạng mạng Inception vv3 sau đư ợc huấn luyện hội tụ chứa m ình rất nhiều lọc, cho phép lọc ọc đặc tr trưng ưng ccủa 1000 đối ttượng ợng khác giới tự nhi ên Ngoài nhiên ra, theo ki kiểm ểm nghiệm thực tế lớp CNN mạng Inception v3 sau đđãã huấn luyện với 11000 huấn 000 llớp ớp đối ttượng ợng ho hoàn àn tồn có th thểể tổng hợp đư ợc đặc tr trưng ưng ccủa cảả đối ttư ượng ợng khơng chứa nhóm 1000 đối ttượng ợng ban đầu Điều nnày ày thực đđư thể ược ợc thực tế, có nhiều đối ttượng ợng không nằm 1000 đđối ối tư tượng ợng ban đầu nh ưng có đđặc ặc trưng trưng với với 1000 đối ttượng ợng ban đầu BÀI TOÁN NH NHẬ ẬN ND DẠ ẠNG NG VÀ MƠ HÌNH Đ ĐỀ Ề XUẤ XUẤT 3.1 Bài tốn nh nhận ận dạng Để thử nghiệm mơ hhình Để ình học học dựa trên ảnh mơ phỏng, nhóm nghi nghiên ên cứu cứu đặt bbài ài toán sau: Th Thử nghiệm nhận dạng 05 loại máy bay chiến đấu sử dụng mạng nnơ-ron bbằng ằng phương phương pháp hhọc ọc trên ảnh mô Mạng nnơ ơ-ron ron sẽ đ ợc huấn luyện dựa ựa tr ên ảnh mô nh ưng phải phải có khả nhận đối ttượng ợng tr ên ảnh thật, ếu điều nnày ày xảy xảy ra, chứng tỏ mạng đđãã hhọc ọc đư ợc đối ttượng ợng từ liệu mô Tập ập liệu phục vụ cho bbài ài toán ggồm ồm 02 th thành ành phần: phần: Dữ liệu mô (đ (đư ược ợc Tạp ạp chí Nghi Nghiên ên cứu cứu KH&CN quân uân sự, sự, Số ố Đặc san CNTT, CNTT 12 - 20 2017 17 265 Công nghệ thông tin sinh từ 3D engine với số lượng 5000 ảnh cho đối tượng) liệu ảnh thật (với số lượng 200 ảnh cho đối tượng) Các loại máy bay chiến đấu lựa chọn để thử nghiệm là: B2, B25, B52, C130, F111 3.2 Phương pháp xây dựng liệu Xây dựng liệu ảnh thật: Các ảnh thật tải từ Internet dựa số engine tìm kiếm cung cấp miễn phí Các ảnh sau xứ lý (loại bỏ ảnh giống nhau, ảnh không nội dung, ảnh chứa thủy ấn) phân loại thư mục tương ứng trước sử dụng Sau trình trên, liệu ảnh thật khoảng 200 ảnh cho loại máy bay Xây dựng liệu ảnh mô phỏng: Các ảnh mô xây dựng dựa engine mô Engine tải đối tượng 3D lên mơi trường địa hình cho trước tiến hành thay đổi vị chí góc nhìn đối tượng Đối với lần thay đổi, ảnh đối tượng sinh Sau trình trên, liệu ảnh mô thu gồm 5000 ảnh cho loại máy bay (hình mơ tả số ảnh sinh từ engine mô phỏng) Hình Một số liệu mơ loại máy bay 3.3 Kiến trúc mạng nơ-ron đề xuất Kiến trúc mạng nơ-ron sử dụng gồm 02 thành phần (hình 4): - Kế thừa lớp mạng CNN huấn luyện mạng Inception v3 - Xây lớp mạng Fully connected Sau kế thừa lại lớp mạng CNN, lớp Fully connected nối tiếp xây dựng với tham số gồm 2048 nơ-ron (do đầu lớp CNN cuối mạng Inception có kích thước 2048) đầu (tương ứng với loại máy bay) Lớp mạng xây huấn luyện từ đầu Mơ hình lớp mạng khái quát sau: he(xi) = f(Wexi + be)(7) Trong đó, f(.) hàm Softmax; xi ma trận đầu vào có kích thước [2048,1], xi giá trị thu sau liệu qua toàn lớp CNN mạng Inception 266 Đ H Minh, P V Lai, “Mơ hình huấn luyện mạng nơ-ron dựa ảnh mô phỏng.” Thông tin khoa học cơng nghệ v3; We ma trận có kích thước [2048,5]; be có kích thước [2048,1]; he ma trận kết có kích thước [5,1] chứa giá trị từ 0.0 đến 1.0 đánh giá mức độ chắn mạng nơ-ron đối tượng đầu vào tương ứng với đối tượng đầu Như vậy, ảnh qua mơ hình mới, phân tích thành tổ hợp đặc trưng học từ tập liệu ImageNet (đặc điểm có kế thừa từ lớp CNN Inception-v3) Các đặc trưng này, sau tổng hợp để định phân loại lớp Fully connected Do đó, q trình huấn luyện cần huấn luyện lớp Fully connected Đối với tồn học dựa ảnh mơ phỏng, ảnh ảo đưa qua lớp mạng CNN trên, chuyển thành tổ hợp nhiều đặc trưng thuộc đối tượng huấn luyện thật Điều tạo ưu tốt so với việc huấn luyện lại lớp mạng CNN theo đặc trưng ảnh mơ Hình Mơ hình mạng nơ-ron thử nghiệm THỬ NGHIỆM VÀ KẾT QUẢ Thử nghiệm khả nhận dạng mơ hình đối tượng mô (thử nghiệm 1): - Tập liệu dùng để huấn luyện: gồm 1000 ảnh mô cho loại máy bay - Tập liệu dùng để kiểm tra: gồm 1000 ảnh mô dùng cho loại máy bay - Kết trình bày dạng ma trận confusion (Confusion Matrix), hàng dọc kết phán đoán mạng nơ-ron, hàng ngang biểu thị tập liệu đưa vào mạng nơ-ron (bảng 1): Bảng Ma trận confusion mạng nhận dạng ảnh mô B25 F111 B2 B52 C130 % B25 959 30 4 95.9 F111 965 18 96.5 B2 981 98.1 B52 20 11 928 34 92.8 C130 13 12 46 923 92.3 AVG 95.12 o Độ xác trung bình mạng nơ-ron cuối q trình huấn luyện là: 94.3% (E-in) o Độ xác trung bình mạng nơ-ron tập liệu kiểm tra: 95.12 % (E-out) Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 267 Cơng nghệ thơng tin Có thể thấy, độ lệch E-in E-out nhỏ, cho thấy mạng không bị overfiting hay nói cách khác, liệu mơ sinh đảm bảo đủ yêu cầu độ ngẫu nhiên bối cảnh, mô tả điểm đặc trưng riêng loại máy bay mô Bên cạnh đó, độ xác mạng nơ-ron lớn 95% cho thấy mạng nơ-ron huấn luyện tốt để nhận dạng đối tượng mô Thử nghiệm học dựa liệu mô (thử nghiệm 2): - Tập liệu dùng để huấn luyện tương tự thử nghiệm (huấn luyện liệu mô phỏng) - Tập liệu dùng để kiểm tra: gồm 100 ảnh thật cho loại - Kết thể bảng 2: Bảng Ma trận confusion mạng nhận dạng ảnh thật B25 F111 B2 B52 C130 % B25 70 11 3 13 70 F111 12 63 15 63 B2 19 62 11 62 B52 29 23 10 35 10 C130 49 17 30 30 AVG 47 o Độ xác trung bình mạng nơ-ron cuối trình huấn luyện là: 94.3% (E-in) o Độ xác trung bình mạng nơ-ron sau huấn luyện tập liệu kiểm tra: 47 % (E-out) Đối với kết nhận thấy sau:Trước hết, khoảng cách liệu nhân tạo liệu thật lớn Do đó, loại máy bay, mạng nơron nhận dạng xác ảnh mơ (thử nghiệm 1) lại nhận dạng ảnh thật (thử nghiệm 2) Hay nói cách khác, đặc trưng lớp CNN trích từ ảnh thật ảnh mơ nằm nhóm đặc trưng tương đối khác Để thu nhỏ khác biệt này, nhóm nghiên cứu tiến hành thử nghiệm thứ Thử nghiệm rút ngắn khoảng cách liệu mô liệu thật Trong thử nghiệm này: - Tập huấn luyện:1000 ảnh mô dạng tách biên (hình 9) - Tập kiểm tra:100 ảnh thật dạng tách biên - Kết thể bảng Bảng Ma trận confusion mạng sau hiệu chỉnh nhận dạng ảnh thật B25 F111 B2 B52 C130 % B25 59 23 59 F111 10 64 18 64 B2 87 87 B52 16 13 56 56 C130 15 71 71 AVG 67.4 268 Đ H Minh, P V Lai, “Mơ hình huấn luyện mạng nơ-ron dựa ảnh mô phỏng.” Thông tin khoa học cơng nghệ Có thể thấy, việc tách biên ảnh trước đưa vào mạng nơ-ron, khiến cho mạng tập trung vào việc học hình dáng đối tượng mà bỏ qua phần biểu bì (texture) Do đó, độ xác mạng nâng lên Nói cách khác, thông thường đối tượng máy bay ảnh thật có hình dạng giống sơn màu, mang trang bị, khác Việc đưa ảnh huấn luyện kiểm tra dạng đường viền khiến mạng tập trung vào việc nhận dạng hình dáng đối tượng, đó, việc học dựa ảnh mơ cải thiện (a) (b) Hình Ảnh tách biên máy bay B2 (a) Ảnh mô tách biên (b) Ảnh thật tách biên KẾT LUẬN Có thể thấy, mơ hình đề giải tốt tốn nhận dạng thông thường (thử nghiệm 1) chưa tốt việc học ảnh mô (thử nghiệm 2) Để cải thiện hiệu việc học (hay nói cách khác, rút ngắn khoảng cách liệu ảnh thật ảnh ảo) nhóm nghiên cứu thử nghiệm tách biên liệu, nhiên kết cải thiện phần nhỏ Mơ hình đề xuất có phần cải thiện hiệu nhận dạng mạng nơ-ron huấn luyện sử dụng ảnh mô kết nhận dạng cịn thấp để đưa vào ứng dụng định Trong tương lai, nhóm nghiên cứu tiếp tục tìm hiểu, bổ sung phương pháp thu hẹp khoảng cách liệu mô liệu thật TÀI LIỆU THAM KHẢO [1] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb Apple Inc “Learning from Simulated and Unsupervised Images through Adversarial training” 2016 [2] Xi Zhang, Yanwei Fu, Andi Zang, Leonid Sigal, Gady Agam “Learning Classifiers from Synthetic Data Using a Multichannel Autoencoder” 2015 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 269 Công nghệ thông tin [3] Ruizhongtai (Charles) Qi Stanford University “Learning 3D Object Orientations From Synthetic Images” [4] Xi Zhang, Yanwei Fu, Shanshan Jiang, Leonid Sigal and Gady Agam “Learning from Synthetic Data Using a Stacked Multichannel Autoencoder” [5] Pierre Baldi “Autoencoders, Unsupervised Learning, and Deep Architectures” 2012 [6] Y LeCun, L Bottou, Y Bengio, and P Haffner “Gradient-based learning applied to document recognition.” 1998 [7] Health Education Training Institute (HETI) “Simulation based education: Professional entry student education and training” 2014 [8] IanJ.Goodfellow, JeanPouget-Abadie, MehdiMirza, BingXu, DavidWardeFarley, SherjilOzair, AaronCourville, YoshuaBengio “Generative Adversarial Nets” 2014 [9] Glorot, Xavier, Bordes, Antoine, and Bengio, Yoshua “Deep sparse rectifier neural networks” 2011 ABSTRACT STUDY OF LEARNING FROM SYNTHETIC DATA Solving images classification problem using Deep learning has been researched and deployed in more than decades However, we did not witness any breakthough until last recent years This reality is addressed due to the lack of data and calculation capability Although all people have been using GPU to solve calculation capability problems, lack of data problem stilll remains Therefore, during last few years, learning from synthetic data has become a hot topic In this paper, a model to help artificial neural network learn from synthetic data is suggested Keywords: Deep learning; Neural networks; Convolution neural networks Nhận ngày 16 tháng năm 2017 Hoàn thiện ngày 26 tháng 11 năm 2017 Chấp nhận đăng ngày 28 tháng 11 năm 2017 Địa chỉ: Viện CNTT/ Viện KHCNQS * Email: danghoangminh86@gmail.com 270 Đ H Minh, P V Lai, “Mơ hình huấn luyện mạng nơ-ron dựa ảnh mô phỏng.” ... đấu sử dụng mạng nnơ -ron bbằng ằng phương phương pháp hhọc ọc trên ảnh mô Mạng nnơ ơ -ron ron sẽ đ ợc huấn luyện dựa ựa tr ên ảnh mô nh ưng phải phải có khả nhận đối ttượng ợng tr ên ảnh thật, ếu... nghệ Hình 1 Kiến Kiến trúc mạng nnơ ơ -ron ron có sử sử dụng mạng tích chập nhận dạng ảnh M Mạng ạng Inception v3 mạng mạng nnơ ron ron nhân ttạo ạo đ đư ược ợc cấu th thành ành bởi nhiều lớp m mạng. .. đổi, ảnh đối tượng sinh Sau trình trên, liệu ảnh mô thu gồm 5000 ảnh cho loại máy bay (hình mơ tả số ảnh sinh từ engine mơ phỏng) Hình Một số liệu mô loại máy bay 3.3 Kiến trúc mạng nơ- ron đề