Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi

5 6 0
Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết trình bày nhận dạng cử chỉ tay bằng mạng tích chập (CNN) kết hợp với học chuyển đổi để nâng cao độ chính xác. Mục tiêu là nhận dạng 17 cử chỉ tay trong tập dữ liệu của nhóm tác giả Xiao Sun, Yichen Wei, Shuang Liang, Xiaoou Tang và Jian Sun, CVPR 2015, và nâng cao độ chính xác nhận dạng. Chúng tôi huấn luyện một mạng tích chập mới bằng cách học kế thừa từ mạng Google Net.

Tuyển tập Hội nghị khoa học toàn quốc lần thứ Động lực học Điều khiển Đà Nẵng, ngày 19-20/7/2019, tr 147-151, DOI 10.15625/vap.2019000271 Nâng cao chất lượng hệ thống nhận dạng cử tay sử dụng mạng tích chập với học chuyển đổi Nguyễn Hồi Nam, Đặng Thanh Hải Trần Gia Khánh Bộ môn Điều khiển tự động, Viện Điện, Đại học Bách khoa Hà Nội Số Đại Cồ Việt, Quận Hai Bà Trưng, Hà Nội, Việt Nam E-mail: nam.nguyenhoai@hust.edu.vn Tóm tắt Trong báo này, nhận dạng cử tay mạng tích chập (CNN) kết hợp với học chuyển đổi để nâng cao độ xác Mục tiêu nhận dạng 17 cử tay tập liệu nhóm tác giả Xiao Sun, Yichen Wei, Shuang Liang, Xiaoou Tang Jian Sun, CVPR 2015, nâng cao độ xác nhận dạng Chúng tơi huấn luyện mạng tích chập cách học kế thừa từ mạng Google Net Toàn việc huấn luyện kiếm tra mạng thực với tập liệu chia sẻ cơng khai Chúng tơi thấy rằng, mạng tích chập học chuyển đổi từ mạng huấn luyện có khả nhận dạng cử tay tốt Không thế, học kế thừa giúp giảm tài nguyên cần phải sử dụng, tăng tốc độ học Từ khóa: CNN, tích chập, Deep Learning, Nhận dạng cử tay, mạng nơron Mở đầu Con người hoàn tồn có khả nhận biết cử tay, với định đưa Sau thời gian học, giao tiếp gần dễ dàng cử tay Trong thời gian gần đây, nhiều nghiên cứu quan trọng tiến hành việc phát triển máy có khả phân loại hình ảnh chụp cử tay vào danh mục xem xét Những hệ thống tìm thấy ứng dụng điều khiển trò chơi điện tử, điều khiển robot, môi trường thực tế ảo giao tiếp ngôn ngữ tự nhiên Trong nhiều công việc, việc nhận cử tay tĩnh dựa cử quan trọng khác biệt tương đối cử chỉ, rõ ràng số cử tay giống xem chế độ 2D Do đó, tập hợp dấu hiệu cử tay tìm thấy sở liệu trích xuất cho nhiệm vụ nhận biết Tuy nhiên, đặc điểm phân biệt nhỏ có mặt tất cử chỉ, cảm nhận người Khả hệ thống tương tác người – máy để mở rộng vốn từ vựng cách có khả nhận nhiều cử tay quan trọng, điều cho phép mở rộng cấp độ giao tiếp điều khiển Trong báo này, áp dụng học sâu, dựa mạng tích chập với học chuyển đổi sử dụng mạng GoogleNet để thực nhiệm vụ phân loại 17 cử tay tập liệu chia sẻ công khai Học sâu Học sâu nhánh học máy dựa việc học liệu đại diện, trái ngược với thuật toán cụ thể theo nhiệm vụ Việc học học giám sát, bán giám sát không giám sát Các mô hình học sâu lấy cảm hứng từ mơ hình xử lý thơng tin giao tiếp hệ thống nơron sinh học có khác biệt khác từ đặc tính cấu trúc chức não sinh học (đặc biệt não người) Cấu trúc học sâu thường xây dựng với phương pháp lớp chồng lớp Học sâu giúp tháo gỡ khái niệm trừu tượng chọn đặc điểm cần thiết cho việc học Trong học sâu, mức học cách chuyển đổi liệu đầu vào thành đại diện tóm lược chút Trong ứng dụng nhận dạng hình ảnh, đầu vào thơ ma trận điểm ảnh; lớp đại diện tóm lược điểm ảnh mã hóa cạnh Lớp thứ tổng hợp mã hóa xếp cạnh Lớp thứ mã hóa mũi mắt, lớp thứ tư nhận hình ảnh chứa khn mặt Quan trọng, q trình học sâu tìm hiểu đặc điểm để tối ưu hóa cấp độ cao Tất nhiên, điều khơng hồn tồn làm giảm nhu cầu điều chỉnh tay; ví dụ, số lượng lớp kích cỡ lớp khác cung cấp mức độ tích hợp khác Mạng tích chập Mạng tích chập – Convolutional neural networks (CNN) công cụ sử dụng rộng rãi học sâu Nó đặc biệt thích hợp cho việc sử dụng hình ảnh làm đầu vào sử dụng cho ứng dụng khác chữ viết, tín hiệu phản hồi liên tục khác Tuy nhiên, trường hợp sử dụng phổ biến mạng để nhận dạng hình ảnh Một mạng tích chập có nhiều lớp lớp tích chập, lớp max-pooling average-pooling, lớp liên kết đủ [1] Với hình ảnh đầu vào, lớp mạng xác định kích thước tương ứng chiều dài, chiều rộng số kênh màu Các nơron lớp tích chập học đặc điểm ảnh Đầu lớp tích chập đồ đặc trưng đầu vào lớp Cuối cùng, đặc điểm học trở thành đầu vào lớp phân loại lớp cuối mạng Nguyễn Hoài Nam, Đặng Thanh Hải Trần Gia Khánh 3.1 Lớp tích chập Xét hình ảnh có kích thước đầu vào 32x32x3, mảng giá trị pixels Một hạt nhân có kích thước 5x5x3 sử dụng để thực phép tính tích chập Xét vị trí hạt nhân, góc bên trái hình ảnh đầu vào Nếu hạt nhân trượt dọc theo ảnh, nhân giá trị bên hạt nhân với giá trị điểm ảnh ảnh Các phép nhân tất tổng hợp Do đó, lúc ta có số số đại diện cho hạt nhân góc bên trái ảnh Bây ta lặp lại quy trình cho tồn đầu vào, bước ta dịch hạt nhân sang phải đơn vị sau lại sang phải đơn vị Mỗi vị trí đầu vào ta thu số Sau trượt hạt nhân qua tất vị trí, ta thu mảng số 28x28x1 đồ đặc trưng Giả sử ta dùng hạt nhân 5x5x3 thay kích thước đồ đặc trưng 28x28x2 Mỗi hạt nhân giúp ta nhận biết đặc điểm ảnh đầu vào Càng có nhiều hạt nhân, độ sâu đồ đặc trưng lớn có nhiều thơng tin đầu vào Trong ví dụ trên, hạt nhân di chuyển dọc đầu vào đơn vị thời điểm Số lượng điểm ảnh mà hạt nhân dịch chuyển qua gọi stride Stride thường đặt cho kích thước đầu số chẵn Với Stride ta thu đầu có kích thước 28x28x1 Nếu Stride kích thước đầu cịn 15x15x1 Nếu cố tăng stride lên 3, sau gặp vấn đề khoảng cách đảm bảo hạt nhân trượt toàn đầu vào 3.2 Lớp Pooling Lớp max-pooling average–pooling theo sau lớp tích chập để trích mẫu, từ giảm số lượng kết nối tới lớp Chúng không thực việc tự học nào, giảm số lượng tham số phải học lớp Đồng thời lớp pooling giúp làm giảm tượng overfitting Một lớp max-pooling trả kết giá trị lớn hình chữ nhật đầu vào Kích cỡ hình chữ nhật xác định trước giá trị “poolsize” Tương tự lớp average – pooling trả kết trung bình cộng giá trị hình chữ nhật Lớp pooling quét dọc theo chiều dài rộng đầu vào bước với kích thước xác định giá trị “Stride” Nếu giá trị “poolSize” nhỏ giá trị “Stride” vùng pooling không bị chồng chéo 3.3 Lớp liên kết đủ Lớp liên kết đủ kết nối với tất nơ-ron lớp trước Cách thức hoạt động lớp tổng hợp tất đặc điểm học lớp trước để nhận biết mẫu lớn Đối với toán phân loại, lớp liên kết đủ tổng hợp tính giúp phân loại hình ảnh Vì lí mà số đầu lớp liên kết đủ cuối mạng với số lượng loại ảnh cần phân loại 3.4 Học kế thừa Học kế thừa thông thường sử dụng ứng dụng học sâu Ta lấy mạng tích chập huấn luyện sẵn sử dụng để thiết kế mạng tích chập để giải toán Việc tinh chỉnh mạng có sẵn đơn giản nhanh nhiều so với việc bắt đầu tạo huấn luyện mạng Ngoài lợi học sâu mạng huấn luyện sẵn, học tập nhiều tính phong phú Do áp dụng cho số lượng lớn tốn tương tự khác Ví dụ, ta lấy mạng huấn luyện với vạn hay triệu ảnh, ta huấn luyện lại mạng với tốn với liệu gồm vài trăm ảnh Ta dễ dàng tinh chỉnh lại mạng huấn luyện sẵn với tập liệu nhỏ nhiều so với liệu huấn luyện gốc Và ta có tập liệu lớn, học chuyển đổi nhanh nhiều so với huấn luyện mạng từ đầu Học chuyển đổi cho phép người dùng:  Chuyển đổi tính học mạng huấn luyện sẵn tới mạng tích chập chưa huấn luyện  Giảm thời gian huấn luyện kích cỡ tập liệu Thực học sâu mà không cần học tạo mạng toàn 3.5 Dữ liệu huấn luyện Tập liệu sử dụng thu từ sở liệu chia sẻ công khai [4], bao gồm 17 cử tay Hình 4.1 biểu thị 17 cử tay tĩnh chưa xử lý cho nhiệm vụ nhận dạng Các cử biểu thị kí tự, phông tối hiển thị khớp tay (các chấm màu) Tập liệu bao gồm tổng cộng tay phải người Mỗi người bao gồm 17 cử khác có 500 ảnh cho cử Kích thước ảnh 320x240 pixel Để việc học xác, 70% tổng số ảnh dùng để huấn luyện, 15% cho tập test 15% cho tập validation Huấn luyện mạng thực dự đốn với liệu u cầu hình ảnh có kích thước với kích thước ảnh đầu vào mạng Do trước huấn luyện mạng, ta cần điều chỉnh lại kích thước ảnh tập liệu với kích thước đầu vào mạng Hình ảnh cử tay gốc có kích thước 320x240 pixels Một thuật toán sử dụng để thay đổi lại kích thước hình ảnh với kích thước mạng sử dụng để học kế chuyển đổi 224x224 Thuật toán giúp tiền xử lý tất tập ảnh tập liệu huấn luyện, tập test validations Huấn luyện mạng nơron 4.1 Hàm mục tiêu Hàm mục tiêu sử dụng hàm tổng bình phương sai lệch (sum of squares error – SSE) SSE thước đo sai lệch hai biến ngẫu nhiên ặng Thanh Hải Nâng cao chất lượng hệ thống nhận dạng cử tay sử dụng mạng tích chập với học chuyển đổi liên tục [1] Đối với đầu mạng Y đầu mẫu T, hàm SSE cho bởi: k L   Yi  Ti  (1) i 1 Trong đó, k số lượng quan sát [1] Hình 4.1 17 cử tay người Mạng mạng tích chập trích xuất thơng tin chi tiết nhỏ, hạt nhân 5x5 bao phủ trường tiếp cận lớn đầu vào, trích xuất thơng tin Ta có lớp pooling giúp giảm kích thước không gian chống lại tượng overfitting Trên hết, ta có lớp ReLU sau lớp conv, giúp cải thiện tính phi tuyến Về bản, mạng thực chức hoạt động khác cân nhắc tính tốn [5] GoogleNet mơ hình đưa ý tưởng lớp CNN luôn xếp chồng lên Cùng với môđun Inception, GoogleNet không giảm số lượng tham số kích thước khơng gian, mà cịn cải thiện hiệu suất tốc độ tính tốn 4.3 Huấn luyện mạng Mạng tích chập huấn luyện 76500 hình ảnh với kích thước 224x224x3 ảnh Tất việc huấn luyện mô thực máy tính với cấu hình: CPU Intel(R) Core (TM) i5–5200 @2.20GHz (4CPUs), ~ 2.2GHz, GPU đơn GeForce 940 M VRAM 2020 MB, RAM 8192 MB môi trường Matlab Thuật toán huấn luyện sử dụng đề tài Mini – Batch Gradient Descent với giá trị MinibatchSize = 84 Hình 6.1 mơ tả q trình huấn luyện mạng 4.2 Mạng huấn luyện Trong báo này, sử dụng học chuyển đổi từ mạng huấn luyện Google Net Google Net mạng CNN có 22 lớp giành chiến thắng ILSVRC 2014 với top tỉ lệ sai lệch 6.7% Đây cấu trúc mạng tích chập thực lạc khỏi cách tiếp cận thông thường đơn giản xếp chồng lớp Conv pooling lên cấu trúc Các tác giả nhấn mạng cấu trúc đặt cân nhắc đáng kể vào nhớ sử dụng lượng Về bản, lớp tích chập truyền thống, ta phải đưa lựa chọn việc có hoạt động pooling hoạt động Conv (cũng có lựa chọn kích thước hạt nhân) Mơđun Inception cho phép thực tất hoạt động song song Trên thực tế ý tưởng “navie” mà tác giả nghĩ Nếu làm theo cách này, kết thúc với kênh có độ sâu vơ lớn cho khối đầu Các tác giả giải vấn đề cách thêm lớp 1x1 trước lớp 3x3 5x5 Các lớp 1x1 (hay mạng lớp mạng) cung cấp phương pháp giảm kích thước mạng Chẳng hạn, giả sử ta có khối đầu vào 100x100x60 (đây không thiết đầu vào ảnh mà đầu vào lớp mạng) Áp dụng 20 hạt nhân tích chập 1x1 cho phép giảm kích thước khối đầu vào xuống 100x100x20 Điều có nghĩa lớp 3x3 hay 5x5 khơng có nhiều khối lượng phải giải Điều nghĩ “pooling of features” ta giảm độ sâu khối tương tự cách ta giảm chiều dài chiều rộng với lớp max – pooling bình thường Hình 4.2 Quá trình huấn luyện mạng Thay việc phải huấn luyện lại nhiều tham số khối lượng tính tốn khổng lồ, với học chuyển đổi cần phải huấn luyện lớp cuối cùng, lớp liên kết đủ Do thời gian huấn luyện khối lượng tính tốn giảm nhiều Những lớp đầu mạng học tính đơn giản màu sắc hay đốm màu, nên ta giữ lớp cách đóng băng tham số Sau đó, ta thay lớp cuối để học tính tương ứng với nhiệm vụ toán Các tham số mạng mô tả bảng Bảng 4.1 Các siêu tham số mạng Tham số miniBatchSize Initial Learning-rate LearnRateDropFactor LearnRateDropPeriod ValidationFrequency maxEpoch 4.4 Kết Giá trị 84 0,0001 0,5 300 20 Mạng huấn luyện tập liệu 76500 ảnh sau khoảng ngày Để kiểm tra hiệu mạng, ta sử dụng tập ảnh Test khoảng 11475 ảnh (15%) để Nguyễn Hoài Nam, Đặng Thanh Hải Trần Gia Khánh kiểm tra mạng Hiệu suất công việc nhận dạng này, thể giá trị độ xác tính cơng thức sau: 𝑡ổ𝑛𝑔 𝑠ố ả𝑛ℎ 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑡ổ𝑛𝑔 𝑠ố ả𝑛ℎ 𝑐ủ𝑎 𝑡ậ𝑝 𝑡𝑒𝑠𝑡 Kết luận Mạng tích chập tỏ vô hiệu lĩnh vực nhận dạng hình ảnh nói chung nhận dạng cử tay nói riêng Với việc nhận dạng cử tay, ta thực ứng dụng khác điều khiển thiết bị, Hình 4.3 Kết nhận dạng cử tay từ tập Test Bảng 4.1 biểu thị kết nhận dạng mạng tập liệu Test Độ xác mạng thu cao 95,69% cho thấy hiệu suất mạng tốt Bảng 4.2 Kết nhận dạng ảnh Tham số Tổng số ảnh tập Test Số ảnh nhận dạng Độ xác Giá trị 11475 10981 95.96% Hình 4.3 biểu thị 25 cử nhận dạng, bao gồm nhãn xác suất nhận dạng cử Hình 7.2 biểu thị hàm accuracy trình huấn luyện Kết hàm làm trơn cách nối điểm rời rạc sau bước lặp Hình 4.2 đồ thị hàm mục tiêu Từ đồ thị, ta thấy sau khoảng vạn bước, giá trị hàm mục tiêu bám dần đến giá trị Tương tự hàm accuracy, hàm mục tiêu làm trơn cách nối giá trị rời rạc sau bước lặp Các chấm đen, giá trị hàm ứng với tập Validation Hình 4.4 Accuracy Hình 4.2 Hàm mục tiêu ặng Thanh Hải Nâng cao chất lượng hệ thống nhận dạng cử tay sử dụng mạng tích chập với học chuyển đổi hay ứng dụng nhà thông minh Tuy nhiên giai đoạn nay, đặc biệt Việt Nam, việc nghiên cứu phát triển kỹ thuật học sâu nói chung cịn có nhiều hạn chế Chúng tơi thiết kế mạng tích chập sử dụng học chuyển đổi từ mạng Google Net nhận dạng cử tay tập liệu chia sẻ cơng khai Kết nhận dạng với độ xác 95.96%, cao so với báo [3] Lời cảm ơn Nghiên cứu tài trợ Trường Đại học Bách khoa Hà Nội đề tài mã số T2018-PC-052 Tài liệu tham khảo [1] Mark Hudson Beale, Martin T Hagan, Howard B Demuth, Neural Network Toolbox™ User's Guide, 2018 [2] Martin T Hagan, Oklahoma State University; Stillwater, Oklahoma; Howard B Demuth University of Colorado Boulder, Colorado; Mark Hudson Beal MHB Inc.Hayden, Idaho Orlando De Jesús Consut Fisc, Texas, Neuron Network Design, 1996 [3] Oyebade K Oyedotun, Adnan Khashman, Deep learning in vision-based static hand gesture recognition ,2016 [4] Xiao Sun, Yichen Wei, Shuang Liang, Xiaoou Tang, Jian Sun, Cascaded Hand Pose Regression, CVPR 2015 [5] Christian Szegedy, Wei Liu, Chapel Hill, YangqingJia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhouckem, Andrew Rabinovich, Going deeper with convolution, 2014 [6] Classify Image Using https://www.mathworks.com GoogLeNet, [7] Deep Learning Toolbox Model for AlexNet Network, www.mathworks.com [8] Pretrained Convolutional https://www.mathworks.com Neural Networks ... trị hàm ứng với tập Validation Hình 4.4 Accuracy Hình 4.2 Hàm mục tiêu ặng Thanh Hải Nâng cao chất lượng hệ thống nhận dạng cử tay sử dụng mạng tích chập với học chuyển đổi hay ứng dụng nhà thông... kỹ thuật học sâu nói chung cịn có nhiều hạn chế Chúng tơi thiết kế mạng tích chập sử dụng học chuyển đổi từ mạng Google Net nhận dạng cử tay tập liệu chia sẻ cơng khai Kết nhận dạng với độ xác... nói chung nhận dạng cử tay nói riêng Với việc nhận dạng cử tay, ta thực ứng dụng khác điều khiển thiết bị, Hình 4.3 Kết nhận dạng cử tay từ tập Test Bảng 4.1 biểu thị kết nhận dạng mạng tập liệu

Ngày đăng: 06/10/2021, 16:53

Tài liệu cùng người dùng

Tài liệu liên quan