(Luận văn thạc sĩ) hệ thống nhận dạng và phân tích hành vi của người lái xe sử dụng phương pháp học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM NGỌC THÁI HỆ THỐNG NHẬN DẠNG VÀ PHÂN TÍCH HÀNH VI CỦA NGƯỜI LÁI XE SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGÀNH: KỸ THUẬT ĐIỀU KHIỂN & TỰ ĐỘNG HĨA - 8520216 SKC008029 Tp Hồ Chí Minh, tháng 4/2023 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM NGỌC THÁI HỆ THỐNG NHẬN DẠNG VÀ PHÂN TÍCH HÀNH VI CỦA NGƯỜI LÁI XE SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU NGHÀNH: KỸ THUẬT ĐIỀU KHIỂN & TỰ ĐỘNG HÓA - 8520216 Hướng dẫn khoa học: PGS.TS NGUYỄN MINH TÂM Tp Hồ Chí Minh, tháng năm 2023 LÝ LỊCH KHOA HỌC (Dùng cho nghiên cứu sinh & học viên cao học) I LÝ LỊCH SƠ LƯỢC: Họ & tên: Phạm Ngọc Thái Giới tính: Nam Ngày, tháng, năm sinh: 20/08/1996 Nơi sinh: Đắk Lắk Quê quán: Diễn Liên, Diễn Châu, Nghệ An Dân tộc: Kinh Chức vụ, đơn vị công tác trước học tập, nghiên cứu: Kĩ sư phát triển phầm mềm, Công ty TNHH Bosch Global Software Technologies VietNam Chỗ riêng địa liên lạc: 110 Xuân Mỹ, Phú Xuân, Krông Năng, Đắk Lắk Số CCCD/CMND: 066096016896 Ngày cấp: 16/01/2022 Nơi cấp CCCD: Cục cảnh sát quản lí hành trật tự xã hội Điện thoại quan: 028 3812 8000 Điện thoại nhà riêng: Fax: E-mail: oliver.pham4784@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Trung học chuyên nghiệp: Hệ đào tạo: Nơi học (trường, thành phố): Ngành học: Thời gian đào tạo từ ……/…… đến ……/ …… Đại học: Hệ đào tạo: Chính Quy Thời gian đào tạo từ 08/2014 đến 8/2018 Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kĩ Thuật Tp Hồ Chí Minh Ngành học: Cơng Nghệ Kĩ Thuật Điều Khiển Và Tự Động Hoá Tên đồ án, luận án môn thi tốt nghiệp: Thiết kế, thi cơng lập trình điều khiển máy in 3D với đầu in kết hợp nhiều màu sắc Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 27/07/2018 Trường Đại Học Sư Phạm Kĩ Thuật Tp Hồ Chí Minh Người hướng dẫn: TS Nguyễn Văn Thái Thạc sĩ: Hệ đào tạo: Chính Quy Thời gian đào tạo từ 08/2019 đến 03/2023 Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kĩ Thuật Tp Hồ Chí Minh Ngành học: Cơng Nghệ Kĩ Thuật Điều Khiển Và Tự Động Hoá Tên luận văn: Hệ thống nhận dạng phân tích hành vi người lái xe sử dụng phương pháp học sâu Ngày & nơi bảo vệ luận văn: 31/03/2022 Trường Đại Học Sư Phạm Kĩ Thuật Tp Hồ Chí Minh Người hướng dẫn: PGS.TS Nguyễn Minh Tâm i from tensorflow.keras.layers import Dense, Flatten, Dropout, ZeroPadding3D, LSTM from tensorflow.keras.models import Sequential, load_model from tensorflow.keras.optimizers import Adam, RMSprop from collections import deque import sys metrics = ['accuracy'] model = Sequential() model.add(Dense(1024, activation='sigmoid')) model.add(LSTM(512, return_sequences=True, input_shape=(5, 4), dropout=0.5)) model.add(Flatten()) model.add(Dense(216, activation='sigmoid')) #FC1 model.add(Dense(32, activation='tanh')) #FC2 model.add(Dropout(0.5)) model.add(Dense(16, activation='relu'))#FC3 model.add(Dropout(0.5)) model.add(Dense(1, activation='tanh'))#Output Layer optimizer = Adam(learning_rate=0.00005) model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=metrics) history = model.fit(x_shaped_train, y_shaped_train, validation_data = (x_shaped_test,y_shaped_test), epochs=320, batch_size=9) predict_x=model.predict(x_shaped_test) classes_x=np.argmax(predict_x,axis=1) [4] Cấu hình mơ hình Resnet-18 với thư viện PyTorch: class ResNet(nn.Module): def init (self, block, layers, sample_size, sample_duration, output_dim, shortcut_type='B', tracking=True, pre_train=False): self.inplanes = 64 super(ResNet, self). init () if pre_train: self.conv1 = nn.Conv3d( 3, 64, kernel_size=7, stride=(1, 2, 2), padding=(3, 3, 3), 65 bias=False) else: self.conv1 = nn.Conv3d( 1, 64, kernel_size=7, stride=(1, 2, 2), padding=(3, 3, 3), bias=False) self.tracking = tracking self.bn1 = nn.BatchNorm3d(64, track_running_stats=self.tracking) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool3d(kernel_size=(3, 3, 3), stride=2, padding=1) self.layer1 = self._make_layer(block, 64, layers[0], shortcut_type) self.layer2 = self._make_layer( block, 128, layers[1], shortcut_type, stride=2) self.layer3 = self._make_layer( block, 256, layers[2], shortcut_type, stride=2) self.layer4 = self._make_layer( block, 512, layers[3], shortcut_type, stride=2) last_duration = int(math.ceil(sample_duration / 16)) last_size = int(math.ceil(sample_size / 32)) self.avgpool = nn.AvgPool3d( (last_duration, last_size, last_size), stride=1) for m in self.modules(): if isinstance(m, nn.Conv3d): m.weight = nn.init.kaiming_normal_(m.weight, mode='fan_out') elif isinstance(m, nn.BatchNorm3d): m.weight.data.fill_(1) m.bias.data.zero_() def resnet18(**kwargs): """Constructs a ResNet-18 model """ model = ResNet(BasicBlock, [2, 2, 2, 2], output_dim=512, sample_size=112, sample_duration=16, shortcut_type='A') return model 66 HỆ THỐNG NHẬN DẠNG VÀ PHÂN TÍCH HÀNH VI CỦA NGƯỜI LÁI XE SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU DRIVER MONITORING SYSTEM Pham Ngoc Thai, Nguyen Minh Tam Trường đại học Sư Phạm Kỹ Thuật TP.HCM TÓM TẮT Buồn ngủ hành vi nhãng người lái xe nguyên nhân dẫn đến tai nạn giao thơng tồn cầu Tuy nhiên, việc phát hành động bất thường tài xế khó có q nhiều hành vi khác độ nguy hiểm chúng khác Trong luận văn này, đề xuất cách tiếp cận chia toán thành hai toán nhỏ để phát hành vi nhãng có nhận thức tượng buồn ngủ Với tượng buồn ngủ, tác giả sử dụng liệu liên tục từ cảm biến hình ảnh để huấn luyện dự đốn tình trạng buồn ngủ tài xế với độ xác 90% Với hành vi nhãng có nhận thức, tác giả sử dụng phương pháp học tương phản để phân biệt việc lái xe bình thường với việc lái xe bất thường từ liệu thu từ cảm biến hình ảnh với độ xác 95% Kết kiểm thử cho thấy tính hiệu khả ứng dụng thực tế phương pháp tiếp cận Từ khoá: Phát hành vi nhãng có nhận thức;Phát hiện tượng buồn ngủ ABSTRACT Drowsiness and driver distraction are the main causes of traffic accidents globally However, detecting unusual actions of drivers is difficult because there are so many different behaviors and their dangers are also different In this thesis, I propose a new approach that divides the problem into two smaller problems to detect cognitive distractions and sleepiness With drowsiness, the author uses continuous data from the image sensor to train and predict the driver's drowsiness with 90% accuracy For cognitive distractions, the author uses contrast learning to distinguish normal driving from abnormal driving from image sensor data with 95% accuracy The test results show the effectiveness and practical applicability of this approach Keywords: Driver Drowsiness Detection; Driver Anomaly Detection GIỚI THIỆU hành vi Hiện tượng buồn ngủ có Theo báo cáo, 20% tai nạn đường lái mức độ nguy hiểm cao cần can thiệp xe mệt mỏi, tăng lên 50% số đường sớm hệ thống hỗ trợ người lái, hệ cụ thể Hơn 90% tai nạn xe nhẹ hành vi thống an toàn chủ động bị động để tránh tai sai trái lái xe giảm tai nạn từ 10% đến nạn đáng tiếc 20% với hệ thống giám sát hành vi xác Cách tiếp cận xử lý hiệu quả, xác lái xe Hệ thống nhận dạng phân tích tiết kiệm chi phí để phân loại hành vi mức độ mệt mỏi hành vi lái xe nhiệm nhãng với hành động lái xe bình vụ quan trọng phương tiện thơng thường yếu tố quan trọng để đưa tính minh Để hiểu hành vi lái xe, hệ thống nâng cao lên phương tiện giao thông nhận dạng hành vi nhãng thiết kế lưu thơng thực tế Qua góp phần tăng dựa cơng nghệ học sâu Hành vi tính an toàn việc lái xe cho người nhãng phân loại thành hai loại, nhận thức giảm thiểu số lượng tai nạn đáng tiếc xảy tài xế buồn ngủ lái xe Mức độ nguy tham gia giao thông giới hiểm hành vi nhãng có nhận thức CÁC NGHIÊN CỨU LIÊN QUAN thấp tài xế tự chủ chấn chỉnh 2.1 Hệ thống phát buồn ngủ 67 Các tính phát buồn ngủ không xâm nhập camera chia thành tính thủ cơng tính học tự động CNN Về tính thủ cơng, vùng khn mặt có nhiều thơng tin tình trạng buồn ngủ mắt đặc điểm thường sử dụng thường liên quan đến hành vi chớp mắt McIntire cộng [17] cách tần suất thời lượng chớp mắt thường tăng lên mệt mỏi cách đo thời gian phản ứng sử dụng thiết bị theo dõi mắt Svensson [14] biên độ chớp mắt yếu tố quan trọng Friedrichs Yang [18] nghiên cứu nhiều đặc điểm chớp mắt vận tốc mở mắt, tốc độ nhắm mắt trung bình, thời gian chớp mắt, thời gian ngủ lượng chớp mắt thông tin chuyển động đầu Họ báo cáo tỷ lệ phân loại cuối 82,5% tập liệu riêng tư họ tất tính [18] trích xuất cảm biến máy nhìn [5] khơng sử dụng thơng tin video (với tốc độ khung hình 60 khung hình / giây) mà cịn tốc độ tơ, thơng tin GPS tín hiệu chuyển động đầu để phát buồn ngủ Nghiên cứu gần kiểm tra tính hiệu Mạng thần kinh sâu việc trích xuất tính đầu cuối phát buồn ngủ, trái ngược với cơng trình sử dụng tính thủ cơng với phân loại hồi quy thơng thường phân tích hồi quy phân biệt (LDA) [19], điều chỉnh Gaussian 2D với ngưỡng [15] Kết nghiên cứu đề cập không xác nhận dựa tập liệu lớn công khai Park cộng [16] tinh chỉnh ba CNN áp dụng SVM cho tính kết hợp ba mạng để phân loại khung hình thành bốn loại cảnh báo, ngáp, gật đầu buồn ngủ kèm theo nháy mắt Mơ hình đào tạo dựa tập liệu buồn ngủ NTHU dựa trạng thái buồn ngủ giả vờ thử nghiệm phần đánh giá tập liệu NTHU bao gồm 20 video bốn người, dẫn đến độ xác phát buồn ngủ 73% Phương pháp [16] đánh giá dựa liệu giả, dấu hiệu buồn ngủ có xu hướng dễ dàng nhìn thấy chí phóng đại Ngồi ra, cơng trình Park et al không xem xét việc tổng hợp thông tin tạm thời video phân loại khung hình cách độc lập, phân loại dựa dấu hiệu buồn ngủ rõ ràng Bhargava cộng [11] cách mạng lưới sâu chắt lọc sử dụng cho hệ thống nhúng Điều liên quan đến phương pháp đường sở đề xuất báo này, phương pháp nhằm mục đích cho u cầu tính tốn thấp Độ xác báo cáo [11] 89% sử dụng ba lớp (cảnh giác, ngáp, buồn ngủ), dựa đào tạo mảng mắt môi Tương tự công việc Park cộng sự, mạng Bhargava cộng phân loại khung cách độc lập, khơng sử dụng tính tạm thời Tập liệu mà họ sử dụng riêng tư dựa tình trạng ngủ gật, khó để so sánh kết với kết báo cáo báo 2.2 Hệ thống phát hành nhãng có nhận thức Các hành vi người lái xe nghiên cứu rộng rãi hai thập kỷ qua Các nghiên cứu trước chủ yếu tập trung vào ý người lái xe tập trung (phân tâm thể chất tập trung nhận thức) [24], ý định người lái xe [22], [25], phong cách người lái xe [26], phát tình trạng buồn ngủ mệt mỏi người lái xe [27] - [29], v.v Cục Quản lý An toàn Giao thông Đường cao tốc Quốc gia (NHTSA) định nghĩa tập trung người lái xe trình người lái xe chuyển ý họ khỏi nhiệm vụ lái xe Bốn loại phân tâm NHTSA làm rõ, phân tâm thị giác, phân tâm thính giác, phân tâm sinh học phân tâm nhận thức [30] Các hoạt động nhiệm vụ phụ Các mơ hình CNN chụp ảnh xử lý trực tiếp mà không cần quy trình trích xuất tính thủ cơng Bằng cách áp dụng sơ đồ học tập chuyển giao, mơ hình CNN 68 đào tạo trước tinh chỉnh cách hiệu để đáp ứng nhiệm vụ phát hành vi TẬP DỮ LIỆU 3.1 Tập liệu buồn ngủ thực tế UTA Real-time Drowsiness Dataset (RLDD) Một nhóm sinh viên Đại học Texas Arlington tạo tập liệu "UTA Realtime Drowsiness Dataset (RLDD)" để phục vụ cho nghiên cứu phát tình trạng buồn ngủ nhiều giai đoạn Tập liệu tập liệu buồn ngủ thực tế lớn bao gồm khoảng 30 video RGB 60 người tham gia khỏe mạnh, người thu video cho ba lớp khác nhau: tỉnh táo, cảnh giác buồn ngủ, tổng số 180 video Các đối tượng đeo kính 21 số 180 video có lơng mặt đáng kể 72 số 180 video Các video quay từ nhiều góc độ khác môi trường bối cảnh thực tế khác 3.2 Tập liệu Driver Anomaly Detection (DAD) PHƯƠNG PHÁP TIẾP CẬN VÀ HUẤN LUYỆN MÔ HÌNH Có vơ số hành động bất thường mà người lái xe thực lái xe, điều dẫn đến vấn đề 'nhận dạng tập hợp mở' Đồng thời thực tế, mức độ nguy hiểm hành vi nhãng người lái lên an toàn hành khách khác nhau, điều dẫn đến vấn đề “cần ưu tiên chuyên việt hố phân tích xử lý hành động có tính nguy hiểm cao hệ thống thực tế” Theo đó, thay tiếp cận cách tổng quan để nhận dạng tập hợp hành động bất thường thường giới thiệu báo trước đây, luận văn này, đề xuất cách tiếp cận chia nhỏ toán phức tạp thành hai toán nhỏ để tiếp cận dựa vào mức độ nguy hiểm hành vi người lái xe thành hành vi nhãng có nhận thức tượng buồn ngủ Với tượng buồn ngủ, mức độ nguy hiểm cao cần can thiệp sớm hệ thống hỗ trợ người lái, hệ thống an toàn chủ động bị động để sẵn sàng can thiệp sâu tránh Bài báo sử dụng liệu DRIVER ANOMALY DETECTION (DAD), liệu đủ lớn để huấn luyện kiến trúc mạng thần kinh sâu từ đầu, đa phương thức chứa phương thức hồng ngoại độ sâu để hệ thống hoạt động điều kiện khác Bộ liệu DAD nhiều chế độ xem chứa chế độ xem phía trước ghi đồng bổ sung cho Các video ghi với 45 khung hình giây cung cấp độ phân giải thời gian cao Tác giả thu thập liệu DAD cách sử dụng trình mơ lái xe với buồng lái tô BMW thực đối tượng hướng dẫn lái xe trị chơi máy tính chiếu phía trước tơ Các camera pico flexx Infineon CamBoard đặt phía phía trước người lái xe để ghi lại phần khác tay lái người lái Tập liệu ghi chế độ hồng ngoại độ sâu đồng hóa với độ phân giải 224 x 171 pixel tốc độ khung hình 45 khung hình/giây tai nạn đáng tiếc xảy ra, cần phân tích kỹ sâu tránh nhận định sai Tôi sử dụng liệu liên tục theo thời gian đặc điểm khuôn mặt tài xế từ cảm biến hình ảnh để dự đốn tình trạng buồn ngủ tài xế Tôi sử dụng tập liệu UTA-RLDD để đào tạo thử nghiệm cho mơ hình phát buồn ngủ chứa liệu hình ảnh bao gồm đặc trưng khuôn mặt thu thập cách cẩn thận chi tiết toàn trình với cảm biến đặt diện với khn mặt đối tượng thu thập Tuy nhiên với cách đặt cảm biến khơng ghi lại tồn cảnh người tài xế lái xe tay, vô lăng, vvv Đồng thời, tập liệu lớn bao gồm trạng thái tỉnh táo, gần buồn ngủ buồn ngủ đối tượng Với hành vi nhãng có nhận thức, tài xế tự chủ chấn chỉnh hành vi dựa cảnh báo hệ thống cảnh báo để chấn chỉnh hành vi nên mức độ nguy hiểm thấp hơn, qua giảm độ phức tạp q trình phân tích để giảm chi 69 phí Tơi sử dụng phương pháp học tập tương phản để tìm hiểu số liệu nhằm phân biệt việc lái xe bình thường với việc lái xe bất thường Tơi sử dụng tập liệu mã nguồn mở Driver Anomaly Detection (DAD) Dataset để huấn luyện kiểm thử Vì tập liệu thu thập cho tình lái xe bình thường bất thường tài xế tình trạng có nhận thức cảm biến đặt góc thích hợp để thấy toàn cảnh tài xế lái xe Tuy nhiên chi tiết đặc trưng khuôn mặt lại không rõ ràng 4.1 Hệ thống nhận dạng buồn ngủ Trong phần này, thảo luận thành phần riêng lẻ quy trình phát buồn ngủ hành vi nhãng người lái xe đề xuất tơi Tính phát trích chọn đặc trưng mơ tả Sau đó, tơi thảo luận cách tơi tích hợp mạng LSTM, vào mơ hình tơi, cách tơi hình thành tính phát buồn ngủ tốn phân loại theo liệu trình tự Hình 3.1: Quy trình phát buồn ngủ Đây điểm liệu quan trọng mà sử dụng để trích xuất tính cho Từ tập liệu UTA-RLDD, lượng liệu mơ hình phù hợp số người tham gia cho hai trạng thái tức cảnh báo buồn ngủ, chọn Đối với video, sử dụng OpenCV sử dụng để trích xuất khung hình / giây, thường mốc phút kết thúc video Kích thước clip khoảng 10 phút, đó, khoảng 240 khung hình / video trích xuất Tơi gắn nhãn khung hình từ video cảnh báo Hình 3.2: 68 điểm đặc trưng khuôn mặt từ video buồn ngủ Có tổng cộng 68 Eye Aspect Ratio(EAR) điểm mốc / khung hình tơi giữ lại EAR, tên cho thấy, tỷ lệ chiều dài điểm mốc cho đối tượng địa lý mắt mắt với chiều rộng mắt Chiều dài miệng Đây số điểm liệu quan đôi mắt tính cách lấy trung trọng giúp khai thác tính cho mơ bình hai đường thẳng đứng riêng biệt hình tơi đơi mắt minh họa hình bên 4.1.5 Tiền xử lý 4.1.2 Trích chọn đặc trưng Có tổng cộng 68 điểm mốc khung hình tơi định giữ lại điểm mốc cho mắt miệng (Điểm 37–68) 70 .*-,(/0'(23,25) 𝐴𝑟𝑒𝑎 = ∗ 𝜋 (4) Perimeter = D(p1; p2)+D(p2; p3)+D(p3; p4)+D(p4; p5)+D(p5; p6)+D(p6; p1) (5) Mouth aspect ratio over Eye aspect ratio (MOE) Cuối cùng, tơi định thêm MOE làm tính khác MOE đơn giản tỉ số MAR so với EAR 7%8 𝑀𝑂𝐸 = 9%8 (6) Lợi ích việc sử dụng tính EAR MAR dự kiến di chuyển ngược chiều trạng thái cá nhân thay đổi Trái ngược với EAR MAR, MOE thước đo phản ứng nhanh với thay đổi nắm bắt thay đổi tinh tế EAR MAR phóng đại thay đổi mẫu số tử số di chuyển theo hướng ngược Bởi MOE lấy MAR làm tử số EAR làm mẫu số, lý thuyết cá nhân buồn ngủ, MOE tăng lên Hình 3.3: Eye Aspect Ratio Hình 3.4: (a) Chuỗi EAR toàn thời gian nháy mắt điểm đầu, cuối điểm cuối (b) Các mốc mắt để xác định EAR cho khung hình Với giả thuyết người buồn ngủ, mắt họ có khả nhỏ lại họ có khả chớp mắt nhiều Dựa giả thuyết này, dự đốn mơ hình dự đốn lớp học buồn ngủ tỷ lệ khung hình mắt cá nhân khung hình liên tiếp bắt đầu giảm, tức mắt họ bắt đầu nhắm nhiều họ chớp nhanh Mouth Aspect Ratio (MAR) Về mặt tính tốn tương tự EAR, MAR, bạn mong đợi, đo tỷ lệ chiều dài miệng với chiều rộng miệng Giả thuyết cá nhân trở nên buồn ngủ, họ có khả ngáp kiểm sốt miệng, khiến MAR họ cao bình thường trạng thái 4.1.3 Chuẩn hóa đặc trưng Khi thử nghiệm mơ hình với bốn đặc trưng đề xuất phía trên, tơi phát kết đáng lo ngại Khi chia khung hình ngẫu nhiên, mơ hình tơi đạt độ xác 70%, chia theo cá nhân, hiệu suất lại Điều cho thấy cá nhân có tính cốt lõi khác trạng thái cảnh báo mặc định họ Vì vậy, tơi đưa giả thuyết chuẩn hóa tính cho cá nhân mang lại kết tốt hơn, thực tế chứng minh điều Để chuẩn hóa tính cá nhân, tơi lấy ba khung hình cho video cảnh báo cá nhân sử dụng chúng làm sở để chuẩn hóa Giá trị trung bình độ lệch chuẩn tính cho ba khung tính tốn sử dụng để chuẩn hóa tính riêng lẻ cho người tham gia Về mặt tốn học, phương trình chuẩn hóa trơng giống sau: :'(,;&'",$

Định dạng
Số trang	100
Dung lượng	14,38 MB