Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

72 19 0
Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

TÓM TẮT Ngày nay, với bùng nổ khoa học kỹ thuật công nghệ thông tin, tốc độ thị hố ngày phát triển, nhu cầu lại người ngày cao Tuy nhiên cở sở hạ tầng, hệ thống giao thông chưa đáp ứng đủ nhu cầu Hiện tượng ùn tắc xảy thường xuyên, liên tục hầu khắp đường, môi trường ngày ô nhiễm Việc giảm thời gian chờ phương tiện cách áp dụng trí tuệ nhân tạo giúp tăng tính tiện lợi việc lưu thông, giảm thiểu việc người phải chỉnh thời gian đèn ngã tư Trên ý tưởng đề tài “Ứng dụng trí tuệ nhân tạo quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thông ” đáp ứng thực hóa ý tưởng Mục tiêu đề tài đặt ứng dụng trí tuệ nhân tạo vào việc quản lý đèn giao thông thông minh để giảm tổng thời gian chờ phương tiện ABSTRACT Nowadays, the explosion of science technology and information technology, the urbanization is speeding, the number of vehicles is increasing However, the current infrastructure and transport system not meet that demand The phenomenon of congestion occurs regularly and continuously on almost all roads, the environment is increasingly polluted Reducing the waiting time for vehicles by applying artificial intelligence will increase the convenience of traffic and minimize the human presence who adjust the time of the traffic lights at intersections According to that idea, the topic “Applying artificial intelligence for managing the smart traffic light system to reduce the total waiting time of vehicles at a traffic node" will meet and realize the idea The objective of this project, which apply artificial intelligence to the management of the smart traffic light system for reducing the cumulative waiting time of vehicles MỤC LỤC CHƯƠNG 1: TỔNG QUAN .1 1.1 Giới thiệu 1.1.1 Cơng trình liên quan 1.1.2 Vấn đề tồn cần giải .3 1.2 Lý chọn đề tài 1.3 Mục tiêu nghiên cứu 1.4 Đối tượng, phạm vi nghiên cứu 1.5 Nội dung nghiên cứu 1.6 Phương pháp nghiên cứu 1.7 Bố cục đề tài .4 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan trí tuệ nhân tạo (AI – Artificial Intelligence) 2.1.1 Định nghĩa 2.1.2 Lịch sử trí tuệ nhân tạo 2.1.3 Quá trình hình thành phát triển AI 2.1.4 Mục đích trí tuệ nhân tạo 2.1.5 Trí tuệ nhân tạo cách ngành liên quan 2.2 Nơ-ron nhân tạo (Neural Networks) .10 2.2.1 Khởi đầu với nơron .10 2.2.2 Học sâu (Deep Learning) 11 2.2.3 Mạng nơ-ron tích chập (Convolutional Neural Network) 12 2.2.3.1 Định nghĩa 12 2.2.3.2 Cấu trúc mạng CNN 12 2.3 Học tăng cường (Reinforcement Learning) .13 2.3.1 Định nghĩa 13 2.3.2 Q-Learning 15 2.4 TensorFlow .16 2.4.1 Giới thiệu 16 2.4.2 Lịch sử phát triển TensorFlow 17 2.4.3 Các thuộc tính Tensor 18 CHƯƠNG : GIẢI PHÁP GIẢM THỜI GIAN CHỜ CỦA PHƯƠNG TIỆN DỰA VÀO MẠNG NƠ-RON TÍCH CHẬP CÙNG VỚI HỌC TĂNG CƯỜNG .20 3.1 Giới thiệu 20 3.2 Phần mềm mô hoạt động phương tiện giao thông (SUMO) 22 3.3 Lưu lượng giao thông .22 3.4 Lựa chọn mơ hình mạng huấn luyện 25 3.5 Giải pháp 25 CHƯƠNG 4: THỰC NGHIỆM 30 4.1 Môi trường thực nghiệm 30 4.2 Kết thực nghiệm 30 4.2.1 Hệ thống đèn tĩnh 30 4.2.2 Kết trình huấn luyện 30 4.2.2.1 Huấn luyện tác nhân với hệ số γ = 0.09 31 4.2.2.2 Huấn luyện tác nhân với hệ số γ = 0.25 32 4.2.2.3 Huấn luyện tác nhân với hệ số γ = 0.75 33 4.2.3 Đánh giá hiệu suất mô hình 34 CHƯƠNG 5: KẾT LUẬN – HƯỚNG PHÁT TRIỂN .36 5.1 Kết luận 36 5.2 Hướng phát triển .36 TÀI LIỆU THAM KHẢO 37 PHỤ LỤC 40 DANH MỤC HÌNH ẢNH Hình 2.1: Tổng quan trí tuệ nhân tạo Hình 2.2: Lịch sử phát triển trí tuệ nhân tạo Hình 2.3: Các ngành nghề áp dụng trí tuệ nhân tạo Hình 2.4: Cấu tạo nơ-ron sinh học 10 Hình 2.5: Cấu tạo nơ-ron nhân tạo 11 Hình 2.6: Mạng nơ-ron sâu (DNN) 12 Hình 2.7: Cấu trúc mạng Convolutional Neural Network 13 Hình 2.8: Cách thức hoạt động học tăng cường 14 Hình 3.1: Minh họa trạng thái vị trí xe phía nút giao thơng 20 Hình 3.2: Qui trình hệ thống đưa giá trị Q-value 21 Hình 3.3: Mô số lượng xe tạo theo thời gian 23 Hình 3.4: Quá trình hệ thống huấn luyện 26 Hình 3.5: Qui trình lưu mẫu từ trạng thái nút giao thông vào hệ thống 27 Hình 3.6: Minh hoạ phương pháp đề xuất 28 Hình 3.7: Minh hoạ bốn hành động nút giao thông 29 Hình 4.1: Phần thưởng nhận huấn luyện hệ thống với hệ số γ 0.09 31 Hình 4.2: So sánh tổng thời gian chờ phương tiện hệ thống đèn tĩnh hệ thống huấn luyện với γ = 0.09 31 Hình 4.3: Phần thưởng nhận huấn luyện hệ thống với hệ số γ 0.25 32 Hình 4.4: So sánh tổng thời gian chờ phương tiện hệ thống huấn luyện với γ = 0.09 γ = 0.25 32 Hình 4.5: Phần thưởng nhận huấn luyện hệ thống với hệ số γ 0.75 33 Hình 4.6: So sánh tổng thời gian chờ phương tiện hệ thống huấn luyện với γ = 0.09, γ = 0.25 γ = 0.75 33 Hình 4.7: So sánh tổng thời gian chờ phương tiện qua lần thử nghiệm 34 DANH MỤC BẢNG BIỂU Bảng 1.1: Kết so sánh thực nghiệm với hệ thống đèn tĩnh Andrea Vidali đồng Bảng 2.1: Q-Learning trạng thái khởi tạo từ 0, sau cập nhật thông qua đào tạo 16 Bảng 3.1: Khả xuất xe trường hợp lưu lượng đơng 23 Bảng 3.2: Khả xuất xe trường hợp lưu lượng đa số từ hướng Bắc, Nam 24 Bảng 3.3: Khả xuất xe trường hợp lưu lượng đa số từ hướng Bắc, Nam 24 Bảng 3.4: Đặc tính xe 25 Bảng 4.1: Thời gian đèn hệ thống đèn tĩnh 30 Bảng 4.2: Kết sau chạy mô hệ thống đèn tĩnh 30 Bảng 4.3: Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh 31 Bảng 4.4: Kết sau chạy mô với hệ số γ = 0.09 31 Bảng 4.5: Kết sau chạy mô với hệ số γ 0.25 32 Bảng 4.6: Kết sau chạy mô với hệ số γ 0.75 33 Bảng 4.7: So sánh hiệu suất mô hình đề xuất với hệ thống đèn tĩnh (thấp tốt hơn) 35 CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ ITS Intelligent Transport System AI Artificial Intelligence NN Neural Networks DNN Deep Neural Networks DL Deep Learning DRL Deep Reinforcement Learning A2C Actor Critic MDP Markov Decision Process CNN Convolutional Neural Network RL Reinforcement Learning SL Supervised Learning UL Unsupervised Learning API Application Programming Interface CPU Central Processing Unit GPU Graphics Processing Unit CUDA Compute Unified Device Architecture STL Static Traffic Light Twt Total waiting time LGA Low Γ Agent MGA Medium Γ Agent HGA High Γ Agent IHGA Improved High Γ Agent GCNN Graph Convolutional Neural Network NFQI Neural fitted Q-iteration SUMO Simulation of Urban MObility TraCI Traffic Control Interface Chương : Tổng Quan Chương TỔNG QUAN 1.1 Giới thiệu Trong ngày qua, khái niệm “Cách mạng Công nghiệp 4.0” nhắc đến nhiều truyền thông mạng xã hội Cùng với hứa hẹn “đổi đời” doanh nghiệp Việt Nam đón sóng Việc áp dụng công nghệ tiên tiến để hỗ trợ việc quản lí dịng phương tiện trở nên phổ biến 70 năm qua với nỗ lực ban đầu việc kiểm sốt tín hiệu giao thơng ngã tư khu vực giao cắt đường Những nhà sản xuất phương tiện phát triển công nghệ tiên tiến để tạo loại phương tiện an toàn hơn, thoải mái hơn, giảm áp lực lái xe Những công nghệ tiên tiến áp dụng ngày nhiều việc quản lí mạng lưới giao thông công cộng lớn, việc cập nhật thông tin điểm đến xe bus tàu cho hành khách Trong lĩnh vực vận tải hàng hóa, loạt công nghệ áp dụng để việc di chuyển phương tiện trở nên dễ dàng trợ giúp giao dịch thương mại phận chuỗi cung cấp Nhìn chung, cơng nghệ biết đến với tên “hệ thống giao thông thông minh” (ITS) Khi áp dụng cách cẩn thận, ITS tạo hệ thống giao thơng an tồn hơn, an ninh hơn, thuận tiện hơn, giảm tác động đến mơi trường Mục đích hệ thống giúp người đưa định cố vấn giúp họ hiểu nên cân nhắc để tạo phương án sử dụng ITS tốt nhất; hội thử thách ITS đưa ra; làm để giải tận dụng tốt thử thách hội 1.1.1 Cơng trình liên quan Để tiến hành thực đề tài tơi tìm hiểu hệ thống giao thông thông minh thị trường nghiên cứu cơng trình báo liên quan: Chương : Tổng Quan Năm 2016, tác giả Elise van der Pol Frans A Oliehoek [1] mô tả cố gắng điều khiển đèn giao thông cách sử dụng thành phần MDP, trạng thái đường biểu diễn ma trận nhị phân với trạng thái đèn tín hiệu giao thơng Sau ơng kết hợp tác nhân nút giao thơng khác cho q trình huấn luyện thu kết tốt so với hệ thống đèn tĩnh Năm 2016, Li Li đồng [2] đề xuất phương pháp áp dụng mạng học sâu phương pháp học tăng cường để xử lý liệu đầu vào trạng thái bao gồm: tốc độ, độ dài hàng đợi xe đường, … sau hệ thống điều chỉnh thời gian đèn thích hợp Tác giả thu kết số lương xe dừng chờ giảm thời gian chờ trung bình phương tiện giảm khoảng 14% sử dụng phương pháp đề xuất thay phương pháp học tăng cường thơng thường Năm 2017, Juntao Gao đồng nghiệp [3] đề xuất thuật toán học tăng cường kết hợp mạng học sâu tự động trích xuất đặc trưng hữu ích từ liệu hệ thống giao thơng vị trí xe, tốc độ xe đường trạng thái tín hiệu đèn giao thơng nút giao thơng Qua tác nhân học sách tối ưu để kiểm sốt tín hiệu hệ thống đèn giao thơng cách hợp lý Năm 2018, Yilun Lin đồng [4] đề xuất thuật toán học tập tăng cường sâu (DRL) Mơ hình tác nhân sử dụng mơ hình A2C Các thí nghiệm mơ phương pháp họ vượt trội so với phương pháp dựa quy tắc truyền thống có khả xử lý vấn đề phức tạp giới thực Năm 2018, nghiên cứu khác tác giả Tomoki Nishi [5] việc trích xuất thuộc tính ảo từ liệu, cảm biến từ liệu đầu vào, véc tơ ma trận cần thiết cho mạng nơron Và phương pháp đề xuất sử dụng GCNN [6] để trích xuất trực tiếp tính mạng NFQI Kết cho thấy, Chương : Tổng Quan NFQI với GCNN thu luật lệ so sánh nhanh so với hệ thống đèn mặc định Năm 2019, Andrea Vidali đồng [7] áp dụng phương pháp học tăng cường mạng học sâu việc đưa vị trí xe đường thành vec-tơ liệu đầu vào hệ thống học Qua họ so sánh với hệ thống đèn tĩnh thu kết bảng dưới: Bảng 1.1: Kết so sánh thực nghiệm với hệ thống đèn tĩnh Andrea Vidali đồng [7] 1.1.2 Vấn đề tồn cần giải Việc làm giảm tổng thời gian chờ phương tiện với phương pháp khác cho kết khác Thực tế cho thấy báo liên quan đưa liệu đầu vào ma trận vec-tơ đường nút giao thông Vậy câu hỏi đặt liệu có phương pháp tiếp cận khác đem lại kết tối ưu so với đèn giao thông tĩnh thông thường 1.2 Lý chọn đề tài Các giải pháp việc giảm tổng thời gian chờ phương tiện nút giao thông chủ yếu tập trung việc ma trận hóa nút giao thơng sau đưa cho mơ hình mạng học sâu để đưa kết cho việc học tăng cường Vì nên tơi muốn áp dụng mơ hình mạng nơ-ron tích chập (CNN) để phân tích tình trạng giao thơng nút giao thơng sau mơ hình học tăng cường lấy kết Phụ Lục PHASE_NS_YELLOW = PHASE_NSL_GREEN = # action code 01 PHASE_NSL_YELLOW = PHASE_EW_GREEN = # action code 10 PHASE_EW_YELLOW = PHASE_EWL_GREEN = # action code 11 PHASE_EWL_YELLOW = # Handle the simulation of the agent class SimRunner: def init (self, sess, model, memory, traffic_gen, total_episodes, γ, max_steps, green_duration, yel low_duration, sumoCmd, test, path,restore): self._sess = sess self._model = model self._memory = memory self._traffic_gen = traffic_gen self._total_episodes = total_episodes self._γ = γ self._eps = # controls the explorative/exploitative payoff, I choosed epsilon-greedy policy self._steps = self._waiting_times = {} self._waiting_times_per_ep = {} self._sumoCmd = sumoCmd self._max_steps = max_steps self._green_duration = green_duration self._yellow_duration = yellow_duration self._sum_intersection_queue = self._reward_per_step = [] self._waitTime_per_step = [] # for test session: show reward per step # for test session: show total wait time of whole vehicle in interseti on per step self._vehicle_per_step = [] self._reward_store = [] self._cumulative_wait_store = [] self._avg_intersection_queue_store = [] self.test = test if restore: 51 Phụ Lục with self._sess.as_default(): self.saver = tf.train.Saver() print("Restoring") ckpt = tf.train.latest_checkpoint(path) if ckpt: print("Checkpoint is valid") #self.step = int(ckpt.split("-")[1]) self.saver.restore(self._sess, ckpt) # The main function which activate the SUMO def run(self, episode): # first, generate the route file for this simulation and set up sumo self._traffic_gen.generate_routefile(episode) traci.start(self._sumoCmd) # set the epsilon for this episode self._eps = 1.0 - (episode / self._total_episodes) # inits self._steps = tot_neg_reward = old_total_wait = self._waiting_times = {} self._sum_intersection_queue = previous = while self._steps < self._max_steps: # get current image (state) of the intersection current_image = self._get_image(self._steps,previous) previous = self._steps # calculate reward of previous action: (change in cumulative waiting time between actions) # waiting time = seconds waited by a car since the spawn in the environment, cumulated for ever y car in incoming lanes current_total_wait = self._get_waiting_times() reward = old_total_wait - current_total_wait # saving the data into the memory 52 Phụ Lục if self._steps != 0: self._memory.add_sample((old_image, old_action, reward, current_image)) # choose the light phase to activate, based on the current state of the intersection action = self._choose_action(current_image) # if the chosen phase is different from the last phase, activate the yellow phase if self._steps != and old_action != action: self._set_yellow_phase(old_action) self._simulate(self._yellow_duration) # execute the phase selected before self._set_green_phase(action) self._simulate(self._green_duration) # saving variables for later & accumulate reward old_image = current_image old_action = action old_total_wait = current_total_wait if self.test: self._reward_per_step.append(reward) if reward < 0: tot_neg_reward += reward self._save_stats(tot_neg_reward) print("Total reward: {}, Epsilon: {}".format(tot_neg_reward, self._eps)) traci.close() # Handle the correct number of steps to simulate def _simulate(self, steps_todo): if (self._steps + steps_todo) >= self._max_steps: # not more steps than the maximum numbe r of steps steps_todo = self._max_steps - self._steps self._steps = self._steps + steps_todo # update the step counter while steps_todo > 0: traci.simulationStep() # simulate step in sumo if not self.test: 53 Phụ Lục self._replay() # training steps_todo -= intersection_queue = self._get_stats() if self.test: self._vehicle_per_step.append(len(traci.vehicle.getIDList())) self._waitTime_per_step.append(self._get_waiting_times()) self._sum_intersection_queue += intersection_queue # Retrieve the waiting time of every car in the incoming lanes def _get_waiting_times(self): incoming_roads = ["E2TL", "N2TL", "W2TL", "S2TL"] _waiting_times = {} for veh_id in traci.vehicle.getIDList(): wait_time_car = traci.vehicle.getAccumulatedWaitingTime(veh_id) road_id = traci.vehicle.getRoadID(veh_id) # get the road id where the car is located if road_id in incoming_roads: # consider only the waiting times of cars in incoming roads _waiting_times[veh_id] = wait_time_car self._waiting_times_per_ep[veh_id] = wait_time_car total_waiting_time = sum(_waiting_times.values()) return total_waiting_time # Decide wheter to perform an explirative or exploitative action - epsilon-greedy policy def _choose_action(self, image): if self.test: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) if random.random() < self._eps: return random.randint(0, self._model.num_actions - 1) # random action else: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) # the best a ction given the current image (state) # Set the correct yellow phase in SUMO def _set_yellow_phase(self, old_action): yellow_phase = old_action * + # obtain the yellow phase code, based on the old action traci.trafficlight.setPhase("TL", yellow_phase) 54 Phụ Lục # Set a green phase in SUMO def _set_green_phase(self, action_number): if action_number == 0: traci.trafficlight.setPhase("TL", PHASE_NS_GREEN) elif action_number == 1: traci.trafficlight.setPhase("TL", PHASE_NSL_GREEN) elif action_number == 2: traci.trafficlight.setPhase("TL", PHASE_EW_GREEN) elif action_number == 3: traci.trafficlight.setPhase("TL", PHASE_EWL_GREEN) # Retrieve the stats of the simulation for a single step def _get_stats(self): halt_N = traci.edge.getLastStepHaltingNumber("N2TL") halt_S = traci.edge.getLastStepHaltingNumber("S2TL") halt_E = traci.edge.getLastStepHaltingNumber("E2TL") halt_W = traci.edge.getLastStepHaltingNumber("W2TL") intersection_queue = halt_N + halt_S + halt_E + halt_W return intersection_queue #Retrive the picture def _get_image(self,index,old): traci.gui.screenshot('View #0','image/{}.png'.format(str(index))) im = Image.open('image/{}.png'.format(str(old))) h,w = im.size left = (w-h)/2 top = right = w - left bottom = h im2 = im.crop((left, top, right, bottom)) im2 = im2.resize((224,224)).convert('RGB') arr = np.array(im2) if old != : os.remove('image/{}.png'.format(str(old))) return arr 55 Phụ Lục # Retrieve a group of samples and update the Q-learning equation, then train def _replay(self): batch = self._memory.get_samples(self._model.batch_size) if len(batch) > 0: # if there is at least sample in the batch states = np.array([val[0] for val in batch]) # extract states from the batch next_states = np.array([val[3] for val in batch]) # extract next states from the batch # prediction q_s_a = self._model.predict_batch(states, self._sess) # predict Q(state), for every sample (previo us state) q_s_a_d = self._model.predict_batch(next_states, self._sess) # predict Q(next_state), for every s ample (current state) # setup training arrays x = np.zeros((len(batch), 224,224,3)) y = np.zeros((len(batch), self._model.num_actions)) for i, b in enumerate(batch): image, action, reward, _ = b[0], b[1], b[2], b[3] # extract data from one sample current_q = q_s_a[i] # get the Q(state) predicted before current_q[action] = reward + self._γ * np.amax(q_s_a_d[i]) # update Q(state, action) x[i] = image y[i] = current_q # Q(state) that includes the updated action value self._model.train_batch(self._sess, x, y) # train the NN # Save the stats of the episode to plot the grapths at the end of the session\ def _save_stats(self, reward): self._reward_store.append(reward) # how much negative reward in this episode self._cumulative_wait_store.append(self._sum_intersection_queue) # total number of seconds wait ed by cars in this episode self._avg_intersection_queue_store.append(self._sum_intersection_queue / self._max_steps) # ave rage number of queued cars per step, in this episode @property 56 Phụ Lục def reward_store(self): return self._reward_store @property def cumulative_wait_store(self): return self._cumulative_wait_store @property def avg_intersection_queue_store(self): return self._avg_intersection_queue_store @property def reward_per_step(self): return self._reward_per_step @property def waitTime_per_step(self): return self._waitTime_per_step @property def vehicle(self): return self._vehicle_per_step @property def total_waiting_times_per_ep(self): return sum(self._waiting_times_per_ep.values()) 57 ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG APPLYING ARTIFICIAL INTELLIGENCE FOR MANAGING THE SMART TRAFFIC LIGHT SYSTEM TO REDUCE THE TOTAL WAITING TIME OF VEHICLES AT A TRAFFIC NODE Nguyen Anh Kiet 1, Nguyen Van Thai 1 Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM TÓM TẮT Nội dung báo trình bày cách tiếp cận cách sử dụng trình giả lập SUMO dùng để mô hoạt động phương tiện đường Sau thiết kế mạng nơ-ron tích chập dùng để phân tích đặc trưng [1] như: vị trí xe, mật độ xe, hướng xe, … từ hình ảnh đầu vào trạng thái đường lấy từ phần mềm mô Cuối áp dụng học tăng cường trải nghiệm tác nhân tăng lên khiến cho việc kiểm sốt đèn giao thơng hiệu giảm thời gian chờ phương tiện nút giao thông Trong thực nghiệm, áp dụng phương pháp đề xuất tổng thời gian chờ phương tiện giảm khoảng 35% - 75% cho trường hợp số lượng xe từ thấp tới vừa so sánh với hệ thống đèn tĩnh cài đặt cố định Từ khóa: hệ thống đèn giao thơng thơng minh; SUMO; mạng nơ-ron tích chập; học tăng cường ABSTRACT The paper presents an approach using the SUMO emulator which is used to simulate the operation of vehicles on the road Then design a convolutional neural network to analyze characteristics [1] Such as vehicle location, vehicle density, vehicle direction, etc from an input image that is the current state of The path is taken from simulation software Finally, intensive learning is applied to increase the experience of the agent, making the traffic control more efficient and reducing the waiting time for vehicles at an intersection In practice, when the proposed method was applied, the total waiting time of the vehicles reduced in a range from 35% to 75% for cases of low to medium vehicles when compared to the static traffic light system Keywords: smart traffic light systems; SUMO; CNN; reinforcement learning Việc áp dụng công nghệ tiên tiến để hỗ trợ việc quản lí dịng phương tiện trở nên phổ biến 70 năm qua với nỗ lực ban đầu việc kiểm sốt tín hiệu giao thơng ngã tư khu vực giao cắt đường Những nhà sản xuất phương tiện phát triển công nghệ GIỚI THIỆU Trong ngày qua, khái niệm “Cách mạng Công nghiệp 4.0” nhắc đến nhiều truyền thơng mạng xã hội Cùng với hứa hẹn “đổi đời” doanh nghiệp Việt Nam đón sóng 58 tiên tiến để tạo loại phương tiện an toàn hơn, thoải mái hơn, giảm áp lực lái xe Năm 2016, Li Li đồng [3] đề xuất phương pháp áp dụng mạng học sâu phương pháp học tăng cường để xử lý liệu đầu vào trạng thái bao gồm: tốc độ, độ dài hàng đợi xe đường, … sau hệ thống điều chỉnh thời gian đèn thích hợp Tác giả thu kết số lương xe dừng chờ giảm thời gian chờ trung bình phương tiện giảm khoảng 14% sử dụng phương pháp đề xuất thay phương pháp học tăng cường thơng thường Những công nghệ tiên tiến áp dụng ngày nhiều việc quản lí mạng lưới giao thơng cơng cộng lớn, việc cập nhật thông tin điểm đến xe bus tàu cho hành khách Trong lĩnh vực vận tải hàng hóa, loạt cơng nghệ áp dụng để việc di chuyển phương tiện trở nên dễ dàng trợ giúp giao dịch thương mại phận chuỗi cung cấp Nhìn chung, cơng nghệ biết đến với tên “hệ thống giao thông thông minh” (ITS) Khi áp dụng cách cẩn thận, ITS tạo hệ thống giao thơng an tồn hơn, an ninh hơn, thuận tiện hơn, giảm tác động đến môi trường Năm 2017, Juntao Gao đồng nghiệp [4] đề xuất thuật toán học tăng cường kết hợp mạng học sâu tự động trích xuất đặc trưng hữu ích từ liệu hệ thống giao thông vị trí xe, tốc độ xe đường trạng thái tín hiệu đèn giao thơng nút giao thơng Qua tác nhân học sách tối ưu để kiểm sốt tín hiệu hệ thống đèn giao thông cách hợp lý Mục đích hệ thống giúp người đưa định cố vấn giúp họ hiểu nên cân nhắc để tạo phương án sử dụng ITS tốt Cơ hội thử thách ITS đưa làm để giải tận dụng tốt thử thách hội Năm 2018, Yilun Lin đồng [5] đề xuất thuật toán học tập tăng cường sâu (DRL) Mơ hình tác nhân sử dụng mơ hình A2C Các thí nghiệm mơ phương pháp họ vượt trội so với phương pháp dựa quy tắc truyền thống có khả xử lý vấn đề phức tạp giới thực CÔNG TRÌNH LIÊN QUAN Để tiến hành thực đề tài tơi tìm hiểu hệ thống giao thơng thông minh thị trường nghiên cứu cơng trình báo liên quan: Năm 2018, nghiên cứu khác tác giả Tomoki Nishi [6] việc trích xuất thuộc tính ảo từ liệu, cảm biến từ liệu đầu vào, véc tơ ma trận cần thiết cho mạng nơron Và phương pháp đề xuất sử dụng GCNN [7] để trích xuất trực tiếp tính mạng NFQI Kết cho thấy, NFQI với GCNN thu luật lệ so sánh nhanh so với hệ thống đèn mặc định Năm 2016, tác giả Elise van der Pol Frans A Oliehoek [2] mô tả cố gắng điều khiển đèn giao thông cách sử dụng thành phần MDP, trạng thái đường biểu diễn ma trận nhị phân với trạng thái đèn tín hiệu giao thơng Sau ơng kết hợp tác nhân nút giao thông khác cho trình huấn luyện thu kết tốt so với hệ thống đèn tĩnh Năm 2019, Andrea Vidali đồng [8] áp dụng phương pháp học 59 tăng cường mạng học sâu việc đưa vị trí xe đường thành vec-tơ liệu đầu vào hệ thống học Qua họ so sánh với hệ thống đèn tĩnh thu kết bảng dưới: sử dụng để kiểm tra hiệu suất tác nhân Trong mô SUMO, bước (step) tương đương với giây Đối với luận văn này, trình thử nghiệm bao gồm 5400 bước tương đương 30 phút mô Bảng Kết so sánh thực nghiệm Andrea Vidali đồng [8] 3.2 Lưu lượng giao thông Trong môi trường giả lập, lưu lượng giao thông phần quan trọng có tác động lớn đến hiệu suất tác nhân Để trì mức độ thực tế cao, giai đoạn huấn luyện, tính tạo theo phân phối Weibull [10] hai chiều x, y Sự phân phối trình bày dạng biểu đồ, trục x định nghĩa bước tập mô trục y định nghĩa số lượng phương tiện tạo bước Phân phối Weibull chọn tính gần tình cụ thể, số lượng xe tăng dần lên cao điểm từ bắt đầu chạy mô Mỗi xe biết điểm bắt đầu kết thúc Sau đó, số lượng xe đến giảm dần mơ tả cho sự giảm tình trạng tắc nghẽn PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Phần mềm mô hoạt động phương tiện giao thông (SUMO) SUMO (Simulation of Urban Mobility) [9] phần mềm cho phép người dùng thiết kế yếu tố sở hạ tầng đường mong muốn Đầu tiên, trình chỉnh sửa trực quan NetEdit sử dụng để thiết kế thành phần tĩnh giao lộ, chẳng hạn đặc điểm đường, phân bố đèn giao thông kết nối đường qua giao lộ Tiếp theo, nhờ vào gói hỗ trợ SUMO TraCI (Traffic Control Interface) [9], định nghĩa loại, đặc điểm hệ xe đưa vào mơ Ngồi ra, TraCI tương tác với mô thời gian chạy để lấy trạng thái giao lộ dấu thời gian sau đặt hành động chọn tác nhân 3.3 Huấn luyện tác nhân Cuối cùng, công cụ SUMO-GUI cho phép người dùng trải nghiệm minh hoạ thực tế mô với khả làm chậm tăng tốc độ mô Công cụ Nghiên cứu tập trung vào việc cải thiện thời gian chờ phương tiện giao thông qua giao lộ cách điều khiển đèn giao thông với kỹ thuật trí tuệ Hình Mơ số lượng xe tạo theo thời gian 60 nhân tạo Các tác nhân đại diện cho hệ thống đèn giao thông tương tác với môi trường mô để tối ưu luồng xe lưu thông Với tiền đề chung này, vấn đề giải viết định nghĩa sau: với trạng thái giao lộ, pha đèn giao thông mà tác nhân nên chọn từ tập hợp hành động xác định trước, để tối đa hóa phần thưởng từ tối ưu hóa hiệu giao thơng giao lộ Qui trình xử lý tác nhân thể hình bên dưới: Sau hệ thống lưu lại mẫu vào nhớ để phục vụ cho trình huấn luyện Một mẫu lưu lại định nghĩa sau: m = (st, at, rt+1, st+1) (8) Trong đó: st: Là hình ảnh trạng thái đường thời gian t st+1: Là hình ảnh trạng thái đường thời gian t + rt+1: Là phần thưởng nhận sau thực hành động trạng thái st at: Là hành động thời điểm t Hình 10 Qui trình lưu mẫu từ trạng thái nút giao thơng vào hệ thống Hình Qui trình xử lý tác nhân Tác nhân nhận liệu đầu vào hình ảnh lấy từ phần mềm mơ SUMO nút giao thông thời gian t Tiếp theo hệ thống tính tốn phần thưởng sau thực hành động thời điểm t Công thức phần thưởng định nghĩa sau: 𝑟𝑡 = 𝑡𝑤𝑡𝑡−1 − 𝑡𝑤𝑡𝑡 (7) Trong suốt trình, tác nhân tương tác với môi trường mô SUMO hệ thống lấy gói liệu gồm nhiều mẫu từ nhớ để thực việc huấn luyện Ứng với mẫu hệ thống tính giá trị 𝑄(𝑠𝑡 , 𝑎𝑡 ) cách đưa hình ảnh đường thời điểm t hệ thống tính giá trị Q Tương tự với thời điểm t+1 ta có giá trị 𝑄 ′ (𝑠𝑡+1 , 𝑎𝑡+1 ) Sau hệ thống cập nhật giá trị Q cách chọn 𝑄′(𝑠𝑡+1 , 𝑎𝑡+1 ) có giá trị lớn theo công thức: 𝑄(𝑠𝑡 , 𝑎𝑡 ) = 𝑟𝑡+1 + 𝛾 𝑚𝑎𝑥 𝑄′(𝑠𝑡+1 , 𝑎𝑡+1 ) (9) Trong đó: rt : phần thưởng thời điểm t 𝑡𝑤𝑡𝑡−1 : Tổng thời gian chờ hành động thời điểm t-1 𝑡𝑤𝑡𝑡 : Tổng thời gian chờ hành động t Một hành động đánh giá tốt thời điểm t số lượng phương tiện thời điểm thời điểm t-1 Và ngược lại hành động xấu 𝑎 Trong đó: 𝑄(𝑠𝑡 , 𝑎𝑡 ): Giá trị Q thời điểm t 𝑟𝑡+1 : Phần thưởng nhận sau khi thực hành động t 61 𝛾: Hệ số chiết khấu (giá trị chọn theo thực nghiệm) 𝑄 ′ (𝑠𝑡+1 , 𝑎𝑡+1 ): Giá trị Q thời điểm t+1 North-South Left Advance (NSLA): thời gian đèn xanh cho phương tiện phía bắc phía nam muốn rẽ trái East-West Advance (EWA): thời gian đèn xanh cho phép phương tiện nhánh đông tây muốn thẳng rẽ phải East-West Left Advance (EWLA): thời gian đèn xanh cho phép phương tiện phía đơng phía tây muốn rẽ trái Nếu hành động chọn thời điểm t giống hành động chọn trước t - hệ thống khơng bật đèn vàng hành động Thời gian đèn xanh đặt mặc định 10 giây cho hành động giây cho đèn vàng Hệ thống tiếp tục làm kết thúc trình thử nghiệm Hình 11 Minh hoạ phương pháp đề xuất Theo mơ hình từ hình ảnh đầu vào tách thành kênh: đỏ, xanh lá, xanh dương ta thu feature maps Sau tơi thực phương pháp tích chập với thông số: stride = 1, kernel = 3, padding = 1, filter = 16 đưa qua hàm kích hoạt ReLU thu 16 feature maps Mỗi feature map scan hình ảnh đầu vào ban đầu, trích xuất đặc trưng cụ thể Tiếp đến làm tương tự lần tơi giảm kích thước mẫu xuống hai lần với thông số stride = Sau nhiều lần thử nghiệm với số lần tích chập: 2, 4, 6, 8, 10 tơi nhận thấy với số lần tích chập kết đạt gần bảo hồ Tiếp theo đến tơi làm phẳng lớp convolutional qua lớp ẩn tập A gồm giá trị Q tương ứng với hành động cho phép phương tiện di chuyển qua giao lộ sau: Hình 12 Minh hoạ bốn hành động nút giao thông THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Kịch bản, môi trường thực nghiệm A = {NSA, NSLA, EWA, EWLA} (10) Mơ hình đề xuất huấn luyện hệ thống máy tính có cấu sau: Trong đó: ▪ CPU: Intel ® Core ™ i5 9400 CPU North-South Advance (NSA): thời gian đèn xanh cho phép phương tiện phía bắc phía nam muốn thẳng rẽ phải ▪ Memory: 16 GB (DDR4 2666 MHz) ▪ GPU: NVIDIA GeForce GTX 1070 62 Các kịch số lượng xe tạo ra: Bảng nêu chi tiết thời gian pha đèn Lưu lượng xe đông (High): 4000 xe tạo Bảng 10 Thời gian đèn hệ thống đèn tĩnh Lưu lượng xe thấp (Low): 600 xe tạo Pha đèn Thời gian (giây) NSA 30 Lưu lượng xe vừa từ hướng Bắc, Nam (NS): 2000 xe tạo NSLA 15 EWA 30 Lưu lượng xe vừa từ hướng Đông, Tây (EW): 2000 xe tạo EWLA 15 Đèn vàng Đối với kịch lưu lượng đông thấp, xác suất Đầu tiên, xe có xác suất 75% để thẳng 25% để rẽ trái phải Sau đó, điểm nguồn đích xe chọn với xác suất thống Trong bái viết này, hệ thống đèn giao thông thông minh đề xuất huấn luyện với thông số bảng bên Bảng 11 Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh LGA MGA HGA Cách phân phối giống kịch Sự khác biệt kịch Bắc-Nam, Đông-Tây, xe có xác suất 90% đến từ phía bắc phía nam 10% đến từ phía đơng phía tây Ngược lại, kịch đơng tây, xe có 90% hội đến từ phía đơng phía tây 10% hội đến từ phía bắc phía nam Khi thực mơ kịch thử nghiệm hệ thống đèn tĩnh ta thu kết sau: Mỗi xe tạo có đặc điểm bảng bên dưới: Bảng 12 Kết sau chạy mô hệ thống đèn tĩnh 100 100 100 𝜸 0.09 0.25 0.75 Số lượng xe 1000 1000 1000 4.2 Kết Bảng Đặc tính xe Đặc điểm Số lần huấn luyện Low High NS EW Giá trị Twt 13311 218682 116919 118746 Tăng tốc m/s Giảm tốc 4.5 m/s Tốc độ tối đa xe 25 m/s Chiều dài xe mét Đối với mơ hình đề xuất, sau thực việc mơ thấy thơng số khác đưa hành động khác từ thu kết khác Bảng bên cho thấy kết so sánh hệ thống đèn tĩnh với hệ thống đề xuất qua kịch lưu lượng xe khác Khoảng cách hai xe 2.5 mét Hệ thống đèn tĩnh thiết lập luân phiên bật thời gian đèn giao thông với thời gian cố định Cùng với chuyển đèn khác có pha đèn vàng 63 chờ phương tiện Hệ thống thiết kế cách lấy trạng thái đường ảnh chụp giao lộ trình mơ tên SUMO chọn hành động để điều khiển đèn xanh với thời gian cố định sẵn Phương pháp học tập áp dụng cho trình huấn luyện dùng mạng nơ-ron tích chập với học tăng cường Việc học tăng cường sử dụng để cải thiện việc chọn hành động trải nghiệm tác nhân tăng lên mạng lưới thần kinh mạng CNN sử dụng cho dự đoán giá trị Q tác nhân chọn hành động ứng trạng thái đường Phần thưởng tính tốn dựa thời gian chờ phương tiện, khiến tác nhân nhận thức kết hành động tình khác Kết hệ thống đèn giao thông thông minh đề xuất dùng số tình trạng giao thông cho kết tốt hệ thống giao thơng tĩnh trường hợp đường có mật độ thấp vừa Bảng 13 So sánh hiệu suất mơ hình đề xuất với hệ thống đèn tĩnh (thấp tốt hơn) LGA MGA HGA Lưu lượng xe thấp Twt -38% -35% -17.5% Lưu lượng xe đông Twt +148% +122% +225% Lưu lượng xe vừa di chuyển từ hướng Bắc, Nam Twt -71% -75% -68% Lưu lượng xe vừa di chuyển từ hướng Đông Tây Twt -69% -75% -50% Dựa vào kết từ bảng ta thấy khác biệt hai hệ số γ từ 0.09 lên đến 0.75 Thì với hệ số γ 0.25 cho hiệu tốt Hệ thống chọn hành động tốt mà không làm ảnh hưởng đến đường Tuy nhiên với trường hợp lưu lượng xe đơng hệ thống cho kết có thời gian chờ phương tiện cao hệ thống đèn tĩnh Việc xảy công thức tính phần thưởng việc lấy tổng thời gian chờ hành động thời điểm t-1 trừ cho tổng thời gian chờ hành động thời điểm t Mà số lượng xe đường khác tiếp tục tăng nhiều nên thời gian chờ phương tiện trước tác nhân chọn hành động lớn khiến cho tác nhận hiểu lầm chọn hành động sai Vấn đề giải phương thức tính phần thưởng tận dụng lợi biện pháp hiệu giao lộ như: tính thời gian chờ trung bình phương tiện, số lượng xe thơng qua cịn lại, Trong báo số trường hợp hệ thống cho kết khả quan Tuy nhiên cần nghiên cứu thay đổi phương thức tính phần thưởng để tận dụng lợi của giao lộ cách hiệu Hệ thống cần huấn luyện thêm nhiều lần với nhiều thơng số khác để so sánh thêm nhiều trường hợp KẾT LUẬN Nghiên cứu cho thấy hệ thống đèn giao thông thông minh áp dụng thành cơng việc kiểm sốt tín hiệu đèn cho thấy cải thiện tổng thời gian 64 TÀI LIỆU THAM KHẢO [1] Sajad Mousavi, Michael Schukat, Enda Howley, Traffic Light Control Using Deep PolicyGradient and Value-Function Based Reinforcement Learning, in IET Intelligent Transport Systems, vol 11, no 7, pp 417-423, 2017 [2] Elise van der Pol, Frans A Oliehoek, Coordinated Deep Reinforcement Learners for Traffic Light Control, 2016 Internet: https://www.semanticscholar.org/paper/Coordinated-Deep-Reinforcement-Learnersfor-Traffic-Pol-Oliehoek/47632b66387d00d19b66e71560ba462847b78006 [3] L Li, Y Lv and F Wang, Traffic signal timing via deep reinforcement learning, in CAA Journal of Automatica Sinica, vol 3, no 3, pp 247-254, 2016 [4] Juntao Gao, Yulong Shen, Jia Liu, Minoru Ito, Norio Shiratori, Adaptive Traffic Signal Control: Deep Reinforcement Learning Algorithm with Experience Replay and Target Network, 2017 Internet: https://arxiv.org/abs/1705.02755v1 [5] Yilun Lin, Xingyuan Dai, Li Li, Fei-Yue Wang, An Efficient Deep Reinforcement Learning Model for Urban Traffic Control, 2018 Internet: https://arxiv.org/abs/1808.01876 [6] T Nishi, K Otaki, K Hayakawa and T Yoshimura, Traffic Signal Control Based on Reinforcement Learning with Graph Convolutional Neural Nets, in 21st International Conference on Intelligent Transportation Systems (ITSC), Maui, HI, pp 877-883, 2018 [7] M Schlichtkrull, T N Kipf, P Bloem, R van den Berg, I Titov, and M Welling Modeling Relational Data with Graph Convolutional Networks, in The Semantic Web, pp.593607, 2017 [8] Andrea Vidali, Luca Crociani, Giuseppe Vizzari and Stefania Bandini, A Deep Reinforcement Learning Approach to Adaptive Traffic Lights Management, in Workshop "From Objects to Agents" (WOA 2019), pp 42-50, 2019 [9] “SUMO - Simulation of Urban MObility” Internet: https://sumo.dlr.de/docs/ [10] “Weibull distribution” Internet: https://www.weibull.com/hotwire/issue14/relbasics14.htm Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Anh Kiệt Đơn vị: Học viên cao học; Ngành: Khoa học máy tính; Khố: 2017B Điện thoại: 0969.420.417 Email: kietnguyen0814@gmail.com 65 ... Tên đề tài cần sửa lại thành ? ?Ứng dụng trí tuệ nhân tạo hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thông? ?? cho sát với mục tiêu nội dung nghiên cứu... EWLA} Hệ thống đèn luân phiên bật thời gian đèn giao thơng với thời gian cố định Cùng với chuyển đèn khác có pha đèn vàng Bảng 4.1 nêu chi tiết thời gian pha đèn Bảng 4.1: Thời gian đèn hệ thống đèn. .. áp dụng phương pháp mơ hình mạng CNN học tăng cường để cải thiện thời gian chờ phương tiện giao thông So sánh tổng thời gian chờ hệ thống đèn giao thông áp dụng mô hình mạng nơ-ron tích chập phương

Ngày đăng: 04/12/2021, 11:49

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan