(Luận văn thạc sĩ hcmute) ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
6,46 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 SKC006703 Tp Hồ Chí Minh, tháng 05/2020 Luan van BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THƠNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Tp Hồ Chí Minh – tháng 5/2020 Luan van BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THƠNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Hướng dẫn khoa học: TS NGUYỄN VĂN THÁI Tp Hồ Chí Minh – tháng 5/2020 Luan van Luan van Luan van Luan van Luan van Luan van Luan van Luan van Phụ Lục with self._sess.as_default(): self.saver = tf.train.Saver() print("Restoring") ckpt = tf.train.latest_checkpoint(path) if ckpt: print("Checkpoint is valid") #self.step = int(ckpt.split("-")[1]) self.saver.restore(self._sess, ckpt) # The main function which activate the SUMO def run(self, episode): # first, generate the route file for this simulation and set up sumo self._traffic_gen.generate_routefile(episode) traci.start(self._sumoCmd) # set the epsilon for this episode self._eps = 1.0 - (episode / self._total_episodes) # inits self._steps = tot_neg_reward = old_total_wait = self._waiting_times = {} self._sum_intersection_queue = previous = while self._steps < self._max_steps: # get current image (state) of the intersection current_image = self._get_image(self._steps,previous) previous = self._steps # calculate reward of previous action: (change in cumulative waiting time between actions) # waiting time = seconds waited by a car since the spawn in the environment, cumulated for ever y car in incoming lanes current_total_wait = self._get_waiting_times() reward = old_total_wait - current_total_wait # saving the data into the memory 52 Luan van Phụ Lục if self._steps != 0: self._memory.add_sample((old_image, old_action, reward, current_image)) # choose the light phase to activate, based on the current state of the intersection action = self._choose_action(current_image) # if the chosen phase is different from the last phase, activate the yellow phase if self._steps != and old_action != action: self._set_yellow_phase(old_action) self._simulate(self._yellow_duration) # execute the phase selected before self._set_green_phase(action) self._simulate(self._green_duration) # saving variables for later & accumulate reward old_image = current_image old_action = action old_total_wait = current_total_wait if self.test: self._reward_per_step.append(reward) if reward < 0: tot_neg_reward += reward self._save_stats(tot_neg_reward) print("Total reward: {}, Epsilon: {}".format(tot_neg_reward, self._eps)) traci.close() # Handle the correct number of steps to simulate def _simulate(self, steps_todo): if (self._steps + steps_todo) >= self._max_steps: # not more steps than the maximum numbe r of steps steps_todo = self._max_steps - self._steps self._steps = self._steps + steps_todo # update the step counter while steps_todo > 0: traci.simulationStep() # simulate step in sumo if not self.test: 53 Luan van Phụ Lục self._replay() # training steps_todo -= intersection_queue = self._get_stats() if self.test: self._vehicle_per_step.append(len(traci.vehicle.getIDList())) self._waitTime_per_step.append(self._get_waiting_times()) self._sum_intersection_queue += intersection_queue # Retrieve the waiting time of every car in the incoming lanes def _get_waiting_times(self): incoming_roads = ["E2TL", "N2TL", "W2TL", "S2TL"] _waiting_times = {} for veh_id in traci.vehicle.getIDList(): wait_time_car = traci.vehicle.getAccumulatedWaitingTime(veh_id) road_id = traci.vehicle.getRoadID(veh_id) # get the road id where the car is located if road_id in incoming_roads: # consider only the waiting times of cars in incoming roads _waiting_times[veh_id] = wait_time_car self._waiting_times_per_ep[veh_id] = wait_time_car total_waiting_time = sum(_waiting_times.values()) return total_waiting_time # Decide wheter to perform an explirative or exploitative action - epsilon-greedy policy def _choose_action(self, image): if self.test: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) if random.random() < self._eps: return random.randint(0, self._model.num_actions - 1) # random action else: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) # the best a ction given the current image (state) # Set the correct yellow phase in SUMO def _set_yellow_phase(self, old_action): yellow_phase = old_action * + # obtain the yellow phase code, based on the old action traci.trafficlight.setPhase("TL", yellow_phase) 54 Luan van Phụ Lục # Set a green phase in SUMO def _set_green_phase(self, action_number): if action_number == 0: traci.trafficlight.setPhase("TL", PHASE_NS_GREEN) elif action_number == 1: traci.trafficlight.setPhase("TL", PHASE_NSL_GREEN) elif action_number == 2: traci.trafficlight.setPhase("TL", PHASE_EW_GREEN) elif action_number == 3: traci.trafficlight.setPhase("TL", PHASE_EWL_GREEN) # Retrieve the stats of the simulation for a single step def _get_stats(self): halt_N = traci.edge.getLastStepHaltingNumber("N2TL") halt_S = traci.edge.getLastStepHaltingNumber("S2TL") halt_E = traci.edge.getLastStepHaltingNumber("E2TL") halt_W = traci.edge.getLastStepHaltingNumber("W2TL") intersection_queue = halt_N + halt_S + halt_E + halt_W return intersection_queue #Retrive the picture def _get_image(self,index,old): traci.gui.screenshot('View #0','image/{}.png'.format(str(index))) im = Image.open('image/{}.png'.format(str(old))) h,w = im.size left = (w-h)/2 top = right = w - left bottom = h im2 = im.crop((left, top, right, bottom)) im2 = im2.resize((224,224)).convert('RGB') arr = np.array(im2) if old != : os.remove('image/{}.png'.format(str(old))) return arr 55 Luan van Phụ Lục # Retrieve a group of samples and update the Q-learning equation, then train def _replay(self): batch = self._memory.get_samples(self._model.batch_size) if len(batch) > 0: # if there is at least sample in the batch states = np.array([val[0] for val in batch]) # extract states from the batch next_states = np.array([val[3] for val in batch]) # extract next states from the batch # prediction q_s_a = self._model.predict_batch(states, self._sess) # predict Q(state), for every sample (previo us state) q_s_a_d = self._model.predict_batch(next_states, self._sess) # predict Q(next_state), for every s ample (current state) # setup training arrays x = np.zeros((len(batch), 224,224,3)) y = np.zeros((len(batch), self._model.num_actions)) for i, b in enumerate(batch): image, action, reward, _ = b[0], b[1], b[2], b[3] # extract data from one sample current_q = q_s_a[i] # get the Q(state) predicted before current_q[action] = reward + self._γ * np.amax(q_s_a_d[i]) # update Q(state, action) x[i] = image y[i] = current_q # Q(state) that includes the updated action value self._model.train_batch(self._sess, x, y) # train the NN # Save the stats of the episode to plot the grapths at the end of the session\ def _save_stats(self, reward): self._reward_store.append(reward) # how much negative reward in this episode self._cumulative_wait_store.append(self._sum_intersection_queue) # total number of seconds wait ed by cars in this episode self._avg_intersection_queue_store.append(self._sum_intersection_queue / self._max_steps) # ave rage number of queued cars per step, in this episode @property 56 Luan van Phụ Lục def reward_store(self): return self._reward_store @property def cumulative_wait_store(self): return self._cumulative_wait_store @property def avg_intersection_queue_store(self): return self._avg_intersection_queue_store @property def reward_per_step(self): return self._reward_per_step @property def waitTime_per_step(self): return self._waitTime_per_step @property def vehicle(self): return self._vehicle_per_step @property def total_waiting_times_per_ep(self): return sum(self._waiting_times_per_ep.values()) 57 Luan van ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG APPLYING ARTIFICIAL INTELLIGENCE FOR MANAGING THE SMART TRAFFIC LIGHT SYSTEM TO REDUCE THE TOTAL WAITING TIME OF VEHICLES AT A TRAFFIC NODE Nguyen Anh Kiet 1, Nguyen Van Thai 1 Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM TÓM TẮT Nội dung báo trình bày cách tiếp cận cách sử dụng trình giả lập SUMO dùng để mô hoạt động phương tiện đường Sau thiết kế mạng nơ-ron tích chập dùng để phân tích đặc trưng [1] như: vị trí xe, mật độ xe, hướng xe, … từ hình ảnh đầu vào trạng thái đường lấy từ phần mềm mô Cuối áp dụng học tăng cường trải nghiệm tác nhân tăng lên khiến cho việc kiểm sốt đèn giao thơng hiệu giảm thời gian chờ phương tiện nút giao thông Trong thực nghiệm, áp dụng phương pháp đề xuất tổng thời gian chờ phương tiện giảm khoảng 35% - 75% cho trường hợp số lượng xe từ thấp tới vừa so sánh với hệ thống đèn tĩnh cài đặt cố định Từ khóa: hệ thống đèn giao thơng thơng minh; SUMO; mạng nơ-ron tích chập; học tăng cường ABSTRACT The paper presents an approach using the SUMO emulator which is used to simulate the operation of vehicles on the road Then design a convolutional neural network to analyze characteristics [1] Such as vehicle location, vehicle density, vehicle direction, etc from an input image that is the current state of The path is taken from simulation software Finally, intensive learning is applied to increase the experience of the agent, making the traffic control more efficient and reducing the waiting time for vehicles at an intersection In practice, when the proposed method was applied, the total waiting time of the vehicles reduced in a range from 35% to 75% for cases of low to medium vehicles when compared to the static traffic light system Keywords: smart traffic light systems; SUMO; CNN; reinforcement learning Việc áp dụng công nghệ tiên tiến để hỗ trợ việc quản lí dịng phương tiện trở nên phổ biến 70 năm qua với nỗ lực ban đầu việc kiểm sốt tín hiệu giao thơng ngã tư khu vực giao cắt đường Những nhà sản xuất phương tiện phát triển công nghệ GIỚI THIỆU Trong ngày qua, khái niệm “Cách mạng Công nghiệp 4.0” nhắc đến nhiều truyền thơng mạng xã hội Cùng với hứa hẹn “đổi đời” doanh nghiệp Việt Nam đón sóng 58 Luan van tiên tiến để tạo loại phương tiện an toàn hơn, thoải mái hơn, giảm áp lực lái xe Năm 2016, Li Li đồng [3] đề xuất phương pháp áp dụng mạng học sâu phương pháp học tăng cường để xử lý liệu đầu vào trạng thái bao gồm: tốc độ, độ dài hàng đợi xe đường, … sau hệ thống điều chỉnh thời gian đèn thích hợp Tác giả thu kết số lương xe dừng chờ giảm thời gian chờ trung bình phương tiện giảm khoảng 14% sử dụng phương pháp đề xuất thay phương pháp học tăng cường thơng thường Những công nghệ tiên tiến áp dụng ngày nhiều việc quản lí mạng lưới giao thông công cộng lớn, việc cập nhật thông tin điểm đến xe bus tàu cho hành khách Trong lĩnh vực vận tải hàng hóa, loạt công nghệ áp dụng để việc di chuyển phương tiện trở nên dễ dàng trợ giúp giao dịch thương mại phận chuỗi cung cấp Nhìn chung, cơng nghệ biết đến với tên “hệ thống giao thông thông minh” (ITS) Khi áp dụng cách cẩn thận, ITS tạo hệ thống giao thơng an tồn hơn, an ninh hơn, thuận tiện hơn, giảm tác động đến môi trường Năm 2017, Juntao Gao đồng nghiệp [4] đề xuất thuật toán học tăng cường kết hợp mạng học sâu tự động trích xuất đặc trưng hữu ích từ liệu hệ thống giao thơng vị trí xe, tốc độ xe đường trạng thái tín hiệu đèn giao thơng nút giao thơng Qua tác nhân học sách tối ưu để kiểm sốt tín hiệu hệ thống đèn giao thơng cách hợp lý Mục đích hệ thống giúp người đưa định cố vấn giúp họ hiểu nên cân nhắc để tạo phương án sử dụng ITS tốt Cơ hội thử thách ITS đưa làm để giải tận dụng tốt thử thách hội Năm 2018, Yilun Lin đồng [5] đề xuất thuật toán học tập tăng cường sâu (DRL) Mơ hình tác nhân sử dụng mơ hình A2C Các thí nghiệm mô phương pháp họ vượt trội so với phương pháp dựa quy tắc truyền thống có khả xử lý vấn đề phức tạp giới thực CƠNG TRÌNH LIÊN QUAN Để tiến hành thực đề tài tơi tìm hiểu hệ thống giao thông thông minh thị trường nghiên cứu cơng trình báo liên quan: Năm 2018, nghiên cứu khác tác giả Tomoki Nishi [6] việc trích xuất thuộc tính ảo từ liệu, cảm biến từ liệu đầu vào, véc tơ ma trận cần thiết cho mạng nơron Và phương pháp đề xuất sử dụng GCNN [7] để trích xuất trực tiếp tính mạng NFQI Kết cho thấy, NFQI với GCNN thu luật lệ so sánh nhanh so với hệ thống đèn mặc định Năm 2016, tác giả Elise van der Pol Frans A Oliehoek [2] mô tả cố gắng điều khiển đèn giao thông cách sử dụng thành phần MDP, trạng thái đường biểu diễn ma trận nhị phân với trạng thái đèn tín hiệu giao thơng Sau ơng kết hợp tác nhân nút giao thơng khác cho q trình huấn luyện thu kết tốt so với hệ thống đèn tĩnh Năm 2019, Andrea Vidali đồng [8] áp dụng phương pháp học 59 Luan van tăng cường mạng học sâu việc đưa vị trí xe đường thành vec-tơ liệu đầu vào hệ thống học Qua họ so sánh với hệ thống đèn tĩnh thu kết bảng dưới: sử dụng để kiểm tra hiệu suất tác nhân Trong mô SUMO, bước (step) tương đương với giây Đối với luận văn này, trình thử nghiệm bao gồm 5400 bước tương đương 30 phút mô Bảng Kết so sánh thực nghiệm Andrea Vidali đồng [8] 3.2 Lưu lượng giao thông Trong môi trường giả lập, lưu lượng giao thơng phần quan trọng có tác động lớn đến hiệu suất tác nhân Để trì mức độ thực tế cao, giai đoạn huấn luyện, tính tạo theo phân phối Weibull [10] hai chiều x, y Sự phân phối trình bày dạng biểu đồ, trục x định nghĩa bước tập mô trục y định nghĩa số lượng phương tiện tạo bước Phân phối Weibull chọn tính gần tình cụ thể, số lượng xe tăng dần lên cao điểm từ bắt đầu chạy mô Mỗi xe biết điểm bắt đầu kết thúc Sau đó, số lượng xe đến giảm dần mơ tả cho sự giảm tình trạng tắc nghẽn PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Phần mềm mô hoạt động phương tiện giao thông (SUMO) SUMO (Simulation of Urban Mobility) [9] phần mềm cho phép người dùng thiết kế yếu tố sở hạ tầng đường mong muốn Đầu tiên, trình chỉnh sửa trực quan NetEdit sử dụng để thiết kế thành phần tĩnh giao lộ, chẳng hạn đặc điểm đường, phân bố đèn giao thông kết nối đường qua giao lộ Tiếp theo, nhờ vào gói hỗ trợ SUMO TraCI (Traffic Control Interface) [9], định nghĩa loại, đặc điểm hệ xe đưa vào mô Ngồi ra, TraCI tương tác với mơ thời gian chạy để lấy trạng thái giao lộ dấu thời gian sau đặt hành động chọn tác nhân 3.3 Huấn luyện tác nhân Cuối cùng, công cụ SUMO-GUI cho phép người dùng trải nghiệm minh hoạ thực tế mô với khả làm chậm tăng tốc độ mô Công cụ Nghiên cứu tập trung vào việc cải thiện thời gian chờ phương tiện giao thông qua giao lộ cách điều khiển đèn giao thơng với kỹ thuật trí tuệ Hình Mơ số lượng xe tạo theo thời gian 60 Luan van nhân tạo Các tác nhân đại diện cho hệ thống đèn giao thông tương tác với môi trường mô để tối ưu luồng xe lưu thông Với tiền đề chung này, vấn đề giải viết định nghĩa sau: với trạng thái giao lộ, pha đèn giao thông mà tác nhân nên chọn từ tập hợp hành động xác định trước, để tối đa hóa phần thưởng từ tối ưu hóa hiệu giao thơng giao lộ Qui trình xử lý tác nhân thể hình bên dưới: Sau hệ thống lưu lại mẫu vào nhớ để phục vụ cho trình huấn luyện Một mẫu lưu lại định nghĩa sau: m = (st, at, rt+1, st+1) (8) Trong đó: st: Là hình ảnh trạng thái đường thời gian t st+1: Là hình ảnh trạng thái đường thời gian t + rt+1: Là phần thưởng nhận sau thực hành động trạng thái st at: Là hành động thời điểm t Hình 10 Qui trình lưu mẫu từ trạng thái nút giao thông vào hệ thống Hình Qui trình xử lý tác nhân Tác nhân nhận liệu đầu vào hình ảnh lấy từ phần mềm mô SUMO nút giao thông thời gian t Tiếp theo hệ thống tính tốn phần thưởng sau thực hành động thời điểm t Công thức phần thưởng định nghĩa sau: 𝑟𝑡 = 𝑡𝑤𝑡𝑡−1 − 𝑡𝑤𝑡𝑡 (7) Trong suốt trình, tác nhân tương tác với mơi trường mơ SUMO hệ thống lấy gói liệu gồm nhiều mẫu từ nhớ để thực việc huấn luyện Ứng với mẫu hệ thống tính giá trị 𝑄(𝑠𝑡 , 𝑎𝑡 ) cách đưa hình ảnh đường thời điểm t hệ thống tính giá trị Q Tương tự với thời điểm t+1 ta có giá trị 𝑄 ′ (𝑠𝑡+1 , 𝑎𝑡+1 ) Sau hệ thống cập nhật giá trị Q cách chọn 𝑄′(𝑠𝑡+1 , 𝑎𝑡+1 ) có giá trị lớn theo cơng thức: 𝑄(𝑠𝑡 , 𝑎𝑡 ) = 𝑟𝑡+1 + 𝛾 𝑚𝑎𝑥 𝑄′(𝑠𝑡+1 , 𝑎𝑡+1 ) (9) Trong đó: rt : phần thưởng thời điểm t 𝑡𝑤𝑡𝑡−1 : Tổng thời gian chờ hành động thời điểm t-1 𝑡𝑤𝑡𝑡 : Tổng thời gian chờ hành động t Một hành động đánh giá tốt thời điểm t số lượng phương tiện thời điểm thời điểm t-1 Và ngược lại hành động xấu 𝑎 Trong đó: 𝑄(𝑠𝑡 , 𝑎𝑡 ): Giá trị Q thời điểm t 𝑟𝑡+1 : Phần thưởng nhận sau khi thực hành động t 61 Luan van 𝛾: Hệ số chiết khấu (giá trị chọn theo thực nghiệm) 𝑄 ′ (𝑠𝑡+1 , 𝑎𝑡+1 ): Giá trị Q thời điểm t+1 North-South Left Advance (NSLA): thời gian đèn xanh cho phương tiện phía bắc phía nam muốn rẽ trái East-West Advance (EWA): thời gian đèn xanh cho phép phương tiện nhánh đông tây muốn thẳng rẽ phải East-West Left Advance (EWLA): thời gian đèn xanh cho phép phương tiện phía đơng phía tây muốn rẽ trái Nếu hành động chọn thời điểm t giống hành động chọn trước t - hệ thống khơng bật đèn vàng hành động Thời gian đèn xanh đặt mặc định 10 giây cho hành động giây cho đèn vàng Hệ thống tiếp tục làm kết thúc trình thử nghiệm Hình 11 Minh hoạ phương pháp đề xuất Theo mơ hình từ hình ảnh đầu vào tách thành kênh: đỏ, xanh lá, xanh dương ta thu feature maps Sau tơi thực phương pháp tích chập với thơng số: stride = 1, kernel = 3, padding = 1, filter = 16 đưa qua hàm kích hoạt ReLU thu 16 feature maps Mỗi feature map scan hình ảnh đầu vào ban đầu, trích xuất đặc trưng cụ thể Tiếp đến làm tương tự lần tơi giảm kích thước mẫu xuống hai lần với thông số stride = Sau nhiều lần thử nghiệm với số lần tích chập: 2, 4, 6, 8, 10 tơi nhận thấy với số lần tích chập kết đạt gần bảo hồ Tiếp theo đến tơi làm phẳng lớp convolutional qua lớp ẩn tập A gồm giá trị Q tương ứng với hành động cho phép phương tiện di chuyển qua giao lộ sau: Hình 12 Minh hoạ bốn hành động nút giao thông THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Kịch bản, môi trường thực nghiệm A = {NSA, NSLA, EWA, EWLA} (10) Mô hình đề xuất huấn luyện hệ thống máy tính có cấu sau: Trong đó: ▪ CPU: Intel ® Core ™ i5 9400 CPU North-South Advance (NSA): thời gian đèn xanh cho phép phương tiện phía bắc phía nam muốn thẳng rẽ phải ▪ Memory: 16 GB (DDR4 2666 MHz) ▪ GPU: NVIDIA GeForce GTX 1070 62 Luan van Các kịch số lượng xe tạo ra: Bảng nêu chi tiết thời gian pha đèn Lưu lượng xe đông (High): 4000 xe tạo Bảng 10 Thời gian đèn hệ thống đèn tĩnh Lưu lượng xe thấp (Low): 600 xe tạo Pha đèn Thời gian (giây) NSA 30 Lưu lượng xe vừa từ hướng Bắc, Nam (NS): 2000 xe tạo NSLA 15 EWA 30 Lưu lượng xe vừa từ hướng Đông, Tây (EW): 2000 xe tạo EWLA 15 Đèn vàng Đối với kịch lưu lượng đông thấp, xác suất Đầu tiên, xe có xác suất 75% để thẳng 25% để rẽ trái phải Sau đó, điểm nguồn đích xe chọn với xác suất thống Trong bái viết này, hệ thống đèn giao thông thông minh đề xuất huấn luyện với thông số bảng bên Bảng 11 Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh LGA MGA HGA Cách phân phối giống kịch Sự khác biệt kịch Bắc-Nam, Đông-Tây, xe có xác suất 90% đến từ phía bắc phía nam 10% đến từ phía đơng phía tây Ngược lại, kịch đơng tây, xe có 90% hội đến từ phía đơng phía tây 10% hội đến từ phía bắc phía nam Khi thực mơ kịch thử nghiệm hệ thống đèn tĩnh ta thu kết sau: Mỗi xe tạo có đặc điểm bảng bên dưới: Bảng 12 Kết sau chạy mô hệ thống đèn tĩnh Số lần huấn luyện 100 100 100 𝜸 0.09 0.25 0.75 Số lượng xe 1000 1000 1000 4.2 Kết Bảng Đặc tính xe Đặc điểm Low High NS EW Giá trị Twt 13311 218682 116919 118746 Tăng tốc m/s Giảm tốc 4.5 m/s Tốc độ tối đa xe 25 m/s Chiều dài xe mét Đối với mơ hình đề xuất, sau thực việc mơ thấy thơng số khác đưa hành động khác từ thu kết khác Bảng bên cho thấy kết so sánh hệ thống đèn tĩnh với hệ thống đề xuất qua kịch lưu lượng xe khác Khoảng cách hai xe 2.5 mét Hệ thống đèn tĩnh thiết lập luân phiên bật thời gian đèn giao thông với thời gian cố định Cùng với chuyển đèn khác có pha đèn vàng 63 Luan van chờ phương tiện Hệ thống thiết kế cách lấy trạng thái đường ảnh chụp giao lộ trình mơ tên SUMO chọn hành động để điều khiển đèn xanh với thời gian cố định sẵn Phương pháp học tập áp dụng cho trình huấn luyện dùng mạng nơ-ron tích chập với học tăng cường Việc học tăng cường sử dụng để cải thiện việc chọn hành động trải nghiệm tác nhân tăng lên mạng lưới thần kinh mạng CNN sử dụng cho dự đoán giá trị Q tác nhân chọn hành động ứng trạng thái đường Phần thưởng tính tốn dựa thời gian chờ phương tiện, khiến tác nhân nhận thức kết hành động tình khác Kết hệ thống đèn giao thông thông minh đề xuất dùng số tình trạng giao thơng cho kết tốt hệ thống giao thông tĩnh trường hợp đường có mật độ thấp vừa Bảng 13 So sánh hiệu suất mơ hình đề xuất với hệ thống đèn tĩnh (thấp tốt hơn) LGA MGA HGA Lưu lượng xe thấp Twt -38% -35% -17.5% Lưu lượng xe đông Twt +148% +122% +225% Lưu lượng xe vừa di chuyển từ hướng Bắc, Nam Twt -71% -75% -68% Lưu lượng xe vừa di chuyển từ hướng Đông Tây Twt -69% -75% -50% Dựa vào kết từ bảng ta thấy khác biệt hai hệ số γ từ 0.09 lên đến 0.75 Thì với hệ số γ 0.25 cho hiệu tốt Hệ thống chọn hành động tốt mà không làm ảnh hưởng đến đường Tuy nhiên với trường hợp lưu lượng xe đơng hệ thống cho kết có thời gian chờ phương tiện cao hệ thống đèn tĩnh Việc xảy cơng thức tính phần thưởng việc lấy tổng thời gian chờ hành động thời điểm t-1 trừ cho tổng thời gian chờ hành động thời điểm t Mà số lượng xe đường khác tiếp tục tăng nhiều nên thời gian chờ phương tiện trước tác nhân chọn hành động lớn khiến cho tác nhận hiểu lầm chọn hành động sai Vấn đề giải phương thức tính phần thưởng tận dụng lợi biện pháp hiệu giao lộ như: tính thời gian chờ trung bình phương tiện, số lượng xe thông qua lại, Trong báo số trường hợp hệ thống cho kết khả quan Tuy nhiên cần nghiên cứu thay đổi phương thức tính phần thưởng để tận dụng lợi của giao lộ cách hiệu Hệ thống cần huấn luyện thêm nhiều lần với nhiều thơng số khác để so sánh thêm nhiều trường hợp KẾT LUẬN Nghiên cứu cho thấy hệ thống đèn giao thông thông minh áp dụng thành cơng việc kiểm sốt tín hiệu đèn cho thấy cải thiện tổng thời gian 64 Luan van TÀI LIỆU THAM KHẢO [1] Sajad Mousavi, Michael Schukat, Enda Howley, Traffic Light Control Using Deep PolicyGradient and Value-Function Based Reinforcement Learning, in IET Intelligent Transport Systems, vol 11, no 7, pp 417-423, 2017 [2] Elise van der Pol, Frans A Oliehoek, Coordinated Deep Reinforcement Learners for Traffic Light Control, 2016 Internet: https://www.semanticscholar.org/paper/Coordinated-Deep-Reinforcement-Learnersfor-Traffic-Pol-Oliehoek/47632b66387d00d19b66e71560ba462847b78006 [3] L Li, Y Lv and F Wang, Traffic signal timing via deep reinforcement learning, in CAA Journal of Automatica Sinica, vol 3, no 3, pp 247-254, 2016 [4] Juntao Gao, Yulong Shen, Jia Liu, Minoru Ito, Norio Shiratori, Adaptive Traffic Signal Control: Deep Reinforcement Learning Algorithm with Experience Replay and Target Network, 2017 Internet: https://arxiv.org/abs/1705.02755v1 [5] Yilun Lin, Xingyuan Dai, Li Li, Fei-Yue Wang, An Efficient Deep Reinforcement Learning Model for Urban Traffic Control, 2018 Internet: https://arxiv.org/abs/1808.01876 [6] T Nishi, K Otaki, K Hayakawa and T Yoshimura, Traffic Signal Control Based on Reinforcement Learning with Graph Convolutional Neural Nets, in 21st International Conference on Intelligent Transportation Systems (ITSC), Maui, HI, pp 877-883, 2018 [7] M Schlichtkrull, T N Kipf, P Bloem, R van den Berg, I Titov, and M Welling Modeling Relational Data with Graph Convolutional Networks, in The Semantic Web, pp.593607, 2017 [8] Andrea Vidali, Luca Crociani, Giuseppe Vizzari and Stefania Bandini, A Deep Reinforcement Learning Approach to Adaptive Traffic Lights Management, in Workshop "From Objects to Agents" (WOA 2019), pp 42-50, 2019 [9] “SUMO - Simulation of Urban MObility” Internet: https://sumo.dlr.de/docs/ [10] “Weibull distribution” Internet: https://www.weibull.com/hotwire/issue14/relbasics14.htm Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Anh Kiệt Đơn vị: Học viên cao học; Ngành: Khoa học máy tính; Khoá: 2017B Điện thoại: 0969.420.417 Email: kietnguyen0814@gmail.com 65 Luan van S K L 0 Luan van ... CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA... trí tuệ nhân tạo quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thông ” đáp ứng thực hóa ý tưởng Mục tiêu đề tài đặt ứng dụng trí tuệ nhân tạo vào... máy tính Tên luận văn: Ứng dụng trí tuệ nhân tạo quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thông Ngày & nơi bảo vệ luận văn: Ngày 29 tháng