(Luận văn thạc sĩ) ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 SKC006703 Tp Hồ Chí Minh, tháng 05/2020 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THÔNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Tp Hồ Chí Minh – tháng 5/2020 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THƠNG NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Hướng dẫn khoa học: TS NGUYỄN VĂN THÁI Tp Hồ Chí Minh – tháng 5/2020 Phụ Lục if self._steps != 0: self._memory.add_sample((old_image, old_action, reward, current_image)) # choose the light phase to activate, based on the current state of the intersection action = self._choose_action(current_image) # if the chosen phase is different from the last phase, activate the yellow phase if self._steps != and old_action != action: self._set_yellow_phase(old_action) self._simulate(self._yellow_duration) # execute the phase selected before self._set_green_phase(action) self._simulate(self._green_duration) # saving variables for later & accumulate reward old_image = current_image old_action = action old_total_wait = current_total_wait if self.test: self._reward_per_step.append(reward) if reward < 0: tot_neg_reward += reward self._save_stats(tot_neg_reward) print("Total reward: {}, Epsilon: {}".format(tot_neg_reward, self._eps)) traci.close() # Handle the correct number of steps to simulate def _simulate(self, steps_todo): if (self._steps + steps_todo) >= self._max_steps: # not more steps than the maximum numbe r of steps steps_todo = self._max_steps - self._steps self._steps = self._steps + steps_todo # update the step counter while steps_todo > 0: traci.simulationStep() # simulate step in sumo if not self.test: 53 Phụ Lục self._replay() # training steps_todo -= intersection_queue = self._get_stats() if self.test: self._vehicle_per_step.append(len(traci.vehicle.getIDList())) self._waitTime_per_step.append(self._get_waiting_times()) self._sum_intersection_queue += intersection_queue # Retrieve the waiting time of every car in the incoming lanes def _get_waiting_times(self): incoming_roads = ["E2TL", "N2TL", "W2TL", "S2TL"] _waiting_times = {} for veh_id in traci.vehicle.getIDList(): wait_time_car = traci.vehicle.getAccumulatedWaitingTime(veh_id) road_id = traci.vehicle.getRoadID(veh_id) # get the road id where the car is located if road_id in incoming_roads: # consider only the waiting times of cars in incoming roads _waiting_times[veh_id] = wait_time_car self._waiting_times_per_ep[veh_id] = wait_time_car total_waiting_time = sum(_waiting_times.values()) return total_waiting_time # Decide wheter to perform an explirative or exploitative action - epsilon-greedy policy def _choose_action(self, image): if self.test: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) if random.random() < self._eps: return random.randint(0, self._model.num_actions - 1) # random action else: return np.argmax(self._model.predict_one(image.reshape([1,224,224,3]), self._sess)) # the best a ction given the current image (state) # Set the correct yellow phase in SUMO def _set_yellow_phase(self, old_action): yellow_phase = old_action * + # obtain the yellow phase code, based on the old action traci.trafficlight.setPhase("TL", yellow_phase) 54 Phụ Lục # Set a green phase in SUMO def _set_green_phase(self, action_number): if action_number == 0: traci.trafficlight.setPhase("TL", PHASE_NS_GREEN) elif action_number == 1: traci.trafficlight.setPhase("TL", PHASE_NSL_GREEN) elif action_number == 2: traci.trafficlight.setPhase("TL", PHASE_EW_GREEN) elif action_number == 3: traci.trafficlight.setPhase("TL", PHASE_EWL_GREEN) # Retrieve the stats of the simulation for a single step def _get_stats(self): halt_N = traci.edge.getLastStepHaltingNumber("N2TL") halt_S = traci.edge.getLastStepHaltingNumber("S2TL") halt_E = traci.edge.getLastStepHaltingNumber("E2TL") halt_W = traci.edge.getLastStepHaltingNumber("W2TL") intersection_queue = halt_N + halt_S + halt_E + halt_W return intersection_queue #Retrive the picture def _get_image(self,index,old): traci.gui.screenshot('View #0','image/{}.png'.format(str(index))) im = Image.open('image/{}.png'.format(str(old))) h,w = im.size left = (w-h)/2 top = right = w - left bottom = h im2 = im.crop((left, top, right, bottom)) im2 = im2.resize((224,224)).convert('RGB') arr = np.array(im2) if old != : os.remove('image/{}.png'.format(str(old))) return arr 55 Phụ Lục # Retrieve a group of samples and update the Q-learning equation, then train def _replay(self): batch = self._memory.get_samples(self._model.batch_size) if len(batch) > 0: # if there is at least sample in the batch states = np.array([val[0] for val in batch]) # extract states from the batch next_states = np.array([val[3] for val in batch]) # extract next states from the batch # prediction q_s_a = self._model.predict_batch(states, self._sess) # predict Q(state), for every sample (previo us state) q_s_a_d = self._model.predict_batch(next_states, self._sess) # predict Q(next_state), for every s ample (current state) # setup training arrays x = np.zeros((len(batch), 224,224,3)) y = np.zeros((len(batch), self._model.num_actions)) for i, b in enumerate(batch): image, action, reward, _ = b[0], b[1], b[2], b[3] # extract data from one sample current_q = q_s_a[i] # get the Q(state) predicted before current_q[action] = reward + self._γ * np.amax(q_s_a_d[i]) # update Q(state, action) x[i] = image y[i] = current_q # Q(state) that includes the updated action value self._model.train_batch(self._sess, x, y) # train the NN # Save the stats of the episode to plot the grapths at the end of the session\ def _save_stats(self, reward): self._reward_store.append(reward) # how much negative reward in this episode self._cumulative_wait_store.append(self._sum_intersection_queue) # total number of seconds wait ed by cars in this episode self._avg_intersection_queue_store.append(self._sum_intersection_queue / self._max_steps) # ave rage number of queued cars per step, in this episode @property 56 Phụ Lục def reward_store(self): return self._reward_store @property def cumulative_wait_store(self): return self._cumulative_wait_store @property def avg_intersection_queue_store(self): return self._avg_intersection_queue_store @property def reward_per_step(self): return self._reward_per_step @property def waitTime_per_step(self): return self._waitTime_per_step @property def vehicle(self): return self._vehicle_per_step @property def total_waiting_times_per_ep(self): return sum(self._waiting_times_per_ep.values()) 57 ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG TIỆN TẠI MỘT NÚT GIAO THÔNG APPLYING ARTIFICIAL INTELLIGENCE FOR MANAGING THE SMART TRAFFIC LIGHT SYSTEM TO REDUCE THE TOTAL WAITING TIME OF VEHICLES AT A TRAFFIC NODE Nguyen Anh Kiet , Nguyen Van Thai 1 Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM TÓM TẮT Nội dung báo trình bày cách tiếp cận cách sử dụng trình giả lập SUMO dùng để mô hoạt động phương tiện đường Sau thiết kế mạng nơ-ron tích chập dùng để phân tích đặc trưng [1] như: vị trí xe, mật độ xe, hướng xe, … từ hình ảnh đầu vào trạng thái đường lấy từ phần mềm mô Cuối áp dụng học tăng cường trải nghiệm tác nhân tăng lên khiến cho việc kiểm sốt đèn giao thơng hiệu giảm thời gian chờ phương tiện nút giao thông Trong thực nghiệm, áp dụng phương pháp đề xuất tổng thời gian chờ phương tiện giảm khoảng 35% - 75% cho trường hợp số lượng xe từ thấp tới vừa so sánh với hệ thống đèn tĩnh cài đặt cố định Từ khóa: hệ thống đèn giao thơng thơng minh; SUMO; mạng nơ-ron tích chập; học tăng cường ABSTRACT The paper presents an approach using the SUMO emulator which is used to simulate the operation of vehicles on the road Then design a convolutional neural network to analyze characteristics [1] Such as vehicle location, vehicle density, vehicle direction, etc from an input image that is the current state of The path is taken from simulation software Finally, intensive learning is applied to increase the experience of the agent, making the traffic control more efficient and reducing the waiting time for vehicles at an intersection In practice, when the proposed method was applied, the total waiting time of the vehicles reduced in a range from 35% to 75% for cases of low to medium vehicles when compared to the static traffic light system Keywords: smart traffic light systems; SUMO; CNN; reinforcement learning Việc áp dụng công nghệ tiên tiến để hỗ trợ việc quản lí dịng phương tiện trở nên phổ biến 70 năm qua với nỗ lực ban đầu việc kiểm sốt tín hiệu giao thơng ngã tư khu vực giao cắt đường Những nhà sản xuất phương tiện phát triển công nghệ GIỚI THIỆU Trong ngày qua, khái niệm “Cách mạng Công nghiệp 4.0” nhắc đến nhiều truyền thơng mạng xã hội Cùng với hứa hẹn “đổi đời” doanh nghiệp Việt Nam đón sóng 58 tiên tiến để tạo loại phương tiện an toàn hơn, thoải mái hơn, giảm áp lực lái xe Những công nghệ tiên tiến áp dụng ngày nhiều việc quản lí mạng lưới giao thông công cộng lớn, việc cập nhật thông tin điểm đến xe bus tàu cho hành khách Trong lĩnh vực vận tải hàng hóa, loạt công nghệ áp dụng để việc di chuyển phương tiện trở nên dễ dàng trợ giúp giao dịch thương mại phận chuỗi cung cấp Nhìn chung, cơng nghệ biết đến với tên “hệ thống giao thông thông minh” (ITS) Khi áp dụng cách cẩn thận, ITS tạo hệ thống giao thơng an tồn hơn, an ninh hơn, thuận tiện hơn, giảm tác động đến môi trường Mục đích hệ thống giúp người đưa định cố vấn giúp họ hiểu nên cân nhắc để tạo phương án sử dụng ITS tốt Cơ hội thử thách ITS đưa làm để giải tận dụng tốt thử thách hội CƠNG TRÌNH LIÊN QUAN Để tiến hành thực đề tài tơi tìm hiểu hệ thống giao thông thông minh thị trường nghiên cứu cơng trình báo liên quan: Năm 2016, tác giả Elise van der Pol Frans A Oliehoek [2] mô tả cố gắng điều khiển đèn giao thông cách sử dụng thành phần MDP, trạng thái đường biểu diễn ma trận nhị phân với trạng thái đèn tín hiệu giao thơng Sau ơng kết hợp tác nhân nút giao thơng khác cho q trình huấn luyện thu kết tốt so với hệ thống đèn tĩnh tăng cường mạng học sâu việc đưa vị trí xe đường thành vec-tơ liệu đầu vào hệ thống học Qua họ so sánh với hệ Năm 2016, Li Li đồng [3] đề xuất phương pháp áp dụng mạng học sâu phương pháp học tăng cường để xử lý liệu đầu vào trạng thái bao gồm: tốc độ, độ dài hàng đợi xe đường, … sau hệ thống điều chỉnh thời gian đèn thích hợp Tác giả thu kết số lương xe dừng chờ giảm thời gian chờ trung bình phương tiện giảm khoảng 14% sử dụng phương pháp đề xuất thay phương pháp học tăng cường thơng thường Năm 2017, Juntao Gao đồng nghiệp [4] đề xuất thuật toán học tăng cường kết hợp mạng học sâu tự động trích xuất đặc trưng hữu ích từ liệu hệ thống giao thơng vị trí xe, tốc độ xe đường trạng thái tín hiệu đèn giao thơng nút giao thơng Qua tác nhân học sách tối ưu để kiểm sốt tín hiệu hệ thống đèn giao thơng cách hợp lý Năm 2018, Yilun Lin đồng [5] đề xuất thuật toán học tập tăng cường sâu (DRL) Mơ hình tác nhân sử dụng mơ hình A2C Các thí nghiệm mơ phương pháp họ vượt trội so với phương pháp dựa quy tắc truyền thống có khả xử lý vấn đề phức tạp giới thực Năm 2018, nghiên cứu khác tác giả Tomoki Nishi [6] việc trích xuất thuộc tính ảo từ liệu, cảm biến từ liệu đầu vào, véc tơ ma trận cần thiết cho mạng nơron Và phương pháp đề xuất sử dụng GCNN [7] để trích xuất trực tiếp tính mạng NFQI Kết cho thấy, NFQI với GCNN 59 thu luật lệ so sánh nhanh so với hệ thống đèn mặc định Năm 2019, Andrea Vidali đồng [8] áp dụng phương pháp học thống đèn tĩnh thu kết bảng dưới: Bảng Kết so sánh thực nghiệm Andrea Vidali đồng [8] sử dụng để kiểm tra hiệu suất tác nhân Trong mô SUMO, bước (step) tương đương với giây Đối với luận văn này, trình thử nghiệm bao gồm 5400 bước tương đương 30 phút mô 3.2 Lưu lượng giao thông Trong môi trường giả lập, lưu lượng giao thông phần quan trọng có tác động lớn đến hiệu suất tác nhân Để trì mức độ thực tế cao, giai đoạn huấn luyện, tính tạo theo phân phối Weibull [10] hai chiều x, y Sự phân phối trình bày dạng biểu đồ, trục x định nghĩa bước tập mô trục y định nghĩa số lượng phương tiện tạo bước Phân phối Weibull chọn tính gần tình cụ thể, số lượng xe tăng dần lên cao điểm từ bắt đầu chạy mô Mỗi xe biết điểm bắt đầu kết thúc Sau đó, số lượng xe đến giảm dần mơ tả cho sự giảm tình trạng tắc nghẽn PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Phần mềm mô hoạt động phương tiện giao thông (SUMO) SUMO (Simulation of Urban Mobility) [9] phần mềm cho phép người dùng thiết kế yếu tố sở hạ tầng đường mong muốn Đầu tiên, trình chỉnh sửa trực quan NetEdit sử dụng để thiết kế thành phần tĩnh giao lộ, chẳng hạn đặc điểm đường, phân bố đèn giao thông kết nối đường qua giao lộ Tiếp theo, nhờ vào gói hỗ trợ SUMO TraCI (Traﬃc Control Interface) [9], định nghĩa loại, đặc điểm hệ xe đưa vào mơ Ngồi ra, TraCI tương tác với mơ thời gian chạy để lấy trạng thái giao lộ dấu thời gian sau đặt hành động chọn tác nhân Hình Mơ số lượng xe tạo theo thời gian 3.3 Huấn luyện tác nhân Nghiên cứu tập trung vào việc cải thiện thời gian chờ phương tiện giao thông qua giao lộ cách điều khiển đèn giao thơng với kỹ thuật trí tuệ Cuối cùng, công cụ SUMO-GUI cho phép người dùng trải nghiệm minh hoạ thực tế mô với khả làm chậm tăng tốc độ mô Công cụ 60 nhân tạo Các tác nhân đại diện cho hệ thống đèn giao thông tương tác với môi trường mô để tối ưu luồng xe lưu thông Với tiền đề chung này, vấn đề giải viết định nghĩa sau: với trạng thái giao lộ, pha đèn giao thông mà tác nhân nên chọn từ tập hợp hành động xác định trước, để tối đa hóa phần thưởng từ tối ưu hóa hiệu giao thơng giao lộ Qui trình xử lý tác nhân thể hình bên dưới: Hình Qui trình xử lý tác nhân Tác nhân nhận liệu đầu vào hình ảnh lấy SUMO nút giao thông thời gian t Tiếp theo hệ thống tính tốn phần thưởng sau thực hành động thời điểm t Công thức nghĩa sau: Trong đó: r : phần thưởng thời điểm t t −1 : Tổng thời gian chờ hành động thời điểm t-1 : Tổng thời gian chờ hành động t Một hành động đánh giá tốt thời điểm t số lượng phương tiện thời điểm thời điểm t-1 Và ngược lại hành động xấu 61 : Hệ số chiết khấu (giá trị chọn theo thực nghiệm) t+1 ′ ( +1, +1): Giá trị Q thời điểm North-South Advance (NSA): thời gian đèn xanh cho phép phương tiện phía bắc phía nam muốn thẳng rẽ phải 62 Hình 11 Minh hoạ phương pháp đề xuất Theo mơ hình từ hình ảnh đầu vào tơi tách thành kênh: đỏ, xanh lá, xanh dương ta thu feature maps Sau tơi thực phương pháp tích chập với thông số: stride = 1, kernel = 3, padding = 1, filter = 16 đưa qua hàm kích hoạt ReLU thu 16 feature maps Mỗi feature map scan hình ảnh đầu vào ban đầu, trích xuất đặc trưng cụ thể Tiếp đến làm tương tự lần tơi giảm kích thước mẫu xuống hai lần với thông số stride = Sau nhiều lần thử nghiệm với số lần tích chập: 2, 4, 6, 8, 10 tơi nhận thấy với số lần tích chập kết đạt gần bảo hoà Tiếp theo đến làm phẳng lớp convolutional qua lớp ẩn tập A gồm giá trị Q tương ứng với hành động cho phép phương tiện di chuyển qua giao lộ sau: A = {NSA, NSLA, EWA, EWLA} (10) Trong đó: North-South Left Advance (NSLA): thời gian đèn xanh cho phương tiện phía bắc phía nam muốn rẽ trái East-West Advance (EWA): thời gian đèn xanh cho phép phương tiện nhánh đông tây muốn thẳng rẽ phải East-West Left Advance (EWLA): thời gian đèn xanh cho phép phương tiện phía đơng phía tây muốn rẽ trái Hình 12 Minh hoạ bốn hành động nút giao thông Nếu hành động chọn thời điểm THỰC NGHIỆM VÀ KẾT QUẢ t giống hành động chọn trước 4.1 Kịch bản, môi trường thực t - hệ thống không bật đèn vàng nghiệm hành động Thời gian đèn xanh đặt mặc định 10 giây cho hành động giây cho đèn vàng Hệ thống tiếp tục làm cho Mô hình đề xuất huấn luyện tới kết thúc q trình thử nghiệm hệ thống máy tính có cấu sau: ▪ CPU: Intel ® Core ™ i5 9400 ▪ Memory: 16 GB (DDR4 2666 ▪ GPU: NVIDIA GeForce GTX CPU MHz) Các kịch số lượng xe tạo ra: Lưu lượng xe đông (High): 4000 xe tạo Lưu lượng xe thấp (Low): 600 xe tạo 1070 90% hội đến từ phía đơng phía tây 10% hội đến từ phía bắc phía nam Mỗi xe tạo có đặc điểm bảng bên dưới: Bảng Đặc tính xe Lưu lượng xe vừa từ hướng Bắc, Nam (NS): 2000 xe tạo Lưu lượng xe vừa từ hướng Đông, Tây (EW): 2000 xe tạo Đối với kịch lưu lượng đông thấp, xác suất Đầu tiên, xe có xác suất 75% để thẳng 25% để rẽ trái phải Sau đó, điểm nguồn đích xe chọn với xác suất thống Cách phân phối giống kịch Sự khác biệt kịch Bắc-Nam, Đông-Tây, xe có xác suất 90% đến từ phía bắc phía nam 10% đến từ phía đơng phía tây Ngược lại, kịch đơng tây, xe có Đặc điểm Tăng tốc Giảm tốc Tốc độ tối đa xe Chiều dài xe Khoảng cách hai xe Hệ thống đèn tĩnh thiết lập luân phiên bật thời gian đèn giao thông với thời gian cố định Cùng với chuyển đèn khác có pha đèn vàng Bảng nêu chi tiết thời gian pha đèn Bảng 10 Thời gian đèn hệ thống đèn tĩnh 4.2 Kết Khi thực mô kịch thử nghiệm hệ thống đèn tĩnh ta thu kết sau: Bảng 12 Kết sau chạy mô hệ thống đèn tĩnh Twt Đối với mơ hình đề xuất, sau thực việc mơ thấy thông số khác đưa hành động khác từ thu kết khác Bảng bên cho thấy kết so sánh hệ thống đèn tĩnh với hệ thống đề xuất qua kịch lưu lượng xe khác Trong bái viết này, hệ thống đèn giao thông thông minh đề xuất huấn luyện với thông số bảng bên Bảng 11 Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh 63 Bảng 13 So sánh hiệu suất mơ hình đề xuất với hệ thống đèn tĩnh (thấp tốt hơn) Twt Twt Twt Twt Dựa vào kết từ bảng ta thấy khác biệt hai hệ số γ từ 0.09 lên đến 0.75 Thì với hệ số γ 0.25 cho hiệu tốt Hệ thống chọn hành động tốt mà không làm ảnh hưởng đến đường Tuy nhiên với trường hợp lưu lượng xe đơng hệ thống cho kết có thời gian chờ phương tiện cao hệ thống đèn tĩnh Việc xảy cơng thức tính phần thưởng việc lấy tổng thời gian chờ hành động thời điểm t-1 trừ cho tổng thời gian chờ hành động thời điểm t Mà số lượng xe đường khác tiếp tục tăng nhiều nên thời gian chờ phương tiện trước tác nhân chọn hành động lớn khiến cho tác nhận hiểu lầm chọn hành động sai Vấn đề giải phương thức tính phần thưởng tận dụng lợi biện pháp hiệu giao lộ như: tính thời gian chờ trung bình phương tiện, số lượng xe thơng qua cịn lại, KẾT LUẬN Nghiên cứu cho thấy hệ thống đèn giao thông thông minh áp dụng thành cơng việc kiểm sốt tín hiệu đèn cho thấy cải thiện tổng thời gian chờ phương tiện Hệ thống thiết kế cách lấy trạng thái đường ảnh chụp giao lộ trình mơ tên SUMO chọn hành động để điều khiển đèn xanh với thời gian cố định sẵn Phương pháp học tập áp dụng cho trình huấn luyện dùng mạng nơ-ron tích chập với học tăng cường Việc học tăng cường sử dụng để cải thiện việc chọn hành động trải nghiệm tác nhân tăng lên mạng lưới thần kinh mạng CNN sử dụng cho dự đoán 64 giá trị Q tác nhân chọn hành động ứng trạng thái đường Phần thưởng tính toán dựa thời gian chờ phương tiện, khiến tác nhân nhận thức kết hành động tình khác Kết hệ thống đèn giao thông thông minh đề xuất dùng số tình trạng giao thơng cho kết tốt hệ thống giao thông tĩnh trường hợp đường có mật độ thấp vừa Trong báo số trường hợp hệ thống cho kết khả quan Tuy nhiên cần nghiên cứu thay đổi phương thức tính phần thưởng để tận dụng lợi của giao lộ cách hiệu Hệ thống cần huấn luyện thêm nhiều lần với nhiều thông số khác để so sánh thêm nhiều trường hợp TÀI LIỆU THAM KHẢO [1] Sajad Mousavi, Michael Schukat, Enda Howley, Traffic Light Control Using Deep PolicyGradient and Value-Function Based Reinforcement Learning, in IET Intelligent Transport Systems, vol 11, no 7, pp 417-423, 2017 [2] Elise van der Pol, Frans A Oliehoek, Coordinated Deep Reinforcement Learners for Traffic Light Control, 2016 Internet: https://www.semanticscholar.org/paper/Coordinated-Deep-Reinforcement-Learnersfor-Traffic-Pol-Oliehoek/47632b66387d00d19b66e71560ba462847b78006 [3] L Li, Y Lv and F Wang, Traffic signal timing via deep reinforcement learning, in CAA Journal of Automatica Sinica, vol 3, no 3, pp 247-254, 2016 [4] Juntao Gao, Yulong Shen, Jia Liu, Minoru Ito, Norio Shiratori, Adaptive Traffic Signal Control: Deep Reinforcement Learning Algorithm with Experience Replay and Target Network, 2017 Internet: https://arxiv.org/abs/1705.02755v1 [5] Yilun Lin, Xingyuan Dai, Li Li, Fei-Yue Wang, An Efficient Deep Reinforcement Learning Model for Urban Traffic Control, 2018 Internet: https://arxiv.org/abs/1808.01876 [6] T Nishi, K Otaki, K Hayakawa and T Yoshimura, Traffic Signal Control Based on Reinforcement Learning with Graph Convolutional Neural Nets, in 21st International Conference on Intelligent Transportation Systems (ITSC), Maui, HI, pp 877-883, 2018 [7] M Schlichtkrull, T N Kipf, P Bloem, R van den Berg, I Titov, and M Welling Modeling Relational Data with Graph Convolutional Networks, in The Semantic Web, pp.593-607, 2017 [8] Andrea Vidali, Luca Crociani, Giuseppe Vizzari and Stefania Bandini, A Deep Reinforcement Learning Approach to Adaptive Traffic Lights Management, in Workshop "From Objects to Agents" (WOA 2019), pp 42-50, 2019 [9] “SUMO - Simulation of Urban MObility” Internet: https://sumo.dlr.de/docs/ [10] “Weibull distribution” Internet: https://www.weibull.com/hotwire/issue14/relbasics14.htm Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Anh Kiệt Đơn vị: Học viên cao học; Ngành: Khoa học máy tính; Khố: 2017B Điện thoại: 0969.420.417 Email: kietnguyen0814@gmail.com 65 ... CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN - LUẬN VĂN THẠC SĨ NGUYỄN ANH KIỆT ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG QUẢN LÝ HỆ THỐNG ĐÈN GIAO THÔNG THÔNG MINH NHẰM LÀM GIẢM TỔNG THỜI GIAN CHỜ CỦA... máy tính Tên luận văn: Ứng dụng trí tuệ nhân tạo quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thông Ngày & nơi bảo vệ luận văn: Ngày 29 tháng... trí tuệ nhân tạo quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ phương tiện nút giao thơng ” đáp ứng thực hóa ý tưởng Mục tiêu đề tài đặt ứng dụng trí tuệ nhân tạo vào