Dựa theo những phân tích sâu về các đặc trưng về hành vi của DGA Botnet trong Chương 1 có thể nhận thấy, với riêng mã độc DGA Botnet, bất kỳ họ mã độc với các biến thể của có đều có hai đặc trưng chính.
- Đặc trưng về ngữ nghĩa của các tên miền do thuật toán DGA sinh ra.
- Đặc trưng về tần suất truy vấn và loại truy vấn DNS do cơ chế sinh tên miền tự động tạo ra.
Thông thường trong các nghiên cứu khác, hai đặc trưng này có thể được coi là hai biến độc lập với nhau. Một số nghiên cứu chỉ xét đến việc phân loại tên miền dựa trên việc tìm ra các đặc trưng và sự sai khác về ngữ nghĩa giữa tên miền bình thường do con người tạo ra và các tên miền do thuật toán sinh tên miền tạo ra.
Trong nội dung Chương 2, Chương 3, tác giả đã tập trung nghiên cứu sâu vào việc phân loại các tên miền theo đặc trưng này và đã đạt được nhưng kết quả nhất định với bài toán phân loại tên miền. Tuy nhiên với sự tiến hóa và phát triển tất yếu của các mẫu mã độc DGA trong cuộc chiến không bao giờ có hồi kết giữa việc tấn công và phòng thủ, tin tặc cải tiến các thuật toán với mục đích làm mờ các hành vi của mã độc DGA với việc trộn lẫn giữa các DNS thông thường và DNS do mã độc tạo ra. Vấn đề mà các nhà
nghiên cứu bảo mật phải đối mặt là phải phân ly được các truy vấn DNS sinh bởi mã độc ra khỏi dữ liệu DNS do người dùng tạo ra. Các họ DGA mới sử dụng các bộ từ điển để tạo ra các chuỗi ký tự dạng tên miền có thể phát âm (ghép bởi các từ và cụm từ có nghĩa của một loại ngôn ngữ của con người), điều đó giúp cho việc phân loại được các tên miền dạng này là bình thường hay do mã độc tạo ra là vô cùng thách thức, mặc dù với sư tiến bộ của kỹ thuật học sâu đã đem lại nhiều bước tiến vượt bậc, nhưng với việc phụ thuộc vào bộ dữ liệu huấn luyện và số lượng khổng lồ của tên miền do con người tạo ra cũng như số lượng các ngôn ngữ và tổ hợp các tên miền có thể tạo ra từ quy tắc ghép từ đơn giản ở trên.
Một mô hình có thể phân loại chính xác tên miền sinh bởi mã độc DGA lên đến 100% là không khả thi trong thực tế. Vì vây 2 vấn đề cần phải đối mặt khi triển khai các hệ thống phát hiện thiết bị bị nhiễm mã độc DGA.
- Luôn có tỷ lệ False Positive (Tên miền bình thường bị nhận nhầm thành tên miền DGA) và False Negative (Tên miền DGA bị nhận thành tên miền bình thường) trong việc phân loại tên miền.
- Không phải lúc nào tên miền trả về NXDOMAIN cũng là tên miền sinh ra bởi DGA, các tên miền hay truy vấn trả về NXDOMAIN hoàn toàn có thể xảy ra do sự sai xót của con người hay những tên miền đó không còn ý nghĩa sử dụng với người dùng.
Từ 2 vấn đề trên, việc phát hiện được chính xác máy tính bị nhiễm mã độc sẽ phải phân ly được các truy vấn DNS hay việc các tên miền thông thường có thể gây nhiễu hoặc làm mờ các đặc trưng của tên miền sinh bởi mã độc hoặc các thuật toán sinh tên miền đươc tạo ra để có hành vi gần nhất với hành vi truy vấn DNS của người dùng.
Luận án đề xuất BotFighter, một phương pháp phát hiện liên tục máy tính nhiễm mã độc theo thời gian thực. Phương pháp dựa trên việc kết hợp hai đặc trưng cơ bản về truy vấn DNS của DGA Botnet do bản chất 2 đặc trưng này không phải hoàn toàn độc lập với nhau mà có một mối quan hệ mật thiết với nhau. Quá trình kết hợp được thực hiện dựa trên mô hình Markov ẩn (HMM – Hidden Markov Model).
Trong đó trang thái của máy tính được thể hiện thông qua giá trị xác suất máy tính bị nhiễm mã độc sau khi quan sát được một chuỗi các truy vấn DNS. Bản chất của
phương pháp và chi tiết thuật toán được trình bày trong các nội dung tiếp theo của luận án.