Sự phát triển của virus và worm

Virus và worm đã phát triển qua hàng loạt sự cải tiến. Hiện nay, một trong những tính chất của worm là phát tán nhanh và đánh cắp thông tin.

4.3.2 Các thế hệ phát triển của virus, worm :

Thế hệ thứ nhất : (năm 1979 đến đầu những năm 1990).

Đầu tiên những virus ra đời thông thường là virus boot – sector hầu hết mục tiêu là hệ điều hành MSDOS. Còn sâu máy tính đời đầu thường thiên về tạo ra những chương trình lỗi (con rệp) và điều khiển các phần cứng mang tính đặc trưng. Thuật ngữ "worm" được John Shoch và Joh Hupp gọi tại Xerox PARC vào năm 1979, Họ đã viết chương trình truy cập đến các máy tính và phát tán ra các máy tính khác. Bằng cách tự tạo các bản sao, nhưng thực ra ý tưởng tự sao chép đã được nhà toán học nổi tiếng trong lĩnh vực tin học đó chính là John Von Neuman tìm ra từ những năm 1949. Cái khác mà Shoch và Hupp đặt ra đó chính là dùng worm để lây nhiễm trên cả những máy nhàn rỗi có nghĩa là dù các máy đó có tần suất làm việc thấp nhưng vẫn bị nhiễm worm.

Thế hệ thứ hai : (đầu những năm 1990 đến 1998)

Đây là một thời kỳ phát triển của virus mạnh hơn worm máy tính, mặc dù vậy kĩ thuật phát triển của máy tính cũng ảnh hưởng đến sự phát triển của ý tưởng đó chính là dùng các thuật toán mã hóa đã tạo nên hình thái mới của virus. Hình thái mới này được xuất hiện đầu tiên vào năm 1989 tại Châu Âu. Nó tự nhân bản bằng cách chèn các số ngẫu nhiên vào một lượng bytes cực lớn vào thuật toán giải mã. Hình thái mới này đã trở thành một vấn đề thách thức vào năm 1992 và sau đó là hàng loạt các loại virus như TPE, NED DAME ra đời.

Vào năm 1995 virus macro đã xuất hiện, viết cho Word của hệ điều hành windows 95. Nó nhiễm vào file “normal.dot“ của Word một cách tự động khi mở bất kỳ một file Word nào khác. Nhưng một thời gian sau hầu hết mọi người đều biết được cách phòng ngừa. Chính vì vậy mà macro cũng khó phát triển hơn.

Thế hệ thứ ba: (tư 1999 đến 2000): Những bức thư với số lượng lớn. Bắt đầu với Happy99. Email đã trở thành một môi trường cho sự lây nhiễm. Vào tháng 1 năm 1999 loại worm này đã phát tán trên email với file gắn kèm vào đó là Happy99.exe. Mỗi khi nó được kích hoạt thì nó sẽ hiện lên pháo hoa trên màn hình với dòng chữ “New Year‟s Day 1999“. Nhưng cái chính là nó đã bí mật thay đổi file WSOCK32.DLL (một file chính cho việc kết nối truyền thông trên Internet) bằng cách dùng một chương trình gọi là “con ngựa thành Trrojan” nó cho phép worm tự nó tham gia vào tiến trình truyền thông trên Internet. File WSOCK32.DLL gốc đã bị đổi tên WSOCK32.SKA

Tháng 3 năm 1999, virus macro Melissa đã phát tán rất nhanh lây nhiễm tới 100,000 máy tính trên toàn cầu trong vòng 3 ngày, nó cài đặt một bản ghi mới và tắt thư điện tử của nhiều công ty dùng Microsoft Exchange Server. Tiếp theo virus tìm kiếm khóa Registry hiện thời chứa xâu “kwyjibo”. Trong trường hợp không có khóa này thì nó sẽ tự gửi đi 50 bản với địa chỉ cần gửi được lấy trong hộp địa chỉ Outlook. Hơn nữa nó còn lây nhiễm vào file normal.dot dùng macro VBA. Như vậy là bất kỳ một tài liệu nào khi lưu lại sẽ chứa virus.

Vào tháng 5 năm 2000, sâu có tên LoveLetter là loại sâu có sự phát tán cực lớn, nó đã trở thành hình mẫu cho loại worm e-mail với số lượng lớn trong tương lai. Nó nhân bản một bản thông điệp với tiêu đề là “I love you” và dòng chữ này chính là nguyên nhân làm cho những người nhận thư như được khuyến khích để đọc phần đính kèm này. Phần đính kèm chính là đoạn mã VB Script mà nó có thể tự động chạy với Window Script Host (một phần của win 98, win 2000, IE 5 hoặc Outlook5). Worm sẽ tự nó sao chép vào thư mục hệ thống và thay đổi registry mục đích là một file thi hành tự động chạy khi máy tính khởi động. Nó nhiễm vào các loại file có phần mở rộng khác. Khi một máy nhiễm nếu Outlook được cài đặt worm sẽ tự động sao chép một bức thư điện tử bất kỳ một địa chỉ nào có trong hộp địa chỉ. Hơn nữa nó tạo ra những kênh nối IRC. Worm ăn cắp password và thay đổi URL trên IE đến một trang web ở Châu Á. Web site này tìm cách download một chú ngựa Trojan đã được thiết kế để thu lượm các mật khẩu của email khác từ một địa chỉ máy ở Châu Á.

Thế hệ thứ tƣ: (từ 2001 đến nay)

Thế hệ của những con sâu máy tính hiện đại. Có thể nói đến như Code Red và Nimda với sự lây lan khủng khiếp, nó chính là một hình thái mới của sâu truyền thống nhưng ở mức độ cao hơn thông qua những đặc tính:

 Tấn công theo kiểu hỗn hợp.

 Tìm cách lây vào các môi trường mới (Linux, mạng ngang hàng...)

 Tự cập nhật mã một cách tự động từ Internet.

 Các đoạn mã nhỏ nguy hiểm.

 Chống lại các phần mềm chống virus.

Có thể nói worm hiện đại đã phát triển một cách vượt bậc: Đi từ những kĩ thuật cơ bản thêm vào đó là sự phát triển của những lối tấn công cũng như những lỗ hổng của các phần mềm, hệ điều hành đã tạo nên những con sâu máy tính có sức công phá rất lớn.

Vào năm 2001 sâu Sadmind phát tán trên mục tiêu khác nhau trên hai hệ điều hành khác nhau. Đầu tiên nó khai thác lỗi tràn bộ đệm trên hệ điều hành Sun Solaris và cài đặt phần mềm để tấn công các IIS Server. Khoảng một tháng sau sâu Code red 1 ra đời nó cũng khai thác lỗ hổng này. Worm tự đặt nó trong bộ nhớ và sinh ra trên 100 tiến trình, mỗi một tiến trình là một bản sao gốc của worm. Worm sinh ra danh sách các địa chỉ IP ngẫu nhiên và lấy trên đó 200,000 máy đã bị nhiễm. Một tuần sau đó Code red 2 ra đời lây nhiễm trên 359,000 máy mà không dưới 14 giờ.

Vào ngày 18 tháng 9 năm 2001 sâu Nimda là một báo động mới đối với làng worm nó dùng 5 cách khác nhau để phát tán và đưa ra những đoạn mã nhỏ nguy hiểm. Nhiều site bị nghẽn ở cổng 80.450,500 máy chỉ trong vòng 12 giờ, mặc dù không có kĩ thuật lây nhiễm nào là mới.

Vào tháng 8 năm 2003 xuất hiện một loại sâu có tên Blaster với sức lây nhiễm cực nhanh, người ta gọi đó là tuần lễ tồi nhất của lịch sử worm, mục tiêu của loại sâu này chính là khai thác lỗi Windows DCOM RPC, càng mạnh hơn nữa đó chính là Sobig.F.

4.4 Số liệu chung về tình hình virus và an ninh mạng năm 2011:

Tại Việt Nam Kaspersky Lab Anti-virus Software [26] có 64,2 triệu lượt máy tính bị nhiễm virus là tổng kết năm 2011 từ Hệ thống giám sát virus của Bkav. Trung bình một ngày đã có hơn 175 nghìn máy tính bị nhiễm virus.

Năm 2011, đã có 38.961 dòng virus xuất hiện mới, lây lan nhiều nhất là virus W32.Sality.PE. Virus này đã lây nhiễm trên 4,2 triệu lượt máy tính.

Hình 4.1 Danh sách 15 virus lây lan nhiều nhất trong năm 2011

Cũng trong năm 2011, đã có 2.245 website của các cơ quan, doanh nghiệp tại Việt Nam bị tấn công. Trung bình mỗi tháng có 187 website bị tấn công.

4.5 Báo cáo tình hình virus tại Việt Nam – tháng 11/2011 (theo Kaspersky[26]) Kaspersky[26])

4.5.1 Malware nhắm vào Hệ thống phát hiện xâm nhập (IDS)

Có 20 cuộc tấn công mạng lưới đã bị phát hiện thường xuyên nhất bị khóa bởi tường lửa bao gồm gói phân tích tính năng mới. (Thống kê này dựa trên những phát hiện loại malware được ghi lại bởi module trang web diệt virus trên máy tính của những người dùng Kaspersky đã đồng ý thống kê trên máy tính của họ và chuyển dữ liệu đến cho Kaspersky Lab.)

Ngƣời dùng – tổng số người dùng duy nhất (cho các đối tượng hàng đầu) trên các sự cố đã được ghi nhận trên IDS máy tính của họ.

4.5.2. Những quốc gia có số lƣợng tấn công cao nhất vào máy tính ngƣời dùng dùng

% người dùng bị tấn công – tỉ lệ người dùng thật bị tấn công trên tổng số người dùng Kaspersky duy nhất trong quốc gia đó.

Hình 4.4 Những quốc gia có số lượng tấn công cao nhất vào máy tính

4.5.3 Những quốc gia có tỉ lệ phát hiện các đối tƣợng độc hại cao nhất

Có 20 quốc gia có tỉ lệ máy tính được phát hiện các đối tượng độc hại cao nhất.

% người dùng bị tấn công – tỉ lệ người dùng thật bị tấn công trên tổng số người dùng Kaspersky duy nhất trong quốc gia đó.

4.5.4 Các quốc gia có tỷ lệ bị lây nhiễm cao đƣợc ghi nhận

Hình 4.6 Các quốc gia có tỷ lệ bị lây nhiễm cao được ghi nhận

4.5.5 Các vấn đề mở của công nghệ anti-virus

Trong bài viết “Virus máy tính: lý thuyết và thực nghiệm” (1987), Fred Cohen nêu ra “Các vấn đề chưa được giải quyết” gồm:

1. Phát hiện biểu hiện (appearance) của virus 2. Phát hiện hành vi (behavior) của virus

3. Phát hiện sự tiến triển (evolution) của một virus đã biết (known virus)

4. Phát hiện cơ chế kích hoạt (triggering mechanism) qua biểu hiện của virus

5. Phát hiện cơ chế kích hoạt qua hành vi của virus

6. Phát hiện sự tiến triển của một cơ chế kích hoạt đã biết 7. Phát hiện bộ nhận dạng virus qua biểu hiện của nó 8. Phát hiện bộ nhận dạng virus qua hành vi của nó

9. Phát hiện sự tiến triển của cơ chế tự kiểm tra (selftest) của virus đã biết

Năm 1998, Steve R. White (chuyên gia anti-virus của IBM) khái quát hóa tình hình và đưa ra năm vấn đề mở của anti-virus, đó là:

1. Nghiên cứu, xây dựng các lớp bài toán heuristic khác nhau. 2. Khống chế tốc độ lây lan và sản sinh của virus máy tính. 3. Nghiên cứu các giải pháp phù hợp cho đa số người dùng. 4. Nghiên cứu phương pháp nhận dạng sâu (worm)

5. Cải tiến phương pháp nhận dạng, phát hiện nhanh và kịp thời trước khi virus lan tràn thành dịch trên mạng.

Mặc dù các chuyên gia anti-virus có cách phân loại vấn đề mở khác nhau, nhìn chung công nghệ anti-virus ngày nay cần giải quyết ba vấn đề cơ bản[8]:

1. Cải tiến phương pháp, nghiên cứu các kỹ thuật nhận dạng heuristic, tiến tới xây dựng các lớp bài toán heuristic khác nhau.

2. Cải tiến hiệu quả, phát hiện nhanh chóng, chủ động phòng ngừa dịch bệnh trên quy mô rộng, nghiên cứu các giải pháp phù hợp cho đa số người dùng.

3. Phát hiện và dự báo các mã độc lan truyền trên hệ thống mạng.

4.6 Hƣớng tiếp cận của đề tài

Trong bối cảnh các hệ thống mạng máy tính liên tục bị mã độc tấn công, các nhóm đã nghiên cứu theo nhiều tiếp cận khác nhau. Do mỗi hướng tiếp cận đều có ưu nhược điểm riêng, nên cần tiếp tục nghiên cứu bài toán nhận dạng mã

độc máy tính cho nhiều hệ thống sử dụng khác nhau. Hướng tài tiếp cận của đề tài như sau:

4.6.1 Tiếp cận máy học và Bản đồ tự tổ chức (SOM)

o Tổ chức cơ sở dữ liệu trích chọn các tham số đặc trưng của hệ thống bị ảnh hưởng khi virus, worm tấn công.

o Xây dựng mô hình học để thu được tập véc-tơ học có mã độc gồm các mẫu virus, worm. Sau đó chuyển kết quả học vào SOM để huấn luyện và đưa ra cảnh báo.

4.6.2 Giới thiệu các đặc trƣng và ý nghĩa

Trích chọn các tham số chứa đặc trưng cho máy IDS như: thông tin về bộ nhớ, CPU, ổ đĩa, hệ thống máy IDS, thông tin về tiến trình, luồng xử lí và thông tin về những dịch vụ Mail, Web... Sau khi chương trình đã bắt được các gói tin cho trước với các thuộc tính đã chọn trước. Từ đó, chúng ta có thể nhận biết được hệ thống mạng ở tình trạng „bình thường‟ hay „bất thường‟.

Chúng ta có thể phân nhóm các tài nguyên chính của hệ thống máy chủ IDS như sau:

 Bộ nhớ máy chủ IDS (Server memory)

MemTotal: Tổng dung lượng bộ nhớ có thể sử dụng.

MemFree: Dung lượng bộ nhớ vật lý chưa sử dụng trong hệ thống.

Buffers: Dung lượng bộ nhớ vật lý được sử dụng cho bộ nhớ đệm.

Cache: Dung lượng bộ nhớ vật lý cache.

SwapCache: Dung lượng bộ nhớ Swapcache.

Active: Tổng dung lượng bộ nhớ đệm đang hoạt động.

HighTotal: Tổng dung lượng bộ nhớ ở vùng địa chỉ cao.

LowTotal: Tổng dung lượng bộ nhớ địa chỉ thấp.

LowFree: Dung lượng bộ nhớ trống của vùng bộ nhớ địa chỉ thấp.

SwapTotal: Tổng dung lượng bộ nhớ vật lý swap.

SwapFree: Tổng dung lượng trống của bộ nhớ vật lý swap.

Dirty: Tổng dung lượng bộ nhớ đang đợi để ghi lại vào đĩa.

Writeback: Tổng dung lượng bộ nhớ hoạt động được ghi vào đĩa.

PageTables: Số lượng bộ nhớ dành riêng cho mức thấp nhất của các bảng trang.

Committed_AS: Số lượng bộ nhớ ước lượng để phân bổ các ứng dụng trên hệ thống.

Map: Tổng dung lượng bộ nhớ được sử dụng để vẽ bản đồ, các tập tin, hoặc sử dụng cho thư viện lệnh nmap.

Slab: Tổng dung lượng bộ nhớ sử dụng riêng cho hạt nhân cấu trúc dữ liệu cache.  Tài nguyên của bộ vi xử lí (Processor Usage)

- Cpu: Bộ xử lí trung tâm

- Processes: Số lượng tiến trình khi khởi động.

- Procs_running: Số các tiến trình trong trạng thái đang chạy

- Procs_blocked: Số tiến trình bị chặn chờ đợi cho I/O để hoàn thành. - Loadavg: Tải trung bình trên bộ vi xử lý

- Load.for1min: % bộ vi xử lý sử dụng trong 1 phút cuối cùng - Load.for5min: % bộ vi xử lý sử dụng trong 5 phút cuối cùng - Load.for15min: % bộ vi xử lý sử dụng trong 15 phút cuối cùng  Tài nguyên ổ đĩa lƣu trữ (Disks).

- Giám sát những ổ đĩa giữ cho hệ thống hoạt động hiệu quả. Chúng ta cũng có thể dùng dữ liệu mà chúng ta thu thập được khi giám sát những ổ đĩa để biết được có cần nâng cấp phần cứng, phần mềm trong tương lai.

- Sự tồn tại của hiện tượng tắc nghẽn ổ đĩa được nhận biết dựa vào các điều kiện sau:

- Duy trì tỉ lệ của hoạt động ổ đĩa trên ngưỡng cho phép. - Hàng đợi trên mỗi ổ đĩa lớn hơn 2 được duy trì lâu. - Sự thiếu hụt nghiêm trọng số lượng phân trang

 Tài nguyên mạng (Network Usage).

Tài nguyên mạng là tỉ lệ phần trăm của thông tin truyền mạng được dùng trong phân đoạn được giám sát.

Thông tin truyền mạng được đo bằng nhiều cách khác nhau: - Tỉ lệ số byte được vận chuyển đến và đi từ máy chủ.

- Tỉ lệ những gói dữ liệu được gửi từ máy chủ. Những gói dữ liệu này bao gồm: frames, những gói tin (packets), những phân đoạn (segments) và những datagrams.

- Tỉ lệ số tập tin được gửi và nhận bởi máy chủ.

Ngoài ra, để kiểm soát hệ thống máy chủ Mail Server, chúng ta cần phải quan tâm đến một số tài nguyên khác [9] như sau:

 Thống kê các thông tin của giao thức HTTP hay ở cổng giao dịch 80.

 Thống kê các thông tin của những dịch vụ Mail Server.

 Thống kê các tài nguyên hệ thống máy chủ khác như: luồng (thread), tiến trình (process).

4.7 Đề xuất các đặc trƣng

Rút trích và chuẩn hóa các tham số đặc trưng của hệ thống máy chủ IDS để làm tập giá trị đầu vào của thuật toán “Bản đồ tự tổ chức” là phần hết sức quan trọng.

Trong một thời gian dài thực nghiệm theo dõi tình trạng của hệ thống máy chủ IDS bao gồm tình trạng CPU, RAM, số tiến trình xử lý, số kết nối được mở, số lượng gói tin gửi nhận …Từ đó thu thập các tham số đặc trưng máy chủ IDS

Thuật giải Bản đồ tự tổ chức (SOM)

Xây dựng các phần tử lân cận: