BAI LAM Cau 1: Phan tích công trình khoa học Với hai công trình khoa họ được đính kèm trong câu hỏi này, Em xin phép lựa chọn công trình: Một mô hình phát hiện DGA boinet dựa trên học k
Trang 1HOC VIEN CONG NGHE BUU CHINH VIEN THONG
BO MON PHAT TRIEN KI NANG
000
TIEU LUAN KET THUC HOC
PHAN
Hoc phan: Phuong phap luận nghiên cứu khoa học
LỚP : N04
Số điện thoại: 0388729273
Giảng viên hướng dẫn: TS Từ Thảo Hương Giang
HA NOI, 04/2024
Trang 2LOI CAM GN
Em xin bày tỏ lòng biết ơn sâu sắc đến TS Từ Thảo Hương Giang, người đã tận
tình hướng dẫn và đồng hành cùng em trong suốt quá trình học tập môn "Phương pháp luận nghiên cứu khoa học" Nhờ sự chỉ dẫn tận tình của cô, em đã có cơ hội tiếp cận với những kiến thức nền tảng về nghiên cứu khoa học, đồng thời rèn luyện
tư duy logic, kỹ năng phân tích và giải quyết vấn đề một cách hệ thống
Trong suốt quá trình học, cô không chỉ mang đến những bài giảng sinh động và sâu sắc, mà còn khích lệ tinh thần học hỏi, sáng tạo, giúp em tự tin hơn trong việc thực hiện các nghiên cứu và phát triển năng lực cá nhân Em đặc biệt trân trọng sự kiên nhẫn và tận tâm của cô khi giải đáp mọi thắc mắc, cũng như những lời khuyên quý báu để em có thể định hướng rõ ràng hơn trong quá trình học tập và nghiên cứu
Em xin gửi lời cảm ơn chân thành và lời chúc sức khỏe đến cô Mong rằng cô sẽ
tiếp tục truyền cảm hứng và dẫn dắt nhiều thế hệ học trò trên con đường học vấn
và nghiên cứu khoa học
Trân trọng!
Trang 3MUC LUC
Câu 1 Phân tích công trình khoa hỌc . ST SH nhe 1.1 Phân tích cấu trúc lOgiC - - ¿+52 +22 ++x +2 +2 x+E+zxzxsessxssse 1.2 Xác định một vấn để nghiên cứu ¿+2 +52 2+2 +22 <+zs+xszss+x>z
1.3 Chỉ rõ luận điểm và luận
1.4 Phương pháp lập luận
CÍ QQ Q.20 H HH KH tr x
1.5 Gợi ý cho một hướng nghiên CỨU - ĂĂ Sexy Câu 2 Xây dựng để cương nghiên cứu . - + + 55+ +s+2+zx+eszxsexsxssesxs 2.1 Lí do chọn đề tài
2.2 Tổng quan về vẫn đề nghiên cứu - + +52 ++s+z++e+zc+zx+x+sesx2 2.3 Mục tiêu nghiên cứu
2.4 Đối tượng và phạm vi nghiên cứu . c5 s+cs+x+sxsxsesesess
2.5 Câu hỏi và Giả thuyết nghiên cứu - 25+ +sszs+sssxsx xxx ssss
2.6 Phương pháp nghiên cứu
Trang 4Câu 1: (5 điểm) Hãy chọn một trong hai công trình khoa học được gửi kèm và
thực hiện các nội dung:
1 Phân tích cấu trúc logic của công trình khoa học
2 Xác định một vấn đề (câu hỏi) nghiên cứu của công trình khoa học
3 Chỉ rõ một luận điểm được tác giả trình bày trong công trình khoa học và chỉ
ra ít nhất 2 luận cứ (luận cứ lý thuyết và luận cứ thực tiễn) được tác giả sử
dụng để chứng minh luận điểm
4 Chỉ ra một phương pháp lập luận (diễn dịch, quy nạp, loại suy) được tác giả
su dung trong q
5 Chỉ ra một nội dung có giá trị gợi ý cho một hướng nghiên cứu mới liên quan tới một mặt yếu nào đó trong công trình khoa học:
« Chỉ rõ nội dung gợi ý này được rút ra từ luận điểm, luận cứ hay luận chứng
» Từ vấn đề nghiên cứu đã phát hiện, hãy đề xuất một ý tưởng khoa học Câu 2: (5 điểm) Hãy xây dựng đề cương nghiên cứu cho một đề tài nghiên cứu khoa học (không giới hạn về nội dung, chuyên ngành) do cá nhân để xuất Đề cương gồm những nội dung chính sau:
« Lý do lựa chọn đề tài
« Tổng quan nghiên cứu
s Mục tiêu nghiên cứu
« Đối tượng và phạm vi nghiên cứu
« Câu hỏi và giả thuyết nghiên cứu
s Phương pháp nghiên cứu
s Tài liệu tham khảo (APA)
Trang 5BAI LAM
Cau 1: Phan tích công trình khoa học
Với hai công trình khoa họ được đính kèm trong câu hỏi này, Em xin phép lựa chọn công trình: Một mô hình phát hiện DGA boinet dựa trên học kết hợp để tiễn hành phân tích trong phần này
1.1 Phân tích cấu trúc logic
Bước đầu tiên trong quy trình nghiên cứu của tác giả là việc phát hiện và xác định vấn để Trong bối cảnh ngày nay, kỹ thuật Domain Generation Algorithm
(DGA) đã trở thành một công cụ phổ biến được nhiều mã độc sử dụng để thiết lập
kết nối với máy chủ điều khiển (CC) của chúng Tuy nhiên, các hệ thống hiện tại
không thể xử lý một cách toàn diện tất cả các dang DGA Mặc dù các phương pháp
đã có, như phân tích tên miền hoặc lưu lượng mạng, có thể phát hiện một số mẫu DGA, nhưng chúng lại không đủ mạnh mẽ để phát hiện các biến thể mới hoặc các
chiến lược DGA phức tạp Do đó, tác giả nhận thấy rằng cần có một phương pháp hiệu quả và linh hoạt hơn để phát hiện tất cả các dạng DGA, đặc biệt là khi các mã độc ngày càng trở nên thông minh và thay đổi chiến thuật
Sau khi xác định được vấn đề, tác giả xây dựng một giả thuyết nghiên cứu dựa trên việc khảo sát và phân tích các giải pháp đã được nghiên cứu và đề xuất trước
đó Cụ thể, tác giả đã tiến hành khảo sát các nghiên cứu hiện có về phát hiện
các dạng DGA botnet, đặc biệt là các phương pháp ứng dụng học máy (Machine Learning) va hoc sau (Deep Learning) Hoc may và học sâu đã được áp dụng trong một số nghiên cứu để phân loại các mẫu tên miền hoặc phân tích hành vi của các
botnet, nhưng chúng không phải là giải pháp toàn diện cho tất cả các tình huống
Một số phương pháp học máy sử dụng các đặc trưng như chuỗi ký tự của tên miễn, trong khi học sâu có thể phân tích mô hình phức tạp hơn, nhưng cả hai phương pháp này đều đối mặt với vấn để khi phải đối phó với sự thay đổi và tính đa dạng của các chiến thuật DGA
Để giải quyết vẫn đề này, tác giả đã đề xuất một giải pháp mới dựa trên cơ sở lý
thuyết là mô hình học kết hợp (Hybrid Learning Model) Mô hình học kết hợp là một phương pháp tiếp cận mạnh mẽ, kết hợp các đặc trưng của nhiều phương pháp học máy khác nhau để cải thiện độ chính xác và khả năng nhận diện của hệ thống
Mô hình này không chỉ học từ các đặc trưng cơ bản mà còn có thể nhận diện những
mẫu phức tạp và biến thể của DGA, điều mà các phương pháp truyền thống không
làm được Cơ sở lý luận này được xây dựng trên nền tảng các nghiên cứu trước đó
Trang 6về học máy và học sâu, nhưng nó tích hợp thêm các yếu tổ mới để giúp cải thiện
khả năng phát hiện trong môi trường thay đổi liên tục của các mã độc
Sau khi để xuất mô hình nghiên cứu, tác giả tiếp tục phân tích và trình bày chỉ tiết mô hình học kết hợp Mô hình này không chỉ tập trung vào việc học các đặc
trưng của tên miền mà còn có khả năng học các mẫu hành vi của botnet thông qua
các thuật toán học sâu Để đánh giá mô hình này, tác giả đã sử dụng một số phương pháp đo lường hiệu quả của mô hình, chẳng hạn như độ chính xác, độ nhạy (recall),
và độ đặc hiệu (specificity) Các chỉ số này sẽ giúp xác định mức độ thành công của mô hình trong việc phân loại đúng các tên miễn liên quan đến DGA, đồng thời giảm thiểu các lỗi phân loại sai (false positives va false negatives)
Mội yếu tố quan trọng trong nghiên cứu của tác giả là việc chọn lựa và sử dụng
tập dữ liệu để đánh giá hiệu quả của mô hình Tác giả đã sử dụng một bộ đữ liệu gồm các tên miền bị nghi ngờ là liên quan đến các botnet sử dụng DGA, bao gồm
cả các tên miền được tạo ra bởi các thuật toán DGA phổ biến và các tên miền không
phải DGA Bộ dữ liệu này đã được chia thành nhiều nhóm để kiểm tra hiệu suất
của mô hình trong các điều kiện khác nhau, bao gồm cả các tình huống mà mã độc
sử dụng DGA chưa từng thấy
Cuối cùng, tác giả đưa ra kết quả nghiên cứu với các phân tích chỉ tiết về hiệu
suất của mô hình Mô hình học kết hợp đã khắc phục nhược điểm của các nghiên cứu trước đây bằng cách nâng cao khả năng phát hiện những dạng DGA mà các
phương pháp cũ không thể xử lý được Cụ thể, mô hình mới có thể nhận diện các
tên miễn phức tạp và dự đoán các mẫu DGA chưa từng gặp phải, điều này giúp tăng cường độ chính xác trong việc phát hiện mã độc Tuy nhiên, tác giả cũng chỉ ra một
số hạn chế còn lại trong mô hình, chẳng hạn như sự phụ thuộc vào chất lượng của
dữ liệu đầu vào hoặc các vấn đề liên quan đến việc tối ưu hóa các tham số trong quá trình huấn luyện mô hình
Nhìn chung, quy trình nghiên cứu của tác giá đã được thực hiện một cách chặt
chẽ và có hệ thống, từ việc xác định van đề, khảo sát các nghiên cứu trước đây, đến
việc để xuất mô hình học kết hợp mới Mô hình này đã giải quyết hiệu quả những
hạn chế của các phương pháp phát hiện DGA cũ, nhưng vẫn còn những khía cạnh
cần cải tiến để có thể áp dụng rộng rãi hơn trong thực tế
1.2 Xác định một vẫn đề nghiên cứu
Từ những lợi thế của botnet cũng như những hạn chế của các công trình trược đây Vân đề được đặt ra bây giờ là làm sao để xây dựng một mô hình phát hiện
có thể phát hiện hiệu quả tất cả các dạng DGA botnet, bao gồm character-based,
word-based và mixed DGA, trong khi các giải pháp hiện tại chỉ có thể phát hiện
Trang 7một số dạng cụ thể Đây là vấn đề nghiên cứu chính của công trình này
1.3 Chỉ rõ luận điểm và luận cứ
Luận điểm: Mô hình phát hiện DGA botnet có thể được cải thiện bằng cách kết
hợp các mô hình học máy để phát hiện hiệu quả cả character-based và word-based DGA boinet
Luận cứ 1: Hoàng và cộng sự [4] đã cải tiền mô hình phát hiện DGA botnet bằng cách sử dụng mô hình học máy rừng ngẫu nhiên, giúp đạt được độ chính xác phát
hiện trên 97% và tỷ lệ cảnh báo sai thấp
Luận cứ 2: Hoàng và cộng sự [7] đã phát triển mô hình phát hiện word-based DGA botnet với các đặc trưng phân loại từ ngữ học, đạt độ đo E1 cao (97.01%), giúp phát hiện các botnet word-based hiệu quả
Luận cứ 3: Khái niệm về học máy kết hợp (ensemble learning): Trong học máy, việc kết hợp nhiều mô hình với nhau để tạo ra một mô hình mạnh mẽ hơn là một phương pháp được sử dụng rộng rãi
Luận cứ 4: Khái niệm phân loại đa lớp (multi-class classification): Trong các bài toán phân loại, khi có nhiều nhóm đối tượng khác nhau (ở đây là các loại botnet khác nhau), lý thuyết phân loại đa lớp cho phép các mô hình phân loại có thể phân biệt các nhóm này một cách hiệu quả
1.4 Phương pháp lập luận
Tác giả đã sử dụng phương pháp diễn dịch, cụ thể khi trình bày về khái niệm về
học máy kết hợp (ensemble learning), tác giả chỉ ra rằng trong học máy, việc kết hợp nhiều mô hình có thể cải thiện độ chính xác và độ mạnh mẽ của hệ thống, từ
đó dẫn đến kết luận về việc kết hợp các mô hình character-based và word-based
1.5 Gợi ý cho một hướng nghiên cứu
Nội dung có giá trị gợi ý cho hướng nghiên cứu mới có thể là phần hạn chế của nghiên cứu Cụ thể tác giả trình bày rằng mô hình kết hợp giữa CDM và WDM tuy mang lại hiệu quả cao trong việc phát hiện nhiều loại DGA botnet, nhưng vẫn
có một số hạn chế cần lưu ý Một trong những hạn chế lớn là mô hình không thể phát hiện được các botnet dạng mixed DGA, như BanJori, vì cả CDM và WDM
đều không được thiết kế để xử lý các dạng kết hợp này Bên cạnh đó, thời gian xử
lý của mô hình khá dài, do phải chạy song song hai mô hình, điều này làm tăng độ
trễ và ảnh hưởng đến hiệu suất hệ thống Các gợi ý này được rút ra từ kết quả thực
nghiệm, khi tỷ lệ phát hiện của mô hình đối với một số họ botnet, đặc biệt là các botnet dạng mixed, thấp hoặc thậm chí bằng 0 Qua đó, có thể thấy gợi ý này được
rút ra từ kết quả thực nghiệm
Trang 8Dựa trên vấn đề nghiên cứu đã phát hiện, một ý tưởng khoa học có thể là phát
triển một mô hình học máy kết hợp sâu hơn, có khả năng phát hiện mixed DGA botnet bằng cách kết hợp các phương pháp học máy và học sâu Cụ thể, có thể
áp dụng các kỹ thuật học sâu với mạng nơ-ron đa lớp (Deep Neural Networks
- DNN), kết hợp với các phương pháp phân tích đặc trưng từ vựng và thống kê để phát hiện các botnet dạng kết hợp
Ý tưởng này có thể được triển khai theo các hướng sau:
* Si dung mang no-ron hdi tiếp (RNN) hoặc LSTM: Các mô hình này có thể
giúp nhận diện các mẫu tuần hoàn trong chuỗi ký tự của tên miễn, rất hữu ích cho việc phát hiện các botnet có cấu trúc phức tạp, như mixed DGA
Kết hợp học máy và học sâu: Kết hợp các thuật toán học máy truyền thống
nhu Random Forest hoic SVM với các mô hình học sâu để xây dựng một mô
hình đa tầng, trong đó mỗi tầng có thể xử lý một phần của vấn đề (ví dụ: tầng
đầu tiên phát hiện các botnet dạng character-based, tầng thứ hai tập trung vào mixed DGA)
Tối ưu hóa thuật toán xử lý song song: Để khắc phục vấn đề thời gian xử lý
dài, có thể áp dụng các phương pháp tối ưu hóa song song, chẳng hạn như sử
dụng GPU hoặc hệ thống phân tán để tăng tốc độ xử lý và giảm độ trễ
Phát triển bộ dữ liệu hỗ trợ: Do mixed DGA botnet chưa được phát hiện
hiệu quả trong các nghiên cứu trước, việc phát triển một bộ dữ liệu lớn hơn, bao gồm các tên miễn từ cả DGA character-based và word-based, sẽ giúp huấn luyện mô hình mạnh mẽ hơn
Câu 2: Xây dựng đề cương nghiên cứu
Qua thời gian nghiên cứu và tìm hiểu, em đã quyết định chọn đề tài "Nghiên cliu kĩ thuật Fuzzing trong kiểm thử lỗ hổng bảo mật các website ngân hàng ỏ Việt
"
Nam"
2.1 Lí do chọn đề tài
Website ngân hàng là một trong những hệ thống quan trọng trong cơ sở hạ tầng công nghệ thông tin, nơi chứa đựng nhiều thông tin nhạy cảm của khách hàng như
số tài khoản, mật khẩu, số dư tài khoản, và các giao dịch tài chính Chính vì vậy,
bảo mật website ngân hàng trở thành một yếu tố thiết yêu để bảo vệ dữ liệu cá nhân
và tài chính của người dùng Tuy nhiên, bất chấp các biện pháp bảo mật đã được triển khai, các lỗ hổng bảo mật vẫn luôn tổn tại trong các hệ thống này Mỗi lỗ hổng có thể trở thành cơ hội cho tin tặc tấn công, làm lộ thông tin khách hàng hoặc
thậm chí gây thiệt hại nghiêm trọng cho tổ chức ngân hàng
Trang 9Bản chất của các website nói chung và website ngân hàng nói riêng là luôn tồn
tại các điểm yếu trong quá trình phát triển và triển khai Những điểm yếu này có
thể đến từ nhiều yếu tố khác nhau, bao gồm lập trình kém, thiếu sót trong quá trình kiểm thử, câu hình sai hoặc không kịp thời cập nhật các bản vá bảo mật Đặc biệt, các cuộc tấn công mạng ngày càng trở nên tinh vi hơn, khiến cho việc phát hiện
và xử lý các lỗ hổng bảo mật trở thành một thách thức lớn đối với các chuyên gia
bảo mật Do đó, việc kiểm tra và rà soát bảo mật cho các website ngân hàng là một
nhiệm vụ không thể thiếu để đảm bảo an toàn cho người dùng và tổ chức
Tuy nhiên, ở Việt Nam, vấn để bảo mật website vẫn chưa được các cơ quan, doanh nghiệp chú trọng đầu tư đúng mức Nhiều ngân hàng vẫn chủ yếu dựa vào các biện pháp bảo mật truyền thống và chưa áp dụng các phương pháp hiện đại
trong việc phát hiện lỗ hổng bảo mật Hơn nữa, việc kiểm thử phần mềm hiện nay
chủ yếu vẫn được thực hiện một cách thủ công, với sự can thiệp của con người để rà
soát các vấn đề bảo mật Phương pháp này không chỉ tốn thời gian mà còn khó có thể phát hiện được tất cả các lỗ hổng tiềm tàng, đặc biệt là các lỗ hổng chưa được
biệt đền hoặc các cuộc tần công zero-day
Trước những thách thức trên, kỹ thuật Euzzing đã trở thành một giải pháp đáng chú ý trong việc kiểm thử lỗ hổng bảo mật website ngân hàng Fuzzing là một kỹ thuật kiểm thử tự động, nơi các dữ liệu đầu vào ngẫu nhiên được cung cấp cho hệ
thống để tìm ra các điểm yếu Phương pháp này có khả năng phát hiện được những
lỗi bảo mật mà phương pháp kiểm thử truyền thống có thể bỏ sót, đặc biệt là trong
các tình huống phức tạp hoặc chưa được xác định trước Nhờ vào khả năng tự động
hóa và phạm vi kiểm tra rộng, Fuzzing có thể giúp phát hiện các lỗ hổng bảo mật
tiềm ẩn một cách nhanh chóng và hiệu quả, từ đó giúp tăng cường sự bảo mật cho các website ngân hàng
Mặc dù kỹ thuật Fuzzing đã được áp dụng thành công trong nhiễu lĩnh vực khác
nhau, nhưng việc áp dụng kỹ thuật này vào kiểm thử lễ hổng bảo mật website ngân
hàng vẫn còn nhiều vẫn để cần nghiên cứu thêm Sự phát triển không ngừng của lĩnh vực an toàn thông tin và sự xuất hiện của các phương thức tấn công mới yêu cầu kỹ thuật Fuzzing phải được tối ưu hóa và điều chỉnh sao cho phù hợp với các đặc thù của hệ thống ngân hàng Đặc biệt, việc xây dựng các công cụ Fuzzing hiệu
quả, dễ dàng tích hợp vào quy trình kiểm thử bảo mật hiện tại của các ngân hàng là
một thách thức đáng chú ý
Xuất phát từ thực tế trên, em đã lựa chọn đề tài “Nghiên cứu kỹ thuật Fuzzing
trong kiểm thử lỗ hổng bảo mật Website ngân hàng tại Việt Nam” để làm đề tài nghiên cứu Đề tài này không chỉ góp phần làm rõ hiệu quả của Fuzzing trong việc
Trang 10phát hiện các lỗ hổng bảo mật, mà còn để xuất các phương pháp cải tiến và tối ưu hóa kỹ thuật này trong bối cảnh bảo mật website ngân hàng, qua đó nâng cao khả năng bảo vệ các thông tin nhạy cảm của khách hàng và tổ chức ngân hàng
2.2_ Tổng quan về vẫn đề nghiên cứu
a, Lỗ hổng bảo mật của website
Lỗ hổng bảo mật của website là những điểm yếu, thiếu sót hoặc sai sót trong thiết kế, lập trình hoặc cầu hình của hệ thống website mà tin tặc có thể khai thác để thực hiện các cuộc tấn công vào hệ thống Các lỗ hổng này có thể xảy ra ở nhiều
mức độ và hình thức khác nhau, từ lỗi phần mềm, thiết lập sai bảo mật, cho đến các sơ hở trong quá trình xác thực người dùng hoặc bảo vệ dữ liệu Những lỗ hổng
này có thể bị lợi dụng để chiếm đoạt thông tin cá nhân của người dùng, đánh cắp
tài khoản ngân hàng, hoặc thậm chí điều khiển toàn bộ hệ thống website từ xa
Mội số ví dụ phổ biến về các loại lỗ hổng bảo mật bao gồm lỗi SQL Injection,
Cross-Site Scripting (XSS), Cross-Site Request Forgery (CSRF), hoặc các lỗi bảo mật liên quan đến việc xác thực và phân quyền người dùng Những lỗi này có thể
khiến tin tặc có thể truy cập vào cơ sở dữ liệu, sửa đổi thông tin, tấn công người
dùng hoặc thực hiện các cuộc tấn công DDoS (Distributed Denial of Service), làm gián đoạn dịch vụ của website
Đặc biệt đối với website ngân hàng, nơi chứa đựng thông tin tài chính và giao
dịch quan trọng của khách hàng, sự tồn tại của lỗ hổng bảo mật là mối nguy hiểm
lớn Các cuộc tấn công có thể gây ra thiệt hại nghiêm trọng về tài chính và uy tín
của ngân hàng Hơn nữa, khi các thông tin bảo mật của người dùng bị xâm phạm,
sẽ dẫn đến sự mất niềm tin của khách hàng và gây ảnh hưởng xấu đến hoạt động kinh doanh của ngân hàng
b, Kỹ thuật Fuzzing
Trong lĩnh vực an ninh ứng dụng, Fuzzing hay kiểm thử mở (fuzz testing) là
một kỹ thuật thuộc kiểm thử hộp đen (black box), phát hiện lỗi của phần mềm
bằng cách tự động hoặc bán tự động cung cấp dữ liệu đầu vào không hợp lệ, không mong đợi hay ngẫu nhiên vào phần mềm Phần mềm sẽ được giám sát và ghi lại các trường hợp ngoại lệ như lỗi mã không được thực thi, tài nguyên thất thoát,
nhằm xác định các hành vi bất thường, phát hiện các lỗ hổng bảo mật tiềm ẩn của
phần mềm
Euzzing thường được sử dụng để kiểm tra sự ổn định và tính bảo mật của các
ứng dụng bằng cách gửi một lượng lớn đữ liệu ngẫu nhiên hoặc không hợp lệ đến phần mềm hoặc hệ thống mục tiêu Các công cụ Fuzzing sẽ tự động phát hiện lỗi