Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu hệ thống phát hiện xâm nhập dựa trên học liên kết phi tập trung công bằng

Tuy nhiên, với học máy truyền thống đang phát triểnnhư hiện nay, việc tập trung dữ liệu về một nơi để đào tạo mô hình đang dần gây ra nhiều tranh cãi về van dé bảo mật thông tin và an to

Tổng quan kiến tric .ẶẶQ eee 22

Lợiích và tháchthức

Học liên kết phi tập trung ra đời nhằm khắc phục những hạn chế của mô hình học liên kết truyền thống, đặc biệt trong bối cảnh an ninh mạng và an toàn thông tin hiện nay Tuy nhiên, mô hình này vẫn phải đối mặt với một số thách thức, bao gồm việc đồng bộ hóa các mô hình và cập nhật giữa các nodes do độ trễ mạng và sự không đồng bộ, tìm kiếm phương pháp hợp nhất mô hình hiệu quả và công bằng, cũng như đảm bảo tính toàn vẹn của mô hình trước sự hiện diện của các bên không đáng tin cậy hoặc bị xâm nhập.

Những Free-rider là những cá nhân hoặc tổ chức hưởng lợi từ nguồn lực, hàng hóa công cộng mà không phải chi trả Vấn đề Free-rider trong các hệ thống peer-to-peer đã được nghiên cứu sâu rộng Học liên kết là một mô hình mới cho phép nhiều khách hàng cùng đào tạo trong một mô hình chung, giúp họ xây dựng các mô hình cục bộ và kết hợp dữ liệu để tạo ra mô hình toàn cầu thông qua việc tổng hợp các bản cập nhật độ dốc Tuy nhiên, mô hình khuyến khích trong học liên kết vẫn chưa được phát triển đầy đủ.

Chương 2 COSO LY THUYẾT day đủ nhưng có nhiều ý kiến cho rằng những người tham gia có thể nhận được phần thưởng hoặc đặc quyền sử dụng mô hình toàn cầu cuối cùng như một sự bù đắp cho những đóng góp của việc nỗ lực đào tạo mô hình Do đó, khách hàng không có bắt kỳ dữ liệu cục bộ nào sẽ có động cơ xây dựng các bản cập nhật độ đốc cục bộ giả mạo mà không thông qua đào tạo cục bộ để đánh lừa hệ thống và nhận phần thưởng.

Hành động Free-rider được bắt nguồn từ hai nguyên nhân chính:

1 Khách hàng không có dit liệu cần thiết hoặc lo ngại về quyền riêng tư dữ liệu Do đó dit liệu cục bộ không có sẵn cho việc đào tạo mô hình.

2 Khách hàng có thể muốn lưu chu kỳ CPU cục bộ hoặc các tài nguyên tính toán khác

Trong trường hợp dữ liệu cục bộ không có sẵn, khách hàng có thể gửi bản cập nhật độ dốc từ một tập dữ liệu khác để tránh bị phát hiện Tuy nhiên, việc xác minh độ chính xác của mô hình trên một tập dữ liệu xác nhận có thể phát hiện Free-rider Do đó, những Free-rider sẽ cần phải giả mạo các bản cập nhật mô hình của họ.

Phânloại .ẶẶ ee 25

Trong học máy, các kẻ tấn công có thể thực hiện nhiều hình thức Free-rider nhằm tạo ra các bản cập nhật giả mạo, dẫn đến việc cập nhật trọng số mô hình toàn cầu theo hướng tiêu cực Mặc dù vậy, những kẻ tấn công vẫn có thể thu lợi từ các phần thưởng Dưới đây là một số loại Free-rider trong học liên kết.

Trong cuộc tấn công trọng số ngẫu nhiên, một Free-rider sẽ cố gắng xây dựng ma trận cập nhật độ đốc có kích thước tương ứng với mô hình toàn cầu đã nhận được, bằng cách lấy ngẫu nhiên từng giá trị trong khoảng [-R; R] Người thực hiện tấn công có thể đã có kinh nghiệm trong việc đào tạo mô hình trước đó, vì vậy giá trị R được xác định để đảm bảo các giá trị được lấy ngẫu nhiên phù hợp.

Chương 2 COSO LY THUYẾT gan như giống các ban cập nhật của các khách hàng bình thường.

Trọng số ngẫu nhiên trong không gian R xác định giới hạn tối đa và tối thiểu mà một kẻ miễn cưỡng (Free-rider) có thể rút ra giá trị ngẫu nhiên Do một kẻ tấn công có thể đã có kinh nghiệm trong việc đào tạo mô hình trước đó, nên phạm vi này có thể gần gũi với các trường hợp thực tế.

Tan công trọng số Delta là một phương pháp tấn công tinh vi mà một Free-rider sử dụng để cập nhật mô hình toàn cầu Cụ thể, Free-rider sẽ lấy các trọng số từ mô hình toàn cầu của vòng trước để áp dụng cho vòng tiếp theo hoặc tạo ra các bản cập nhật độ dốc giả bằng cách trừ hai mô hình toàn cầu đã nhận được trong hai vòng trước đó Vụ tấn công này được gọi là tấn công trọng số Delta.

Tan công thêm nhiễu Gaussian là một phương pháp tan công trong hoc máy tập trung vào việc kẻ tan công thêm nhiễu ngẫu nhiên theo phân phối chuẩn

Nhiễu Gaussian trong các bản cập nhật độ dốc tạo ra sự khác biệt so với bản cập nhật thực tế, ảnh hưởng đến mô hình chung Việc thêm nhiễu này không chỉ làm giảm độ chính xác và tăng thời gian huấn luyện mà còn khiến cho bản cập nhật của khách hàng thật và giả trở nên tương đồng hơn Phương pháp tấn công này gây khó khăn trong việc phân biệt giữa các khách hàng do nhiễu làm mờ đi các đặc điểm riêng biệt Mức độ nhiễu được điều chỉnh thông qua tham số sigma (σ).

Phương pháp này có thể được triển khai độc lập nếu kẻ tấn công có khả năng can thiệp vào các bản cập nhật của khách hàng Trong ngữ cảnh Free-rider trong học liên kết, nhiễu Gaussian là một bước quan trọng nhằm nâng cao hiệu quả tấn công bằng cách làm cho các bản cập nhật trở nên khó phân biệt hơn Do đó, phương pháp này thường được kết hợp với hai loại Free-rider là Random weights và Delta weights để tăng cường khả năng qua mặt các biện pháp phát hiện.

Phương pháp phòng chống Freerider

Đến nay, nhiều nghiên cứu đã được thực hiện để phát hiện và loại bỏ các cá thể Eree-rider Một trong những phương pháp nổi bật là mô hình dự đoán, trong đó máy chủ trung tâm chuẩn bị tập dữ liệu đã được gán nhãn và các mô hình từ các thành viên sẽ dự đoán dựa trên dữ liệu đó; nếu mô hình nào có dự đoán sai vượt ngưỡng cho phép, sẽ bị từ chối hoặc xem xét lại Phương pháp thứ hai là phân cụm, tập trung vào việc phân loại dữ liệu thành các nhóm dựa trên tính tương đồng, giúp phân tách giữa các cá thể lành tính và độc hại.

Hệ thống chuỗi khối (Blockchain)

Tổng Quan 6 Ặ Q Q Q TQ SH HH 27

Blockchain là công nghệ lưu trữ thông tin và ghi lại giao dịch trong mạng lưới phân tán Nó được phát triển dựa trên các nút ngang hàng, với mỗi khối chứa thông tin về thời gian khởi tạo, liên kết với khối trước đó và bao gồm mã thời gian cùng dữ liệu giao dịch Khi dữ liệu được mạng lưới chấp nhận, nó không thể thay đổi, giúp ngăn chặn gian lận và chỉnh sửa Blockchain đảm bảo tính toàn vẹn và an toàn của dữ liệu mà không cần bên trung gian Công nghệ này có nhiều ứng dụng trong tài chính, giao dịch điện tử, chuỗi cung ứng và quản lý sở hữu trí tuệ.

Phân loạiBlockchain

Hệ thống mạng Blockchain thường được chia làm 3 loại chính: ® Public Blockchain e Private Blockchain

Chương 2 COSO LY THUYẾT ¢ Hybrid Blockchain

Public Blockchain là hình thức blockchain phổ biến nhất, cho phép mọi người truy cập và tham gia mà không cần cấp phép, được coi là một dạng Permissionless Blockchain Các đặc điểm nổi bật của public blockchain bao gồm tính mở, cho phép mọi người tham gia mạng lưới, yêu cầu giao dịch tiền ảo, độ phi tập trung cao, yêu cầu tài nguyên lớn, tính minh bạch, tính bảo mật và dễ tiếp cận.

Blockchain riêng tư, trái ngược với blockchain công khai, thiết lập các quy tắc để xác định người dùng, cho phép những người được chọn tham gia và ghi dữ liệu Được thiết kế cho doanh nghiệp và tổ chức chính phủ, blockchain riêng tư duy trì các đặc tính của blockchain trong khi bảo vệ mạng lưới khỏi các mối đe dọa bên ngoài Các đặc điểm nổi bật bao gồm: người tham gia được chọn trước, không yêu cầu giao dịch tiền ảo, độ phi tập trung thấp, tiêu thụ tài nguyên ít, bảo mật cao cho dữ liệu nhạy cảm, bảo vệ quyền riêng tư và hiệu quả trong xử lý giao dịch.

Hybrid Blockchain là một dạng blockchain kết hợp giữa private và public blockchain, tận dụng ưu điểm của cả hai cho tổ chức doanh nghiệp Công nghệ này cho phép xây dựng hệ thống riêng tư dựa trên quyền hạn, kết hợp với hệ thống công khai Quyền truy cập vào dữ liệu lưu trữ trong blockchain và quyết định dữ liệu nào sẽ được công khai được kiểm soát bởi tổ chức Trong môi trường hybrid blockchain, các giao dịch không được công khai trực tiếp nhưng có thể được xác minh khi cần thông qua việc cho phép truy cập qua hợp đồng thông minh.

Cấu trúc thành phan của Blockchain

Blockchain bao gồm hai phần chính: Khối (Block) và Chuỗi (Chain) Các dữ liệu trong blockchain được lưu trữ trong các khối và liên kết với nhau để tạo thành chuỗi.

HINH 2.8: Cấu trúc của Blockchain se Thợ mỏ (Miner): Quá trình tạo ra các khối mới trên chuỗi được thực hiện bởi người khai thác thông qua một quy trình.

Mỗi khối trong chuỗi khối bao gồm ba thành phần chính: Dữ liệu (Data), Mã Hash của khối hiện tại và Mã Previous Hash Dữ liệu chứa các bản ghi đã được xác minh và bảo vệ bằng các thuật toán mã hóa riêng biệt cho từng chuỗi khối Mã Hash của khối hiện tại là một chuỗi ký tự và số ngẫu nhiên, đại diện cho khối đó và được mã hóa để phát hiện bất kỳ thay đổi nào, tương tự như dấu vân tay Mã Previous Hash tạo liên kết giữa các khối, cho biết khối nào đứng trước và khối nào đứng sau, với mã Hash của khối đầu tiên được đặt là một chuỗi số 0 do không có khối nào trước đó.

Chương 2 COSO LY THUYẾT được gọi la Genesis block, còn được biết đến như "Khối nguyên thủy" hay khối gốc. Đối với các thợ mỏ, phần mềm đặc biệt được sử dụng bởi các thợ mỏ để giải quyết một vấn đề toán học phức tạp liên quan đến việc tìm một giá trị nonce để tạo ra một hàm băm được chấp nhận Với nonce chỉ có 32 bit và hàm băm có độ dài là

Với độ dài 256 bit, có khoảng bồn tỷ tổ hợp khác nhau của nonce-hash có thể được thử nghiệm trước khi tìm ra giá trị phù hợp Khi người thợ mỏ tìm ra "số nonce vàng", khối của họ sẽ được thêm vào chuỗi.

Cơ chế hoạt động của Blockchain

Dữ liệu giao dịch sẽ được lưu trữ trong hệ thống để tạo ra một bản phi hồ sơ Các nút trong hệ thống sẽ xác minh tính hợp lệ của bản ghi này thông qua thuật toán đồng thuận trong blockchain Sau khi xác minh, một khối mới sẽ được tạo ra từ các bản ghi đã được xác thực, bao gồm bản ghi của chúng tôi và các giao dịch của các nhà giao dịch khác.

Cuối cùng, khối mới được tạo sẽ được liên kết với khối cũ bằng cách sử dụng mã hash của khối cũ, tạo thành một chuỗi khối hoàn chỉnh.

Tính chấtcủaBlockchain

Blockchain hoạt động theo nguyên tắc phi tập trung, không phụ thuộc vào bất kỳ tổ chức nào và thực hiện các thuật toán máy tính một cách độc lập, giúp nó không bị kiểm soát hoặc ảnh hưởng bởi bên thứ ba Hơn nữa, dữ liệu trên Blockchain được phân tán đến nhiều vị trí khác nhau, đảm bảo rằng ngay cả khi một phần bị mất hoặc hỏng, thông tin vẫn tồn tại trên các phần khác của hệ thống.

Dữ liệu được ghi vào khối trong chuỗi khối không thể thay đổi hay sửa đổi, nhờ vào thuật toán đồng thuận và mã hash trong blockchain, đảm bảo tính bất biến của thông tin.

Chương 2 COSO LY THUYẾT © Tính bảo mật: Dé truy cập các dữ liệu trong Blockchain, chi những người nắm giữ khóa riêng tư (Private Key) mới có quyền hợp pháp để làm điều đó. ¢ Tính minh bach: Thông tin về các giao dịch trong Blockchain luôn luôn được ghỉ lại và có thể được kiểm tra bởi mọi người Từ đó, ta có thể xem xét và truy xuất lịch sử giao dịch Hơn nữa, thiết lập các quyển truy cập phân quyền có thể cho phép người khác truy cập vào một phần thông tin trên Blockchain. e Tích hop Smart contract: Các điều khoản trong hợp đồng thông minh sẽ được thực thi khi các điều kiện trước đó được đáp ứng và không thể ngăn can hoặc hủy bỏ.

Cơchế đồng thuận

Cơ chế đồng thuận là một đặc tính quan trọng quyết định khả năng mở rộng và tính an toàn của nền tảng tiền mã hóa, giúp ngăn chặn hiện tượng chi tiêu hai lần (double spending) trên Blockchain Một số cơ chế đồng thuận phổ biến hiện nay bao gồm:

Chứng minh công việc (Proof of Work - PoW) là cơ chế đồng thuận trong blockchain, trong đó các thợ đào sử dụng sức mạnh tính toán để giải quyết các bài toán mã hash Khi hoàn thành nhiệm vụ này, họ được phép xác thực giao dịch và tạo ra các khối mới, đảm bảo tính bảo mật và độ tin cậy của mạng lưới.

Proof of Work (PoW) là một giao thức tiên phong, đã chứng minh khả năng phục hồi hiệu quả trước các cuộc tấn công từ cả bên trong lẫn bên ngoài.

- Nhược điểm: Tiêu thụ nhiều năng lượng.

Proof of Stake (PoS) là một cơ chế đồng thuận trong đó sự chứng minh cổ phần thay thế cho việc khai thác như trong Proof of Work (PoW) Trong PoS, người tham gia cần đặt cược một lượng coin đáng kể để có quyền xác thực giao dịch và tạo khối, loại bỏ sự cần thiết của các thợ đào.

PoS không yêu cầu đầu tư vào nhiều máy đào tiền, mà áp dụng các biện pháp trừng phạt tích cực để ngăn chặn gian lận và hành vi lừa đảo giữa các người xác nhận Hệ thống này cũng ưu tiên những người sở hữu nhiều đồng coin, khuyến khích sự tập trung quyền lực, vì những người giàu có có khả năng đặt cược số lượng lớn hơn.

Proof of Stake (PoS) có ưu điểm vượt trội so với Proof of Work (PoW) nhờ vào việc tiêu thụ năng lượng ít hơn Quá trình xác thực giao dịch trong PoS không yêu cầu việc đào coin tốn kém, giúp tiết kiệm tài nguyên và giảm thiểu tác động đến môi trường.

Mặc dù PoS khuyến khích sự tham gia của nhiều người, một số dự án PoS có thể dẫn đến sự tập trung vào một số lượng nhỏ nhà đầu tư lớn nắm giữ nhiều token Delegated Proof of Stake (DPoS) là hình thức bằng chứng ủy quyền cổ phần, trong đó những người nắm giữ token sẽ bỏ phiếu để ủy quyền cho một nhóm được chọn thực hiện xác thực giao dịch, khác với PoS yêu cầu người dùng phải đặt cược để xác thực.

Hệ thống DPoS (Delegated Proof of Stake) mang lại nhiều ưu điểm nổi bật, bao gồm việc giảm thời gian tạo khối bằng cách giới hạn số lượng bên tham gia vào quá trình đồng thuận, từ đó tăng tốc độ ra quyết định Bên cạnh đó, DPoS tiêu thụ ít năng lượng hơn đáng kể, với quy trình xác thực giao dịch được thực hiện bởi một nhóm validator được bầu chọn, thay vì yêu cầu tất cả người tham gia stake thực hiện các phép toán phức tạp liên tục Nhờ vào hiệu quả cao và chi phí vận hành thấp, DPoS thường có mức phí giao dịch thấp hơn so với các phương thức PoW và PoS truyền thống, đồng thời đảm bảo tính ổn định cao hơn.

Nhược điểm của mạng lưới DPoS là nếu một validator hoạt động độc hại, nó có thể gây ảnh hưởng tiêu cực đến toàn bộ hệ thống Hơn nữa, việc tham gia staking và trở thành validator trong DPoS thường yêu cầu số lượng token stake tối thiểu cao, điều này có thể hạn chế khả năng tiếp cận của những người tham gia nhỏ.

Blockchain có khả năng linh hoạt trong việc thay thế và sử dụng nhiều cơ chế đồng thuận khác nhau, tùy thuộc vào ngữ cảnh và cách triển khai hệ thống.

Chương 2 COSO LY THUYẾT khác nhau Công nghệ blockchain va các cơ chế đồng thuận vẫn dang trong giai đoạn phát triển ban đầu, và có thể có những thay đổi và cải tiền trong tương lai.

Mạng lưới Hyperledger

Giới thiệu về Hyperledger

Hyperledger là một dự án mã nguồn mở chuyên về công nghệ blockchain, nhằm phát triển các nền tảng blockchain cho doanh nghiệp Mục tiêu của dự án là tạo ra một môi trường hợp tác cho các nhà phát triển phần mềm, doanh nghiệp và tổ chức, giúp họ cùng nhau xây dựng các giải pháp blockchain an toàn, hiệu quả và có khả năng mở rộng cho nhiều ứng dụng khác nhau.

Dự án Hyperledger, thuộc tổ chức Linux Foundation cùng với các dự án nổi tiếng như NodeJs và Dronecode, nhằm tạo ra một cộng đồng nhà phát triển cho các dự án mã nguồn mở Mục tiêu của Linux Foundation là đảm bảo sự phát triển liên tục thông qua việc cập nhật, sửa đổi và phân phối mã nguồn Hyperledger hướng tới việc xây dựng các kênh thanh toán riêng biệt phù hợp với từng thị trường cụ thể, cho phép cá nhân hóa ứng dụng doanh nghiệp theo quy tắc riêng của từng doanh nghiệp, khác với Ethereum, nơi các nhà phát triển bị ràng buộc bởi một bộ giao thức cố định.

2.9.2 Cau trúc tổng quát và đặc điểm chính của Hyperledger

Trong cấu trúc mạng, các peer được phân chia thành ba vai trò chính Vai trò đầu tiên là Endorser, đây là các peer thực hiện giao dịch trong container chain-code và đề xuất giao dịch lên mạng dựa trên kết quả của hợp đồng thông minh Tất cả các peer đảm nhận vai trò Endorser đều cần cài đặt chaincode để đảm bảo hoạt động hiệu quả trong mạng.

Committer là những peer không yêu cầu cài đặt chaincode, mà chỉ lưu trữ sổ cái đầy đủ (full ledger) Điểm khác biệt chính giữa committer peer và endoser peer là committer peer không có khả năng gọi chaincode hoặc thực thi các hàm trong hợp đồng thông minh.

Consenters đóng vai trò quan trọng trong việc điều hành sự đồng thuận trong mạng Những nút này, còn được gọi là nút xác nhận, có trách nhiệm xác minh các giao dịch và quyết định xem liệu các giao dịch đó có được thêm vào sổ cái hay không.

Bên cạnh đó, Hyperledger có một vài đặc điểm chính:

Dự án Hyperledger là một nền tảng mã nguồn mở được phát triển dưới giấy phép Apache 2.0, cho phép người dùng tự do sử dụng, sửa đổi và phân phối mã code.

Hyperledger được hỗ trợ bởi một cộng đồng rộng lớn, bao gồm các nhà phát triển, doanh nghiệp và tổ chức, điều này thúc đẩy sự hợp tác và phát triển chung trong lĩnh vực blockchain.

Hyperledger mang đến sự linh hoạt với nhiều nền tảng blockchain đa dạng, mỗi nền tảng được thiết kế với những tính năng và đặc điểm riêng biệt, phù hợp với các trường hợp sử dụng cụ thể.

Tính modular: Các nền tảng Hyperledger được thiết kế theo mô-đun, cho phép dé dàng tích hợp các thành phan và công cụ khác nhau.

Chú trọng bảo mật: Hyperledger đặt ra các tiêu chuẩn bảo mật cao cho các nên tảng blockchain, nhằm đảm bảo an toàn cho dữ liệu và giao dịch.

2.9.3 Một vài nen tảng blockchain chính của Hyperledger

Hyperledger Sawtooth là nền tảng blockchain doanh nghiệp được phát triển bởi Intel, nổi bật với mô hình modular và khả năng hỗ trợ nhiều thuật toán đồng thuận Đặc biệt, nó sử dụng thuật toán Proof of Elapsed Time (PoeT), mang lại tính linh hoạt cao cho các ứng dụng Với nền tảng này, doanh nghiệp có thể tương tác hiệu quả với các sổ cái phân tán, phục vụ cho nhiều mục đích khác nhau.

Một vài nên tảng blockchain chính của Hyperledger

Hyperledger Fabric là nền tảng blockchain modular cho phép xây dựng các mạng lưới riêng tư với khả năng mở rộng và hiệu suất cao, được phát triển với sự hỗ trợ từ IBM Đây là một trong những nền tảng blockchain hàng đầu được các doanh nghiệp hàng đầu chấp nhận rộng rãi Trong khi đó, Hyperledger Burrow là nền tảng blockchain tương thích với Ethereum, cho phép triển khai hợp đồng thông minh Solidity trên mạng riêng tư Nó cung cấp mô-đun khách hàng blockchain và trình thông dịch hợp đồng thông minh, với một phần được xây dựng dựa trên đặc điểm kỹ thuật của Máy ảo Ethereum.

Hyperledger Iroha là nền tảng blockchain lý tưởng cho các ứng dụng web và di động, với giao diện lập trình ứng dụng (API) dễ sử dụng và tích hợp thuận lợi vào các dự án cơ sở hạ tầng Nền tảng này hoạt động như một framework blockchain, phục vụ nhu cầu công nghệ sổ cái phân tán Trong khi đó, Hyperledger Avalon tập trung vào quản lý danh tính, cung cấp tính năng bảo mật và kiểm soát truy cập mạnh mẽ, đáp ứng nhu cầu ngày càng cao về an toàn thông tin.

Hyperledger Fabric

Tổng quan ẶẶẶẶ eee 35

Blockchain đời đầu chủ yếu tập trung vào việc xây dựng mạng lưới giao dịch dựa trên Bitcoin, nhưng chưa được tối ưu hóa cho nhu cầu của doanh nghiệp Hiệu suất của công nghệ Blockchain phân quyền không đáp ứng đầy đủ các tiêu chí cần thiết trong môi trường doanh nghiệp.

Hyperledger Fabric đã được định hướng để thực hiện nhiệm vụ đó Hyperledger

Fabric là một trong 5 framework về Blockchain trong chiến lược Hyperledger

The Linux Foundation's umbrella project encompasses several blockchain frameworks, including Hyperledger Indy, Hyperledger Fabric, Hyperledger Iroha, Hyperledger Sawtooth, and Hyperledger Burrow Notably, Hyperledger Fabric is significantly contributed to by IBM, highlighting its importance in the ecosystem.

Chương 2 COSO LY THUYẾT đáng dé cập là Linux Foundation có lịch sử lâu dai và rat thành công trong việc xây dựng và quản lý các dự án mã nguồn mở, có một cộng đồng phát triển với trên 35 tổ chức và hơn 200 nhà phát triển kể từ khi ra mắt Qua đây càng củng cố thêm độ uy tín đến với các doanh nghiệp khi sử dụng nền tảng blockchain được phát triển bởi tổ chức này.

Hyperledger Fabric với tính mô-đun cao cho phép doanh nghiệp dễ dàng tùy chỉnh và tích hợp, đáp ứng linh hoạt các nhu cầu nghiệp vụ trong các lĩnh vực như ngân hàng, tài chính, bảo hiểm và y tế Phiên bản mới nhất của Hyperledger giúp xây dựng ứng dụng Private Blockchain phù hợp với yêu cầu cụ thể của từng ngành nghề.

Hyperledger Fabric hỗ trợ phát triển hợp đồng thông minh bằng các ngôn ngữ lập trình phổ biến như Golang, Javascript, TypeScript và Java Điều này mang lại lợi ích lớn cho doanh nghiệp, vì hầu hết các doanh nghiệp hiện nay đều có nguồn lực phát triển trong những ngôn ngữ này.

Smart Contract dựa trên các ngôn ngữ này mà không cần phải tốn thời gian để đào tạo nguồn lực phát triển dưới một ngôn ngữ mới.

Các thành phan trong mạng

Mạng Hyperledger Fabric bao gồm các thành phần tương tác ngang hàng, trong đó mỗi tổ chức, như ngân hàng trong mạng lưới tài chính, có cơ quan cấp chứng chỉ và nhiều nút ngang hàng Ngoài ra, mạng còn có dịch vụ ordering service chung cho tất cả các tổ chức, giúp xử lý giao dịch hiệu quả cho toàn bộ hệ thống.

Một tổ chức được xác định bởi chứng chỉ riêng của mình, gọi là chứng chỉ (certificate) Người dùng và các thành phần khác trong tổ chức cũng được định danh thông qua chứng chỉ dựa trên nguồn gốc của chứng chỉ tổ chức Chứng chỉ gốc của tổ chức trong mạng lưới Fabric được lưu trữ dưới tên gọi Certificate Authority (CA) CA sẽ cung cấp chứng chỉ cho người dùng trong tổ chức và xử lý các hoạt động liên quan.

Nhiều peer node có thể được tổ chức tạo ra để thực hiện các hoạt động, trong đó các peer này đóng vai trò xác nhận giao dịch trên hệ thống, đồng thời lưu trữ và thực thi các hợp đồng thông minh.

4) — Updating the ledger Endorser Client App Peer

HINH 2.9: Kiến trúc của một mạng Hyperledger Fabric.

Chaincode trong Fabric là một thành phần quan trọng, cho phép lưu trữ bản sao cục bộ của sổ cái để truy cập dễ dàng Các peer node thường được Fabric Client tương tác để thực hiện các thao tác như đọc sổ cái, thêm chaincode mới vào mạng, hoặc xuất giao dịch mới.

NC: Network Configuration (Cấu hình của mạng).

C - Kênh: Trong một quy trình kinh doanh, các tổ chức có vai trò nhất định sẽ tạo thành một tập hợp Chẳng hạn, trong kênh mua bán xe hơi, tập hợp này bao gồm hai tổ chức chính: Nhà sản xuất xe hơi và Nhà phân phối xe hơi.

CC: Channel Configuration (Cau hình của kênh).

Trong Hyperledger Fabric, Orderer Node là thành phần duy nhất tham gia vào quá trình đồng thuận, khác với Public Blockchain nơi tất cả các node đều tham gia Orderer có nhiệm vụ quản lý giao dịch trong mạng Fabric, đảm bảo rằng các giao dịch được xử lý theo đúng trình tự và đồng bộ hóa giữa các peer.

Vai trò của peer trong tổ chức là tạo ra điểm tương tác cho các thành viên, tương ứng với kênh giao tiếp Mọi hành động của người dùng đều phải được thực hiện thông qua peer.

Trong mạng Hyperledger Fabric, các thành viên sở hữu và duy trì thành phần cơ bản này Peer có chức năng lưu trữ các bản sao của sổ cái (Ledger) và hợp đồng thông minh (Smart Contract).

Smart Contract (Chaincode) là đoạn mã được triển khai trên kênh, định nghĩa các cấu trúc và hành động mà người dùng có thể thực hiện để tương tác với trạng thái lưu trữ trong sổ cái Chaincode cho phép truy cập vào sổ cái một cách hiệu quả, đảm bảo tính minh bạch và an toàn trong các giao dịch.

L - Ledger(S6 cái ): Lưu trữ trạng thái của các đối tượng.

CA - Chứng chỉ quản lý (Certificate Authority) là quá trình cấp phát danh tính cho người dùng hoặc nút của tổ chức Khi người dùng A, thành viên của Tổ chức R1, muốn tham gia mạng, yêu cầu của A sẽ được gửi đến CA1 CA1 sẽ tạo ra một danh tính cho A, bao gồm khóa riêng tư, khóa công khai và các thuộc tính liên quan khác, sau đó trả lại cho A Từ thời điểm đó, danh tính này sẽ được A sử dụng để tương tác với mạng, và mạng sẽ tự động nhận diện A là người dùng từ tổ chức R1.

A - Application: Sinh ra để người dùng được hỗ trợ để tương tác dé dang hon với hệ thống thông qua ứng dụng hoặc giao diện (web, mobile app).

A Membership Service Provider (MSP) is a crucial component of the Hyperledger Fabric network, responsible for issuing credentials to Client and Peer Nodes, enabling their participation in the network The MSP manages the issuance and distribution of certificates for all members within the network, ensuring secure and efficient access.

MSP đảm bảo bảo mật mạng bằng cách xác minh danh tính từng thành viên và phân quyền truy cập cho các hoạt động khác nhau Tất cả các thành phần hoạt động trong môi trường Docker hoặc có thể được định nghĩa trong mã nguồn, vì vậy có thể coi chúng tạm thời như các thành phần vật lý của mạng.

Bộ tự mã hóa Autoencoder

Tổng quan co 38

Autoencoder là một mô hình học máy không giám sat (Unsupervised Machine

Học sâu (Deep Learning) được áp dụng để tự động học cách biểu diễn dữ liệu một cách hiệu quả Autoencoder có khả năng giảm chiều dữ liệu và phát hiện các đặc trưng quan trọng từ dữ liệu gốc.

Dữ liệu đầu vào bao gồm các thông tin gốc như vectơ đặc trưng, hình ảnh, văn bản hoặc âm thanh, được sử dụng để biểu diễn và giảm chiều Đầu ra là dữ liệu được tái tạo từ biểu diễn nén (latent representation) do encoder tạo ra, với định dạng giống như đầu vào ban đầu, cho phép so sánh để đánh giá chất lượng.

Quá trình huấn luyện autoencoder tập trung vào việc giảm thiểu sai lệch giữa dữ liệu tái tạo và dữ liệu gốc Mô hình này học cách nén và giải mã dữ liệu, nhằm tạo ra một biểu diễn nén quan trọng, được gọi là không gian tiềm ẩn (latent space) của dữ liệu.

Autoencoder là một công cụ quan trọng trong xử lý dữ liệu, thường được sử dụng để giảm chiều dữ liệu, biểu diễn dựa trên các phương chính và trích xuất đặc trưng Nhờ vào khả năng này, Autoencoder có thể ứng dụng trong nhiều tác vụ như nén dữ liệu, phát hiện bất thường và tái tạo hình ảnh.

Autoencoder bao gồm các thành phần chính như sau: Bộ mã hóa (Encoder) nhận dữ liệu đầu vào và chuyển đổi nó thành một biểu diễn không gian tiềm ẩn (latent space representation) với chiều thấp hơn, thường qua nhiều lớp nơ-ron liên tiếp, trong đó số lượng nơ-ron ở lớp cuối nhỏ hơn lớp đầu vào, tạo ra vector đặc trưng Không gian tiềm ẩn (Latent Space) là không gian biểu diễn nén mà bộ mã hóa tạo ra, giữ lại thông tin quan trọng từ dữ liệu đầu vào, giúp decoder tái tạo dữ liệu chính xác hơn; không gian này có số chiều thấp hơn so với không gian ban đầu và thường có một lớp duy nhất với số nơ-ron tương ứng với vector đặc trưng.

Bộ giải mã (Decoder) nhận biểu diễn nén từ bộ mã hóa và tái tạo dữ liệu gốc từ vector đặc trưng sau khi đi qua không gian tiềm ẩn Nó bao gồm các lớp nơ-ron liên tiếp, nhưng có cấu trúc ngược lại so với bộ mã hóa, thực hiện quá trình ánh xạ biểu diễn nén trở lại không gian ban đầu của dữ liệu.

Quy trình hoạt động của bộ mã hóa tự động có thể được chia thành hai giai đoạn: mã hóa và giải mã, chúng được định nghĩa như sau [15]:

* Quá trình mã hoá từ đầu vào (input data) tới lớp ẩn (latent space) chứa biểu dién không gian tiềm ẩn:

* Quá trình giải mã (tái tao) từ biểu diễn không gian tiềm ẩn (latent space) thành đầu ra (reconstructed data):

Trong các Công thức 2.1 va Công thức 2.2 của quá trình mã hóa và giải mã,

X = (X1, X2, , Xn) là tập hợp các vec-tơ dữ liệu đầu vào, trong khi Y = (Y1, Y2, , Yn) là các vec-tơ tái tạo dữ liệu và H = (h1, h2, , hn) là các vec-tơ đầu ra từ lớp ẩn với chiều ít hơn Các ma trận kết nối trọng số giữa lớp đầu vào và lớp ẩn được ký hiệu là Wik ∈ R^(n×m), trong khi ma trận giữa lớp ẩn và lớp đầu ra là Wjk ∈ R^(m×p) Để tái tạo dữ liệu đầu vào một cách chính xác và giảm thiểu tài nguyên tiêu thụ trong quá trình đào tạo mô hình, Wjk = wi thường được sử dụng trong các thực nghiệm Các vectơ ɣ1 ∈ R^(n×1) và ɣ2 ∈ R^(m×1) thể hiện độ lệch của lớp đầu vào và lớp ẩn Hàm kích hoạt ɟ1(-) và ɟ2(-) tương ứng cho các lớp ẩn và đầu ra của mạng nơ-ron, đóng vai trò quan trọng trong việc ánh xạ kết quả.

Các thành phần chính

Điểm lỗi giữa dữ liệu tái tạo và dữ liệu gốc có thể giảm thiểu bằng cách điều chỉnh các thông số của bộ giải mã và bộ mã hóa, cho phép AE xây dựng lại dữ liệu ban đầu Chúng tôi tin rằng đầu ra từ các lớp ẩn hiện tại là biểu diễn chiều thấp tối ưu cho dữ liệu, chứa mọi thông tin từ dữ liệu gốc Hàm lỗi tái tạo Je(W, @) giữa H và Y sử dụng hàm lỗi bình phương trung bình, với N là số lượng mẫu đầu vào.

Mô hình Gaussianhénhop

Tổng qQUân: ee 41

Mô hình Gaussian Hỗn hợp (GMM) là một phương pháp thống kê kết hợp nhiều phân phối chuẩn khác nhau, với mỗi phân phối đại diện cho một nhóm trong dữ liệu Mô hình này có hình dạng chuông đối xứng quanh giá trị trung bình, được xác định bởi hai tham số chính: trung bình (U) thể hiện vị trí tâm của chuông và phương sai (σ²) cho biết mức độ phân tán của dữ liệu Phân phối Gaussian đóng vai trò quan trọng trong thống kê và machine learning nhờ khả năng mô hình hóa đa dạng loại dữ liệu.

Khi mô hình hóa dữ liệu phức tạp, một phân phối Gaussian đơn lẻ thường không đủ để phản ánh đầy đủ dữ liệu, nhất là khi dữ liệu chứa nhiều nhóm hoặc cụm với các đặc điểm khác nhau Trong trường hợp này, hỗn hợp các phân phối Gaussian (Gaussian Mixture Model - GMM) trở nên cần thiết, vì GMM kết hợp nhiều phân phối Gaussian để xây dựng một mô hình tổng thể chính xác hơn.

Chương 2 COSO LY THUYẾT phức tap hơn, có khả năng mô tả các dữ liệu có cau trúc phức tap với độ chính xác cao hơn Do đó, GMM có thể được sử dụng cho các nhiệm vụ như: ¢ Phân cụm: Phân chia dữ liệu thành các nhóm có đặc điểm tương đồng. ® Ước mật độ xác suất: Ước lượng xác suất một điểm dữ liệu thuộc về một nhóm nào đó. ¢ Giảm nhiễu: Loại bỏ nhiễu từ di liệu.

GMM (Mixture Model Gaussian) sử dụng nhiều phân phối Gaussian để mô tả dữ liệu, với mỗi phân phối được xác định bởi hai tham số chính: trung bình (H) và phương sai (07) Số lượng phân phối Gaussian, ký hiệu là K, cần được xác định trước khi tiến hành huấn luyện GMM Mỗi phân phối Gaussian cũng được gán một trọng số (1), thể hiện tỷ lệ điểm dữ liệu thuộc về phân phối đó.

2.12.3 Quá trình hoạt động: © Giai đoạn huấn luyện:

— Khởi tạo các tham số của GMM (trung bình, phương sai, trọng số) ngẫu nhiên.

Sử dụng thuật toán tối ưu hóa, chẳng hạn như thuật toán EM, để điều chỉnh các tham số của Mô hình hỗn hợp Gaussian (GMM) nhằm đạt được sự phù hợp tối ưu với dữ liệu Giai đoạn tiếp theo là giai đoạn dự đoán, nơi mà GMM sẽ được áp dụng để đưa ra những dự đoán chính xác dựa trên các tham số đã được tối ưu hóa.

- Cho một điểm dữ liệu mới, tính toán xác suất nó thuộc về mỗi phân phối Gaussian trong GMM.

— Gan điểm diz liệu cho phân phôi Gaussian có xác suất cao nhất.

- Don giản va dé sử dung: GMM có cấu trúc tương đối don giản va dé dang thuc hién.

— Linh hoạt: GMM có thể mô tả dữ liệu có nhiều hình dạng và phân bó khác nhau.

— Hiệu quả: GMM có thể đạt được hiệu quả cao trong các nhiệm vụ phân cụm và ước mật độ xác suất. e Nhược điểm:

Việc xác định số lượng phân phối Gaussian (K) phù hợp là một thách thức quan trọng và có ảnh hưởng lớn đến hiệu quả của mô hình GMM.

— Nhay cảm với nhiễu: GMM có thể bị ảnh hưởng bởi nhiễu trong dữ liệu.

— Khó khăn trong việc giải thích: Việc giải thích kết quả của GMM có thé khó khăn do cấu trúc mô hình phức tạp.

Quá trình hoạtđộng

— Khởi tạo các tham số của GMM (trung bình, phương sai, trọng số) ngẫu nhiên.

Sử dụng thuật toán tối ưu hóa như EM algorithm để điều chỉnh các tham số của mô hình hỗn hợp Gaussian (GMM) nhằm đảm bảo sự phù hợp tối ưu với dữ liệu Giai đoạn tiếp theo là giai đoạn dự đoán, nơi mà các kết quả sẽ được đưa ra dựa trên các tham số đã được tối ưu hóa.

- Cho một điểm dữ liệu mới, tính toán xác suất nó thuộc về mỗi phân phối Gaussian trong GMM.

— Gan điểm diz liệu cho phân phôi Gaussian có xác suất cao nhất.

- Don giản va dé sử dung: GMM có cấu trúc tương đối don giản va dé dang thuc hién.

— Linh hoạt: GMM có thể mô tả dữ liệu có nhiều hình dạng và phân bó khác nhau.

— Hiệu quả: GMM có thể đạt được hiệu quả cao trong các nhiệm vụ phân cụm và ước mật độ xác suất. e Nhược điểm:

Việc xác định số lượng phân phối Gaussian (K) phù hợp là một thách thức quan trọng và có ảnh hưởng lớn đến hiệu quả của mô hình hỗn hợp Gaussian (GMM).

— Nhay cảm với nhiễu: GMM có thể bị ảnh hưởng bởi nhiễu trong dữ liệu.

— Khó khăn trong việc giải thích: Việc giải thích kết quả của GMM có thé khó khăn do cấu trúc mô hình phức tạp.

Ưu nhược điểm

Trong chương này, chúng tôi sẽ giới thiệu mô hình mối đe dọa (Threat Model) được áp dụng trong nghiên cứu Sau đó, chúng tôi sẽ trình bày kiến trúc, cơ chế hoạt động và chi tiết phương pháp xây dựng khung học tập liên kết phi tập trung (Decentralized Federated Learning) kết hợp với hệ thống Blockchain, sử dụng khả năng phân cụm của Deep Autoencoder và Mô hình Hỗn hợp Gaussian (Gaussian Mixture Model).

Mô hình mối đedọa cẶ

Kiến trúc triển khai kết quả thực nghiên cứu

Bài báo này trình bày phương pháp tích hợp mô hình học máy ứng dụng cho hệ thống phát hiện xâm nhập (ML-based IDS) đã được nghiên cứu và thực nghiệm thành công thông qua phương pháp học liên kết phi tập trung, đảm bảo công bằng cho các bên tham gia Nó sẽ mô tả nguyên lý đào tạo và xử lý lưu lượng mạng để huấn luyện mô hình học máy, cũng như nguyên lý hoạt động của ML-based IDS khi tích hợp mô hình IDS học liên kết vào hệ thống mạng thực tế.

Chúng tôi triển khai mô hình ML IDS tương tự như nghiên cứu DEL-DAGMM ở các hệ thống mạng khác nhau Trong mỗi hệ thống, IDS truyền thống và IDS dựa trên ML được tích hợp trong cùng một module, đảm nhiệm vai trò thu thập lưu lượng mạng, đánh giá và gán nhãn dựa trên đánh giá đó, sau đó gửi thông tin cho IDS dựa trên ML.

Hệ thống IDS dựa trên ML sử dụng engine ML để xử lý dữ liệu và xây dựng mô hình IDS từ bộ dữ liệu đã được xử lý từ IDS truyền thống Sau quá trình đào tạo, các engine ML sẽ truyền tải trọng số cập nhật đến module Chaincode.

Chương 4 HIỆN THUC VÀ ĐÁNH GIA, THẢO LUẬN

Traditional ML Engine ngĩne Internal network ơ IF ⁄ — #8 R.

Firewall Router h i _ Engine : Internal network

Mô hình đề xuất triển khai DFL-DAGMM vào hệ thống mạng cho phép kiểm tra các trọng số qua module Chaincode Sau đó, các trọng số này được tính toán và lưu trữ trên Blockchain, giúp các bên tham gia có thể truy cập và tổng hợp mô hình IDS dựa trên machine learning.

Tiên xử lý lưu lượng mang

Lưu lượng mạng từ internet phải đi qua firewall, nơi firewall kiểm tra các trường dựa trên quy tắc đã định Sau đó, firewall sẽ quyết định cho phép hoặc chặn lưu lượng đó, với trường action có hai giá trị: "allow" hoặc "block".

Sau khi lưu lượng mạng được firewall chấp thuận, nó sẽ được chuyển tiếp đến router để phân luồng vào mạng nội bộ Tại đây, lưu lượng sẽ được phân chia và quyết định cho phép hoặc từ chối dựa trên danh sách kiểm soát truy cập (ACL), bao gồm trường hành động với hai giá trị tương ứng.

Các lưu lượng mang được gửi đến IDS để đánh giá thông qua các signature và phương pháp phát hiện bất thường của IDS truyền thống, từ đó đưa ra quyết định cho phép hoặc xác định là bất thường Sau khi đánh giá, kết quả trong trường action sẽ bao gồm hai giá trị: allow hoặc block.

Lưu lượng mạng sau khi được xử lý và đánh giá bởi firewall, router và IDS sẽ được gửi trực tiếp đến ML engine dưới dạng raw log từ từng thiết bị Tại đây, các raw log sẽ được loại bỏ những trường không đủ dữ liệu.

Để tối ưu hóa quy trình đào tạo IDS dựa trên ML, cần loại bỏ các trường không cần thiết như nhiệt độ và dịch vụ, đồng thời chuẩn hóa các giá trị về khoảng [0 1] Trong đó, nhãn "allow" được mã hóa là 0 cho lưu lượng mạng bình thường, trong khi nhãn "block" được mã hóa là 1 cho lưu lượng tấn công hoặc bất thường Dữ liệu đầu vào sẽ được thu thập từ firewall, IDS và router, sau đó được sử dụng để đào tạo mô hình ML-based IDS Khi mô hình đã được huấn luyện, các kết quả sẽ được gửi lên Chaincode qua giao thức IPFS, nơi mà Chaincode sẽ kiểm tra và đưa vào module DAGMM để phát hiện các free-riders, nhằm ngăn chặn việc sử dụng dữ liệu sai lệch hoặc không tham gia đào tạo Cuối cùng, các trọng số sẽ được tính toán và lưu trữ trên blockchain, cho phép các bên tham gia truy xuất và tổng hợp cho mô hình toàn cầu của họ.

Quá trình huấn luyện mô hình IDS dựa trên ML sẽ tiếp tục lặp lại cho đến khi đạt được mức độ chính xác hoặc hiệu suất tối thiểu đã được xác định Khi đạt yêu cầu, mô hình sẽ được xuất khẩu và đưa vào sử dụng.

Sau khi tích hợp hệ thống phát hiện xâm nhập (IDS) dựa trên học máy (ML) vào module IDS, các luồng lưu lượng sẽ được đánh giá đồng thời bởi cả engine IDS truyền thống và engine IDS học máy.

Đối với động cơ IDS sử dụng học máy, lưu lượng mạng được xử lý trước khi đưa vào mô hình dự đoán, với kết quả trả về là 0 (cho phép) hoặc 1 (từ chối) Kết quả này sẽ được so sánh và đánh giá cùng với kết quả từ hệ thống IDS truyền thống để đưa ra quyết định cuối cùng cho luồng lưu lượng.

KÊT LUẬN VÀ HƯỚNG PHÁT

Trong chương này, chúng tôi sẽ tổng hợp các công việc nhóm đã thực hiện, đánh giá ưu và nhược điểm của các phương pháp đã áp dụng, đồng thời đề xuất hướng phát triển trong tương lai.

Hiện nay, việc tập trung dữ liệu tại một máy chủ trung tâm tiềm ẩn nhiều nguy cơ, khiến các hệ thống phi tập trung trở thành xu hướng Để bảo vệ quyền lợi của người tham gia trong mạng lưới phi tập trung, việc xây dựng van dé công bằng là cần thiết Các phương thức tấn công ngày càng tinh vi đã làm cho các hướng tiếp cận cũ không còn hiệu quả Do đó, chúng tôi đề xuất một giải pháp mới, đó là xây dựng bộ khung Decentralized Federated Learning kết hợp với hệ thống Blockchain và mô-đun tính toán nhằm phát hiện và phòng chống tấn công Free-rider.

Trong nghiên cứu này, chúng tôi đã đạt được mục tiêu xây dựng mạng lưới phi tập trung thông qua phương pháp học liên kết kết hợp blockchain Chúng tôi đã áp dụng module tính toán DAGMM để phát hiện các cá thể Free-rider trong hệ thống.

Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIỂN

Nguyên lý hoạtđộng

Tiên xử lý lưu lượng mang

Lưu lượng mạng từ internet phải đi qua firewall, nơi firewall kiểm tra các trường theo quy tắc đã định Dựa trên kết quả kiểm tra, firewall sẽ quyết định cho phép hoặc chặn lưu lượng, với hai giá trị cho trường action là “allow” hoặc “block”.

Sau khi firewall cho phép lưu lượng mạng, dữ liệu sẽ được chuyển đến router để phân luồng vào mạng nội bộ Tại đây, lưu lượng mạng sẽ được phân chia và được phép hoặc từ chối dựa trên danh sách kiểm soát truy cập (ACL), bao gồm trường action với hai giá trị tương ứng.

Các lưu lượng mang được gửi đến IDS để đánh giá thông qua các signature và phương pháp đánh giá bất thường của IDS truyền thống, nhằm đưa ra quyết định cho phép hoặc xác định là bất thường Sau khi hoàn tất đánh giá, kết quả trong trường hành động sẽ bao gồm hai giá trị: cho phép (allow) hoặc chặn (block).

Lưu lượng sau khi được xử lý bởi firewall, router và IDS sẽ được gửi trực tiếp đến ML engine dưới dạng raw log của từng thiết bị Tại đây, các raw log sẽ được loại bỏ những trường không đủ dữ liệu.

Để tối ưu hóa quy trình, cần loại bỏ các trường không cần thiết như nhiệt độ và dịch vụ, đồng thời chuẩn hóa các giá trị trong khoảng [0 1] Trong đó, nhãn action="allow" được mã hóa thành 0 để biểu thị lưu lượng mạng bình thường, còn action="block" được mã hóa thành 1 để đại diện cho lưu lượng tấn công hoặc bất thường Đầu ra của quy trình sẽ là bộ dữ liệu thực tế thu thập từ firewall, IDS và router, được sử dụng để đào tạo mô hình IDS dựa trên machine learning (ML) Sau khi mô hình được huấn luyện, các thông tin sẽ được gửi lên Chaincode qua giao thức IPFS, với các đối tượng IPFS được tạo ra Chaincode sẽ thực hiện kiểm tra và gửi vào module DAGMM để phát hiện các free-riders, nhằm nhận diện các bên tham gia đào tạo IDS nhưng sử dụng dữ liệu sai lệch hoặc không tham gia nhưng vẫn hưởng lợi từ mô hình chung Sau khi kiểm tra, các trọng số sẽ được tính toán và lưu trữ trên blockchain, cho phép các bên tham gia thu thập thông tin để xây dựng mô hình toàn cầu của riêng họ.

Quá trình huấn luyện mô hình IDS dựa trên machine learning sẽ tiếp tục lặp lại cho đến khi đạt được mức độ chính xác hoặc hiệu suất mong muốn Khi đạt ngưỡng này, mô hình sẽ được xuất và đưa vào sử dụng.

Sau khi tích hợp hệ thống phát hiện xâm nhập dựa trên máy học (ML-based IDS) vào module IDS, các luồng lưu lượng sẽ được đánh giá đồng thời bởi cả engine IDS truyền thống và engine IDS học máy.

Đối với động cơ IDS sử dụng học máy, lưu lượng dữ liệu sẽ được xử lý trước khi đưa vào mô hình dự đoán, cho ra kết quả là 0 (cho phép) hoặc 1 (từ chối) Kết quả này sẽ được so sánh và đánh giá cùng với kết quả từ IDS truyền thống nhằm đưa ra quyết định cuối cùng cho luồng lưu lượng.

KÊT LUẬN VÀ HƯỚNG PHÁT

Trong chương này, chúng tôi sẽ tổng hợp các công việc nhóm đã thực hiện, phân tích những ưu điểm và nhược điểm của các phương pháp đã áp dụng, đồng thời đề xuất hướng phát triển cho tương lai.

Hiện nay, việc tập trung dữ liệu tại một máy chủ trung tâm tiềm ẩn nhiều nguy cơ, do đó, hệ thống phi tập trung đang trở thành xu hướng nổi bật Trong bối cảnh này, việc thiết lập cơ chế công bằng trong mạng lưới phi tập trung là rất cần thiết để bảo vệ quyền lợi của người tham gia, đặc biệt khi các phương thức tấn công ngày càng tinh vi và có thể ảnh hưởng đến toàn bộ hệ thống Để giải quyết vấn đề này, chúng tôi đề xuất một hướng tiếp cận mới: xây dựng khung Decentralized Federated Learning kết hợp với hệ thống Blockchain và mô-đun tính toán nhằm phát hiện và ngăn chặn các cuộc tấn công Free-rider.

Trong nghiên cứu này, chúng tôi đã hoàn thành mục tiêu xây dựng một mạng lưới phi tập trung thông qua việc áp dụng phương pháp học liên kết kết hợp với công nghệ blockchain Chúng tôi sử dụng module tính toán DAGMM để phát hiện các cá thể Free-rider trong hệ thống.

Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIỂN

Chúng tôi đã xây dựng các môi trường có chứa các Free-rider và thực hiện nhiều kịch bản thử nghiệm khác nhau Mục tiêu đầu tiên là xác định cấu trúc mạng nơ-ron tối ưu cho mô hình học máy Mục tiêu thứ hai là đánh giá hiệu suất của công cụ mà chúng tôi phát triển, bao gồm cả quá trình huấn luyện và khả năng phát hiện.

Sau quá trình nghiên cứu, chúng tôi nhận thấy rằng công cụ này có một số ưu điểm và nhược điểm đáng chú ý Một trong những ưu điểm lớn nhất là khả năng giải quyết vấn đề điểm yếu Single Point-of-Failure thông qua hệ thống học liên kết phi tập trung (Decentralized Federated Learning) với hiệu suất cao Công cụ cũng thể hiện hiệu quả nổi bật trong việc phát hiện Free-rider, với khả năng nhận diện tốt trong nhiều kịch bản tấn công khác nhau Thêm vào đó, công cụ cho phép linh hoạt điều chỉnh với nhiều loại dataset, giúp tối ưu hóa hiệu suất tùy thuộc vào từng loại dữ liệu và kịch bản tấn công cụ thể.

* Trong quá trình thực nghiệm, công cụ phát hiện có hiệu suất tốt với các loại

Free-rider thường mang tính đặc trưng và thụ động, dẫn đến hiệu suất không cao khi áp dụng các phương pháp linh hoạt hoặc thao tác tinh vi với dữ liệu Thêm vào đó, một nhược điểm quan trọng là việc triển khai mô hình và công cụ gặp khó khăn trên nhiều phiên bản cập nhật khác nhau.

Các nhược điểm này có thể mở ra hướng phát triển tiếp theo trong tương lai.

Dựa trên kết quả đạt được, chúng tôi nhận thấy rằng mô hình kết hợp công cụ có tiềm năng phát triển trong tương lai, tuy nhiên cần nhiều điều chỉnh hơn nữa để tối ưu hóa hiệu quả.

Tiêu đề	Nghiên Cứu Hệ Thống Phát Hiện Xâm Nhập Dựa Trên Học Liên Kết Phi Tập Trung Công Bằng
Tác giả	Nguyen Tran Duc An, Truong Tuan Phi
Người hướng dẫn	ThS. Do Hoang Hien, ThS. Bui Thanh Binh
Trường học	Đại Học Quốc Gia Hồ Chí Minh
Chuyên ngành	Cử Nhân Ngành An Toàn Thông Tin
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	101
Dung lượng	36,54 MB