Tiền xử lý dữ liệu đờ thi DSCG

6. Bố cục của luận án

3.3. Tiền xử lý dữ liệu đờ thi DSCG

Để cĩ thể đưa dữ liệu đồ thị DSCG vào các bộ phân loại học máy/học sâu thì cần biểu diễn tồn bộ đồ thị dưới dạng vector đặc trưng cĩ độ dài cố định. Tuy nhiên, mỗi một đồ thị trong thực tế cĩ số lượng đỉnh và cạnh khơng giống nhau, mang đặc trưng riêng cho từng mẫu đầu vào. Do đĩ, cần cĩ một kỹ thuật biến đởi dữ liệu đồ thị cĩ độ phức tạp cao thành vector đặc trưng thống nhất cĩ độ dài cố định. Một trong những kỹ thuật giải quyết vấn đề này được sử dụng phở biến hiện nay là nhúng đồ thị (graph embedding). Kỹ thuật nhúng đồ thị ánh xạ đồ thị vào khơng gian Euclid, nơi các đồ thị cĩ cấu trúc hoặc các thành phần đồ thị con tương tự nhau sẽ nằm gần nhau. Từ đĩ, mỗi một đồ thị sẽ được biểu diễn bởi một vector đặc trưng. Thơng qua kỹ thuật này, các vector đặc trưng được trích xuất từ đồ thị và đưa vào các bộ phân loại học máy. Để đánh giá hiệu quả biểu diễn dữ liệu lời gọi hệ thống qua đồ thị DSCG, các kỹ thuật nhúng đồ thị được thử nghiệm trong luận án này bao gồm FEATHER [106], LDP [107] và Graph2vec [108].

Rozemberczki [106] trình bày phương pháp FEATHER được sử dụng để xây dựng các hàm đặc trưng (characteristic functions) của đồ thị dựa trên mối quan hệ phân bố các nút lân cận (node neighborhoods). Tác giả chứng minh rằng, các đồ thị đẳng hình (isomorphic) cĩ cùng một giá trị hàm đặc trưng (pooled characteristic function) là giá trị trung bình của đặc trưng cho các nút (node characteristic functions). Do đĩ, cĩ thể sử dụng một hàm giá trị đặc trưng FEATHER đại diện cho đồ thị trong bài tốn phân loại cũng như phân cụm. Hàm FEATHER mức đồ thị được tởng hợp bằng trung bình cộng các giá trị FEATHER mức nút.

Cai [107] trình bày phương pháp Local Degree Profile (LDP) trong trích xuất đặc trưng của đồ thị dựa trên “bậc” (degree) của đỉnh với các đỉnh lân cận đầu tiên (được nối bởi một cạnh). Tác giả ký hiệu đồ thị là G(V, E) với V là tập các đỉnh và E là tập các cạnh. Với mỗi một đỉnh v thuộc V, ký hiệu DN(v) là tập hợp các giá trị “bậc” của các đỉnh u lân cận đỉnh v: ��(�) = {��(� (�)| , �) ∈ }� . Mỗi một đỉnh v thuộc đồ thị G sẽ trích xuất 5 giá trị đặc trưng gồm: degree(v), min(DN(v)),

max(DN(v)), mean(DN(v)) và std(DN(v)). Quá trình này được lặp lại cho tất cả các

đỉnh của đồ thị G. Các giá trị đặc trưng của nút cĩ chiều mặc định là 32, được nối lại với nhau theo thứ tự thành vetor đặc trưng cĩ 5×32 = 160 chiều. Đây là vetor đặc trưng đầu vào cho các thuật tốn học máy phân loại như SVM.

Các cơng bố gần đây về tiền xử lý cho dữ liệu cĩ cấu trúc đồ thị chủ yếu tập trung vào việc nghiên cứu các cách biểu diễn phân tán của các cấu trúc đồ thị như các nút và đồ thị con. Tuy nhiên, nhiều vấn đề phân tích đồ thị để phục vụ học máy như phân loại và phân cụm đồ thị yêu cầu biểu diễn tồn bộ đồ thị dưới dạng vectơ đặc trưng cĩ độ dài cố định. Trong khi các cách tiếp cận nĩi trên đương nhiên là khơng cần thiết để thực hiện các cách biểu diễn như vậy, thì việc sử dụng các hạt nhân đồ thị (graph kernels) vẫn là cách hiệu quả nhất để trích xuất đặc trưng. Tuy nhiên, các hạt nhân đồ thị này sử dụng các đặc trưng được tạo thủ cơng (ví dụ: đường dẫn ngắn nhất, đồ thị liên thơng,…) và do đĩ bị cản trở bởi các vấn đề như tởng quát hĩa kém, khĩ tự động hĩa quá trình tìm kiếm hạt nhân đồ thị. Để giải quyết hạn chế này, Narayanan đề xuất một phương pháp đồ thị nhúng cĩ tên là graph2vec [108] để tìm hiểu các biểu diễn phân tán theo hướng dữ liệu của các đồ thị cĩ kích thước tùy ý. Tác giả coi các đồ thị tương tự như các văn bản được cấu tạo bởi các đồ thị con cĩ gốc (rooted subgraphs) và mở rộng phương pháp

Skipgram cho văn bản (Doc2vec) sang ứng dụng cho xử lý đồ thị. Các phép nhúng của graph2vec được huấn luyện theo phương pháp học khơng giám sát (unsupervised learning). Do đĩ, chúng cĩ thể được sử dụng cho bất kỳ tác vụ nào như phân loại đồ thị, phân cụm và thậm chí cho các phương pháp học máy cĩ giám sát. Các thử nghiệm của Narayanan cho thấy graph2vec đạt được những cải tiến đáng kể về độ chính xác phân loại và phân cụm so với các phương pháp tiếp cận học biểu diễn cấu trúc con và cạnh tranh với các phương pháp phân tích đồ thị hiện đại.

Hình 3.5 So sánh Doc2vec và Graph2vec

Khái niệm mã độc IoT Botnet

Thu thập dữ liệu