Bước 1: Dữ liệu người dùng được thống kê trên hệ thống ghi log quảng cáo goZone. Để cụ thể hóa bài toán tôi lấy nhãn hàng Clear của Unilever Việt Nam là quảng cáo cần thống kê số người dùng là thành viên của mạng Go.vn đã click vào quảng cáo này và trong dữ liệu thành viên đó thì có bao nhiêu cộng đồng . Từ dữ liệu người sử dụng mạng Go.vn click vào quảng cáo Clear, tôi tiến hành tiền xử lý và loại bỏ các dữ liệu không phù hợp với bài toán : Do việc thu thập người dùng không dựa trên những mối liên kết của họ với nhau nên đồ thị thu được sẽ dẫn đến hiện tượng rời rạc, số lượng liên kết ít, gây khó khăn trong việc phát hiện cộng đồng. Vì vậy những người dùng thiếu về thông tin sử dụng, thiếu kết nối với các đỉnh khác trong mạng sẽ bị loại ra khỏi tập dữ liệu.
Bước 2: Từ dữ liệu đã được chuẩn hóa, trong bước này, tôi tiến hành xây dựng đồ thị mô tả mạng xã hội với các đỉnh là những người sử dụng và các cạnh biểu diễn mối quan hệ bạn bè giữa những người đó với nhau. Do yêu cầu của thuật toán mà tôi sử dụng (thuật toán CONGA) có đồ thị đầu vào là đồ thị vô hướng và không có trọng số, nên sau bước này, tôi đã xây dựng được một đồ thị vô hướng, không có trọng số biểu diễn những người dùng trong mạng Go.vn đã click vào quảng cáo Clear. Đồ thị này được biểu diễn dưới dạng 1 file text chứa danh sách các đỉnh và các cạnh của đồ thị theo CONGA format
Bước 3: Dựa trên đồ thị vừa xây dựng được, tôi tiến hành cài đặt thuật toán CONGA cho đồ thị đó, dựa trên bộ thư viện mà tác giả thuật toán cung cấp. Đầu