6. Cấu trúc của đề tài
1.3. Ứng dụng của việc biểu diễn đồ thị bằng phương pháp nhúng đỉnh
Nhúng đỉnh đồ thị được sử dụng phổ biến để phục vụ cho việc trực quan hóa, phân cụm, phân loại đỉnh và dự đoán liên kết, và mỗi trường hợp sử dụng này đều có liên quan mật thiết đến các lĩnh vực ứng dụng cụ thể, từ khoa học xã hội cho đến vật lý y sinh, phân tử.
Trực quan hóa và phân tích mẫu. Vấn đề trực quan hóa đồ thị dưới dạng
2D đã có lịch sử lâu đời, với các ứng dụng xuyên suốt quá trình khai phá dữ liệu. Nhúng đỉnh đồ thị cung cấp một mơ hình mới mạnh mẽ để trực quan hóa đồ thị: do các đỉnh được ánh xạ đến các vector giá trị thực, các nhà nghiên cứu có thể dễ dàng sử dụng các kỹ thuật chung hiện có để trực quan hóa các bộ dữ liệu số chiều lớn. Ví dụ: nhúng đỉnh có thể được kết hợp với các kỹ thuật phổ biến như phân tích các thành phần chính (PCA) để tạo ra các hình ảnh trực quan 2D về đồ thị, từ đó có thể có hiệu quả cho việc khám phá các cộng đồng và các cấu trúc ẩn khác bên trong đồ thị.
Phân cụm và phát hiện cộng đồng. Tương tự như việc trực quan hóa,
nhúng đỉnh là một cơng cụ mạnh mẽ để gom nhóm các đỉnh có liên quan [11], là một tác vụ có vơ số ứng dụng từ sinh học tính tốn (ví dụ: khám phá các loại thuốc liên quan) đến hoạt động marketing (ví dụ: khám phá các sản phẩm liên quan). Một lần nữa, vì mỗi đỉnh được liên kết với nhúng vector giá trị thực, nên có thể áp dụng bất kỳ thuật toán phân cụm chung nào cho tập hợp các phép nhúng đỉnh đã học (ví dụ: k-mean). Điều này cung cấp một giải pháp thay thế mạnh mẽ cho các kỹ thuật phát hiện cộng đồng truyền thống, đồng thời nó cũng mở ra các cơ hội phương pháp luận mới, vì các phép nhúng đỉnh có thể phát hiện được các vai trị chức năng hoặc cấu trúc do các đỉnh khác nhau đảm nhận, thay vì chỉ tìm ra cấu trúc cộng đồng.
Phân loại đỉnh và học bán giám sát. Phân loại đỉnh là tác vụ để kiểm
chuẩn phổ biến nhất được sử dụng để đánh giá phép nhúng đỉnh. Trong hầu hết các trường hợp, nhiệm vụ phân loại đỉnh là một hình thức học bán giám sát, trong đó các nhãn chỉ có sẵn cho một tỷ lệ nhỏ các đỉnh, với mục tiêu là gắn nhãn cho đồ thị đầy đủ chỉ dựa trên tập nhỏ ban đầu này. Các ứng dụng phổ biến của phân loại nút bán giám sát như trong lĩnh vực y sinh là phân loại protein theo chức năng sinh học của chúng, đối với mạng xã hội như phân loại tài liệu, video, trang web hoặc cá nhân thành các danh mục / cộng đồng khác nhau. Gần đây, các nghiên cứu đã giới thiệu nhiệm vụ phân loại nút quy nạp, trong đó mục tiêu là phân loại các nút khơng được nhìn thấy trong q trình huấn luyện, ví dụ: phân loại các tài liệu mới trong các đồ thị thông tin đang phát triển hoặc tổng quát hóa thành mạng lưới tương tác protein-protein khơng nhìn thấy được.
Dự đốn liên kết. Nhúng đỉnh cũng cực kỳ hữu dụng để dự đoán liên kết,
trong đó mục tiêu là dự đốn các cạnh bị thiếu hoặc các cạnh có khả năng hình thành trong tương lai. Dự đoán liên kết là cốt lõi của hệ thống khuyến nghị và các ứng dụng phổ biến của nhúng đỉnh phản ánh kết nối sâu sắc này, bao gồm dự đốn các liên kết bạn bè cịn thiếu trong mạng xã hội và mối quan hệ giữa người dùng và bộ phim họ thích. Dự đốn liên kết cũng có những ứng dụng quan trọng trong
sinh học tính tốn. Nhiều đồ thị tương tác sinh học (ví dụ, giữa protein và các protein khác, hoặc giữa thuốc và bệnh) khơng hồn chỉnh vì chúng dựa trên dữ liệu thu được từ các thí nghiệm tốn kém trong phịng thí nghiệm. Dự đốn các liên kết trong các đồ thị nhiễu này là một phương pháp quan trọng để tự động mở rộng bộ dữ liệu sinh học và đề xuất các hướng mới cho thí nghiệm. Nói một cách tổng quát hơn, dự đốn liên kết có liên quan chặt chẽ với học quan hệ thống kê, trong đó nhiệm vụ phổ biến là dự đốn các quan hệ cịn thiếu giữa các thực thể trong một đồ thị tri thức.