[논문 리뷰] Systems for Scalable Graph Analytics and Machine Learning Trends and Methods

2 Sep 2025

[Paper]

Title: Systems for Scalable Graph Analytics and Machine Learning: Trends and Methods
Authors: Da Yan, Lyuheng Yuan, Akhlaque Ahmad, Chenguang Zheng, Hongzhi Chen, James Cheng
Conference: KDD 2024 (Barcelona, Spain)
Institution: Indiana University · The Chinese University of Hong Kong · Kasma Pte. Ltd.
Keywords: Graph Analytics · Subgraph Search · GNN · Distributed Systems · Scalability

1. 연구 배경 (Background & Motivation)

TLAV (Think-Like-A-Vertex) 모델은 Pregel 이후 그래프 병렬 시스템의 대표적 패러다임으로, 각 vertex 단위의 병렬 연산을 통해 PageRank, BFS, Shortest Path 등 반복적 알고리즘을 효율적으로 처리함.
그러나 subgraph structure를 다루는 실제 문제들(community detection, motif mining, bioinformatics 등)은
TLAV 모델로는 계산 비용이 급격히 증가하고 확장성(scalability)이 떨어짐.

이에 따라 최근 두 가지 주요 연구 흐름이 등장함:

Subgraph-centric systems — 부분 그래프 탐색 중심의 새로운 병렬 처리 모델
Distributed GNN systems — 대규모 그래프 신경망 학습을 위한 확장 가능한 분산 시스템

2. 연구 목적 (Research Goal)

기존 TLAV 기반 그래프 분석 프레임워크가 처리하지 못한
Subgraph Search와 Graph Neural Network(GNN) 학습 문제를 해결하기 위한
시스템적 접근과 방법론을 체계적으로 분류 및 정리하는 것이 목적임.

3. 그래프 분석 파이프라인 (Graph Analytics Pipeline)

단계	설명	산출물	예시
1	Vertex Analytics	각 노드 점수	PageRank, Centrality
2	Vertex Analytics + ML	Vertex Embedding	DeepWalk, node2vec
3	Structure Analytics	Subgraph 구조	Motif, Clique, Community
4	Structure Analytics + ML	Subgraph 기반 예측	Graph Classification

TLAV 시스템은 ①② 단계에 최적화되어 있으며,
③④ 단계의 구조 기반 분석은 새로운 접근이 필요함.

4. 방법론 (Methodology)

4.1. Systems for Structure Analytics

문제 유형

구분	설명	예시
SF (Subgraph Finding)	주어진 패턴에 맞는 subgraph instance 탐색	Subgraph Matching, Motif Counting
FSM (Frequent Subgraph Mining)	데이터로부터 빈번히 등장하는 subgraph 패턴 탐색	Frequent Pattern Mining

기존 TLAV의 한계

연산 단위가 vertex → subgraph 수준의 복잡한 의존성 처리 불가
각 iteration 비용이 O(|V| + |E|)이며, subgraph space는 지수적 증가

새로운 모델: Think-Like-a-Graph / Think-Like-a-Task

Subgraph-centric model: 작은 subgraph를 edge/vertex 단위로 확장
Task-based model (T-thinker): 각 subgraph 탐색을 독립 task로 분리하여 병렬 실행

대표 시스템 비교 (Table 1 요약)

시스템	문제유형	탐색방식	특징
Arabesque / RStream	SF+FSM	BFS 기반	중간 결과(materialization) 발생, 메모리 과다
Fractal / G-thinker / G-Miner	SF	DFS+Backtracking	Materialization 최소화, 효율적 CPU 사용
GraphPi / GraphZero / AutoMine	SF	코드 생성(Code Gen)	Vertex Matching 순서 최적화, 대칭성 제거
GSI / cuTS / EGSM / T-DFS	SF	GPU 기반	GPU 병렬화, BFS-DFS hybrid 탐색
T-FSM / PrefixFPM / ScaleMine	FSM	Backtracking 기반	병렬 FSM, 근사/정확 방식 모두 존재

핵심 기법

BFS vs DFS:
- BFS: 확장 전 모든 subgraph materialization 필요 → 메모리 폭증
- DFS: Backtracking으로 중간 결과 제거 → 효율적 확장성 확보
T-thinker Framework:
- Task 분할 + Timeout-based 재분해로 CPU 코어 활용 극대화
- Straggler(느린 task) 방지

4.2. Systems for Graph Machine Learning (GNN)

기본 GNN 구조 (GraphSAGE 예시)

$h^{(k)}_N(v) = \text{AGGREGATE}({h^{(k-1)}_u | u \in N(v)})$ $h^{(k)}_v = \sigma(W^{(k)}[h^{(k-1)}_v | h^{(k)}_N(v)])$

각 Layer는 (1) 그래프 데이터 접근, (2) 모델 계산 및 동기화 단계를 포함.

분산 GNN 학습의 3대 과제

Graph Data Communication:
- 노드 간 이웃 의존성으로 인한 통신량 급증
Operator Scheduling:
- Subgraph sampling, aggregation, parameter update 간 스케줄링 최적화 필요
Model Synchronization:
- 분산 환경에서의 빈번한 파라미터 동기화 지연 문제

주요 시스템 비교 (Table 2 요약)

시스템	주요 기법	특징
Euler (Alibaba)	Neighborhood Sampling	부분 이웃만 선택하여 통신 최소화
AliGraph	Sampling + Operator 병렬화	Operator abstraction 활용
ByteGNN (ByteDance)	Two-level Scheduling	BFS 기반 파티션, 스트리밍 배정
DGCL	NVLINK 통신 최적화	GPU 간 고속 데이터 교환
DistDGL	METIS 파티션	Cross-node 통신 감소
P3 (USENIX OSDI)	Push-Pull 병합 병렬화	모델/데이터 병렬 결합
NeutronStar	Hybrid Dependency Mgmt	auto-diff 최적화
DistGNN	Full Graph 학습	Shared memory, delayed update
Sancus	Adaptive Async Training	Gradient 변화 기반 동적 staleness
Dorylus	Serverless Thread 기반	GPU 없이 저비용 학습 실현
HongTu	Multi-GPU Full Graph	GPU 학습 + CPU 데이터 저장
AGL (Alibaba)	Precomputed k-hop Subgraph	학습 전 데이터 materialization 수행

핵심 기술 요약

카테고리	기술	대표 시스템
Graph Communication	Sampling, Partitioning	Euler, DGCL, DistDGL
Scheduling	Operator 병렬 파이프라인	AliGraph, ByteGNN, P3
Synchronization	Bounded / Adaptive Staleness	Dorylus, Sancus
Hardware Utilization	NVLINK, Serverless	DGCL, Dorylus
Full Graph Training	Shared-memory GNN	DistGNN, HongTu

5. 비교 및 한계 (Analysis & Limitations)

구분	장점	한계
Subgraph Systems	DFS 백트래킹 기반 고효율 탐색, CPU 병렬성 극대화	그래프 규모가 너무 크면 여전히 메모리 병목
GNN Systems	다양한 분산 최적화 기법, NVLINK/Serverless 지원	통신비용 및 동기화 지연 완전 해결은 어려움
통합적 관점	Subgraph → Feature → GNN 학습 파이프라인 가능성	서로 다른 데이터 포맷/프로그래밍 모델 통합 어려움

6. 향후 연구 방향 (Future Directions)

Subgraph-GNN 통합 플랫폼:
Subgraph feature를 직접 GNN input으로 통합하는 end-to-end pipeline 구축 필요.
Task-Centric Unified Framework:
T-thinker 기반의 GNN 병렬화까지 확장 가능성 있음.
Hardware-Aware Scheduling:
GPU·Serverless·Edge 등 heterogeneous 환경에서의 최적화 연구 필요.
Auto-Tuning System Design:
그래프 특성에 따라 자동으로 BFS/DFS, Sampling 전략 선택하는 adaptive 시스템 설계.

7. 총평 (Summary & Commentary)

평가 항목	내용
기여도	Subgraph-centric 및 GNN-centric 시스템을 통합적으로 정리한 최초의 튜토리얼
기술적 깊이	기존 Pregel/TLAV 한계를 명확히 짚고, 최신 GPU·Task-based 기법까지 포괄
응용 가능성	Bioinformatics, Recommender, Community Detection 등 다양한 영역 적용 가능
한계점	실험 결과보다는 시스템 개요 중심으로, 정량적 비교 부족
전반 평가	“System-oriented synthesis bridging graph analytics and ML.” — 실무자·연구자 모두에게 유용한 종합 리뷰 논문

한 줄 요약:
“이 논문은 그래프 분석의 진화를 ‘정점 중심 → 서브그래프 중심 → 신경망 중심’으로 명확히 구분하고,
그 사이의 시스템적 연결고리를 제시한 현대 그래프 시스템 연구의 로드맵이다.”

Paper