ID-RoPE
ID-RoPE(1-Dimensional Rotary Position Embedding)는 기존 RoPE(회전 위치 임베딩)를 1차원 선형 시퀀스에 적용한 변형입니다. 토큰 순서를 회전 변환으로 인코딩하며, 상대적 위치 관계를 보존합니다.
ID-RoPE의 특징: - 상대 위치 보존: 절대 위치 대신 토큰 간 거리만 학습 - 외삽 능력: 학습 길이를 초과한 시퀀스에도 일반화 - 효율성: 선형 구조로 계산량 최소화
MinerU2.5는 기본 ID-RoPE 대신 M-RoPE(다차원 회전 위치 임베딩)로 교체하여, 크롭된 문서 이미지의 다양한 종횡비(예: 2048 × 28)를 2차원 위치 정보로 인코딩합니다. 이는 고정 종횡비 이미지만 처리하던 기존 설계를 넘어 문서 파싱에 맞춤화한 개선입니다.