라벨 없는 유튜브 비디오 5억 개에서 GUI 인터랙션 트래젝토리 1,200만 개를 자동 추출해 만든 WildGUI 데이터셋과 그 추출 파이프라인 Video2GUI. Qwen2.5-VL·MiMo-VL를 사전학습하면 ScreenSpot-Pro·OSWorld-G에서 15~20점 상승, 온라인 OSWorld·AndroidWorld까지 일관된 개선이 나타납니다.
태그: 데이터분석
6개의 게시물
-
Video2GUI - Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining 2026-05-22 -
블룸 필터 2026-04-141970년에 만들어져 50년 넘게 살아남은 확률적 자료구조, 블룸 필터. 거짓 양성은 허용하되 거짓 음성은 절대 없는 이 구조가 구글, 비트코인, 카산드라에서 어떻게 쓰이는지 정리합니다.
-
|-
-
FineVision Open Data Is All You Need 2025-10-25인공지능 연구에서 가장 중요한 것은 데이터! 두 말하면 입아픈 이야기입니다. 최대 규모의 AI 플랫폼, 이제는 연구 커뮤니티의 역할을 톡톡히 하는 허깅페이스에서 최대 규모의 오픈 데이터 리소스를 발표했습니다. 오염이 심한 공개 데이터셋에서 세심하게 큐레이션해 2,400만 샘플 데이터셋을 통합하여 품질을 끌어올렸습니다. 기존 오픈 데이터셋 대비최대 46%의 벤치마크 성능 향상을 보입니다.
-
저는 예전부터 데이터 시각화가 어려웠습니다. 함수 이름이랑 파라미터도 잘 안 외워지고 어떤 그래프가 가장 효과적인가 판단하는 것이 쉽지 않습니다. 구글에서 시각화 시스템을 제안한 논문을 발표한 것은 굉장히 재밌습니다. 아마 Opal과 관련이 있지 않을까요?
-
군중 상황에서 정확한 다중 사람의 자세 인식을 위한 군중 자세 주석 데이터 세트 2025-04-05군중 상황에서의 객체 탐지와 포즈 추정의 어려움을 다룹니다. CrowdPose 데이터셋과 Crowd Index를 분석하고, 객체 수까지 고려한 새로운 데이터셋 'HuPoAnt'와 전용 라벨링 도구를 개발한 경험과 추후 연구 방향을 공유합니다.