태그: 베스트논문

6개의 게시물

DeepSeek-OCR Contexts Optical Compression

대규모 언어 모델(LLM)이 긴 텍스트를 처리할 때 시퀀스 길이에 따라 연산량이 제곱으로 증가하는 문제가 있습니다. 이 논문은 흥미로운 질문을 던집니다. 텍스트를 이미지로 변환하면 더 효율적으로 압축할 수 있지 않을까요? 하나의 문서 이미지가 실제 텍스트 토큰보다 훨씬...

Video models are zero-shot learners and reasoners

원래 자연어 처리 분야는 번역, 질의응답, 요약 등 각각의 작업마다 별도의 전용 모델이 필요했습니다. 불과 몇 년 전의 일입니다. 대규모 언어 모델의 출현으로 모든게 바뀌기 전이죠. 그 시작은 GPT-3였습니다. 이제는 하나의 범용 모델이 프롬프트만으로 다양한 언어 작...

ImageNet Classification with Deep Convolutional Neural Networks

2012년, 딥러닝 대부 제프리 힌턴과 두 명의 대학원생은 컴퓨터 비전 분야에 혁명을 일으킬 논문을 발표합니다. 이 논문은 ImageNet 대회에서 기존 방법들을 압도적으로 뛰어넘는 성능을 보여주며 대 딥러닝 시대를 열었습니다. 논문에서 제안한 모델은 **AlexNet...

You Only Look Once, Unified Real-Time Object Detection

이미지 내에서 객체를 식별하고 위치를 파악하는 작업은 오랫동안 컴퓨터 비전의 핵심 과제였습니다. 2015년 이전에는 지배적인 접근 방식들이 복잡하고 다단계적인 파이프라인을 요구했으며, 이는 계산 비용이 많이 들고 실시간 애플리케이션에는 너무 느렸습니다. Joseph R...

Attention Is All You Needs

이 논문이 소개하는 트랜스포머 아키텍처는 시퀀스-투-시퀀스 모델링의 한계를 해결합니다. 원래 이 분야는 순환 신경망(RNN), LSTM, GRU 등이 유명합니다. 모두 토큰별로 시퀀스를 순차적으로 처리하는 구조입니다. 이런 RNN 기반 모델은 기계 번역에서 강력한 성능...