줄리아 호켄마이어

개요

줄리아 호켄마이어(Julia Hockenmaier)는 미국 일리노이대학교 어배너섐페인(UIUC) 자이벨 컴퓨팅·데이터과학 스쿨 정교수입니다. 전공은 전산언어학(computational linguistics)과 자연어처리(NLP)이며, 2025년부터 2026년에 걸쳐 루트비히 막시밀리안 뮌헨 대학교에도 연구자로 적을 두고 있습니다.

조합범주문법(Combinatory Categorial Grammar, CCG) 기반 파싱 및 문법 귀납 연구로 NSF CAREER 어워드를 수상했으며, 이미지 묘사(image description) 연구로 IJCAI-JAIR 최우수 논문상을 받은 바 있습니다. CCGbank 코퍼스 구축과 Flickr30k Entities 데이터셋 개발이 대표적인 기여로 꼽힙니다.

최근에는 LLM의 추론 트레이스를 담화 구조로 분석하는 연구 방향으로 확장하고 있습니다. 언어의 구조와 의미를 형식적으로 다루어 온 배경이 LLM 내부 표현 해석 연구와 자연스럽게 맞닿아 있습니다.

생애

호켄마이어는 영국 에든버러 대학교에서 마크 스티드먼 지도 아래 박사학위를 취득했습니다. 스티드먼은 CCG 이론의 창시자 중 한 명으로, 이 사사 관계가 호켄마이어의 연구 궤적 전반에 깊은 영향을 미쳤습니다.

박사 이후에는 미국 펜실베이니아 대학교에서 아라빈드 조시 아래 박사후연구를 수행했습니다. 조시는 트리 인접 문법(Tree-Adjoining Grammar, TAG)의 개척자로, 이 경험은 호켄마이어가 형식 문법과 파싱을 폭넓게 다루는 역량을 갖추는 데 기여했습니다.

이후 UIUC 컴퓨터과학과에 합류하여 정교수로 재직 중입니다. 연구실(HMR Lab)에서는 언어와 시각의 교차점, 담화 구조, LLM 표현 분석 등을 다루고 있으며, 다수의 박사과정생을 지도하고 있습니다.

업적

호켄마이어의 가장 영향력 있는 성과는 CCGbank 코퍼스 개발입니다. Penn Treebank를 CCG 유도 과정 및 의존 구조로 자동 변환하는 알고리즘을 개발하고, 그 결과물인 CCGbank를 2007년 Computational Linguistics 저널에 발표했습니다. 이 코퍼스는 이후 CCG 파서 연구의 표준 평가 자원으로 자리 잡았습니다.

이미지-언어 연구에서는 Flickr30k Entities 데이터셋 구축에 기여했습니다. 이미지 영역과 텍스트 구절을 연결하는 대규모 주석 자원으로, 이미지 캡셔닝과 시각적 기반 언어 모델 연구에 널리 활용되고 있습니다. 이 작업이 포함된 연구로 IJCAI-JAIR 최우수 논문상을 수상했습니다.

2025년 이후에는 LLM 내부 동작 분석으로 연구 범위를 넓히고 있습니다. 희소 오토인코더(Sparse Autoencoder)의 인컨텍스트 학습 활용("On the Versatility of Sparse Autoencoders for In-Context Learning", EMNLP 2025), 공간 추론 프롬프팅("The Power of Bullet Lists", NAACL 2025), LLM 판사 일관성 분석("Rating Roulette", EMNLP 2025) 등 다양한 NLP 주제에 걸쳐 논문을 발표하고 있습니다.

ReasoningFlow - Discourse Structures for Understanding LLM Reasoning Traces 논문에서는 시니어 저자로 참여해 담화 구조 이론을 LLM 추론 트레이스 분석에 접목하는 작업을 이끌었습니다. RST(Rhetorical Structure Theory)와 논증 구조를 LLM에 맞게 재설계한 스키마 설계에 그의 언어학적 배경이 반영되어 있습니다.

여담

호켄마이어는 전산언어학 학계에서 학회 운영에도 활발히 참여해 왔습니다. ACL, EMNLP 등 주요 NLP 학회의 프로그램 위원으로 수차례 활동했으며, 학문 공동체 운영에도 기여해 온 인물로 평가받습니다.

지도학생 이진우와 공동 저술한 ReasoningFlow 연구는 호켄마이어가 언어학의 전통적인 담화 분석 개념을 최신 LLM 연구에 연결하는 방식을 잘 보여주는 사례입니다. 형식 문법에서 출발해 시각-언어로, 그리고 LLM 해석으로 이어지는 연구 궤적은 한 분야에 머물지 않는 유형의 연구자상을 보여줍니다.

2025년부터 뮌헨 대학교와의 겸임 관계를 시작한 것도 연구 네트워크 확장 측면에서 주목됩니다. 유럽 NLP 연구 그룹과의 협력이 향후 연구 방향에 영향을 줄 수 있습니다.

주요 논문

"CCGbank: A Corpus of CCG Derivations and Dependency Structures Extracted from the Penn Treebank" (Computational Linguistics, 2007) -- CCG 파싱의 표준 데이터 자원 구축
"Generating Text with Recurrent Neural Networks" 관련 초기 시각-언어 연구 (2010년대 초)
"Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics" (IJCAI, 2015)
"Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models" (IJCV, 2017)
"IGLU: Interactive Grounded Language Understanding in a Collaborative Environment" (NeurIPS 2021 Competition)
"On the Versatility of Sparse Autoencoders for In-Context Learning" (EMNLP, 2025)
"The Power of Bullet Lists: A Simple Yet Effective Prompting Approach to Enhancing Spatial Reasoning in LLMs" (NAACL, 2025)
"Rating Roulette: Self-Inconsistency in LLM-As-A-Judge Frameworks" (EMNLP, 2025)
"How Reliable are Causal Probing Interventions?" (IJCNLP, 2025)
ReasoningFlow - Discourse Structures for Understanding LLM Reasoning Traces -- 시니어 저자