자유

한컴 '오픈데이터로더 PDF'에 대한 생각

Retro Rat 2026. 3. 27. 12:07

개요

아침에 일어나서 천천히 잠을 깨고 핸드폰으로 유튜브를 보고 있었는데 상단 바에서 구글뉴스 알람이 왔다.

뉴스의 제목이 [ 한컴 '오픈데이터로더 PDF', 출시 일주일 만에 깃허브 트렌딩 1위 달성 ] 라서 흥미가 생기지 않을 수가 없었다.

그래서 대체 한컴의 '오픈데이터로더 PDF'가 무엇이지 알아보고 기술적으로 어떤 면이 있는지 조사해봤다.

 

1.  한컴 '오픈데이터로더 PDF'란?

github ReadME.md에 있는 예시 이미지

오픈데이터로더 PDF는 복잡한 구조의 PDF 문서를 텍스트·표·이미지 등으로 분해해 인공지능(AI)이 바로 처리할 수 있는 형태로 변환하는 기술이다.

 

2.  한컴이 이러한 기술을 개발해낸 배경

한컴은 2025년 7월 글로벌 PDF 기술 전문 기업 듀얼랩(Duallab)과 업무협약(MOU)을 체결하고 공동 개발에 착수, 같은 해 9월 초기 버전을 공개한 데 이어 3월 12일에 v2.0을 출시했다. 

듀얼랩은 업계 표준 오픈 소스 PDF/A 및 PDF/UA 유효성 검사 도구 인 veraPDF 개발사이며 PDF 협회  Dual Lab 와의 협업으로 탄생하게 되었다.

 

3.  한컴 '오픈데이터로더 PDF'의 어머니?

https://www.hancom.com/product/solution/dataloaderSdk
조사하면서 한컴은 이미 문서 작성을 위한 데이터 로더를 가지고 있었다는 것을 알게되었고 이 기술이 이번에 나온 오픈데이터로더 PDF의 어머니라고 생각했다. 하지만 오픈데이터로더 PDF은 복잡한 구조를 가진 PDF를 주 타켓팅으로 한 기술이다.

 

한컴 데이터 로더란 .json, .csv, .word, .txt 등과 같은 다양한 형식의 문서들을 RAG(검색 증강 생성, Retrieval-Augmented Generation)이 바로 처리할 수 있는 형태로 데이터화하여 추출하는 기술이라고 보면 된다.

 

https://livedemo.sdk.hancom.com/dataloader

한컴 공식홈페이지에 가면 온라인상에서 직접 체험해볼 수 있는 수단이 있는데 이를 보면 신기하게 글이 있는 부분을 RAG가 체크해서 데이터로 출력하는 모습을 볼 수 있다.

 

4. 느낀점

나는 한컴하면 '한글'프로그램 밖에 생각나지 않았고 이 회사는 이것뿐이라고 생각헀다.

허나 이는 크나큰 착각이었고, 과거의 기억에 얽매여 이 회사를 판단하던 것은 나였다는 것을 깨닫게 되었다.

한컴은 이미 AI를 적극 활용하여 사용자들에게 한컴 SDK를 제공하여 여러 문서작업에 필요한 기능과 AI를 제공하고 있었다.

그래서 정말 좋은 곳이라고 생각이 들었고, 변해가는 세상에서 AI를 적극적으로 활용할 줄 알아야한다고 생각이 들었다.

 

5. 오픈데이터로더 PDF의 Link

https://github.com/opendataloader-project/opendataloader-pdf

 

 

GitHub - opendataloader-project/opendataloader-pdf: PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.

PDF Parser for AI-ready data. Automate PDF accessibility. Open-source. - opendataloader-project/opendataloader-pdf

github.com

 

'자유' 카테고리의 다른 글

티스토리 서식 사용하기  (0) 2026.03.05