공유하기

카카오톡
블로그
페이스북
X
주소복사

이노크라스·KAIST 공동 연구, ICML 2026 정규 논문 채택

김혜민 기자 (gpals4965@dailian.co.kr)
입력 2026.06.24 08:00
수정 2026.06.24 08:00

ⓒ이노크라스


바이오인포매틱스 기업 이노크라스는 한국과학기술원(KAIST)과 공동으로 수행한 연구 논문 'DNAChunker: Learnable Tokenization for DNA Language Models'가 '국제머신러닝학회(ICML) 2026'에 정규 논문으로 채택됐다고 24일 밝혔다.


이번 연구에서 제안한 'DNAChunker'는 DNA 언어모델을 위한 학습 기반 적응형 토크나이저(Adaptive Tokenization) 기술이다. 유전체 서열을 기존처럼 고정 길이나 사전에 정의된 단위로 처리하는 방식에서 벗어나, 생물학적 의미를 반영한 가변 길이 단위로 동적으로 분절하는 것이 특징이다.


연구진은 생물학적 문맥을 바탕으로 유전 코드의 그룹화 방식을 학습함으로써 복잡한 유전체 패턴을 한층 효율적으로 표현할 수 있도록 설계했다.


성능 평가 결과, DNAChunker를 적용한 1억 7200만 파라미터 규모의 모델로 최신 12억 파라미터 규모 DNA 언어모델과 유사한 수준의 정확도를 구현해 냈다.


연구진은 인공지능(AI) 모델의 규모를 대폭 줄이면서도 고성능을 유지함에 따라, 대규모 유전체 연구와 중개연구, 향후 임상 분야에서 유전체 AI 모델의 실제 활용 가능성을 넓힐 수 있을 것으로 기대하고 있다.


이번 연구에서 KAIST는 핵심 알고리즘 설계, 모델 구현, 성능 검증을 담당했으며, 이노크라스는 대규모 컴퓨팅 자원 인프라와 기술 아이디어 개발, 임상 환경 적용을 위한 검증 과정을 수행했다.


이노크라스 최고정보책임자(CIO)이자 공동 연구책임자인 이원철 박사는 "DNA 언어모델의 성능은 유전체 서열을 어떻게 표현하느냐에 큰 영향을 받는다"며 "DNAChunker는 기존의 고정된 토크나이저를 학습 기반 방식으로 전환해 후속 유전체 모델링을 위한 탄탄한 기반을 제공한다"고 설명했다.


서제희 이노크라스 대표는 "이번 ICML 논문 채택은 KAIST와 협력해 개발 중인 암 파운데이션 모델 연구 과정에서 거둔 의미 있는 성과"라며 "생물학적 정보를 고스란히 반영한 유전체 표현 계층을 제공해 향후 암 해석 모델 고도화에 적극 활용될 것"이라고 강조했다.


논문의 교신저자인 KAIST 안성수 교수와 한인수 교수는 "DNA 언어모델 개발에서는 서열 표현 방식이 핵심적인 요소"라며 "이노크라스와의 협력을 통해 AI 기술과 전장 유전체 분석의 실제 임상·연구 활용 가능성을 함께 검토할 수 있었다"고 말했다.

김혜민 기자 (gpals4965@dailian.co.kr)
기사 모아 보기 >
0
0

댓글 0

로그인 후 댓글을 작성하실 수 있습니다.
  • 최신순
  • 찬성순
  • 반대순
0 개의 댓글 전체보기