В исследовании рассматривается двойственная природа вероятностного моделирования последовательностей и сжатия данных, где языковые модели используются как инструмент оценки качества генеративного моделирования ДНК. Авторы представили семейство из десяти моделей DNAGPT2 (архитектура GPT-2-small), предобученных на мультивидовом корпусе DNABERT2 с использованием одной видеокарты A40. Ключевым достижением стало достижение показателя 1.47 бит на основание (bpb) при сжатии генома человека T2T, что заняло четвертое место в бенчмарке Cobilab и превзошло все универсальные компрессоры общего назначения. Исследование выявило, что стандартная для NLP токенизация может быть неоптимальной для ДНК: словарь BPE размером в 32 токена показал лучшие результаты, чем более крупные словари. Также было обнаружено, что модели с коротким контекстом, использующие BPE, могут превосходить специализированные геномные модели с длинным контекстом из-за различий в архитектуре и данных. В завершение авторы создали карту информационной плотности генома человека, продемонстрировав статистически значимые различия в профилях информации между экзонами, интронами, межгенными участками и повторами Alu.