Исследователи представили CROWN — новый специализированный датасет, предназначенный для обучения моделей машинного обучения, предсказывающих взаимодействия белков и лигандов. В отличие от существующих баз данных, таких как PDBBind, которые ограничены в объеме, или PLInder, lacking качества, CROWN использует автоматизированный конвейер предобработки для обеспечения высокой точности структур. Из исходных 649 915 систем после применения строгих фильтров (разрешение кристаллографии, полнота карманов, протонирование при физиологическом pH) было отобрано 153 005 высококачественных комплексов. Ключевой инновацией является этап минимизации энергии с использованием кастомных ограничений, что позволяет устранить структурную неоднородность, возникающую из-за различий в методах рефлексии кристаллографов, не искажая при этом экспериментальную геометрию связывания. Датасет обеспечивает четырехкратное увеличение разнообразия белков и видов по сравнению с PDBBind, при этом фокусируясь на геометрии атомов, а не на смещенных показателях аффинности. CROWN станет фундаментальным ресурсом для обучения генеративных моделей связывания, разработки скоринг-функций и бенчмаркинга методов предсказания взаимодействий.