В исследовании представлен новый вычислительный фреймворк ArChIPelago, предназначенный для объединения нескольких позиционных весовых матриц (PWM) в единую совместную модель с помощью методов классического машинного обучения. Авторы использовали широкий спектр алгоритмов — от линейной регрессии до ансамблей деревьев решений — для решения проблемы несоответствия различных PWM для одних и тех же транскрипционных факторов. Тестирование проводилось на масштабном наборе из 704 датасетов ChIP-Seq, охватывающих 36 ортологичных транскрипционных факторов человека и мыши различных структурных семейств. Результаты показали, что ArChIPelago стабильно превосходит по точности лучшие доступные индивидуальные моно- и динуклеотидные PWM, а также разреженные локальные неоднородные смеси моделей. Особую значимость имеет продемонстрированная способность ансамблей PWM осуществлять надежные кросс-видовые прогнозы между человеком и мышью. Данная разработка повышает точность биоинформатического анализа геномных последовательностей и упрощает интерпретацию данных связывания белков с ДНК.