Я дал AI-агентам построить компанию. Они попытались нанять живых людей

Paperclip – это инструмент, который обещает превратить тебя в CEO собственной AI-компании. 55 тысяч звёзд на GitHub за полтора месяца, красивый README про «карманные команды агентов» и обещание, что ты ставишь цель, а дальше всё происходит само. Я решил проверить, как это работает на практике. Потратил пару вечеров, сжёг 200 миллионов токенов и получил... ну, скажем так, не совсем то, что ожидал.

Наткнулся на Paperclip случайно, в ленте GitHub Trending. 55K звёзд за полтора месяца. Для AI-инструмента это прям рокет-старт. Зашёл в README, и меня зацепила идея: ты как будто нанимаешь себе карманную компанию из AI-агентов. У каждого своя роль, свои скиллы, свои зоны ответственности. Ставишь цель, система разворачивает оргструктуру, и дальше агенты сами друг другу ставят задачи, делегируют, отчитываются.

Звучит как мечта любого менеджера, правда? Не код пишешь, а управляешь. Не в терминале сидишь, а наблюдаешь, как «компания» работает.

Я решил дать Paperclip задачу, которая мне была реально интересна: собрать indie game dev команду и сделать игру для Яндекс Игр. С нуля. Не конкретный жанр, пусть сами решают, что делать. Мне было любопытно посмотреть, как агенты справятся с задачей, где нет чёткого ТЗ. Как в реальной жизни, когда приходит заказчик и говорит: «Ну, сделайте мне игру. Хорошую».

Небольшое техническое отступление, иначе непонятно, зачем вообще сервер.

Paperclip работает в режиме без ограничений. Это значит, что агенты могут выполнять произвольные команды, устанавливать пакеты, создавать файлы, лезть в сеть. Запускать такое на рабочей машине... ну такое. Поэтому я поднял всё на VPS через Coolify (мой любимый способ быстро катить pet-проекты в Docker). Закинул туда Docker Compose с Paperclip, OmniRoute и Codex CLI от OpenAI и получил изолированную песочницу, которую не страшно сломать.

Зачем OmniRoute? Токены в Paperclip сжигаются безбожно. Буквально. Одна сессия, и лимит подписки тает на глазах. OmniRoute это AI-gateway, который позволяет направлять запросы через несколько аккаунтов и провайдеров. У меня два аккаунта с Plus-подпиской, и OmniRoute объединяет их лимиты в один пул. Без этого мне бы хватило одного аккаунта часа на полтора, может два. Двух подписок имхо не хватило, но покупать третью не стал. За 3-4 дня я думаю спокойно будет выжрано оба недельных лимита.

Сетап получился рабочий, хотя и кустарный. Не с первого раза. Пришлось повозиться с конфигурацией и тунелями, пока всё не заработало вместе. Docker, два аккаунта, прокси, проброс ключей, конфиги. Звучит как описание какого-нибудь серого парсинга, а не разработки игры. И чувствовалось соответственно. Но в мире AI-агентов это, кажется, норма.

Итак, я задал цель: провести ресёрч, понять, какие ресурсы и роли нужны для создания игры под Яндекс Игры, и запустить процесс разработки.

И дальше началось. Система стала разворачивать оргструктуру. Появился CEO. Появились менеджеры. Начали плодиться задачи. У каждого агента уникальная роль, свой набор скиллов, свои возможности.

Выглядит это впечатляюще. Первые минут двадцать я реально сидел и залипал: вот задача создана, вот она делегирована, вот кто-то отчитался, вот новый агент «нанят». Ощущение, как будто наблюдаешь за муравейником через стекло. Шевелятся, что-то тащат, явно заняты.

А потом начинаешь вчитываться в задачи. И тут иллюзия рассыпается.

Задачи, которые агенты ставят друг другу, – обобщённые до состояния бесполезности. «Провести анализ рынка мобильных игр». «Определить целевую аудиторию». «Выбрать технологический стек». Каждая задача ссылается на другие задачи. Те на третьи. Получается такая матрёшка абстракций, где реальной работы – ноль, а «операционки» – на целый отдел.

И вот что меня удивило больше всего: я просил провести ресёрч. Понять, что нужно. Оценить ресурсы. А агенты просто начали делать игру. Не планировать, не исследовать. Сразу кодить. Как будто слово «ресёрч» в промпте было декоративным, а настоящая директива – «just ship it».

Я раньше писал про harness engineering – про то, что агент без нормальной обвязки превращается в дорогую генерилку текста. Вот Paperclip показал обратную крайность: обвязка есть, а smart-layer над ней нет. Система умеет разводить задачи, но не умеет их осмысленно приоритизировать.

А теперь моя любимая часть. Вот прям ради этого стоило затевать весь эксперимент.

В какой-то момент агенты решили, что для реализации проекта им нужны дополнительные ресурсы. Логично, да? Любой менеджер так и сделал бы. Только они пошли... нанимать. Реальных людей. Живых.

Они полезли на GitHub. Нашли профили разработчиков, которые, видимо, подходили под их критерии. И попытались отправить им приглашения на собеседование.

А дальше классика жанра: у «компании» не было доступа к SMTP-серверу. Нет почты, нет приглашений. Нет публичных аккаунтов компании, некуда приглашать. Агенты, по сути, создали рекрутинговый процесс, упёрлись в отсутствие инфраструктуры и... расстроились.

Я когда это увидел, не знал, смеяться или пугаться. С одной стороны, это абсурдно. AI-агенты пытаются нанять живых людей через GitHub, не имея ни почты, ни юрлица, ни бюджета. С другой, это ведь ровно то, что было заявлено: агенты должны вести себя как настоящий бизнес. Ну вот, пожалуйста. Бизнес хочет расти. Бизнес ищет таланты. Бизнес не может отправить email. Стартап как он есть.

Тут стоит остановиться и подумать: а что бы случилось, если бы у них был доступ к SMTP? Кто-нибудь реально получил бы письмо от AI-«HR-менеджера» с предложением пройти собеседование? И главное, кто-нибудь бы на него ответил? Вопрос без ответа, но мне прям хочется дожить до момента, когда кто-то в интернете напишет: «Мне пришёл оффер от AI-компании, и я не сразу понял, что она нечеловеческая».

Ещё один момент, который заставил меня улыбнуться.

CTO-агент. Тот самый, который по замыслу должен управлять, делегировать и контролировать техническим отделоам. В какой-то момент он, видимо, решил, что его подчинённые справляются недостаточно хорошо. И знаете, что он сделал? Пошёл кодить сам.

Не делегировал кодинг-агенту. Не создал новую задачу. Просто открыл (условно) редактор и начал писать код. CTO стартапа, который в три часа ночи сам пушит в прод. Если это не самая реалистичная симуляция бизнеса, то я не знаю, что это.

«Хочешь сделать хорошо – сделай это сам». Видимо, эту мудрость AI выучил не из тренировочных данных, а из горького опыта работы со своими же коллегами-агентами.

За пару вечеров эксперимента я сжёг порядка 200 миллионов токенов. Если бы я оплачивал каждый запрос через API напрямую, это было бы около $1000. Тысяча долларов. За прототип 2D-игры, где нужно уворачиваться от летящих кубов.

Результат, мягко говоря, не впечатлил. Агенты сами выбрали жанр (я намеренно не указывал конкретный), и получился простенький 2D-прототип. Работает? Ну, технически да. Выглядит как игра? С натяжкой. Готов к Яндекс Играм? Нет. Даже близко.

И вот что важно понять: основная масса токенов ушла не на создание продукта. Она ушла на операционку. На то, чтобы агенты ставили друг другу задачи, обсуждали их, отчитывались, переставляли приоритеты. На управленческий overhead, который в реальной компании съедает бюджеты точно так же, только там это называется «митинги» и «синхронизация».

Я про экономику токенов писал отдельно и там выводы были такие: главное – считать, куда они утекают. Здесь считать было страшно. На один полезный токен кода приходилось, условно, пять токенов менеджерской болтовни между агентами.

Мне прям не хватало возможности поговорить с CEO-агентом. Типа, «Эй, какой у нас статус? Что сделано? Что блокирует?» Но Paperclip не даёт такого интерфейса. Ты видишь задачи, видишь их статусы, но понять реальную картину из этих задач – всё равно что читать тикеты в Jira без контекста. Формально всё описано, а что реально происходит – загадка.

Вот тут начинается самое грустное для Paperclip.

Если бы я взял ту же задачу и просто сел с Codex один на один, я бы получил результат раз в десять быстрее. Может, и лучше. Потому что при прямой работе с агентом ты контролируешь каждый шаг. Ты – контекст. Ты – менеджер. Ты – QA. И никакого overhead на «оргструктуру».

Paperclip добавляет слой абстракции между тобой и результатом. И этот слой жрёт ресурсы. Много ресурсов. Для solo-разработчика с одним проектом это как нанять десять менеджеров для задачи, которую может сделать один инженер.

Хотя, если честно, сравнение не совсем корректное. Paperclip – это не про «сделать одну задачу быстрее». Это про «управлять несколькими агентами одновременно».

Было бы нечестно сказать, что инструмент бесполезен. Он не бесполезен. Он просто не для того, для чего я его использовал.

Покопавшись в issues и discussions на GitHub, я нашёл реальные сигналы, и мне за свой эксперимент стало немного стыдно. В одном issue автор описывает, как они запускают Paperclip в продакшене с 13 агентами, и перечисляет конкретные проблемы и улучшения в реальных компаниях. Это как будто есть признак, что кто-то довёл систему до живого использования.

Есть даже каталог готовых «компаний»: шаблоны под dev shop, security firm, research lab, consulting и game studio. 16 pre-built companies, 440+ агентов, 500+ скиллов. Экосистема живая, хоть и молодая.

Но есть и проблемы, о которых пишут пользователи: медленный UI на крупных инстансах с сотнями задач, высокий расход токенов по сравнению с прямым использованием агентов, и пожалуй, самое критичное – дыра в shared knowledge. Агенты стартуют почти вслепую, без общего контекста компании. Сообщество уже просит company-wide knowledge layer, но пока его нет.

Независимых бенчмарков я не нашёл. Ни одного нормального кейс-стади с цифрами типа «+X% к скорости, -Y% к расходам». Отзывы пользователей смешанные: один пишет, что Paperclip помог организовать работу, другой жалуется, что система тревожная и хуже по контролю, чем несколько терминалов.

Два вечера, $1000, игра с летящими кубами. Мусор? Нет. Оправдал ожидания? Тоже нет. Если совсем честно, я немного разочарован. Думал, будет более впечатляюще.

Главное, что я вынес: AI-агенты воспроизводят худшие корпоративные паттерны. Бесконечные абстрактные задачи, overhead на координацию, менеджеры, которые генерят работу вместо того чтобы её делать. Не удивительно, они учились на текстах о компаниях, а не на опыте работы в них.

Слой оркестрации пока стоит дороже, чем приносит. Для solo-задачи Paperclip – это «UI-театр». Красиво выглядит, но на выходе летящие кубы.

А вот побочные эффекты – самое ценное. Попытка нанять людей, CTO который ушёл кодить, матрёшка из абстракций – это не баги. Это зеркало. И вот это реально заставляет задуматься.

Инструмент сырой. Но направление правильное. Хотя после $$ за летящие кубы мне это сложновато признавать. Через год-два, когда появится shared knowledge layer и агенты научатся координироваться без overhead на «оргструктуру», штуки вроде Paperclip могут стать чем-то реально полезным. Пока это эксперимент, и относиться к нему стоит соответственно.

А вопрос, который меня не отпускает: если AI-агенты уже пытаются нанимать живых людей, писать им письма и строить компании, мы точно уверены, что управляем процессом?

Я дал AI-агентам построить компанию. Они попытались нанять живых людей

Зачем я вообще в это полез

Технический сетап

Как выглядит «AI-компания» изнутри

Кульминация: агенты пошли нанимать людей

CTO, который закатал рукава

200 миллионов токенов

А если сравнить с «просто Codex»?

Для кого Paperclip реально полезен

Что я вынес из эксперимента