Похоже, искусственный интеллект оказался настолько прожорливым, что успел «проглотить» практически все данные, доступные человечеству. И это не шутка! Как заявил Илон Маск во время недавней беседы с Марком Пенном на платформе X, мы достигли переломного момента в истории развития ИИ.
«В прошлом году произошло нечто невероятное – мы практически исчерпали все накопленные человечеством знания для обучения искусственного интеллекта», – заявил основатель xAI. И он здесь не одинок в своём мнении. Илья Суцкевер, бывший главный научный сотрудник OpenAI, ещё в декабре говорил о достижении так называемого «пика данных».
Но что же делать дальше? Маск видит решение в синтетических данных – информации, которую будет создавать сам ИИ. «Представьте себе ИИ, который сам себе учитель – он создаёт данные для обучения и сам же на них учится», – объясняет предприниматель. Звучит как сюжет научно-фантастического фильма, правда?
Интересно, что технологические гиганты уже вовсю экспериментируют с этим подходом. Microsoft, Meta, OpenAI и Anthropic активно используют синтетические данные для обучения своих моделей. По прогнозам Gartner, в 2024 году около 60% всех данных для проектов ИИ будут созданы искусственно.
Возьмём, например, недавние разработки:
- Microsoft Phi-4 – использует комбинацию реальных и синтетических данных
- Google Gemma – тоже построена на смешанном наборе данных
- Claude 3.5 Sonnet от Anthropic – частично обучен на синтетических данных
- Последние модели Llama от Meta – активно используют ИИ-генерированные данные
А вот что действительно впечатляет – экономическая сторона вопроса. Стартап Writer утверждает, что их модель Palmyra X 004, обученная практически полностью на синтетических данных, обошлась всего в 700 000 долларов. Для сравнения: аналогичная модель от OpenAI стоила бы около 4,6 миллиона долларов. Неплохая экономия, не правда ли?
Однако не всё так радужно. Исследования показывают, что использование синтетических данных может привести к «коллапсу модели» – состоянию, когда ИИ становится менее креативным и более предвзятым. Это как замкнутый круг: если исходные данные содержат предубеждения, то и созданные на их основе синтетические данные будут нести те же проблемы.
Получается интересная ситуация: мы создали ИИ настолько умный, что он «съел» все доступные данные, и теперь нам нужно научить его готовить себе «еду» самостоятельно. Но сможет ли искусственный интеллект стать достойным шеф-поваром собственного развития? Время покажет.
А что вы думаете о будущем обучения ИИ? Поделитесь своим мнением в комментариях! 👇