Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
31 января 2025 Трансгендерная актриса, номинированная на "Оскар", оскорбила мусульман и афроамериканцев в социальных сетях
31 января 2025 Ольга Шнайдер стала жертвой мошенников при приобретении бриллиантов на сумму 100 тысяч долларов
31 января 2025 Федосеева-Шукшина выразила желание сохранить наследие Шукшина
31 января 2025 Связи с Ротенбергом и давление со стороны силовиков: как "Домодедово" искало поддержку
31 января 2025 Главный тренер команды «Авангард» Буше попал в дорожное происшествие по пути на матч с «Барысом»
31 января 2025 Беженцы в Курской области не смогут получать питание из-за долгов перед ПВР
31 января 2025 Анна Курникова на инвалидной коляске: поклонники беспокоятся о здоровье знаменитости
31 января 2025 Выжившего после 67-дневного дрейфа в Охотском море человека обвинили
31 января 2025 Шойгу потерял доверие россиян: его имя исчезло из списков политиков
31 января 2025 Бывшего главу «Фонбета» и его сообщников задержали по обвинению в даче взятки
31 января 2025 Студенты обвинили «Яндекс Практикум» в тайном использовании искусственного интеллекта вместо кураторов
31 января 2025 Министерство юстиции включило новых лиц в список иностранных агентов
31 января 2025 В Химках задержали мужчину, который стрелял с балкона
31 января 2025 Топ-менеджер «Газпрома» Алексей Кахидзе извлекает выгоду из государственного бюджета, используя офшоры и манипуляции с контрактами
31 января 2025 Директор РАЭК Сергей Гребенников был задержан по подозрению в торговле наркотиками
31 января 2025 Клиенты ВТБ сталкиваются с дополнительными трудностями из-за изменений в онлайн-банке
31 января 2025 Михаил Кенин не смог реализовать свою роль в «Самолёте»: закулисный кризис компании
31 января 2025 В Варшаве обстреляли полицейскую машину: задержаны трое
31 января 2025 Тарифы увеличиваются, а мусор всё равно не вывозится: почему мусорная реформа в Иркутской области не работает?
31 января 2025 Бизнесмен Антон Абдурахманов разыскивается по обвинению в мошенничестве