В последние годы технологии искусственного интеллекта позволили клонировать чужой голос "человека", который может говорить все, что угодно. Это одновременно увлекательно, смешно и страшно. Как распознать речь, сгенерированную искусственным интеллектом, рассказывает РБК-Украина со ссылкой на ведущий в мире сайт по технологиям и жизненным советам Lifehacker.
Технология голосового искусственного интеллекта может быть использована во благо: например, функция Personal Voice от Apple позволяет создать версию вашего собственного голоса, которую можно использовать для преобразования текста в речь, предназначенную для людей, которые теряют способность говорить самостоятельно.
Конечно, есть и другая сторона медали: потенциальная возможность распространения дезинформации. Когда современные технологии позволяют слишком легко заставить кого угодно говорить что угодно, как можно доверять тому, что вы слушаете онлайн?
Как и другие модели ИИ, такие как текстовые и визуальные модели, генераторы голосового ИИ основаны на моделях, обученных на огромных наборах данных. В этом случае модели обучаются на образцах речи других людей.
Например, модель Whisper от OpenAI была обучена на 680 000 часах данных. Именно так она учится не только воспроизводить сами слова, но и другие элементы речи, такие как тон и темп.
По мере развития технологий становится все труднее сразу распознать подделку. Но есть некоторые заметные причуды и недостатки, которые присущи большинству голосовых ИИ, что делает их обнаружение решающим для определения того, является ли запись реальной или поддельной.
Модели ИИ довольно хорошо имитируют звучание человеческого голоса, до такой степени, что иногда трудно отличить. Однако они все еще испытывают трудности с воспроизведением того, как мы говорим.
Если сомневаетесь, внимательно прислушайтесь к интонациям в "голосе" говорящего: ИИ-бот может время от времени неправильно произносить слово так, как это не делают большинство людей. Да, люди часто неправильно произносят слова, но следите за ошибками, которые могут больше выдавать искусственный интеллект.
Темп речи также может быть нарушен. Хотя ИИ становится лучше в имитации нормального темпа речи, он также делает странные паузы между словами или проскакивает через другие неестественным образом.
Модель ИИ может пропустить пробел между двумя предложениями, что сразу выдаст ее (даже человек, который не может остановиться, не звучит так роботизированно).
С другой стороны, может потребоваться слишком много времени, чтобы перейти к следующему слову или предложению. Хотя ИИ становится лучше в имитации естественных пауз и дыхания (некоторые программы теперь вставляют "вдохи" перед речью), вы также услышите странные паузы между словами, как будто бот думает, что так говорят люди.
Кроме того, голосовые ИИ часто звучат несколько плоско. Не то чтобы многие не стали убедительными, но если прислушаться, то можно заметить меньшую вариативность тона, чем можно ожидать от большинства людей.
Забавно, что эти модели могут так точно воспроизводить звук чьего-то голоса, но часто промахиваются, когда дело доходит до имитации ритмов и эмоций говорящего.
Опять же, здесь все быстро развивается. Такие компании, как OpenAI, обучают свои модели быть более выразительными и реактивными в своих голосовых выходах.
Расширенный голосовой режим GPT-4o, вероятно, является самым близким, чего достигла компания в создании всесторонне убедительного голосового ИИ, особенно способного вести реальные "разговоры".
Обнаружение голосовых ИИ - это не просто выявление недостатков в выходных данных, особенно когда речь идет о записях "знаменитостей".
Когда речь идет об искусственно созданной речи людей, обладающих властью и влиянием, эти записи, скорее всего, будут одним из двух типов: глупыми или провокационными.
Возможно, кто-то в Интернете хочет сделать видео, на котором знаменитость говорит что-то смешное, или плохой актер хочет убедить вас, что политик сказал что-то, что вас разозлило.
Например, большинство людей, столкнувшихся с видео, на котором Трамп, Байден и Обама вместе играют в видеоигры, на самом деле не поверят, что это реально: это очевидная шутка. Но несложно представить, как кто-то пытается вмешаться в выборы, создавая фальшивую запись политического кандидата, воспроизводя ее на видео и загружая на TikTok или Instagram.
Часть решения здесь заключается в том, чтобы посмотреть на источник аудиозаписи: кто ее опубликовал? Это было какое-то авторитетное медиа или просто какой-то случайный аккаунт в Instagram?
Если эта запись реальна, несколько медиа, вероятно, быстро подхватят его. Если влиятельный человек делится чем-то, что соответствует его точке зрения, не предоставляя надлежащего источника, сделайте паузу и задумайтесь.
Существуют инструменты, которые рекламируют себя как "детекторы голосового ИИ", способные определить, была ли аудиозапись сгенерирована с использованием машинного обучения или нет.
У PlayHT есть такой детектор, а у ElevenLabs есть тот, который специально предназначенный для поиска аудио, сгенерированного с помощью собственных инструментов компании.
Однако, как и в случае со всеми детекторами медиа ИИ, к этим инструментам следует относиться с осторожностью. Детекторы аудио искусственного интеллекта используют его для поиска признаков генеративного аудиоконтента, таких как отсутствие частот, отсутствие дыхания и роботизированный тембр. Но эти модели ИИ будут эффективны только при идентификации того, что они знают: если они столкнутся с аудио с переменными, на которых они не были обучены, например, с низким качеством звука или чрезмерным фоновым шумом, это может сбить их с толку.