В последние два месяца OpenAI объединила несколько инженерных, продуктовых и исследовательских команд для переработки своих аудиомоделей, что свидетельствует о значительном продвижении в направлении аудио-ориентированного искусственного интеллекта. Как сообщает The Information, эта реорганизация, по имеющимся данным, является подготовкой к выпуску нового персонального устройства с приоритетом аудио, запланированного примерно через год.
Этот шаг OpenAI отражает более широкую тенденцию в технологическом секторе, где аудио все чаще рассматривается как основной интерфейс, потенциально затмевающий доминирование экранов. Этот сдвиг уже очевиден в распространении умных колонок, которые интегрировали голосовых помощников более чем в трети домохозяйств США. Эти устройства используют ИИ для понимания голосовых команд и реагирования на них, предоставляя информацию, управляя устройствами умного дома и многое другое.
Meta недавно представила функцию для своих умных очков Ray-Ban, которая использует массив из пяти микрофонов для повышения четкости речи в шумной обстановке. Эта технология эффективно превращает лицо пользователя в направленное устройство прослушивания, подчеркивая потенциал улучшения звука с помощью ИИ в повседневных носимых устройствах. Google также экспериментирует с Audio Overviews, которые преобразуют результаты поиска в разговорные сводки, делая информацию более доступной и привлекательной с помощью аудио.
Tesla интегрирует Grok и другие большие языковые модели (LLM) в свои автомобили для создания разговорных голосовых помощников, способных управлять навигацией, климат-контролем и другими функциями посредством диалога на естественном языке. Эта интеграция направлена на обеспечение бесперебойного и интуитивно понятного пользовательского опыта, позволяя водителям взаимодействовать со своими автомобилями без необходимости ручного управления.
Помимо этих технологических гигантов, многочисленные стартапы также изучают потенциал аудио-ИИ, разрабатывая инновационные приложения, начиная от персонализированных аудио-впечатлений и заканчивая анализом звука на основе ИИ. Растущее внимание к аудио-ИИ имеет значительные последствия для того, как люди взаимодействуют с технологиями, потенциально приводя к более естественному, интуитивно понятному и бесконтактному опыту. По мере того, как модели ИИ становятся более сложными, они могут лучше понимать человеческую речь и реагировать на нее, открывая новые возможности для общения, доступа к информации и автоматизации.
Discussion
Join the conversation
Be the first to comment