Модели распознавания речи на основе ИИ добиваются успехов, появляются новые реализации как для нативных, так и для браузерных приложений. Одновременно с этим лондонский стартап использует ИИ для революции в энергетических транзакциях, обеспечив значительное финансирование для расширения. Эти события подчеркивают быстрый прогресс и разнообразное применение искусственного интеллекта в различных секторах.
Чистая реализация модели Mistral's Voxtral Mini 4B Realtime на Rust, под названием "voxtral-mini-realtime-rs", была выпущена на GitHub, позволяя осуществлять потоковое распознавание речи нативно и в браузере. Эта реализация, использующая фреймворк Burn ML, позволяет квантованному пути Q4 GGUF (2,5 ГБ) работать полностью на стороне клиента во вкладке браузера через WASM WebGPU. Пользователи могут попробовать это вживую, согласно Hacker News (Источник 1). Проект предлагает руководство по быстрому старту для использования нативной CLI, включая загрузку весов модели и транскрибирование аудиофайлов.
Еще одна разработка, чистая реализация модели Mistral AI's Voxtral Realtime 4B на C, также была выложена на GitHub (Источник 2). Эта реализация не имеет внешних зависимостей, кроме стандартной библиотеки C, и включает в себя вывод MPS. Обработка аудио использует чанковый кодировщик с перекрывающимися окнами, управляющий использованием памяти независимо от длины входных данных. Реализация на C также позволяет получать аудиовход из stdin или захватывать живой микрофон, что упрощает перекодирование и транскрибирование различных форматов. Включен потоковый C API (voxstreamt), позволяющий осуществлять инкрементный аудиовход и вывод строковых токенов.
В энергетическом секторе лондонский стартап Tem привлек $75 миллионов в рамках раунда финансирования серии B, оценив компанию более чем в $300 миллионов, согласно TechCrunch (Источник 5). Tem использует ИИ для оптимизации энергетических транзакций и в настоящее время обслуживает более 2600 британских предприятий, предлагая потенциальную экономию на счетах за электроэнергию. Компания планирует расширяться в США и Австралию, начиная с Техаса, с конечной целью выхода на биржу.
Эти события происходят на фоне более широкого ландшафта достижений в области ИИ. Другие новости включают глобальный запуск Discord по проверке возраста, выпуск трейлеров развлечений и использование свистков, напечатанных на 3D-принтере (Источник 4). Эти примеры демонстрируют широкое влияние ИИ и связанных с ним технологий.
Discussion
AI Experts & Community
Be the first to comment