AIを活用した音声認識モデルが進化を遂げており、ネイティブアプリケーションとブラウザベースアプリケーションの両方で新たな実装が登場しています。同時に、ロンドンに拠点を置くスタートアップ企業がAIを活用してエネルギー取引に革命を起こしており、事業拡大のための多額の資金を調達しています。これらの進展は、様々な分野における人工知能の急速な進歩と多様な応用を浮き彫りにしています。
MistralのVoxtral Mini 4B Realtimeモデルの純粋なRust実装である「voxtral-mini-realtime-rs」がGitHubで公開され、ネイティブおよびブラウザ内でストリーミング音声認識が可能になりました。この実装は、Burn MLフレームワークを使用しており、Q4 GGUF量子化パス(2.5 GB)をWASM WebGPU経由でブラウザタブ内で完全にクライアントサイドで実行できます。Hacker Newsによると、ユーザーはこれをライブで試すことができます(Source 1)。このプロジェクトは、モデルの重みのダウンロードや音声ファイルの書き起こしなど、ネイティブCLIの使用に関するクイックスタートガイドを提供しています。
別の開発として、Mistral AIのVoxtral Realtime 4Bモデルの純粋なC実装もGitHubで公開されました(Source 2)。この実装は、C標準ライブラリ以外の外部依存関係を一切持たず、MPS推論を含んでいます。音声処理は、重複するウィンドウを持つチャンクエンコーダーを利用し、入力の長さに関係なくメモリ使用量を管理します。C実装では、stdinからの音声入力やライブマイクキャプチャも可能で、様々な形式の変換と書き起こしが容易になります。ストリーミングC API(voxstreamt)が含まれており、段階的な音声入力とトークン文字列の出力が可能です。
エネルギー分野では、ロンドンに拠点を置くスタートアップ企業Temが、TechCrunchによると(Source 5)、7,500万ドルのシリーズB資金調達ラウンドを完了し、同社の評価額は3億ドルを超えました。TemはAIを使用してエネルギー取引を最適化しており、現在2,600社以上の英国企業にサービスを提供し、エネルギー料金の削減の可能性を提供しています。同社は、テキサス州を皮切りに、米国とオーストラリアへの事業拡大を計画しており、最終的には株式公開を目指しています。
これらの進展は、AIの広範な進歩の中で起こっています。その他のニュースには、Discordのグローバル年齢確認の展開、エンターテイメントトレーラーの公開、3Dプリントされた笛の使用などがあります(Source 4)。これらの例は、AIおよび関連技術の広範囲にわたる影響を示しています。
Discussion
AI Experts & Community
Be the first to comment