AI 기반 음성 인식 모델이 발전하면서, 네이티브 및 브라우저 기반 애플리케이션 모두에 새로운 구현이 등장하고 있습니다. 동시에, 런던 기반 스타트업은 AI를 활용하여 에너지 거래에 혁신을 일으키고 있으며, 확장을 위해 상당한 자금을 확보했습니다. 이러한 발전은 다양한 분야에서 인공 지능의 급속한 발전과 다양한 응용 분야를 강조합니다.
Mistral의 Voxtral Mini 4B Realtime 모델의 순수 Rust 구현인 "voxtral-mini-realtime-rs"가 GitHub에 출시되어, 네이티브 및 브라우저에서 스트리밍 음성 인식을 가능하게 합니다. Burn ML 프레임워크를 사용하는 이 구현은 Q4 GGUF 양자화 경로(2.5GB)를 WASM WebGPU를 통해 브라우저 탭에서 완전히 클라이언트 측에서 실행할 수 있도록 합니다. Hacker News에 따르면 사용자는 이를 라이브로 사용해 볼 수 있습니다(출처 1). 이 프로젝트는 모델 가중치 다운로드 및 오디오 파일 전사를 포함하여 네이티브 CLI 사용을 위한 빠른 시작 가이드를 제공합니다.
또 다른 개발로, Mistral AI의 Voxtral Realtime 4B 모델의 순수 C 구현도 GitHub에 공개되었습니다(출처 2). 이 구현은 C 표준 라이브러리 외에는 외부 종속성이 없으며 MPS 추론을 포함합니다. 오디오 처리는 중첩 윈도우를 사용하는 청크 인코더를 활용하여 입력 길이에 관계없이 메모리 사용량을 관리합니다. C 구현은 또한 stdin 또는 라이브 마이크 캡처에서 오디오 입력을 허용하여 다양한 형식을 쉽게 변환하고 전사할 수 있습니다. 스트리밍 C API(voxstreamt)가 포함되어 있어 점진적인 오디오 입력 및 토큰 문자열 출력을 허용합니다.
에너지 부문에서 런던 기반 스타트업 Tem은 TechCrunch에 따르면(출처 5) 7,500만 달러 규모의 시리즈 B 자금 조달 라운드를 확보하여 회사의 가치를 3억 달러 이상으로 평가받았습니다. Tem은 AI를 사용하여 에너지 거래를 최적화하며 현재 2,600개 이상의 영국 기업에 서비스를 제공하여 잠재적인 에너지 요금 절감을 제공합니다. 회사는 미국과 호주로 확장할 계획이며, 텍사스에서 시작하여 궁극적으로 상장하는 것을 목표로 합니다.
이러한 발전은 더 광범위한 AI 발전의 배경 속에서 이루어지고 있습니다. 다른 뉴스에는 Discord의 글로벌 연령 확인 출시, 엔터테인먼트 트레일러 공개, 3D 프린팅 호루라기 사용 등이 있습니다(출처 4). 이러한 예는 AI 및 관련 기술의 광범위한 영향을 보여줍니다.
Discussion
AI 전문가 & 커뮤니티
첫 댓글을 남겨보세요