kira/backend at 7502f201c703a0438c7e511854bc2f455708e93c - kira

Files

T

hobokenchicken 7502f201c7 feat: Realtime WebSocket STT via gpt-realtime-whisper

Replaces REST-based transcription (gpt-4o-transcribe) with WebSocket
streaming via gpt-realtime-whisper. Frontend captures PCM16 audio and
streams it through the backend to a Realtime transcription session.

- Server-side VAD detects utterance boundaries automatically
- Word-level transcript deltas stream to the client in real-time
- On utterance end, gpt-5.4-nano generates a response
- TTS streams back via with_streaming_response
- Total pipeline: PCM16 → Realtime WS → LLM → streaming TTS

2026-06-04 14:26:19 -04:00

models

…

routers

…

services

feat: Realtime WebSocket STT via gpt-realtime-whisper

2026-06-04 14:26:19 -04:00

__init__.py

…

config.py

…

Dockerfile

…

main.py

feat: Realtime WebSocket STT via gpt-realtime-whisper

2026-06-04 14:26:19 -04:00

requirements.txt

…