OpenToken — LLM cost infrastructure

Googlegoogle/gemini-3-flash

Modality: text, vision
Input: $0.50/1M
Output: $3.00/1M
Context: 1,000K
Cache read: $0.05/1M
Cache write: $0.50/1M

Fast, low-cost Gemini 3 model for high-volume, latency-sensitive agent traffic.

google/gemini-3-flash 는 OpenToken 의 OpenAI 호환 게이트웨이를 통해 단일 API 키로 호출됩니다. 모델 ID 만 바꿔서 라우팅할 수 있으며, 요청과 응답은 정규화된 동일한 스키마로 처리됩니다.

주요 기능

채팅·텍스트 생성 — /v1/chat/completions 엔드포인트
실시간 스트리밍(SSE) 응답
OpenAI 호환 도구 호출(tool calling) 및 JSON 응답
이미지 입력(비전) 지원
프롬프트 캐싱(explicit) — 반복 프리픽스 입력 비용 절감
1M 토큰 컨텍스트 윈도