インストーラーを実行するだけ。難しい設定は一切不要です。
インストーラーを実行して起動するだけ。初回起動時にセットアップガイドが自動で表示されます。
ポップアップの案内に沿って、AIモデルのダウンロードと使用するモデルの指定、Windows 起動時の自動起動の設定を行います。
入力したい場所にカーソルを置いてホットキーを押しながら話すだけ。離した瞬間にテキストが入力されます。
Ctrl + Space
声を使うすべての場面をカバーする、6つの機能。
ブラウザ、テキストエディタ、Slack、メモ帳、ゲームチャット…クリップボード経由でどんなアプリにもテキストを流し込みます。専用アプリ不要。
Kotoba-Whisper は HuggingFace で最高評価を獲得した日本語特化モデル。句読点・読点も自然に出力。GPU 加速で一瞬の認識。
認識後のテキストを自動で別の文字列に置き換えます。誤変換されやすい語句や固有名詞の表記統一に。正規表現にも対応。
デフォルトは Ctrl+Space ですが、設定画面で任意のキーに変更可能。クリックしてキーを押すだけのシンプル操作。
音声認識はすべてローカル処理。音声データはインターネットに一切送信されません。
ZIP版はフォルダを丸ごとコピーするだけで動作。設定ファイルはアプリフォルダ内に保存され、環境を汚しません。
日本語特化・句読点・読点を自然に出力。VRAM に余裕がある GPU 環境での第一選択。
v2.1 の精度を維持しつつ VRAM 消費を半減。低スペック GPU やメモリ節約したい場合に。
最小サイズで動作。CPU 専用環境や低スペック PC での速度を重視する場合に。
OpenAI 公式の多言語モデル。日本語以外の言語も認識したい場合に。ハイエンド GPU 推奨。
※ CTranslate2 形式のカスタムモデルも「フォルダを選択」から追加可能
リアルタイム音声入力ソフトウェアとして Kotoba-Whisper に対応しているのは、現状 KotobaWhisperIME のみ。(文字起こし専用ソフトを除く)
CTranslate2 ベースの量子化推論により、通常の Whisper より大幅に高速。メモリ使用量も大幅削減。
cublas64_12.dll 等の必要な CUDA DLL をすべて同梱。追加環境構築不要でそのまま GPU 動作。
録音中以外はマイクを一切使用しません。プライバシーに配慮した最小限のアクセス設計。
音声データは一切外部に送信されません。ネットワーク接続がない環境でも問題なく動作します。
どんなアプリでも Ctrl+V 貼り付けで動作。テキストフィールドを持つすべてのソフトに対応。
*1 著者調べ(2026/03)
初回起動後、モデル管理画面からモデルをダウンロードしてください。GPU 環境には v2.1 FP32(約3GB)、CPU のみの環境には v2.1 FP16(約1.5GB)がおすすめです。