🎤 Як користуватися Whisper від OpenAI: повний гайд з розпізнавання мовлення і транскрипції

🎤 Open-Source ASR · MIT Ліцензія

Whisper — найточніше open-source розпізнавання мовлення

Транскрипція аудіо · Переклад мовлення · 99+ мов · Безкоштовно і без передачі даних
Навчений на 680 000 годин аудіо · Точність наближається до людської

99+Мов

680KГод. аудіо

~3.2%WER (V4)

MITЛіцензія

$0Локально

🎤 Whisper від OpenAI — це революційна система автоматичного розпізнавання мовлення (ASR) випущена у вересні 2022 року і розповсюджена з відкритим вихідним кодом під ліцензією MIT. Навчений на 680 000 годинах різноманітного аудіо зі всього інтернету, Whisper вміє транскрибувати мовлення 99+ мовами, автоматично перекладати на англійську і визначати мову без додаткових налаштувань. Головна перевага — він працює повністю локально на вашому комп’ютері, не передаючи дані на сервер, і при цьому безкоштовний. У цьому гайді — все від no-code рішень до API і локальної установки.

📋 Зміст статті

Що таке Whisper і чим він відрізняється
3 способи використання: без коду, API, локально
Без коду: no-code застосунки на базі Whisper
Через OpenAI API: два рядки коду
Локальна установка Whisper
Розміри моделей: від Tiny до Large
Основні команди і параметри
Python інтеграція для розробників
Формати виводу: TXT, SRT, VTT, JSON
GPT-4o Transcribe: наступник Whisper
Для чого використовувати Whisper
Whisper vs конкуренти
Поради та лайфхаки
Часті запитання

🎯 Що таке Whisper і чим він відрізняється

Whisper — це Automatic Speech Recognition (ASR) модель від OpenAI побудована на архітектурі encoder-decoder Transformer. На відміну від комерційних сервісів транскрипції (Google Speech, Amazon Transcribe, Microsoft Azure), Whisper є повністю відкритим вихідним кодом під ліцензією MIT — тобто безкоштовним для будь-якого використання включаючи комерційне.

Ключова особливість Whisper — це навчання на масивному і різноманітному датасеті. 680 000 годин аудіо зібраних з інтернету включали різні акценти, фонові шуми, технічний жаргон і множинні мови. Результат — модель що чудово справляється з реальними умовами запису де спеціалізовані системи часто помиляються.

Станом на 2025 рік Whisper V4 досягає приблизно 3.2% Word Error Rate (WER) на англійській мові — це наближається до людської точності (4–5% WER для досвідчених транскрибістів). Для порівняння, ранні версії ASR систем мали WER 15–25%.

🌍

99+ мовТранскрипція українською, англійською, іспанською, японською і десятками інших

🔒

ПриватністьЛокальна робота — ваше аудіо не покидає комп’ютер, ідеально для конфіденційних записів

🌐

ПерекладАвтоматичний переклад мовлення будь-якої мови на англійську в один крок

🔊

ШумостійкістьДобре справляється з фоновим шумом, акцентами і нечіткою вимовою

⏱️

ТаймкодиПословна і посекундна прив’язка до часу — ідеально для субтитрів і пошуку у записах

💰

БезкоштовноMIT ліцензія — безкоштовно для особистого і комерційного використання локально

🆕

У березні 2025 року OpenAI випустила gpt-4o-transcribe і gpt-4o-mini-transcribe — нові моделі транскрипції з нижчим рівнем помилок ніж Whisper. Вони доступні лише через API. Для більшості завдань OpenAI тепер рекомендує gpt-4o-mini-transcribe замість whisper-1. Проте Whisper залишається кращим вибором для локального запуску без передачі даних.

🗺️ 3 способи використання: без коду, API, локально

Whisper підходить для дуже різних користувачів — від нетехнічних людей до розробників. Ось три основні шляхи залежно від вашого рівня і задач:

Рекомендовано

🖱️

1. Без коду (No-Code) Готові застосунки з графічним інтерфейсом на базі Whisper. Завантажте аудіо — отримайте текст. MacWhisper, Whisper Web, Descript та інші. ✅ Для всіх · Не потрібні технічні знання

Для devs

🔌

2. OpenAI API Хмарний API від OpenAI — whisper-1 або gpt-4o-transcribe. Без установки, платно за хвилину ($0.006/хв), аудіо передається на сервери OpenAI. 🔌 Для розробників · Швидка інтеграція

Максим. контроль

💻

3. Локальна установка Запуск Whisper на вашому комп’ютері через Python і pip. Безкоштовно, без ліміту, повна конфіденційність. Потрібен Python і базові знання командного рядка. 🔒 Максимальна приватність · Безкоштовно

🖱️ Без коду: no-code застосунки на базі Whisper

Якщо вам не потрібно писати код — скористайтесь готовими застосунками що використовують Whisper під капотом і мають зручний графічний інтерфейс:

🍎

MacWhisper macOS застосунок. Перетягніть аудіо або відео → отримайте транскрипцію. Підтримує всі моделі Whisper, пакетну обробку, SRT субтитри. Freemium

🌐

Whisper Web Безкоштовний браузерний застосунок (huggingface.co/spaces/Xenova/whisper-web). Запускає Whisper прямо у браузері — без серверів, без установки. Безкоштовно

🎬

Descript Відеоредактор з транскрипцією на базі Whisper. Редагуйте відео редагуючи текст — видаліть слово і відео обрізається автоматично. Freemium · $24/міс

🤝

Otter.ai Транскрипція мітингів у реальному часі, розпізнавання дикторів, автоматичне резюме. Інтегрується з Zoom, Teams, Google Meet. Freemium · $17/міс

📝

Whisper Transcription (iOS) Мобільний застосунок для iPhone. Запис або імпорт аудіо → транскрипція офлайн на пристрої. Приватність і без інтернету. $7.99 одноразово

🖥️

Whisper Desktop (Windows) Безкоштовний Windows-застосунок з GUI. Підтримує мікрофон у реальному часі і файли. Базується на whisper.cpp для швидкої роботи. Безкоштовно

🌐

Whisper Web — спробуйте прямо у браузеріБезкоштовно · Без реєстрації · Whisper Large у вашому браузері · Локальна обробка

🍎

MacWhisper — найзручніший macOS-клієнтБезкоштовна базова версія · Pro від $29 · Пакетна обробка · SRT субтитри

🔌 Через OpenAI API: два рядки коду

Якщо ви розробник і хочете інтегрувати транскрипцію у власний застосунок — OpenAI надає хмарний API. Це найпростіший спосіб почати без локальної установки. Вартість: $0.006 за хвилину аудіо для whisper-1.

# Встановлення
pip install openai

# Транскрипція аудіо — мінімальний приклад
from openai import OpenAI
client = OpenAI(api_key=“your-api-key”)

with open(“audio.mp3”, “rb”) as audio_file:
    transcript = client.audio.transcriptions.create(
        model=“whisper-1”,
        file=audio_file,
        language=“uk”, # uk для української
        response_format=“text”
    )
print(transcript)

# З субтитрами SRT і підказкою для технічних термінів
with open(“meeting.mp3”, “rb”) as f:
    result = client.audio.transcriptions.create(
        model=“whisper-1”,
        file=f,
        response_format=“srt”, # субтитри одразу
        prompt=“AI Explorer, ChatGPT, Anthropic, Cursor AI” # підказка термінів
    )
print(result) # готовий SRT файл

⚠️

OpenAI API має обмеження 25 MB на розмір файлу. Для більших файлів розбивайте їх на частини. Також пам’ятайте: аудіо передається на сервери OpenAI — якщо це конфіденційні записи, використовуйте локальну установку.

🔑

platform.openai.com/api-keys — отримати API ключРеєстрація безкоштовна · $0.006/хв для whisper-1 · Перші $5 — безкоштовно

💻 Локальна установка Whisper

Локальна установка — найкращий вибір для конфіденційних даних, великих обсягів і регулярного використання без хмарних витрат. Потрібен Python 3.8+ і pip.

Встановіть Python

Якщо Python ще не встановлений — завантажте з python.org (версія 3.8 або новіша). Перевірте: python --version

Встановіть ffmpeg

Whisper потребує ffmpeg для обробки аудіо. macOS: brew install ffmpeg. Windows: завантажте з ffmpeg.org і додайте до PATH. Ubuntu: sudo apt install ffmpeg

Встановіть Whisper через pip

Відкрийте термінал і виконайте: pip install openai-whisper. Встановлення займає кілька хвилин.

Перша транскрипція

Виконайте: whisper audio.mp3 --language uk. Whisper автоматично завантажить потрібну модель (перший раз — займе кілька хвилин залежно від розміру).

Перегляньте результати

У тій самій папці з’являться файли: audio.txt, audio.srt, audio.vtt, audio.tsv, audio.json — всі формати одразу.

# Базова транскрипція українською
whisper audio.mp3 –language uk

# Велика модель для максимальної точності
whisper audio.mp3 –model large-v3 –language uk

# Тільки SRT субтитри, без інших форматів
whisper video.mp4 –output_format srt –language uk

# Переклад будь-якої мови на англійську
whisper ukrainian_speech.mp3 –task translate

# Пакетна обробка кількох файлів
whisper *.mp3 –model medium –language uk –output_dir ./transcripts

⚡

Для значно швидшої роботи без GPU — встановіть faster-whisper: pip install faster-whisper. Це оптимізована реалізація яка працює в 2–4 рази швидше оригінального Whisper з тією самою точністю завдяки квантизації CTranslate2.

📊 Розміри моделей: від Tiny до Large

Whisper доступний у кількох розмірах — більша модель означає вищу точність але потребує більше пам’яті і часу. Обирайте залежно від потужності комп’ютера і вимог до точності:

⚡

Tiny

39M параметрів · 1 GB RAM

Найшвидша

Для швидких чернеток, слабких пристроїв, реального часу

🚀

Base

74M параметрів · 1 GB RAM

Дуже швидка

Хороший баланс для більшості повсякденних задач

⚖️

Small

244M параметрів · 2 GB RAM

Швидка

Рекомендована для якісної транскрипції без GPU

🎯

Medium

769M параметрів · 5 GB RAM

Середня

Висока точність для складного аудіо і рідкісних мов

💎

Large-V3

1550M параметрів · 10 GB RAM

Повільна (GPU)

Найвища точність. Потребує GPU для прийнятної швидкості

Модель	Розмір	Швидкість (CPU)	Точність	Ідеально для
⚡ Tiny	39M	~10x реального часу	Базова	Чернетки, слабкі пристрої
🚀 Base	74M	~7x	Добра	Щоденне використання
⚖️ Small	244M	~4x	Висока	✅ Рекомендовано (баланс)
🎯 Medium	769M	~2x	Дуже висока	Складне аудіо, акценти
💎 Large-V3	1550M	~0.5x (потрібен GPU)	Максимальна	Профі, GPU є

💡

Для більшості користувачів модель Small — оптимальний вибір: висока точність, прийнятна швидкість навіть без GPU і помірні вимоги до пам’яті (2 GB RAM). Якщо є GPU — беріть Large-V3 для максимальної точності.

⌨️ Основні команди і параметри

🌍

–languageВкажіть мову: uk (українська), en (англ.), de, fr. Без цього — автовизначення

🤖

–modelРозмір моделі: tiny, base, small, medium, large-v3. За замовчуванням — small

🔄

–tasktranscribe (транскрипція) або translate (переклад на англійську)

📄

–output_formattxt, srt, vtt, tsv, json або all (всі одразу)

📁

–output_dirПапка для збереження результатів. За замовчуванням — поточна папка

💡

–initial_promptПідказка для покращення розпізнавання термінів: назви, імена, жаргон

# Повний приклад з усіма параметрами
whisper interview.mp4 \
  –model medium \
  –language uk \
  –task transcribe \
  –output_format srt \
  –output_dir ./subtitles \
  –initial_prompt “Інтерв’ю про AI технології, Anthropic, ChatGPT”

🐍 Python інтеграція для розробників

Для інтеграції Whisper у Python-застосунки можна використовувати бібліотеку напряму без командного рядка:

import whisper

# Завантаження моделі (кешується після першого завантаження)
model = whisper.load_model(“small”)

# Транскрипція файлу
result = model.transcribe(
    “audio.mp3”,
    language=“uk”,
    task=“transcribe”
)

# Повний текст
print(result[“text”])

# Сегменти з таймкодами
for segment in result[“segments”]:
    print(f“{segment[‘start’]:.1f}s → {segment[‘end’]:.1f}s: {segment[‘text’]}”)

# faster-whisper — для продакшн і швидкого CPU-inference
from faster_whisper import WhisperModel

model = WhisperModel(“small”, device=“cpu”, compute_type=“int8”)
segments, info = model.transcribe(“audio.mp3”, language=“uk”)

for segment in segments:
print(f“[{segment.start:.2f}s] {segment.text}”)

📄 Формати виводу: TXT, SRT, VTT, JSON

Whisper автоматично генерує результати у кількох форматах одночасно. Кожен підходить для різних задач:

.txt

📝 Plain Text

Чистий текст без таймкодів. Ідеально для статей, нотаток, пошуку у тексті

.srt

🎬 SubRip

Стандартний формат субтитрів. Підтримується VLC, YouTube, Adobe Premiere, DaVinci Resolve

.vtt

🌐 WebVTT

Субтитри для вебу. Використовуйте у HTML5 відео тегах і стрімінгових платформах

.tsv

📊 Таблиця

Таблиця: початок/кінець/текст. Відкривайте в Excel або Google Sheets для аналізу

.json

🔧 JSON

Повні дані: текст, таймкоди, ймовірності, мова. Для програмної обробки і API

all

📦 Всі формати

–output_format all генерує всі п’ять форматів одночасно. Зручно для першого разу

🆕 GPT-4o Transcribe: наступник Whisper

У березні 2025 року OpenAI випустила нові моделі транскрипції що перевершують Whisper за точністю — gpt-4o-transcribe і gpt-4o-mini-transcribe. Вони доступні тільки через API і не є відкритим кодом.

Модель	WER (точність)	Ціна	Open-source	Ідеально для
🎤 whisper-1 (API)	~5.2% WER	$0.006/хв	❌ API	Існуючі інтеграції
⚡ gpt-4o-mini-transcribe	~3.6% WER	~$0.003/хв	❌ API only	✅ Нові API проєкти
💎 gpt-4o-transcribe	~2.8% WER	~$0.006/хв	❌ API only	Максимальна точність
💻 whisper large-v3 (локально)	~3.2% WER	$0 (свій GPU)	✅ MIT	Приватність і контроль

🏆

Висновок: для нових API-проєктів де не потрібна локальна обробка — використовуйте gpt-4o-mini-transcribe (вища точність, нижча ціна ніж whisper-1). Для локального запуску без передачі даних — whisper large-v3. whisper-1 в API залишається актуальним для сумісності зі старими інтеграціями.

🎯 Для чого використовувати Whisper

🎙️ Субтитри для відео

📝 Транскрипція мітингів

🎓 Конспекти лекцій

📰 Журналістські інтерв’ю

📚 Аудіокниги → текст

🎙️ Транскрипція подкастів

🌐 Переклад відео

⚖️ Юридичні записи

🏥 Медичні нотатки

🔍 Пошук у аудіоархіві

🤖 Voice-to-text боти

♿ Доступність (a11y)

⚖️ Whisper vs конкуренти

🎤 Whisper

✅Open-source, MIT ліцензія

✅Локальна робота, повна приватність

✅99+ мов

✅Безкоштовно локально

⚠️Потребує Python/технічних знань

⚠️Немає real-time нативно

🦅 AssemblyAI

✅Хмарний API з додатковими функціями

✅Розпізнавання дикторів (diarization)

✅Sentiment analysis, summary

⚠️Платний: $0.65/год

⚠️Дані на хмарі

⚠️Менша кількість мов

🔵 Azure Speech

✅Real-time з низькою затримкою

✅Корпоративна підтримка SLA

✅Інтеграція з Microsoft 365

⚠️Платний від $1/год

⚠️Vendor lock-in

⚠️Складне налаштування

🟢 Google Speech API

✅125 мов, real-time streaming

✅Глибока інтеграція з Google

✅60 хв/міс безкоштовно

⚠️$0.96–$1.44/год після ліміту

⚠️Дані обробляються Google

⚠️Менш точний для акцентів

🏆

Рекомендація: обирайте Whisper локально коли важлива приватність, великі обсяги або бюджет обмежений. Обирайте AssemblyAI якщо потрібні додаткові функції (дикторизація, sentiment) і дані не є конфіденційними. Обирайте Google/Azure для корпоративних рішень з підтримкою і SLA.

⚡ Поради та лайфхаки

🎙️ Якість аудіо = якість транскрипції

Навіть найбільша модель Whisper не може компенсувати погане аудіо. Перед транскрипцією — очистіть запис від шуму через Audacity (Noise Reduction) або Adobe Podcast Enhance Speech (безкоштовний). Різниця у точності може бути 15–20% на зашумленому аудіо.

📝 Використовуйте –initial_prompt для термінів

Якщо у вашому аудіо є специфічні назви, терміни або жаргон — додайте їх у параметр --initial_prompt. Whisper використовує підказку для контексту і рідше помиляється у незнайомих словах. Наприклад: --initial_prompt "Anthropic, Claude, LLM, трансформер, ембедінги"

⚡ faster-whisper для CPU

Якщо у вас немає GPU — обов’язково спробуйте faster-whisper. Ця реалізація використовує квантизацію int8 і CTranslate2 що дає 2–4x прискорення на CPU при тій самій точності. Особливо помітно на моделях medium і large.

🔄 Автоматизація з ffmpeg

Поєднуйте Whisper з ffmpeg для автоматизованих pipeline. Наприклад: витягти аудіо з відео → транскрибувати → записати SRT → спалити субтитри у відео — все одним bash-скриптом без ручної роботи.

🇺🇦

Для транскрипції українською завжди вказуйте --language uk явно. Автовизначення мови іноді плутає українську з російською на коротких фрагментах. Явна вказівка мови також прискорює обробку і підвищує точність на ~5–10%.

❓ Часті запитання

Так, Whisper підтримує українську мову і показує досить гарну точність — особливо модель medium і large-v3. Для кращих результатів: завжди вказуйте --language uk явно, використовуйте модель medium або large, забезпечте чисте аудіо без сильного шуму. У порівнянні з англійською точність дещо нижча — це нормально для мов з меншим представленням у навчальних даних. Але для більшості практичних задач якість цілком прийнятна.

Ні, GPU не обов’язковий. Whisper (і особливо faster-whisper) добре працює на CPU. Різниця в швидкості: на CPU модель small транскрибує 1 годину аудіо за ~15–20 хвилин, на GPU — за 2–3 хвилини. Для нерегулярного використання CPU цілком достатньо. Для обробки великих обсягів щодня — GPU значно прискорить роботу. Якщо у вас є Apple Silicon (M1/M2/M3) — Whisper використовує Metal GPU і працює значно швидше ніж на Intel CPU.

Так — якщо ви запускаєте Whisper локально. При локальній установці аудіо ніколи не покидає ваш комп’ютер. Це робить Whisper ідеальним для: юридичних і медичних записів, конфіденційних ділових переговорів, журналістських інтерв’ю з захищеними джерелами. Увага: якщо ви використовуєте OpenAI API (whisper-1 або gpt-4o-transcribe) — аудіо передається на сервери OpenAI. Для конфіденційних даних використовуйте виключно локальну установку.

Whisper через ffmpeg підтримує практично всі аудіо і відео формати: MP3, MP4, WAV, M4A, FLAC, OGG, WEBM, MPEG, MOV, AVI і багато інших. Максимальний розмір файлу для OpenAI API — 25 MB. Для локальної установки обмежень немає — можна обробляти файли будь-якого розміру. Оптимальний формат для найкращої якості — WAV або FLAC (без стиснення). MP3 з бітрейтом 128+ кбіт/с також дає відмінний результат.

Залежить від вашого сценарію. Якщо ви використовуєте OpenAI API для транскрипції і вам не потрібна локальна обробка — так, gpt-4o-mini-transcribe дає кращу точність при схожій ціні. Якщо вам критична конфіденційність — залишайтесь на локальному whisper large-v3. Якщо у вас існуючий код з whisper-1 — він продовжує працювати, мігрувати не обов’язково, але можна покращити точність замінивши model=”whisper-1″ на model=”gpt-4o-mini-transcribe”.

✅ Підсумок

Whisper від OpenAI — найкращий безкоштовний інструмент для розпізнавання мовлення і транскрипції у 2025 році. Для нетехнічних користувачів — MacWhisper або Whisper Web дають потужний інструмент без жодного коду. Для розробників — два рядки Python-коду або простий API-виклик. Для максимальної приватності — локальна установка де аудіо ніколи не покидає комп’ютер. Починайте з Whisper Web у браузері прямо зараз — і переконайтесь у якості транскрипції власноруч.