🎤 Як користуватися Whisper від OpenAI: повний гайд з розпізнавання мовлення і транскрипції

🎤 Open-Source ASR · MIT Ліцензія

Whisper — найточніше open-source розпізнавання мовлення

Транскрипція аудіо · Переклад мовлення · 99+ мов · Безкоштовно і без передачі даних
Навчений на 680 000 годин аудіо · Точність наближається до людської

99+Мов
680KГод. аудіо
~3.2%WER (V4)
MITЛіцензія
$0Локально
🎤 Whisper від OpenAI — це революційна система автоматичного розпізнавання мовлення (ASR) випущена у вересні 2022 року і розповсюджена з відкритим вихідним кодом під ліцензією MIT. Навчений на 680 000 годинах різноманітного аудіо зі всього інтернету, Whisper вміє транскрибувати мовлення 99+ мовами, автоматично перекладати на англійську і визначати мову без додаткових налаштувань. Головна перевага — він працює повністю локально на вашому комп’ютері, не передаючи дані на сервер, і при цьому безкоштовний. У цьому гайді — все від no-code рішень до API і локальної установки.

🎯 Що таке Whisper і чим він відрізняється

Whisper — це Automatic Speech Recognition (ASR) модель від OpenAI побудована на архітектурі encoder-decoder Transformer. На відміну від комерційних сервісів транскрипції (Google Speech, Amazon Transcribe, Microsoft Azure), Whisper є повністю відкритим вихідним кодом під ліцензією MIT — тобто безкоштовним для будь-якого використання включаючи комерційне.

Ключова особливість Whisper — це навчання на масивному і різноманітному датасеті. 680 000 годин аудіо зібраних з інтернету включали різні акценти, фонові шуми, технічний жаргон і множинні мови. Результат — модель що чудово справляється з реальними умовами запису де спеціалізовані системи часто помиляються.

Станом на 2025 рік Whisper V4 досягає приблизно 3.2% Word Error Rate (WER) на англійській мові — це наближається до людської точності (4–5% WER для досвідчених транскрибістів). Для порівняння, ранні версії ASR систем мали WER 15–25%.

🌍
99+ мовТранскрипція українською, англійською, іспанською, японською і десятками інших
🔒
ПриватністьЛокальна робота — ваше аудіо не покидає комп’ютер, ідеально для конфіденційних записів
🌐
ПерекладАвтоматичний переклад мовлення будь-якої мови на англійську в один крок
🔊
ШумостійкістьДобре справляється з фоновим шумом, акцентами і нечіткою вимовою
⏱️
ТаймкодиПословна і посекундна прив’язка до часу — ідеально для субтитрів і пошуку у записах
💰
БезкоштовноMIT ліцензія — безкоштовно для особистого і комерційного використання локально
🆕
У березні 2025 року OpenAI випустила gpt-4o-transcribe і gpt-4o-mini-transcribe — нові моделі транскрипції з нижчим рівнем помилок ніж Whisper. Вони доступні лише через API. Для більшості завдань OpenAI тепер рекомендує gpt-4o-mini-transcribe замість whisper-1. Проте Whisper залишається кращим вибором для локального запуску без передачі даних.

🗺️ 3 способи використання: без коду, API, локально

Whisper підходить для дуже різних користувачів — від нетехнічних людей до розробників. Ось три основні шляхи залежно від вашого рівня і задач:

Рекомендовано
🖱️
1. Без коду (No-Code) Готові застосунки з графічним інтерфейсом на базі Whisper. Завантажте аудіо — отримайте текст. MacWhisper, Whisper Web, Descript та інші. ✅ Для всіх · Не потрібні технічні знання
Для devs
🔌
2. OpenAI API Хмарний API від OpenAI — whisper-1 або gpt-4o-transcribe. Без установки, платно за хвилину ($0.006/хв), аудіо передається на сервери OpenAI. 🔌 Для розробників · Швидка інтеграція
Максим. контроль
💻
3. Локальна установка Запуск Whisper на вашому комп’ютері через Python і pip. Безкоштовно, без ліміту, повна конфіденційність. Потрібен Python і базові знання командного рядка. 🔒 Максимальна приватність · Безкоштовно

🖱️ Без коду: no-code застосунки на базі Whisper

Якщо вам не потрібно писати код — скористайтесь готовими застосунками що використовують Whisper під капотом і мають зручний графічний інтерфейс:

🍎
MacWhisper macOS застосунок. Перетягніть аудіо або відео → отримайте транскрипцію. Підтримує всі моделі Whisper, пакетну обробку, SRT субтитри. Freemium
🌐
Whisper Web Безкоштовний браузерний застосунок (huggingface.co/spaces/Xenova/whisper-web). Запускає Whisper прямо у браузері — без серверів, без установки. Безкоштовно
🎬
Descript Відеоредактор з транскрипцією на базі Whisper. Редагуйте відео редагуючи текст — видаліть слово і відео обрізається автоматично. Freemium · $24/міс
🤝
Otter.ai Транскрипція мітингів у реальному часі, розпізнавання дикторів, автоматичне резюме. Інтегрується з Zoom, Teams, Google Meet. Freemium · $17/міс
📝
Whisper Transcription (iOS) Мобільний застосунок для iPhone. Запис або імпорт аудіо → транскрипція офлайн на пристрої. Приватність і без інтернету.
🖥️
Whisper Desktop (Windows) Безкоштовний Windows-застосунок з GUI. Підтримує мікрофон у реальному часі і файли. Базується на whisper.cpp для швидкої роботи. Безкоштовно
🌐
Whisper Web — спробуйте прямо у браузеріБезкоштовно · Без реєстрації · Whisper Large у вашому браузері · Локальна обробка
🍎
MacWhisper — найзручніший macOS-клієнтБезкоштовна базова версія · Pro від $29 · Пакетна обробка · SRT субтитри

🔌 Через OpenAI API: два рядки коду

Якщо ви розробник і хочете інтегрувати транскрипцію у власний застосунок — OpenAI надає хмарний API. Це найпростіший спосіб почати без локальної установки. Вартість: $0.006 за хвилину аудіо для whisper-1.

# Встановлення
pip install openai

# Транскрипція аудіо — мінімальний приклад
from openai import OpenAI
client = OpenAI(api_key=“your-api-key”)

with open(“audio.mp3”, “rb”) as audio_file:
    transcript = client.audio.transcriptions.create(
        model=“whisper-1”,
        file=audio_file,
        language=“uk”, # uk для української
        response_format=“text”
    )
print(transcript)
# З субтитрами SRT і підказкою для технічних термінів
with open(“meeting.mp3”, “rb”) as f:
    result = client.audio.transcriptions.create(
        model=“whisper-1”,
        file=f,
        response_format=“srt”, # субтитри одразу
        prompt=“AI Explorer, ChatGPT, Anthropic, Cursor AI” # підказка термінів
    )
print(result) # готовий SRT файл
⚠️
OpenAI API має обмеження 25 MB на розмір файлу. Для більших файлів розбивайте їх на частини. Також пам’ятайте: аудіо передається на сервери OpenAI — якщо це конфіденційні записи, використовуйте локальну установку.
🔑
platform.openai.com/api-keys — отримати API ключРеєстрація безкоштовна · $0.006/хв для whisper-1 · Перші $5 — безкоштовно

💻 Локальна установка Whisper

Локальна установка — найкращий вибір для конфіденційних даних, великих обсягів і регулярного використання без хмарних витрат. Потрібен Python 3.8+ і pip.

1

Встановіть Python

Якщо Python ще не встановлений — завантажте з python.org (версія 3.8 або новіша). Перевірте: python --version

2

Встановіть ffmpeg

Whisper потребує ffmpeg для обробки аудіо. macOS: brew install ffmpeg. Windows: завантажте з ffmpeg.org і додайте до PATH. Ubuntu: sudo apt install ffmpeg

3

Встановіть Whisper через pip

Відкрийте термінал і виконайте: pip install openai-whisper. Встановлення займає кілька хвилин.

4

Перша транскрипція

Виконайте: whisper audio.mp3 --language uk. Whisper автоматично завантажить потрібну модель (перший раз — займе кілька хвилин залежно від розміру).

5

Перегляньте результати

У тій самій папці з’являться файли: audio.txt, audio.srt, audio.vtt, audio.tsv, audio.json — всі формати одразу.

# Базова транскрипція українською
whisper audio.mp3 –language uk

# Велика модель для максимальної точності
whisper audio.mp3 –model large-v3 –language uk

# Тільки SRT субтитри, без інших форматів
whisper video.mp4 –output_format srt –language uk

# Переклад будь-якої мови на англійську
whisper ukrainian_speech.mp3 –task translate

# Пакетна обробка кількох файлів
whisper *.mp3 –model medium –language uk –output_dir ./transcripts
Для значно швидшої роботи без GPU — встановіть faster-whisper: pip install faster-whisper. Це оптимізована реалізація яка працює в 2–4 рази швидше оригінального Whisper з тією самою точністю завдяки квантизації CTranslate2.

📊 Розміри моделей: від Tiny до Large

Whisper доступний у кількох розмірах — більша модель означає вищу точність але потребує більше пам’яті і часу. Обирайте залежно від потужності комп’ютера і вимог до точності:

Tiny
39M параметрів · 1 GB RAM
Найшвидша
Для швидких чернеток, слабких пристроїв, реального часу
🚀
Base
74M параметрів · 1 GB RAM
Дуже швидка
Хороший баланс для більшості повсякденних задач
⚖️
Small
244M параметрів · 2 GB RAM
Швидка
Рекомендована для якісної транскрипції без GPU
🎯
Medium
769M параметрів · 5 GB RAM
Середня
Висока точність для складного аудіо і рідкісних мов
💎
Large-V3
1550M параметрів · 10 GB RAM
Повільна (GPU)
Найвища точність. Потребує GPU для прийнятної швидкості
МодельРозмірШвидкість (CPU)ТочністьІдеально для
⚡ Tiny39M~10x реального часуБазоваЧернетки, слабкі пристрої
🚀 Base74M~7xДобраЩоденне використання
⚖️ Small244M~4xВисока✅ Рекомендовано (баланс)
🎯 Medium769M~2xДуже високаСкладне аудіо, акценти
💎 Large-V31550M~0.5x (потрібен GPU)МаксимальнаПрофі, GPU є
💡
Для більшості користувачів модель Small — оптимальний вибір: висока точність, прийнятна швидкість навіть без GPU і помірні вимоги до пам’яті (2 GB RAM). Якщо є GPU — беріть Large-V3 для максимальної точності.

⌨️ Основні команди і параметри

🌍
–languageВкажіть мову: uk (українська), en (англ.), de, fr. Без цього — автовизначення
🤖
–modelРозмір моделі: tiny, base, small, medium, large-v3. За замовчуванням — small
🔄
–tasktranscribe (транскрипція) або translate (переклад на англійську)
📄
–output_formattxt, srt, vtt, tsv, json або all (всі одразу)
📁
–output_dirПапка для збереження результатів. За замовчуванням — поточна папка
💡
–initial_promptПідказка для покращення розпізнавання термінів: назви, імена, жаргон
# Повний приклад з усіма параметрами
whisper interview.mp4 \
  –model medium \
  –language uk \
  –task transcribe \
  –output_format srt \
  –output_dir ./subtitles \
  –initial_prompt “Інтерв’ю про AI технології, Anthropic, ChatGPT”

🐍 Python інтеграція для розробників

Для інтеграції Whisper у Python-застосунки можна використовувати бібліотеку напряму без командного рядка:

import whisper

# Завантаження моделі (кешується після першого завантаження)
model = whisper.load_model(“small”)

# Транскрипція файлу
result = model.transcribe(
    “audio.mp3”,
    language=“uk”,
    task=“transcribe”
)

# Повний текст
print(result[“text”])

# Сегменти з таймкодами
for segment in result[“segments”]:
    print(f“{segment[‘start’]:.1f}s → {segment[‘end’]:.1f}s: {segment[‘text’]}”)
# faster-whisper — для продакшн і швидкого CPU-inference
from faster_whisper import WhisperModel

model = WhisperModel(“small”, device=“cpu”, compute_type=“int8”)
segments, info = model.transcribe(“audio.mp3”, language=“uk”)

for segment in segments:
    print(f“[{segment.start:.2f}s] {segment.text}”)

📄 Формати виводу: TXT, SRT, VTT, JSON

Whisper автоматично генерує результати у кількох форматах одночасно. Кожен підходить для різних задач:

.txt

📝 Plain Text

Чистий текст без таймкодів. Ідеально для статей, нотаток, пошуку у тексті

.srt

🎬 SubRip

Стандартний формат субтитрів. Підтримується VLC, YouTube, Adobe Premiere, DaVinci Resolve

.vtt

🌐 WebVTT

Субтитри для вебу. Використовуйте у HTML5 відео тегах і стрімінгових платформах

.tsv

📊 Таблиця

Таблиця: початок/кінець/текст. Відкривайте в Excel або Google Sheets для аналізу

.json

🔧 JSON

Повні дані: текст, таймкоди, ймовірності, мова. Для програмної обробки і API

all

📦 Всі формати

–output_format all генерує всі п’ять форматів одночасно. Зручно для першого разу

🆕 GPT-4o Transcribe: наступник Whisper

У березні 2025 року OpenAI випустила нові моделі транскрипції що перевершують Whisper за точністю — gpt-4o-transcribe і gpt-4o-mini-transcribe. Вони доступні тільки через API і не є відкритим кодом.

МодельWER (точність)ЦінаOpen-sourceІдеально для
🎤 whisper-1 (API)~5.2% WER$0.006/хв❌ APIІснуючі інтеграції
⚡ gpt-4o-mini-transcribe~3.6% WER~$0.003/хв❌ API only✅ Нові API проєкти
💎 gpt-4o-transcribe~2.8% WER~$0.006/хв❌ API onlyМаксимальна точність
💻 whisper large-v3 (локально)~3.2% WER$0 (свій GPU)✅ MITПриватність і контроль
🏆
Висновок: для нових API-проєктів де не потрібна локальна обробка — використовуйте gpt-4o-mini-transcribe (вища точність, нижча ціна ніж whisper-1). Для локального запуску без передачі даних — whisper large-v3. whisper-1 в API залишається актуальним для сумісності зі старими інтеграціями.

🎯 Для чого використовувати Whisper

🎙️ Субтитри для відео
📝 Транскрипція мітингів
🎓 Конспекти лекцій
📰 Журналістські інтерв’ю
📚 Аудіокниги → текст
🎙️ Транскрипція подкастів
🌐 Переклад відео
⚖️ Юридичні записи
🏥 Медичні нотатки
🔍 Пошук у аудіоархіві
🤖 Voice-to-text боти
♿ Доступність (a11y)

⚖️ Whisper vs конкуренти

🎤 Whisper
Open-source, MIT ліцензія
Локальна робота, повна приватність
99+ мов
Безкоштовно локально
⚠️Потребує Python/технічних знань
⚠️Немає real-time нативно
🦅 AssemblyAI
Хмарний API з додатковими функціями
Розпізнавання дикторів (diarization)
Sentiment analysis, summary
⚠️Платний: $0.65/год
⚠️Дані на хмарі
⚠️Менша кількість мов
🔵 Azure Speech
Real-time з низькою затримкою
Корпоративна підтримка SLA
Інтеграція з Microsoft 365
⚠️Платний від $1/год
⚠️Vendor lock-in
⚠️Складне налаштування
🟢 Google Speech API
125 мов, real-time streaming
Глибока інтеграція з Google
60 хв/міс безкоштовно
⚠️$0.96–$1.44/год після ліміту
⚠️Дані обробляються Google
⚠️Менш точний для акцентів
🏆
Рекомендація: обирайте Whisper локально коли важлива приватність, великі обсяги або бюджет обмежений. Обирайте AssemblyAI якщо потрібні додаткові функції (дикторизація, sentiment) і дані не є конфіденційними. Обирайте Google/Azure для корпоративних рішень з підтримкою і SLA.

⚡ Поради та лайфхаки

🎙️ Якість аудіо = якість транскрипції

Навіть найбільша модель Whisper не може компенсувати погане аудіо. Перед транскрипцією — очистіть запис від шуму через Audacity (Noise Reduction) або Adobe Podcast Enhance Speech (безкоштовний). Різниця у точності може бути 15–20% на зашумленому аудіо.

📝 Використовуйте –initial_prompt для термінів

Якщо у вашому аудіо є специфічні назви, терміни або жаргон — додайте їх у параметр --initial_prompt. Whisper використовує підказку для контексту і рідше помиляється у незнайомих словах. Наприклад: --initial_prompt "Anthropic, Claude, LLM, трансформер, ембедінги"

⚡ faster-whisper для CPU

Якщо у вас немає GPU — обов’язково спробуйте faster-whisper. Ця реалізація використовує квантизацію int8 і CTranslate2 що дає 2–4x прискорення на CPU при тій самій точності. Особливо помітно на моделях medium і large.

🔄 Автоматизація з ffmpeg

Поєднуйте Whisper з ffmpeg для автоматизованих pipeline. Наприклад: витягти аудіо з відео → транскрибувати → записати SRT → спалити субтитри у відео — все одним bash-скриптом без ручної роботи.

🇺🇦
Для транскрипції українською завжди вказуйте --language uk явно. Автовизначення мови іноді плутає українську з російською на коротких фрагментах. Явна вказівка мови також прискорює обробку і підвищує точність на ~5–10%.

❓ Часті запитання

Так, Whisper підтримує українську мову і показує досить гарну точність — особливо модель medium і large-v3. Для кращих результатів: завжди вказуйте --language uk явно, використовуйте модель medium або large, забезпечте чисте аудіо без сильного шуму. У порівнянні з англійською точність дещо нижча — це нормально для мов з меншим представленням у навчальних даних. Але для більшості практичних задач якість цілком прийнятна.
Ні, GPU не обов’язковий. Whisper (і особливо faster-whisper) добре працює на CPU. Різниця в швидкості: на CPU модель small транскрибує 1 годину аудіо за ~15–20 хвилин, на GPU — за 2–3 хвилини. Для нерегулярного використання CPU цілком достатньо. Для обробки великих обсягів щодня — GPU значно прискорить роботу. Якщо у вас є Apple Silicon (M1/M2/M3) — Whisper використовує Metal GPU і працює значно швидше ніж на Intel CPU.
Так — якщо ви запускаєте Whisper локально. При локальній установці аудіо ніколи не покидає ваш комп’ютер. Це робить Whisper ідеальним для: юридичних і медичних записів, конфіденційних ділових переговорів, журналістських інтерв’ю з захищеними джерелами. Увага: якщо ви використовуєте OpenAI API (whisper-1 або gpt-4o-transcribe) — аудіо передається на сервери OpenAI. Для конфіденційних даних використовуйте виключно локальну установку.
Whisper через ffmpeg підтримує практично всі аудіо і відео формати: MP3, MP4, WAV, M4A, FLAC, OGG, WEBM, MPEG, MOV, AVI і багато інших. Максимальний розмір файлу для OpenAI API — 25 MB. Для локальної установки обмежень немає — можна обробляти файли будь-якого розміру. Оптимальний формат для найкращої якості — WAV або FLAC (без стиснення). MP3 з бітрейтом 128+ кбіт/с також дає відмінний результат.
Залежить від вашого сценарію. Якщо ви використовуєте OpenAI API для транскрипції і вам не потрібна локальна обробка — так, gpt-4o-mini-transcribe дає кращу точність при схожій ціні. Якщо вам критична конфіденційність — залишайтесь на локальному whisper large-v3. Якщо у вас існуючий код з whisper-1 — він продовжує працювати, мігрувати не обов’язково, але можна покращити точність замінивши model=”whisper-1″ на model=”gpt-4o-mini-transcribe”.

✅ Підсумок

Whisper від OpenAI — найкращий безкоштовний інструмент для розпізнавання мовлення і транскрипції у 2025 році. Для нетехнічних користувачів — MacWhisper або Whisper Web дають потужний інструмент без жодного коду. Для розробників — два рядки Python-коду або простий API-виклик. Для максимальної приватності — локальна установка де аудіо ніколи не покидає комп’ютер. Починайте з Whisper Web у браузері прямо зараз — і переконайтесь у якості транскрипції власноруч.

🎤 Як користуватися Whisper від OpenAI: повний гайд з розпізнавання мовлення і транскрипції

🎤 Open-Source ASR · MIT Ліцензія Whisper — найточніше open-source розпізнавання мовлення Транскрипція аудіо · Переклад мовлення · 99+ мов…

🎶 Як користуватися Udio AI: повний гайд від першого промпту до готового треку

🎶 AI Music Generator · Серйозний конкурент Suno Udio AI — глибока інструментальна музика з AI Текстовий промпт → вокал…

🎵 Як користуватися Suno AI: повний гайд зі створення музики від промпту до готового треку

🎵 AI Music Generator · Лідер ринку Suno AI — повноцінна пісня за 30 секунд Текстовий промпт → вокал +…

Залишити коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Прокрутка до верху