OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度!

OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度！

OpenAI 最近推出了一款名為 Whisper 的神經網路模型，該模型能夠達到人類級別的語音辨識準確度。Whisper 是一個自動語音識別（ASR）系統，使用了從網絡上收集的680,000小時的多語種和多任務監督式數據進行訓練。通過使用如此大型和多樣化的數據集，Whisper 可以更好地應對口音、背景噪音和專業術語等方面的問題。此外，它能夠進行多語言轉錄，並且支持從這些語言翻譯成英語。OpenAI 開放了這些模型和推論代碼的源代碼，作為建立有用應用程序和進一步研究強健語音處理的基礎。

Whisper的原理：

Whisper採用了一種簡單的端到端方法，使用了編碼器-解碼器Transformer架構。輸入的音頻會被分割成30秒的片段，轉換成對數梅爾頻譜圖，然後輸入到編碼器中。解碼器則被訓練來預測對應的文本標題，並夾雜著特殊標記，這些標記指示單一模型執行任務，例如語言識別、短語級時間戳、多語言語音轉錄和語音翻譯。

Whisper的優勢：

與現有方法相比，Whisper 的優勢在於使用更大、更多樣化的數據集進行訓練，並且不會被精細調整到任何特定的數據集上。因此，Whisper 沒有擊敗專門研究LibriSpeech性能的模型。LibriSpeech 性能是語音識別領域著名的競爭基準。然而，當在測量 Whisper 在許多不同的數據集上的零樣本性能時，發現它比那些模型更具加穩定，並且錯誤率降低了50%。
Whisper 大約三分之一的音頻數據集是非英語的，它交替被賦予以原始語言轉錄或翻譯成英語的任務。我們發現這種方法在學習語音到文本翻譯方面特別有效，並且在 CoVoST2 到英語翻譯零樣本上優於監督式 SOTA。

▲ Whisper架構

Source：[OpenAI](https://openai.com/blog/whisper/)

搜尋此網誌

Popular Posts

《完蛋！我被美女包圍了！》遊戲演員詳細資訊揭秘

《完蛋！我被美女包圍了！》：征服Steam榜首的戀愛模擬遊戲

超級實用的Google搜索技巧：讓你輕鬆找到你需要的資訊

Social Plugin

OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度!

OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度！

Whisper的原理：

Whisper的優勢：

張貼者：源裏藏室 (Yuaninroom)

張貼留言

0 留言

Most Popular

《完蛋！我被美女包圍了！》遊戲演員詳細資訊揭秘

《完蛋！我被美女包圍了！》：征服Steam榜首的戀愛模擬遊戲

超級實用的Google搜索技巧：讓你輕鬆找到你需要的資訊

電腦快捷鍵大揭密：提升效率的神奇秘技！

聯絡表單

Tags

Categories

Featured post

Google Gemini Pro 使用教學：簡易教學讓你一學就通

Popular Posts

《完蛋！我被美女包圍了！》遊戲演員詳細資訊揭秘

Google Gemini Pro 使用教學：簡易教學讓你一學就通

超級實用的Google搜索技巧：讓你輕鬆找到你需要的資訊

Footer Menu Widget

Contact form

搜尋此網誌

Popular Posts

Social Plugin

OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度!

OpenAI開源自然語言處理模型Whisper，接近人類語音識別準確度！

Whisper的原理：

Whisper的優勢：

張貼者： 源裏藏室 (Yuaninroom)

你可能會喜歡這些文章

張貼留言

0 留言

Most Popular

Social Plugin

聯絡表單

Tags

Categories

Featured post

Popular Posts

Footer Menu Widget

Contact form

張貼者：源裏藏室 (Yuaninroom)