OpenAI 在去年推出的 GPT-4o 基礎(chǔ)上,再次對其高級語音模式進(jìn)行了重大的更新,使得語音交流變得更加自然和貼近人類的對話方式。這一先進(jìn)的功能依托于原生的多模態(tài)模型,能夠快速響應(yīng)音頻輸入,最快在232毫秒內(nèi)作出反應(yīng),平均響應(yīng)時間為320毫秒,幾乎與人類的對話速度不相上下。
在今年年初,OpenAI 已經(jīng)對這一語音模式進(jìn)行了小幅更新,改善了打斷頻率和口音處理。而此次的重大升級,更是使語音回復(fù)的語調(diào)變得更加細(xì)膩、節(jié)奏更加自然,尤其是在停頓和強(qiáng)調(diào)的處理上,顯得更加生動。此外,更新后的系統(tǒng)能夠更加精準(zhǔn)地表達(dá)各種情緒,包括同情和諷刺,使得機(jī)器與人類的交流更具人情味。
更令人興奮的是,本次更新還增加了翻譯功能。ChatGPT 用戶只需簡單指令,便可讓它在對話中進(jìn)行實(shí)時翻譯,直到收到停止指令。這一功能的推出,無疑會減少對專門語音翻譯應(yīng)用的需求,進(jìn)一步提升用戶體驗(yàn)。目前,更新后的高級語音模式僅向付費(fèi)用戶開放。
盡管這一系列的改進(jìn)顯著提升了語音交互的質(zhì)量,但 OpenAI 也明確指出,當(dāng)前更新仍存在一些已知的局限性。例如,在某些情況下,音頻質(zhì)量可能會略有下降,音調(diào)和語調(diào)可能出現(xiàn)意外變化,尤其是在某些語音選項(xiàng)中較為明顯。此外,偶爾也會出現(xiàn)與真實(shí)對話不符的情況,例如出現(xiàn)廣告、胡言亂語或背景音樂的意外聲音。OpenAI 表示,他們將繼續(xù)努力提升音頻的一致性,逐步解決這些問題。
這次升級不僅讓 AI 的語音交互體驗(yàn)更加自然,也為人類與人工智能之間的溝通打下了更為堅實(shí)的基礎(chǔ)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實(shí)、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。