在日前舉行的GTC 2023大會中,英偉達發布了可以通過語音控制XR體驗的Project Mellon。這是一個輕量級Python包,能夠利用語音AI(NVIDIA Riva)和大型語言模型(NVIDIA-NeMo服務)的強大功能來簡化沉浸式環境中的用戶交互。開發者可以點擊這個頁面申請測試資格,探索創建由自然語音命令控制的XR體驗。
Project Mellon背后的基本理念是,以一種實用的方式來利用語音人工智能和大型語言模型的力量,從而進一步賦能虛擬世界。
英偉達指出,XR中的用戶界面可能復雜且難以使用,減損了自然沉浸感。Project Mellon允許幾乎任何開發人員輕松地將自然語言理解添加到自己的應用程序中,并將其作為一種新型的以人為中心的免手操作用戶界面。
Project Mellon平臺由以下要素組成:Project Mellon SDK NVIDIA Riva (ASR, TTS, NMT) NeMo service (支持其他LLM大型語言模型 )
Project Mellon 1.0中的主要功能包括: 輕量級、易于集成的Python庫 LLM支持自然語言理解的準確性 無需特定命令訓練的零樣本語言模型 具有對話和視覺情景的自然語言命令支持 支持詢問有關命令和場景的問題,并提供自然語言回答 用于理解和執行命令的簡單Python API 基于Web的測試應用程序 ASR、TTS、LLM和NMT可以在本地或遠程托管,具有較低的延遲響應時間
已經體驗過Project Mellon的ESI Group評價道:“我們發現,將對話式人工智能與Project Mellon集成,可以降低協作XR技術的入門門檻。通過使用自然語音作為輸入,我們的虛擬人工智能助手可以幫助團隊完成復習任務、查詢可用情況或發現問題。所有這一切都只需用自然語言提問,無需記住特定命令。”
英偉達則表示:“人工智能正在改變我們與工作和工具互動的方式。通過語音人工智能和Project Mellon,開發人員可以簡化用戶交互體驗。不再需要培訓用戶如何操作虛擬現實中的每一項功能。你可以跳到虛擬現實應用程序中,并用自己的言語來控制體驗。”
Project Mellon 1.0已經正式發布,開發者可以點擊這個頁面申請測試資格,探索創建由自然語音命令控制的XR體驗。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。