
CV (計算機視覺)在 AI 中大概的位置我用這一張圖來表現,其實我標不同的方塊的顏色代表這個領域商業化的成熟度,這里語音和視覺是更接近商業化落地的,NLP和通用人工智能還有很長的路要走。

CV今天非常火熱是因為它有非常多的應用,從互聯網、安防、無人車、機器人到AR、VR等等,也允許大公司和創業公司在整個市場上并存。

做CV的話需要什么呢?既需要理論也需要創新,這里分享一下:上周日曠視科技成立了學術委員會,非常有幸請到了圖靈獎唯一一位華人得主姚期智先生擔任學術委員會首席顧問,幫我們在理論方面把關。
今天我會分享一下算法上面的工作。
計算方式的變革(或復興):神經網絡計算突破馮·諾依曼結構的體系瓶頸

在講計算機視覺之前,我想先講一下對算法尤其是計算的理解。我們今天用的計算機還是馮·諾依曼結構的計算機,它的計算機體系結構設計的思想是要把數據和程序同時放在內存里,好處是程序遇到不同的數據時可以改變程序,可以自適應地處理數據,這非常了不起,因為在這之前,如果不這樣的話,每一次不管是插線還是打孔,都很難去重新編程。后來圖靈也問了個問題:既然機器可以根據自動處理數據,那是不是機器就可以擁有智能。

但是今天我們用了很長時間的馮·諾依曼結構,很大一個局限是它有一個瓶頸:學術界叫做馮·諾依曼瓶頸,其實是說CPU和內存之間的帶寬是不夠的。雖然 CPU 可以加速,但是數據越來越大,就會堵在中間。怎么去突破這一個瓶頸,目前的傳統計算機結構是不能突破這一瓶頸的。

而我們大腦其實不是這樣的結構,大腦里面所有的計算和表示都是在一個并行的網絡里面運行的。


這跟我們今天做的神經網絡也非常類似,這是神經網絡的一個神經元或者多個神經元在做的一些處理,右邊是人腦神經元的一些類別,基本上一個神經元會接受相連接的幾百個、上千個神經元來的輸入,然后做一個決策:神經元到底是激活還是不激活。


所以如果我們看今天神經網絡的計算是在做什么呢?其實是在通過一個函數把一個高維激活向量變成另外一個高維激活向量。我們目前的神經網絡就是不停做這樣的變換,做一次、兩次,做很多次,以至于形成一個非常復雜的嵌套變換,這就是我們今天的神經網絡。


我們可以把它拆成三個因素,一個是表示這樣的激活向量,還有里面的標量非線性,還有權重矩陣,這是里面的三要素。激活向量其實是知識的表示,非線性是來表示這個神經元是激活還是不激活,這權重矩陣是通過監督學習到的知識。

這一個方式有很多好的特性,比如說它是高度并行,內存帶寬可以非常大,還有一個優點就是計算非常簡單,基本上就是矩陣乘,沒有有分枝判斷,沒有馮·諾依曼結構下的復雜計算,所以這一種計算在一定意義上可以突破馮·諾依曼結構的體系瓶頸,比如說右側是今天神經網絡的主要模式,左邊是以前的模式,可以看到計算可以提高帶寬10倍甚至上百倍。

這樣的計算,現在還有NVIDIA、AMD的GPU這樣的并行處理單元來加速,大家可以看到這個數字,120個TFLOP/S,這是今天 NVIDIA最好的顯卡能做到的計算力。大家可以比較一下去年GPU的顯卡還是Pascal 系列,是10個TFLOP/S,今年不管是 NVIDIA還是谷歌第二代的TPU,計算量提高了10倍、甚至20倍,這遠遠打破了摩爾定律,這是在訓練端或者服務器端。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。