我們看一下神經網絡為什么叫深度學習,其實說神經網絡的層數非常多,它夠深,這是2012年Hinton和學生做的 AlexNet,一個八層的網絡,當時認為已經非常深了。論文里還有一段,專門說八層比五層深是有道理的,證明深度是有道理的。論文發布以后還有很多人挑戰說其實更淺的也能做出來,現在已經沒有人挑戰了。過兩年之后,牛津大學和谷歌分別開發出了它們的網絡,20層的網絡,性能提高非常多。這兩個網絡大概都是20層,這并不是巧合,到了20層以后系統就很難訓練起來。我們自己做了一些工作,確實發現是這樣的問題,當非線性系統非常復雜的時候,確實很難訓練它。

在2015年的時候,當時我還在微軟亞洲研究院,我們做了一個工作叫做 ResNet,第一次做了一個152層的網絡,它有效地解決了神經網絡訓練中的優化問題。我先放一個以前同事做的動畫,給大家看一下152層網絡到底有多深。其中一個小橫桿是一層。

這網絡到底為什么能做成呢?其實核心是引用了一個殘差學習的概念,這概念就是說當網絡非常深的時候,你要做一個變換,相鄰兩層的變化差別是不大,那只去學習殘差會比直接學習映射會更容易,所以我們就設計了殘差學習的思想,實際上可以用一個非常簡單的跨層連接來實現,從而達到非常容易優化的復雜的非線性動態系統。為什么網絡可以很好的訓練起來,我們自己相信的一個解釋是整個訓練過程是一個從淺到深的訓練動態。還有一個數學上比較嚴謹的解釋是它能夠很好的消除以前深度學習網絡反傳算法中梯度消失的問題,這是個非常嚴重的問題,當你層數非常深的時候,梯度會越來越小,以至于計算機的精度會表示不了,就無法訓練整個系統了,這個就在數學上保證了梯度不會變小。殘差網絡也代表微軟贏得了 ImageNet 2015年的冠軍,第一次超過了人類在圖像識別上的表現。



深度學習:破除魔咒之旅

ResNet 網絡說明了什么?它說明了我們走到今天這一步非常不容易的,Geoffrey Hinton總結了一下為什么深度學習做得越來越好,比如說計算量越來越強、數據越來越大,細節做的更對了。其實我想說的是殘差學習隱含了網絡結構需要對優化友好才可以做好。

我也分享一下,在前不久 AlphaGo Zero系統里面第一次用不學習人類棋譜的方式來戰勝了人類,其中有兩個核心技術,一個是自我博弈的增強學習,另外一個它也用到了我們的ResNet,用了一個40層或者80層的網絡來完成對棋譜到底哪里下子、到底對當前棋局是贏還是輸的一個判斷。


深度神經網絡設計的演化非常快,我們給大家羅列了從2012年到2016年的一些代表性工作年。進展非常快以至于我們做的很多視覺計算任務取得了非常大的進展,例如Coco是目前物體檢測最重要的一個基準測試。


今年我們贏得了冠軍。 2015年到2017年僅僅兩年,Coco物體檢測的精度從37變到了52。 37這個數字是當時我們在微軟研究院做的一個工作,是當時COCO的第一名。再往前2014年微軟創建COCO的時候,當時的結果只有20多,如果用非深度學習方法可能不到20。我們今年也獲得了COCO Keypoint 競賽的冠軍,這個問題就是說如何把每一個人的身體骨架都很精確的用3D姿態恢復出來,這樣很容易分析這個人的動作。

另外我們還獲得了今年第一次舉辦的Places Instance Segmentation 的冠軍。這是大家努力的一個方向,模型越做越大、精度越做越高,所有訓練要求計算力越來越大。還有一個方向是說,計算量不夠的時候,應該去如何應用這個技術,將其商業化。

文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。