資訊與博客

上海人为智能實驗室聯合商湯科技與大學共同發佈通用視覺技術體系「書生」

2021-11-17

11月17日，上海人为智能實驗室聯合商湯科技SenseTime、香港中文大學、上海交通大學共同發佈新一代通用視覺技術體系「書生」（INTERN），該體系旨在系統化解決當下人为智能視覺領域中存在的任務通用、場景泛化和數據效能等一系列問題。目前技術報告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台發佈；丁笗沟耐ㄓ靡曈X開源平台OpenGVLab也將在明年岁首正式開源，向學術界和產業界公開預訓練模型及其使用範式、數據系統和評測基準等。OpenGVLab將與上海人为智能實驗室此前發佈的OpenMMLab、OpenDILab共同構建開源體系OpenXLab，助力通用人为智能的基礎钻研和生態構建。

图片1.png

上海人为智能實驗室聯合商湯科技、香港中文大學、上海交通大學共同發佈新一代通用視覺技術體系「書生」（INTERN）

任務通用和數據學習效能是當前人为智能發展的主题問題。根據相關技術報告，一個「書生」模型即可全面覆蓋分類、目標檢測、語義宰割、深度估計四大視覺主题任務。在ImageNet等26個最具代表性的下游場景中，書生模型廣泛展現了極強的通用性，顯著提升了這些視覺場景中長尾幼樣本設定下的机能。

相較於當前最強開源模型（OpenAI 於2021年發佈的CLIP），「書生」在準確率和數據使用效能上均获得大幅提升。具體而言，基於同樣的下游場景數據，「書生」在分類、目標檢測、語義宰割及深度估計四大任務26個數據集上的均匀錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。「書生」在數據效能方面的提升尤為令人矚目：只必要1/10的下游數據，就能超過CLIP基於齐全下游數據的準確度，例如在花草種類識別FLOWER任務上，每一類只需兩個訓練樣本，就能實現99.7%的準確率。

隨著人为智能賦能產業的不斷深刻，人为智能系統在從实现單一任務向複雜的多任務協同演進，其覆蓋的場景也越來越多樣化。在自動駕駛、智能製造、智慧城市等眾多的長尾場景中，數據獲取通常困難且昂貴，研發通用人为智能模型，對於降低數據依賴尤為沉要。而突破「工業應用紅線」的模型，需滿足同時实现多任務、覆蓋大量長尾場景，且基於下游幼樣本數據進行再訓練等要求。上海人为智能實驗室、商湯科技、香港中文大學以及上海交大聯合推出的「書生」通用視覺技術體系，體現了產學研合作在通用視覺領域的全新索求，為走向通用人为智能邁出堅實的一步。借助「書生」通用視覺技術體系，業界可憑借極低的下游數據採集成本，急剧驗證多個新場景，對於解鎖實現人为智能長尾應器拥有沉要意義。

上海人为智能實驗室主任助理喬宇暗示：「當前發展通用視覺的主题，是提升模型的通用泛化能力和學習過程中的數據效能。面向未來，『書生』通用視覺技術將實現以一個模型实现成百上千種任務，體系化解決人为智能發展中數據、泛化、認知和安全等諸多問題。」

商湯科技钻研院院長王曉剛暗示：「『書生』通用視覺技術體系是商湯在通用智能技術發展趨勢下前瞻性佈局的一次嘗試，也是SenseCore商湯AI大裝置布景下的一次新技術路徑索求。『書生』承載了讓人为智能參與處理多種複雜任務、適用多種場景和模態、有效進行幼數據和非監督學習並最終具備靠近人的通用視覺智能的期盼。但愿這套技術體系能夠幫助業界更好地索求和應用通用視覺AI技術，促進AI規；涞。」

書生（INTERN）在分類、目標檢測、語義宰割、深度估計四大任務26個數據集上，基於同樣下游場景數據（10%），相較於最強開源模型CLIP-R50x16，均匀錯誤率降低了40.2%，47.3%，34.8%，9.4%。同時，書生只必要10%的下游數據，均匀錯誤率就能全面低於齐全（100%）下游數據訓練的CLIP。

階梯式學習：七大模塊打造全新技術路徑

图片3.png

書生（INTERN）技術體系能够讓AI模型處理多樣化的視覺任務

通用視覺技術體系「書生」（INTERN）由七大模塊組成，蕴含通用視覺數據系統、通用視覺網絡結構、通用視覺評測基準三個基礎設施模塊，以及區分高低游的四個訓練階段模塊。

書生作為中國古代讀書人的經典形象，代表著一個通過不斷學習、不斷成長進而擁有各方面能力的角色：從基礎的知識技术學習開始，到對多種專業知識觸類旁通，進而成長為擁有通用知識的通才。將全新的通用視覺技術體系定名為「書生」，意在體現其如同書生通常的特質，可通過持續學習，舉一反三，逐步實現通用視覺領域的融會貫通，最終實現靈活高效的模型部署。

當前的AI系統開發模式下，一個AI模型往往只擅長處理一項任務，對於新場景、幼數據、新任務的通用泛化能力有限，導致面對千變萬化的任務需要時，須獨立開發成千上萬種AI模型。同時，钻研人員每訓練一個AI模型，都需構建標注數據集進行專項訓練，並持續進行權沉和參數優化。這種低效的學習訓練步骤，導致人力、時間和資源成本居高不下，無法實現高效的模型部署。

「書生」的推出能夠讓業界以更低的成本獲得擁有處理多種下游任務能力的AI模型，並以其強大的泛化能力支撐智慧城视注智慧醫療、自動駕駛等場景中大量幼數據、零數據等樣本缺失的細分和長尾場景需要。

图片4.png

通用視覺技術體系「書生」（INTERN）由七大模塊組成，蕴含3個基礎設施模塊、4個訓練階段模塊

持續成長：「四階段」提升通用泛化

在「書生」（INTERN）的四個訓練階段中，前三個階段位於該技術鏈條的上游，在模型的表徵通用性上發力；第四個階段位於下游，可用於解決各種分歧的下游任務。

第一階段，著力於培養「基礎能力」，即讓其學到廣泛的基礎常識，為後續學習階段打好基礎；第二階段，培養「專家能力」，即多個專家模型各自學習某一領域的專業知識，讓每一個專家模型高度把握該領域技术，成為專家；第三階段，培養「通用能力」，隨著多種能力的融會貫通，「書生」在各個技术領域都展現優異水平，並具備急剧學會新技术的能力。

在循序漸進的前三個訓練階段模塊，「書生」在階梯式的學習過程中具備了高度的通用性。當進化到第四階段時，系統將具備「遷移能力」，此時「書生」學到的通用知識能够應用在某一個特定領域的分歧任務中，如智慧城视注智慧醫療、自動駕駛等。

產學研協同：開源共創通用AI生態

作為AI技術的下一個沉大里程碑，通用人为智能技術將帶來顛覆性創新，實現這一目標必要學術界和產業界的緊密協作。上海人为智能實驗室、商湯科技、香港中文大學以及上海交大未來將依託通用視覺技術體系「書生」（INTERN），發揮產學研一體化優勢，為學術钻研提供平台支持，並全面賦能技術創新與產業應用。

明年岁首，基於「書生」的通用視覺開源生態OpenGVLab將正式開源，向學術界和產業界公開預訓練模型、使用範式和數據庫等，而全新創建的通用視覺評測基準也將同步開放，推動統一標準上的公和善準確評測。OpenGVLab將與上海人为智能實驗室此前發佈的OpenMMLab、OpenDILab一路，共同構建開源體系OpenXLab，持續推進通用人为智能的技術突破和生態構建。

附：

1. 技術報告《INTERN: A New Learning Paradigm Towards General Vision》：arxiv.org/abs/2111.08687

2. OpenMMLab開源網址：github.com/open-mmlab

3. OpenDILab開源網址：github.com/opendilab

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关