国产一级牲交高潮片16,色婷婷五月综合久久中文

作家|高管、潘俊、劉景慶、夏延?xùn)|、何進(jìn)

來(lái)源| 《微納電子與智能制造》期刊

現(xiàn)代電子產(chǎn)品和設(shè)備在通信、娛樂(lè)、安全、醫(yī)療等諸多方面提高了我們的生活質(zhì)量，這主要是因?yàn)楝F(xiàn)代微電子技術(shù)的發(fā)展極大地改變了人們的日常工作和互動(dòng)方式。

在過(guò)去幾十年中，摩爾定律一直是通過(guò)不斷縮小芯片上的器件特征尺寸來(lái)提高計(jì)算能力，帶來(lái)了電子產(chǎn)品諸如更高速度、更低成本和更小功耗等優(yōu)勢(shì)。Gordon Moore 最初的觀察是芯片中的晶體管數(shù)量大約每 2 年增加 1 倍，DavidHouse 進(jìn)一步預(yù)測(cè) ，由于更多更快的晶體管，芯片性能將每 18 個(gè)月翻一番。雖然 Gordon Moore 的預(yù)測(cè)已經(jīng)成功超過(guò) 50 年，但是今天的硅 CMOS 技術(shù)正在接近其尺寸的基本物理極限，摩爾定律的延續(xù)性已經(jīng)變得越來(lái)越具有挑戰(zhàn)性。

這意味著電子產(chǎn)品和設(shè)備的性能增益不再僅僅依賴于器件特征尺寸的縮小，人們有必要發(fā)明新的 IT 技術(shù)或新的計(jì)算原理，以滿足應(yīng)用對(duì)計(jì)算能力和低功耗等方面不斷增長(zhǎng)的需求，而人工智能的出現(xiàn)為突破這種局限性提供了無(wú)限可能。人工智能(artificial intelligence，AI)指由人制造出來(lái)的機(jī)器來(lái)呈現(xiàn)人類智能的技術(shù) ，而人工智能芯片指能夠運(yùn)行人工智能技術(shù)和相關(guān)算法的半導(dǎo)體芯片。本文將對(duì)人工智能芯片的研究進(jìn)展及市場(chǎng)發(fā)展進(jìn)行介紹。

人工智能芯片的發(fā)展

據(jù)了解，人工智能(AI)技術(shù)的發(fā)展和應(yīng)用在美國(guó) 、中國(guó)和歐盟等世界主要國(guó)家中已經(jīng)成為國(guó)家戰(zhàn)略，在國(guó)家的科技發(fā)展和產(chǎn)業(yè)競(jìng)爭(zhēng)中占據(jù)越來(lái)越重要的位置。同時(shí)，AI技術(shù)在手寫識(shí)別(例如MNIST數(shù)據(jù)集[1] )、人臉識(shí)別(例如 Facebook 的 DeepFace [2] )、語(yǔ)音識(shí)別(例如亞馬遜的 Alexa [3] 、Apple 的 Siri [4] 、微軟的Cortana [5])、機(jī)器人技術(shù)(例如機(jī)器人操作系統(tǒng)[6])、自動(dòng)駕駛(例如Tartan Racing[7])，甚至智力游戲(例如 Google 的 AlphaGo [8] )和視頻游戲(例如 Pac-mAnt [9] )等領(lǐng)域得到了廣泛應(yīng)用。隨著人工智能的發(fā)展，產(chǎn)生了更多的專業(yè)技術(shù) ，比如神經(jīng)網(wǎng)絡(luò)模型、機(jī)器學(xué)習(xí)等，依靠經(jīng)驗(yàn)學(xué)習(xí)而不是編程來(lái)做出決策。反過(guò)來(lái) ，機(jī)器學(xué)習(xí)為深度學(xué)習(xí)奠定了基礎(chǔ) ，深度學(xué)習(xí)涉及分層算法，以便更好地理解數(shù)據(jù) 。

自 20 世紀(jì) 50 年代開始，人類對(duì)人工智能技術(shù)的探索從來(lái)就沒(méi)有停止過(guò) ?！叭斯ぶ悄堋币辉~是由科學(xué)家約翰 · 麥卡錫(John McCarthy)、克勞德 · 香農(nóng)(Claude Shannon)和馬文·明斯基(Marvin Minsky)于1956 年在達(dá)特茅斯會(huì)議上提出的，從此揭開人工智能研究的序幕。1962 年 Rosenblatt 出版《神經(jīng)動(dòng)力學(xué)原理》及其 1957 年設(shè)計(jì)的模擬計(jì)算器，被視作深度神經(jīng)網(wǎng)絡(luò)模型的算法原型。1969 年，Minsky 與 Papert出版《感知器》，指出單層神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來(lái)的圖像識(shí)別算法連對(duì)稱圖形都無(wú)法正確識(shí)別。

對(duì)于多層神經(jīng)網(wǎng)絡(luò) ，由于人造神經(jīng)元的運(yùn)算極限嚴(yán)重受限于當(dāng)時(shí)計(jì)算機(jī)的算力不足，導(dǎo)致多層神經(jīng)網(wǎng)絡(luò)也無(wú)法被當(dāng)時(shí)和后來(lái)的計(jì)算機(jī)的芯片運(yùn)算效能實(shí)現(xiàn) ，這造成了人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域在 1970 年代的寒冬時(shí)期。

1982年，日本開始第五代計(jì)算機(jī)項(xiàng)目研究計(jì)劃，同時(shí)美國(guó)也投入不少資源在第五代計(jì)算機(jī)的研發(fā)中，但最終依然無(wú)法解決圖像和音訊識(shí)別的重大問(wèn)題。1985年，Hinton 與 Sejnowski 發(fā)表了之前被視為不可能實(shí)現(xiàn)的基于玻爾茲曼機(jī)的“多層神經(jīng)網(wǎng)絡(luò)”，1986 年,Rumelhart和Hinton發(fā)表“BP反向傳播算法”，1989年，貝爾實(shí)驗(yàn)室成功利用反向傳播算法，在多層神經(jīng)網(wǎng)絡(luò)開發(fā)了一個(gè)手寫郵編識(shí)別器。同年，Mead 出版Analog VLSI and Neural Systems ，開創(chuàng)了基于仿生芯片的神經(jīng)形態(tài)工程領(lǐng)域。

1993 年，Yann Le Cun 的團(tuán)隊(duì)使用 DSP 在一臺(tái) 486 電腦上實(shí)現(xiàn)深度學(xué)習(xí)算法，其作為推理芯片，已可辨識(shí)手寫的數(shù)字。至此，通用芯片 CPU 的算力大幅提升，但仍無(wú)法滿足多層神經(jīng)網(wǎng)絡(luò)的計(jì)算能力需求。1994 年，Michael Gschwind 等使用 FPGAs 實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的算法應(yīng)用，1998 年，YannLe Cun 和 Yoshua Bengio 發(fā)表了手寫識(shí)別神經(jīng)網(wǎng)絡(luò)和反向傳播優(yōu)化相關(guān)的論文“Gradient-based learningapplied to document recognition”，開創(chuàng)了卷積神經(jīng)網(wǎng)絡(luò)時(shí)代的到來(lái)。

2006 年，Hinton 提出受限玻爾茲曼機(jī)模型與深度信念網(wǎng)絡(luò) ，成功地訓(xùn)練多層神經(jīng)網(wǎng)絡(luò) ，解決了反向傳播算法局部最佳解問(wèn)題，并把多層類神經(jīng)網(wǎng)絡(luò)稱作“深度學(xué)習(xí)”，首次證明了大規(guī)模深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的可能性。2007 年，英偉達(dá)開發(fā)出統(tǒng)一計(jì)算架構(gòu)(CUDA)，研究人員透過(guò) CUDA 可以輕松使用 C 語(yǔ)言開發(fā) GPU ，使得 GPU 具有方便的編程環(huán)境可以直接編寫程序。2008 年，英偉達(dá)推出 Tegra芯片，作為最早的可用于人工智能領(lǐng)域的 GPU ，如今已成為英偉達(dá)最重要的 AI 芯片之一，主要用于智能駕駛領(lǐng)域。2009 年，Rajat Raina 和吳恩達(dá)聯(lián)合發(fā)表利用 GPU 完成深度學(xué)習(xí)訓(xùn)練的論文“Large-scaleDeep Unsupervised Learning Using GraphicProcessors”。2010 年，IBM 首次發(fā)布類腦芯片原型模擬大腦結(jié)構(gòu) ，該原型具有感知認(rèn)知能力和大規(guī)模并行計(jì)算能力。

2012 年，Krizhevsky 與 Hinton 的團(tuán)隊(duì)采用 GPU 架構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法，在ImageNet 大賽中，將圖像識(shí)別錯(cuò)誤率降到 18% ，并在NIPS 會(huì)議上發(fā)表圖像識(shí)別論文“Image NetClassification with Deep Convolutional NeuralNetworks”。這一突破性的成果，讓人們第一次驚喜地看到神經(jīng)網(wǎng)絡(luò)的算力需求可被現(xiàn)行計(jì)算設(shè)備滿足。不過(guò)，這一成果也有它的美中不足：他們使用的GPU 架構(gòu)芯片并非針對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì) ，其中包含許多運(yùn)行神經(jīng)網(wǎng)絡(luò)時(shí)不需要的架構(gòu)設(shè)計(jì) ，因此效率提升有限。就在同一年，Google Brain 用 1.6 萬(wàn)個(gè)GPU 核的并行計(jì)算平臺(tái)訓(xùn)練 DNN 模型，在語(yǔ)音和圖像識(shí)別等領(lǐng)域獲得巨大成功，2013 年 GPU 開始廣泛應(yīng)用于人工智能領(lǐng)域，高通公司發(fā)布 Zeroth。2014年，中國(guó)科學(xué)研究院的陳天石博士(寒武紀(jì)創(chuàng)辦人)團(tuán)隊(duì)發(fā)表以 DianNao [10] 為名的人工智能專用加速芯片系列論文( 包含 DaDianNao [11] 、PuDianNao [12] 、ShiDianNao [13] 、Cambricon-X)，開啟人工智能加速專用芯片(ASIC)的研究領(lǐng)域。也在同年，英偉達(dá)發(fā)布首個(gè)為深度學(xué)習(xí)設(shè)計(jì)的 GPU 架構(gòu) Pascal，IBM 發(fā)布第二代 TrueNorth。

2015 年，Jason Cong 在當(dāng)年的國(guó)際FPGA大會(huì)上，發(fā)表1篇FPGA加速DNN算法的論文“Optimizing FPGA- based Accelerator Design for Deep Convolutional Neural Networks”，使得 FPGAs 迅速大火。很快地，2016 年，Google 發(fā)表 TensorFlow 框架設(shè)計(jì)的 TPU 芯片，而同年，采用 TPU 架構(gòu)的AlphaGo 出現(xiàn) ，并擊敗人類世界冠軍棋士李世石。還是在同年，寒武紀(jì)研發(fā)出 DIANNAO，F(xiàn)PGA 芯片在云計(jì)算平臺(tái)得到廣泛應(yīng)用。僅僅在 2017 年，谷歌TPU 2.0發(fā)布，加強(qiáng)了訓(xùn)練效能[14];英偉達(dá)發(fā)布Volta架構(gòu)，推進(jìn)GPU的效能大幅提升;華為麒麟970成為首個(gè)手機(jī) AI 芯片;清華大學(xué)魏少軍教授團(tuán)隊(duì)開發(fā)出Thinker 原型，并隨后推出在算力和能效方面具有國(guó)際水平的系列 Thinker 人工智能芯片。

人工智能芯片的分類

2.1 傳統(tǒng)CPU困局

自20個(gè)世紀(jì)60年代早期開始，CPU(中央處理器)開始出現(xiàn)并使用在計(jì)算機(jī)工業(yè)中。現(xiàn)如今，雖然CPU 在設(shè)計(jì)和實(shí)現(xiàn)上都發(fā)生了巨大變化，但是基于馮 · 諾依曼架構(gòu)的 CPU 基本工作原理卻一直沒(méi)有發(fā)生很大變化。如圖 1 所示，馮 · 諾依曼架構(gòu)分為中央處理單元(CPU)和存儲(chǔ)器，CPU主要由控制器和運(yùn)算器兩大部件組成[15]。在工作時(shí) ，CPU 每執(zhí)行一條指令都需要從存儲(chǔ)器中讀取數(shù)據(jù) ，根據(jù)指令對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的操作，因此CPU不僅負(fù)責(zé)數(shù)據(jù)運(yùn)算，而且需要執(zhí)行存儲(chǔ)讀取、指令分析、分支跳轉(zhuǎn)等命令。同時(shí)可以通過(guò)提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù) ，即主頻，來(lái)提升計(jì)算速度。但在人工智能深度學(xué)習(xí)領(lǐng)域中程序指令相對(duì)較少，但對(duì)大數(shù)據(jù)的計(jì)算需求很大，需要進(jìn)行海量的數(shù)據(jù)處理。當(dāng)用 CPU 執(zhí)行 AI 算法時(shí) ，CPU 將花費(fèi)大量的時(shí)間在數(shù)據(jù)/指令的讀取分析上，在一定的功耗前提下，不能夠通過(guò)無(wú)限制的加快CPU 頻率和內(nèi)存帶寬來(lái)達(dá)到指令執(zhí)行速度無(wú)限制的提升。因此在這種情形下，傳統(tǒng) CPU 結(jié)構(gòu)缺點(diǎn)明顯，在人工智能芯片領(lǐng)域中的算力瓶頸問(wèn)題很難解決。

2.2 人工智能芯片中的后CPU時(shí)代

基于 CPU 的算力問(wèn)題，近年來(lái)人工智能芯片領(lǐng)域的科學(xué)家們進(jìn)行了富有成果的廣泛研究，主要集中在 AI 芯片目前的兩種發(fā)展方向。一個(gè)方向是繼續(xù)延續(xù)經(jīng)典的馮 · 諾依曼計(jì)算架構(gòu) ，以加速計(jì)算能力為發(fā)展目標(biāo)，主要分為并行加速計(jì)算的GPU(圖形處理單元)、半定制化的 FPGA(現(xiàn)場(chǎng)可編程門陣列)、全定制化的 ASIC(專用集成電路)。另一個(gè)方向就是顛覆傳統(tǒng)的馮 · 諾依曼計(jì)算架構(gòu) ，采用基于類腦神經(jīng)結(jié)構(gòu)的神經(jīng)擬態(tài)芯片來(lái)解決算力問(wèn)題。下面將對(duì)這兩個(gè)方向的人工智能芯片特點(diǎn)進(jìn)行詳細(xì)描述。

2.2.1 按架構(gòu)分類

(1)圖形處理單元(graphics processing unit ，GPU)。GPU 是相對(duì)較早的加速計(jì)算處理器，具有速度快、芯片編程靈活簡(jiǎn)單等特點(diǎn)。由于傳統(tǒng)CPU 的計(jì)算指令遵循串行執(zhí)行方式，不能發(fā)揮出芯片的全部潛力，而 GPU 具有高并行結(jié)構(gòu) ，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率。在結(jié)構(gòu)上，CPU 主要由控制器和寄存器組成，而 GPU 則擁有更多的邏輯運(yùn)算單元(arithmetic logic unit，ALU)用于數(shù)據(jù)處理，這樣的結(jié)構(gòu)更適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理，程序在 GPU 系統(tǒng)上的運(yùn)行速度相較于單核 CPU 往往提升幾十倍乃至上千倍。同時(shí) ，GPU擁有了更加強(qiáng)大的浮點(diǎn)運(yùn)算能力，可以緩解深度學(xué)習(xí)算法的訓(xùn)練難題，釋放人工智能的潛能。但是GPU 也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分，GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候，并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來(lái) 。

(2)現(xiàn)場(chǎng)可編程門陣列(field programmable gatearray ，F(xiàn)PGA )。FPGA 是在 PAL 、GAL 、CPLD 等可編程器件基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。其基本原理是在FPGA 芯片內(nèi)集成大量的基本門電路以及存儲(chǔ)器，用戶可以通過(guò)更新FPGA配置文件(即燒入)來(lái)定義這些門電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的，因此，它既解決了定制電路靈活性的不足，又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。與GPU 不同，F(xiàn)PGA 同時(shí)擁有進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算的能力，適用于以硬件流水線方式處理一條數(shù)據(jù) ，且整數(shù)運(yùn)算性能更高，因此常用于深度學(xué)習(xí)算法中的推斷階段。不過(guò) FPGA 通過(guò)硬件的配置實(shí)現(xiàn)軟件算法，因此在實(shí)現(xiàn)復(fù)雜算法方面有一定的難度。

將FPGA和CPU對(duì)比可以發(fā)現(xiàn)兩個(gè)特點(diǎn)，一是FPGA沒(méi)有內(nèi)存和控制所帶來(lái)的存儲(chǔ)和讀取部分，速度更快，二是FPGA沒(méi)有讀取指令操作，所以功耗更低。劣勢(shì)是價(jià)格比較高，編程復(fù)雜，整體運(yùn)算能力不是很高。功耗方面，從體系結(jié)構(gòu)而言，F(xiàn)PGA 也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中，執(zhí)行單元(如CPU核)執(zhí)行任意指令，都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與運(yùn)行，而FPGA每個(gè)邏輯單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定，不需要指令，無(wú)需共享內(nèi)存，從而可以極大地降低單位執(zhí)行的功耗，提高整體的能耗比。FPGA最值得注意的例子可能是 CNP [16] ，它進(jìn)一步改進(jìn)并重命名為 NeuFlow [17] ，后來(lái)改編為 nn-X [18]。這些設(shè)計(jì)可以實(shí)現(xiàn) 10~100 KM/s 操作(GOPS)，功率僅為10W以下。

(3)專用集成電路(application-specific integratedcircuit，ASIC)。目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求，主要采用GPU、FPGA等已有的適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí) ，使用這類 GPU 、FPGA 已有的通用芯片可以避免專門研發(fā)定制芯片( ASIC )的高投入和高風(fēng)險(xiǎn)。但是，由于這類通用芯片設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí) ，因而天然存在性能、功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大，這類問(wèn)題日益突顯。

GPU 作為圖像處理器，設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算。因此，在應(yīng)用于深度學(xué)習(xí)算法時(shí)無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和推斷兩個(gè)計(jì)算環(huán)節(jié) ，GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效，但對(duì)于單一輸入進(jìn)行推斷的場(chǎng)合，并行度的優(yōu)勢(shì)不能完全發(fā)揮。其次，GPU采用SIMT計(jì)算模式，硬件結(jié)構(gòu)相對(duì)固定，無(wú)法靈活配置硬件結(jié)構(gòu) 。此外，運(yùn)行深度學(xué)習(xí)算法能效低于FPGA。

雖然 FPGA 倍受看好，但其畢竟不是專門為了適用深度學(xué)習(xí)算法而研發(fā) ，實(shí)際應(yīng)用中為了實(shí)現(xiàn)可重構(gòu)特性，F(xiàn)PGA 內(nèi)部有大量極細(xì)粒度的基本單元，但是每個(gè)單元的計(jì)算能力都遠(yuǎn)低于 CPU 和 GPU 中的ALU 模塊;其次，為實(shí)現(xiàn)可重構(gòu)特性，F(xiàn)PGA 內(nèi)部大量資源被用于可配置的片上路由與連線，因此計(jì)算資源占比相對(duì)較低;再者，速度和功耗相對(duì)專用定制芯片(ASIC)仍然存在不小差距;而且FPGA價(jià)格較為昂貴，在規(guī)模放量的情況下單塊FPGA的成本要遠(yuǎn)高于專用定制芯片。

因此，隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展，以及人工智能專用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟，全定制化人工智能 ASIC 也逐步體現(xiàn)出自身的優(yōu)勢(shì)。ASIC是專用定制芯片，定制的特性有助于提高ASIC 的性能功耗比，缺點(diǎn)是電路設(shè)計(jì)需要定制，相對(duì)開發(fā)周期長(zhǎng) ，功能難以擴(kuò)展。但在功耗、可靠性、集成度等方面都有優(yōu)勢(shì) ，尤其在要求高性能、低功耗的移動(dòng)應(yīng)用端體現(xiàn)明顯。比如谷歌的 TPU、寒武紀(jì)的 GPU ，地平線的 BPU 都屬于 ASIC 芯片。

(4)神經(jīng)擬態(tài)芯片(類腦芯片)。在人工智能芯片中，傳統(tǒng)的馮·諾依曼架構(gòu)存在著“馮·諾依曼瓶頸”，它降低了系統(tǒng)的整體效率和性能[19]。為了從根本上克服這個(gè)問(wèn)題，神經(jīng)形態(tài)計(jì)算近年來(lái)已成為基于馮 · 諾依曼系統(tǒng)的這些傳統(tǒng)計(jì)算架構(gòu)的最有吸引力的替代方案。術(shù)語(yǔ)“神經(jīng)形態(tài)計(jì)算”首先由Mead[20] 在 1990 年提出，它是一種受大腦認(rèn)知功能啟發(fā)的新計(jì)算范式。與傳統(tǒng)的 CPU / GPU 不同，生物腦(例如哺乳動(dòng)物的大腦)能夠以高效率和低功耗在小區(qū)域中并行處理大量信息。因此，神經(jīng)形態(tài)計(jì)算的最終目標(biāo)是開發(fā)神經(jīng)形態(tài)硬件加速器，模擬高效生物信息處理，以彌合網(wǎng)絡(luò)和真實(shí)大腦之間的效率差距[21] ，這被認(rèn)為是下一代人工智能的主要驅(qū)動(dòng)力。

神經(jīng)擬態(tài)芯片不采用經(jīng)典的馮 · 諾依曼架構(gòu) ，而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計(jì) ，是模擬生物神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)制，如果將神經(jīng)元和突觸權(quán)重視為大腦的“處理器”和“記憶”，它們會(huì)分布在整個(gè)神經(jīng)皮層[22]。神經(jīng)擬態(tài)計(jì)算從結(jié)構(gòu)層面去逼近大腦，其研究工作可分為兩個(gè)層次，一是神經(jīng)網(wǎng)絡(luò)層面，與之相應(yīng)的是神經(jīng)擬態(tài)架構(gòu)和處理器，以 IBM Truenorth 為代表，這種芯片把定制化的數(shù)字處理內(nèi)核當(dāng)作神經(jīng)元，把內(nèi)存作為突觸。

其邏輯結(jié)構(gòu)與傳統(tǒng)馮·諾依曼結(jié)構(gòu)不同:內(nèi)存、CPU和通信部件完全集成在一起，因此信息的處理在本地進(jìn)行，克服了傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU 之間的速度瓶頸問(wèn)題。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通，只要接收到其他神經(jīng)元發(fā)過(guò)來(lái)的脈沖(動(dòng)作電位)，這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作;二是神經(jīng)元與神經(jīng)突觸層面，與之相應(yīng)的是元器件層面的創(chuàng)新。如 IBM 蘇黎世研究中心宣布制造出世界上首個(gè)人造納米尺度的隨機(jī)相變神經(jīng)元，可實(shí)現(xiàn)高速無(wú)監(jiān)督學(xué)習(xí) 。

當(dāng)前，最先進(jìn)的神經(jīng)擬態(tài)芯片仍然遠(yuǎn)離人類大腦的規(guī)模(1010個(gè)神經(jīng)元，每個(gè)神經(jīng)元有103~104個(gè)突觸)，至多達(dá)到104 倍，如表1所示。為了達(dá)到在人腦中規(guī)模，應(yīng)將多個(gè)神經(jīng)擬態(tài)芯片集成在電路板或背板上，以構(gòu)成超大規(guī)模計(jì)算系統(tǒng)。神經(jīng)擬態(tài)芯片的設(shè)計(jì)目的不再僅僅局限于加速深度學(xué)習(xí)算法，而是在芯片基本結(jié)構(gòu)甚至器件層面上改變?cè)O(shè)計(jì) ，希望能夠開發(fā)出新的類腦計(jì)算機(jī)體系結(jié)構(gòu)，比如采用憶阻器和 ReRAM 等新器件來(lái)提高存儲(chǔ)密度。這類芯片技術(shù)尚未完全成熟，離大規(guī)模應(yīng)用還有很長(zhǎng)的距離，但是長(zhǎng)期來(lái)看類腦芯片有可能會(huì)帶來(lái)計(jì)算機(jī)體系結(jié)構(gòu)的革命。

2.2.2 按功能分類

根據(jù)機(jī)器學(xué)習(xí)算法步驟，可分為訓(xùn)練(training)和推斷( inference )兩個(gè)環(huán)節(jié) 。訓(xùn)練環(huán)節(jié)通常需要通過(guò)大量的數(shù)據(jù)輸入，訓(xùn)練出一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練過(guò)程由于涉及海量的訓(xùn)練數(shù)據(jù)和復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) ，運(yùn)算量巨大，需要龐大的計(jì)算規(guī)模，對(duì)于處理器的計(jì)算能力、精度、可擴(kuò)展性等性能要求很高。目前市場(chǎng)上通常使用英偉達(dá)的 GPU 集群來(lái)完成，Google 的TPU2.0 也支持訓(xùn)練環(huán)節(jié)的深度網(wǎng)絡(luò)加速。

推斷環(huán)節(jié)是指利用訓(xùn)練好的模型，使用新的數(shù)據(jù)去“推斷”出各種結(jié)論。這個(gè)環(huán)節(jié)的計(jì)算量相對(duì)訓(xùn)練環(huán)節(jié)少很多，但仍然會(huì)涉及到大量的矩陣運(yùn)算。在推斷環(huán)節(jié)中，除了使用 CPU 或 GPU 進(jìn)行運(yùn)算外，F(xiàn)PGA 以及 ASIC 均能發(fā)揮重大作用。表 2 是 4 種技術(shù)架構(gòu)的芯片在人工智能系統(tǒng)開發(fā)上的對(duì)比。

2.2.3 按應(yīng)用場(chǎng)景分類

主要分為用于服務(wù)器端(云端)和用于移動(dòng)端( 終端 )兩大類。

服務(wù)器端：在深度學(xué)習(xí)的訓(xùn)練階段，由于數(shù)據(jù)量及運(yùn)算量巨大，單一處理器幾乎不可能獨(dú)立完成 1 個(gè)模型的訓(xùn)練過(guò)程，因此，負(fù)責(zé) AI 算法的芯片采用的是高性能計(jì)算的技術(shù)路線，一方面要支持盡可能多的網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力;另一方面必須支持浮點(diǎn)數(shù)運(yùn)算;而且為了能夠提升性能必須支持陣列式結(jié)構(gòu)(即可以把多塊芯片組成一個(gè)計(jì)算陣列以加速運(yùn)算)。在推斷階段，由于訓(xùn)練出來(lái)的深度神經(jīng)網(wǎng)絡(luò)模型仍非常復(fù)雜，推斷過(guò)程仍然屬于計(jì)算密集型和存儲(chǔ)密集型，可以選擇部署在服務(wù)器端。

移動(dòng) 端( 手機(jī) 、智能家居、無(wú) 人車等 ):移動(dòng) 端 AI芯片在設(shè)計(jì)思路上與服務(wù)器端 AI 芯片有著本質(zhì)的區(qū)別。首先，必須保證很高的計(jì)算能效;其次，在高級(jí)輔助駕駛 ADAS 等設(shè)備對(duì)實(shí)時(shí)性要求很高的場(chǎng)合，推斷過(guò)程必須在設(shè)備本身完成，因此要求移動(dòng)端設(shè)備具備足夠的推斷能力。而某些場(chǎng)合還會(huì)有低功耗、低延遲、低成本的要求，從而導(dǎo)致移動(dòng)端的 AI 芯片多種多樣。

人工智能芯片研究現(xiàn)狀

3.1 研究背景

人工智能芯片的核心為神經(jīng)網(wǎng)絡(luò)算法的實(shí)現(xiàn)。深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)在自然語(yǔ)言處理、機(jī)器視覺、語(yǔ)音識(shí)別、醫(yī)學(xué)影像分析等眾多人工智能領(lǐng)域取得了重大突破[28-29]。深度學(xué)習(xí)主要分為傳統(tǒng)卷積神經(jīng) 網(wǎng) 絡(luò)( CNN )和遞歸神經(jīng) 網(wǎng) 絡(luò)( RNN )，其依賴于大數(shù)據(jù)集的反復(fù)訓(xùn)練和大量浮點(diǎn)運(yùn)算推理運(yùn)算，這對(duì)計(jì)算機(jī)算力要求較高，訓(xùn)練時(shí)間長(zhǎng) ，功耗極大。以Alpha Go 為例，其基于 1 920 個(gè)中央處理單元和 280個(gè)圖形處理單元，功耗為 1 MW ，這幾乎是人腦能耗(~20 W)的5萬(wàn)倍。近年來(lái)，人工智能被視為有極大的潛力應(yīng)用于物聯(lián)網(wǎng)和邊緣計(jì)算領(lǐng)域中，因此需要具備高能效、快速預(yù)測(cè) ，在線學(xué)習(xí)的能力，以避免向后端或服務(wù)器發(fā)送大量的數(shù)據(jù)[30-32]。

人工智能算法、架構(gòu) 、電路、器件等各個(gè)層面得到了很大的改進(jìn)和優(yōu)化，以減少推理的能量消耗，同時(shí)保持分類精度等性能指標(biāo)[30，32-34]。通過(guò)定制 ASIC 設(shè)計(jì)實(shí)現(xiàn)節(jié)能推理硬件加速器的工作已經(jīng)實(shí)現(xiàn)了相當(dāng)高的能效(1 TFlops/W)，但基于反向傳播的深度學(xué)習(xí)算法需要頻繁地從遠(yuǎn)程傳播誤差信號(hào) ，因此很難實(shí)現(xiàn)有效的在線學(xué)習(xí)。由于能量效率低下和缺乏有效的在線學(xué)習(xí)方法，以 CNN 和 RNN 為代表的許多深度學(xué)習(xí)算法不適合以事件驅(qū)動(dòng)和對(duì)能效要求極高的新興人工智能應(yīng)用，例如物聯(lián)網(wǎng)智能傳感器和邊緣計(jì)算等[31-32，35] 。

在此背景下，人工智能領(lǐng)域科學(xué)家提出脈沖神經(jīng)網(wǎng)絡(luò)(SNN)，其被譽(yù)為第三代人工神經(jīng)網(wǎng)絡(luò) 。

SNN 在神經(jīng)元模型之間使用時(shí)序脈沖序列來(lái)表示、傳輸和處理信息，來(lái)保證了更快的在線學(xué)習(xí)和更高的能量效率。相比傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(CNN和RNN)，SNN 具備了更多獨(dú)特的仿腦特性，包括信息的脈沖表示、事件驅(qū)動(dòng)的信息處理和基于脈沖的局部學(xué)習(xí)規(guī)則等，更加接近于生物神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)和記憶機(jī)制。因此，由于脈沖神經(jīng)網(wǎng)絡(luò)其快速的在線學(xué)習(xí) 、極高的能量效率、與人腦的高度相似性，近年來(lái)是人工智能科學(xué)領(lǐng)域極具科學(xué)意義的研究課題[36-37] 。

3.2 研究現(xiàn)狀

近年來(lái) ，世界上著名的學(xué)術(shù)研究機(jī)構(gòu)和國(guó)際半導(dǎo)體公司都在積極研究和開發(fā)基于脈沖的神經(jīng)擬態(tài)電路[38-45]。如表 3 所示，基于 SNN 的神經(jīng)擬態(tài)計(jì)算硬件比基于傳統(tǒng) DNN 的硬件加速器具有更高的能量效率。大多數(shù)最先進(jìn)的神經(jīng)擬態(tài)計(jì)算芯片[39-41 ，44]都是基于成熟的 CMOS 硅技術(shù)對(duì) SNN 進(jìn)行 ASIC 設(shè)計(jì) ，通過(guò) SRAM 等存儲(chǔ)器模擬實(shí)現(xiàn)人工突觸，并利用關(guān)鍵的數(shù)字或模擬電路仿生實(shí)現(xiàn)人工神經(jīng)元。其中最具有代表性的是 IBM 公司研發(fā)的基于 CMOS 多核架構(gòu) TrueNorth 芯片[40] ，當(dāng)模擬 100 萬(wàn)個(gè)神經(jīng)元和2億5000萬(wàn)個(gè)突觸時(shí)，該芯片僅消耗70mW的功耗，每個(gè)突觸事件僅消耗 26 pJ 的極高能量效率。然而，為了模仿生物突觸和神經(jīng)元的類腦特性，電子突觸和神經(jīng)元需要高度復(fù)雜的 CMOS 電路來(lái)實(shí)現(xiàn)所需的人工突觸和神經(jīng)元的功能，如圖 2 所示。

以 IBM 的 TrueNorth 芯片為例，它包含 54 億個(gè)晶體管，在 28nm 工藝下占據(jù) 4.3 cm2 的面積。因此，這一類基于脈沖的神經(jīng)擬態(tài) CMOS 硬件電路使用大量的晶體管，并導(dǎo)致耗費(fèi)非常大的芯片面積。加之，現(xiàn)有的大多數(shù)神經(jīng)擬態(tài)芯片[39-41 ，44] 由于其計(jì)算單元與存儲(chǔ)單元在局部依然是分離的，這在用于神經(jīng)元的 CMOS 邏輯電路和用于突觸的 SRAM 電路之間依然存在局部的存儲(chǔ)壁壘問(wèn)題和能量效率問(wèn)題，所以實(shí)際上還不是真正意義上的非馮 · 諾依曼體系結(jié)構(gòu)。不過(guò)最新的具有三維堆疊能力的非易失性存儲(chǔ)器(NVM)技術(shù)或存內(nèi)計(jì)算技術(shù)(in-memorycomputing )有望解決這一問(wèn)題。

另一項(xiàng)由 IBM 開發(fā)的基于新型 NVM 技術(shù)的脈沖神經(jīng)網(wǎng)絡(luò)功能芯片[42] 證明了在非馮 · 諾依曼體系結(jié)構(gòu)中使用相變存儲(chǔ)器(PCRAM)這一創(chuàng)新的 NVM技術(shù)能夠?qū)崿F(xiàn)極低的能耗(僅為 0.9 pJ/bit)。由占據(jù)在交叉點(diǎn)的相變存儲(chǔ)電阻組成了十字交叉整列結(jié)構(gòu) ，連同 CMOS 模擬電路一起實(shí)現(xiàn)脈沖時(shí)序依賴可塑性(STDP)學(xué)習(xí)規(guī)則的突觸可塑性功能和帶泄漏積分放電(LIF)的神經(jīng)元功能，如圖 3 所示。但是，由于預(yù)測(cè)精度的問(wèn)題，該芯片只能執(zhí)行簡(jiǎn)單的應(yīng)用任務(wù) ，完成基本模式的聯(lián)想學(xué)習(xí)。IBM 的基于脈沖的神經(jīng)擬態(tài)芯片反映了在人工神經(jīng)元和突觸，以及新興的 NMV 技術(shù)的研究領(lǐng)域里最新的科研進(jìn)展。

在借鑒國(guó)外研究工作的同時(shí) ，我國(guó)也大力發(fā)展基于脈沖的神經(jīng)擬態(tài)芯片研究。清華大學(xué)團(tuán)隊(duì)提出一款基于 CMOS 技術(shù)的多核架構(gòu)類腦芯片天機(jī)一號(hào)[44] ，實(shí)現(xiàn)了支持 LIF 的人工神經(jīng)元功能。北京大學(xué)團(tuán)隊(duì)提出了一種基于憶阻器陣列的神經(jīng)擬態(tài)芯片[45] ，實(shí)現(xiàn)了簡(jiǎn)化的 LIF 功能和簡(jiǎn)單的赫伯學(xué)習(xí)機(jī)制。憶阻器是一種新型的 NVM 器件，具有獨(dú)特的模擬特性和可擴(kuò)展性，并且由于其出色的能耗效率和器件特性，可以進(jìn)一步提高神經(jīng)擬態(tài)芯片的集成規(guī)模和整體效能[46-52] 。

至今基于脈沖的神經(jīng)擬態(tài)芯片的主要研究方法是通過(guò)對(duì)生物神經(jīng)科學(xué)中已發(fā)現(xiàn)的生物行為特征進(jìn)行直接模擬和仿生實(shí)現(xiàn) ，包括算法建模、電路創(chuàng)新、新型器件技術(shù)等各個(gè)層面的研究和探索。雖然基于神經(jīng)擬態(tài)計(jì)算算法的人工智能芯片技術(shù)近年來(lái)已得到很大的發(fā)展和進(jìn)步，但是依然難以實(shí)現(xiàn)所有的已知生物學(xué)習(xí)機(jī)制，僅通過(guò)對(duì) SNN 模型的優(yōu)化來(lái)達(dá)到近似或模仿一些生物現(xiàn)象從而實(shí)現(xiàn)一些簡(jiǎn)單的學(xué)習(xí)功能，比如路徑規(guī)劃和手寫識(shí)別。這些簡(jiǎn)化的類腦模型包括基于脈沖時(shí)序依賴的更新規(guī)則的突觸模型和基于確定的線性積分放電動(dòng)態(tài)的神經(jīng)元模型[40-41] 。

人工智能芯片產(chǎn)業(yè)現(xiàn)狀

4.1 產(chǎn)業(yè)現(xiàn)狀評(píng)述

AI 芯片是芯片產(chǎn)業(yè)和人工智能產(chǎn)業(yè)整合的關(guān)鍵，特別是 AI 系統(tǒng)芯片。根據(jù) Gartner 的預(yù)測(cè)數(shù)據(jù) ，未來(lái) 5 年內(nèi)全球人工智能芯片市場(chǎng)規(guī)模將呈飆升趨勢(shì) ，自 2018 年的 42.7 億美元，升高至 343 億美元，增長(zhǎng)已超過(guò)7倍，可見AI芯片市場(chǎng)有較大增長(zhǎng)空間，如圖4所示。

對(duì)于中國(guó) AI 芯片市場(chǎng) ，根據(jù)中國(guó)信通院的數(shù)據(jù)報(bào)告，中國(guó)的人工智能市場(chǎng)規(guī)模預(yù)計(jì)在 2018 年超過(guò)300 億人民幣，而 2019 年后將超過(guò) 500 億人民幣。市場(chǎng)年度增長(zhǎng)率，將從 2017 年的 52.8%上升至 2018 年的 56.3% ，隨后逐年下降，在 2020 年降至 42.0%。其中，2017 年芯片銷售額占人工智能市場(chǎng)規(guī)模的 22% ，約47.7億人民幣，如圖5所示。

現(xiàn)今，中國(guó)已有超過(guò) 20 家以上的新創(chuàng) AI 芯片設(shè)計(jì)企業(yè) ，融資總額超過(guò) 30 億美元。AI 芯片行業(yè)生命周期正處于幼稚期，市場(chǎng)增長(zhǎng)快，至 2022 年將從2018 年的 42.7 億美元，發(fā)展至 343 億美元，但芯片企業(yè)與客戶的合作模式仍在探索中。為了生存，行業(yè)逐漸出現(xiàn)上下游整合的趨勢(shì)。云端(含邊緣端)服務(wù)器、智慧型手機(jī)和物聯(lián)網(wǎng)終端設(shè)備等 3 個(gè)場(chǎng)景，是目前 AI 芯片企業(yè)的主要落地市場(chǎng) ，少數(shù)企業(yè)則是面向未來(lái)的自動(dòng)駕駛汽車市場(chǎng)。這些市場(chǎng)都具有千萬(wàn)量級(jí)出貨量或百億美元銷售額等特征。

然而，中國(guó)長(zhǎng)期面臨集成電路的進(jìn)口額大于出口額的情況，根據(jù)海關(guān)總署的統(tǒng)計(jì) ，如圖 6 所示，2018 年進(jìn)口總額正式突破 3 000 億美元，約達(dá) 3 121 億美元，同比 2017 年增長(zhǎng)了 19.8%。相較之下，集成電路的出口總額在 2018 年時(shí)僅 846 億美元，尚不到進(jìn)口額的1/3 ，而同年原油進(jìn)口額約為 2 400 億美元，由此可見，中國(guó)極度依賴于國(guó)外芯片制造商。目前國(guó)內(nèi)芯片制造技術(shù)尚待提高，但由于半導(dǎo)體的分工模式相當(dāng)成熟，國(guó)內(nèi)芯片設(shè)計(jì)企業(yè)并不需要擔(dān)心芯片生產(chǎn)問(wèn)題。

4.2 AI 芯片產(chǎn)業(yè)鏈

AI 芯片產(chǎn)業(yè)鏈主要分成設(shè)計(jì)—制造/封測(cè)—系統(tǒng)。

（1）上游：主要是芯片設(shè)計(jì)，按商業(yè)模式，可再細(xì)分成 3 種:IP 設(shè)計(jì) 、芯片設(shè)計(jì)代工和芯片設(shè)計(jì)。IP設(shè)計(jì)即設(shè)計(jì)芯片用的 IP 核(IP core)。

(2)中游:包含兩大類，分別是晶圓制造和封裝測(cè)試，晶圓不僅是在封裝時(shí)測(cè)試，制造后也會(huì)有一次測(cè)試，封裝后再有一次。

(3)下游：分成銷售和系統(tǒng)集成(systemintegration)企業(yè) ，其中提供軟硬件集成解決方案的企業(yè)會(huì)被歸屬在系統(tǒng)集成商中，例如人工智能解決方案商。

4.3 AI芯片商業(yè)模式

按半導(dǎo)體上游與中游的集成與否，市場(chǎng)分成兩種商業(yè)模式。

(1)垂直集成模式:又稱 IDM，歸屬于該模式的企業(yè)業(yè)務(wù)同時(shí)包含設(shè)計(jì)和制造/封測(cè)。IDM 模式的代表企業(yè)是英特爾和三星。

(2)垂直分工模式:采取分工模式的企業(yè)僅只專營(yíng)一項(xiàng)業(yè)務(wù) ，比如英偉達(dá)和華為海思僅有芯片設(shè)計(jì) ，沒(méi)有制造業(yè)務(wù)，稱作Fabless;而臺(tái)積電和中芯國(guó)際僅代工制造，不涉及芯片設(shè)計(jì) ，稱作Foundry。

4.4 AI芯片設(shè)計(jì)產(chǎn)業(yè)模式

芯片設(shè)計(jì)的產(chǎn)業(yè)模式分為 IP 設(shè)計(jì) 、芯片設(shè)計(jì)代工和芯片設(shè)計(jì)3種。

(1)IP 設(shè)計(jì)：IP 設(shè)計(jì)相較于芯片設(shè)計(jì)是在產(chǎn)業(yè)鏈的更頂層，以IP核授權(quán)收費(fèi)為主。傳統(tǒng)的IP核授權(quán)企業(yè)以安謀(Arm)為代表，新創(chuàng)的 AI 芯片企業(yè)雖然也可設(shè)計(jì)出新型 IP 核，但因授權(quán)模式不易以規(guī)模效應(yīng)創(chuàng)造出可觀的收入，新創(chuàng)企業(yè)一般不以此作為主要盈利模式。另外還有提供自動(dòng)化設(shè)計(jì)(EDA tool)和芯片設(shè)計(jì)驗(yàn)證工具的 Cadence 和 Synopsys ，也在積極部署人工智能專用芯片領(lǐng)域。

(2)芯片設(shè)計(jì)代工：芯片設(shè)計(jì)代工和制造業(yè)的代工一樣，提供設(shè)計(jì)代工服務(wù)的企業(yè) ，并不能在產(chǎn)品上貼上自己的標(biāo)簽，也不能對(duì)外宣稱該產(chǎn)品由自己設(shè)計(jì)。芯原科技已經(jīng)從事相關(guān)服務(wù)多年，也和恩智浦( NXP )有合作關(guān)系。

(3)芯片設(shè)計(jì)：大部分的人工智能新創(chuàng)企業(yè)是以芯片設(shè)計(jì)為主，但在這個(gè)領(lǐng)域中存在傳統(tǒng)強(qiáng)敵，如英偉達(dá) 、英特爾、賽靈思( Xilinx )和恩智浦，因而目前只有少數(shù)新創(chuàng) AI 芯片設(shè)計(jì)企業(yè)會(huì)進(jìn)入傳統(tǒng)芯片企業(yè)的產(chǎn)品領(lǐng)域，例如，寒武紀(jì)與英偉達(dá)競(jìng)爭(zhēng)服務(wù)器芯片市場(chǎng) ，地平線與英偉達(dá)及恩智浦競(jìng)爭(zhēng)自動(dòng)駕駛芯片市場(chǎng)，其余企業(yè)則是在物聯(lián)網(wǎng)場(chǎng)景上布局，像是提供語(yǔ)音辨識(shí)芯片的云知聲，提供人臉辨識(shí)芯片的中星微，以及提供邊緣計(jì)算芯片的耐能科技。

半導(dǎo)體的垂直分工模式雖有助于純芯片設(shè)計(jì)企業(yè)的生存，不過(guò)單一芯片難以單獨(dú)實(shí)現(xiàn)復(fù)雜功能，于是有些企業(yè)開始提供芯片集成服務(wù) ，集成后的產(chǎn)品稱作系統(tǒng)或 IC(integrated circuit)模塊，在人工智能領(lǐng)域則稱為 AI 系統(tǒng)或 AI 模塊。一般而言，人工智能企業(yè)會(huì)同時(shí)提供算法和芯片的集成服務(wù) ，該類企業(yè)通常被稱為“人工智能方案解決商”，或稱AI一站式服務(wù)(AI Turnkey)。

4.5 AI 芯片產(chǎn)品類型

根據(jù)集成的產(chǎn)品類型可再分成兩類，即硬件集成和軟件集成。(1)硬件集成:將不同功能的芯片集成于同一塊電路板(PCB)上，即被稱為硬件集成，其中會(huì)包含核心處理器、協(xié)處理器(加速芯片)、存儲(chǔ)器和其他零件。硬件集成初級(jí)的產(chǎn)品是板上系統(tǒng)(system onboard )，但終極目標(biāo)是將多個(gè)芯片集成在一塊芯片上形成系統(tǒng)芯片，或稱片上系統(tǒng)(system on chip)，如圖7所示。

(2)軟件集成:根據(jù)集成硬件的需求或純粹軟件集成的需求，軟體工程師將不同軟件(software)和固件( firmware )集成起來(lái)安裝到板上系統(tǒng)或片上系統(tǒng)中。因 AI 芯片設(shè)計(jì)的難度并沒(méi)有過(guò)往的 CPU 高，為增加行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì) ，人工智能企業(yè)除本身提供的系統(tǒng)集成服務(wù)外，也開始往芯片設(shè)計(jì)方向整合。與此同時(shí) ，AI 芯片企業(yè)為了加速產(chǎn)品落地，減少尋找客戶的難度，會(huì)同時(shí)兼任芯片企業(yè)和集成商這兩種身份。于是，目前行業(yè)呈現(xiàn)人工智能與芯片產(chǎn)業(yè)雙向整合的情況。整合后的 AI 系統(tǒng)集成商可以將更高性能、更低價(jià)格、更低功耗的系統(tǒng)芯片( 片上系統(tǒng))方案提供給客戶。

4.6 存在的問(wèn)題

因系統(tǒng)芯片開發(fā)技術(shù)復(fù)雜，人才缺口成為首要難題。系統(tǒng)芯片設(shè)計(jì)的關(guān)鍵技術(shù)包含但不限于以下 6 項(xiàng):(1)總線架構(gòu)技術(shù);(2)IP 核可復(fù)用技術(shù);(3)軟硬件協(xié)同設(shè)計(jì)技術(shù);(4)時(shí)序分析技術(shù);(5)驗(yàn)證技術(shù);(6)可測(cè)性設(shè)計(jì)技術(shù)。以上關(guān)鍵技術(shù)皆涉及跨學(xué)科知識(shí) ，且開發(fā)流程復(fù)雜，工序可多達(dá) 40個(gè)，每個(gè)工序都需要一位專業(yè)工程師負(fù)責(zé)執(zhí)行工作，開發(fā)過(guò)程需要前后反復(fù)多次驗(yàn)證設(shè)計(jì) ，避免流片失敗。

系統(tǒng)芯片(SoC)設(shè)計(jì)與 AI 加速芯片(ASIC)設(shè)計(jì)相比，前者的設(shè)計(jì)難度更高，兩者之間的差異主要表現(xiàn)在以下兩點(diǎn):第一，系統(tǒng)芯片設(shè)計(jì)需要更加了解整個(gè)系統(tǒng)的運(yùn)作，由此可更合理的定義芯片架構(gòu) ，使得軟硬件集成達(dá)到系統(tǒng)最佳工作狀態(tài)。第二，系統(tǒng)芯片設(shè)計(jì)是以 IP 核復(fù)用為基礎(chǔ) ，基于 IP 模塊的大規(guī)模集成電路設(shè)計(jì)是系統(tǒng)芯片實(shí)現(xiàn)的關(guān)鍵。綜上所述，系統(tǒng)芯片設(shè)計(jì)團(tuán)隊(duì)或以系統(tǒng)芯片為目標(biāo)創(chuàng)立的 AI芯片企業(yè) ，首先面臨的是人才技術(shù)儲(chǔ)備問(wèn)題，再來(lái)才是后續(xù)問(wèn)題。

4.7 AI芯片落地情況分析

現(xiàn)如今，云端與終端皆有 AI 芯片落地。其中服務(wù)器、手機(jī) 、智能家居、自動(dòng)駕駛是主要落地場(chǎng)景。由于 AI 芯片是實(shí)現(xiàn)人工智能用途或深度學(xué)習(xí)應(yīng)用的專用芯片，芯片與算法的結(jié)合程度高，因此接下來(lái)將會(huì)按照用途、部署位置以及應(yīng)用場(chǎng)景來(lái)討論 AI 芯片的落地及相關(guān)市場(chǎng)規(guī)模。

在人工智能的技術(shù)基礎(chǔ)上，深度學(xué)習(xí)算法對(duì)于使用者來(lái)說(shuō)會(huì)有“訓(xùn)練”和“推理”兩種用途，這是因?yàn)樯疃葘W(xué)習(xí)算法就如同人類的大腦一樣，需要經(jīng)過(guò)學(xué)習(xí)才能做出判斷，就像人要能辨識(shí)貓狗，首先需要學(xué)習(xí)了解貓狗的特征。因此，企業(yè)在部署人工智能設(shè)備時(shí) ，也會(huì)經(jīng)歷算法/模型訓(xùn)練，再進(jìn)行推理應(yīng)用。一般來(lái)說(shuō) ，如圖 8 所示，執(zhí)行訓(xùn)練任務(wù)的 AI 芯片僅會(huì)部署在云端和邊緣端上，而執(zhí)行推理任務(wù)的 AI 芯片會(huì)部署在云端、邊緣端和終端上，應(yīng)用范圍更廣，這是因?yàn)橥评淼乃懔π枨筝^低。應(yīng)用場(chǎng)景和深度學(xué)習(xí)算法的類型有關(guān)。

計(jì)算機(jī)視覺通常會(huì)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練模型，自然語(yǔ) 言處理( NLP )則會(huì) 使用循環(huán) 神經(jīng) 網(wǎng) 絡(luò)( RNN )訓(xùn)練模型，AI芯片也主要應(yīng)用于視覺和語(yǔ)言。但是，相較于 CNN 和 RNN 等較舊的算法，現(xiàn)在深度學(xué)習(xí)算法持續(xù)在演變中，因此行業(yè)應(yīng)用時(shí)并不局限于上述兩類算法。每家人工智能企業(yè)都有自己獨(dú)特的算法，AI 芯片企業(yè)也是一樣，會(huì)根據(jù)自己的改良算法來(lái)設(shè)計(jì)AI芯片。

4.7.1 云端市場(chǎng)

隨著云端市場(chǎng)需求不斷上升，服務(wù)器 AI 芯片的市場(chǎng)前景樂(lè)觀。按照 AI 芯片的部署位置，可簡(jiǎn)單將AI 芯片市場(chǎng)分成云端(邊緣端并入云端)市場(chǎng)和終端市場(chǎng)兩類，具有云計(jì)算需求的行業(yè)主要是金融業(yè) 、醫(yī)療服務(wù)業(yè) 、制造業(yè) 、零售/批發(fā)以及政府部門等 5 大行業(yè)。

根據(jù) IDC 數(shù)據(jù) ，如圖 9 所示，云計(jì)算需求增長(zhǎng)快速，在 2018~2019 年全球云計(jì)算支出將迎來(lái)大幅度增長(zhǎng) ，5 大行業(yè)的支出最低增長(zhǎng) 17.3% ，最高 26.3% ，其中以醫(yī)療業(yè)的需求最高，超 100 億美元。與此同時(shí) ，根據(jù) IDC 數(shù)據(jù) ，2018 年第三季度全球服務(wù)器設(shè)備的出貨量達(dá) 320 萬(wàn)臺(tái) ，營(yíng)收達(dá) 234 億美元以上，從出貨增長(zhǎng)率來(lái)看，2018 年全年?duì)I收達(dá) 1 000 億美元以上，遠(yuǎn)超過(guò) 2017 年?duì)I收 669 億美元。

云計(jì)算支出的快速增長(zhǎng) ，代表云計(jì)算的需求旺盛。服務(wù)器的出貨量持續(xù)提升，也意味著部署服務(wù)器的 AI 芯片的需求量跟著提升。由此可見，云端芯片的市場(chǎng)未來(lái)將快速增長(zhǎng) 。

4.7.2 終端市場(chǎng)

當(dāng)前的終端市場(chǎng)上，主要有兩大落地場(chǎng)景，一個(gè)是智慧型手機(jī) ，另一個(gè)是物聯(lián)網(wǎng)設(shè)備。手機(jī)又被稱作移動(dòng)端，在智慧型手機(jī)上，AI 芯片的主要任務(wù)是拍照后的圖像處理，以及協(xié)助智慧助理的語(yǔ)音處理。根據(jù) IDC 的數(shù)據(jù) ，全球智慧型手機(jī)出貨量已經(jīng)連續(xù)兩年超過(guò) 14 億部，其中全球前 5 大廠商中有 3 家是中國(guó)企業(yè)，按2018年出貨量由高到低排序依次為，華為2.06億部、小米1.23億部，和OPPO1.13億部。

除手機(jī)之外，物聯(lián)網(wǎng)也是當(dāng)前終端市場(chǎng)中重要的一部分。根據(jù) IDC 數(shù)據(jù) ，物聯(lián)網(wǎng)的市場(chǎng)主要在產(chǎn)業(yè)應(yīng)用上，制造業(yè) 、運(yùn)輸業(yè)和公用事業(yè)合計(jì)超過(guò)3 290億美元，其中消費(fèi)性產(chǎn)品(包含智能家居、穿戴設(shè)備、智慧座艙等)占1 080億美元。AI芯片在物聯(lián)網(wǎng)產(chǎn)品上的應(yīng)用主要有兩個(gè)用途，一個(gè)是視覺 AI芯片，另一個(gè)是語(yǔ)音 AI 芯片，但因?yàn)樽匀徽Z(yǔ)言處理的 AI 產(chǎn)品開發(fā)難度高，目前新創(chuàng) AI 芯片企業(yè)主要切入的市場(chǎng)是計(jì)算機(jī)視覺設(shè)備的落地場(chǎng)景，比如家庭安全設(shè)備。根據(jù) IDC 數(shù)據(jù) ，全球智能家居市場(chǎng)中的家庭安全設(shè)備出貨量已達(dá) 9 770 萬(wàn)臺(tái) ，而智能音箱也有 9 980 萬(wàn)臺(tái)設(shè)備，兩類設(shè)備至 2022 年都會(huì)增長(zhǎng)超過(guò)2 億以上。總而言之，物聯(lián)網(wǎng)在智能家居場(chǎng)景落地可以保證具有千萬(wàn)銷售量的市場(chǎng)。

未來(lái)，自動(dòng)駕駛將是終端芯片應(yīng)用的另一塊重要場(chǎng)景。根據(jù) MARKLINES 的數(shù)據(jù) ，2014 年中國(guó)汽車銷售量為 2 349.2 萬(wàn)輛，2018 年已增長(zhǎng)至 2 808.1 萬(wàn)輛。中國(guó)千萬(wàn)量級(jí)汽車銷售市場(chǎng)對(duì)于開發(fā)自動(dòng)駕駛技術(shù)的企業(yè)具有極大吸引力?？v然中國(guó)汽車銷售量已達(dá)千萬(wàn)量級(jí) ，但目前電動(dòng)車銷售量仍不及整體汽車銷售量的 10% ，而自動(dòng)駕駛技術(shù)的發(fā)展是以電動(dòng)車為主，電動(dòng)車市場(chǎng)有很大的增長(zhǎng)空間。

結(jié)論

目前，我國(guó)的人工智能芯片行業(yè)發(fā)展尚處于起步階段。長(zhǎng)期以來(lái)，中國(guó)在CPU、GPU、DSP處理器設(shè)計(jì)上一直處于追趕地位，絕大部分芯片設(shè)計(jì)企業(yè)依靠國(guó)外的 IP 核設(shè)計(jì)芯片，在自主創(chuàng)新上受到了極大的限制。然而，人工智能的興起，無(wú)疑為中國(guó)在處理器領(lǐng)域?qū)崿F(xiàn)彎道超車提供了絕佳的機(jī)遇。人工智能領(lǐng)域的應(yīng)用目前還處于面向行業(yè)應(yīng)用階段，生態(tài)上尚未形成壟斷，國(guó)產(chǎn)處理器廠商與國(guó)外競(jìng)爭(zhēng)對(duì)手在人工智能這一全新賽場(chǎng)上處在同一起跑線上。因此，基于新興技術(shù)和應(yīng)用市場(chǎng) ，中國(guó)在建立人工智能生態(tài)圈方面將大有可為。

由于我國(guó)特殊的環(huán)境和市場(chǎng) ，國(guó)內(nèi) AI 芯片的發(fā)展目前呈現(xiàn)出百花齊放、百家爭(zhēng)鳴的態(tài)勢(shì) ，AI 芯片的應(yīng)用領(lǐng)域也遍布股票交易、金融、商品推薦、安防、早教機(jī)器人以及無(wú)人駕駛等眾多領(lǐng)域，催生了大量的人工智能芯片創(chuàng)業(yè)公司，如北京地平線信息技術(shù)有限公司、北京深鑒科技有限公司、北京中科寒武紀(jì)科技有限公司等。盡管如此，國(guó)內(nèi)公司卻并未如國(guó)外大公司一樣形成市場(chǎng)規(guī)模，反而出現(xiàn)各自為政的散裂發(fā)展現(xiàn)狀。除了新興創(chuàng)業(yè)公司，國(guó)內(nèi)研究機(jī)構(gòu)如北京大學(xué) 、清華大學(xué) 、中國(guó)科學(xué)院等在 AI 芯片領(lǐng)域都有深入研究;而其他公司如百度和北京比特大陸科技有限公司等亦在積極布局人工智能芯片產(chǎn)業(yè) ?？梢灶A(yù)見，未來(lái)誰(shuí)先在人工智能領(lǐng)域掌握了生態(tài)系統(tǒng) ，誰(shuí)就掌握住了這個(gè)產(chǎn)業(yè)的主動(dòng)權(quán) 。

參考文獻(xiàn)
[ 1 ] YANN L C, CORTES C. The MNIST database of hand-written digits[EB/OL].[2019-02-26].  /exdb/mnist/.
[ 2 ] TAIGMAN Y, YANG M, RANZATO M A, et al. Deep- face: Closing the gap to humanlevel performance in face verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1701-1708.
[ 3 ] Amazon Alexa. Ways to build with Alexa[EB/OL]. [EB/ OL]. [2019-02-24]. .
[ 4 ] Apple Siri. Siri does more than ever, even before you ask [EB/OL]. [2019-02-24]. .
[ 5 ] Microsoft Cortana Personal Assistant. Cortana. Your intelligent assistant across your life [EB/OL]. [2019-02-24]. .
[ 6 ] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System[C]// ICRA workshop on open source software. 2009: 5.
[ 7 ] URMSON C, BAGNELL J A, BAKER C R, et al. Tartan racing: a multi- modal approach to the DARPA urban challenge[R]. Technical report, Carnegie Mellon University, 2007.
[ 8 ] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[ 9 ] EMILIO M, MOISES M, GUSTAVO R, et al. Pac-mAnt: optimization based on ant colonies applied to developing an agent for Ms. Pac- Man[C]// IEEE Symposium on Computational Intelligence and Games (CIG). IEEE, 2010: 458-464.
[10] CHEN T, DU Z, SUN N, et al. DianNao: a small footprint highthroughput accelerator for ubiquitous machine- learning[C]// 128 International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2014: 269-284.
[11] CHEN Y, LUO T, LIU S, et al. DaDianNao: a machine-learning supercomputer[C]// 2014 47th Annual IEEE/ ACM International Symposium on Microarchitecture (MICRO). IEEE, 2014: 609-622.
[12] LIU D, CHEN T, LIU S, et al. PuDianNao: a polyvalent machine learning accelerator[C]// International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2015:369-381.
[13] DU Z, FASTHUBER R, CHEN T, et al. ShiDianNao: Shifting vision processing closer to the sensor[C]// International Symposium on Computer Architecture (ISCA). 2015:92-104.
[14] JOUPPI NP, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit[C]// International Symposium on Computer Architecture (IS- CA). 2017:1-12.
[15] KAPOOHT. Von Neumann architecture scheme[J/OL]. The Innovation in Computing Companion, 257- 259. .
[16] FARABET C, POULET C, HAN J Y, et al. CNP: an fpga-based processor for convolutional networks[C]// International Conference on Field Programmable Logic and Applications (FPL). 2009:32-37.
[17] FARABET C, MARTINI B, CORDA B, et al. Neu Flow: a runtime reconfigurable dataflow processor for vision [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2011:109-116.
[18] GOKHALE V, JIN J, DUNDAR A, et al. A 240 G-ops/s mobile coprocessor for deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) . IEEE, 2014: 682-687.
[19] NEUMANN J V. The principles of large-scale computing machines[J]. Annals of the History of Computing, 1981, 3(3):263-273.
[20] MEAD C. Neuromorphic electronic systems[J]. Proceedings of the IEEE, 1990, 78(10):1629-1636.
[21] STRUKOV D B. Nanotechnology: smart connections[J]. Nature, 2011, 476(7361): 403-405.
[22] JEFF H, BLAKESLEE S. On intelligence[M]. London:Macmillan, 2007.
[23] BENJAMIN, VARKEY B, GAO P, et al. Neurogrid: a mixed- analogdigital multichip system for large- scale neural simulations[J]. Proceedings of the IEEE, 2014, 102 (5): 699-716.
[24] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345 (6197): 668-673.
[25] CASSIDY A S, ALVAREZ-ICAZA R, AKOPYAN F. Real- time scalable cortical computing at 46 giga- synaptic OPS/watt with ~100 × speedup in time- to- solution and ~ 100,000 × reduction in energy- to- solution[C]// SC '14: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2014.
[26] FURBER S B, GALLUPPI F, TEMPLE S, et al. The spinnaker projec[J]. Proceedings of the IEEE, 2014,102 (5): 652-665.
[27] SCHEMMEL J, BRIIDERLE D, GRIIBL A, et al. A waferscale neuromorphic hardware system for large- scale neural modeling[C]// Proceedings of 2010 IEEE International Symposium on Circuits and Systems. IEEE, 2010.
[28] LECUN Y, BENGIO Y, HINTON G, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[29] KELLER J, PEREZ O. Improving MCTS and neural network communication in computer go[R]. Worcester Polytechnic Institute, 2016.
[30] ZHANG S J ，DU Z D ，ZHANG L, et al. Cambricon- X an accelerator for sparse neural networks [C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2016.
[31] KOWALIK J S. Parallel computation and computers for artificial intelligence[M]. Springer Science & Business Media, 2012.
[32] VERHELST, M, MOONS B. Embedded deep neural network processing algorithmic and processor techniques bring deep learning to IoT and edge devices[J]. IEEE Solid-State Circuits Magazine, 2017, 9(4): 55-65.
[33] JOUPPI N P, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit [J].44th International Symposium on Computer Architecture(ISCA), 2017.
[34] SZE V, CHEN Y H, YANG T J, et al. Efficient processing of deep neural networks a tutorial and survey [J/OL].Proceedings of the IEEE, 2017, 105(12).
[35] BENNIS M. Smartphones will get even smarter with on device machine learning[J/OL]. IEEE Spectrum, 2018.  phones- will- get- even- smarter- with- ondevice- machine-learning.
[36] MAASS W. Networks of spiking neurons: the third generation of neural network models[J]. Neural Networks, 1997, 10(9): 1659-1671.
[37] MEAD C. Neuromorphic electronics system[J]. Proceedings of the IEEE, 1990, 78(10): 1629-1636.
[38] PAINKRAS E, PLANA L A, GARSIDE J, et al. SpiNNaker: a 1- W 18- core system- on- chip for massively- parallel neural network simulation[J]. IEEE Journal of SolidState Circuits Page(s), 2013, 48(8):1943 - 1953.
[39] BENJAMIN B V, GAO P, MCQUINN E, et al. Neu- rogrid a mixed- analog digital multichip system or large- scale neural simulations[J]. Proceedings of IEEE, 2014, 102(5): 699-716.
[40] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345(6197): 668-673.
[41] DAVIES M, SRINIVASA N, LINT H, et al. Loihi a neuromorphic manycore processor with on-chip learning[J]. IEEE Micro, 2018, 38(1): 82 - 99.
[42]KIM S. NVM neuromorphic core with 64 k- cell(256- by- 256) phase change memory synaptic array with on-chip neuron circuits for continuous in-situ learning[C]// IEEE International Electron Devices Meeting (IEDM). IEEE, 2015.
[43] CHUM, KIM B, PARK S, et al. Neuromorphic hardware system for visual pattern recognition with memristor array and CMOS neuron[J]. IEEE Transactions on Industrial Electronics, 2015, 62(4): 2410 - 2419.
[44] SHI LP , PEI J, DENG N, et al. Development of a neuromorphic computing system[C]// IEEE International Electron Devices Meeting(IEDM). IEEE, 2015.
[45] JIANG Y N，HUANG P, ZHU, D B, et al. Design and hardware implementation of neuromorphic systems with RRAM synapses[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2018, 65(9): 2726 - 2738. [46] YU S M, CHEN P Y. Emerging memory technologies: recent trends and prospects[J]. Proceedings of the IEEE,2016, 8(2): 43 - 56.
[47] SURI M. CBRAM devices as binary synapses for low-power stochastic neuromorphic systems: auditory and visual cognitive processing applications[C]// Proceeding of IEEE International Electron Devices Meeting (IEDM), 2012: 3-10.
[48] WANG Z. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16(1): 101-108.
[49] YANG J J, STRUKOV D B, STEWART D R. Memristive devices for computing[J]. Nature Nanotechnology,2013, 8(1): 13-24.
[50] JO S H. Nanoscale memristor device as synapse in neuro-morphic systems[J].Nano letters, 2010, 10(4): 1297-1301. [51] OHNO T. Short- term plasticity and long- term potentiation mimicked in single inorganic synapses[J]. Nature Materials, 2011, 10(8): 591-595.
[52] WANG, Z R，JOSHI S，SAVEL’EV S E, et al. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16 (1): 101-108.

來(lái)源：任源，潘俊，劉京京,等. 人工智能芯片的研究進(jìn)展[J]. 微納電子與智能制造, 2019, 1 (2): 20-34.

REN Yuan, PAN Jun, LIU Jingjing, et al. Overview of artificial intelligence chip development [J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 20-34.

《微納電子與智能制造》刊號(hào)：CN10-1594/TN

主管單位：北京電子控股有限責(zé)任公司

主辦單位：北京市電子科技科技情報(bào)研究所、北京方略信息科技有限公司

1.《【1012個(gè)月寶寶早教】專題AI 芯片發(fā)展的前世今生》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡(luò)信息知識(shí)，僅代表作者本人觀點(diǎn)，與本網(wǎng)站無(wú)關(guān)，侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《【1012個(gè)月寶寶早教】專題AI 芯片發(fā)展的前世今生》僅供讀者參考，本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí)，對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址，http://f99ss.com/jiaoyu/2123824.html

丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

【1012個(gè)月寶寶早教】專題AI 芯片發(fā)展的前世今生

10個(gè)月嬰兒玩具，干貨看這篇!分享10個(gè)治愈系家居小物，可愛到炸，看到第一個(gè)，就想抱回家

0一6個(gè)月幼兒早教知識(shí)專題之0-6個(gè)月寶寶健康護(hù)理常見疾病早教游戲表

1012個(gè)月寶寶早教看這里!育兒解析：神奇的大腦

【1012個(gè)月寶寶早教】專題育兒解析：神奇的大腦