百度為何開(kāi)源深度機(jī)器學(xué)習(xí)平臺(tái)?
194 2021-09-07
通過(guò)這一開(kāi)源平臺(tái),世界各地的開(kāi)發(fā)者們可以免費(fèi)獲得更優(yōu)質(zhì)和更容易使用的分布式機(jī)器學(xué)習(xí)算法源碼,從而大幅降低開(kāi)發(fā)和部署分布式機(jī)器學(xué)習(xí)系統(tǒng)及相關(guān)應(yīng)用的門(mén)檻。包括今日頭條、汽車(chē)之家等在內(nèi)的多家公司已經(jīng)通過(guò)該開(kāi)放平臺(tái)受益。

作為在人工智能布局較早的玩家,百度擁有領(lǐng)先業(yè)界的實(shí)力。從2013年百度深度學(xué)習(xí)研究院(IDL)的創(chuàng)建及2014年Andrew Ng的加盟至今,百度DMLC分布式深度機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目(簡(jiǎn)稱(chēng)“深盟”)已在深度學(xué)習(xí)的多個(gè)應(yīng)用領(lǐng)域做過(guò)探索,上線(xiàn)了如xgboost(速度快效果好的Boosting模型)、CXXNET(極致的C++深度學(xué)習(xí)庫(kù))、Minerva(高效靈活的并行深度學(xué)習(xí)引擎)以及Parameter Server(一小時(shí)訓(xùn)練600T數(shù)據(jù))等產(chǎn)品,在語(yǔ)音識(shí)別、OCR識(shí)別、人臉識(shí)別以及計(jì)算效率提升上發(fā)布了多個(gè)成熟產(chǎn)品。

而具有一系列領(lǐng)先優(yōu)勢(shì)的百度卻選擇開(kāi)源其深度機(jī)器學(xué)習(xí)平臺(tái),為何交底自己的核心技術(shù)?

深思之下,卻是在面對(duì)業(yè)界無(wú)奈時(shí)的遠(yuǎn)見(jiàn)之舉。

擁抱世界:開(kāi)源的魅力

開(kāi)源,顧名思義,就是開(kāi)放自己的源代碼給別人查閱和使用,盡管看起來(lái)很傻,然而諸多歷史事實(shí)卻告訴我們擁抱世界也能讓世界擁抱你。

Android的逆襲就是明證,在iOS侵占絕大多數(shù)智能手機(jī)操作系統(tǒng)的時(shí)代誕生,Google選擇開(kāi)源,讓早已在蘋(píng)果面前沒(méi)有機(jī)會(huì)的業(yè)界見(jiàn)到了希望,至今Android已擁有過(guò)半的市場(chǎng)份額,以至于在移動(dòng)互聯(lián)網(wǎng)大行其道的今天,Google可以憑借它與旗下產(chǎn)品的整合打造屬于自己的強(qiáng)大生態(tài)系統(tǒng)。相比之下,生而嬌貴的Windows mobile的故事夠令人發(fā)醒的,終于微軟也不得不寄人籬下地去兼容Android和iOS平臺(tái)應(yīng)用。此外,作為微軟最主要的應(yīng)用程序框架,微軟對(duì).net寄予厚望,希望它的開(kāi)源可以來(lái)到所有平臺(tái),進(jìn)而重現(xiàn)JAVA的光輝歷史。這也證明了即使強(qiáng)大如微軟也無(wú)法憑借一己之力讓其產(chǎn)品得到世界的擁抱。

眾人拾材火焰高:用平臺(tái)籠絡(luò)世界的力量

要實(shí)現(xiàn)人工智能,機(jī)器必須具備自主學(xué)習(xí)能力,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重大突破,可以完成具有高度抽象特征的人工智能任務(wù),如自然語(yǔ)言理解等復(fù)雜場(chǎng)景,因而備受業(yè)界追捧。當(dāng)然,機(jī)器學(xué)習(xí)領(lǐng)域并不只是有深度學(xué)習(xí)這一種算法的存在,然而深度學(xué)習(xí)卻有著顯著的優(yōu)勢(shì):在數(shù)據(jù)集足夠大的情況下,深度學(xué)習(xí)擁有最好的預(yù)測(cè)能力。盡管在算法的選擇上仍然存在“殺雞焉用宰牛刀”的爭(zhēng)論,但深度學(xué)習(xí)算法為人工智能領(lǐng)域注入的強(qiáng)大能力卻是其他算法無(wú)以比擬的;同時(shí),隨著深度學(xué)習(xí)技術(shù)的成熟,諸多傳統(tǒng)機(jī)器學(xué)習(xí)算法的淘汰幾乎是必然的。然而正如前述,深度學(xué)習(xí)對(duì)大量數(shù)據(jù)的需求及其本身的復(fù)雜性仍然是其發(fā)展壯大路上的最大阻礙,也是業(yè)界的無(wú)奈所在。

百度在此領(lǐng)域發(fā)力較早,且在諸多方向上進(jìn)行了深入的研究,利用深入學(xué)習(xí)結(jié)合自身搜索引擎的大數(shù)據(jù)讓機(jī)器翻譯及自然語(yǔ)言等技術(shù)實(shí)現(xiàn)了新的飛躍。然而在面向更廣大更具體的應(yīng)用場(chǎng)景時(shí),任何一個(gè)公司都難以滿(mǎn)足所有需求。借鑒歷史,開(kāi)放共贏不僅可以把事情做的,也讓業(yè)界和生態(tài)系統(tǒng)得到健康發(fā)展。

百度此次開(kāi)源也是完全奔著建平臺(tái)去的。完全采用C++語(yǔ)言搭建核心,為平臺(tái)的穩(wěn)定高效運(yùn)行奠定了基礎(chǔ);覆蓋了三類(lèi)最常用的機(jī)器學(xué)習(xí)算法,包括用于點(diǎn)擊預(yù)測(cè)的稀疏線(xiàn)性模型、用于排序的決策樹(shù)模型以及深入學(xué)習(xí),滿(mǎn)足了最廣大的需求;重點(diǎn)開(kāi)發(fā)的“蟲(chóng)洞”項(xiàng)目將自動(dòng)構(gòu)建深盟所有項(xiàng)目,為所有組件提供一致的數(shù)據(jù)流支持且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在內(nèi)的云計(jì)算平臺(tái)兼容支持,降低平臺(tái)的準(zhǔn)入門(mén)檻。

開(kāi)源并入駐Github也進(jìn)一步強(qiáng)調(diào)了其開(kāi)放的心態(tài)和對(duì)平臺(tái)的信心。一系列的動(dòng)作都是希望讓開(kāi)發(fā)者可以獲得更優(yōu)質(zhì)更容易使用的深入學(xué)習(xí)算法源碼,降低開(kāi)發(fā)和部署深入學(xué)習(xí)系統(tǒng)及相關(guān)應(yīng)用的門(mén)檻,進(jìn)而利用世界的力量壯大自身。

面對(duì)可預(yù)料的爆發(fā),技術(shù)一定程度上漸發(fā)成熟,但也因?yàn)楦髯缘募夹g(shù)基因和路線(xiàn)差異,面臨著極大的分裂傾向。開(kāi)放的心態(tài)擁抱世界,打造機(jī)器學(xué)習(xí)領(lǐng)域的國(guó)際標(biāo)準(zhǔn),百度的此舉既是對(duì)前期研究投入的回收保障,更是攜手籠絡(luò)友商,確保自身的話(huà)語(yǔ)權(quán)所在。