火爆“智能”下的慘淡“人工”
百度眾測(cè)給了翊澳數(shù)據(jù)第一桶金,但同時(shí)也讓靳建偉認(rèn)識(shí)到這個(gè)行業(yè)的慘烈。
本文引用地址:http://2s4d.com/article/201810/393156.htm他回憶,去年百度眾測(cè)上的“題”特別豐富,大量數(shù)據(jù)標(biāo)注團(tuán)隊(duì)都緊緊盯著,僧多肉少,百度眾測(cè)有絕對(duì)的權(quán)力來(lái)制定游戲規(guī)則。
想要拿到“做題”資格,必須經(jīng)過(guò)數(shù)輪考核,比賽做題的速度和準(zhǔn)確度,每一輪考核后,都有團(tuán)隊(duì)被淘汰出局,最后僅剩十支團(tuán)隊(duì)能進(jìn)入百度眾測(cè)的名單,每隔一段時(shí)間,就會(huì)有末位淘汰,后三名的團(tuán)隊(duì)會(huì)被替換掉。
這一過(guò)程堪比高考,工廠的員工大多學(xué)歷不高,以專科生為主,但為了賺錢,他們鉚足了勁?!澳且欢螘r(shí)間我們天天刷題庫(kù),練習(xí),這個(gè)事情就是熟能生巧,我們單獨(dú)拉了一支20人的團(tuán)隊(duì),不干別的,就應(yīng)付這個(gè)考試,來(lái)來(lái)回回折騰了好幾個(gè)月,終于考上了。”
自去年加入百度眾測(cè)平臺(tái)開始,翊澳數(shù)據(jù)就一直保持在前十名的位置,這也讓他們真的賺到了錢,“從去年10月到今年上半年,百度一共給我們結(jié)了120萬(wàn)。”靳建偉說(shuō)道。
但他仍有怨言,在他和一些同行看來(lái),百度也不太地道。前期耗費(fèi)幾個(gè)月時(shí)間的考試,似乎是在做無(wú)償勞動(dòng),“那些考試的題,其實(shí)就是真實(shí)的客戶需求,我們做完了,百度就拿去賣了?!?/p>
只要能賺錢,前期免費(fèi)付出一些也未嘗不可。相比其他訂單來(lái)源,百度眾測(cè)給的單價(jià)更高,平臺(tái)上的訂單價(jià)格是按照每個(gè)標(biāo)注員每天8小時(shí)工作量測(cè)算,正常情況下8小時(shí)能標(biāo)注1200個(gè)數(shù)據(jù)框,價(jià)格是240元人民幣。
為了能夠擴(kuò)大收入,靳建偉要求員工一天能標(biāo)注2000個(gè)數(shù)據(jù)框,“做的越多,賺的越多?!?/p>
依靠百度眾測(cè),靳建偉嘗到了甜頭。好景不長(zhǎng),百度眾測(cè)平臺(tái)上的單越來(lái)越少,甚至出現(xiàn)長(zhǎng)時(shí)間的“斷糧”情況。
目前整個(gè)AI行業(yè)都處于起步階段,數(shù)據(jù)與算法交替磨合前進(jìn),需求在不斷變化,對(duì)于數(shù)據(jù)標(biāo)注的需求也是周期性的,并非源源不斷。例如,2017年,數(shù)據(jù)標(biāo)注行業(yè)就很少接到車牌識(shí)別的訂單,因?yàn)闃?biāo)注量已經(jīng)足夠多,算法需要時(shí)間去慢慢消化,并落實(shí)應(yīng)用,然后再發(fā)現(xiàn)其他數(shù)據(jù)需求。
突然無(wú)題可做,這對(duì)于當(dāng)時(shí)已經(jīng)有數(shù)百人規(guī)模的翊澳數(shù)據(jù)來(lái)說(shuō),壓力巨大,每天員工的工資就是一筆不小的開銷。
為了維持運(yùn)轉(zhuǎn),他只能再去找新客戶,他們?cè)?jīng)接過(guò)自動(dòng)駕駛明星公司Momenta的二手訂單,他降低價(jià)格,說(shuō)服了Momenta直接給訂單,繞開了中間商。
自動(dòng)駕駛企業(yè)對(duì)數(shù)據(jù)量的要求非常大,路況信息龐雜,采集到路況圖片后,需要人工對(duì)路牌、障礙物、交通信號(hào)標(biāo)志等多種信息進(jìn)行標(biāo)注。
Momenta成立兩年時(shí)間,已經(jīng)完成5輪融資,融資金額超過(guò)1億美元。在同行看來(lái),接到這樣的明星客戶,意味著能在業(yè)內(nèi)樹立口碑,且融資能力強(qiáng),不缺錢。
但Momenta給到翊澳數(shù)據(jù)的標(biāo)注價(jià)格非常低,幾乎只有百度眾測(cè)的30%,他們完全賺不到錢?!澳且矝](méi)辦法,還是要做,不然我手里這么多員工,吃什么?”
采訪進(jìn)行到一半時(shí),靳建偉突然接到了百度眾測(cè)打來(lái)的電話,過(guò)去兩個(gè)月,他多次試圖聯(lián)系百度眾測(cè)平臺(tái),但得到的回應(yīng)都很冷淡,而這一次,對(duì)方告訴他,馬上平臺(tái)上會(huì)放題,讓他提前做好準(zhǔn)備。
“好幾次都想放棄,每次一冒出放棄的念頭,就來(lái)消息說(shuō)數(shù)據(jù)馬上要來(lái)了?!?/p>
這個(gè)消息讓他既欣喜又糾結(jié),百度眾測(cè)一旦放題,意味著收入可以很快跟上,但他現(xiàn)有的團(tuán)隊(duì)很難保證同時(shí)兼顧百度和Momenta兩頭,雖然出價(jià)低,但Momenta是他唯一的標(biāo)桿客戶,也有必要長(zhǎng)期維系。
距離翊澳數(shù)據(jù)總部幾十公里之外,是富士康的鄭州園區(qū),員工數(shù)量超過(guò)25萬(wàn)人,靳建偉曾經(jīng)的夢(mèng)想是做出一家人工智能領(lǐng)域的富士康,但現(xiàn)在,他發(fā)現(xiàn)這個(gè)夢(mèng)想有些遙不可及。
隨著AI產(chǎn)業(yè)的興起,各行各業(yè)都了有AI化的需求,也進(jìn)一步刺激了數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,翊澳數(shù)據(jù)這樣的數(shù)據(jù)工廠只是其中一環(huán),AI公司、數(shù)據(jù)標(biāo)注平臺(tái)、中介、數(shù)據(jù)工廠,甚至包括個(gè)人,共同組成了這一條產(chǎn)業(yè)鏈。
其中,中介們最為活躍。
除了Momenta,在靳建偉尋求出路的過(guò)程中,北京數(shù)據(jù)標(biāo)注初創(chuàng)公司星塵數(shù)據(jù)主動(dòng)聯(lián)系了他,也是唯一一家主動(dòng)找上門,并能提供訂單的公司。
星塵數(shù)據(jù)位于北京三里屯,2018年1月完成1000萬(wàn)人民幣的Pre-A輪融資,公司運(yùn)營(yíng)副總裁商宇通過(guò)百度眾測(cè)平臺(tái)發(fā)現(xiàn)了翊澳,“他們一直保持在平臺(tái)的前幾名,說(shuō)明標(biāo)注質(zhì)量有保障?!鄙逃罱邮堋敦?cái)經(jīng)》記者采訪時(shí)說(shuō)道。
與翊澳數(shù)據(jù)一樣,星塵數(shù)據(jù)的辦公室也找不到任何標(biāo)志,創(chuàng)始團(tuán)隊(duì)大多有美國(guó)工作背景,他們像硅谷的初創(chuàng)公司一樣,十幾名員工擠在一起,整個(gè)公司看起來(lái)還沒(méi)有靳建偉個(gè)人辦公室大。
但他們比靳建偉更了解這個(gè)行業(yè)。
“我們想做的其實(shí)是一個(gè)數(shù)據(jù)標(biāo)注平臺(tái),”商宇說(shuō),“能夠?qū)有枨蠓胶蜆?biāo)注團(tuán)隊(duì),以及有時(shí)間和余力做標(biāo)注的個(gè)人,就像是數(shù)據(jù)標(biāo)注里的滴滴?!?/p>
平臺(tái)是長(zhǎng)期目標(biāo),短期內(nèi),星塵做的是中介的工作,他們?nèi)ジ?jìng)標(biāo)訂單,然后找到工廠承接。
但大家都處于摸著石頭過(guò)河的程度,星塵斷續(xù)給了翊澳一些小訂單,怎么定價(jià),是雙方都不太清楚的問(wèn)題。
從鄭州去往輝縣的路上,靳建偉收到星塵發(fā)來(lái)的消息,稱他們準(zhǔn)備去競(jìng)標(biāo)一項(xiàng)數(shù)據(jù)采集的單子,讓靳建偉報(bào)個(gè)價(jià),他們拿著這個(gè)價(jià)格去競(jìng)標(biāo)。
“我怎么知道應(yīng)該報(bào)什么價(jià)格?”靳建偉有些茫然,他沒(méi)做出數(shù)據(jù)采集的工作,但是他缺訂單,兩小時(shí)的車程中,他一直在糾結(jié)報(bào)價(jià)的問(wèn)題?!?0?30?要不然報(bào)高一點(diǎn)讓他們砍價(jià)?但是萬(wàn)一覺(jué)得太貴把我們排除了怎么辦?”
相比他們的迷茫與矛盾,博雅立方走的是另外一條路線——提供定制化的數(shù)據(jù)標(biāo)注服務(wù)。
數(shù)據(jù)服務(wù)提供商博雅立方是中昌數(shù)據(jù)(600242.SH)旗下品牌,主要業(yè)務(wù)就是數(shù)據(jù)標(biāo)注,團(tuán)隊(duì)目前超過(guò)1000人。
博雅立方總經(jīng)理王馨比靳建偉更早看到了機(jī)會(huì),2012年,她開始做搜索引擎和輸入法的語(yǔ)量庫(kù)和知識(shí)庫(kù)?!澳阍诰W(wǎng)上搜索資料,和語(yǔ)音識(shí)別、圖像識(shí)別一樣,都是機(jī)器交互,也就需要不斷的給機(jī)器灌輸信息來(lái)實(shí)現(xiàn)。”
AI爆發(fā)后,王馨也轉(zhuǎn)型到數(shù)據(jù)標(biāo)注領(lǐng)域,除了簡(jiǎn)單的圖像數(shù)據(jù)標(biāo)注,他們還做難度更高的語(yǔ)音數(shù)據(jù)標(biāo)注,以及專業(yè)性更強(qiáng)的細(xì)分行業(yè)數(shù)據(jù)標(biāo)注,如醫(yī)療、法律等。
不過(guò),AI公司通常不會(huì)只找一家數(shù)據(jù)標(biāo)注公司提供服務(wù),將標(biāo)注需求拆分給多個(gè)團(tuán)隊(duì)能夠更好的降低成本。這一過(guò)程基本通過(guò)招投標(biāo)的方式來(lái)進(jìn)行,客戶主要考察過(guò)往經(jīng)驗(yàn),完成訂單所需時(shí)間,以及單價(jià)。
在全行業(yè)都缺乏經(jīng)驗(yàn)時(shí),完成訂單的效率和單價(jià)就成立主要考核因素,靈活的小團(tuán)隊(duì)們?cè)谶@兩點(diǎn)上,優(yōu)勢(shì)顯得更大。“想要找人來(lái)外包訂單,快速完成,并不困難?!苯▊ケ硎荆澳阍诰W(wǎng)上發(fā)個(gè)招聘信息,一天之內(nèi)會(huì)有100家接不到活的團(tuán)隊(duì)找上門。”
環(huán)環(huán)相扣的數(shù)據(jù)標(biāo)注行業(yè)像是一片擠滿了鯉魚的池塘,偶爾一把魚食撒下來(lái),會(huì)被不擇手段地立刻分食干凈,然后餓著肚子等待下一場(chǎng)競(jìng)爭(zhēng)。
快要消失的圍城?
過(guò)去幾個(gè)月,靳建偉看著周圍的同行一個(gè)個(gè)開始轉(zhuǎn)型、退場(chǎng),每天都處于焦慮狀態(tài)中。此前他熟悉的一個(gè)同行,由于找不到標(biāo)注的訂單,接了一份豬臉數(shù)據(jù)采集的工作,在鄉(xiāng)下找豬圈拍照,3天時(shí)間收入2000元。
“我也想好了,不能這樣無(wú)限的砸錢進(jìn)去,我的底線是再投入100萬(wàn),如果還是這樣的情況,就放棄?!彼f(shuō)。
數(shù)據(jù)標(biāo)注行業(yè)越來(lái)越像一個(gè)圍城,城中人痛苦不堪,找不到出路,城外人認(rèn)為這里遍地黃金,會(huì)誕生下一個(gè)富士康。
在中國(guó)政府大力支持AI產(chǎn)業(yè)發(fā)展的政策環(huán)境之下,不少地方政府都通過(guò)各項(xiàng)優(yōu)惠政策,吸引AI公司落戶,但數(shù)據(jù)標(biāo)注行業(yè)似乎是一塊被忽視的死角。
接受《財(cái)經(jīng)》記者采訪的數(shù)據(jù)標(biāo)注相關(guān)團(tuán)隊(duì)都表示,目前他們沒(méi)有發(fā)現(xiàn)任何相關(guān)的優(yōu)惠政策。
沒(méi)有政策優(yōu)惠,也幾乎沒(méi)有任何壁壘,數(shù)據(jù)標(biāo)注只能存活于產(chǎn)業(yè)鏈底端,壓價(jià)情況嚴(yán)重,生存艱難。大部分時(shí)候,數(shù)據(jù)標(biāo)注團(tuán)隊(duì)都會(huì)面臨兩個(gè)選擇——要么無(wú)訂單可做,要么接受虧本價(jià)。
由于業(yè)務(wù)的不確定性,大量小型數(shù)據(jù)標(biāo)注團(tuán)隊(duì)都是有活就干,無(wú)活解散,這也導(dǎo)致標(biāo)注質(zhì)量無(wú)法得到有效保證。
中國(guó)信息通信研究院在今年9月發(fā)布的《2018年人工智能發(fā)展白皮書》中表示,在數(shù)據(jù)層面,主要存在流通不暢、數(shù)據(jù)質(zhì)量良莠不齊和關(guān)鍵數(shù)據(jù)集缺失等問(wèn)題,尤其是數(shù)據(jù)標(biāo)注主要通過(guò)外包形式,勞動(dòng)力水平?jīng)Q定了產(chǎn)出的標(biāo)注數(shù)據(jù)質(zhì)量。
多位接受《財(cái)經(jīng)》記者采訪的AI初創(chuàng)公司創(chuàng)始人表示,他們接觸過(guò)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)質(zhì)量良莠不齊,“那些數(shù)據(jù)標(biāo)注團(tuán)隊(duì)能做到的,我們自己也能做,可能還能做的更好,為什么要花這個(gè)錢?”其中一位創(chuàng)始人說(shuō)道。
在商宇看來(lái),沒(méi)有技術(shù)壁壘的工作,完全可以通過(guò)平臺(tái)眾包模式,分發(fā)給個(gè)人來(lái)做,“這樣效率更高?!?/p>
數(shù)據(jù)標(biāo)注眾包模式最早出現(xiàn)在美國(guó),2015年,亞馬遜推出勞務(wù)眾包平臺(tái)(Amazon Mechanical Turk),初衷是為了解決內(nèi)需——管理庫(kù)存,完成圖片和產(chǎn)品分類,翻譯文本,將語(yǔ)音或者圖片轉(zhuǎn)錄成文本等工作,隨后平臺(tái)漸漸對(duì)外開放。截至2017年底,該平臺(tái)注冊(cè)用戶量累計(jì)過(guò)50萬(wàn)。
亞馬遜眾包平臺(tái)的一個(gè)標(biāo)志性的成績(jī)是幫助斯坦福人工智能實(shí)驗(yàn)室主任李飛飛完成了ImageNet的建立,ImageNet目前擁有超過(guò)1400萬(wàn)被分類的圖片,大部分由該眾包平臺(tái)上50000名用戶耗時(shí)兩年完成。
目前在中國(guó),還沒(méi)有已經(jīng)成型的,面向個(gè)人的眾包數(shù)據(jù)標(biāo)注平臺(tái),目前百度眾測(cè)官方平臺(tái)僅對(duì)企業(yè)開放。
一個(gè)現(xiàn)實(shí)的問(wèn)題是,眾包模式如何保證質(zhì)量?這也是王馨認(rèn)為眾包模式現(xiàn)階段并不可行的主要原因。
AI在行業(yè)落地時(shí),屢遭困難,很大一個(gè)原因在于傳統(tǒng)行業(yè)與人工智能之間的隔閡仍然明顯。博雅立方作為數(shù)據(jù)標(biāo)注行業(yè)里的老牌公司,同時(shí)又有上市母公司的背景,吸引了不少想要進(jìn)行AI化改造的傳統(tǒng)企業(yè)。
這些公司很多仍然不清楚自己真正的需求是什么,為此,博雅立方組建了一支專業(yè)化的前端團(tuán)隊(duì),這些人來(lái)自于傳統(tǒng)行業(yè)或是AI行業(yè),在前期就會(huì)花費(fèi)大量的時(shí)間進(jìn)行溝通交流,來(lái)明確應(yīng)該采集哪些數(shù)據(jù),應(yīng)該做哪些維度的標(biāo)注。“這些都是眾包模式無(wú)法提供的服務(wù)?!蓖踯罢f(shuō),“當(dāng)然我們的價(jià)格也會(huì)更高?!?/p>
以目前行業(yè)壓價(jià)情況來(lái)看,有能力做到深度、定制化服務(wù)的團(tuán)隊(duì)并不多,而另一方面,大部分?jǐn)?shù)據(jù)標(biāo)注需求,還處于相對(duì)基礎(chǔ)的水平,對(duì)于還未能通過(guò)AI盈利的大部分企業(yè)來(lái)說(shuō),也不愿意在數(shù)據(jù)標(biāo)注環(huán)節(jié),支付稍高的價(jià)格。
AI是否會(huì)讓更多人失業(yè),一直是被討論的焦點(diǎn)。國(guó)際貨幣基金組織的一份報(bào)告稱,包括AI在內(nèi)的新興科技將讓全球30個(gè)國(guó)家和地區(qū)的2600萬(wàn)份工作消失??萍歼M(jìn)步同時(shí)也創(chuàng)造了許多新的就業(yè)機(jī)會(huì),數(shù)據(jù)標(biāo)注就是一個(gè)由于人工智能發(fā)展而誕生的新行業(yè)。
在缺乏行業(yè)標(biāo)準(zhǔn),發(fā)展混亂這些現(xiàn)有問(wèn)題之下,數(shù)據(jù)標(biāo)注行業(yè)面臨最大隱患是,未來(lái)AI的發(fā)展可能不再需要這一環(huán)節(jié)。
10月10日,中國(guó)最大的科技公司華為發(fā)布了AI戰(zhàn)略,華為輪值董事長(zhǎng)徐直軍在臺(tái)上說(shuō),數(shù)據(jù)標(biāo)注師這樣的職業(yè)很有可能被顛覆,華為要做的改變是提升AI自身的自動(dòng)化水平,比如在數(shù)據(jù)標(biāo)注、數(shù)據(jù)獲取,特征提取,模型設(shè)計(jì)和訓(xùn)練等環(huán)節(jié)實(shí)現(xiàn)自動(dòng)化或半自動(dòng)化。
沒(méi)有“人工”就沒(méi)有“智能”,這一幕很可能只是人工智能產(chǎn)業(yè)發(fā)展史上的短暫一幕。
評(píng)論