新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)問(wèn)題

機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)問(wèn)題

作者:恩智浦半導(dǎo)體安全架構(gòu)師 Wil Michiels 教授(博士) 時(shí)間:2020-04-08 來(lái)源:電子產(chǎn)品世界 收藏

問(wèn)題

本文引用地址:http://2s4d.com/article/202004/411804.htm

假設(shè)一家公司主要生產(chǎn)對(duì)于客戶的業(yè)務(wù)運(yùn)營(yíng)至關(guān)重要的設(shè)備。為了避免發(fā)生故障而對(duì)這些客戶產(chǎn)生重大影響,這家公司使用模型來(lái)做出預(yù)防性維護(hù)決策。為了構(gòu)建這種模型,公司花費(fèi)了大量時(shí)間、金錢和精力。但是,客戶可以復(fù)制這個(gè)來(lái)自行進(jìn)行維護(hù),這樣就不必繼續(xù)支付維護(hù)合同的費(fèi)用。同時(shí),競(jìng)爭(zhēng)對(duì)手也可能會(huì)直接復(fù)制模型來(lái)獲取利益,而不是投資構(gòu)建自己的模型。本白皮書(shū)探討了模型的哪些方面將受到法律的保護(hù)。

image.png

要構(gòu)建用于維護(hù)的機(jī)器學(xué)習(xí)(ML)模型,必須收集并標(biāo)記正確的訓(xùn)練集,選擇正確的架構(gòu)和訓(xùn)練參數(shù)以實(shí)現(xiàn)算法精度和速度的優(yōu)化平衡,并投入計(jì)算時(shí)間來(lái)訓(xùn)練模型。但是,如果這個(gè)維護(hù)專用的機(jī)器學(xué)習(xí)模型的知識(shí)產(chǎn)權(quán)沒(méi)有得到妥善保護(hù),競(jìng)爭(zhēng)對(duì)手只需花費(fèi)很少的時(shí)間和精力就能復(fù)制和竊取機(jī)器學(xué)習(xí)模型,稍加調(diào)整以免被發(fā)現(xiàn),然后即可直接部署到自己的產(chǎn)品中。這僅僅是一個(gè)例子而已。在很多情況中,公司都希望保護(hù)其投資和知識(shí)產(chǎn)權(quán),但是現(xiàn)在和將來(lái),應(yīng)該如何保護(hù)機(jī)器學(xué)習(xí)領(lǐng)域的知識(shí)產(chǎn)權(quán)呢?

對(duì)于任何公司而言,機(jī)器學(xué)習(xí)模型都意味著一筆可觀的投資,同時(shí)也是一項(xiàng)寶貴的資產(chǎn)。盡管由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的業(yè)務(wù)越來(lái)越受到青睞,但一些公司可能不愿意在數(shù)據(jù)收集和模型構(gòu)建方面進(jìn)行必要投資,因?yàn)樗麄儞?dān)心競(jìng)爭(zhēng)對(duì)手會(huì)竊取勞動(dòng)果實(shí)。一直以來(lái),非實(shí)物資產(chǎn)創(chuàng)作方面都有專利或版權(quán)之類的知識(shí)產(chǎn)權(quán)保護(hù)。但是,在法律領(lǐng)域中,關(guān)于知識(shí)產(chǎn)權(quán)如何保護(hù)機(jī)器學(xué)習(xí)以及具體涵蓋哪些方面,仍然是一個(gè)頗具爭(zhēng)議的問(wèn)題。本白皮書(shū)闡述了機(jī)器學(xué)習(xí)知識(shí)產(chǎn)權(quán)(IP)方面的法律背景和挑戰(zhàn)。

image.png

術(shù)語(yǔ)

在我們深入探討機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)問(wèn)題之前,必須先要正確理解術(shù)語(yǔ)。廣義上講,機(jī)器學(xué)習(xí)是針對(duì)算法和統(tǒng)計(jì)模型的科學(xué)研究。電腦系統(tǒng)使用這些算法和統(tǒng)計(jì)模型,依靠模式和推理來(lái)高效地執(zhí)行特定任務(wù),而無(wú)需使用手動(dòng)編程的指令。

在機(jī)器學(xué)習(xí)中,通常使用一系列“訓(xùn)練數(shù)據(jù)”推導(dǎo)統(tǒng)計(jì)模型的權(quán)重。然后在新情況中運(yùn)用這些權(quán)重,從適用于新情況的模型中獲得答案。一種流行的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)。為了闡明使用神經(jīng)網(wǎng)絡(luò)的過(guò)程,請(qǐng)參考下圖:

用于將圖片標(biāo)記為貓或狗的機(jī)器學(xué)習(xí)模型

image.png

這類機(jī)器學(xué)習(xí)分為兩步。首先,在訓(xùn)練階段,推導(dǎo)架構(gòu)參數(shù)以賦予模型特定的功能。我們將這個(gè)階段稱為訓(xùn)練模型。模型完成訓(xùn)練后,通過(guò)測(cè)試數(shù)據(jù)測(cè)量模型質(zhì)量。第二步,在推理階段,利用經(jīng)過(guò)訓(xùn)練的模型進(jìn)行預(yù)測(cè),例如對(duì)新數(shù)據(jù)進(jìn)行分類。雖然所有這些概念在不同文獻(xiàn)中有不同的說(shuō)法,但在本白皮書(shū)中,我們使用以下術(shù)語(yǔ):

架構(gòu)

神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元、神經(jīng)元之間的連接以及所用激活函數(shù)的集合。架構(gòu)可以有向圖的形式呈現(xiàn)。

訓(xùn)練集

一組用于訓(xùn)練架構(gòu)的數(shù)據(jù),幫助架構(gòu)確定合適的權(quán)重。

測(cè)試集

另外一組數(shù)據(jù),用于測(cè)試和驗(yàn)證模型是否提供預(yù)期的結(jié)果。

機(jī)器學(xué)習(xí)系統(tǒng)

實(shí)現(xiàn)機(jī)器學(xué)習(xí)(訓(xùn)練和/或推理)的軟件和硬件。

模型

對(duì)于神經(jīng)網(wǎng)絡(luò),模型是指與神經(jīng)網(wǎng)絡(luò)架構(gòu)連接相關(guān)聯(lián)的權(quán)重的集合。這些權(quán)重是在訓(xùn)練期間收集的。

訓(xùn)練參數(shù)

用于控制訓(xùn)練算法的參數(shù)。例如:訓(xùn)練集應(yīng)該迭代幾次?在更新權(quán)重之前,要處理多少個(gè)數(shù)據(jù)項(xiàng)?在每次更新中,應(yīng)對(duì)權(quán)重應(yīng)用多大幅度的更改?使用什么成本函數(shù)進(jìn)行優(yōu)化?

如今,機(jī)器學(xué)習(xí)用于處理各種各樣的任務(wù)。一種主流應(yīng)用是分類,例如識(shí)別圖像或視頻中的特定物體,將文本分類為特定類別,以及檢測(cè)偽劣品或異常尺寸。

其他應(yīng)用還包括自動(dòng)駕駛汽車中使用的預(yù)測(cè)和物體檢測(cè)。對(duì)于許多使用機(jī)器學(xué)習(xí)的公司而言,用于機(jī)器學(xué)習(xí)應(yīng)用的訓(xùn)練集和模型是不應(yīng)被競(jìng)爭(zhēng)對(duì)手接觸到的寶貴信息。這就引出了如何通過(guò)法律手段保護(hù)這些信息和其他機(jī)器學(xué)習(xí)要素的問(wèn)題,即知識(shí)產(chǎn)權(quán)。

image.png

知識(shí)產(chǎn)權(quán)

知識(shí)產(chǎn)權(quán)(IPR)是指保護(hù)非有形商業(yè)資產(chǎn)免遭第三方盜用的法定權(quán)利。通過(guò)法院發(fā)布的法律禁令以及常見(jiàn)的經(jīng)濟(jì)損失賠償和/或侵權(quán)產(chǎn)品沒(méi)收處罰,可以制止這一類盜用行為。但是,每種類型的知識(shí)產(chǎn)權(quán)都有其特定要求和局限性。在本白皮書(shū)中,我們將探討版權(quán)、專利、數(shù)據(jù)庫(kù)權(quán)利和商業(yè)秘密。

版權(quán)

版權(quán)是最廣為人知的知識(shí)產(chǎn)權(quán)類型。版權(quán)是指禁止復(fù)制和傳播受保護(hù)作品的權(quán)利。這項(xiàng)權(quán)利一直廣泛運(yùn)用于創(chuàng)造藝術(shù)領(lǐng)域,例如音樂(lè)、書(shū)籍和照片。但是,版權(quán)同樣適用于軟件、手冊(cè)、白皮書(shū)(甚至是本白皮書(shū)?。?、公司視頻等商業(yè)作品。

這類權(quán)利的相關(guān)法律在世界范圍內(nèi)已經(jīng)達(dá)到非常高的標(biāo)準(zhǔn)化程度。作品在創(chuàng)作后即自動(dòng)受到保護(hù),無(wú)需申請(qǐng)或注冊(cè)。甚至不需要版權(quán)聲明,但通常會(huì)聲明版權(quán)以震懾潛在的抄襲者。唯一的真實(shí)要求是作品中必須存在某種形式的創(chuàng)造性。例如,僅僅列出一串日期不受版權(quán)保護(hù),但巧妙地用句子來(lái)表述將受版權(quán)保護(hù)。

版權(quán)的局限性在于只針對(duì)實(shí)際復(fù)制行為。獨(dú)立再創(chuàng)作同一作品并不算侵犯版權(quán)。再創(chuàng)作的獨(dú)立性可以通過(guò)創(chuàng)作過(guò)程的相關(guān)記錄或日志進(jìn)行證明。

專利

專利是知識(shí)產(chǎn)權(quán)領(lǐng)域的重要組成部分。當(dāng)某項(xiàng)創(chuàng)新受到專利保護(hù)時(shí),任何人都不得制造、使用或出售任何包含該創(chuàng)新的設(shè)備。與版權(quán)不同,專利甚至可以保護(hù)并非通過(guò)復(fù)制進(jìn)行的獨(dú)立再創(chuàng)作。專利持有人可以要求他人支付版稅,或者直接終止他人對(duì)其創(chuàng)新成果的商業(yè)使用。

專利的主要缺點(diǎn)是必須申請(qǐng),這會(huì)經(jīng)過(guò)長(zhǎng)達(dá)數(shù)年的漫長(zhǎng)審查和高達(dá)數(shù)萬(wàn)歐元的申請(qǐng)費(fèi)用,并且結(jié)果還不確定。在軟件方面,一個(gè)非常復(fù)雜的問(wèn)題是法律對(duì)所謂的“軟件專利”有非常嚴(yán)格的規(guī)定,而這在世界范圍內(nèi)都是令人詬病的問(wèn)題。因此而出現(xiàn)了非常嚴(yán)格的判例法,從而很難針對(duì)大量依賴軟件或自動(dòng)化的創(chuàng)新執(zhí)行專利權(quán)。

獲得軟件專利的基本準(zhǔn)則是發(fā)明必須提供真實(shí)世界中的改進(jìn),而不能僅僅是提高軟件性能。例如,壓縮算法通常被認(rèn)為是專利技術(shù),內(nèi)存效率更高的矩陣乘法技術(shù)也算專利。但是用于準(zhǔn)確預(yù)測(cè)下一屆足球世界杯冠軍的算法則不符合申請(qǐng)專利的條件。

數(shù)據(jù)庫(kù)權(quán)利

數(shù)據(jù)庫(kù)權(quán)利是知識(shí)產(chǎn)權(quán)領(lǐng)域中一個(gè)相對(duì)較新的概念。數(shù)據(jù)庫(kù)權(quán)利于上世紀(jì)九十年代末在歐洲提出,旨在保護(hù)信息集合,防止被復(fù)制和重復(fù)使用。數(shù)據(jù)庫(kù)權(quán)利的主要要求是在創(chuàng)建或維護(hù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)方面進(jìn)行了大量投資。與版權(quán)一樣,數(shù)據(jù)庫(kù)權(quán)利無(wú)需進(jìn)行正式注冊(cè)或申請(qǐng)。

受保護(hù)數(shù)據(jù)庫(kù)包括在線詞典、帶標(biāo)記的圖像集合和地圖制圖的源數(shù)據(jù)。關(guān)鍵在于以某種便于搜索和瀏覽的方式組織數(shù)據(jù)。

數(shù)據(jù)庫(kù)權(quán)利的復(fù)雜之處在于,該項(xiàng)權(quán)利在歐盟以外的地區(qū)不受認(rèn)可。特別是在擁有著悠久法律傳統(tǒng)的美國(guó),數(shù)據(jù)集合不受知識(shí)產(chǎn)權(quán)保護(hù),只有創(chuàng)意作品才能受到版權(quán)保護(hù)。

商業(yè)機(jī)密

在知識(shí)產(chǎn)權(quán)世界中,商業(yè)機(jī)密的現(xiàn)狀在全球范圍內(nèi)不一而同。但總體而言,可以通過(guò)法律針對(duì)盜用受良好保護(hù)信息的行為采取行動(dòng)。這要求此類信息的所有者表明已采取適當(dāng)?shù)陌踩胧﹣?lái)防止未經(jīng)授權(quán)的訪問(wèn)。同時(shí),竊取商業(yè)秘密的“嫌疑人”可以通過(guò)證明該信息已經(jīng)在公共領(lǐng)域中披露進(jìn)行反駁。

公司通常會(huì)通過(guò)與客戶或其他第三方簽署保密協(xié)議(NDA)來(lái)保護(hù)其商業(yè)機(jī)密。在某些支持違約罰款或其他法律措施的司法管轄區(qū)中,可通過(guò)嚴(yán)格的契約義務(wù)禁止復(fù)制或復(fù)用。其他協(xié)議中也可能包含NDA條款。但是,即使使用反向工程等特殊技術(shù),從合法購(gòu)買產(chǎn)品中挖掘機(jī)密數(shù)據(jù)的個(gè)人也不受此類條款的約束。這就限制了商業(yè)機(jī)密法的作用。

面向機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)保護(hù)

競(jìng)爭(zhēng)對(duì)手或其他意圖不軌的實(shí)體會(huì)通過(guò)多種方法,企圖從機(jī)器學(xué)習(xí)系統(tǒng)創(chuàng)造者的成果或投資中分一杯羹。機(jī)器學(xué)習(xí)的獨(dú)特性引起這樣一個(gè)問(wèn)題:如何利用知識(shí)產(chǎn)權(quán)法律保護(hù)這項(xiàng)新技術(shù)的各個(gè)方面。

image.png

訓(xùn)練集保護(hù)

為特定的機(jī)器學(xué)習(xí)應(yīng)用創(chuàng)建出色的訓(xùn)練集是一項(xiàng)耗時(shí)耗財(cái)?shù)墓ぷ?。盡管在典型環(huán)境中,侵權(quán)人無(wú)法直接訪問(wèn)此訓(xùn)練集,但是如果通過(guò)某些方式獲得了訪問(wèn)權(quán)限,那么復(fù)制訓(xùn)練集輕而易舉。知識(shí)產(chǎn)權(quán)法律的作用正在于此。

如果訓(xùn)練集所有者的主要營(yíng)業(yè)地點(diǎn)位于歐盟地區(qū),那么訓(xùn)練集將受到 數(shù)據(jù)庫(kù)權(quán)利的保護(hù)。但是,這一權(quán)利僅對(duì)同樣位于該司法管轄區(qū)的侵權(quán)者具有法律效力。

而更加困難的是能否針對(duì)機(jī)器學(xué)習(xí)訓(xùn)練集主張版權(quán)。訓(xùn)練集并不是一件藝術(shù)作品。其目的通常是確保數(shù)據(jù)適合用例。根據(jù)版權(quán)法的規(guī)定,針對(duì)主題創(chuàng)建合適的數(shù)據(jù)集并不是一項(xiàng)創(chuàng)造性活動(dòng)。但是,仍然可以主張版權(quán)的一個(gè)方面是對(duì)數(shù)據(jù)進(jìn)行分類的方式。如果類別是通過(guò)創(chuàng)造性過(guò)程(例如,“美麗/丑陋”、“強(qiáng)/弱”、“大/小”)進(jìn)行篩選的,那么就可以認(rèn)為通過(guò)創(chuàng)造性標(biāo)記方式創(chuàng)造的訓(xùn)練集受到版權(quán)保護(hù)?;谑聦?shí)要素(例如“貓/狗”、“交通信號(hào)燈/路燈/停車標(biāo)志”)的分類不具備創(chuàng)造性,因此不受版權(quán)保護(hù)。

在某些應(yīng)用領(lǐng)域,訓(xùn)練集是通過(guò)模擬或其他人工手段生成的。有另一種觀點(diǎn)認(rèn)為,這樣的訓(xùn)練集可以受到版權(quán)保護(hù),因?yàn)樗x的模擬或生成方式可以看作是一種創(chuàng)造性選擇。但是,這一觀點(diǎn)從未在法庭上得到檢驗(yàn)。

通常,公司會(huì)對(duì)其訓(xùn)練集嚴(yán)格保密。這種做法十分合理,因?yàn)槭褂脵C(jī)器學(xué)習(xí)模型無(wú)需共享訓(xùn)練集。避免訓(xùn)練集被惡意復(fù)制,并對(duì)需要擁有訓(xùn)練集的各方施加嚴(yán)格的契約約束似乎是最好的方法。

訓(xùn)練參數(shù)保護(hù)

訓(xùn)練集和模型只是機(jī)器學(xué)習(xí)系統(tǒng)寶貴價(jià)值的一部分。驅(qū)動(dòng)訓(xùn)練算法的參數(shù)也同樣十分寶貴:選擇正確的訓(xùn)練參數(shù)需要經(jīng)驗(yàn)豐富的工程師花費(fèi)大量時(shí)間和精力。

對(duì)于創(chuàng)建機(jī)器學(xué)習(xí)系統(tǒng)所用的訓(xùn)練參數(shù)集,版權(quán)保護(hù)是最有用的。如果數(shù)據(jù)科學(xué)家通過(guò)創(chuàng)造性工作來(lái)選擇合適的訓(xùn)練參數(shù),從而確定這些參數(shù),那么最終得到的參數(shù)集就很有可能受到版權(quán)保護(hù)。但是,如果是通過(guò)詳盡搜索(例如評(píng)估文獻(xiàn)中提出的許多選項(xiàng))或算法過(guò)程發(fā)現(xiàn)的訓(xùn)練參數(shù),則不受版權(quán)保護(hù)。這一原則同樣適用于使用這些訓(xùn)練參數(shù)和指定訓(xùn)練集生成的模型。

數(shù)據(jù)庫(kù)權(quán)利可能不太適用于參數(shù)集,因?yàn)閿?shù)據(jù)庫(kù)權(quán)利的一個(gè)標(biāo)準(zhǔn)是集合中的各個(gè)元素必須系統(tǒng)地或有條理地排列。參數(shù)集很難符合這個(gè)標(biāo)準(zhǔn)。

架構(gòu)保護(hù)

系統(tǒng)架構(gòu)是機(jī)器學(xué)習(xí)系統(tǒng)的基礎(chǔ)。其設(shè)計(jì)是確保系統(tǒng)正常運(yùn)行的關(guān)鍵要素。在完成訓(xùn)練后,架構(gòu)就將投入使用。

這類系統(tǒng)包含兩部分:定義架構(gòu)的圖形和實(shí)現(xiàn)架構(gòu)的軟件。圖形符合保護(hù)的條件與模型參數(shù)相同。從理論上講,架構(gòu)的創(chuàng)新硬件層面可以申請(qǐng)專利;但是由于這一領(lǐng)域的大多數(shù)創(chuàng)新基本只與軟件有關(guān),因此硬件專利不太現(xiàn)實(shí)。實(shí)施訓(xùn)練和/或推理的軟件通常會(huì)受到版權(quán)保護(hù),因?yàn)檐浖饕峭ㄟ^(guò)創(chuàng)造性工作設(shè)計(jì)而成的。

機(jī)器學(xué)習(xí)系統(tǒng)保護(hù)

理論上,使用精心選擇的參數(shù)集編程并基于特定訓(xùn)練集訓(xùn)練的電腦系統(tǒng)屬于可獲專利的主題范圍。但是,歐洲和美國(guó)的現(xiàn)行判例法要求系統(tǒng)的設(shè)計(jì)目標(biāo)是執(zhí)行現(xiàn)實(shí)世界中的任務(wù),例如駕駛汽車或識(shí)別現(xiàn)實(shí)世界中的圖像。對(duì)于以更抽象的方式運(yùn)行的機(jī)器學(xué)習(xí)系統(tǒng)(例如,在現(xiàn)實(shí)世界中缺少特定用例的情況下,進(jìn)行識(shí)別和/或分類),能否獲得專利仍未可知。

就像任何其他軟件一樣,機(jī)器學(xué)習(xí)系統(tǒng)的軟件一定可以受到版權(quán)保護(hù)。

機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)庫(kù)權(quán)利在理論上是有爭(zhēng)議的:爭(zhēng)議點(diǎn)在于數(shù)據(jù)集可通過(guò)模型和執(zhí)行該模型的軟件進(jìn)行搜索。但是,這一觀點(diǎn)從未在法庭上或法律文獻(xiàn)中得到檢驗(yàn)。

舉證責(zé)任

發(fā)現(xiàn)侵權(quán)者和在法庭上證明侵權(quán)是兩件截然不同的事情。在知識(shí)產(chǎn)權(quán)訴訟案件中,舉證責(zé)任可能難以實(shí)現(xiàn)。一般而言,法院需要得到充分的證據(jù)來(lái)確信很有可能存在侵權(quán)。被指控的侵權(quán)人沒(méi)有義務(wù)提供相關(guān)證據(jù)。因此,如果需要的證據(jù)在侵權(quán)人的掌握之下,那么知識(shí)產(chǎn)權(quán)權(quán)利所有者就可能會(huì)遇到問(wèn)題。一些司法管轄區(qū)允許扣押證據(jù)或要求當(dāng)事方進(jìn)行所謂的“透露”,但這并不能確保權(quán)利所有者得到所需證據(jù)。

根據(jù)版權(quán)法的規(guī)定,如果兩個(gè)物品非常相似,那么法院可以反轉(zhuǎn)舉證責(zé)任:侵權(quán)人必須證明其作品是獨(dú)立創(chuàng)作的。但是,這是法院針對(duì)特定事實(shí)分析的結(jié)果,權(quán)利所有者不應(yīng)依賴于這一機(jī)制。

根據(jù)商業(yè)機(jī)密法的規(guī)定,權(quán)利所有者有時(shí)可以選擇要求法院對(duì)證據(jù)保密,或者讓獨(dú)立的一方(例如公證人)將證據(jù)與機(jī)密信息進(jìn)行比較,而不必使機(jī)密成為公開(kāi)法院記錄的一部分。

模型防復(fù)制保護(hù)

當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)在對(duì)公眾沒(méi)有契約或使用限制的情況下推出時(shí),就可以使用某種獨(dú)特的方法來(lái)復(fù)制其功能。本質(zhì)上,抄襲者使用一個(gè)未分類項(xiàng)目數(shù)據(jù)集,并將每個(gè)項(xiàng)目提交到機(jī)器學(xué)習(xí)系統(tǒng)。每個(gè)答案都仔細(xì)地記錄為抄襲者的數(shù)據(jù)集分類。從而獲得一個(gè)帶有標(biāo)簽的數(shù)據(jù)集,用來(lái)訓(xùn)練相似質(zhì)量的模型。事實(shí)證明,即使數(shù)據(jù)集包含非問(wèn)題域數(shù)據(jù),并且目標(biāo)系統(tǒng)和克隆系統(tǒng)的架構(gòu)與模型參數(shù)不匹配,這一方法仍然有效。根據(jù)版權(quán)或數(shù)據(jù)庫(kù)法律的規(guī)定,暫時(shí)無(wú)法界定這種行為是否合法。原始機(jī)器學(xué)習(xí)系統(tǒng)中的數(shù)據(jù)集未被復(fù)制;只是利用了系統(tǒng)輸出,而且只用來(lái)標(biāo)記另一個(gè)數(shù)據(jù)集。

如果數(shù)據(jù)集分類本身具有創(chuàng)造性,那么抄襲者可能會(huì)因?yàn)橹貜?fù)使用標(biāo)簽而侵犯版權(quán)。即使只是復(fù)制和復(fù)用標(biāo)簽以對(duì)完全獨(dú)立的數(shù)據(jù)集進(jìn)行分類,也有可能侵犯版權(quán)。但是,這一觀點(diǎn)從未在法庭上得到檢驗(yàn)。

image.png

機(jī)器學(xué)習(xí)中的水印

知識(shí)產(chǎn)權(quán)法律的一個(gè)實(shí)際問(wèn)題是權(quán)利所有者必須證明其權(quán)利受到侵犯。

當(dāng)機(jī)器學(xué)習(xí)模型或訓(xùn)練集遭到復(fù)制時(shí),證明侵權(quán)會(huì)異常困難,尤其是數(shù)據(jù)涉及現(xiàn)實(shí)世界的元素時(shí)。抄襲者可以輕松地辯稱,他只不過(guò)是從原始來(lái)源或位置收集了相同或高度相似的數(shù)據(jù)而已。如果沒(méi)有辦法反駁這一論點(diǎn),權(quán)利所有者就會(huì)遭到冷落。

水印是指在內(nèi)容中嵌入信息的過(guò)程,在正常觀察時(shí)可能無(wú)法輕易發(fā)現(xiàn)嵌入的信息。數(shù)字水印誕生于1992年12月,自90年代末以來(lái)一直為權(quán)利所有者廣泛運(yùn)用,以察覺(jué)和追蹤可能發(fā)生的電影和歌曲泄漏。例如,嵌入的信息可以揭露泄漏源頭,或是最初傳播該內(nèi)容的網(wǎng)絡(luò)。

水印在機(jī)器學(xué)習(xí)中也找到了用武之地,但是運(yùn)用方式略有不同。這里的水印是指對(duì)原始訓(xùn)練數(shù)據(jù)和/或模型稍作修改以創(chuàng)建某些唯一的模型屬性。例如,可以修改圖像以在特定位置添加標(biāo)志。要檢測(cè)這些水印,需要向機(jī)器學(xué)習(xí)系統(tǒng)提供精心制作的秘密圖像,其中包含相同的唯一輸入。獨(dú)立訓(xùn)練的系統(tǒng)會(huì)將該圖像歸為普通類別,但是最初訓(xùn)練的系統(tǒng)以及抄襲帶水印機(jī)器學(xué)習(xí)系統(tǒng)的系統(tǒng)都將提供由修改觸發(fā)的唯一輸出。這就可以表明該系統(tǒng)抄襲了原始系統(tǒng)。

這種方法的另一個(gè)優(yōu)勢(shì)是,水印可以用作創(chuàng)意元素,從而為機(jī)器學(xué)習(xí)系統(tǒng)增加了受版權(quán)保護(hù)的信息。這有助于加強(qiáng)針對(duì)抄襲者的版權(quán)主張。

襲者可能會(huì)反駁他獨(dú)立使用了相同的水印,或者實(shí)際上是自己創(chuàng)建的水印。這樣將扭轉(zhuǎn)關(guān)于抄襲的指控。為了解決此類爭(zhēng)論,必須清晰地記錄選擇和插入水印時(shí)的日期和時(shí)間。如果沒(méi)有有力的證據(jù),版權(quán)所有者將無(wú)法提出侵權(quán)主張。

機(jī)器學(xué)習(xí)和知識(shí)產(chǎn)權(quán)的未來(lái)

由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的業(yè)務(wù)越來(lái)越受到青睞。因此,為了保護(hù)該領(lǐng)域中的投資,對(duì)于知識(shí)產(chǎn)權(quán)的興趣也在日益增加:從訓(xùn)練集的版權(quán)到分類系統(tǒng)的專利。但是,當(dāng)前這一領(lǐng)域的知識(shí)產(chǎn)權(quán)法律和實(shí)踐仍處于發(fā)展階段,判例法也非常稀少。因此很難確定面向機(jī)器學(xué)習(xí)系統(tǒng)和機(jī)器學(xué)習(xí)驅(qū)動(dòng)型產(chǎn)品的法律保護(hù)將發(fā)展到何種程度。

話雖如此,但仍有一些通用說(shuō)明可供參考,如下表所示:


知識(shí)產(chǎn)權(quán)(IPR)

專利

版權(quán)

數(shù)據(jù)庫(kù)權(quán)利

商業(yè)機(jī)密

保護(hù)

技術(shù)創(chuàng)新

創(chuàng)意表達(dá)(即不僅僅是辛勤的工作或投資)

創(chuàng)造集合方面的實(shí)質(zhì)性投入

信息保密

(例如,通過(guò)NDA)

司法

管轄區(qū)

全球

所有者和侵權(quán)者必須在歐盟境內(nèi)

全球

受保護(hù)對(duì)象

架構(gòu)

否,

但是請(qǐng)參閱下方的軟件

對(duì)于底層圖形來(lái)說(shuō)不太可能,除非選擇方式具有創(chuàng)造性

訓(xùn)練集

測(cè)試集

否,

創(chuàng)造性標(biāo)簽或創(chuàng)造性挑選的數(shù)據(jù)集除外

訓(xùn)練參數(shù)

不可能,

除非選擇方式具有創(chuàng)造性

模型

不可能

不可能,

除非水印、標(biāo)簽、參數(shù)或架構(gòu)選擇方面存在創(chuàng)造性

不可能

實(shí)現(xiàn)機(jī)器學(xué)習(xí)功能的軟件

是,

作為經(jīng)過(guò)訓(xùn)練的模型系統(tǒng)的一部分,并且僅針對(duì)現(xiàn)實(shí)世界中的任務(wù)

是,

但是實(shí)現(xiàn)的功能不受保護(hù)

結(jié)論

在本白皮書(shū)中,我們闡述了未來(lái)哪些機(jī)器學(xué)習(xí)知識(shí)產(chǎn)權(quán)將受到哪些知識(shí)產(chǎn)權(quán)法律的保護(hù)。那么對(duì)于本文開(kāi)篇的資本設(shè)備示例而言,這意味著什么呢?盡管用于維護(hù)的機(jī)器學(xué)習(xí)模型本身無(wú)法獲得專利,但是這一模型的實(shí)施可能是符合專利要求的,因?yàn)槠淠康氖菆?zhí)行現(xiàn)實(shí)世界中的任務(wù)。此外,還可以對(duì)實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的軟件提出版權(quán)主張。但是,如果抄襲者僅僅是復(fù)制模型(權(quán)重)并在自己的實(shí)現(xiàn)中使用,或者如果通過(guò)標(biāo)記自己的訓(xùn)練集來(lái)創(chuàng)建克隆模型,那么能否進(jìn)行版權(quán)保護(hù)就難以確定。開(kāi)發(fā)人員必須證明在架構(gòu)設(shè)計(jì)、訓(xùn)練參數(shù)、訓(xùn)練集組成或數(shù)據(jù)標(biāo)記方面做出了創(chuàng)造性選擇,并且這些選擇不僅僅是出于技術(shù)考慮。即使能證明這一點(diǎn),也無(wú)法確定這種創(chuàng)造性是否充分地存在于模型的克隆/副本中,從而在法庭上得到認(rèn)可。因此,制定應(yīng)對(duì)策略來(lái)防止克隆或復(fù)制(例如平臺(tái)安全)或者融入創(chuàng)造性(例如水印)對(duì)于機(jī)器學(xué)習(xí)知識(shí)產(chǎn)權(quán)的保護(hù)來(lái)說(shuō)至關(guān)重要。最后,我們要指出,在法庭沒(méi)有判例之前,侵權(quán)案件的審判結(jié)果以及法律是否將在這些問(wèn)題上作出改變只能是推測(cè)。盡管如此,公司現(xiàn)在也應(yīng)該開(kāi)始考慮如何保護(hù)其機(jī)器學(xué)習(xí)知識(shí)產(chǎn)權(quán)。

恩智浦半導(dǎo)體致力于通過(guò)先進(jìn)的解決方案為人們更智慧安全、便捷的生活保駕護(hù)航。作為全球領(lǐng)先的嵌入式應(yīng)用安全連結(jié)解決方案領(lǐng)導(dǎo)者,恩智浦不斷推動(dòng)著安全互聯(lián)汽車、工業(yè)與物聯(lián)網(wǎng)、移動(dòng)設(shè)備及通信基礎(chǔ)設(shè)施市場(chǎng)的創(chuàng)新。除了嵌入式平臺(tái)安全之外,恩智浦還提供機(jī)器學(xué)習(xí)模型保護(hù)功能。

機(jī)器學(xué)習(xí)模型完成訓(xùn)練后,將被部署到指定用途的系統(tǒng)中。借助恩智浦? eIQ?機(jī)器學(xué)習(xí)軟件開(kāi)發(fā)環(huán)境,您就可以在恩智浦i.MX RT交叉處理器和i.MX系列SoC上使用機(jī)器學(xué)習(xí)算法。eIQ?提供推理引擎、神經(jīng)網(wǎng)絡(luò)編譯器和優(yōu)化庫(kù)。其中還包含提高機(jī)器學(xué)習(xí)網(wǎng)絡(luò)安全性的方法,能夠解決本文所述的克隆和對(duì)抗攻擊等問(wèn)題。其他機(jī)器學(xué)習(xí)安全措施也已納入發(fā)展計(jì)劃。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉