密文軒:數據爬取的爭議焦點

信息技術的發展帶來數據的豐盈,新型的互聯網公司就像石油公司一樣,逐漸成了一般人在生活中難以離棄的對象。而這些公司賴以生存的根基正是被人稱作數字經濟時代“石油”的個人數據。對用戶個人數據的利用、保護、爬取等行為便成了各巨頭公司經營的一大重頭。企業之間關于數據的爭議一般是源于一方對另一方的數據爬取行為的合法性與否;而就目前國內的相關判例不難看出,在我國司法實踐中,較多情況下會以保護市場自由競爭秩序進而保障消費者權益為由,判定數據爬取方的行為構成不正當競爭,賠償數據被爬取方的相關損失。

非法爬取數據案的相關爭議點分析

雖然,就近些年的判決書確實能歸納出法官對于此類案件的認定擁有大致相同的邏輯,但是,細化去看時,還是比較容易發現一些比較容易引起爭議的話題點。下文將結合幾個案例的判決內容對相關的爭點做一個簡單的思考。

(一)為什么對非法爬取數據的案件進行不正當競爭的認定而非是著作權侵犯的認定?

在早些時候,歐洲就在知識產權的框架體系下設立過數據庫權,不過,收效甚微且受到批評略多,有關的保護更多是從著作權法中匯編作品的角度入手。而我國總體立法是偏倚大陸法系的,著作權更強調作者的精神,所以,不妨以獨創性認定標準較低的國家入手分析;在有著作權法/版權法的國家中,英美法系一派出于對經濟利益的放任發展,獨創性的認定標準向來較低,但在91年Feist一案中,也完成了“額頭流汗”標準向“最低限度的智力創造性”的轉變:因為電話簿僅是按照居民姓名的字母排序,缺乏足夠創造性的證明,原告郊區電話公司對Feist公司的起訴被判敗訴。

轉而分析當下的信息數據情況,一般可分為“原始數據”和“衍生數據”兩類。其中,像“百度訴奇虎360”一案中的爬取的數據更多是直接針對原初網站頁面直接爬取而展開的,所以更偏向于“原始數據”,可以看出除了爬取存儲行為基本上不存在其他更多的操作,自然不能夠被認定相關網站對這些數據享有著作權;而在“新浪訴脈脈”一案中,脈脈是通過OpenAPI獲取用戶相關的數據,而新浪對于這些數據的處理,也更多是停留在按用戶對數據進行歸集形成賬戶,大致類似Feist一案中原告的處理模式,其中的創造性亦不足以使得這些數據被提上著作權法保護的日程。當然也存在一些金融平臺對于其用戶的賬戶數據可能進行高價值性的處理,但此種情況下,往往是從實用性角度出發的加工處理,也可以將其與獨創性表達相界分、區別。

因此,根據上述的分析,首先可以在大部分情況下排除非法爬取數據案件中的著作權法適用,轉而從商業資源的角度進行反不正當競爭法上的認定,但是在具體對行為進行認定時,還需要對從幾個爭議焦點對行為的合法性進行探討。

(二)如何認定涉案雙方之間存在競爭關系?

一方面,早期在立法和學理上對于不正當競爭關系的認定要求行為主體與被侵害者之間具有直接的競爭關系,即如果行為人與被侵害者不是處于共同的或有聯系的經濟活動領域,則其行為就不會被認定為不正當競爭?!鞍俣仍V奇虎360”一案中,原告百度本身就是經營搜索引擎、提供信息服務起的家,慢慢地將業務拓展到文庫、百科、音樂等服務。而被告奇虎360于最初時,是提供軟件安全服務起家的,也是在本領域內逐漸做大之后,開始向其他領域拓延業務。2012年8月,當奇虎360開始同樣向用戶提供信息搜索服務——“360搜索”時,二者已經足以構成嚴格意義上的競爭者,因此,也自然可以構成我國《反不正當競爭法》第二條意義上的經營者,作為適格的訴訟雙方主體。

另一方面,數字經濟的發展和社會科技的進步促進了企業的規?;投嘣洜I,也就使得市場競爭的范圍更加廣泛,從“大眾點評訴百度”一案的法官意見中,不難看出,這種競爭關系認定范圍的拓延。在此案中,大眾點評是一家獨立的第三方消費點評網站,主要向網絡用戶提供商戶基本信息及點評信息,包括商戶的地址、聯系方式、簡介等信息以及消費者對該商戶服務、價格、環境等方面所發表的評論;同時用戶也可以調用地圖查詢路線或部分團購服務。而被告方百度一方的百度地圖和百度知道總括的來講都可以被認為是提供信息搜索服務,從表面上看與大眾點評的重合度并沒有那么高,似乎是不會被認為存在上段中嚴格意義上的競爭關系。但在本案中,法官將競爭的本質落腳在對客戶即交易對象的爭奪上, 打破了相同行業、相同領域或相同狀態模式等固化要素范圍的局限,從經營主體具體實施的經營行為出發加以考量。即雖然兩家公司的經營模式確實不同,但是用戶通過大眾點評可以接受的服務,完全可以通過百度知道和百度地圖的綜合應用而取得,而且用戶一旦在百度搜索到滿意的答案之后,自然是不會再點開大眾點評的相關鏈接內容,無論百度是否會在本站頁面內以后附的形式提供。因此,法官認定“存在競爭關系”的并邏輯并沒有問題。

根據上述兩個案例,不難得出,在數字經濟社會,嚴格意義的同業、同領域經營者必然會構成反不正當競爭法上的競爭者,而其他的經營者雖然具體涉及領域不同,但也可能會因為行業的特殊性而大概率被認定為競爭者,對此的認定應當立足于法律經驗的判斷,而不是對于法條教義的死守。另外,在網絡競爭中若要對競爭者的定義做出一個更大的擴張解釋,其實也并非不是毫無理論與事實支持,哥倫比亞法學院的吳修銘教授提出的“注意力商人”這一概念,將一般人的注意力和時間商品化,便可以幫助法官從波斯納式的實然的經濟效益角度對雙方關系做出一個恰當的判斷。

(三)用戶數據權屬應當如何進行認定?

通過上一節已經可以對經營者之間的競爭關系做出一個判斷,進一步地,對于數據爬取行為,一般會認為應當先對數據的權屬作出一個分明的界定,這樣可以方便判定不正當競爭行為,但是對于用戶數據的權屬究竟應在掌握在誰手中,目前仍然是理論和實務中的一大爭議點。

有觀點認為用戶數據的權利應當歸屬于用戶自身,畢竟這些數據都是用戶在日常的互聯網使用過程中產生的,這一主張似乎是無可厚非。實踐中,對此種觀點持支持態度最明顯的當屬18年5月開始實施的《通用數據保護條例》(GDPR)。GDPR中確定了用戶的數據可攜權(portability)制度,以這種形式賦予用戶自決的能力,試圖建構個體控制權以對抗互聯網巨頭對用戶數據的掌控。對此,在Facebook、Twitter、Google和Microsoft推出了一個數據傳輸計劃(DTP),目的在于方便用戶可以在這幾家企業的經營范圍內實現個人數據的自決與互通,只是這幾家之間的業務領域并不是太相同,所以很難說用戶可以通過這個計劃真正地擴大自己的選擇范圍,也就更不用說實現自己對于數據的自決權。因此,可以從實務的角度看出來,認定用戶享有數據的權屬可能確實是對于用戶權益保障的一種考量,但是互聯網行業內的情況才是會對此起到關鍵性作用的存在,畢竟,用戶生產數據的基礎仍然是互聯網企業搭建出的技術平臺,更何況用戶生成的數據并不一定只是用戶一個人付出勞動而得到的成果。

另一種觀點就是用戶數據的權利應當由互聯網公司享有,理由也很簡單,用戶的數據產生的基礎和可能都是互聯網公司賦予,而且最后用戶數據集成的數字檔案也是互聯網公司利用算法技術歸整的,雖然不存在被著作權法保護的可能,但是作為一般的勞動成果還是可以當成公司的合法權益受到法律保護。在今日頭條和騰訊因“多閃侵權”的問題而爆發爭執之后的幾日內,騰訊研究院就發布了一篇文章,整理了國內外多個法院做出的有利于認定公司數據權屬的案件,如“大眾點評訴愛幫網案”、“新浪訴脈脈案”、“淘寶訴美景案”、“Facebook訴Power公司案”,看起來是表明了無論立法層面是否有做出明確的規定,至少在當下法院的司法實踐是對公司享有數據權益是認可的。但是,這明顯是一份有價值傾向性的整理,在“LinkedIn與hiQ Labs爬蟲軟件”一案中加州北區聯邦地區法院做出判決的邏輯明顯不是這樣,相反,法院認可了數字經濟發展的自由性和互聯網企業最初“非法興起”的商業邏輯。國內判決的話,“百度訴奇虎360”一案中也有相應的邏輯與之佐證。所以,公司享有數據權屬至少目前也不是一個真命題。

有人以科斯的“清楚界定的產權是市場交易的前提”向當下數據產權的劃分不明提出質疑,但這樣的質疑又在多大層面上值得探討呢?所有的上層建筑都是立足于經濟基礎之上,歐盟境內沒有太大的互聯網巨頭,在歐洲被廣泛使用的互聯網產品都是打上美國標簽的,這自然為歐盟立法(GDPR)帶來了價值上的取向,即限制美國互聯網巨頭的壟斷,給本土企業創造一些機會;而中國、美國兩國都是在很大層面上受益于新經濟的產出與發展,也就無怪會對于企業數據權會做出一定程度的保護。更何況,對于數據而言,重要的是企業的訪問與使用,只有對數據池的使用才能帶來經濟上的正外部效應,界定權屬卻不會帶來實質性的經濟產出,司法實踐中對于數據權屬的價值性判斷如果也是以產生經濟上的意義為目的,那么,在某一時刻就做出一個恒定的、具有普遍效力的權屬認定便顯得不是那么有必要了。

(四)如何認定數據爬取行為與不正當競爭之間的關系?

雖然對于數據的權屬認定,仍然存在模糊的空間,或者說沒有一個統一的判斷,故而法院判決時一般也沒有太過于強調數據權屬本身,因此,也并不妨礙他們對于部分互聯網企業的不正當爬取行為進行認定。

在“大眾點評訴百度”一案的二審判決書中,法院落腳于百度的信息服務提供后會大幅度減少大眾點評網的點擊率,以此認定被告百度是“未經許可使用了他人勞動成果”,通過“搭便車”行為,完成了對于原告大眾點評網的“實質性替代”,造成了“實質性損失”且破壞了“市場競爭秩序”,對消費者產生不利影響?!鞍俣仍V奇虎360”一案中的邏輯也是類似,法院認定構成不正當競爭的是奇虎360一開始“不言不語”的爬取替代行為和后期超出合理使用范圍的“網頁快照”的技術反制??梢?,法院在實踐中很巧妙地避開了數據權屬確權的爭議,而是以勞動成果為被爬取的企業正名化?;谶@一個“勞動成果”的立足點,結合類似的判例,是可以歸納出幾個常規的構成要件:1.存在“不勞而獲”和“搭便車”行為;2.該行為明顯超出合理受用的限制;3.對于原網站造成了實質性替代以至于損害其商業利益。

而對于通過OpenAPI開發合作獲取用戶信息的案件,法院也在“新浪訴脈脈案”給出了一種新的認定思路。法院認為脈脈利用OpenAPI的技術問題,抓取了本沒有權限抓取的信息,便構成了不正當的競爭,并且在二審判決書中明確給出了“用戶授權+平臺授權+用戶授權”的三重授權模式,以維護用戶的相關權益與企業競爭優勢相關的權益。需要注明,此處的權利仍然不是對于數據財產權的認定。本案中,爬蟲抓取的數據是用戶的個人信息,希望借此搭建出一個用戶的社交網絡,所以,就數據本身而言更多涉及到的是個人人格相關的權利而非是財產;就社交關系網而言,能夠視為脈脈對于新浪經濟投入及其相關權益的一種不正當競爭。因此,法院也愿意明確地認定一個三重授權的特殊邏輯,而不是以之前的“搭便車”邏輯一筆帶過。

目前,國內數據爬取的案件審理中,法院大致的認定模式都是依托于以上兩種邏輯,而且主要是以“搭便車”為主,這對時下互聯網行業內部的數據合規會有一定的啟發作用。但是,也不排除在新的互聯網盈利模式的影響下,法院會隨之產生新的判斷模式。

(五)如何對數據被爬取方受到的損失進行認定及其與最終賠償額的關系?

根據我國《反不正當競爭法》第十七條規定,不正當競爭的賠償數額由受到損害的經營者的實際損失確定;如果損失難以確定,則可以按侵權人的侵權獲益確定。但實際上,對于法院而言,如欲通過簡單計算得出這一個損失金額或者獲益金額還是比較困難的。不過,在“奇虎訴搜狗”一案中,奇虎公司通過提供艾瑞數據(mUserTracker)中搜狗助手月覆蓋人數增量來證明被告搜狗的非法所得,倒是提供了一條思路。

由于免費提供基礎設施,相關互聯網公司的獲利途徑基本就是“增值服務”和“廣告補貼”兩大塊兒,而這兩塊都與用戶活躍度和覆蓋量相關。對此,可以從一些專注于互聯網數據分析的公司那兒購買公司的近期相關用戶數據,就比如“奇虎訴搜狗”中的艾瑞公司,然后建立一個數學模型,作出一個大致的損失估算,供法院參考。

然而,從目前法院對于互聯網不正當競爭案件的實際判定中,不難發現法院對于賠償金額的大致判處思路,即按照當時段的“行情”再結合案件中的具體情況做一個簡單的加減法。比如14年“百度訴奇虎360違反Robots協議”一案中,法院判處總計賠償70萬;15年“愛奇藝訴聚網視科技廣告屏蔽”一案中,原告獲賠總計36萬;16年“新浪訴脈脈非法爬取數據”一案中,新浪獲賠220萬;16年“大眾點評訴百度”一案中大眾點評總計獲賠323萬,以15年與16年作為分水嶺可以大致劃成兩個不同“行情”的賠償額度范圍:50萬左右、200萬左右。對于這種做法的合理性值得討論,如百度、新浪一類的巨頭公司確實不會太在意賠償金額,可能更多是想通過訴訟在合法范圍內拒斥其他公司的部分競爭行為;但是,部分受損巨大的小公司如果不能夠通過訴訟獲得至少相抵的賠償額,極容易面臨破產處境,從而會降低互聯網行業內中小企業的存活能力和整體行業的競爭性。

總結

結合了相關的法院判決書,第二部分對當下網絡非法爬取數據案件的四個爭議點,做了簡單的分析,其中對于大部分的司法實踐邏輯予以了認可,也提出了部分質疑??傮w來說,法院的做法出發點始終是保障整體市場的競爭和保護消費者的合法權益,且并沒有囿于教條性的權利,是基于對互聯網的商業邏輯尊重的基礎上對相關焦點做出了最終的選擇。這些做法可以認為是有經濟效益的,而對于學理上的權益討論,法院應當持一種審慎的態度,不能貿然地接受任何一種看法。

發表評論