你好,欢迎进入协会网站.
网站首页 | 设为首页 | 加入收藏      
您当前所在的位置:>> 网站首页

“爬虫”系列事件的法律分析与规制

1 “爬虫”讨论的背景

2 “爬虫”的基本认知

2.1 “爬虫”的定义

2.2 “爬虫”的类型

2.3 “爬虫”的法律定性

3 与“爬虫”相关的规范性文件

3.1 法律及司法解释

3.2 部门规章

3.2 指南及行业规定

4 “爬虫”的典型案例

4.1 刑事案例

4.2 民事案例

5 “爬虫”可能需要承担的法律责任

5.1 刑事责任

5.2 民事责任

5.3 行政责任

6 总结

1 “爬虫”讨论的背景

近期,天翼征信(电信控股)、魔蝎科技、新颜科技、公信宝等知名互联网公司,均因为数据问题遭到警方的调查;知名第三方数据服务公司聚信立,也宣布将暂停对外提供用户授权的运营商“爬虫”服务。一时间,整个互联网大数据行业风声鹤唳!

几天前,一篇名为《只因写了一段“爬虫”,公司200多人被抓!》的网络文章,讲述了一名程序员写了“爬虫”程序,导致整个公司200多人被端的事件。该网文迅速传播,由此引发人们对“爬虫”安全性的广泛质疑。


2 “爬虫”的基本认知

2.1 “爬虫”的定义

“爬虫”即为“网络爬虫”,又称网页蜘蛛,是一种按照一定的规则,自动地抓取互联网上信息的程序或者脚本。简而言之,就是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。

在我们普通用户眼里,一个网页所呈现的是最终的结果,如:

 

而在“爬虫”眼里,这个网页所呈现的内容是这样的:

 

因此网页实质上就是超文本(hypertext),网页上的所有内容都是在形如“<>...</>”这样的标签之内的。如果我们要搜集网页上的所有超链接,只需寻找所有标签中前面是“href=”的字符串,并查看提取出来的字符串是否以“http”(超文本转换协议,https表示安全的http协议)开头即可。

在Python中一般使用Requests库中的方法来帮助我们实现对网页的请求,从而达到实现爬虫的过程。如最常用的方法get用来实现一个简单的小爬虫,通过示例代码为:

 

为了有效识别网站是否允许“爬虫”,以及网站对于访客采用“爬虫”获取信息的宽容度,在网络上引入了“Robots”协议,也称为爬虫协议、机器人协议等,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议默认放置于网站的根目录小,对于一个没有Robots.txt文件的网站,默认是允许所有爬虫获取其网站内容的。一般的协议涉及到如下参数:

 

2.2 “爬虫”的类型

网络“爬虫”按照系统结构和实现技术,大致可以分为以下四种类型:

(1)通用网络“爬虫” (General Purpose Web Crawler)

通用网络“爬虫”又称全网“爬虫”,爬行对象从一些URL(统一资源定位系统)扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络“爬虫”的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷,通用网络“爬虫”适用于为搜索引擎搜索广泛的主题,有较强的应用价值。

(2)聚焦网络“爬虫” (Focused Crawler)

聚焦网络“爬虫”又称主题网络“爬虫”,是指选择性地爬行那些与预先定义好的主题相关页面的网络“爬虫”。和通用网络“爬虫”相比,聚焦“爬虫”只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

(3)增量式网络“爬虫” (Incremental Web Crawler)

增量式网络“爬虫”是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的“爬虫”,它能够在一定程度上保证所爬行的页面是尽可能新的页面。简而言之,增量式“爬虫”只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。

(4)深层网络“爬虫” (Deep Web Crawler)

深层网络“爬虫”可以爬取互联网中的深层页面。

Web页面按存在方式可以分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web页面,例如那些用户注册后内容才可见的网页就属于深层网页。

聚焦网络“爬虫”和深层网络“爬虫”通过预先设立标准和路径,通过对于爬取的内容进行分析,所获得的信息更为精准和重要,此次与大数据信息有关联的爬取,即主要采用这两种方式。


2.3 “爬虫”的法律定性

根据上述分析,“爬虫”从法律角度而言,是一种通过特殊的途径和渠道获取信息的行为,其本身是一种网络技术应用,被广泛运用在网络系统中,并不天然具有违法性。只是其使用方式及使用目的决定了是否会产生违法的行为和后果。随着信息技术的快速发展,全球数据呈现爆发增长、海量集聚的特点,对社会经济发展、民众生活等都产生了重大影响。

“爬虫”技术的使用促进了信息的价值应用,有利于信息的快速传播,但若该技术使用不当,将引发信息泄露、数据安全等法律问题。


3 与“爬虫”相关的规范性文件

3.1 法律及司法解释

(1)《中华人民共和国刑法》及刑法修正案

与“爬虫”相关的刑事罪名主要有:

① 《中华人民共和国刑法》第二百五十三条之一规定的侵犯公民个人信息罪,即违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

② 《中华人民共和国刑法》第二百八十五条规定的非法入侵计算机信息系统罪,即违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

《中华人民共和国刑法修正案(七)》增设第二百八十五条第二款非法获取计算机信息系统数据罪,即违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

《中华人民共和国刑法修正案(七)》增设二百八十五条第三款提供侵入、非法控制计算机信息系统程序、工具罪,即提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

③ 《中华人民共和国刑法》第二百八十六条规定的破坏计算机信息系统罪,即违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。

④ 《中华人民共和国刑法》第二百一十九条规定的侵犯商业秘密罪,即有下列侵犯商业秘密行为之一,给商业秘密的权利人造成重大损失的,处三年以下有期徒刑或者拘役,并处或者单处罚金;造成特别严重后果的,处三年以上七年以下有期徒刑,并处罚金:(一)以盗窃、利诱、胁迫或者其他不正当手段获取权利人的商业秘密的;(二)披露、使用或者允许他人使用以前项手段获取的权利人的商业秘密的;(三)违反约定或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密的。

(2)《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》

第二条规定:具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。

(3)《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》

司法实践中,侵犯公民个人信息罪的具体定罪量刑标准尚不明确,一些法律适用问题存在争议,亟需通过司法解释予以明确。该解释的出台,目的为依法惩治侵犯公民个人信息犯罪活动、保护公民个人信息安全和合法权益,就侵犯公民个人信息刑事案件适用法律的若干问题做了明确。(4)《中华人民共和国民法总则》《中华人民共和国民法总则》第一百一十一条规定:自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。(5)《中华人民共和国反不正当竞争法》“爬虫”在使用过程中可能涉及不正当竞争,主要依据为《反不正当竞争法》第二条原则性规定、第九条关于经营者不得实施侵犯商业秘密行为之规定。(6)《中华人民共和国著作权法》企业在使用网络“爬虫”技术抓取数据信息,可能抓取并未经许可使用,进而侵犯他人著作权(如《著作权法》第十条规定的信息网络传播权)。(7)《中华人民共和国网络安全法》第二十七条规定:“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。”第四十一条规定:“网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。”3.2 部门规章《数据安全管理办法(征求意见稿)》由国家互联网信息办公室颁布,对数据安全进行合规约束,目前正在征求意见中。其中第十六条规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”3.2 指南及行业自律公约(1)《信息安全技术 个人信息安全规范(征求意见稿)》该标准针对个人信息面临的安全问题,规范个人信息控制者在收集、保存、使用、共享、转让、公开披露等信息处理环节中的相关行为,旨在遏制个人信息非法收集、滥用、泄漏等乱象,最大程度地保障个人的合法权益和社会公共利益。(2)《互联网搜索引擎服务自律公约》《互联网搜索引擎服务自律公约》第七条规定:“机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。具体而言,robots协议存放在网站根目录下的文本文件robots.txt,输入网址URL/robots.txt即可查看每个网站的网络“爬虫”排除标准,提示哪些网页可以获取,哪些不允许。”robots协议相当于“爬虫”界里的“君子协定”,并作为行业通行规则需要遵守。在百度诉奇虎360违反Robots协议案引发的不正当竞争案件中,法院在判决中指出“Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德”。


4 “爬虫”典型案例4.1 刑事案例①头条前高管反噬被判刑宋某是当时头条视频的总经理,负责产品和运营;侯某是技术团队负责人,从头条离职之后,两人均加入秀淘。2017年,秀淘破解了今日头条服务器的防抓措施,使后者产生直接损失技术服务费两万元。最终法庭判决,涉事者因为构成非法获取计算机信息系统数据罪,被判九个月至一年不等的有期徒刑,并处罚金。这是国内首起“爬虫入刑”案。②全国首例利用“爬虫”技术实施复制被害单位视频资源案件2019年初,北京市海淀区人民法院审结了一起利用“爬虫”技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用“爬虫”技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。最终海淀区法院以非法获取计算机信息系统数据罪分别判处被告单位罚金20万元,判处被告人张某等四人有期徒刑九个月至一年不等的刑罚及3万元至5万元不等的罚金。③ 巧达科技信息泄露被查封2018年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。今年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。4.2 民事案例

(1)不正当竞争

①酷米客诉车来了

实时公交查询APP“酷米客”,因后台大量信息数据遭盗取,而将同类产品“车来了” 告上法庭,该案也被称为全国首宗“爬虫”软件案。

法院认为“本案中,被告元光公司利用网络‘爬虫’技术大量获取并且无偿使用原告谷米公司‘酷米客’软件的实时公交信息数据的行为,实为一种‘不劳而获’、‘食人而肥’的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。”

②新浪微博诉脉脉

2013年9月11日至2014年8月15日,脉脉曾经获得微博授权,用户可通过微博账户注册脉脉,同时脉脉可获得微博用户的部分信息。但是,在合作期间,脉脉在没有得到微博授权,也未经未注册用户许可的情况下,将脉脉用户手机通讯录里的联系人与新浪微博用户对应,并展示在脉脉用户“一度人脉”中。而且,在合作终止后,仍继续使用这些信息。在脉脉与微博的《开发者协议》中明确规定,脉脉通过新浪微博获取的用户信息包括姓名、性别、头像、电子邮箱,并不包括用户教育信息、职业信息和手机号。

一审法院认为“作为微博开放平台的微梦公司相对于二被告处于优势地位,而作为脉脉软件经营者的二被告相对于用户个人亦处于优势地位,不论是无法客观还原合作当时的合同内容以及合同履行情况,还是在格式合同中设置各种单方利益条款,甚至不考虑可能涉及的第三方用户合法权益的情形,都是处于相对优势地位的互联网经营者未能以诚信态度对待自身地位的表现。正是此种情形在当前市场竞争中存在相当程度的普遍性,才使诸如二被告在本案争议发生后‘很被动’,也才使本案暴露出互联网企业经营活动中对用户信息保护存在普遍缺陷这一更深层次的矛盾。互联网经营者应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德,尊重消费者合法权益,才能获得正当合法的竞争优势和竞争利益。”故脉脉非法抓取、使用新浪微博用户信息等行为构成不正当竞争,判决其停止不正当竞争行为,消除影响,赔偿经济损失、合理费用200多万元。

二审法院认为“上诉人淘友技术公司、淘友科技公司获取新浪微博信息的行为存在主观过错,违背了在OpenAPI开发合作模式中,第三方通过OpenAPI获取用户信息时应坚持‘用户授权’+‘平台授权’+‘用户授权’的三重授权原则,违反了诚实信用原则和互联网中的商业道德,故,上诉人淘友技术公司、淘友科技公司获取并利用新浪微博用户信息的行为不具有正当性。”最终维持原判。

③ 百度诉奇虎360

2012年8月,被告奇虎公司(简称“360”)推出360搜索引擎,采用一系列较有争议的营销手段推广其业务,迅速获得相当部分的市场份额,也引起百度公司的强烈反应。两公司间针锋相对的口水战和经营措施引起业界和媒体的高度关注,更被网民称为“3B大战”。2012年开始,百度公司陆续向奇虎公司发起诉讼,这也使“3B大战”在诉讼方面冲突升级。

法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的Robots协议,其行为明显不当,应承担相应的不利后果。


5“爬虫”可能需要承担的法律责任

5.1 刑事责任

网络爬虫的不当访问、收集、获取、干扰行为理应受到法律规制。如果在数据抓取过程中实施了非法控制行为,可能构成非法控制计算机信息系统罪。若行为人违反刑法的相关规定,通过网络爬虫访问收集一般网站所存储、处理或传输的数据,可能构成刑法中的非法获取计算机信息系统数据罪。如果使用网络爬虫频繁访问目标数据服务器,造成对目标网站的功能干扰,导致其访问流量增大、系统响应变缓,影响正常运营的,也可能构成破坏计算机信息系统罪。违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,可能构成侵犯公民个人信息罪,具体定罪和量刑可参考《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》。对于爬虫可能触及的刑事罪名参见本文第3部分——与“爬虫”相关的规范性文件。

从刑法所追求的法益来看,刑法规范的是利用技术手段突破权限许可获取本不应获得的数据,对目标网站造成严重影响并具有社会危害性的数据抓取行为,其刑事责任的承担更倾向于强制性、惩罚性,维护社会的稳定秩序。

5.2 民事责任

未经授权,爬取信息的行为可能侵害权利人的合法权益,包括个人权益及企业权益,由此承担相应的侵权责任,包括但不限于停止侵害、消除影响、恢复名誉、赔偿损失。

对个人而言,爬虫抓取的信息中包含姓名、肖像、隐私等内容,未经权利人同意擅自获取该部分信息,除上述刑事责任中的侵犯公民个人信息罪,也构成了对公民人格权的民事权利侵犯。

对企业而言,数据信息是一个企业的核心竞争资源,未经同意被爬取并进行商业利用的行为,严重侵害了数据拥有者的合法权益,违反自愿、平等、公平、诚信的原则以及法律和商业道德,是一种不正当竞争的行为,该行为给他人造成损害的,应当依法承担民事责任。

具体的民事责任可参考本文第3部分——与“爬虫”相关的规范性文件。

5.3 行政责任

未经授权爬取信息的行为,除上述刑事与民事责任,也可能构成行政责任。

根据《网络安全法》第二十七条规定、第六十三条规定,从事危害网络安全的活动,或者提供专门用于从事危害网络安全活动的程序、工具,或者为他人从事危害网络安全的活动提供技术支持、广告推广、支付结算等帮助,尚不构成犯罪的,由公安机关没收违法所得,处五日以下拘留,可以并处五万元以上五十万元以下罚款;情节较重的,处五日以上十五日以下拘留,可以并处十万元以上一百万元以下罚款。单位有前款行为的,由公安机关没收违法所得,处十万元以上一百万元以下罚款,并对直接负责的主管人员和其他直接责任人员依照前款规定处罚。违反本法第二十七条规定,受到治安管理处罚的人员,五年内不得从事网络安全管理和网络运营关键岗位的工作;受到刑事处罚的人员,终身不得从事网络安全管理和网络运营关键岗位的工作。

根据《网络安全法》第四十一条规定、第六十四条规定,侵害个人信息依法得到保护的权利的,由有关主管部门责令改正,可以根据情节单处或者并处警告、没收违法所得、处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款,对直接负责的主管人员和其他直接责任人员处一万元以上十万元以下罚款;情节严重的,并可以责令暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照。违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由公安机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。


6 总结

“爬虫”作为一种计算机技术,决定了它的中立性,其本身并不被法律所禁止,且对网络信息搜索、共享、传播等起到了积极的帮助作用。但正如“菜刀可以切菜,也可以杀人”,如果将“爬虫”用于不法用途,非经网站或权利人同意爬取信息,就可能涉嫌违法甚至是构成犯罪。2018年,被业内人士成为“数据保护元年”,而次年的2019年,因“爬虫”引发了大量的数据安全问题,个人信息泄露、未经许可爬取信息等的事件接二连三爆发,引发全社会的广泛关注。值得关注的是,国家也正陆续出台相应的法律法规及相关政策文件等规范性文件,以规制数据安全问题,网络安全等级保护2.0的时代已宣告正式到来!

 


电话:19979036675

传真:079183722862

邮编:330038

地址:南昌市红谷滩新区红角洲赣江南大道2698号
http://jxca.miit.gov.cn/
中国通信企业协会 | 中国互联网协会 | 中国通信学会 | 江西省通信管理局 | 中国电信江西公司 | 中国移动江西公司 | 中国联通江西公司 | 中国铁塔江西公司 | 中国江西铁通公司 | 中国通服江西公司
版权所有: 江西省互联网协会 赣ICP备15004138-1号
技术支持: 南昌傲亚信息有限公司
地址:南昌市红谷滩新区红角洲赣江南大道2698号 联系电话:19979036675 传真:079183722862 邮编:330038