在大数据时代,除直接通过用户采集,另一个主要的数据来源就是使用网络爬虫采集公开信息。爬虫的使用到了何种程度?有业内人士称,互联网50%以上,甚至更高的流量其实都是爬虫贡献的。对某些热门网页,爬虫的访问量甚至可能占据了该页面总访问量的90%以上。
从技术角度来看,爬虫就是通过程序去模拟人类上网或者浏览网页或者APP行为,再从中抓取爬虫作者所需要的信息的过程。随着数据产业的不断发展,数据价值的日益高涨,对于数据的争夺日趋激烈。“爬虫”与“反爬虫”成为无休止的“攻防对抗”,一些爬虫违反网站意愿,对网站进行未经授权的访问,获取了网站大量公开或非公开的数据,由此引发诸多法律争议。
10月23日,杭州长三角大数据研究院、上海市杨浦区人民检察院、上海市企业法律顾问协会、浙江省企业法律顾问协会与《财经》商业治理研究院共同发起“长三角数据合规论坛暨数据爬虫的法律规制研讨会”,邀请了多位重量级法律学者、法官、检察官、互联网从业者从“数据爬虫技术与产业影响”、“数据爬虫的民法责任”、“数据爬虫的刑事合规”等不同角度展开讨论。