好猫网手机站
网络爬虫是什么意思(python爬虫是干嘛的)
2022-08-27 02:52:16  浏览:46

网络爬虫是什么意思(python爬虫是干嘛的)

开篇先给大家解释一下,什么是爬虫?

网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。

通常来讲,在互联网技术圈,数据抓取是一件很正常的事情。通过爬虫抓取网站内容是搜索引擎进行数据积累的必要前提。但爬虫抓取也有一些江湖规则或君子协定,比如robots协议。robots协议由网站主自行设置,网站会规定爬虫引擎哪些内容数据可以抓取,哪些禁止抓取的,但就是有那么一些科技公司,就是喜欢爬取别人的。

来看今天的案例。

今日,据企查查披露的判决书显示。北京市朝阳区人民检察院以京朝检公诉刑诉[2020]2604号起诉书指控被告单位厦门房卖网络科技有限公司、被告人林x平、程x东、林x森犯非法获取计算机信息系统数据罪,于2020年12月2日向北京市朝阳区人民法院提起公诉。该案现已审理终结。

原告方诉求

被告单位厦门房麦网络科技有限公司(以下简称房麦公司)于2018年至2020年间,利用网络爬虫程序,采用破解验证码等手段非法获取北京某信息技术有限公司(实际经营地为北京市朝阳区酒仙桥北路甲10号院105楼,以下简称某公司)经营的某网站房产数据,经解密、加工、整理后供房麦公司的房产APP使用,造成某公司网络资费、人力成本等经济损失人民币10万余元,并造成某公司相关费用受损共计人民币300余万元。

被告人林x平为房麦公司总负责人,全面管理公司工作;被告人程x东为房麦公司技术部门负责人,主管数据爬取工作;被告人林x森为房麦公司爬虫工程师,负责破解某网站的反爬取措施。被告人林x平于2020年8月3日向公安机关投案,被告人程x东、林x森于同年7月22日被公安机关抓获归案。

经审理查明:

被告单位厦门房麦网络科技有限公司(以下简称房麦公司)于2015年6月成立,法定代表人为被告人林x平,公司成立后研发“推房神器”等APP。自2018年被告单位房麦公司,使用网络爬虫技术爬取北京某信息技术有限公司(实际经营地为北京市朝阳区酒仙桥北路甲10号院105楼,以下简称某公司)经营的“某”网站房产数据。

在某公司增加反爬取策略后,2019年10月至2020年7月间,被告单位房麦公司使用破解验证码、绕开挑战登录等方式破解某公司的反爬取措施,非法获取“某”网站的房源数据,并将非法获取的房产数据存放在自己的服务器中供“推房神器”APP调用,并向该APP用户收取会员费盈利。

自2019年10月至案发,被告单位房麦公司的上述行为给某公司造成直接损失共计人民币10万余元。被告人林x平作为被告单位房麦公司法定代表人全面管理公司工作,被告人程x东作为被告单位房麦公司技术部技术总监,在被告人林x平的指挥下具体安排非法获取房产数据的各项工作,被告人林x森作为被告单位房麦公司技术部工程师,其主要职责之一就是购买破解某公司验证码的程序,负责日常服务器上爬虫程序的维护。在案其他涉案人员申某、林x、董某等人均为被告单位房麦公司技术部工程师,在被告人程华东的指挥下,维护、使用爬虫技术非法获取某公司房产数据。

被告人程华东、林裕森后被民警抓获归案,被告人林镇平在案发后主动投案。公安机关同时扣押被告单位服务器1台、电脑主机7台、笔记本电脑2台、手机10部。案发后被告单位房麦公司一方赔偿某公司人民币100万元,某公司对被告单位房麦公司及所有涉案人员表示谅解。

法院认为

被告人林镇平作为被告单位直接负责的主管人员,被告人程华东、林裕森作为被告单位其他直接责任人员,亦应予以惩处。北京市朝阳区人民检察院指控被告单位厦门房麦网络科技有限公司、被告人林镇平、程华东、林裕森犯非法获取计算机信息系统数据罪的事实清楚,证据确实、充分,指控罪名成立。

裁判结果

一、被告单位厦门房麦网络科技有限公司犯非法获取计算机信息系统数据罪,判处罚金人民币二十万元(罚金于本判决发生法律效力后10日内缴纳。)。

二、被告人林x平犯非法获取计算机信息系统数据罪,判处有期徒刑一年六个月,罚金人民币二万元。

三、被告人程x东犯非法获取计算机信息系统数据罪,判处有期徒刑一年二个月,罚金人民币一万元。

四、被告人林x森犯非法获取计算机信息系统数据罪,判处有期徒刑八个月,罚金人民币一万元。

五、扣押在案之手机十部、计算机主机七台、笔记本电脑二台、服务器一个,依法予以没收。

八卦多一点:

实际经营地为北京市朝阳区酒仙桥北路甲10号院105楼,以下简称某公司。这个某公司到底是哪家公司呢?也是勾起了笔者的兴趣。随手查了一下,哦,原来是它啊!