网站数据被人抓了,怎么能查出来是谁抓的?

leeyc   (巡山小校)2018-11-08 17:29:17
网站的新闻信息类数据被人给抓了,而且还是实时的
现在不知道是哪个ip抓的,这个怎么查?
有Nginx日志
BAIYUXIONG   (爱情是个屁)2018-11-08 18:04:03
给数据里把特殊标识埋进去。然后过一段时间用百度搜索标识,看哪里有
【 在 leeyc (巡山小校) 的大作中提到: 】
: 网站的新闻信息类数据被人给抓了,而且还是实时的
leeyc   (巡山小校)2018-11-08 18:06:07
好办法。。
我把客户端ip加到正文中间隐藏,他一抓,就现行了。
【 在 BAIYUXIONG 的大作中提到: 】
: 给数据里把特殊标识埋进去。然后过一段时间用百度搜索标识,看哪里有
zhlyang   (New Life)2018-11-08 18:26:20
这很难吧, 难道对方抓了数据后还大胆的存到让baidu能爬到的地方?
【 在 BAIYUXIONG (爱情是个屁) 的大作中提到: 】
: 给数据里把特殊标识埋进去。然后过一段时间用百度搜索标识,看哪里有
tpfan   (iamwhoami)2018-11-08 20:56:34
难道抓了数据,存保险箱里?
【 在 zhlyang 的大作中提到: 】
:
tpfan   (iamwhoami)2018-11-08 20:57:49
.....
那你咋通过百度知道他网站?至少再加个特殊全网唯一标识
【 在 leeyc 的大作中提到: 】
:
i00i   (烟灰·独孤求胖)2018-11-08 21:35:38
有nginx日志为啥还不知道哪个IP抓的?
当然如果人家用了动态IP打一枪换一IP的另说。。
话说回来,如果网站内容是公开的话,被抓了也正常吧?
正经搜索引擎也得抓啊。。
【 在 leeyc 的大作中提到: 】
: 网站的新闻信息类数据被人给抓了,而且还是实时的
doggeddog   (doggeddog)2018-11-08 22:56:15
他应该已经知道是哪个网站了
只是不知道爬虫的ip
【 在 tpfan (iamwhoami) 的大作中提到: 】
:
touzi   (猪圈里的野猪)2018-11-09 07:24:34
这年头爬虫都是动态ip了吧
【 在 i00i () 的大作中提到: 】
: 有nginx日志为啥还不知道哪个IP抓的?
shallpion   (紫竹)2018-11-09 07:46:06
可以把网站内容生成图片再打水印,欢迎来抓
【 在 i00i 的大作中提到: 】
: 有nginx日志为啥还不知道哪个IP抓的?
- 来自「最水木 for iPhone 6s Plus」
pyl720   (小路※粉衫轻解露香肩)2018-11-09 09:35:19
看access log算ip访问的频率以及是不是固定间隔
同时也要看x-forwored-for的ip,爬虫可能会使用代理也可能伪造x-forwored-for头部
hellosanty   (catdog)2018-11-09 09:43:12
时间可以随机,不一定固定的。头部也可以伪造多个,随机选
【 在 pyl720 的大作中提到: 】
: 看access log算ip访问的频率以及是不是固定间隔
- 来自「最水木 for iPhone 8 Plus」
EMPxw   (EMPxw)2018-11-09 09:51:09
是很难抓到了
pyl720   (小路※粉衫轻解露香肩)2018-11-09 09:57:49
是的,但是人工分析还是能看出些规律的
【 在 hellosanty 的大作中提到: 】
: 时间可以随机,不一定固定的。头部也可以伪造多个,随机选
leeyc   (巡山小校)2018-11-09 11:59:31
我们内网的东西,被他抓了放外面去了
因为有正常的访问用户,如果他每条信息只抓一次,那就没法从日志里区分出来哪些是正常用户访问,哪个是他用程序在抓
【 在 i00i () 的大作中提到: 】
: 有nginx日志为啥还不知道哪个IP抓的?
RuralHunter   (渔父)2018-11-09 12:15:02
既然是内网的,外网的爬虫怎么能爬到,你们的网络访问控制才是问题吧
【 在 leeyc (巡山小校) 的大作中提到: 】
: 我们内网的东西,被他抓了放外面去了
jimmycmh   (Jimmy)2018-11-09 14:02:27
稍微厉害点的爬虫都能去掉隐藏文本
当然你可以搞复杂点,用js来动态隐藏之类的
【 在 leeyc (巡山小校) 的大作中提到: 】
: 好办法。。
leeyc   (巡山小校)2018-11-09 14:21:44
是我们内网中有个机器在抓,然后被转到外网了。
现在就是想抓到内网这个机器
【 在 RuralHunter 的大作中提到: 】
: 既然是内网的,外网的爬虫怎么能爬到,你们的网络访问控制才是问题吧
RuralHunter   (渔父)2018-11-09 14:23:08
内网有多少个ip?规模不大的话直接统计一下nginx的log里的ip就能找到了吧
【 在 leeyc (巡山小校) 的大作中提到: 】
: 是我们内网中有个机器在抓,然后被转到外网了。
potator   (二篇儿半)2018-11-09 14:43:51
如果是内网就简单了,可以排除动态ip,普通的用户不会每篇文章都看,按ip统计一下访问的url数量,排名第一就是。

水木社区