Nginx反爬虫：禁止某些User Agent抓取网站

Nginx反爬虫：禁止某些User Agent抓取网站

一、概述

网站反爬虫的原因

不遵守规范的爬虫会影响网站的正常使用

网站上的数据是公司的重要资产

爬虫对网站的爬取会造成网站统计数据的污染

常见反爬虫手段

1. 根据 IP 访问频率封禁 IP

2. 设置账号登陆时长，账号访问过多封禁

设置账号的登录限制，只有登录才能展现内容

设置账号登录的时长，时间一到则自动退出

3. 弹出数字验证码和图片确认验证码

爬虫访问次数过多，弹出验证码要求输入

4. 对 API 接口的限制

每天限制一个登录账户后端 api 接口的调用次数

对后台 api 返回信息进行加密处理

二、nginx反爬设置

站点配置文件

因为user-agent带有Bytespider爬虫标记，这可以通过Nginx规则来限定流氓爬虫的访问，直接返回403错误。

修改对应站点配置文件（注意是在server里面）

添加红色部分

server {

listen 80 default_server;

listen [::]:80 default_server;

index index.html index.htm index.nginx-debian.html;

server_name _;

location / {

try_files $uri $uri/ =404;

}

#forbidden Scrapy

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

#forbidden UA

if ($http_user_agent ~ "Bytespider|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {

return 403;

}

#forbidden not GET|HEAD|POST method access

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

}

附录：UA收集

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！）

jikeSpider 无用爬虫

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress**扫描器

oBot 无用爬虫

Python-urllib 内容采集

Python-requests 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

使用python验证

View Code

python验证

使用requests模块

import requests

# 最基本的不带参数的get请求

r = requests.get('http://192.168.1.216')

print(r.content)

使用urllib模块

import urllib.request

response = urllib.request.urlopen('http://192.168.1.216/')

print(response.read().decode('utf-8'))

返回403就表示起作用了。

b'<html>rn<head><title>403 Forbidden</title></head>rn<body>rn<center><h1>403 Forbidden</h1></center>rn<hr><center>nginx</center>rn</body>rn</html>rn'

三、整站防护设置

源码.jpg Nginx反爬虫：禁止某些User Agent抓取网站第1张

示意图

第一层

robots.txt

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

注意：它只是做了协议规定，是否允许将爬取的数据收录，不影响网页访问。

备注：对于手动写爬虫技术人员而言，一般都是直接忽略掉的。

如果不允许所有的爬虫蜘蛛访问，内容如下：

User-agent: *

Disallow: /

第二层

useragent特征拦截

因为user-agent带有Bytespider爬虫标记，这可以通过Nginx规则来限定流氓爬虫的访问，直接返回403错误。

具体操作，请查看上面的nginx配置。

备注：这样可以防止一部分爬虫访问，以及初级爬虫人员。

第三层

JS发送鼠标点击事件

有些网站，你从浏览器可以打开正常的页面，而在requests里面却被要求输入验证码或者是重定向到其他的页面。

原理：当点击登录时，触发js加密代码，复杂的加密算法参数+时间戳+sig值，后台进行参数+时间的限制。验证成功后，才可以登录。

备注：爬虫高手需要模拟浏览器行为，加载js代码以及图片识别，才能正常登陆。

第四层

后台接口限制

1. 根据 IP 访问频率封禁 IP(注意：频率要控制好，否则容易误伤。)

2. 设置账号登陆时长，账号访问过多封禁。

设置账号的登录限制，只有登录才能展现内容设置账号登录的时长，时间一到则自动退出

3.弹出数字验证码和图片确认验证码

爬虫访问次数过多，前端弹出验证码要求输入

4.对 API 接口的限制

每天的登录账户，请求后端 api 接口时，做调用次数限制。对后台 api 返回信息进行加密处理

通过这4层设置，就可以有效的保护数据的安全了。

标签：

Nginx反爬虫：禁止某些User Agent抓取网站

本文链接：http://78moban.cn/post/9601.html

版权声明：站内所有文章皆来自网络转载，只供模板演示使用，并无任何其它意义！

上一篇：宝塔面板中使用user_agent方法，屏蔽垃圾蜘蛛和网站扫描工具

下一篇：限定某个目录禁止解析php、限制user_agent、PHP相关配置

相关推荐

织梦教程帝国教程 ecshop教程 discuz教程 wordpress教程 pbootcms教程 emlog教程 zblog教程 PPT模板 Word模板 Excel模板

模板技术学习站-专注于织梦cms模板、discuz模板、帝国cms模板，wordpress主题与插件等技术教程，分享常见的cms模板站长教程，让您轻松学习开发建站模板技术，技术无忧！

Copyright 2019-2024 78模板网 | 豫ICP备2021026617号-2 豫公网安备：41172602000192 | Powered by 78模板网 ·

联系技术

文章删除友链合作技术交流群
1050177837

公众号

公众号

公众号

返回顶部