Nginx反爬虫策略,防止UA抓取网站
新增反爬虫策略文件:
vim/usr/www/server/nginx/conf/anti_spider.conf
文件内容
#禁止Scrapy等工具的抓取 if($http_user_agent~*(Scrapy|Curl|HttpClient)){ return403; } #禁止指定UA及UA为空的访问 if($http_user_agent~"WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|LingueeBot|^$"){ return403; } #禁止非GET|HEAD|POST方式的抓取 if($request_method!~^(GET|HEAD|POST)$){ return403; } #屏蔽单个IP的命令是 #deny123.45.6.7 #封整个段即从123.0.0.1到123.255.255.254的命令 #deny123.0.0.0/8 #封IP段即从123.45.0.1到123.45.255.254的命令 #deny124.45.0.0/16 #封IP段即从123.45.6.1到123.45.6.254的命令是 #deny123.45.6.0/24 #以下IP皆为流氓 #deny58.95.66.0/24;
配置使用
在站点的server中引入
#反爬虫 include/usr/www/server/nginx/conf/anti_spider.conf
最后重启nginx
校验是否有效
模拟YYSpider
λcurl-XGET-I-A'YYSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2403 server:marco/2.11 date:Fri,20Mar202008:48:50GMT content-type:text/html content-length:146 x-source:C/403 x-request-id:3ed800d296a12ebcddc4d61c57500aa2
模拟百度Baiduspider
λcurl-XGET-I-A'BaiduSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2200 server:marco/2.11 date:Fri,20Mar202008:49:47GMT content-type:text/html vary:Accept-Encoding x-source:C/200 last-modified:Wed,18Mar202013:16:50GMT etag:"5e721f42-150ce" x-request-id:e82999a78b7d7ea2e9ff18b6f1f4cc84
爬虫常见的User-Agent
FeedDemon内容采集 BOT/0.1(BOTforJCE)sql注入 CrawlDaddysql注入 Java内容采集 Jullo内容采集 Feedly内容采集 UniversalFeedParser内容采集 ApacheBenchcc攻击器 Swiftbot无用爬虫 YandexBot无用爬虫 AhrefsBot无用爬虫 YisouSpider无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!) jikeSpider无用爬虫 MJ12bot无用爬虫 ZmEuphpmyadmin漏洞扫描 WinHttp采集cc攻击 EasouSpider无用爬虫 HttpClienttcp攻击 MicrosoftURLControl扫描 YYSpider无用爬虫 jauntywordpress爆破扫描器 oBot无用爬虫 Python-urllib内容采集 IndyLibrary扫描 FlightDeckReportsBot无用爬虫 LingueeBot无用爬虫
以上就是Nginx反爬虫策略,防止UA抓取网站的详细内容,更多关于Nginx反爬虫的资料请关注毛票票其它相关文章!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。