robots.txt中各大搜索引擎User-agent详解列表

在下表中,用户代理令牌会用在 robots.txt 的 User-agent: 行中,以匹配特定的抓取工具。如表中所示,某些抓取工具会响应多个令牌;但无论对于哪一种抓取工具来说,您都只需使用 1 个匹配的令牌即可。

一、百度

百度各个产品使用不同的user-agent:

产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads

Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

二、谷歌

抓取工具 用户代理令牌(在 robots.txt 中使用) 完整的用户代理字符串(如网站日志文件中所示)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google
AdsBot 移动网络 Android

(检查 Android 网页广告质量)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot 移动网络

(检查 iPhone 网页广告质量)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot

(检查桌面设备网页广告质量)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0
Googlebot

(桌面设备)

  • Googlebot
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

或(很少使用):

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(智能手机)

  • Googlebot
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mobile AdSense
  • Mediapartners-Google
(各种移动设备类型)(compatible; Mediapartners-Google/2.1+http://www.google.com/bot.html)
移动应用 Android

(检查 Android 应用页面广告质量。遵守 AdsBot-Google 漫游器规则。)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

三、搜狗

  • PC端UA为
    Sogou web spider
    Sogou inst spider
    Sogou spider
  • 无线端UA为
    Sogou wap spider
请注意,根据标准,ua区分大小写。
搜狗spider的hostname以 *.sogou.com格式命名,非 *.sogou.com均为冒充。
四、神马

user-agent,是http协议中的一个属性,代表了终端的身份。神马Spider的user-agent为:Yisouspider,因为历史原因此user-agent名称将会继续使用。

神马Spider的ip地址是一组ip池,会动态变,因此不在此列举。

五、360

360搜索的蜘蛛在访问网站时,都会带上带有360Spider签名信息的UA,其形态为:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gcko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
为满足站长朋友们的需求,我们现将最新360搜索的蜘蛛IP段公布出来,供大家参考,请大家注意,不要误拦截360搜索蜘蛛,以避免出现收录或网站抓取异常。
以下为360搜索的蜘蛛ip段:
180.153.232.*
180.153.234.*
180.153.236.*
42.236.101.*
42.236.102.*
42.236.103.*
42.236.12.*
42.236.13.*
42.236.14.*
42.236.15.*
42.236.16.*
42.236.17.*
42.236.46.*
42.236.48.*
42.236.49.*
42.236.50.*
42.236.51.*
42.236.52.*
42.236.53.*
42.236.54.*
42.236.55.*
42.236.99.*



发表评论