领众专业服务,精准传达,有效沟通

让您带着疑问来,带着方案走。

您的位置 > 首页 > 外贸营销资讯 > 外贸建站

尖叫青蛙使用教程,如何使用尖叫青蛙?

时间:2020-04-10 16:59浏览人数:

 

1.用户界面

尖叫青蛙菜单布局

使用此工具的第一步是了解所有内容的细分。我创建了一个编号列表来分解不同的部分。

  1. 菜单栏
  2. 抓取吧
  3. 标签栏
  4. 主窗口
  5. 详细的窗口
  6. 侧边栏

 

2.标签选择:

为简洁起见,我不会覆盖菜单中的每个选项卡,但我会在软件中包含最常用的选项卡。了解这些是什么以及如何使用它们将帮助您扩展您的SEO分析并转向下面的高级教程。

协议 - 可以过滤网站的协议以包括所有页面,HTTP页面和HTTPS页面。此选项卡非常适合快速检查内部和外部链接。如果您最近获得了SSL或TLS安全证书,则此选项卡对您有用。

状态代码 - 这些是您的网站在请求页面时返回的代码。这将只包含可以使用内部链接找到的页面。如果您拥有大量用户配置文件或用户生成的内容,这会使网站的爬网速度变得更快,您可以排除网站的各个部分以加快抓取速度。通常,服务器将返回20X,30X,40X或50X状态 - 分别表示正常,重定向,客户端错误和服务器错误。

页面标题 - 您可以在此处快速访问您网站上的网页标题。如果您有超过1页的标题,它会这样说。此选项卡还具有用于查找重复,短,长和缺失标记的过滤器选项,以及用于检查标题是否与H1标记匹配的选项。

元描述 - 您可以在此处找到元描述,并按重复,短,长和缺失描述进行过滤。

H1标签 - 这是您可以找到所有H1标签的地方,它包括重复,多个和缺少h1标签的过滤器。这对于分析整个站点的h1标签很有用。

H2标签 - 这是上述部分的重复,但仅适用于H2标签。重要的是要注意虽然有多个h2标签可供选择,但这不再是一个重要因素。

图像 - 您可以在此处找到爬网期间在网站上使用的所有图像的列表。它将包括其URL路径,图像的使用次数,并可按大小和alt属性进行过滤。此部分非常基础,反映了抓取工具读取图像的难度。

 

3.为什么要使用尖叫青蛙?

使用Screaming Frog有许多不同的方法,但主要目标是抓取并修复您的网站。要开始使用,只需在线下载免费副本,然后安装即可。

完成此操作后,即可开始抓取您的网站。对于中型网站,这通常需要几分钟。大型网站可能需要更长时间才能抓取,并且您可能会耗尽内存。

完成抓取后,您可以轻松查看整个网站的错误。只需浏览菜单和选项卡即可浏览各种可用工具。

4.尖叫的青蛙如何抓取网站?

使用Screaming Frog,您可以轻松抓取网站。首先,您只需要在蜘蛛中输入起始URL即可。此选项位于屏幕顶部。

从这里开始,网站将一次自动抓取一个URL。但是,重要的是要注意Screaming Frog基于内部链接。因此,任何缺少链接的页面都不会出现在抓取中。

如果您在抓取网站上的任何网址时遇到问题,可能会建议机器人被屏蔽。这通常可以在您的robots.txt设置中进行检查。

 


5.尖叫的青蛙如何抓取网址列表?

在某些情况下,您需要抓取网址列表。也许您正在清理索引,并希望检查那里的链接是否断开。

为此,您需要创建要检查的URL列表。我建议你使用Scraper工具。它易于使用且谨慎。

创建列表后,您将需要复制到剪贴板。Windows快捷键是Ctrl + C,它是Mac的CMD + C.

从Screaming Frog菜单中选择“Mode”。在这里,您可以更改为列表模式而不是蜘蛛模式。这样您就可以将这些URL直接粘贴到Screaming Frog中。

您还可以从文件,站点地图或手动添加列表中抓取列表:


 

6.如何更改尖叫的青蛙抓取设置?

如果您在抓取网站时遇到问题,更改抓取设置会很有用。它更快速,更容易,因此请按照以下说明操作:

7.让尖叫青蛙爬得更快:

如果你想让Screaming Frog爬得更快,可以在  Configuration> Speed中完成。只需增加最大线程数,并删除任何URI限制。

但是,如果您过快地抓取您的网站,则可能会被阻止。您可以通过将IP地址列入白名单来更改服务器设置中的此设置。

8.让尖叫的青蛙爬行更慢:

如果您的网站托管在Shopify上,或者您不能将您的IP地址列入白名单; 那么你会想慢慢抓取网站。可以在Configuration> Speed中更改此  设置。您可以为每秒的URI请求数添加限制。

您还可以通过减少线程数来降低爬网速度。默认情况下,线程数为5.这可以减少到1或2,这将显着降低您抓取的速度。

9.忽略Robots.txt:

互联网上有一些网站阻止了所有机器人。这通常是在robots.txt中错误地完成的。如果是这种情况,您需要尽快修复。

但是,如果这是一个开发网站,并且您不希望它被编入索引; 你需要忽略robots.txt。

为此,您可以在Configurations> Robots.txt> Settings中更改  设置。可以选择忽略robots.txt。即使robots.txt禁止您这样做,也可以抓取网站。

10.更改用户代理:

我很少需要做的就是更改我的用户代理以进行爬网。默认为Screaming Frog,但您可能希望以与Googlebot相同的方式查看网站。因此,更改用户代理有时会有所帮助。

要更改此设置,您需要在Configuration> User-agent中打开设置  。在这里,您可以找到一个下拉菜单,以选择不同的预设。

但是,使用用户代理时应该小心。如果您经常进行服务器日志分析,则数据会受到影响。