如果您日复一日地撰写原创内容,您已经意识到您的帖子将在几天甚至几分钟内出现在一堆垃圾邮件网站上。一些用户甚至指出,包含被盗内容的网站的排名超过了原始帖子。作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 SERP 中排名超过您,并窃取您的受众,这是非常令人沮丧的。考虑到有人很容易窃取您的内容,内容抓取现在是一个大问题。在本文中,我们将介绍什么是博客内容抓取、如何捕获内容抓取、如何应对内容抓取、如何减少和防止内容抓取、如何利用内容抓取、如何从内容抓取赚钱,内容抓取效果好吗?
如果您日复一日地撰写原创内容,您已经知道您的帖子将在几天甚至几分钟内出现在大量垃圾邮件网站上。一些用户甚至指出,内容被盗的网站的排名高于原始帖子。作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 SERP 中排名靠前,并窃取您的受众,是非常令人沮丧的。考虑到有人很容易窃取您的内容,内容搜寻现在是一个大问题。在本文中,我们将介绍什么是博客内容抓取,如何捕获内容抓取,如何处理内容抓取,如何减少和防止内容抓取,如何利用内容抓取,如何从内容抓取工具中获利,内容是什么刮痧好不好?
什么是博客内容抓取? (What is Blog Content Scraping?)
博客内容抓取是一种通常使用脚本执行的行为,该脚本从多个来源提取内容并将其拉入一个站点。现在很容易,任何人都可以安装 WordPress 网站,放置免费或商业主题,并安装一些插件,这些插件将从选定的博客中抓取内容,以便可以将其发布在他们的网站上。
博客内容抓取是一种通常使用脚本执行的操作,该脚本从多个来源提取内容并将其提取到站点中。现在任何人都可以很容易地安装 WordPress 网站,放入免费或商业主题,并安装一些插件来从选定的博客中抓取内容,以便他们可以将其发布到自己的网站上。
他们为什么偷我的内容? (Why are they Stealing my Content?)
我们的一些用户问我们为什么他们要窃取我的内容?简单的答案是因为你太棒了。事实是,这些内容抓取者别有用心。以下是有人抓取您的内容的几个原因:
我们的一些用户问我们为什么要窃取我的内容?简单的答案是因为你太棒了。事实是,这些刷屏者别有用心。以下是有人可能抓取您的内容的一些原因:
- 联盟佣金 – There are some dirty affiliate marketers out there that just wants to exploit the system to make few extra bucks. They will use your content and other’s content to bring traffic to their site through search engine. These sites are usually targeted towards a specific niche, so they have related products that they are promoting.附属委员会 –那里有一些肮脏的会员营销商,他们只是想利用该系统赚很少的钱。 他们将使用您的内容和其他人的内容通过搜索引擎将流量吸引到他们的网站。 这些网站通常针对特定的利基市场,因此它们正在推广相关产品。
- 领先一代 – Often we see lawyers and realtors doing this. They want to seem like industry leaders in their small communities. They do not have the bandwidth to produce quality content, so they go out and scrape content from other sources. Sometimes, they are not even aware of this because they are paying some scumbag $30/month to add content and help them get better SEO. We have encountered quite a few of these in the past.领先一代 –我们经常看到律师和房地产经纪人这样做。 他们希望在自己的小社区中看起来像行业领导者。 他们没有带宽来产生高质量的内容,因此他们出去从其他来源抓取内容。 有时,他们甚至没有意识到这一点,因为他们每月要支付30美元的卑鄙行为以添加内容并帮助他们获得更好的SEO。 过去我们遇到过很多这样的问题。
- 广告收入 – Some folks just want to create a “hub” of knowledge. A one-stop-shop for users in a specific niche. If I had a penny for every time someone has done this with our content, then we would have a few hundred pennies. Often we notice that our site content is being scraped. The scraper always replies, I was doing this for the good of the community. Except the site is plastered with ads.广告收入 –有些人只是想创造知识的“枢纽”。 为特定细分市场的用户提供一站式服务。 如果每次有人对我们的内容进行操作时我得到一分钱,那么我们将有几百美分。 通常,我们会注意到我们的网站内容被抓取。 刮板总是答复,我这样做是为了社区的利益。 除了网站上贴满广告。
这些只是有人窃取您的内容的几个原因。
这些只是有人可能窃取您的内容的部分原因。
如何抓取内容抓取工具? (How to Catch Content Scrapers?)
捕获内容抓取工具是一项乏味的任务,并且可能会占用大量时间。您可以利用以下几种方法来捕获内容抓取工具。
抓取内容抓取器是一项繁琐的任务,可能需要花费大量时间。您可以使用多种方法来捕获内容抓取工具。
使用您的帖子标题在 Google 中搜索
使用您的帖子标题在 Google 中搜索
是的,这就像听起来一样痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常流行的主题。
是的,听起来很痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常流行的主题。
引用通告
引用
如果您在帖子中添加内部链接,如果网站窃取了您的内容,您会注意到引用引用。这种方式几乎是抓取工具告诉你他们正在抓取你的内容。如果您使用 Akismet,那么许多此类引用将会出现在 SPAM 文件夹中。同样,只有当您的帖子中有内部链接时,这才有效。
如果您在帖子中添加内部链接,如果网站窃取了您的内容,您会注意到引用通告。这几乎告诉您爬虫正在抓取您的内容。如果您使用 Akismet,许多此类引用将显示在 SPAM 文件夹中。同样,只有当您的帖子中有内部链接时,这才有效。
站长工具
站长工具
如果您使用谷歌网站管理员工具,那么您可能会知道指向您网站页面的链接。如果您查看“流量”,您将看到一个页面,其中显示指向您网站的链接。您的抓取工具很可能会跻身其中。他们将有数百个甚至数千个指向您页面的链接(考虑到您有内部链接)。
如果您使用 Google 网站管理员工具,您可能知道您网站上链接到的页面。如果您查看“流量”,您会看到一个显示您网站链接的页面。您的抓取工具很有可能会排名第一。他们将有数百个(如果不是数千个)指向您页面的链接(考虑到您有内部链接)。

FeedBurner 不常见用途
FeedBurner 的罕见用途
If you have 为您的 WordPress 博客设置 Feedburner, then you can see some uncommon uses. In the Analyze Tab under Feed Stats, you will see “Uncommon Uses”. There you will see a list of sites.
如果您为 WordPress 博客设置 Feedburner ,那么您会看到一些不常见的用法。 在Feed Stats下的Analyze标签中,您会看到“罕见用途”。 在那里,您将看到一个站点列表。

如何处理内容抓取工具 (How to Deal with Content Scrapers)
人们在处理内容抓取工具时采取的方法很少。什么都不做的方法,杀死他们所有的方法,利用他们的方法。
人们在处理内容抓取工具时很少做任何事情。什么都不做,杀掉所有人的道路,利用他们。
什么都不做的方法
没做什么
这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗爬虫。这种方法只是建议“不要与他们对抗,而是花时间制作更多高质量的内容并享受乐趣”。现在显然,如果这是一个著名的博客,如 Smashing Magazine、CSS-Tricks、Problogger 或其他博客,那么他们就会这样做不用担心。它们是Google眼中的权威网站。
这是迄今为止您可以采取的最简单的方法。通常,最受欢迎的博主会建议您这样做,因为这需要大量时间来对抗爬虫。这种方法只是建议“不要争吵,而是花时间制作更多高质量的内容并享受乐趣”。现在很明显,如果是 Smashing Magazine、CSS-Tricks、Problogger 等知名博客,那么他们就没有什么可担心的。它们是谷歌眼中的权威网站。
然而,在熊猫更新期间,我们知道一些好的网站被标记为抓取工具,因为谷歌认为他们的抓取工具是原创内容。因此,我们认为这种方法并不总是最好的。
然而,在 Panda 更新期间,我们意识到一些好的网站被标记为爬虫,因为 Google 认为它们的爬虫是原创内容。因此,我们认为这种方法并不总是最好的。
把他们全部杀掉
杀光他们
与“什么都不做的方法”完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容即可。如果他们拒绝这样做或根本不回复您的请求,那么您可以向他们的主机提交 DMCA(数字千年版权法案)。根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,那就利用它。如果他们没有联系表格,那么您需要进行 Whois 查找。
与“不采取行动”完全相反。使用这种方法,您只需联系刮板并要求他们移除该物品即可。如果他们拒绝这样做或根本不回应您的请求,您可以针对其所有者提交 DMCA(数字千年版权法)。根据我们的经验,大多数抓取网站都没有联系表。如果他们这样做,请利用它。如果他们没有联系表格,您需要进行 Whois 查找。

You can see the contact info on the administrative contact. Usually the administrative, and technical contact is the same. The whois also shows the domain registrar. Most well-known web hosting companies and domain registrars have DMCA forms or emails. You can see that this specific person is with Hostgator because of their nameservers. 主机鳄鱼 has a form for 数字千年版权法案 (DMCA) 投诉. If the nameserver is something like ns1.theirdomain.com, then you have to dig deeper by doing reverse IP lookups and searching for IPs.
您可以在管理联系人上查看联系人信息。 通常,管理和技术联系是相同的。 whois还显示了域名注册商。 大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。 您可以看到该特定人员由于其域名服务器而与Hostgator在一起。 主机鳄鱼有一个针对数字千年版权法案 (DMCA) 投诉的表格。 如果名称服务器类似于ns1.theirdomain.com,则必须通过反向IP查找并搜索IP进行更深入的研究。
You can also use a third party service for DMCA.com for takedowns.
您也可以使用DMCA.com第三方服务进行下架。
杰夫斯塔尔 in his article suggest that you should block the bad guy’s IPs. Access your logs for their IP address, and then block it with something like this in your root .htaccess file:
杰夫斯塔尔 ( 杰夫·斯塔尔)在他的文章中建议您应该阻止坏人的IP。 访问您的日志以获取其IP地址,然后在根.htaccess文件中使用类似的内容将其阻止:
Deny from 123.456.789
您还可以通过执行以下操作将它们重定向到虚拟提要:
您还可以通过执行以下操作将它们重定向到虚拟源:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
正如杰夫建议的那样,你可以在这里发挥真正的创造力。将它们发送到充满 Lorem Ipsum 的大型文本源。你可以给他们发送一些令人厌恶的坏事图片。您还可以将它们直接发送回他们自己的服务器,从而导致无限循环,从而导致他们的网站崩溃。
正如杰夫建议的那样,您可以在这里发挥真正的创造力。将它们发送到一个充满 Lorem Ipsum 的非常大的文本源中。你可以给他们发送一些恶心的不良图片。您还可以将它们直接发送回您自己的服务器,从而导致无限循环,从而导致其网站崩溃。
我们采取的最后一种方法是利用它们。
我们采取的最后一种方法是利用它们。
如何利用内容抓取工具 (How to Take Advantage of Content Scrapers)
这是我们处理内容抓取的方法,结果非常好。它有助于我们的搜索引擎优化并帮助我们赚取额外的钱。大多数抓取工具使用您的 RSS 源来窃取您的内容。因此,您可以执行以下操作:
这就是我们处理内容抓取工具的方式,而且效果很好。它不仅有助于我们的搜索引擎优化,还可以帮助我们赚取额外的钱。大多数抓取工具使用您的 RSS 提要来窃取您的内容。因此您可以执行以下操作:
- 内部链接 – You need to interlink the CRAP out of your posts. With the WordPress 3.1 中的内部链接功能, it is now easier than ever. When you have internal links in your article, it helps you 增加您自己网站上的综合浏览量并降低跳出率. Secondly, it gets you backlinks from the people who are stealing your content. Lastly, it allows you to steal their audience. If you are a talented blogger, then you understand the art of internal linking. You have to place your links on interesting keywords. Make it tempting for the user to click it. If you do that, then the scraper’s audience will too click on it. Just like that, you took a visitor from their site and brought them back to where they should have been in the first place.
- 内部链接 –您需要将CRAP 关联到您的帖子之外。 借助WordPress 3.1的内部链接功能,现在比以往任何时候都容易。 当文章中有内部链接时,它可以帮助您增加您自己网站上的页面浏览量并降低跳出率 。 其次,它使您从窃取您内容的人那里获得反向链接。 最后,它可以让您窃取他们的观众。 如果您是一位才华横溢的博客作者,那么您将了解内部链接的技巧。 您必须将链接放在有趣的关键字上。 诱使用户单击它。 如果您这样做,那么刮板的听众也会点击它。 就像这样,您从他们的网站上带走了一个访客,并将他们带回到他们本来应该去的地方。
- 自动链接关键字与附属链接自动将关键字链接到附属链接忍者联盟 and 忍者会员和SEO 智能链接 that will automatically replace assigned keywords with affiliate links. For example: HostGator, SEO 智能链接)会自动将分配的关键字替换为会员链接。 例如:HostGator的, 工作室出版社, 工作室出版社 , 最大CDN, 最大CDN , 重力形式 << These all will be auto-replaced with affiliate links when this post goes live.重力形式 <<这些都将被自动替换为会员链接时,这个帖子上线。
- 利用 RSS 页脚发挥创意 – You can either use the RSS 页脚 or WordPress SEO 由 Yoast 提供 Plugin to add custom items to your RSS Footer. You can add just about anything you want here. We know some people who like to promote their own products to their RSS readers. So they will add banners. Guess what, now those banners will appear on these scraper’s website as well. In our case, we always add a little disclaimer at the bottom of our posts in our RSS feeds. It simply reads like “如何将您的 WordPress 网站置于只读状态以进行网站迁移和维护 is a post from: WP初学者 which is not allowed to be copied on other sites.” By doing this, we get a backlink to the original article from scraper’s site which lets google and other search engines know we are authority. It also lets their users know that the site is stealing our content. If you are good with codes, then you can totally get nuts. Such as adding related posts just for your RSS readers, and bunch of other stuff. Check out our guide to completely 操纵你的 WordPress RSS feed.
- 利用 RSS 页脚发挥创意 –您可以使用RSS 页脚或酵母 Plugin的WordPress 搜索引擎优化将自定义项目添加到RSS页脚。 您可以在此处添加几乎任何您想要的东西。 我们知道有些人喜欢向RSS读者推广自己的产品。 因此,他们将添加横幅。 猜猜是什么,现在这些横幅也将出现在这些刮板的网站上。 就我们而言,我们总是在RSS feed中的帖子底部添加一些免责声明。 它看起来像是“ 如何将 WordPress 网站置于只读状态以进行网站迁移和维护是来自WP初学者的帖子,不允许将其复制到其他网站上。” 这样,我们就可以从刮板的站点上获得原始文章的反向链接,从而使Google和其他搜索引擎知道我们是权威。 它还使他们的用户知道该网站正在窃取我们的内容。 如果您擅长使用代码,那么您完全可以发疯。 例如,仅为您的RSS阅读器添加相关的帖子,以及许多其他内容。 查阅我们的指南,以完全操作 WordPress RSS 提要 。
如何减少博客内容的抓取并可能防止它 (How You Can Reduce Blog Content Scraping and Possibly Prevent It)
考虑一下,如果您采用我们的大量内部链接方法,添加附属链接、RSS 横幅,那么您将有可能大大减少内容抓取。如果您接受杰夫·斯塔尔(Jeff Starr)重定向内容抓取工具的建议,那也将阻止这些抓取工具。除了我们上面分享的内容之外,您还可以使用一些其他技巧。
考虑一下,如果您遵循我们的内部链接密集型方法,添加附属链接、RSS 横幅,那么内容的抓取量可能会减少。如果您遵循杰夫·斯塔尔(Jeff Starr)重定向内容爬虫的建议,那也会阻止这些爬虫。除了上面分享的内容之外,您还可以使用一些其他技术。
完整摘要RSS摘要 (Full vs. Summary RSS Feed)
博客社区中一直存在争论是使用完整的 RSS 提要还是摘要 RSS 提要。我们不会详细讨论这场争论,但是拥有仅摘要 RSS 提要的优点之一是可以防止内容抓取。您可以通过转到 WordPress 管理面板并进入设置 » 阅读来更改设置。然后更改摘要中每篇文章的设置:摘要。
博客社区一直在争论是否拥有完整的 RSS 提要或摘要 RSS 提要。我们不会深入讨论这场辩论的更多细节,但拥有“仅摘要”RSS 提要的优点之一是可以防止内容抓取。您可以通过转到 WordPress 管理面板并在“设置”»“阅读”下更改设置。然后将设置更改为“提要显示中的每个帖子:摘要”。
注意:我们有完整的提要,因为我们更关心我们的 RSS 读者而不是垃圾邮件发送者。
注意:我们拥有完整的提要,因为我们更关心 RSS 读者而不是垃圾邮件发送者。
引用垃圾邮件 (Trackback SPAM)
Trackback 和 Pingback definitely had great uses however, they are now constantly being abused. Often themes display trackbacks and pingbacks under or among the comments. This gives the spammer an incentive to scrape your site and send trackbacks. If you mistakenly approves it, then they get a backlink and mention from your site. Here is 如何在以后的所有帖子中禁用引用引用. Here is an article that will show you how to 禁用现有 WordPress 帖子的引用和 ping as well.
报价和 Pingback肯定有很大的用途,但是,它们现在经常被滥用。 通常,主题会在评论下方或之中显示引用和引用。 这使垃圾邮件制造者有动力来抓取您的网站并发送引用。 如果您错误地批准,则他们会获得反向链接并从您的网站中提及。 这是如何在以后的所有帖子中禁用“引号” 。 这是一篇将向您展示如何禁用现有 WordPress 帖子的引用和 ping 。
内容刮取永远是件好事吗? (Is Content Scraping Ever Good?)
有可能。如果您发现自己正在从爬虫网站上赚钱,那么肯定可以。如果您看到爬虫网站的流量很大,那么可能是这样。但在大多数情况下,事实并非如此。您应该始终尝试删除您的内容。但您会意识到,随着您的博客变得越来越大,几乎不可能跟踪所有内容抓取工具。我们仍然会发出 DMCA 投诉,但我们知道还有大量其他网站正在窃取我们的内容,而我们却无法跟上。
可能的。如果您发现自己在爬虫网站上赚钱,那是肯定的。如果您看到一个流量很大的抓取网站,那没关系。然而,在大多数情况下并非如此。您应该始终尝试删除内容。但您会意识到,随着博客的发展,跟踪所有内容爬虫几乎变得不可能。我们仍然发送 DMCA 投诉,但我们知道有太多其他网站窃取我们的内容,我们无法跟上。
你怎么看?您是否使用任何其他机制来防止内容抓取?很想听听您的想法。
你怎么认为?你有什么想法?您是否使用任何其他机制来防止内容抓取?很想听听您的想法。