小工具      在线工具  汉语词典  dos游戏  css  js  c++  java

防止WordPress中的博客内容被窃取的初学者指南

java,python,linux,人工智能,wordpress 额外说明

收录于:18天前

如果您日复一日地撰写原创内容,您已经意识到您的帖子将在几天甚至几分钟内出现在一堆垃圾邮件网站上。一些用户甚至指出,包含被盗内容的网站的排名超过了原始帖子。作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 SERP 中排名超过您,并窃取您的受众,这是非常令人沮丧的。考虑到有人很容易窃取您的内容,内容抓取现在是一个大问题。在本文中,我们将介绍什么是博客内容抓取、如何捕获内容抓取、如何应对内容抓取、如何减少和防止内容抓取、如何利用内容抓取、如何从内容抓取赚钱,内容抓取效果好吗?

如果您日复一日地撰写原创内容,您已经知道您的帖子将在几天甚至几分钟内出现在大量垃圾邮件网站上。一些用户甚至指出,内容被盗的网站的排名高于原始帖子。作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 SERP 中排名靠前,并窃取您的受众,是非常令人沮丧的。考虑到有人很容易窃取您的内容,内容搜寻现在是一个大问题。在本文中,我们将介绍什么是博客内容抓取,如何捕获内容抓取,如何处理内容抓取,如何减少和防止内容抓取,如何利用内容抓取,如何从内容抓取工具中获利,内容是什么刮痧好不好?

什么是博客内容抓取? What is Blog Content Scraping?

博客内容抓取是一种通常使用脚本执行的行为,该脚本从多个来源提取内容并将其拉入一个站点。现在很容易,任何人都可以安装 WordPress 网站,放置免费或商业主题,并安装一些插件,这些插件将从选定的博客中抓取内容,以便可以将其发布在他们的网站上。

博客内容抓取是一种通常使用脚本执行的操作,该脚本从多个来源提取内容并将其提取到站点中。现在任何人都可以很容易地安装 WordPress 网站,放入免费或商业主题,并安装一些插件来从选定的博客中抓取内容,以便他们可以将其发布到自己的网站上。

他们为什么偷我的内容? Why are they Stealing my Content?

我们的一些用户问我们为什么他们要窃取我的内容?简单的答案是因为你太棒了。事实是,这些内容抓取者别有用心。以下是有人抓取您的内容的几个原因:

我们的一些用户问我们为什么要窃取我的内容?简单的答案是因为你太棒了。事实是,这些刷屏者别有用心。以下是有人可能抓取您的内容的一些原因:

  • 联盟佣金 – There are some dirty affiliate marketers out there that just wants to exploit the system to make few extra bucks. They will use your content and other’s content to bring traffic to their site through search engine. These sites are usually targeted towards a specific niche, so they have related products that they are promoting.附属委员会 –那里有一些肮脏的会员营销商,他们只是想利用该系统赚很少的钱。 他们将使用您的内容和其他人的内容通过搜索引擎将流量吸引到他们的网站。 这些网站通常针对特定的利基市场,因此它们正在推广相关产品。
  • 领先一代 – Often we see lawyers and realtors doing this. They want to seem like industry leaders in their small communities. They do not have the bandwidth to produce quality content, so they go out and scrape content from other sources. Sometimes, they are not even aware of this because they are paying some scumbag $30/month to add content and help them get better SEO. We have encountered quite a few of these in the past.领先一代 –我们经常看到律师和房地产经纪人这样做。 他们希望在自己的小社区中看起来像行业领导者。 他们没有带宽来产生高质量的内容,因此他们出去从其他来源抓取内容。 有时,他们甚至没有意识到这一点,因为他们每月要支付30美元的卑鄙行为以添加内容并帮助他们获得更好的SEO。 过去我们遇到过很多这样的问题。
  • 广告收入 – Some folks just want to create a “hub” of knowledge. A one-stop-shop for users in a specific niche. If I had a penny for every time someone has done this with our content, then we would have a few hundred pennies. Often we notice that our site content is being scraped. The scraper always replies, I was doing this for the good of the community. Except the site is plastered with ads.广告收入 –有些人只是想创造知识的“枢纽”。 为特定细分市场的用户提供一站式服务。 如果每次有人对我们的内容进行操作时我得到一分钱,那么我们将有几百美分。 通常,我们会注意到我们的网站内容被抓取。 刮板总是答复,我这样做是为了社区的利益。 除了网站上贴满广告。

这些只是有人窃取您的内容的几个原因。

这些只是有人可能窃取您的内容的部分原因。

如何抓取内容抓取工具? How to Catch Content Scrapers?

捕获内容抓取工具是一项乏味的任务,并且可能会占用大量时间。您可以利用以下几种方法来捕获内容抓取工具。

抓取内容抓取器是一项繁琐的任务,可能需要花费大量时间。您可以使用多种方法来捕获内容抓取工具。

使用您的帖子标题在 Google 中搜索

使用您的帖子标题在 Google 中搜索

是的,这就像听起来一样痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常流行的主题。

是的,听起来很痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常流行的主题。

引用通告

引用

如果您在帖子中添加内部链接,如果网站窃取了您的内容,您会注意到引用引用。这种方式几乎是抓取工具告诉你他们正在抓取你的内容。如果您使用 Akismet,那么许多此类引用将会出现在 SPAM 文件夹中。同样,只有当您的帖子中有内部链接时,这才有效。

如果您在帖子中添加内部链接,如果网站窃取了您的内容,您会注意到引用通告。这几乎告诉您爬虫正在抓取您的内容。如果您使用 Akismet,许多此类引用将显示在 SPAM 文件夹中。同样,只有当您的帖子中有内部链接时,这才有效。

站长工具

站长工具

如果您使用谷歌网站管理员工具,那么您可能会知道指向您网站页面的链接。如果您查看“流量”,您将看到一个页面,其中显示指向您网站的链接。您的抓取工具很可能会跻身其中。他们将有数百个甚至数千个指向您页面的链接(考虑到您有内部链接)。

如果您使用 Google 网站管理员工具,您可能知道您网站上链接到的页面。如果您查看“流量”,您会看到一个显示您网站链接的页面。您的抓取工具很有可能会排名第一。他们将有数百个(如果不是数千个)指向您页面的链接(考虑到您有内部链接)。

Links to Your Site - Google Webmaster Tools

FeedBurner 不常见用途

FeedBurner 的罕见用途

If you have 为您的 WordPress 博客设置 Feedburner, then you can see some uncommon uses. In the Analyze Tab under Feed Stats, you will see “Uncommon Uses”. There you will see a list of sites.

如果您为 WordPress 博客设置 Feedburner ,那么您会看到一些不常见的用法。 在Feed Stats下的Analyze标签中,您会看到“罕见用途”。 在那里,您将看到一个站点列表。

FeedBurner Uncommon Uses
如何处理内容抓取工具 How to Deal with Content Scrapers

人们在处理内容抓取工具时采取的方法很少。什么都不做的方法,杀死他们所有的方法,利用他们的方法。

人们在处理内容抓取工具时很少做任何事情。什么都不做,杀掉所有人的道路,利用他们。

什么都不做的方法

没做什么

这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗爬虫。这种方法只是建议“不要与他们对抗,而是花时间制作更多高质量的内容并享受乐趣”。现在显然,如果这是一个著名的博客,如 Smashing Magazine、CSS-Tricks、Problogger 或其他博客,那么他们就会这样做不用担心。它们是Google眼中的权威网站。

这是迄今为止您可以采取的最简单的方法。通常,最受欢迎的博主会建议您这样做,因为这需要大量时间来对抗爬虫。这种方法只是建议“不要争吵,而是花时间制作更多高质量的内容并享受乐趣”。现在很明显,如果是 Smashing Magazine、CSS-Tricks、Problogger 等知名博客,那么他们就没有什么可担心的。它们是谷歌眼中的权威网站。

然而,在熊猫更新期间,我们知道一些好的网站被标记为抓取工具,因为谷歌认为他们的抓取工具是原创内容。因此,我们认为这种方法并不总是最好的。

然而,在 Panda 更新期间,我们意识到一些好的网站被标记为爬虫,因为 Google 认为它们的爬虫是原创内容。因此,我们认为这种方法并不总是最好的。

把他们全部杀掉

杀光他们

与“什么都不做的方法”完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容即可。如果他们拒绝这样做或根本不回复您的请求,那么您可以向他们的主机提交 DMCA(数字千年版权法案)。根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,那就利用它。如果他们没有联系表格,那么您需要进行 Whois 查找。

与“不采取行动”完全相反。使用这种方法,您只需联系刮板并要求他们移除该物品即可。如果他们拒绝这样做或根本不回应您的请求,您可以针对其所有者提交 DMCA(数字千年版权法)。根据我们的经验,大多数抓取网站都没有联系表。如果他们这样做,请利用它。如果他们没有联系表格,您需要进行 Whois 查找。

Whois Lookup

You can see the contact info on the administrative contact. Usually the administrative, and technical contact is the same. The whois also shows the domain registrar. Most well-known web hosting companies and domain registrars have DMCA forms or emails. You can see that this specific person is with Hostgator because of their nameservers. 主机鳄鱼 has a form for 数字千年版权法案 (DMCA) 投诉. If the nameserver is something like ns1.theirdomain.com, then you have to dig deeper by doing reverse IP lookups and searching for IPs.

您可以在管理联系人上查看联系人信息。 通常,管理和技术联系是相同的。 whois还显示了域名注册商。 大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。 您可以看到该特定人员由于其域名服务器而与Hostgator在一起。 主机鳄鱼有一个针对数字千年版权法案 (DMCA) 投诉的表格。 如果名称服务器类似于ns1.theirdomain.com,则必须通过反向IP查找并搜索IP进行更深入的研究。

You can also use a third party service for DMCA.com for takedowns.

您也可以使用DMCA.com第三方服务进行下架。

杰夫斯塔尔 in his article suggest that you should block the bad guy’s IPs. Access your logs for their IP address, and then block it with something like this in your root .htaccess file:

杰夫斯塔尔 ( 杰夫·斯塔尔)在他的文章中建议您应该阻止坏人的IP。 访问您的日志以获取其IP地址,然后在根.htaccess文件中使用类似的内容将其阻止:

Deny from 123.456.789

您还可以通过执行以下操作将它们重定向到虚拟提要:

您还可以通过执行以下操作将它们重定向到虚拟源:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

正如杰夫建议的那样,你可以在这里发挥真正的创造力。将它们发送到充满 Lorem Ipsum 的大型文本源。你可以给他们发送一些令人厌恶的坏事图片。您还可以将它们直接发送回他们自己的服务器,从而导致无限循环,从而导致他们的网站崩溃。

正如杰夫建议的那样,您可以在这里发挥真正的创造力。将它们发送到一个充满 Lorem Ipsum 的非常大的文本源中。你可以给他们发送一些恶心的不良图片。您还可以将它们直接发送回您自己的服务器,从而导致无限循环,从而导致其网站崩溃。

我们采取的最后一种方法是利用它们。

我们采取的最后一种方法是利用它们。

如何利用内容抓取工具 How to Take Advantage of Content Scrapers

这是我们处理内容抓取的方法,结果非常好。它有助于我们的搜索引擎优化并帮助我们赚取额外的钱。大多数抓取工具使用您的 RSS 源来窃取您的内容。因此,您可以执行以下操作:

这就是我们处理内容抓取工具的方式,而且效果很好。它不仅有助于我们的搜索引擎优化,还可以帮助我们赚取额外的钱。大多数抓取工具使用您的 RSS 提要来窃取您的内容。因此您可以执行以下操作:

  • 内部链接 – You need to interlink the CRAP out of your posts. With the WordPress 3.1 中的内部链接功能, it is now easier than ever. When you have internal links in your article, it helps you 增加您自己网站上的综合浏览量并降低跳出率. Secondly, it gets you backlinks from the people who are stealing your content. Lastly, it allows you to steal their audience. If you are a talented blogger, then you understand the art of internal linking. You have to place your links on interesting keywords. Make it tempting for the user to click it. If you do that, then the scraper’s audience will too click on it. Just like that, you took a visitor from their site and brought them back to where they should have been in the first place.
  • 内部链接 –您需要将CRAP 关联到您的帖子之外。 借助WordPress 3.1内部链接功能,现在比以往任何时候都容易。 当文章中有内部链接时,它可以帮助您增加您自己网站上的页面浏览量并降低跳出率 。 其次,它使您从窃取您内容的人那里获得反向链接。 最后,它可以让您窃取他们的观众。 如果您是一位才华横溢的博客作者,那么您将了解内部链接的技巧。 您必须将链接放在有趣的关键字上。 诱使用户单击它。 如果您这样做,那么刮板的听众也会点击它。 就像这样,您从他们的网站上带走了一个访客,并将他们带回到他们本来应该去的地方。
  • 自动链接关键字与附属链接自动将关键字链接到附属链接忍者联盟 and 忍者会员SEO 智能链接 that will automatically replace assigned keywords with affiliate links. For example: HostGator, SEO 智能链接)会自动将分配的关键字替换为会员链接。 例如:HostGator的, 工作室出版社, 工作室出版社最大CDN, 最大CDN重力形式 << These all will be auto-replaced with affiliate links when this post goes live.重力形式 <<这些都将被自动替换为会员链接时,这个帖子上线。
  • 利用 RSS 页脚发挥创意 – You can either use the RSS 页脚 or WordPress SEO 由 Yoast 提供 Plugin to add custom items to your RSS Footer. You can add just about anything you want here. We know some people who like to promote their own products to their RSS readers. So they will add banners. Guess what, now those banners will appear on these scraper’s website as well. In our case, we always add a little disclaimer at the bottom of our posts in our RSS feeds. It simply reads like “如何将您的 WordPress 网站置于只读状态以进行网站迁移和维护 is a post from: WP初学者 which is not allowed to be copied on other sites.” By doing this, we get a backlink to the original article from scraper’s site which lets google and other search engines know we are authority. It also lets their users know that the site is stealing our content. If you are good with codes, then you can totally get nuts. Such as adding related posts just for your RSS readers, and bunch of other stuff. Check out our guide to completely 操纵你的 WordPress RSS feed.
  • 利用 RSS 页脚发挥创意 –您可以使用RSS 页脚酵母 Plugin的WordPress 搜索引擎优化将自定义项目添加到RSS页脚。 您可以在此处添加几乎任何您想要的东西。 我们知道有些人喜欢向RSS读者推广自己的产品。 因此,他们将添加横幅。 猜猜是什么,现在这些横幅也将出现在这些刮板的网站上。 就我们而言,我们总是在RSS feed中的帖子底部添加一些免责声明。 它看起来像是“ 如何将 WordPress 网站置于只读状态以进行网站迁移和维护是来自WP初学者的帖子,不允许将其复制到其他网站上。” 这样,我们就可以从刮板的站点上获得原始文章的反向链接,从而使Google和其他搜索引擎知道我们是权威。 它还使他们的用户知道该网站正在窃取我们的内容。 如果您擅长使用代码,那么您完全可以发疯。 例如,仅为您的RSS阅读器添加相关的帖子,以及许多其他内容。 查阅我们的指南,以完全操作 WordPress RSS 提要

如何减少博客内容的抓取并可能防止它 How You Can Reduce Blog Content Scraping and Possibly Prevent It

考虑一下,如果您采用我们的大量内部链接方法,添加附属链接、RSS 横幅,那么您将有可能大大减少内容抓取。如果您接受杰夫·斯塔尔(Jeff Starr)重定向内容抓取工具的建议,那也将阻止这些抓取工具。除了我们上面分享的内容之外,您还可以使用一些其他技巧。

考虑一下,如果您遵循我们的内部链接密集型方法,添加附属链接、RSS 横幅,那么内容的抓取量可能会减少。如果您遵循杰夫·斯塔尔(Jeff Starr)重定向内容爬虫的建议,那也会阻止这些爬虫。除了上面分享的内容之外,您还可以使用一些其他技术。

完整摘要RSS摘要 Full vs. Summary RSS Feed

博客社区中一直存在争论是使用完整的 RSS 提要还是摘要 RSS 提要。我们不会详细讨论这场争论,但是拥有仅摘要 RSS 提要的优点之一是可以防止内容抓取。您可以通过转到 WordPress 管理面板并进入设置 » 阅读来更改设置。然后更改摘要中每篇文章的设置:摘要。

博客社区一直在争论是否拥有完整的 RSS 提要或摘要 RSS 提要。我们不会深入讨论这场辩论的更多细节,但拥有“仅摘要”RSS 提要的优点之一是可以防止内容抓取。您可以通过转到 WordPress 管理面板并在“设置”»“阅读”下更改设置。然后将设置更改为“提要显示中的每个帖子:摘要”。

注意:我们有完整的提要,因为我们更关心我们的 RSS 读者而不是垃圾邮件发送者。

注意:我们拥有完整的提要,因为我们更关心 RSS 读者而不是垃圾邮件发送者。

引用垃圾邮件 Trackback SPAM

Trackback 和 Pingback definitely had great uses however, they are now constantly being abused. Often themes display trackbacks and pingbacks under or among the comments. This gives the spammer an incentive to scrape your site and send trackbacks. If you mistakenly approves it, then they get a backlink and mention from your site. Here is 如何在以后的所有帖子中禁用引用引用. Here is an article that will show you how to 禁用现有 WordPress 帖子的引用和 ping as well.

报价和 Pingback肯定有很大的用途,但是,它们现在经常被滥用。 通常,主题会在评论下方或之中显示引用和引用。 这使垃圾邮件制造者有动力来抓取您的网站并发送引用。 如果您错误地批准,则他们会获得反向链接并从您的网站中提及。 这是如何在以后的所有帖子中禁用“引号” 。 这是一篇将向您展示如何禁用现有 WordPress 帖子的引用和 ping

内容刮取永远是件好事吗? Is Content Scraping Ever Good?

有可能。如果您发现自己正在从爬虫网站上赚钱,那么肯定可以。如果您看到爬虫网站的流量很大,那么可能是这样。但在大多数情况下,事实并非如此。您应该始终尝试删除您的内容。但您会意识到,随着您的博客变得越来越大,几乎不可能跟踪所有内容抓取工具。我们仍然会发出 DMCA 投诉,但我们知道还有大量其他网站正在窃取我们的内容,而我们却无法跟上。

可能的。如果您发现自己在爬虫网站上赚钱,那是肯定的。如果您看到一个流量很大的抓取网站,那没关系。然而,在大多数情况下并非如此。您应该始终尝试删除内容。但您会意识到,随着博客的发展,跟踪所有内容爬虫几乎变得不可能。我们仍然发送 DMCA 投诉,但我们知道有太多其他网站窃取我们的内容,我们无法跟上。

你怎么看?您是否使用任何其他机制来防止内容抓取?很想听听您的想法。

你怎么认为?你有什么想法?您是否使用任何其他机制来防止内容抓取?很想听听您的想法。

翻译自: https://www.wpbeginner.com/beginners-guide/beginners-guide-to-preventing-blog-content-scraping-in-wordpress/

. . .

相关推荐

额外说明

mysql事务级别MVCC

readView是由未提交的事务ID组成的数组,如下,100提交,那数组就是 [105,108,200] 一次次修改事务ID为 100-->105-->108-->120 如果当前事务ID为120,想查询name, 1. 那么第一次查询就是100可见;

额外说明

借贷简单例子

  借贷记账法下,"借"和“贷”都是记账符号,在记账时用来表示某类账户金额的增加或减少,但记账时,"借"和“贷”究竟表示增加还是表示减少,取决于账户的性质。 对资产类和费用类账户来说,记"借"表示增加,记“贷”表示减少; 对负债、所有者权益类和收入类账户

额外说明

OS command injection

QQ 1285575001 Wechat M010527 技术交流 QQ群599020441 纪年科技aming 查询的域名后面加一个分号然后加命令即可成功执行命令 或者利用nc命令,反弹shell && nc -vlp 4444 -e /bin/bas

额外说明

bcpkix-jdk15on 简介、中文文档、中英对照文档 下载

bcpkix-jdk15on 文档 下载链接(含jar包、源码、pom) 组件名称 中文-文档-下载链接 中英对照-文档-下载链接 bcpkix-jdk15on-1.58.jar bcpkix-jdk15on-1.58-API文档-中文版.zip bcp

额外说明

通过命令方式查看目录树

文章目录 一、Windows上查看目录树 (一)查看当前目录的目录树 (二)查看指定目录的目录树 (三)保存目录树到文本文件 二、CentOS上查看目录树 (一)安装`tree`程序 (二)查看当前目录的目录树 (二)查看指定目录的目录树 (三)保存目录

额外说明

前后端分离的用户验证原理及Spring Boot + JWT的框架搭建(附完整的框架代码)之一

Java Web项目开发方式 Java Web的开发有以下几种: 单纯JSP开发 结合模板引擎的JSP开发(比如Thymeleaf),模板引擎提供了更多页面和数据结合的组件,很大程度减轻了页面开发的工作量。 结合前端组件和框架的开发,比如JQuery、E

额外说明

使用SQL索引需要注意的问题

在SQL查询语句中,想要提高我们查询的效率,则在表中创建索引是一个明智的选择,但是当我们使用不当时,索引也是会不起作用的。下面介绍几种在查询时导致索引失效的情况。 1、like模糊查询时尽量不要在索引列使用like"%name%"或者"%name"这种形

额外说明

后端面试话术集锦第 六 篇:认证授权面试话术

这是后端面试集锦第六篇博文——认证授权面试话术❗❗❗ 1. 你给我说一下授权认证(登陆注册)的逻辑 这块来说比较简单,我们提供的注册功能,有用户名密码注册,手机号注册,微信登陆绑定注册功能等 用户名密码注册登陆 我们系统规定的是用户名不得重复。 首先,在

额外说明

机器学习实战2:三个人也能联机下五子棋?怎么赢?

目录 0 写在前面 1 效果展示 2 项目需求与技术选型 3 主要接口设计 4 项目流程 4.1 登录注册 4.2 智能走子 5 项目实现 5.1 用户管理 5.2 选子与游戏大厅玩家等待 5.3 AI智能走子 6 项目实际运行展示 0 写在前面 机器学

额外说明

宝塔面板wordpress_如何在WordPress仪表板中删除欢迎面板

宝塔面板wordpress 您想删除 WordPress 仪表板中的欢迎面板吗?欢迎面板是添加到 WordPress 管理区域的仪表板页面的一个框。它包含执行不同任务的快捷方式,并帮助新用户找到方法。在本文中,我们将向您展示如何删除 WordPress

ads via 小工具