|
Post by nuraniii on Sept 20, 2023 3:57:19 GMT
简要概述 Google 如何处理抓取 众所周知,爬行是搜索引擎三个宏观过程中的第一个: 扫描 索引 排行 由此可见,没有扫描就没有索引,没有这两者就没有定位。 众所周知,谷歌通过使用称为机器人(或蜘蛛或机器人)的自动化程序来抓取网络资源和页面。然而,需要澄清的是,这些蜘蛛程序并不是在互联网上随机运行,对网页进行完整的“盲目”扫描。 抓取活动由谷歌本身通过算法进行监管,谷歌从其索引中提取它已经知道的URL,时不时地发送一个机器人来执行抓取它的任务。 需要记住的一个方面是,机器人本质上是无 cookie 和无会话的:它们在每次抓取时激活和停用,对于它们中的每一个来说,它始终是“第一次和最后一次访问页面”。这意味着它们不会累积以前扫描的缓存或信息。 在完成其任务后,相关蜘蛛程序将被终止,但首先会将构成 巴拿马电话号码表 该页面的 HTML 代码“返回”给 Google。 利用这些有价值的信息,Google通过添加新的 URL 来扩展其索引,以便在未来的抓取中进行检查。同时,它开始对从 HTML 代码推导出来的内容和指令进行分析、处理和评估,以便: 决定是否可以(机器人指令)以及是否想要(相关性和原创性)为页面建立索引 衡量其中所含信息的质量、完整性和可靠性。 快速注意:如果页面使用 javascript 来重现内容,则必须始终考虑第二波(索引)。如果您有兴趣了解更多信息,在这里和这里您会找到关于它的优秀文章。 但现在是最好的部分。 尤其是在扫描操作方面,Google的特点是其显着的效率:它不能容忍任何时间的浪费,并且对长时间等待获取请求的HTML代码做出反应。 此外,它强烈避免在不相关的页面和部分上不必要地使用资源。
|
|