STAKE中国官方网站看法

搜索引擎怎样提取网页的内容

宣布时间：2009-03-31

一样平常来说，，，，，，搜索引擎爬虫在更新网站内容的时间，，，，，，不必把网站网页重新抓取一遍，，，，，，关于大部分网页，，，，，，只需判断网页的属性(主要是日期)，，，，，，把获得的属性和上次抓取的属性相较量，，，，，，若是一样则不必更新。。。。。。。。

搜索引擎建设网页索引，，，，，，处置惩罚的工具是文本文件。。。。。。。。关于搜索引擎爬虫来说，，，，，，抓取下来的网页包括种种名堂，，，，，，如html、图片、doc、pdf,多媒体、动态网页及其他名堂等。。。。。。。。这些文件抓取下来后，，，，，，需要把这些文件中的文本信息提取出来。。。。。。。。准确提取这些文档的信息，，，，，，一方面临搜索引擎的搜索准确性有主要作用，，，，，，另一方面临于搜索引擎爬虫准确跟踪其他链接也有一定的影响。。。。。。。。

关于doc、pdf等由专业厂商提供的软件天生的文档，，，，，，厂商都会提供响应的文本提取接口。。。。。。。。搜索引擎爬虫只需要挪用这些插件的接口，，，，，，就可以轻松地提取文档中的文本信息和文件相关的其他信息。。。。。。。。

HTML等文档纷歧样，，，，，，HTML有一套自己的语法，，，，，，通过差别的下令标识符来体现差别的字体、颜色、位置等版式，，，，，，提取文本信息时需要把这些标识符都过滤掉。。。。。。。。过滤标识符并训斥事，，，，，，由于这些标识符都有一定的规则，，，，，，只要凭证差别的标识符取得响应的信息即可。。。。。。。。但在识别这些信息的时间，，，，，，需要同步纪录许多版式信息，，，，，，例如文字的字体巨细、是否是问题、是否是加粗显示、是否是页面的要害词等，，，，，，这些信息有助于盘算单词在网页中的主要水平。。。。。。。。同时，，，，，，关于HTML网页来说，，，，，，除了问题和正文以外，，，，，，会有许多广告链接以及公共的频道链接，，，，，，这些链接和文本正文一点关系也没有，，，，，，在提取网页内容的时间，，，，，，也需要过滤这些无用的链接。。。。。。。。例如某个网站有“产品先容”频道，，，，，，由于导航条在网站内每个网页都有，，，，，，若不过滤导航条链接，，，，，，在搜索“产品先容”的时间，，，，，，则网站内每个网页都会搜索到，，，，，，无疑会带来大宗垃圾信息。。。。。。。。过滤这些无效链接需要统计大宗的网页结构纪律，，，，，，抽取一些共性，，，，，，统一过滤；；；；；；关于一些主要而效果特殊的网站，，，，，，还需要个体处置惩罚。。。。。。。。这就需要搜索引擎爬虫的设计有一定的扩展性。。。。。。。。

关于多媒体、图片等文件，，，，，，一样平常是通过链接的锚文本(即链接文本)和相关的文件注释来判断这些文件的内容。。。。。。。。例若有一个链接文字为“故宫的照片”，，，，，，其链接指向一张bmp名堂的图片，，，，，，那么搜索引擎爬虫就知道这张图片的内容是“故宫的照片”。。。。。。。。这样，，，，，，在搜索“故宫”和“照片”的时间都能让搜索引擎找到这张图片。。。。。。。。另外，，，，，，许多多媒体文件中都有文件属性，，，，，，思量这些属性也可以更好地相识文件的内容。。。。。。。。

动态网页一直是网络蜘蛛面临的难题。。。。。。。。所谓动态网页，，，，，，是相关于静态网页而言的，，，，，，是由程序自动天生的页面，，，，，，这样的利益是可以快速统一更改网页气概，，，，，，也可以镌汰网页所占服务器的空间，，，，，，但同样给网络蜘蛛的抓取带来一些贫困。。。。。。。。由于开发语言一直增多，，，，，，动态网页的类型也越来越多，，，，，，如asp、jsp、php等。。。。。。。。这些类型的网页关于搜索引擎爬虫来说，，，，，，可能还稍微容易一些。。。。。。。。搜索引擎爬虫较量难于处置惩罚的是一些剧本语言(如VBScript和JaVaScript)天生的网页，，，，，，若是要完善地处置惩罚好这些网页，，，，，，网络蜘蛛需要有自己的剧本诠释程序。。。。。。。。关于许大都据是放在数据库的网站，，，，，，需要通过本网站的数据库搜索才华获得信息，，，，，，这样给网络蜘蛛的抓取带来很大的难题。。。。。。。。关于这类网站，，，，，，若是网站设计者希望这些数据能被搜索引擎搜索，，，，，，则需要提供一种可以遍历整个数据库内容的要领。。。。。。。。

关于网页内容的提取，，，，，，一直是搜索引擎爬虫中主要的手艺。。。。。。。。整个系统一样平常接纳插件的形式，，，，，，通过一个插件治理服务程序，，，，，，遇到差别名堂的网页接纳差别的插件处置惩罚。。。。。。。。这种方法的利益在于扩充性好，，，，，，以后每发明一种新的类型，，，，，，就可以把其处置惩罚方法做成一个插件增补到插件治理服务程序中。。。。。。。。

由于网站的内容经常在转变，，，，，，因此搜索引擎爬虫也需要一直地更新其抓取网页的内容，，，，，，这就需要搜索引擎爬虫凭证一定的周期去扫描网站，，，，，，审查哪些页面是需要更新的页面，，，，，，哪些页面是新增页面，，，，，，哪些页面是已经逾期的死链接。。。。。。。。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。。。。。。。。若是更新周期太长，，，，，，则总会有一部分新天生的网页搜索不到；；；；；；周期过短，，，，，，手艺实现会有一定难度，，，，，，并且会对带宽、服务器的资源都有铺张。。。。。。。。搜索引擎爬虫并不是所有的网站都接纳统一个周期举行更新，，，，，，关于一些主要的更新量大的网站，，，，，，更新的周期短，，，，，，若有些新闻网站，，，，，，几个小时就更新一次；；；；；；相反，，，，，，关于一些不主要的网站，，，，，，更新的周期就长，，，，，，可能一两个月才更新一次。。。。。。。。

上一篇：搜索引擎营销的五大特点

下一篇：SEO元标记优化的认知

STAKE中国官方网站

STAKE中国官方网站看法

搜索引擎怎样提取网页的内容

相关内容NEW