【聚杰网搜索引擎】Google搜索引擎原理
Google系统的工作流程图
①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中。
② 存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html 代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故 障的时候,可以及时完整地进行网页的数据恢复。
③索引器(Indexer)从Repository中读取数据,以后做以下四步工作:
④(a) 将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化为关键词(wordID)的若干索引项(Hits),生成索引项列表,该列表包 括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中,并生成以文档号(docID)部分排序的顺排档索 引。
索引项根据其重要程度分为两种:当索引项中的关键词出现在URL、标题、锚文本(Anchor Text)和标签中时,表示该索引项比较重要,称为特殊索引项(Fancy Hits);其余情况则称为普通索引项(Plain Hits)。在系统中每个Hit用两个字节(byte)存储结构表示:特殊索引项用1位(bit)表示大小写,用二进制代码111(占3位)表示是特殊索 引项,其余12位有4位表示特殊索引项的类型(即hit是出现在URL、标题、链接结点还是标签中),剩下8位表示hit在网页中的具体位置;普通索引项 是用1位表示大小写,3位表示字体大小,其余12位表示在网页中的具体位置。 Www@聚杰网 iTJJ.NET@com
顺排档索引和Hit的存储结构如图3所示。 中国.站.长站
顺排档索引和Hit的存储结构 聚杰网 iTJJ.NETm
值得注意的是,当特殊索引项来自Anchor Text时,特殊索引项用来表示位置的信息(8位)将分为两部分:4位表示Anchor Text出现的具体位置,另4位则用来与表示Anchor Text所链接网页的docID相连接,这个docID是由URL Resolver经过转化存入顺排档索引的。
(b)索引器除了对网页中有意义的词进行分析外,还分析网页的所有超文本链接,将其Anchor Text、URL指向等关键信息存入到Anchor文档库中。
(c)索引器生成一个索引词表(Lexicon),它包括两个部分:关键词的列表和指针列表,用于倒排档文档相连接(如图3所示)。
(d) 索引器还将分析过的网页编排成一个与Repository相连接的文档索引(Document Index),并记录下网页的URL和标题,以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL Server,以便在下一次工作流程中进行索引分析。
⑤URL分析器(URL Resolver)读取Anchor文档中的信息,然后做⑥中的工作。
⑥(a) 将其锚文本(Anchor Text)所指向的URL转换成网页的docID;(b)将该docID与原网页的docID形成“链接对”,存入Link数据库中;(c)将 Anchor Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。
⑦数据库Link记录了网页的链接关系,用来计算网页的PageRank值。 聚杰网 iTJJ.NET~com
⑧文档索引(Document Index)把没有进行索引分析的网页传递给URL Server,URL Server则向Crawler提供待遍历的URL,这样,这些未被索引的网页在下一次工作流程中将被索引分析。
⑨排序器(Sorter)对数据桶(Barrels)的顺排档索引重新进行排序,生成以关键词(wordID)为索引的倒排档索引。倒排档索引结构如图4所示:
倒排档索引结构 站.长.站
⑩将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器 (Searcher)使用。搜索器的功能是由网页服务器实现的,根据新产生的索引词表结合上述的文档索引(Document Index)和Link数据库计算的网页PageRank值来匹配检索。
在执行检索时,Google通常遵循以下步骤(以下所指的是单个检索词的情况):
(1)将检索词转化成相应的wordID;
(2)利用Lexicon,检索出包含该wordID的网页的docID;
(3)根据与Lexicon相连的倒排档索引,分析各网页中的相关索引项的情况,计算各网页和检索词的匹配程度,必要时调用顺排档索引;
(4)根据各网页的匹配程度,结合根据Link产生的相应网页的PageRank情况,对检索结果进行排序;
(5)调用Document Index中的docID及其相应的URL,将排序结果生成检索结果的最终列表,提供给检索用户。
用户检索包含多个检索词的情况与以上单个检索词的情况类似:先做单个检索词的检索,然后根据检索式中检索符号的要求进行必要的布尔操作或其他操作。 Www_聚杰网 iTJJ.NET_com
Google向网站管理员提供的信息
遵循以下指南将有助于 Google 查找、检索您的网站并对其进行排名,这是确保在 Google 搜索结果中列出您的网址的最佳途径。即使您选择不采纳这些建议,我们也强烈建议您密切关注” 质量指南 “,该指南对可导致网站从 Google 索引中彻底删除的一些违禁行为做了简要说明。一旦网站删除之后,Google.com 或 Google 所有合作伙伴网站的搜索结果中都不会再显示该网站。
网站设计与内容指南:
网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
为用户提供一个网站地图,并列出指向网站重要位置的链接。如果网站地图上的链接超过大约 100 个,则最好将网站地图拆成多个网页。
网站应具有实用性且信息丰富,网页文字应清晰、准确地表述要传达的内容。
要考虑到用户会使用哪些关键词来查找您的网页,确保网站上包含了这些文字。
尽量使用文字而不是图像来显示重要的名称、内容或链接。因为 Google Crawler 无法识别图像中所包含的文字。
确保 TITLE 和 ALT 标记文字简单明了并与网页内容相关。
检查链接是否损坏,HTML 格式是否正确。
如果采用动态网页(即网址中包含”?”字符),请注意并非每一个搜索引擎 Spider 收录动态网页都能像收录静态网页一样容易。缩短参数的长度并减少参数数目将有助于收录动态网页。
将每一网页上的链接数量限制在合理的范围内(少于 100)。
技术指南:
由于大部分搜索引擎 Spider 查看网站的方式与文本浏览器一样,所以可使用诸如 Lynx 的文本浏览器来检查您的网站。如果因采用了 Javascript、Cookie、Session ID’s、frames (框架)、DHTML 或 Flash 等复杂技术,而导致在文本浏览器中无法看到网站的所有网页,则搜索引擎 Spider 在收录您的网站时可能会遇到麻烦。
允许搜索漫游器 (search bots) 收录您的网站,同时不采用 Session ID 或其它参数来追踪它的浏览路径。这些跟踪技术对了解个别用户的行为很有用,但由于漫游器的访问模式完全不同,采用这些技术则可能会导致对网站的检索不完 整,因为漫游器可能无法排除那些看上去不同但实际却指向同一个网页的网址。
确保您的网络服务器支持 If-Modified-Since HTTP 标题。通过该功能 Google 可以知道自上次收录以来您的网站内容是否有变化,这样可以节省您的带宽和开销。 Www.聚杰网 iTJJ.NETm
使用网络服务器上的 robots.txt 文件。该文件会告诉 Crawler 可以收取哪些目录。请确保该文件内容的更新,以免 Googlebot Crawler 的收录意外中断。有关来访漫游器和如何控制它们的常见问题解答,请访问 http://www.robotstxt.org/wc/faq.html 。
如果贵公司购买了内容管理系统,请确保该系统能导出您的内容,以便搜索引擎 Spider 可以收录您的网站。
当您的网站一切准备就绪时:
一旦您的网站在线后,请将其提交给 Google,具体网址为: http://www.google.com/addurl.html 。
确保应了解您网页的所有网站都知道您的网站已处于在线状态。
将您的网站提交给相关的目录,例如,Open Directory Project 和 Yahoo!。
有关详细信息,请定期查阅 Google 的网站管理员部分。 聚杰网 iTJJ.NETm
质量指南 - 基本原则: 中国站.长.站
网页应面向用户,而不是面向搜索引擎。对用户应保持诚实无欺的态度,提交给搜索引擎的内容应与显示给用户的内容一致。
请不要为了提高搜索引擎排名而弄虚作假。根据我们的经验,一个比较好的评定方法是:您是否可以坦然地向竞争对手解释您对网站所做的一切。另一个有用的测试方法则是扪心自问:”我这样做能否帮助我的用户?如果不存在搜索引擎,我是否还会这样做?”
请不要采用旨在提高您的网站排名或 PageRank(网页评级)的链接手段。尤其要避免链接到垃圾/作弊网站或”网上恶邻”,因为您自身的排名可受到这些链接的负面影响。
请不要用未授权的计算机程序提交网页、检查排名等。这些程序会耗用计算机资源并违反我们的服务条款。Google 不建议使用 WebPosition Gold? 这类产品向 Google 发送自动或用程序编写的查询。
质量指南 - 具体建议:
请不要使用隐藏文本或隐藏链接。
请不要采用隐藏真实内容或欺骗性重定向的手段。
请不要向 Google 发送自动查询。
请不要大量使用与网页内容无关的关键词。
请不要创建包含大量重复内容的多个网页、子域或域。
请不要采用专门针对搜索引擎制作的”桥页 (doorway page)”,也不要采用如联属计划 (affliate programs) 这类原创内容很少或几乎没有原创内容的”饼干模子 (cookie cutter)”方式。
上 述质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为(例如,通过注册知名网站的错误拼写形式来欺骗用户),Google 仍可予以拒绝。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google 就会认可该手段。作为网站管理员,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护上述基本精神,以便为用户带来更好的体验,从而使网站获得更高的排名。
中.国.站长站










