一、搜索发现信息并筛选收录
在众多互联网网页中,搜索引擎需要去发现并筛选收录信息工作十分繁杂。所以每个独立的搜索引擎都有自己多种不同类型的网页抓取程序爬虫(如百度的baiduspider ,谷歌的googlebot等),网络爬虫根据URL或超链接,爬到各个网站进行分析判断,从而对网页进行过滤,索引抓取需要信息。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。爬虫具备强大的抓取能力,还要完成信息提取任务。
爬虫的抓取对象有静态网页、动态网页、特殊内容(RSS/XML数据)、文件对象(图片,MP3、Flash)等。爬虫将网页抓取放入数据库中,对页面进行过滤和收录,用户在搜索相关内容时才可能找到你的信息。当然也会出现网上有信息,但是搜索引擎库里没有的情况,信息未被收录是什么原因呢?
1、Spider未能正确处理的网页性质及文件类型
2、Spider访问时因为某些原因正好是死链接
3、被认为是劣质网页而不抓取
4、因为垃圾信息等问题而不抓取的网页
5、网站用robots协议拒绝搜索引擎抓取的网页
6、搜索引擎还未来的及抓取的新网页
二、预处理信息
在信息化时代,互联网信息庞大。为了能提高用户体验,更快速准确的将所需求信息呈现在用户面前。对于庞大的信息需要进行预处理。
第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提供网页快照功能;接下来针对索引网页库进行网页切分处理。
1、分词
分词是搜索引擎的一项重要核心功能,和存储和查询有着重要关系。不同的研究角度会带来不同的结果,语言学方向研究分词的算法,看中分词的准确性,不看重运算速度,而搜索引擎的分词算法,特别看中分词速度,准确性中等。
以英文为代表的字母型文字,按照空格和标点符号比较容易实现分词,而以中文为代表的东亚语系文字,在分词方面,却存在巨大的困难。搜索引擎的中文分词,在算法上有两种,一种用于后台索引处理,一个种用于前端对搜索词进行分词处理。
例如:关键词“搜索引擎营销”
在构建后台索引时,可分词为“搜索引擎营销”、“搜索”、“引擎”、“营销”、“搜”、“索”、“引”、“擎”、“营”、“销”,对10个字词建立索引。在其前端的分词处理,为“搜索引擎营销”或“搜索+引擎+营销”或“搜索引擎+营销”。
2、去除停用词。
任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如“的”“啊”“了”等。另一类词包括词汇词,比如'我的'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
3、消除无关内容
网页上有各种各样的广告文字、广告图片、登录框、版权信息等,为了某些目的不得不放上去,这些对搜索引擎来说不是有用的东西,可以直接去掉。以保证客户所获得信息时良好的客户体验。
4、双向索引
双向匹配,使搜索呈现更全面,更具多样性。(正向索引:检索每个页面包含哪些关键词,提取相匹配的内容;倒向索引:某个关键词,有哪些页面出现过,提取相匹配的内容。)搜索引擎将完成运算后相匹配的文件存储在服务器中,达到能够同时给众多用户,在毫秒级的范围内够提供搜索结果。
三、根据搜索词筛选信息进行排列呈现
搜索引擎的排序算法,决定网页、图片等数据的重要性排列顺序,也决定了最终用户查询排名。搜索引擎排序算法的优劣,直接决定了用户对搜索服务的选择。在互联网上,一个普通用户更换搜索服务只需要5秒钟,所以每个搜索引擎公司也必须不停地改进其排序算法。影响排序算法的因素有很多:
1、关键词。网页的关键词,关键词密度,域名关键词,外链关键词等,都会与搜索词相匹配,优先呈现契合度高的信息。
2、域名权重。域名权重是指域名在搜索引擎上排名的综合实力。域名权重是很多因素的总和,包括域名种类、历史、内容原创性、链接关系等。域名权重越高,所呈现的位置也就越靠前。
3、历史用户数据。这一数据是证明某一网页信息是否被用户所认可的证明。所以搜索引擎会基于原先的点击率,用户的历史停留时间,搜索量等进行一定的排列。
4、内容质量。搜索引擎对于一个网页内容有一个基础的评判,如内容相关度,原创度,独特性,长效性等均会影响网页的排名。
5、不排出一定的人工干预。
上一篇:网络推广产品这八步不可少