《LookSmart:互联网导航的先锋》是一个深入探讨了LookSmart公司的发展历史、目标和市场地位的本文分析。
LookSmart,这个美国的目录导航式搜索引擎,自1995年成立以来,一直秉承着将互联网搜索变得更简单、更直观的愿景。它的创立初衷非常简单但充满远见,那就是帮助人们在浩瀚的网络世界中找到他们正寻找的信息。这种对于用户体验的重视,以及对搜索效率的提升,是LookSmart自始至终坚持的核心理念。
作为一个搜索引擎,LookSmart通过其独特的目录导航工具,不仅简化了用户搜寻信息的流程,也提高了搜索结果的准确性。这种对用户友好的设计使其在市场的定位上独树一帜。随着时间的推移,LookSmart不断优化其搜索技术,以适应用户需求的不断变化,这使得它逐步发展成为网络产品目录和定位搜索市场的领导者。
一个搜索引擎的成败很大程度上取决于用户的基础。LookSmart之所以能够在美国甚至全球范围内广受好评,很大程度上是因为它契合了大部分美国网民的使用习惯。它的目录导航工具不仅仅是一个简单的搜索框,而是一个结构化和系统化的分类体系,这使得用户能够更加快速和准确地找到所需的信息。
作为行业的领导者,LookSmart不断创新和改进,保持其技术优势和市场份额。它通过持续的技术研发和用户界面优化,确保了自己在竞争激烈的搜索引擎市场中的领先地位。这种地位让它能够吸引和维持大量的用户群,进而推动公司的发展和行业的前进。
LookSmart的故事是一个关于创新、用户导向和市场领导的生动案例。它不仅展示了一个搜索引擎如何通过满足用户需求而成功,也向我们表明了在互联网时代,如何通过技术的力量来改善人们的生活。
从LookSmart的例子中我们可以学习到,无论在哪个时代,只有不断创新和深化用户体验,才能赢得市场和用户的青睐。正是这样一种用户至上和持续创新的精神,使得LookSmart能够在搜索引擎市场中持续领跑。
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。 信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是:YAHOO、LookSmart、Open Directory、Go Guide等。 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。 该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、OpenFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 服务方式为面向网页的全文检索。 这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 这类搜索引擎的代表是WebCrawler、InfoMarket等。 性 能 指 标 我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。 所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。 对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。 所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。 对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。 目前的搜索引擎系统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。 主 要 技 术:一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。 它常常是一个计算机程序,日夜不停地运行。 它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 目前有两种搜集信息的策略: 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。 这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。 单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。 使用的方法一般有统计法、信息论法和概率法。 短语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。 当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。 索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。 一个搜索引擎的有效性在很大程度上取决于索引的质量。 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如、)、出现位置(如标题、内容)、信息时间、长度等等。 目前一些公司和机构正在考虑制定查询选项的标准。 未 来 动 向:搜索引擎已成为一个新的研究、开发领域。 因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。 又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。 1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。 对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。 解决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精。 二是用正文分类(Text Categorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。 三是进行站点类聚或内容类聚,减少信息的总量。 2.基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。 它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。 智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。 智能代理可以在用户端进行,也可以在服务器端运行。 3.采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。 但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。 搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。 4.重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。 如果再加上机器翻译,返回结果可以用母语显示。 该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。 但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。 搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。 用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。 下面以网络搜索机器人为例来说明搜索引擎技术。 1.网络机器人技术网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。 一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。 机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。 网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。 它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。 所有WWW的搜索程序都有如下的工作步骤:(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;(3)从文档中提取指向其他文档的URL,并加入到URL列表中;(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。 搜索算法一般有深度优先和广度优先两种基本的搜索策略。 机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。 也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。 搜索引擎是一个技术含量很高的网络应用系统。 它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。 2.索引技术索引技术是搜索引擎的核心技术之一。 搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。 分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。 目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:(1)存储语法库,和词汇库配合分出句子中的词汇;(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;(4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。 索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。 索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。 不同的搜索引擎系统可能采用不尽相同的标引方法。 例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。 检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。 3. 检索器与结果处理技术检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。 这里的相关度是指搜索关键字在文档中出现的额度。 当额度越高时,则认为该文档的相关程度越高。 能见度也是常用的衡量标准之一。 一个网页的能见度是指该网页入口超级链接的数目。 能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。 特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。 结果处理技术可归纳为:(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。 (2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。 人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。 这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。 (3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。 由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。 所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。 搜索引擎技术的行业应用:搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:1、 政府机关行业应用 n 实时跟踪、采集与业务工作相关的信息来源。 n 全面满足内部工作人员对互联网信息的全局观测需求。 n 及时解决政务外网、政务内网的信息源问题,实现动态发布。 n 快速解决政府主网站对各地级子网站的信息获取需求。 n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。 n 节约信息采集的人力、物力、时间,提高办公效率。 2、企业行业应用 n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。 n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。 3、新闻媒体行业应用 n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。 n 支持每天对数万条新闻进行有效抓取。 监控范围的深度、广度可以自行设定。 n 支持对所需内容智能提取、审核。 n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 4、 行业网站应用n 实时跟踪、采集与网站相关的信息来源。 n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。 动态更新信息。 n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。 n 针对资讯网站分类目录生成,提出用户生成网站分类结构。 并可以实时增加与更新分类结构。 不受级数限制。 从而大大利高行业的应用性。 n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。 n 提供与CCDC呼叫搜索引擎的广告合作。 建立行业网站联盟,提高行业网站知名度。 5) 网络信息监察与监控n 网络舆情系统。 如“千瓦通信-网络舆情雷达监测系统”n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞 针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。 目前, 搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来 的技术。 据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前 的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。 用户要在如此浩 瀚的信息海洋里寻找信息,必然会大海捞针无功而返。 搜索引擎正是为了解决这个迷航 问题而出现的技术。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解 、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎提供 的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为网络门户 。 搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 本文旨在对搜索 引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。 分 类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人 工形成信息摘要,并将信息置于事先确定的分类框架中。 信息大多面向网站,提供目录浏 览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高 ,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是 :Yahoo、LookSmart、Open Directory、Go Guide等。 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互 联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输 入检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。 该类搜 索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关 信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Ligh t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、O penFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜 索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用 户。 服务方式为面向网页的全文检索。 这类搜索引擎的优点是返回结果的信息量更大、更 全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 这类搜索引 擎的代表是WebCrawler、InfoMarket等。 性 能 指 标 我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索 出与用户查询相关的文档。 所以我们可以用衡量传统信息检索系统的性能参数-召回率(R ecall)和精度(Pricision)衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系 统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量 的是检索系统(搜索引擎)的查准率。 对于一个检索系统来讲,召回率和精度不可能两全 其美:召回率高时,精度低,精度高时,召回率低。 所以常常用11种召回率下11种精度的 平均值(即11点平均精度)来衡量一个检索系统的精度。 对于搜索引擎系统来讲,因为没 有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。 目前的搜索引擎系 统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询 的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相 关度反馈的机制。 主 要 技 术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。 它常常是一个计算机程序,日夜 不停地运行。 它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信 息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 目前有 两种搜集信息的策略: ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深 度优先或启发式方式循环地在互联网中发现信息。 这些起始URL可以是任意的URL,但常常 是一些非常流行、包含很多链接的站点(如Yahoo!)。 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽 搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、 字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息 发现和更新的速度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生 成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、 URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来 反映文档内容的,如关键词及其权重、短语、单字等等。 内容索引项可以分为单索引项和 多索引项(或称短语索引项)两种。 单索引项对于英文来讲是英语单词,比较容易提取, 因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切 分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分 度,同时用来计算查询结果的相关度。 使用的方法一般有统计法、信息论法和概率法。 短 语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档 。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或 接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。 当数据量很大时,必须实现即时 索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。 索引算法对索引器 的性能(如大规模峰值查询时的响应速度)有很大的影响。 一个搜索引擎的有效性在很大 程度上取决于索引的质量。 3.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与 查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的 目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如 逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如、) 、出现位置(如标题、内容)、信息时间、长度等等。 目前一些公司和机构正在考虑制定 查询选项的标准。 未 来 动 向 搜索引擎已成为一个新的研究、开发领域。 因为它要用到信息检索、人工智能、计算 机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,所以具有综合性和挑战性。 又由于搜索引擎有大量的用户,有很好的经济价值,所 以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃, 并出现了很多值得注意的动向。 1.十分注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎上进行 信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。 对于一 个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。 解 决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句 中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关 度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些 不相关,通过多次交互逐步求精。 二是用正文分类(Text Categorization)技术将结果分 类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。 三是进行站点类 聚或内容类聚,减少信息的总量。 2.基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。 它使用自动获得的领域模型(如We b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景 、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用户。 智能代理具有不断学习、适 应信息和用户兴趣动态变化的能力,从而提供个性化的服务。 智能代理可以在用户端进行 ,也可以在服务器端运行。 3.采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。 但 当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高 系统性能。 搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以 在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可 以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上.
1994年第一代真正基于互联网的搜索引擎Lycos诞生,它以人工分类目录为主,代表厂商是Yahoo, 特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。
所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。
搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。
搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
扩展资料
搜索引擎主要特点
1、信息抓取迅速。
在大数据时代,网络产生的信息浩如烟海,令人无所适从,难以得到自己需要的信息资源。 在搜索引擎技术的帮助下,利用关键词、高级语法等检索方式就可以快速捕捉到相关度极高的匹配信息。
2、深入开展信息挖掘。
搜索引擎在捕获用户需求的信息的同时,还能对检索的信息加以一定维度的分析,以引导其对信息的使用与认识。 例如,用户可以根据检索到的信息条目判断检索对象的热度,还可以根据检索到的信息分布给出高相关性的同类对象,还可以利用检索到的信息智能化给出用户解决方案,等等。
3、检索内容的多样化和广泛性。
随着搜索引擎技术的日益成熟,当代搜索引擎技术几乎可以支持各种数据类型的检索,例如自然语言、智能语言、机器语言等各种语言。 目前,不仅视频、音频、图像可以被检索,而且人类面部特征、指纹、特定动作等也可以被检索到。 可以想象,在未来几乎一切数据类型都可能成为搜索引擎的检索对象。
一、什么叫搜索引擎? 在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。 当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。 与其这样做,不如好好去理解搜索引擎是如何工作的?又怎样选择和使用keywords(关键词)等等。 本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。 搜索引擎这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。 1、目录 目录(比如Yahoo!)返回的列表是由人工来编排的。 这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。 人们搜索时就按相应类别的目录查询下去。 这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。 我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。 目前国内Sohoo、常青藤等都是这种搜索方式。 2、搜索引擎 搜索引擎(如HotBot)是自动创建列表的。 搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。 目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。 搜索引擎是以全文检索的方式工作的。 全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。 在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。 打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。 3、两者相结合的搜索引擎 某些搜索引擎同时也提供目录。 包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。 因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。 搜索引擎和目录各有各自不可替代的功用。 目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。 搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。 如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。 而目录就做不到。 下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。 参考资料:按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。 信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。 服务方式是面向网页的全文检索服务。 该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、OpenFind等。 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。 服务方式为面向网页的全文检索。 这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 这类搜索引擎的代表是WebCrawler、InfoMarket等。 …… 主 要 技 术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。 它常常是一个计算机程序,日夜不停地运行。 它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 目前有两种搜集信息的策略: ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。 这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。 单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。 使用的方法一般有统计法、信息论法和概率法。 短语索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。 当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。 索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。 一个搜索引擎的有效性在很大程度上取决于索引的质量。 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如、)、出现位置(如标题、内容)、信息时间、长度等等。 目前一些公司和机构正在考虑制定查询选项的标准。
搜索[汉语]搜索拼音:sōu suǒ解释:仔细查找;搜寻:搜索前进|搜索残敌。 [互联网]搜索又叫搜索引擎。 搜索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。 人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。 这其实是最原始的方式,只适用于因特网信息并不多的时候。 随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。 这就是现在搜索引擎的原型。 随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。 现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。 以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。 例如,搜索“电脑”这个词汇,就可能有数百万页的结果。 这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。 这就是使搜索引擎搜索结果多而杂的原因。 而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 在网络、Google、雅虎等主流搜索引擎愈发发展成熟以外,各类不同的搜索大全也在今日的互联网逐渐兴起。 如:『搜索大全』()等即为集各种不同类型搜索引擎,涵盖多语言于一身的搜索集合。 该类搜索引擎大全的兴起,让搜索变得更加简单。 几乎所有的内容都能在“一页之间”完成。 搜索Wikipedia,自由的百科全书:搜索Google谈“中国政策”以及个人隐私帕瑟希女士指出,不管什么样的法律,都不能保护存储在美国的服务器上的用户个人数据不被美国政府索取查看,也就是说,争取更多数据保护的斗争已经失败了,死守还有什么意义呢。 树大招风 Google频频挨告目前有作家和出版社组成的团体,控诉Google扫描仍受著作财产权保护的书籍;加州一家网站也控告Google把他们从Google搜索结果中剔除;还有欧洲的媒体社控告Google擅自转载他们的新闻及照片到 Google新闻区。 树大招风Google官司缠身 业务运转模式受挑战随著Google成为全球最有影响力的搜索引擎及互联网公司,一连串法律诉讼案件也跑上门来,这些诉讼包括侵犯版权,商标以及Google对网站排序方式等等的控告。 分析师预计网络市值将达130亿美元如果网络未来两年继续保持100%以上的营收年度增幅,该公司的市值同销售额之比也许会更高。 Google目前的市值同销售额之比为13倍,网络为24倍,取其中间值18倍,网络2008年第三季度的市值将达到130亿美元。 2006年 你Tube了吗“你能想象吗?”尼尔兴奋地说,“有上百人看我们的录像,我们还收到了来自新西兰和欧洲的评论。 ”尼尔已经决定将来上大学从事电影创作,而YouTube将是他实现梦想的最有力的平台。 Web2.0遭遇生死劫 创业浪潮迟早泡沫破灭Web2.0正面临着生死考验。 短短两年间它走过了草根创业、融资扩张、拉风叫板三个阶段,接下来等待它们的是否就是灰飞烟灭?Google手持现金104亿美元将再行收购一些分析师认为雅虎将成为Google最大的竞争对手,雅虎公司已经推出其备受期待的被称之为为“巴拿马”的新广告平台。 华尔街日报:YouTube成为人们日常用语当世界上发生某些事件,人们想观看电视那样的视频画面时,YouTube就成为必不可少的第一站。 它也成为了一个形容词;美国中期选举被称为首届“YouTube选举”谷歌天价收购YouTube幕后 力压宿敌雅虎微软收购格局完成后,在搜索和网上社区力压宿敌雅虎;在电子邮件和网上文字处理上超越微软,甚至以网络操作系统代替微软的Windows手机“撒谎软件”挑战诚信他说:“比如你给自己发了条短信,说某某欠了你100万元,又将这条短信设定为他发给你的,如果因此造成严重后果,你就可能犯了敲诈罪。 ”成都百家草根网站抱团迎风投联盟负责人告诉记者,他们希望通过联盟这种形式聚集成都庞大的网站创业者,促进成都互联网经济的发展。 据悉,这是西部地区首个网站联盟。 核心:让人更幸福 李开复谈创造奇迹的理由李开复:随着工程师的逐步到位,以及新产品的逐步应用,你会发现Google更好用了———我相信,明显改观会出现在春节前。 尼尔森最新统计显示Google仍居搜索霸主地位Google仍占搜索市场霸主地位,有一半的搜索依赖于Google的搜索技术。 雅虎以13亿次的搜索量居第二位,与去年同期相比增长了12%。 微软的MSN/Windows Live居第三位,搜索量为5.19亿次,尽管其搜索量同比下降了12%。 微软与Kirtas打造图书搜索引擎 挑战Google制作高速扫描仪的Kirtas技术公司表示,它将为微软的“Live Book Search”图书搜索引擎做图书数字化工作,其速度可达每小时2400页,大约一本书需要8分钟时间Mozilla加速合作伙伴结盟 亚洲市场投更多资源“Mozilla将得力于我们和搜索服务之间合作联盟,反之,这些搜索引擎也因为Firefox带来的客户而获益,”金井玄说。 中国经营报:谢文重新触网 雅虎如何再造马云同样希望雅虎中国能够迅速接受阿里巴巴的“激情”和“客户第一”、“拥抱变化”等文化,而这些与典型工程师文化的雅虎中国产生了巨大的冲突。 经济观察报:雅虎中国换帅求变阿里巴巴集团CEO马云在官方新闻中充分肯定了田健一年来的工作,并表示,换帅意味着阿里巴巴集团对雅虎中国整合的第一阶段已经完成,即将进入第二阶段。 新版浏览器开战 微软火狐Opera较量再升温作为老牌浏览器,Opera也不甘落后,推出了最新的9.2版本,再次体现了其浏览速度方面的优势,另外增加了插件小程序功能,并支持BT直接下载通过自动升级。 谢文挑起雅虎中国 马云迎接新一轮挑战雅虎中国的整合任务将分为三个步骤,第一个步骤是让公司活下来,第二步是健康发展,第三步才是恢复强大Google公布第三季度报表:盈利翻倍Google公布第三季度报表显示:在至9月30日为止的第三季度净收入到达7.33亿美元,是去年同期的近两倍Google第3季多赚92%胜预期网络搜索企业Google公布,第3季纯利增长92%至7.33亿美元,营业额亦增加70%,主要受惠於海外业务以及公司旗下网站的业绩,因该公司对网络搜索市场的控制增强李彦宏:网络未来发展方向是搜索社区化我个人觉得,搜索引擎在未来若干年当中,它的社区化趋势会越来越明显。 人们信息需求的满足,需要越来越多地依靠其他用户的力量来满足奇虎:搜索Google搜不到的草根内容在新一波兴起的互联网中,大部分被人们称为web2.0。 对这样的称呼,很多网站不以为是,但齐向东却很喜欢这个概念。 奇虎网也打着搜索引擎的旗号,对web2.0典型的社区进行内容搜索。 财富:解密Google收购YouTube的原因颇具讽刺意味的是,Google公司一方面对在线视频网站兴趣浓厚,一方面又认为传统广播电视和有线电视仍是主要的广告媒介。 微软在华辟在线广告疆土抗衡Yahoo与Google不满足于在华卖出大量windows产品,同时也为与Yahoo、Goolge竞争的战略需要,微软已经把眼光投向飞速发展的中国网络广告业1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。 当时World Wide Web还未出现。 Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。 Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。 Jughead是后来另一个Gopher搜索工具。 由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。 世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。 刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。 ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。 1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。 这就是Excite。 后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。 除了网站搜索,它还支持Gopher和Telnet搜索。 1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。 随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。 因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 搜索效率明显提高。 (Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。 1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。 WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 (后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。 Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。 1994年7月20日,数据量为54,000的Lycos正式发布。 除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。 (注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。 起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。 但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。 Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。 而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。 (注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。 用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。 但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。 Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。 而Altavista的另一些新功能,则永远改变了搜索引擎的定义。 AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。 用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。 AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。 AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。 在面向用户的界面上,AltaVista也作了大量革新。 它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。 这系列功能,逐渐被其它搜索引擎广泛采用。 1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。 然后到来的是HotBot。 1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。 声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。 HotBot也大量运用cookie储存用户的个人搜索喜好设置。 (Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。 它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。 (2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中World Wide Web only,仍可使用Northernlight搜索引擎)1998年10月之前,Google只是Stanford大学的一个小项目BackRub。 1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。 1999年2月,Google完成了从Alpha版到Beta版的蜕变。 Google公司则把1998年9月27日认作自己的生日。 Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。 在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。 直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。 Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。 1999年5月,发布了自己的搜索引擎AllTheWeb。 Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。 Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。 Teoma 起源于1998年Rutgers大学的一个项目。 Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。 Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。 Wisenut 由韩裔Yeogirl Yun创立。 2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。 wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。 Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。 Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。 Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。 Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。 2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。 北大天网 是国家九五重点科技攻关项目中文编码和分布式中英文信息发现的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。 Baidu 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了网络(Baidu)公司。 2001年8月发布搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎。 Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。 Baidu搜索引擎的其它特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。 2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。 搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。 因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 [编辑]全球搜索引擎市场近期大事记2002年12月24日,雅虎称公司同意以大约2.35亿美元的价格收购搜索软件公司Inktomi。 2003年1月18日,Google收购博客网站开发团队——网上出版软件开发商Pyra Labs。 2003年2月19日,Overture服务公司表示,计划以1.4亿美元现金加股票从CMGI公司手中收购门户网站AtaVista。 2003年2月26日, Overture同意以1亿美元收购位于挪威的Fast Search and Transfer公司的网络搜索部门。 2003年4月15日,新浪与中国搜索联盟结成战略同盟,至此,中国已有数百家网站结成搜索联盟,以迎接国际巨头Google挺进国内市场后的巨大压力。 2003年4月21日,第二大互联网搜索引擎提供商Ask Jeeves公司宣布对其网站进行升级。 Ask Jeeves是仅次于Google的第二大搜索引擎,也是互联网上第五大搜索基地 (Google、雅虎、微软、AOL、Askjeeves) 。 2003年6月18日,微软公司表示其正在加大研发新型互联网搜索引擎技术的力度,包括对一款功能更先进的技术原型进行测试。 2003年7月12日,从加利福里亚传来消息,Google即将把总部从Bayshore Parkway搬迁至半里之遥的一个有四栋楼房的复式结构建筑中去,而这个建筑是由鼎鼎大名但目前却陷入困境的硅谷图象(Silicon Graphics)公司腾出来的。 大卫.奎恩(David Krane)证实了这个消息,并解释说,这样能让公司现有的800多员工更好的分工合作和管理。 2003年7月13日,网络推出图象搜索,新闻搜索两大搜索功能,以此来带动搜索流量。 同时,辅以网络的搜索风云榜,使得网络的信息搜索及信息评估的作用更加突出2003年7月15日,全球最大的互联网公司雅虎宣布,以16.3亿美元收购在网络搜索服务上的竞争对手—Overture公司,以期在同Google的竞争中取得优势。 [编辑]各大搜索引擎[google: ][iAsk: ]yahoo: : [醒火: ]*成人论坛取自页面分类: 搜索 | 技术Views条目讨论编辑历史 用户用户登录 导航首页社区动态新闻聚合最近更改随机页面入门教程IT书签搜索工具链入页面链出更改上载文件特殊页面可打印版连接lián jiē①(事物)互相衔接:山岭~。 ②使连接:~线路。 ‖也作联接。 网络连接有很多不同类型、不同层次的对Internet的连接,有通过串行线Internet协议(SLIP)或点到点(PPP)拨号方式的直接网路连接,有基于字符的外壳帐号(shell-account)拨号方式连接,还有通过简单电子邮件网关到Internet网上的连接。
Copyright @ 2024 啦啦收录网 此内容系本站根据来路自动抓取的结果,不代表本站赞成被显示网站的内容或立场。
你是本站第位访客 | 网站地图 | 粤ICP备2022150304号