搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。
美国华盛顿大学科学家正在研究一种新型搜索引擎——一搜得(Know It All),它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理。目前的搜索引擎使用起来其实并不“方便”。如果上网用搜索引擎查找和搜集想要的内容,将是一件十分单调乏味的工作,因为你必须访问大量网页,检索大量资料数据。但新一代搜索引擎技术将有可能仅“按一次”鼠标,就能找出你想查找的内容。它的研发者埃齐奥尼说:“这种方法很奇特,它可将一大堆网页中的有关信息以目录表格的形式放在一个单一网页上。”他们的最终目标是让“Know It All”能回答诸如“列表指出1900年以前出生的全英科学家”这样的问题。