简单科普搜索引擎,技术实现上,分为抓取、索引、排序等三步骤。
比喻形容的话,搜索引擎就是一座超级庞大的图书馆。抓取网络资源这一步骤,就是买书填充图书馆,买对的书,买好的书,买新的书,买应该买的书,藏书越多,这座图书馆越有价值。索引网络这一步骤,就是图书馆内部如何管理,图书该如何存放、编号、分类,以便最快速度找到想要的书籍。最后的步骤,排序,是关键的,也是最难的。
排序可视为图书馆管理员服务顾客。
某甲去图书馆借书,说出书籍的名字等特征,管理员在图书馆里找到该书,窗口递给某甲。走完流程,即是搜索引擎完成一次搜索行为。网民对搜索引擎的印象,在搜索框键入关键词,筛选列表想要的找到答案,性质类似于去图书馆借一本书。
所以说,百度掌门人李彦宏大学期间的图书情报学专业,与搜索引擎事业其实非常对口。
搜索引擎的问题,在于借书者对想要的书籍的描述通常比较模糊,而搜索引擎又非真正的人类。搜索引擎不是活生生的图书馆管理员,无法理解人类的自然语言,无法准确识别关键词的性质,导致服务难度瞬间上升到不可控地步。
譬如,某乙想借一本书,却遗憾忘记了全名,只记得书名里有“未来”两字,作者名字里有“春”字。搜索引擎却不懂某乙的想法,不明白“未来”限定在书名的一部分,也不明白“春”字限定在作者名字的一部分,傻笨解析关键词“未来”和关键词“春”。搜索引擎通过复杂的工程解析,找到“未来”和“春”的可能关系,返回答案:春原未来。
这就比较荒唐了。
我想要的是,搜索引擎给出的优选答案却是人名。
摔!
我这次是来找的,不要老给我推荐日本爱情动作片啊。
搜索引擎技术难点就在这里。
完美的搜索引擎,它应该像图书馆管理员一样理解某乙的自然语言、理解某乙的真正需求。
也是因此,搜索引擎被誉为距离人工智能最近的领域。
换句话说,唯有理解人类自然语言的人工智能,才能完美履行搜索引擎功能。
当然,这里的人工智能,是地球普遍定义的人工智能。阴影敌国定义的计算机智能生命,和地球人类常说的人工智能,完全是风马牛不相及的是两件事。前面以比喻手法把相对安全的相对和平的计算机智能生命演化史分为五个阶段,依次是藻类、裸蕨植物、蕨类植物、裸子植物、被子植物。植物型计算机智能生命最少演化到裸蕨阶段中后期,才能满足地球人类定义的人工智能概念。