百度搜索:从文本检索到人工智能

现在,在使用搜索引擎时,你可能不只会用几个关键词,还会直接输入你想问的问题。但其实早期的搜索引擎采用的是文本检索的方式,只能做到用户查询关键词和网页文本内容的匹配。

可想而知,虽然这样的方式也能把不同网页的关联度进行排序,但总体的搜索质量是比较差的。

而实际上,网页之间有着丰富的链接关系,就像高引论文往往本身质量更高,高质量的网页通常也会被更多的网页链接。

为了进一步挖掘和利用这种链接信息,1996年,李彦宏开发了Rankdex,即超链分析算法。这是世界上首个使用超链接来衡量网站质量的搜索引擎。

也就是说,搜索引擎在收到一个用户查询之后,不仅仅会去匹配网页的内容,还会看看其他网页对这个页面的“评价”。

在此之后,谷歌也提出并使用了类似的PageRank技术,并大获成功。

超链分析算法,可以说是当今每个主要搜索引擎排名算法的基础。值得一提的是,在谷歌创始人拉里·佩奇的第一项网页排名专利申请中,也引用了Rankdex。

如果说早期的搜索技术门槛不算高,从超链分析这个阶段开始,一些今天大家伙普遍依赖的搜索引擎,就开始一骑绝尘,拉开差距了,比如谷歌,比如百度。

并且这些做搜索引擎起家的公司,如今也都成为了人工智能领域的先行者。

而事实上,甚至在人工智能未成显学之时,为了让搜索结果更快、更精准、更个性化,搜索领域的巨头们就已经着手将机器学习的方法引入到搜索引擎中。

谷歌就在2016年上线了基于反向传播技术的RankBrain算法。该算法可以基于语义分析和词库联想,帮助用户更快地搜索冷门的搜索结果。

而如今在NLP领域大火的BERT,也已被部署到谷歌搜索当中。有了预训练语言模型的加持,即使你输入的是一大段文字,搜索引擎也能够get到你想查什么。

根据谷歌的数据,BERT的引入为至少10%的搜索结果带来了改善。

国内,百度同样是最早投入人工智能技术研发的科技公司,在2010年就成立了单独的NLP部门。

以搜索引擎技术为核心,在过去十余年中,百度演化出了语音、图像、知识图谱、自然语言处理等人工智能技术。这些长期的技术积累,甚至在今天进一步拓展到了自动驾驶、AI芯片等领域。

这也是为什么,在今天,搜索引擎不仅仅能按照你输入的文字进行搜索,甚至直接给一张图、一段音乐,AI也能理解你想要获取怎样的信息。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender