个性化搜索引擎时代到来
大家多少都用过搜索引擎,google、yahoo、baidu还有很多搜索引擎目前都有个特点,就是你和我使用同一个keyword去搜索,得到的结果将是一样的,但事实上我们两个因为个人性格、爱好、文化背景等不一样,对同样的搜索结果的满意度是不一样的,有没有办法能让搜索引擎自动根据我们两个之间的这种差异,返回给我们最适合各自的结果呢? 答案是肯定的,这就是个性化搜索,根据不同人的不同特点,提供不同的搜索结果。
传统的搜索引擎根据关键词来创建索引并得到搜索结果,同时根据关键词来提供广告服务,这往往是不够准确的,比如同样搜索hotel,不同的人可能希望得到的结果是不一样的,有钱人希望得到的是最好的星级酒店,普通老百姓希望得到的是便宜实惠的结果,同样,广告的展现希望更加准确,比如喜欢自驾游的用户显然应该推荐更多汽车旅馆的广告,而喜欢大海的用户则应该得到更多海边度假酒店的广告。
目前有不少的搜索引擎已经开始意识到个性化搜索的重要性,并且开始进行了积极的尝试,google提供的history和personalize服务,就是类似这样的东西,不过和google提供的这种服务一样,各个搜索引擎目前都面临同样的问题,那就是他们大多基于用户所有的搜索历史来进行个性化分析,这种分析仅仅基于单一的关键词,往往不够准确,理论上应该考虑更多关键词之外的用户特性,比如点击行为,对同样排序结果里面不同位置的满意度、点击率等因素综合计算。同时,通过用户搜索历史记录来提供个性化搜索服务,将面临侵犯隐私的重大法律障碍,这成为目前各大搜索引擎棘手的问题。
我有三个美国的华人朋友,其中一个是麻省理工研修人工智能的博士,7年的博士课程仅3年半就顺利完成,目前已经是美国人工智能领域排名前三位的科学家之一,他和两位两个朋友一起,近几年来基于他在基因DNA搜索领域的研究成果,开发出一套算法,该算法成功的应用到了传统的互联网搜索引擎上,有效的实现了个性化搜索,解决了其他搜索引擎面临的问题。
通过他们的算法,可以实现类似下面的功能:
- 不同的人搜索同样的关键词,可以根据不同人的各种属性(地域、年龄、性别、爱好、职业、历史搜索…等等)分别得到最适合自己的结果。
- 可以根据用户各自的差异和特点,提供最适合该用户的广告投放。
- 可以根据不同的用户特点,划分具有共同爱好、特性的用户群体。
最关键的一点,他们的这套算法没有任何其他搜索引擎面临的侵犯用户隐私的担忧,这套算法基于人工智能和用户模型来实现,每个用户都会有个初始的用户模型,该模型会根据用户的各种属性来不断调整,会随着用户长期的使用搜索引擎,查询不同的关键词,点击和收藏不同的结果等event来调整,最后这个抽象出来的用户模型将非常接近现实中的用户本人,从而达到个性化的目的,而这个过程中,搜索引擎不记录任何用户操作历史。
我和这三位朋友接触较长一段时间,我协助他们用了近三个月的时间开发出了一个demo的prototype系统,该系统基于抓取Google、Yahoo的web search和sponsored links结果进行分析,同时使用了简单的MySQL数据存储、Lucene全文检索等技术对他们的核心算法提供外围技术支持,系统除了web界面采用PHP的Zend Framework外,大部分部件均基于Linux C/C++开发,尤其是和核心算法服务之间的通讯、词表的解析等关键的应用,可以保证系统的性能,目前演示的系统上每一次search请求都会实时从Google、Yahoo上抓取并实时进行分析和排序,实际生产应用中会考虑应用更多的缓存技术来进一步提高效率,甚至和Google等数据提供商紧密的合作。
目前该项目正在美国寻求VC的投资,说实话,经过我的实际使用,我非常看好这个项目,希望真的可以成功。
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

June 27th, 2007 at 10:56 pm Quote
很快google就会开发出相似的产品,或者你的朋友就会进入google了,再不google就会收购这东西了。
June 28th, 2007 at 9:34 pm Quote
看到这篇文章,我想说说个人的看法。只是对搜索引擎发展方向的一种假想:
1.结果集优化
搜索的目的在于获取未知,其实结果集优化的方向不仅仅在于答案上,而在于对问题的了解上。
目前,基本上所有的搜索引擎都属于关键字傻瓜型。既只靠关键字来判断最可能的搜索客户的需求。
这对于热门的搜索是非常有效的,但对于行业性强、冷门及专业深度稍强的搜索基本上是无能为力。
这里的一个关键问题是如何用最简易的方式让搜索用户清晰的表达意图。
另一个则是结果集与意图的匹配问题。
2.字典化
也即实用性,而非仅仅是字典本身而已。
a.石油的最新价格轻而易举能获取到,但是大多数商品的价格却并非如此。
b.比如我是个砖瓦工,我想大概了解下某个地区,某个砖瓦市场的发展前景以便做出更好的职业规划。
3.交互完成
这点有点像百科全书的生成
-----------
回去再补充
June 30th, 2007 at 7:49 pm Quote
大哥,你这有商业机密的成分么,这么早透露出来,呵呵
June 30th, 2007 at 10:19 pm Quote
目前已经在公开寻找VC了,而且demo的原型已经上线对外提供服务了,所以不用有这方面的担心了
July 24th, 2007 at 3:48 pm Quote
hi michael,
Can you show us the demo URL if it’s already online for testing?
Cheers~
July 24th, 2007 at 11:58 pm Quote
web暂时不便于在我这里公开,可以使用邮件或者别的方式和我联系,因为是测试阶段,不开放注册,游客是无法使用的,需要给你测试账户才能使用。
July 25th, 2007 at 1:59 pm Quote
Hi, really thanx for your reply. I currently can’t input the Chinese characters for some reason. My email is lboro_boy@yahoo.co.uk, would you send the private testing account to me if possible? I really appreciate if you could do this.
Cheers~~
August 2nd, 2007 at 4:40 pm Quote
您好,能否给个测试帐号,对你们这个项目挺感兴趣的,谢谢了!!!
linnianda@gmail.com
August 3rd, 2007 at 4:43 am Quote
很不错的文章,我对这个项目也有兴趣,能不能发给我个测试帐号,
sooner_ho@yahoo.com.
thanks,
August 6th, 2007 at 4:29 am Quote
你好Michael ,我找不到你的邮箱,所以在这里留下我的信箱,你能给我发一个测试帐号,并且告诉我测试地址吗?我想尝试下这个新的搜索,谢谢。
我的mail: nilcat@gmail.com
August 6th, 2007 at 9:21 am Quote
我是做搜索优化的(seo),你在开头所说的问题(不同的人搜索相同的关键词给出不同的结果),现在百度和google都已经运用上了,不同的地区给出的结果不相同,但是差距却不是很大。还有一点就是搜索的时间不同,位置也不同。每天都是这样的。
期望你的项目能获得成功,不同的国家风俗习惯不同,对于同一个词语的理解不同,搜索出来的结果就不相同。百度更懂中文的确有它的道理。
August 6th, 2007 at 9:52 am Quote
您好,能否发一个测试帐号试用一下!非常感谢!
我的邮箱:chwshy@gmail.com
August 6th, 2007 at 12:15 pm Quote
邮件已经发送给两位。
August 6th, 2007 at 12:36 pm Quote
您说得很对,不过地域、时间等只是一个用户模型里面诸多attributes之一,还不足以个性化。
当然了,地域文化差异一定是有的,所以目前这个项目会主要针对美国市场。
August 6th, 2007 at 4:41 pm Quote
那我是不是可以认为:不同的一天,相同的时间刻度,相同的地域,比如说今明两天都在14:23:56秒搜索一下“人才”这个词,得出的结果是一样的。因为爬虫有时间间隔,只要不是它收录新的 页面,应该一样?
August 12th, 2007 at 2:12 am Quote
很好的文章,我还在读大学对你们这个项目也很有兴趣,能不能发给我个测试帐号,和地址!
jrckkyy@gmail.com
thanks you!
August 12th, 2007 at 10:25 am Quote
hi~!
我的邮箱:yuehaister@gmail.com
希望可以参与测试。
TKS~!!
August 12th, 2007 at 10:56 am Quote
已经发给了二位。
August 13th, 2007 at 3:11 pm Quote
您好!
可以给一个测试帐号给我么?
我的邮箱:xujianhua815926@163.com
August 22nd, 2007 at 11:03 am Quote
可以发给我一个账号吗?
邮箱:bewisdom@gmail.com
August 22nd, 2007 at 12:10 pm Quote
已经发送,请查收。
August 24th, 2007 at 11:03 am Quote
我想我可以在userbility产品易用性方面做些测试,给些意见。
请给我一个测试帐号,谢谢
–
Juno May
JunoMay#Gmail.com
August 27th, 2007 at 11:54 am Quote
已经发出!
August 31st, 2007 at 3:38 pm Quote
您好!
可以给一个测试帐号给我么?我对你们的项目很好奇也很感兴趣。我的邮箱:yinwei313@gmail.com
August 31st, 2007 at 3:53 pm Quote
因项目调整原因,暂停测试帐号了,抱歉,等能提供的时候我会发给您的。
September 5th, 2007 at 3:08 pm Quote
最关键的一点,他们的这套算法没有任何其他搜索引擎面临的侵犯用户隐私的担忧,这套算法基于人工智能和用户模型来实现,每个用户都会有个初始的用户模型,该模型会根据用户的各种属性来不断调整,会随着用户长期的使用搜索引擎,查询不同的关键词,点击和收藏不同的结果等event来调整,最后这个抽象出来的用户模型将非常接近现实中的用户本人,从而达到个性化的目的,而这个过程中,搜索引擎不记录任何用户操作历史。
~~~~~~~~~~~~~~~~~~~~~~~~~觉得这段话有点矛盾啊,如何个性化而又不记录用户的操作历史呢??当然也许是在你的模型上一次性使用历史记录,得到结果后将老的历史记录可以清除了,新的记录不断计算增加的个人模型中,这样的话还有点可能
否则,以我的观点看个性化和用户的隐私本来就是两个方向的兔子,很难两难全的
顺便再向Michael大哥要一个测试帐号:oldplantegg@163.com
不知道Michael大哥有什么Mysql性能优化的好的Blog推荐吗?呵呵,谢谢了
September 6th, 2007 at 10:50 am Quote
您好,能否发一个测试帐号试用一下!非常感谢!
我的邮箱:bygroups07@gmail.com
September 6th, 2007 at 10:57 am Quote
不记录用户操作历史的解释: 从系统保存的任何数据不可反查到任何操作记录,这和md5不可逆加密有些相似,算法只会根据行为和操作来调整模型,而模型是一个二进制的文件,没有任何东西可以拆出来得到历史详单。
测试帐户现在暂时不继续发放,因为很多人拿到帐户后没有任何反馈,失去测试的价值,请理解。
关于MySQL性能优化的问题,我一向坚持访问MySQL的官方网站来得到权威的文档支持,包括官方网站的论坛等,其他任何地方的文档,一定都是来自官方的演变和翻译。
September 6th, 2007 at 2:18 pm Quote
看来和我估计得差不多,就是将使用记录算一次后丢弃了,只是得到了结果而已,然后新的使用记录不断加入计算不断丢弃就可以了,不过这样的话应该没什么优势啊,Google也完全可以做到这样的
谢谢其他的回复
November 21st, 2007 at 3:41 pm Quote
请问还有测试帐号吗?可以给我发一个吗?
November 24th, 2007 at 3:43 pm Quote
抱歉,暂时关闭测试了,有最新消息我再告知。
April 13th, 2008 at 9:12 am Quote
呵呵 不错
June 13th, 2008 at 1:20 pm Quote
很好阿,VC找到了吗?,最近进展如何啊?
June 13th, 2008 at 5:23 pm Quote
呵呵,这是他们的秘密,我就不多透露了。
June 23rd, 2008 at 9:42 am Quote
m总,下一代不是个性化搜索引擎,是社会化搜索引擎!他应该具有:以人为结构的、开放的、智能的!
June 24th, 2008 at 11:47 am Quote
Michael,你好,来你的BLOG当看客已经有段时间了,个人觉得如果这个搜索引擎的模式的确比当前的模式都要好很多,能否也给我个测试帐号呢?我对此也非常的感兴趣!
June 24th, 2008 at 11:48 am Quote
对了,我没有找到你的邮箱地址,留上的我的邮箱plhwin@hotmail.com
期待收到你的邮件,thanks..
June 25th, 2008 at 12:00 pm Quote
抱歉啊,这个原型系统由于已经逐渐废弃,新的实际生成系统逐渐的要替代掉,所以目前的确无法给你测试帐号了。