注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

青梅的博客

 
 
 

日志

 
 

闪卡门暴露图片搜索缺位  

2008-03-06 20:47:38|  分类: IT |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

此次闪卡门事件,人肉搜索引擎展现了强大的能量,而图片搜索,依然只能基于网页文字,而不能基于图象,基于图象的图片搜索在实验室里研究多少年了?这么难产?


以前在某网站工作时,产品经理曾经提过一个建议,建议在某个功能页上进行用户行为特征的统计归纳,以做分析,我问:到达这个页面的用户有多少?每步有十几项选择吧?三、五步之后,每个分支用户是多少?这样的数量级,对用户行为特征的归纳,有意义吗?


基于图象的图片搜索之所以难产,一样存在这样的问题,样本库的建立,需要大量的资金,没有足够的商业应用无法促成科研和商业的良性循环。


图象搜索,比较成熟的有特定物体识别(主要防盗报警器使用)、字符识别(车牌识别、文字扫描识别、手写输入)、指纹识别及其他一些生物特征(表现为图象的,比如人脸)识别。因为这些,都是科研和商业能比较好挂钩的,所以相互促进,得以较快发展成熟。而更广范围的图象搜索,则在没找到收入转化模式之前,很难走出实验室的。


图象搜索,要对比两方面,一个是轮廓,一个是材质,而在目前的图片精度下,材质对比显然还不现实,轮廓对比,是将搜集到的图象按色阶勾画出图象轮廓、保存轮廓数据,并人工建立很大的样本对比库,按样本对比库对保存的图象进行分类索引。这样,用户在输入文字或提交图片进行搜索时,可以找到目标图片。

其中在建立样本对比库时,要建模,考虑不同对象变形(比如改变角度,局部被遮盖)的处理,这样在对图片比对时才能找出相同人、物。

图象轮廓数据,相对原来的文本数据量来说,大了很多,比对计算的复杂程度更是高了岂止一个数量级?google图片搜索按alexa数据目前已经占了10%的访问量,那么索引量有多大?如果对这些数据全部生成轮廓数据,并根据文本进行匹配的索引(按文本投票确定图象属性,比如出现该人像的十个网页上,有九个出现同一人名,那么给该图象标上的属性就是那个人名)是一个怎样的工作量?前期引擎(按大类区分对象)的建立,又是一个怎样的工作量?需要怎样的资金规模来做?


所以很多时候,实验室的原型看上去很美好,可以搜很小规模的图片库里的图片,甚至可以搜视频里的对象,但是,经不起投资人的询问,赢利之路太遥远,只能继续难产下去了。

有人会问,为什么大公司不做?网络上革命性的创新,有哪样是大公司做出来的?当一个公司成为“大公司”的时候,就说明她已经实现规模赢利,而且很有可能已经上市,要面临各方的压力,创新投入大的东西,就只能去收购(收购时花出去的钱是投资而不直接计为费用,可以很长时间摊销,报表上更好看),而不能自己做。

  评论这张
 
阅读(4669)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017