社交挖掘:谁是下一个Google

来源 :创业家 | 被引量 : 0次 | 上传用户:q412202242
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Pagerank是Google排名运算法则(排名公式)的一部分,是Google用来标识网页的等级/重要性的一种方法,也是Google衡量一个网站好坏的唯一标准。在糅合了诸如Title标识和Keywords标识等所有其他因素之后,Google通过pagerank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中的排名获得提升,从而提高搜索结果的相关性和质量。
  见到袁雨来的时候,他正在和团队完善产品。他们总共十几个人,在中关村租了一套Loft结构的公寓,专心开发基于社交网络的应用。
  从表面看,他们和其他互联网团队无异,但在袁雨来眼里,他们做的事情门槛很高:通过社交网络,利用高效的算法获知用户的喜好,从而为其荐歌。形象地说,他们知道你喜欢听什么样的歌曲,也知道你喜欢的歌曲在哪里,然后基于社交关系把音乐推荐给你。
  走出象牙塔
  袁雨来的产品叫音贝网,新版在8月24日上线后已经有了20万用户。音贝不判断歌曲的舒缓、摇滚等属性,而是根据一些原则为歌曲编织一个网络——在用户关系网和歌曲组织网之间相互映射,最终圈定用户喜欢的歌曲。
  要实现这个目的,就需要过硬的算法。在这方面,音贝具有自己的优势,袁雨来两年前毕业于清华大学,获有高性能计算博士学位。他的团队中有4个人研究算法,其中包括一个他在清华的同学。
  面对《创业家》,袁雨来更愿意用“社交数据挖掘”来形容自己的项目,这是一个专业性极强的工作。国内一些高校在对此进行研究,因此很多团队都和他们的母校有着天然的联系。
  以清华大学为例,计算机科学与技术系的唐杰和陈文光教授都是社交网络的研究者,袁雨来正是毕业于这个系。此外,在电子科技大学计算机学院,29岁的博导周涛也是这方面的专家,这位本科就开始“带”博士生的牛人精于数据算法,同时也是电商营销公司百分点的首席科学家。周涛的学生黄宇于去年创办了“唯朋友”,这是一个基于微博,促进你和好友之间的互动,以加深社交关系的数据挖掘项目。
  此外,北大、北航、上海交大、哈工大都有师生研究社交网络,他们为国内的社交数据挖掘提供了学术支持和项目储备。但另一方面,这也促成了这个群体的小众特征,毕竟一个复杂的算法不是随便哪个人都能做的。
  某种程度上,这些项目还带有实验性质。比如哈工大博士于霄創办的知微,就脱胎于哈工大的社会网络与数据挖掘联合实验室。清华大学计算机副主任陈文光教授带了一个项目,叫社会化网络分析平台,他们和海银资本共同搭建了一个数据池,陈教授的研究成果可以直接为海银资本孵化的项目调用。
  “社交网络在全世界都是个新兴科学,社交网络这个词都没几年的历史”,海银资本创始合伙人王煜全近几年一直在研究社交网络,坚信这是互联网的发展趋势。他认为,互联网自诞生那天起就是一个社交网络,只不过是基于物理性质的连接,Google的pagerank本质上就是个社会化算法,只不过是用这个社会化算法处理文本和网页,用社会化算法去处理人和人背后的信息,原理其实都是一样的。
  乐荐网络创始人戴虎宁建了一个专门讨论社交数据挖掘的QQ群,里面大约有300人,基本囊括了中国研究社交数据的高手,里面好多人没有创业,好多还是学生。“出来创业的估计30支团队到头儿了”,王煜全说,“我觉得他们是未来的比尔.盖茨,具体是谁我不知道,但一定在这堆人里。”
  新的颠覆者?
  Twitter、Facebook、Foursquare等的出现,真正把人们带入了社交网络时代。“社交网络在科技上有巨大的提升空间,比如对一个人的精确分析,没有社交网络就永远达不到那种精度。”王煜全说这句话的背景是:数据挖掘早已有之,但社交网络的数据挖掘还是个新课题。
  随着用户的疯狂增长,社交网络产生的数据量是惊人的。每过一分钟,Flicker上会有3125张照片上传,Facebook上新发布70万条信息,YouTube上则有200万次点击观赏。图片、声音、文字以及背后的用户习惯和轨迹构成了互联网上的数据资源,社交网络与大数据是天生的亲密伙伴。
  这些数据价值密度不高,要挖掘出有用的那部分是个力气活。以Zynga为例,这是一家寄生在Facebook上的社交游戏公司,它的游戏强调好友之间的合作。为了黏住用户,Zynga每天大约要收集600亿个数据点,包括人们一般玩多久游戏,什么时候玩,喜欢购买什么游戏物品等。从某种意义上说,Zynga可能比你自己还清楚地知道你的潜意识决策。
  在清华大学陈文光教授看来,社交网络是下一代应用层面的互联网。“第一代是雅虎、新闻门户等,第二代是搜索引擎,第三代就是社交网络,它不仅是连接信息,更是连接人,会和社会学、心理学、经济学有很多交互的地方,从研究的角度来讲是非常有意思的事儿。”
  今年上半年,美国曼彻斯特大学的研究团队做了一个实验,他们通过分析Twitter上的数据,提前8天预报了流感的爆发。在一个月内,研究小组收集了440万个Twitter留言的地理定位数据标签,使用一种特殊的算法进行处理(类似语义分析),从而预测不同地区的流感发病率。
  这似乎印证了《爆发》一书作者、全球复杂网络研究权威巴拉巴西教授的观点。他基于社会化大数据基础,认为人类行为有93%是可以预测的。如果确实如此,那么社交网络中无疑蕴藏着巨大的商业价值。
  在 《创业家》采访的团队中,新影数讯(iFilm+)擅长预测。他们通过对微博和过往资料数据的分析来预测电影票房,同时给影片提供营销建议。创始人刘晗透露,其票房预测准确度可达85%。他们的做法是首先确定影响票房的变量,如演员、档期、上映时间、首映地等,一些看似与数字无关的事项都被按规则加以量化;然后,他们从统计年鉴中查到了1990年以来上映的四五百部电影数据,让计算机逆向推导出定量,从而确定公式。预测时把社交网络中反映出的演员热度、电影关注度以及预定的上映时间等变量填入公式,进行测算。
  真实的算法远比上面的描述更复杂。刘晗演示时,笔记本屏幕上密密麻麻布满了数学符号,但电脑要精确计算出人类的行为,仍需继续探索。“预测准确度提升1%,都需要做大量复杂的工作,必须找到并引入新的变量才行。”刘晗说。   刘晗所面临的挑战,是社交数据挖掘者们共同的问题,即便在美国,算法也没有完全突破,这为中国的创业者们提供了机遇。王煜全把中国偏后期的投资比喻为“拼爹”,以前的互联网投资是“拼经验”,前一段流行“拼干爹”,就是大VC靠砸钱来砸市场,到了社交网络时代就要“拼技术”,因为互联网的核心本质就是技术,而有算法支持的社交网络产品是无法抄袭的,即便把国外的算法搬到国内也会水土不服。“在社交网络上,中国不会落后美国太久了,中国肯定会迎头赶上。”
  王煜全认为,未来只有一个叫社交网络的互联网,真正的社交网络,其实就是人际关系网,凡是没叠加社交关系的1.0式的网站,理论上都会被颠覆。他的理由有三点:第一,没有社交关系就没有个性化,就不知道用户行为会怎么变化;第二,传统网站需要内容提供者,而在社交网络的UGC时代,通过互动激发内容,根本不需要有内容提供者;第三,社交是人类最本质的生存需求,社交能力的高低很大程度上决定人成功与否。目前Facebook的平均好友数是130人,未来随着算法的演进,人类的社交能力将出现质的飞跃。
  赌未来
  中国目前最具影响力的社交网络是新浪微博。自2009年上线以来,它已经成为聚拢了3.68亿用户的开放平台。在《创业家》6月推出的《开放平台TOP10》评选中,新浪微博被开发者们评为“最具开放度”的平台。不同层次的API接口可以调用新浪微博的内部数据,为开发应用提供便利。
  《创业家》见到的社交网络应用团队,大多数都接入了新浪微博,但他们仍然抱怨新浪的开放度不够高。黄宇在开发“唯朋友”的过程中,需要大量调用新浪微博的API,但一些重要数据无法访问,比如用户的私信,这显然涉及隐私问题。此外,新浪对一些API的访问频率也做了限制。因此,一些團队也在打算接入腾讯微博,因为腾讯可以把私信都开放。此外,他们也密切关注移动端,一些业务也可以移植到微信上。而无论微博还是微信,都不过是底层的社会平台,他们要在此之上叠加应用,最终超越原先依附的平台。
  但挖掘者们的技术还不足以处理大数据。“好有美食”是一个10月中旬刚上线的APP,基于好友关系来给你推荐餐厅和美食。它目前能抓取新浪微博的原创和转发内容,而没有抓取评论,其中的一个原因就是“数据量太大”。新影数讯的刘晗也强调,他们做的是数据挖掘,而不是大数据处理。“大数据的计算量非常大,一天的数据量就会上T,一般人处理不了,我们要的有价值的数据也就是几十G。”
  陈文光教授估算了新浪微博的数据量级。“不包括图片和评论,大约是在几十T到几百T,如果只拷贝所有的社交关系,那还不到一个T。一台256G内存的机器,就能把一两亿用户的关系数据放在内存里,处理起来就快很多。光分析社交关系的数据,就可以做很多工作了。”
  他还分析了小团队的创业成本。“租一个100M的带宽和IDC机位每年大约要10万块,买一台有4个CPU和256G内存的服务器也要10万块,再加上人力、房租,以及写软件和用虚拟主机、云平台等成本,最少有100万投入才能干这件事。”
  这些团队必须节衣缩食的另一个理由是:社交网络应用仍然没有成熟的商业模式,即便VC对社交网络也没有特别强的信心。知微创始人于霄对《创业家》表示,“2C(针对个人用户)的商业模式需要有相当量的用户留存和频繁的使用,而现有的产品还刚刚面世,想建立起用户黏性、吸引大量的客户还是蛮难的。2B(针对企业用户)的商业模式则更偏向营销,可能只维护十个客户都会做的非常强大,但垂直领域的数据量还没那么多,最早期的时候没有太多素材可用。”
  新影数讯是我们遇到的唯一有收入的团队,但全年营收最多也就两百万元,还没打平。刘晗更看重积累数据,对他来说,数据是比现金更值钱的资产,如果能建立起一个中国最全的电影数据库,赚钱就是水到渠成的事。
  海银资本孵化的社交网络应用团队有16个,到年底估计能达到30个,它们抱团取暖。海银和清华大学合作,后者研究社交网络的数据池可供这些团队使用,大多数固定的社交关系可以直接从中调用。在中关村云计算基地,王煜全的好友田溯宁以低于市价一半的价格提供了600平方米的场地,一些团队不久后就将搬去那里。这些团队彼此之间也有大量的沟通与协作,比如分工调用新浪微博不同的API以提升效率。此外,在营销上这些团队也会彼此借力。
  海银在这些项目上介入很深,王煜全亲自和团队讨论确定产品方向。他告诉这些年轻人,一旦大目标确立,至少要坚持三到五年。他坦承,这些业务五年不见得赚一分钱,但是五年之后也许是个Google。他用苹果公司曾经的广告语来鼓励他们:只有那些疯狂到认为自己可以改变世界的人,才能真正改变世界。
其他文献
一、从中外合资经营企业的性质,看管理的必要性(一)中外合资企业是一种符合世界经济国际化潮流、充分利用国际资源(自然资源、资金、技术、人力及经验的广义资源)的世界经济
56网曾是最早的视频网站之一,却缘于各种因素退出了一线阵营。一直坚守UGC模式的创始人周娟希望公司能成为娱乐社交视频领域的老大今年6月,56网发起成立了视频内容营销联盟,
应用聚合酶链反应(PCR)技术检测43例结核性胸水和21例非结核性胸水,并与涂片镜检和分离培养方法比较。结果,结核性胸水PCR阳性率62.78%,涂片镜检13.95%,培养6.97%;非结核性胸水有1例PCR检测阳性,另两种方法均阴性。表
10月12日晴森林里,有一只大灰狼,它有一棵空心树。空心树里面的是空的,还有一个小门,只要小动物进去,门就会关上,那只被关住的小动物就会成为大灰狼的美餐。动物们都知道这棵
我们于1989年9月~1990年12月以卡介苗素治疗慢性气管、支气管炎(以下统称慢支炎)207例.本文报告3年随访结果,以期对卡介苗素在慢支炎治疗中的作用估价. We treated 207 cases
在对孩子的教育中,我采用了“三自”教育的形式,即学习靠自学,生活靠自理,做人要自觉。学习靠自学。如何培养孩子的自学能力?我的做法是:不陪读。使孩子意识到,学习是你自己
支气管腔内非特异性炎致全肺不张2例浙江省杭州市第一人民医院胸心外科(310006)胡伟恩例1男性,17岁。活动后胸闷、气急1个月,于1993年2月16日入院。半年前曾有发热,剧咳1周的病史。查体:气管偏左,左胸塌
2014年我国发生的重大时事,你关注了吗?2014年1~8月的《小学生导刊》(下旬刊)你收藏了吗?  拿出铅笔,赶快答题吧!(用铅笔将对应的○涂黑。)  把答题卡寄到本刊编辑部,你也许会收到一份精美的礼物。请在信封上标明“知识竞赛”字样。我们将在“小学生导刊·中国童话网”(tonghua.hnjy.com.cn)上公布获奖名单。  编辑部地址:长沙市蔡锷北路485号《小学生导刊》编辑部  邮编:4
我公司从意大利“莫登地”公司进口了两台T4/G32型双向切机,该机为四立柱桥架型。它具有以下特点: 1.自动化程度较高,操作方便。该机设有PLC可编程序控制器,操作人员只需将
南湖小学教学范式实践研究已近三年,我见证了它的整个发展过程。它现在有个升级版的新名称,叫“元·圆课堂”。“元·圆课堂”的核心理念之一,就是寻找教学的元点,立足于教学