各位来宾大家下午好,刚才叶老师讲得特别正确,今天的会议主题讲到的就是网络媒体的创新,关键点是创新,技术创新这一块也是为刚才前面两个论坛,一个是经营论坛,一个是内容创新的论坛,提供技术支撑和保障的,无论是内容还是经营,实际上最后都会通过技术手段和经营模式来提供不同的数据支撑。今天我要讲的主题是在大数据时代下互联网运行监测。
首先大数据时代已经到了我们的身边,我套用一个在1993年纽约杂志上发表的文章,在互联网上没有人知道你是一只狗,是举个很简单的例子,我们在网络上不知道对方的网友是什么样的角色,在现实生活当中他是什么身份,有什么喜好,我们都是不知道的。尤其是到今天随着云技术的发展,云技术运用,我们可以大数据的挖掘,包括知识的关联,可以发现我们对面的网友他到底是男是女,他有什么喜好,他的行为轨迹是什么样,他的用户行为是什么,可以通过数字化来记录他的相关信息,所以在21世纪大数据被誉为21世纪的石油和近况。实际上在互联网大数据时代,它下来的创新,我简单总结起来分为四个方面:
第一是多种的数据类型,多种的数据类型实际上说的就是数据类型的复杂性和多样性,包括传统的网络媒体、新媒体、自媒体等等这些,再一个是在大数据时代,很多业务的分析,实际上是跟业务知识库相关联的。我们不仅要分析我们通用的一些的数据,还要结合自身的业务行业,包括地域特色这些相关的属性来进行相关的分析。再一个是我们对数据进行分析的时候,实际上要分析它在不同新闻报道内容是什么,传播轨迹都是什么样的。最后大数据带来的技术创新针对海量数据的检索和存储,简单总结就是大数据不是简单的、大量的数据。
在大数据时代,我们如何做好舆情监测呢?首先在尼尔森在线研究室今日发布了中国社会化媒体全景图,统计了一百余家国内社会化媒体网站,并细分了20大社交媒类型,实际上社交媒类型已经不是传统意义上的媒体,它是包括以微博为代表的微博类的网站,包括微信、微米、来往等交互平台,包括娱乐新闻客户端的这种自媒体,另外包括一些问答网站,这些统称为社会化媒体。当我们要对一个事件进行相关的新闻线索的分析和舆情实践分析的时候,可能要对这一个事件在所有媒体当中发生的内容和媒体分析。
在大数据时代下如何做好舆情监测,主要面临五大方面的挑战,第一个是如何全面收集网络舆情信息。第二是如何快速预警舆情信息,第三是如何准确掌握热点事件的网络舆论。第四是如何对海量信息内容进行深入挖掘分析。第五是如何有效应对突如其来的负面言论,这是我们舆情工作者,包括我们的新闻工作者在收集一个新闻线索或一个热点事件的时候所面临的五大挑战。
大数据时代下,简单总结就是大数据时代下的舆情监测与管理的第一要务,就是做好发现和预警两个工作。
我们这边方正简单总结,就是说从看数据到用数据,首先解决三个方面的问题,第一个是更全面,第二个是更准确,第三个是更实用,更全面就是我们要对全部的社会化媒体进行有效的监测和收集,建立起舆情大的数据中心。更准确是通过文本挖掘语义分析技术,舆情分析模型研究,热点舆情预警模型等模型,和实现信息挖掘等,包括建立起业务的知识库,面对业务的对象进行行业的细分,这样可以保证分析的准确性和实用性。我们的建设的平台是向着大而全的方向发展,但是里面的各个模块是向着小而专的方向发展。
方正在大数据时代下提出的舆情整体的监测解决方案,包括以下几个方面。主要解决的问题也是舆情监测的五大难点,第一是全面性,如何保障舆情监测的全面性。第二是快速,怎么样快速的监测舆情信息。第三就是准,及时有效地准确的发布信息。第四是怎么做到快速的预警舆情信息。第五是如何舆情事件的有效应对,这是我们政府工作者所要面临的五大难点,实际上对我们的新闻网站,要做一些舆情热点的研判、热点新闻线索深入追踪,可能前四点是我们主要关注的。
在信息获取的全面性,方正已经建立起了大的舆情大数据中心,我们通过不同的技术手段可以覆盖全部的网络媒体,首先针对新闻、论坛、贴吧这类的传统网络媒体,我们采用的是精准采集,指令网站精准化采集,另外可以通过百度、谷歌这些搜索引擎,把它的数据反馈回来获取搜索引擎的数据,这是我们的语言搜索采集技术。针对微博和博客,我们采用定向采集技术。另外结合后来开放的API的接口获取相关的技术,根据微信、移动新闻客户端,我们采用数据流分析技术获取微信和新闻客户端和发布新闻的相关信息。另外还提供了数据整合,其实一个大的数据中心不仅仅包括网络媒体的数据,还包括我们行业内的一些知识库、分类库和第三方的数据库,我们可以通过数据接口的方式把第三方的数据平台整合进来。最后一个是针对电子报、手机报,PCD等网络媒体,我们采用的是网络慢爬技术,来获取一个社交媒体的全部信息,我们通过这几种技术手段,满足全面采集舆情的全面性,可以覆盖全部的媒体,结合页网进行全面监测,目前已经覆盖六大微博,一百万家网站,2万个微信公众帐号,包括20个新闻客户端,还包括境外800个站点,每天采集数据量可以达到1亿条的规模,这样可以解决信息监测的全面性。
第二是怎么分析的准确性,这里面我简单举了一个例子,这也是昨天在网络当中发现的一个针对外国人的中文十级考试题目,举个例子,一个是冬天能穿多少穿多少,夏天是能穿多少穿多少,单身人的来由,原来是喜欢一个人,现在是喜欢一个人,通过这两个大家可以发现,一个语气的变化,一个字转变了,语意就发生很大的变化,语境也就发生了很大的变化,这个通过系统的技术手段,很难全面有效的分析出来和发现出来,这时候我们通过以下几个技术手段可以更好的把这些知识和内容抽取出来,多文档的摘要,包括自动分类、文档消除等等的语义消除的技术,可以把我们发现的内容更准确。
针对数据不同维度的分析,我们提供了四种分析的方向。第一是客于内容的分析,可以基于关键词的分析基于事件的发现,事件的关联分析,多语言内容的分析。对于一个话题,它中间的几个子话题的变化趋势和子话题所代表的综合性的代表意见,基于用户行为分析,可以分析用户的ID行为人物关系关联分析,活动轨迹。
第三个是基于传播关系的综合分析,可以判断出一个新闻事件的传播影响力、跨媒体的传播范围,一个新闻事件的热点生命周期和所发布的态势。
最后一个就是关注度的综合分析,按照我们工作者关注的法相来判断出我所发现的内容涉及到哪一个方面的内容更多一些,通过这一个雷达图谱,来发现出最近网络热点事件偏向于哪个方向,可以体现出关注度的评估、集中度的评估。可以形成相关的统一图表,这些图表便于我们对一个舆情的宏观走势做一个科学的研判。
第四个说的是实现多级预警机制,多级预警我们采用的是三级预警模型,可以通过后台相关的算法实现对相关词的预警,网站的预警、ID预警,相关文章数量预警,回复数量预警,案例库对比预警,简单总结起来有六大参数,第一就是时间维度,第二是评论数量,点击数量,相关文章数量和网站维度,通过这个雷达出口来发现出只要符合在这个雷达图谱当中的任何一个事件都可以快速预警出来,提示我们工作人员。下面是针对不同预警方向的数值。另外工作人员比如说我们在开会、出差过程当中,我们不可能实时登陆PC去把握我们的后台系统,可以通过手机客户端的形式来接触,跟我们的后台进行有效对接,来接收相关的信息,可以通过后台订阅的方式实时接收我们后台推出的相关数据。
最后一个提到高效的应对机制,高效的应对机制主要针对的是我们的政府工作者,像各地的宣传部、网信办,主要实现的是对信息的监测和预警。第二个是实现对新闻事件、网民、舆论趋势的热点分析,最后一个是提出相关的应对建议通过全流程的解决方案,实现对舆情的有效管理,首先一个热点事件来了以后,我们通过技术手段对舆情按的发现和预警,发现预警之后我们可以通过社会的举报平台,然后上下移动互连互动的平台,来相关的建立起综合的分析,包括对网民的类型、类别进行分析对舆情发展的相关态势进行分析,对舆情发展的宏观态势进行有效的分析。最终提出我的应对建议,应对建议发布出来之后,系统还会通过技术手段监测向我们的应对建议到底有没有达到效果,实现有效的追踪和分析。
给各位来宾简单的总结一下,我们的舆情监测平台从2006年发展到现在,目前已积累出上百个客户的案例,集中的都是在新闻、外宣、政府部委、政法行业、新闻、企业、教育、媒体、公检法等等,目前已经覆盖了近两百多个客户案例,主要包括各级的宣传部、政府机关,媒体,教育、企业等等,这些部门都是我们的舆情监测系统和技术产品的忠实客户。方正主要做技术的厂商,可以通过我们的技术平台帮助各位实现对内容的有效管理。
最后,给各位领导简单讲一下我们的数据服务平台。数据服务平台可以按照我们的监控的类别,监控的方向设定好不同的关键词,可以发现今日的不同热点新闻,不同网络媒体报道的热点事件,然后对这些事件进行相关的分析搜索,最终形成我们的舆情工作报告。感谢各位领导的聆听,谢谢大家! |