企业视频在未来几年将走向何方
想象一下,你正在为即将到来的财政年度做计划, 突然记起一个影响你部门的关键预算因素在大约一周前的全体会议上被提及.
你搜索议程文件, 但不要看到任何符合你记忆的东西, 高管们还没有公布下一季度的完整预算数据, 所以没有办法找到那个细节.
一种选择是给主计长办公室发电子邮件,要求团队给你预算信息, 但是你对演讲者或演讲者在全体会议上提出的特定观点的细节记得不够. 该怎么做?
几年前,在几个小时的全体会议视频中搜索是你唯一的选择. 但是多亏了计算机视觉, 机器学习, 以及健壮的元数据提取, 今天的企业视频平台(evp)能够帮助您找到您需要知道的内容,以便在您询问其他详细信息时显得知识渊博.
事实上,面部识别和语音到文本的索引技术已经存在了至少20年, 2004年左右,我在欧洲参与的一个研究项目假设了上述场景,但这些工具很复杂,不容易与EVP解决方案相结合. 尽管如此,即使是这些工具,每帧也能处理多达32,000条元数据.
今天的解决方案提供了更准确的面部识别和稍微更好的语音到文本转录, 后者部分源自于我们的研究项目和其他专注于在公司环境中使用的虚拟波束形成麦克风的项目. 然而,这些解决方案的真正力量并不在于离散的工具,而在于搜索索引内容的整体方法.
回到我们的场景,让我们考虑处理这个问题的方法.
第一个, 如果演示者被正确地记录下来——意思是录音使用了一个很好的lavaliere麦克风,并且在最后的录音中没有将麦克风与观众的麦克风结合起来——那么最近的语音到文本处理技术的进步应该会产生足够的结果来找到你想要的关键字.
同样的情况也可能发生在几个演讲人身上,前提是他们不互相交谈. 一些解决方案甚至提供了一种区分说话者的方法. 虽然这通常是一个相当基本的区别(例如.g., 演讲者1, 发言人2), 它仍然可以让搜索者过滤特定说话者的搜索.
如果你不记得演讲者是谁怎么办, 或者音频难以辨认以至于无法使用语音转文本转录引擎? 有几种解决方案提供了根据说话者的图像查找视频的功能.
我们都熟悉面部识别, 由于Facebook和集成的面部匹配技术(比如苹果iOS产品上的照片应用程序),这种技术变得更加普遍.
不过,视频面部识别更像是一种黑色艺术. 毕竟,视频每秒至少有24张静止图像,有时甚至高达每秒60张. 一张静止图像中所蕴含的信息量之大, 或框架, 是惊人的, 这就是为什么大多数面部识别系统处理单张静止图像的每一帧都需要几秒钟的时间.
再加上帧内压缩工作方式的复杂性——像H.264使用全帧, 或I-frames, 再加上不存储整个图像的P帧或b帧等差分帧,解码和索引每个单独帧的复杂性大大增加.
除了, 无论是静止图像还是单帧视频, 如果镜头中有几个人,复杂性也会增加. 总之, 处理面部识别所需的处理仅仅是几秒钟的视频是惊人的.
最重要的是, 专业编辑的视频通常会在几个演示者之间来回切换, 观众, 图形(e).g.、网站或PowerPoint幻灯片).
因此,EVP解决方案的面部识别部分不仅需要识别演示者何时出现在屏幕上, 而且当那个人消失然后在给定的时间阈值内再次出现.
换句话说, 人脸识别既要有容差阈值,又要有聚合功能, 因此,用户可以搜索一个人,并获得视频中出现特定主持人的部分的概括结果.
基于以上, 好消息是,这种多面手, 多帧面部识别实际上可能有助于解决找到合适的视频片段的问题,从而帮助解决我们的预算问题. 如果你突然想起是两位共同主持人在讨论新的预算以及它如何影响你的部门, EVP是否有可能同时搜索不止一个人?
答案是肯定的,尽管很少有解决方案提供这个选项.
其中一种确实以一种基本的形式提供了这种功能,那就是new 微软流 服务. 旨在取代传统的Office365视频服务, 流使得可以选择不止一个人来搜索, 至少对于点播内容来说是这样.
这样做, 流媒体提供了音频转录和面部检测等功能,可以找到相关内容.
除此之外, Stream还提供搜索视频中出现的文本的功能, ,即使是屏幕上出现的特定单词或人物, 无论是在一个视频或在您的公司的所有视频.”
根据Stream网站, 内置的机器学习智能也推动了可访问性功能, 所以每个人都可以根据自己的需要参与进来.”
微软流提供音频转录和面部检测,作为查找相关内容的方式,每月额外支付2美元,而不是每月3美元, 每用户基础费.
订阅了Office365的用户可以使用Stream, 但它并不局限于订阅者. 对于那些没有Office365的用户,定价是按每个用户、每月计算的. 基本服务,每位用户每月3美元,提供聚合、组织和搜索视频的方式. 每个用户每月额外支付2美元, 流媒体为我们的场景提供了两个关键功能:搜索,使用基于内容内信号(如语音到文本)的深度搜索,并使用面部检测和音频记录进行搜索.”
企业视频直播怎么样?
在实时视频中实现搜索功能是可能的, 但是上面提到的处理需求使得它在大多数内部部署解决方案中不切实际. 使实时视频可搜索的增长领域最有可能来自基于云的EVP解决方案.
一种可能的方法, 如果您的基于web的统一通信工具提供传统的视频会议功能, 是在调用中添加一个具有这些索引特性的端点. 这允许终端开始录制会议, 以与传统网络数字视频录像机(NDVR)大致相同的方式, 然后开始以接近实时的速度处理和索引视频帧.
实际上, 如今,这需要的时间是视频会议实际时间的两到三倍, 但算法优化和日益强大的处理器可能会在未来两年内使其更接近实时. 我们也希望在短期内看到这类功能被添加到Zoom和Skype for Business等纯网络服务中.
同样,便携式制作和视频捕捉解决方案也越来越受欢迎. Mike Savello,销售副总裁 LiveU他表示,企业视频直播正在成为该公司目标市场中更大的一部分.
“事实上, 我们现在的目标客户是定期举办内部全球活动的财富500强公司,萨维罗说, 注意到这些事件可能从CEO的演讲、季度更新到新产品或服务的发布.
在过去, Savello说, 这些类型的公司活动可能“涉及到公司租用一辆生产卡车和一辆卫星卡车, 哪个会很贵.
虽然通常与“现场”捕获有关,用于体育赛事和新闻, 像LiveU这样的蜂窝连接解决方案正在企业中找到一个家, 尤其是那些定期举办内部全球活动的财富500强公司.
“我们可以提供‘在家’生产,萨维罗说, 通过蜂窝或其他IP连接将每个摄像机回调到中央生产平台. 这意味着您不再需要现场生产卡车或座车.”
企业内容变现?
去年我们听到的一个说法是企业内容可以货币化. 音调通常是相反的, 一些公司指出,常规社交平台不应等同于evp, 有几个原因,包括他们无法将内容货币化.
相关文章
IT部门不像以前那样抵制视频,但仍有阻力. 这里有五种开始谈话的方法.
2018年7月23日
提及的公司及供应商