企业视频在未来几年将走向何方

想象一下，你正在为即将到来的财政年度做计划, 突然记起一个影响你部门的关键预算因素在大约一周前的全体会议上被提及.

你搜索议程文件, 但不要看到任何符合你记忆的东西, 高管们还没有公布下一季度的完整预算数据, 所以没有办法找到那个细节.

一种选择是给主计长办公室发电子邮件，要求团队给你预算信息, 但是你对演讲者或演讲者在全体会议上提出的特定观点的细节记得不够. 该怎么做?

几年前，在几个小时的全体会议视频中搜索是你唯一的选择. 但是多亏了计算机视觉, 机器学习, 以及健壮的元数据提取, 今天的企业视频平台（evp）能够帮助您找到您需要知道的内容，以便在您询问其他详细信息时显得知识渊博.

事实上，面部识别和语音到文本的索引技术已经存在了至少20年, 2004年左右，我在欧洲参与的一个研究项目假设了上述场景，但这些工具很复杂，不容易与EVP解决方案相结合. 尽管如此，即使是这些工具，每帧也能处理多达32,000条元数据.

今天的解决方案提供了更准确的面部识别和稍微更好的语音到文本转录, 后者部分源自于我们的研究项目和其他专注于在公司环境中使用的虚拟波束形成麦克风的项目. 然而，这些解决方案的真正力量并不在于离散的工具，而在于搜索索引内容的整体方法.

回到我们的场景，让我们考虑处理这个问题的方法.

第一个, 如果演示者被正确地记录下来——意思是录音使用了一个很好的lavaliere麦克风，并且在最后的录音中没有将麦克风与观众的麦克风结合起来——那么最近的语音到文本处理技术的进步应该会产生足够的结果来找到你想要的关键字.

同样的情况也可能发生在几个演讲人身上，前提是他们不互相交谈. 一些解决方案甚至提供了一种区分说话者的方法. 虽然这通常是一个相当基本的区别(例如.g., 演讲者1, 发言人2), 它仍然可以让搜索者过滤特定说话者的搜索.

如果你不记得演讲者是谁怎么办, 或者音频难以辨认以至于无法使用语音转文本转录引擎? 有几种解决方案提供了根据说话者的图像查找视频的功能.

我们都熟悉面部识别, 由于Facebook和集成的面部匹配技术（比如苹果iOS产品上的照片应用程序），这种技术变得更加普遍.

不过，视频面部识别更像是一种黑色艺术. 毕竟，视频每秒至少有24张静止图像，有时甚至高达每秒60张. 一张静止图像中所蕴含的信息量之大, 或框架, 是惊人的, 这就是为什么大多数面部识别系统处理单张静止图像的每一帧都需要几秒钟的时间.

再加上帧内压缩工作方式的复杂性——像H.264使用全帧, 或I-frames, 再加上不存储整个图像的P帧或b帧等差分帧，解码和索引每个单独帧的复杂性大大增加.

除了, 无论是静止图像还是单帧视频, 如果镜头中有几个人，复杂性也会增加. 总之, 处理面部识别所需的处理仅仅是几秒钟的视频是惊人的.

最重要的是, 专业编辑的视频通常会在几个演示者之间来回切换, 观众, 图形(e).g.、网站或PowerPoint幻灯片).

因此，EVP解决方案的面部识别部分不仅需要识别演示者何时出现在屏幕上, 而且当那个人消失然后在给定的时间阈值内再次出现.

换句话说, 人脸识别既要有容差阈值，又要有聚合功能, 因此，用户可以搜索一个人，并获得视频中出现特定主持人的部分的概括结果.

基于以上, 好消息是，这种多面手, 多帧面部识别实际上可能有助于解决找到合适的视频片段的问题，从而帮助解决我们的预算问题. 如果你突然想起是两位共同主持人在讨论新的预算以及它如何影响你的部门, EVP是否有可能同时搜索不止一个人?

答案是肯定的，尽管很少有解决方案提供这个选项.

其中一种确实以一种基本的形式提供了这种功能，那就是new 微软流服务. 旨在取代传统的Office365视频服务, 流使得可以选择不止一个人来搜索, 至少对于点播内容来说是这样.

这样做, 流媒体提供了音频转录和面部检测等功能，可以找到相关内容.

除此之外, Stream还提供搜索视频中出现的文本的功能, ，即使是屏幕上出现的特定单词或人物, 无论是在一个视频或在您的公司的所有视频.”

根据Stream网站, 内置的机器学习智能也推动了可访问性功能, 所以每个人都可以根据自己的需要参与进来.”

微软流提供音频转录和面部检测，作为查找相关内容的方式，每月额外支付2美元，而不是每月3美元, 每用户基础费.

订阅了Office365的用户可以使用Stream, 但它并不局限于订阅者. 对于那些没有Office365的用户，定价是按每个用户、每月计算的. 基本服务，每位用户每月3美元，提供聚合、组织和搜索视频的方式. 每个用户每月额外支付2美元, 流媒体为我们的场景提供了两个关键功能：搜索，使用基于内容内信号（如语音到文本）的深度搜索,并使用面部检测和音频记录进行搜索.”