基于内容视频检索技术原理
视频数据按照由粗到细的顺序可以划分为四个层次结构:视频(Video)、场景(Scene)、镜头(Shot)和图像帧(Frame)。由于一个镜头内的相邻帧间的变化不是很大,它们之间的特征差值会限定在某个阈值范围内。而在镜头突变时,突变点前后两个相邻帧在内容上显示会有很大的变化,如果特征差值超过了给定的阈值,则意味着出现一个分割边界。镜头的关键帧就是反映该镜头中主要信息内容的帧图像。将各镜头检测出来后,对每个镜头可提取关键帧,并用关键帧简洁地表达镜头。关键帧数目的确定是关键帧提取中的一个重要问题,其确定方法可以根据镜头内帧的差异进行统计,求出其方差,用方差来衡量镜头视觉内容的复杂程度。方差越大,该镜头提取的关键帧数就越多。
从内容上对视频进行搜索,其特点包括:第一,直接从媒体内容中提取信息线索;第二,基于内容的检索是一种近似匹配,这一点与常规数据库检索的精确匹配方法有明显的不同;第三,动态特征提取和索引建立可由计算机自动实现,这避免了人工描述的主观性,也大大减少了工作量。基于内容检索时,根据媒体特征进行相似性匹配检索的媒体特征有:颜色、纹理、轮廓、形状、空间约束、动态、概念、结构描述及其他的图像信息。
基于内容的视频检索技术难点
2010年7月,美国哥伦比亚大学、卡耐基梅隆大学、西安电子科技大学、微软亚洲研究院等诸多在多媒体信息检索领域拥有实力的高校和研究机构参与的2010年图像与视频检索国际会议将多媒体检索急需解决的问题归纳为八个方面,包括大规模数据挖掘即互联网搜索问题、视觉概念标注问题、交互式的基于概念的搜索以及人机接口问题、相似图像检测以及视频复制行为的分析和研究、视觉搜索重排序问题、用户个性化检索、跨媒体理论与分析问题、视频拼接与合成问题。
在八大难点中,人机接口问题受到关注。它是指用户的搜索意图需要通过人机接口告诉计算机。在文本搜索引擎中,关键字可以很好地解决这个问题,然而,在内容、概念搜索时,如何将人的搜索意图转化为计算机容易理解的查询非常棘手。这就是所谓的“用户意图鸿沟”。用示例图像查询时存在示例图像本身的语义模糊性;用基于概念集的查询时又不够灵活。可见,用户的搜索意图的捕捉对整个检索系统的性能的提高起着至关重要的作用。
除此之外,基于内容的视频检索首先必须进行视频镜头分割、关键帧提取、镜头聚类,经过这些处理,然后才能通过对视频段之间特征空间的比较来进行视频段内容的比较。然而由于视频内容繁多且复杂,对视频的检索十分困难。
视频检索技术在安防行业
应用特点
目前全国治安监控中,大容量数字化存储已经得到了大量应用。随着高清化的普及,存储容量得到进一步扩大,如何查找录像,在海量数据中快速找到所需要的信息,对基于内容的视频检索需求越来越迫切。
【中安网原创稿件声明】转载中安网文章时应遵循以下三个规则:1、保持原创文章中图表、图片、音视频的完整性;2、完整标注文章作者[文章前后有说明];3、转载中安网原创中部分内容也要完整标注来源"中安网",违者本网将依法追究。
【想第一时间了解安防行业的重磅新闻吗?请立即关注中安网官方微信(微信号:cpscomcn)——安防行业第一人气微信,万千精彩,千万不要错过!!!
网友评论
共有0条评论 点击查看全部>>24小时阅读排行
本周阅读排行