检测加密VoIP呼叫中的单词和短语

有趣的:

摘要:尽管IP语音(VoIP)正在迅速被采用,其安全影响尚未得到充分理解。由于VoIP电话可能会穿越不可信的网络,应加密数据包以确保机密性。然而,我们证明有可能识别加密VoIP呼叫中所说的短语当使用可变比特率编解码器对音频进行编码时。要做到这一点,我们只使用单词语音发音的知识来训练隐藏的马尔可夫模型,比如字典里提供的,以及搜索指定短语的实例的包序列。我们的方法不需要说话人的声音,甚至是构成目标短语的单词的示例记录。我们在一个标准的语音识别语料库上评估我们的技术,该语料库包含2000多个语音丰富的短语,这些短语由来自美国大陆的630名不同的演讲者所说。我们的结果表明,我们可以识别加密通话中的短语,平均准确率为50%,某些短语的准确率超过90%。很明显,这种攻击使人们质疑当前VoIP加密标准的有效性。此外,我们研究了底层音频的各种特性对性能的影响,并讨论了降低性能的方法。

编辑后添加(4/13):完整。我写了这在2008年。

发表于3月24日,2011年下午12:46•36条评论

评论

安迪·3月24日,2011年下午1:03

看来数字是这样的攻击的首要目标。看起来你可以很容易地得到一些信用卡号码。

晴岚·3月24日,2011年下午1:04

这是许多密码系统中的一个已知问题,在应用于Tor(torproject.org)时已被广泛讨论。带宽和定时分析可以通过添加填充和在传输前对数据包进行排队(或对数据包定时和大小添加随机抖动)来缓解。然而,以降低带宽或降低性能为代价。

在Tor的例子中,我们认为这不值得(https://svn.torproject.org/svn/projects/design-paper/tor-design.html,等)

晴岚·3月24日,2011年下午1:10

它在数字上不太好用,因为每个数字需要大约相同的带宽来编码。它在揭示短语方面更有用,例如,“我撕掉了床垫上的标签,但他们永远抓不到我。”

另一种类似的分析方法是使用打印的字长来对经过错误编辑的图像中的信息进行反编辑。类似的攻击类型是差分功率分析(DPA)。它利用功耗来推断集成电路运行的数据。就像用屋外的水压来猜测住户是否在做饭,根据已知的特征洗澡或冲厕所。

赫伯特·3月24日,2011年24点

@塞兰:是的,但信用卡号码通常不是4人一组吗?也许可以找到这样的群体,隔离数字,然后将它们传递到另一个进程,该进程将确定实际的数字。

布莱恩Feir·3月24日,2011年下午2:34

所以,换句话说,数据比特率是一个侧通道,它可以携带关于实际内容的大量信息。相当具体的交通分析形式。大约20年前,我们在我的一次课上讨论过这类事情。

显而易见的解决办法是去掉可变比特率的“可变”部分,而不是加密原始数据。

尼克P·3月24日,2011年下午2:56

@布莱恩·费尔

好,有两种方法可以解决这个问题。第一种方法是使用非变速率声码器,其中有不少,在VOIP应用中,如果COMSEC是一个问题。第二种方法是使用诸如ipsec和固定数据包大小的技术在IP层进行保护。许多国防加密系统在固定或狭窄的时间范围内传输固定大小的数据包,以减少流量分析的影响。然而,最简单的方法就是使用非可变vocoders,并且有相当多的VOIP应用程序/技术支持这一点。

无意义的黑客·3月24日,2011年下午3:24

这消息还不错!这意味着国家安全局现在可以开采skype等短语,如“ib'n allah”(应该是阿拉伯语的“让安拉的将被做”),而苏西在与她的医生讨论她的酵母感染时保持隐私。此外,我们可以记住加密仍然匿名身份,就像低收费电话匿名发送人的账单信息一样。

·3月24日,2011年21点

我还没有读这篇文章,但我想知道假阳性的数量是多少。

如果你已经知道要找的词组,这可能是一个优势,但是如果很多其他短语映射到相同的压缩,它真的不起作用。不同的说法是,如果我说x,50%的情况下它会说我说X,如果我说,B和C,它说我说(或者可能说)X,它没那么有用。

克莱夫·罗宾逊·3月24日,2011年43点就

@

“但我想知道假阳性的数量是多少”

它们可能并不重要。

如果您假定已知呼叫路由信息,那么对其进行分析将使可能的/可疑的组或集群能够驻留在上。

因此,您将不会看到单个调用或短语,而是使用多个短语的多个调用,统计分析应该排除误报。

尼克P·3月24日,2011年7:33 PM

@ DG

“对于我们这些没有ACM的人”

我建议任何能负担得起访问ACM的人,IEEE和SpringerLink(可选)。我接触他们已经有一年了。有了这些资源,我在一年内学到的关于高保证系统工程的知识比没有这些资源的三四年多。有很多具有里程碑意义的论文,新技术,以及最能通过ACM和IEEE找到的有用协议。

例如,这就是我对秘密渠道分析的了解,Silentknock可否认的港口敲击,以及若干框架,通过设计来防止第7层网络攻击。在这些出版物中有这么多东西,有机会接触到它们是值得的。我得查出这个名字但是一个学生的论文是对安全系统概念和设计的一个很好的总结,它可以取代或取代橙色的书!

理查德·史蒂文黑客·3月24日,2011年35点

“谁想猜猜联邦调查局是否已经联系了这些人,以获得未来的窃听机会?”

谁能猜到美国国家安全局十年前是否独立发明了这种技术,却没有告诉任何人?

一个观察:事实上,一个人可以检测短语取决于你正在寻找的短语。如果你找不到合适的短语,这没用。

据报道,梯队系统已经扫描了某些关键字(以及可能的短语)。如果你使用加密的VoIP,大概梯队无法察觉。如果为这种技术编写了梯形计算机程序,它可能会增加Echelon从扫描加密VOiP的点击率。

但既然梯队已经是反情报领域的一个已知因素,任何军队,值得警惕的恐怖分子或犯罪集团(可能并不多)应该已经避免在任何电子通信媒介中使用可能被扫描的单词和短语。

很有可能使用的代码字会完全破坏这种类型的分析(除非你从其他来源知道代码字是什么——这可能意味着你有其他来源可以排除这种分析)。

简而言之,似乎这种形式的分析可以被古老的使用代码的电子通信原理所击败。

和大多数技术分析一样,这种技术可能只对那些没有真正隐藏电子通信内容的跛子有用,但依靠技术来保护自己。当然,幸运的是,Le和反间谍组织,那可能是很多跛子。

RobertT·3月24日,2011年11:03下午

这里没什么新鲜事…这就是为什么所有安全的通信系统首先使用低比特率的编解码器,然后将VoiP包流嵌入到一个伪噪声数据流中,这个伪噪声数据流的速率至少是VoiP包速率的10倍。voip数据包也随机排列在序列中,但即便如此,对于一个坚定的对手来说,这也是不够的。不幸的是,所有真正的修复,对于这个问题,创建一个有太多延迟的系统,使得用户无法自由交流,所以他们绕过了安全系统…

尼克P·3月24日,2011年11:20 PM

@罗伯特

有趣的评论。但你指的是哪种系统?我所见过的系统似乎是一个非变量压缩+良好的加密协议。这包括SCIP设计的描述。我看了很多COTS和Type 1系统,但不能说我看到了您所指的内容。能告诉我们你的消息来源吗?

wernerd·3月25日,2011年是

@马丁

VoIP加密(音频/视频部分)不是SIP提供者的特性。你需要一个体面的VoIP客户,例如,支持ZRTP / SRTP。如果双方都使用这样的客户,那就应该这样做。

JITSI(前SIP通信器)闪烁,而CSIPSimple for Android就是这样的客户机的例子。

RobertT·3月25日,2011年上午6:18

@尼克·P
我说的是20多年前的一些老系统(而不是美国)。密码很差,因此,他们试图隐藏真实的语音包,并允许将非恒定速率的编解码器替换为恒定的随机比特流。

有了良好的加密,您只需要恒定的数据速率,假设你忽略了所有其他的渠道问题,我们之前已经详细讨论过了。

我相信克莱夫会指出“语音很难正确加密”

冬天·3月25日,2011年22点

谁对所说的话感兴趣?

任何一个远程进入可疑业务的人都知道你应该使用代码短语。“黄色的包裹变了花样”。

唯一有趣的是谁和谁说话,多长时间,多久一次。

但我喜欢它的纯黑。路要走!

克莱夫·罗宾逊·3月25日,2011年7:34 AM

@罗伯特,尼克·P,

正如我确信克莱夫会指出的那样:“语音很难正确加密。”

那是因为它是8)

有趣的历史记录,更好的语音压缩算法(CELP等)是由国家安全局开发的,但几乎没有发生。

http://www.nsa.gov/about//u files/cryptologic_heritage/publications/wwiii/sigsaly_history.pdf

之前提到过,美国国家安全局发布CELP用于北美手机网络(以及其他网络和最近各种各样的VoIP编码器)是一种获得具有“隐藏属性”的算法的方法。国家安全局可以开发到世界各地的应用。

如果这是真的或不是真的无关紧要,因为任何中等复杂的系统都会有“边通道”。

老实说,人类演讲几乎是所有帮助“纠错”的渠道。这就是为什么我们可以比较容易地在外部嘈杂的环境中理解它。

这也是为什么lpc/celp工作得那么好。可悲的是,尽管我们还没有真正教会计算机去听(也就是说,他们仍然不能像大多数人那样,从未知的随机发言者那里轻易地识别出随机单词表)。

尼克P·3月25日,2011年下午11:04

@克莱夫·罗宾逊

我在人工智能领域有限的经验告诉我,语音识别问题的核心在于,这么多短语对语境敏感,一个环境,情景和语言级别的上下文。所谓的“常识”人们的先天知识也需要区分特定的短语和口语单词。麻省理工的共同思想和Cyc项目试图编码大量的知识来解释这一点,但是大脑是一个神经网络,它已经告诉我这些项目成功的可能性有多大。阅读:自然界通常最了解如何建造极其复杂的机器。

至于密码,大多数位电平侧通道是通过固定的大小和定时传输来消除的。效率很低。然而,它允许通过安全连接私下发送任意应用层数据。我现在没有其他的选择,我也有同样的信心。所以,我告诉他们:闭嘴,为带宽买单,或者选择一个安全的应用程序。

克莱夫·罗宾逊·3月26日2011年11:06我

尼克•P @

“我在人工智能领域的有限经验告诉我,语音识别问题集中在fac上,许多短语都是上下文敏感的,一个环境,情境和语言层面背景”

是的,大多数工作的Speach识别软件都在这个级别上工作。

我所说的是较低水平的识别能力,即能够识别不同的人所说的不同的单词,其口音范围广泛,同时还面临着高水平噪音或同等水平的其他发音等问题。

如果听者的语言足够流利,那么人类的思维似乎仍然远远超前于计算机。

有趣的是,当李斯特不流利的语言时,他们通常会“听到”来自他们自己或其他语言的流利的词。

奇怪的是,电脑在“音高完美”方面似乎没有那么大的问题语言。识别日语和泰语单词的实验似乎比不依赖音高的语言更准确。我不知道现在的游戏状态是什么,因为我在语音自动系统(用于基于电话的IVR)工作已经有一段时间了。

在简单的IVR中,你通常只需要识别一个未知说话者的0-9/yes/no,而不需要在任何上下文中识别speach。

对于更复杂的IVR,您不仅需要寻找单词识别,还需要寻找一些上下文来改进单词识别,在一定程度上“学习演讲者”。

了解说话者的一个简单方法是让打电话的人说出他们的电话号码,并进行直接比较,然后根据预期的电话号码构建一系列简单的隐马尔可夫模型(HMM)。

这有时是通过一个非常类似的方法实现的,用于解决“字母汤”的HMM模型。自动“手写”问题识别和阅读。谷歌左右,以获得“最大的相互信息”
隐马尔可夫模型参数估计”无论是“语音识别”或“文本识别”或谷歌表示“离散话语语音识别”如果你想了解这个过程的更多细节。

最终,当你达到“自然语音识别”的程度时,你需要切换到几乎完全上下文敏感的识别。例如“音频输入”软件(如“龙自然说话/口述”等等)。

所有这些系统都需要大量的CPU功率,即使在今天,语音识别软件也可以最大限度地利用业务级PC的CPU。

对初出茅庐的知名作家(Bruce等人)的一个注释是,这些产品实际上非常适合输入原始文本,不过,在你把句子说成“跳单词”之前,不要看句子。在屏幕上很容易让人分心,导致你自然的speach节奏中断(我过去曾用它直接引用书籍和杂志等,当“坐得舒服”的时候。

与问候,

“至于密码,大多数位电平侧通道是通过固定的大小和定时传输来消除的。效率很低。然而,它允许通过安全连接私下发送任意应用层数据。我认为目前没有其他选择能让我有同样的信心。”

是的,大多数侧通道“在线”是基于时间的(目前)与一些直接基于“功率谱”的或者它在操作领域是等效的。

为此目的,“计时输入和计时输出”建议限制了基于时间的侧通道和类似“包填充”的通道。和“速率限制”修正等效功率散斑问题,如果做得正确,就像“数据增白”一样带有非线性PRB。

尼克P·3月27日,2011年下午1:35

@ mbt005

从我英国人的思维中,你在讨论一所高中,电子邮件,脸谱网,一般来说,也可能涉及到一些广告。这不太好。把我算出来。

让-马克瓦林·3月27日,2011年2:01点

我是本文中评估的speex编解码器的作者。虽然VBR确实泄漏了*一些*数量的信息,我认为这个问题被夸大了。我过去在语音识别领域工作过一段时间。当你有声音的时候,识别会话语言已经是一件很难可靠的事情了。所以试图用vbr来监视真实的对话是不可能的。

所以这篇论文展示的是对一个非常受限词汇的识别,例如,一个用户说了n个句子中的一个,其中n不太大,句子长度足以包含足够的信息。所以对于一个演讲者只能说几句话的情况,可能存在风险。另一方面,我认为信用卡号码(如果你删除冗余,大约10^14个可能性)是相当安全的,因为没有足够的信息来消除所有可能性的歧义。实际上,我认为唯一真正的危险是在IVR应用程序中播放预录制提示。通过呼叫IVR,攻击者可以直接访问所有提示的vbr模式,所以提示时可以得到100%的识别率。

事实上,科林·帕金斯和我已经写了一份互联网草案,来描述加密的VBR流哪些是可以的,哪些不是:http://tools.ietf.org/html/draft-ietf-avtcore-srtp-vbr-audio-00欢迎评论。

尼克P·3月27日,2011年9:50分

@让-马克瓦林

谢谢你的插话。我感谢您为开发开源编解码器所做的努力。我想在一个设计中包含你的算法,但随后注意到了vbr属性。我不得不选择另一种选择。我认为我的主要反对意见可以用这样一个问题来表达:“如果可以使用非VBR方法来轻松地满足功能和安全需求,为什么还要使用VBR ?”

如果编解码器故意泄露信息,就隐私技术而言,它在设计上是不安全的。加密的关键是隐藏数据。任何即使通过加密过程也会泄露数据的事情都必须解决。我们需要开源,无专利的非VBR编解码器,可以以GSM数据呼叫速度传输。如果有人知道,我想听听。让-马克,是否可以将speex修改为非vbr?

玛丽安·凯希利巴·3月28日,2011年上午9:40

我是支持SRTP/ZRTP的移动VoIP程序的共同开发人员。

通过可变比特率编解码器猜测短语的问题已经知道一段时间了。

尽管如此,绝大多数日常VoIP编解码器(speex,AMR伊尔滨G.729)是,默认情况下,使用恒定比特率编码。我真的不知道任何当前的VoIP应用程序会在默认情况下使用可变比特率。

玛丽安·凯希利巴·3月28日,2011年上午9:44

尼克·P。为什么要限制自己“GSM数据通话速度”?GSM数据呼叫是一种正在消亡的技术,而且很晚。不要将GSM数据呼叫作为任何标准;它已经过时了,对现代设备的支持正在减少。

AMR为12200 bps,SPEEX为11000 bps,您可以获得绝对完美的声音。这是一个非常温和的带宽要求。大多数移动设备没有质量优良的扬声器。即使对我来说,我是一个训练有素的歌手,有很好的相对音高等。很难区分,说,在典型的诺基亚智能手机上,speex的速度为8000 bps,而不是11000 bps。

尼克P·3月28日,2011年下午4:30

@玛丽安Kechlibar

“为什么要限制自己的GSM数据呼叫速度?”

因为一个拥有大量用户的现有产品可以通过GSM运行,如果不需要硬件升级,那么切换就会更容易。如果高性能网络不可用,它也是一个不错的备份选项,但像GSM数据线一样。我只是说编解码器应该支持不同速度的网络,包括慢速网络选项。写这篇文章时,我还在考虑拨号和廉价的卫星调制解调器连接。

流浪者·3月29日,2011年下午4:29

对于那些对SCIP感兴趣的人来说,SCIP是许多国际政府安全语音加密的基础,这方面的信号标准(SCIP-210)上周首次在IAD网站上公布。

主题:Scip使用固定速率的声码器(Melpe和G.729),从而避免了原稿中的问题。

发表评论

允许的HTML:····

乔·麦金尼斯(Joe MacInnis)为布鲁斯·施奈尔(Bruce Schneier)拍摄的侧栏照片。

Schneier on Security是一个个人网站。betway88必威官网备用表达的意见不一定是IBM安全