蝶阀厂家
免费服务热线

Free service

hotline

010-00000000
蝶阀厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

微软亚洲研究院空中手书的舞动奇迹

发布时间:2019-03-12 14:35:42 阅读: 来源:蝶阀厂家

如果不是学计算机科学的话,你可能不知道甚么叫计算机视觉,也可能不知 道甚么叫模式识别。但是看过电影《少数派报告》的人也许都希望自己能和汤姆·克鲁斯一样,在空中用手比画一下就能完成未来电脑的操作;乃至想过如果有像哈 利·波特那样的魔棒,挥一挥就无所不能。微软亚洲研究院语音组最近发明的空中手书项目就部份地实现了这些科幻迷、童话迷的梦想。

就如上图所展现的那样,用户手中抓一支笔、一个苹果或其他容易辨认的 物体,在空中写下文字、做出手势,通过摄像头的“眼睛”视察,计算机就能知道用户写的是哪一个汉字,想表达的是哪种手势,从而完成计算机和人的自然交换。这 也正是我们项目命名为“空中手书”的由来。之所以说是部份实现了用户的梦想,那是由于我们只是成功实现了空中手书,而真正科幻式的未来生活需要各个行业、 各个学科的共同发展进步。

孝心引发的创新空中手书项目诞生的直接导火索是迎接2009年的微软技术节 (TechFest),为此语音组在内部广征TechFest的参展议案,结论莫衷一是。当时,我还在家休假。我的经理霍强说,“等马磊回来再讨论吧,这 家伙鬼点子多。”回公司上班那周,正好和霍强1:1交换,当谈到组里还为TechFest参展项目悬而未定时,我就提出了要做“空中手书”的建议。其实, 这个动机由来已久,但是那次回老家度假更坚定了我的这个想法。2009年初在家过年的时候,就常常听到父母抱怨不会用键盘输入,手写板也不好用(需要不断 的抬头看屏幕和低头看板子),我当时便吹牛说,明年回来给家里的电脑装个摄像头,然后你们对着摄像头就可以写字了。其实有这个想法也是由于之前全院的某次 Offsite,在一段非常酷的视频短片里,4位院长用手指在空中轻而易举地写下了MSRA (微软亚洲研究院的英文缩写) 四个字母,这固然是电影殊效,但是却让我浮想联翩。

虽然“空中手书”的想法听上去很炫,但是霍强还是对需要投入的时间和人 力本钱有所顾虑。为此,我主动请缨用两周时间先做个原型出来,然后再评定能不能继续做下去。实际上最后做出这个原型只用了2天时间,也还是一个比较简陋的 演示:首先把手的运动轨迹跟踪下来,接着保存成数据文件,然后再调用我们的辨认引擎,得到辨认结果文件,最后经过读取把它显示在屏幕上。

使人惊讶的是,这个原型的效果已使人相当满意了。因此,便有了更多的人加入到这个项目的开发完善的进程中,比如我的实习生朱晓恩、霍强的实习生孙雷,和现在继续把这个演示中加入手势辨认的禹果。

空中手书项目在2009年微软技术节上精彩亮相

技术里面隐藏的奥妙

那是不是由于这个问题太简单了,所以用两天就能做出这个演示?固然不是了。我们设计的空中书写系统里面有两个主要的组成部分,一个是运动轨迹的追踪算法,一个是手写体汉字的辨认算法。而这两个领域本身都有了几十年的发展,至今还是有很多的未解问题。

比如说这个跟踪算法,跟踪甚么东西、提取什么样的特点来跟踪、跟踪的效力,是否是白天晚上各种不同的光照条件下都能跟踪等等,每个问题都可以展开来细细的做研究。而这些问题如果不解决或一定程度上解决,就不会是一个用户体验良好且稳定的方案。

再比如说这个手写体汉字辨认也一样是有很多值得研究的问题。写字的风格(楷书、行书、隶书、草书) 不同会影响识别率,不同人的写法更是差异很大。另外,汉字的笔顺也是个大问题。除去这些问题不谈,在空中写字的方式和纸面上写出来的字样式上也差别很大,最少现在空中的汉字是要一笔写成的。这都要求我们的汉字辨认器可以稳定地处理和辨认出来。

两天做出来的原型只是描写了一个概念,后面还有大量的工作等着我们去做。

我们连同实习生一起做了认真的特点研究,去斟酌哪些特点在光线不足的情 况下稳定,哪些在亮光乃至点光源(一般会场和室内的条件)下能够稳定等等问题。另外,现在的摄像头有自动聚焦、白平衡和自动滤波的功能,而这些功能是否是 对我们的运用有帮助?其实,有些功能不但没有帮助反而有害。我们就世界上最穷的国家需要把这些问题一个个研究清楚。除特点外,什么样的追踪算法稳定高效,合适我们的运用 场景?为此,霍强和我查阅了大量研究资料,咨询了我们微软内部的许多在这方面资深专家寻求更好的方案。

在手写辨认方面,我们研究院语音组有很多年研究的积累,平面上的手写体辨认算法的性能和识别率上是全球领先的。相干算法已transfer (转化)到了产品部门。但是这个空中字体的轨迹有本身的特点,如一笔连画,三维空间的轨迹映照到二维上,比画之间的转折相对油滑等。我们的算法在特点上的处理可以对付这些问题,信号的预处理部份也可以过滤掉由于光线条件不是很好情况下跟踪算法带来的信号抖动。

除这些在核心技术上的研究以外,在用户界面上我们也斟酌了很多。这部 分我的实习生朱晓恩动了很多头脑,比如如何设计更美观的界面,捕捉大恐龙图片到的轨迹如何出现会更舒适。另一个重要的改进就是把辨认结果中最可靠的结果放置在候选区 域的中心,把不太肯定的候选结果放置在边沿。这也是为了能让用户平均选取正确汉字的手移动距离最短。

终究,完成了我们现在看到的这个对公众演示的算法设计和实现。

空中书写的运用前景如我所言,空中手书这个项目一开始就是从用户的需求中来(有相当一批人音频故事不会用键盘输入或不知道怎样用包括拼音输入法在内的方式)。我们的项目就给了这些人一个与机器设备交互的可能性。

我们这个空中手书关注的运用场景可以分为以下几类:

1. 交互式游戏场景。比如在Xbox中,在很多时候需要玩家的输入才能致使游戏的继续进行。这时候我们的空中手书就提供给用户一种截然不同的使用体验,用于输入名字,谜题答案;用于交互式控制完成游戏的部份场景等等。

2. 搜索是海量信息时代重要的信息组织古知亜美莉生活照方式。 输入搜索的查询关键词有时候并不是是一件非常容易的事情。比如在IPTV上,用户的计算机连接到互联网上,用户有需要从互联网上找到有趣的视频或电影电视 然后从自己家的电视屏幕上进行播放。这时候,我们的空中手书就提供给用户一个输入方式选择。尤其是那些不会用T9输入法的中年以上用户。毕竟,手写输入还 是自然的输入方法之一。

3. 我们的空中手书还允许用户输入手势。通过一组直观易用的手势,用户可以方便地和各种智能装备交互。控制音视频的播放,提升用户体验,快速访问某些设定功能,等等。

总之,空中手书给了用户新的选择。它的运用场景就仅仅受限于我们和用户的想象力。

空中手书的演示成功恰恰是一个研究问题的开始,恰恰说明用户对更自然的 人机交互方式提出了诉求。就在写本文的时候,我们还在研究是不是有更自然的方式可以捕捉人的运动,从而和计算机交互;是不是能让我们的跟踪算法和人眼的跟踪1 样稳定。同时,我们还在研究使用手势辨认来理解用户意图,让每个人都可以体验到空中舞动之美,体验到人机交互带来的便利。

访问:

微软中国官方商城