老罗的TNT工作站，到底前景如何？

只要语音交互会成功，那TNT是一定会来的。

2018年5月15日老罗发布了一款TNT（Touch And Talk）的工作站，然后每隔一段就有消息爆出，比如：

改变世界的TNT终于被你们笑话死了。

抛开具体某个案例，这类产品的未来究竟会如何？

盖茨的感叹

盖茨先生8/17在领英上推荐了一本书，同时写下了这样的一段文字：

In the early days of Microsoft, I felt like I was explaining something completely foreign to people when I would talk about our business plan. They didn’t understand how a company built entirely around software could be profitable.

（在微软的早期阶段，当谈到商业计划时，我感觉自己一直在向人解释特别陌生的东西。人们不理解为什么一个完全基于软件的公司可以盈利。）

盖茨先生说的这类事情一直重复发生，在互联网早期（2000年前后）其实我们也不理解基于一种免费的产品如何构建商业模式。

每种创新模式之所以难以理解核心在于其往往要依赖于几个大胆假设，而这些大胆假设本身非常难以求证真伪，从正反两个方面都可以获得无数的证据，然后基于这些假设又要做推理，最终才是结论。

这样的一个过程，不是单纯的生意机会，所以明白不难，但认同会比较困难。

我们可以比较下罗老师的TNT工作站和长租公寓：

长租公寓的理解方式可以是：北京有1000万外来人口，总计需要租房800万间，市场总共有的房间是500套，所以这是一个供不应求的市场。因此只要能把握房源，建立品牌，那盈利比较确定。（房屋数字和盈利数字都可以进一步精确化和测算，当前数字是我随便写的）这样一来从商业机会的角度看就非常明显，即容易明白也容易认同。

相比之下，TNT工作站上理解起来就繁杂很多，要理解TNT工作站需要的是：人们需要更便利的交互方式，当前语音技术已经成熟到这个地步，只要加上良好的设计，那就提供更好的体验。所有这些需要一款新的硬件做载体，因此需要这款产品。

后者麻烦的是，需要的判断点特别多：需要理解技术的成熟度，需要知道设计本身可以带来的价值，需要知道有多少人愿意为此买单。但真具有颠覆性的其实是后者，前者只不过是风险不同的各种生意。至少从这个点来看，老罗是值得尊敬的，他在做一些真正有创造性的东西。

说到底还是语音交互

抛开具体某款产品不论，TNT工作站这类产品究竟成立与否最终取决于语音交互落地的深度。

当前的形态（各种音箱上的播歌、控制外设等）可以看成是语音交互的初级阶段，也可以看成是第一个支点，随着应用的深化，那各种深度应用形态必然会不断出现。（电脑的第一个支点是用来计算的，然后经过字处理、游戏、上网等阶段后，最后已经是一种无所不能的通用设备。）

眼下看语音交互的发展从层次上看至少要经历两个阶段：

第一个阶段就是现在Echo所展示的。通过语音来做播放控制，播放的内容可以是音乐、FM、儿歌、天气、路况等。具体的产品形态可以是音箱（有屏+无屏）、故事机、闹钟、电视、盒子、游戏玩具、智能灯等。

第二个阶段则是应用深化的阶段，这在Echo上也有一定苗头，比如购物会被整合到语音交互里来。如果语音交互真的可以用于购物，那为什么不可以用于办公，为什么不可以用于IM等。只要产品基数够，那每种尝试就都足以收集自己的反馈，然后迭代发展。这个时候产品的形态反倒是会收敛，越重的应用越需要比较强大的硬件做支撑。而所有现在的尝试里面，最有可能成为这种通用型产品的基础的还是智能音箱，智能音箱天生就不是音箱而是一款智能通用设备的基础。

如果第二个阶段全面展开，那设备会分为浅层应用设备和深层应用设备。比如电灯，那需要的还是1-3轮对话来做基本的控制，这就是浅层应用设备。但带屏的音箱等承载的应用就会非常复杂，电脑上的很多事都需要重做一遍（老罗所看到的机会）。

这时候的智能音箱也会进一步分化，从价格上也可以看出这种划分。现在的智能音箱上，巨头往往主打便宜以启动市场。但下面则会分化，比如有的人可能会考虑集成NAS的功能，有的人可能会考虑集成路由器的功能等。

最终设备的销量也会因为这种应用深度的不同而不同：

在浅层应用阶段，智能音箱的销量可能更像传统的音箱，每年的上限在3~4千万台。
在深层应用的阶段，智能音箱则可能突破垂直品类的限制，然后逼近电脑的量级，最终超越电脑的量级，达到每人一个的程度（逼近手机的量级，手机很多时候一个人有两个）。

有意思的事情是，很多时候大家把眼下的销量看成是判断语音交互发展的根据，其实这是有问题的。当前的销量只是语音交互发展的结果，而语音交互成立与否只与这种交互是否真的便利有关。销量和使用频次只与应用的深度和体验有关。

当前行业的真正瓶颈

当前语音交互在技术上并没有瓶颈，但在落地上有。

没技术瓶颈说的是NLP上显然的限制并不是语音交互的真实瓶颈。我们绝大多数的操作其实可以在三轮交互以内完成，这在当前技术水平所能支持的范围以内。实际的应用场景上也不真的需要一个开放的无所不能的语音助理（电影里演的那样）。

不管是从数据还是使用习惯来看，也不存在语音交互习惯不成立的问题，当前落地的真正瓶颈其实是“内容”太少和落地太麻烦。

人们主要的时间其实是被手机占据着，而语音交互设备能做的事太少，只能局限在播放音乐等几个领域。这时候就特别需要“内容”的出现。这里的内容不单是指“影视”“音乐”的进一步加多，也包含罗老师想挑战的TNT，包含视频通话，包含对其它设备的控制等。

从这个角度看，语音交互的第一个战场就是家里。对决的两方是：在家里随着应用的深化语音交互设备PK手机，两者抢夺家里的用户时间。

落地太麻烦则是个纯粹技术问题，当前打造一款语音设备产品的周期太长，通常要6个月以上。主要问题还不是经常说的NLP甚至ASR，核心在于和声音相关的部分。不同硬件有不同结构，有不同的声学特征，需要不同的麦克风阵列，所有这些问题都可以解决，但往往会拉长周期。这时候需要的是Android一样的系统，当年那么多手机厂商存在，核心的一个原因就是Android这样的系统拉低了打造一款手机的门槛。

当一个真的属于语音交互的Android出现后，那这个行业的发展速度可以进一步加快，产品的品类也会进一步加多。