原文出处:直播社区
原文地址:http://www.zhiboshequ.com/news/573.html
视频直播,可以分为“采集、前处理、编码、传输、解码、渲染”这几个环节,下面分别说下:
采集,iOS是比较简单的,Android则要做些机型适配工作,PC最麻烦各种奇葩摄像头驱动,出了问题特别不好处理,建议放弃PC只支持手机主播,目前几个新进的直播平台都是这样的。
前处理,现在直播美颜已经是标配了,80%的主播没有美颜根本没法看。美颜算法需要用到GPU编程,需要懂图像处理算法的人,没有好的开源实现,要自己参考论文去研究。难点不在于美颜效果,而在于GPU占用和美颜效果之间找平衡。GPU虽然性能好,但是也是有功耗的,GPU占用太高会导致手机发烫,而手机发烫会导致摄像头采集掉帧,iPhone6尤其明显,因为iPhone6的CPU和前置摄像头很近。
编码,肯定要采用硬编码,软编码720p完全没希望,勉强能编码也会导致CPU过热烫到摄像头。硬编码兼容性又是一个大坑,android上要有人去填。编码要在分辨率,帧率,码率,GOP等参数设计上找到最佳平衡点。
传输,自己做不现实,交给CDN服务商吧,也就是贵了点,相信有志于做直播平台改变世界的你不差钱。假设2W PCU大约每月带宽费用100万左右,因为清晰流畅的720p要1.5mbps左右。CDN只提供了带宽和服务器间传输,发送和接收端的网络连接抖动缓冲还是要自己写的。不想要卡顿,必然要加大缓冲,会导致延迟高,延迟高影响互动性,要做权衡。
解码,也肯定要硬解码,目前手机普遍支持硬解了,只是android上还是有兼容性大坑要填。
渲染,这个难点不在于绘制,而在于音画同步,目前几个直播做得都不好。
此外音频还有几个坑要填,比如降噪,音频编码器的选择,各种蓝牙耳机,各种播放模式的适配等,如果你想做主播和观众连线聊天,还有个回声消除问题。
以上是媒体模块,还有信令控制,登录、鉴权、权限管理、状态管理等等,各种应用服务,消息推送,聊天,礼物系统,支付系统,运营支持系统,统计系统等。
后台还有数据库,缓存,分布式文件存储,消息队列,运维系统等。
这些显然不是一个程序员能解决的,如果真的有这样的高手,请联系我,无论你现在薪水多少,我都出两倍。
第一期至少要融资2000万RMB,组建至少10人的技术团队,10人的产品运营团队,争取3个月产品上线,半年达到5W在线(2w 根本不够)然后融资1个亿,或许还有希望一搏。
也许有人对带宽问题存疑,请参考欢聚时代15年四季度财报,带宽成本为人民币1.611亿元,折合每月5000+万,当然不能用这个数去推算在线人数,因为YY采购量很大所以带宽平均成本低,而且YY不只是高清直播,还有很大比例的500kbps左右码率的直播,还有相当一部分带宽是靠P2P解决的。总之带宽非常贵。
此外,我把视频直播系统中的一些难点再和大家分享下。
两年前我在做媒体云的时候,当时都是点播的业务。做到后面,我觉得点播业务其实并不像想象的那么难,你想你有一个稳定的存储,找一家靠谱的 CDN,然后找一个大概能用的播放器就做出来了,这有什么难的呢?你可以找云服务公司,也可以找外包,或者你自己招一个人都能做。但是现在发现到了移动,尤其是 3月份移动直播火起来之后,这个门槛突然变高了。因为内容产生方变成了移动端。从几个点来分析下为什么:
1 、首先内容产生方就是推流端,现在主流的 IOS、安卓,IOS比较简单,就是那个几个机型,基本大家适配都很好。但是安卓的碎片化是非常严重的,大量的精力都需要做对安卓的适配,而且软编耗电量普遍非常高,手机用了一会就会发烫,都担心会不会爆炸。用户体验就是在不同的网络情况下,上传的视频有可能会卡,有可能不连贯,报各种各样的错误,这个是作为一个开发者他自己不可能去适配的。说白了从用户那边提的需求就是推流端不能卡,画质要好,不能太烫,这是我们接触到的客户真正提的问题,是我们从有点偏技术的角度抽取出来的,它背后对应的是哪些事情。
2 、然后是分发网络。分发网络其实躲在一个很后面的地方,用户其实看不见的。真正对分发网络提需求用户也提不出来,所以基本这部分需求都会提给播放端,提的需求也是不能卡,不能花屏,首屏一定要快,一点就要看到,还不能把延时弄的太大。其实这些很多都是和源站分发网络有关系的,只是用户看不到这个需求会跟后面的播放器接在一起。
像首屏时间,就是用户点开就要看,以前那些开源架构就是 rtmp server,它是做不到一点开就能看的,现在一些开源的国内资源写得也比较好了,可以看到。我们是自己开发的,所以也花了一些工作,能保存之前的关键帧的信息,用户一点开就能看,这个就是很细节的东西了。如果这个做不好的话,会黑屏、绿屏,或者是半天看不着图像。
3、在播放器这边也是我们在接业务的时候,遇到用户投诉最多的,因为所有的问题都是在观看的时候体现的,所有的雷都得是播放器的同学去扛。这个需求也是不能卡,不能延迟太高。如果延迟高了,要追回来,追的时候声音不能变,最好是追的策略也能自己控制,这是用户真正提出来的需求。
要满足这些需求,我们需要做好多分辨率的适配,保证好流畅性,保证好我们追赶的策略不会出现任何异常。所以这三个端很多是相互耦合的,像推流和分发在一起,要保障好用户的流畅性和画质,分发和播放器在一起要保证好低延时和播放的流畅。所有的这些需求里共同的一点就是不能卡顿。
这个是我们的系统架构图。最下层是依托金山的云服务,因为我们已经有了很好的平台,提供了我们计算资源,提供了存储,提供了很多自建的节点,当然还不够多,我们还是个融合 CDN,然后提供了数据分析的能力。我们依托它做了橙色的这一层,就是我们自己的核心,流媒体直播,然后围绕这个核心我们在做的回看点播、在线转码、鉴权、内容审核。
1.回看点播:因为这不是一个短视频录播的项目,而是一个直播,直播就决定它的并发不会很高,内容不会很多,热点比较少。如果你不回看的话,用户很难维持它的日活,很难维护用户黏度,所以用户一定会要求做回看的。
2.在线转码:推流端其实做了很多把更好的画质想尽办法传上来的工作,投了很多人力来做。传上来之后,观看也在移动端,它不一定看得了。如果他看不了怎么办?我们就需要在线转,在线转码其实承担的更多更重要的事情。
3.鉴权:用户都不想被盗链,尤其是推流的时候,如果我不鉴权,谁都可以来推。所以这是必须要有的
4.内容审核:现在我们没有办法帮他做到自动审核,技术还不够。现在做到的是截图,按用户指定的时间定期截图,这样的话,用户就可以请一些外包来看是不是有敏感内容,是不是要下线,这个对于现在这种三四秒延迟的直播来说非常重要。你做不到的话,没准政策因素你就做不下去了。
5.数据分析:一部分是依托金山已有的,一部分是我们自己做的,因为我们延迟性,时效性要求更高。客户会经常大半夜突然提出一个主播看起来特别卡,问你为什么,要是像以前那种方式,一个小时生成报表,然后出体验图,告诉他为什么卡了,客户可没有这个耐心。我们现在基本能做到5秒间隔就出之前的各种问题定位,这个定位包括从源站收集的数据画的曲线。还有从端上,如果端上用户允许的话,推流和拉流端我们都会有上报数据,几个曲线一拟合,我们就知道问题出在哪里。
懒的看文章的,直接点击放大,看原图就可以了。
新兴的直播行业现在正处于一个爆发式增长的状态,先从以秀场为主的直播方式,再到游戏直播,再到以UGC(user-generated Content)为主的内容生产方式的移动直播,将各行各业的内容以直播的方式分享。
不同模式的直播产品正在涌入市场,目前国内直播App就有200多个,其中100左右个项目获得了融资,形成激烈的竞争。
而背后的视频直播系统也需要一个庞大的技术链支持,下面简单介绍一下视频直播系统的技术链。
1.直播类型
视频直播根据不同的服务对象,大致可以分为2B和2C两种类型。
两种类型在技术本质上没有太多区别,但在产品形式上有很大区别。
2B指的是为企业提供直播服务。
例如微吼、易直播、趣直播、视秀等平台,帮助企业做直播解决方案。
企业召开发布会,就可以使用这些公司的服务。企业搭建专属直播室,企业级直播服务公司可以提供标准化的产品,也可提供个性化的定制服务,将其API嵌入自家App中。
2C指的是为普通用户提供直播服务。
市场上大部分直播平台都是这类型。又可分为一对一和一对多。
一对一是指视频源从一个客户端传输到另一客户端。如Facetime,Skype,微信,QQ的视频通话功能。
一对多是指视频源从一个客户端传输到多个客户端。这种形式即“网络视频直播”。
根据直播内容及形式又可分为以下几个种类:
秀场直播。
主要是主播展示才艺的形式,大部分为女性主播,是中国最早的直播形式。
目前秀场直播主要有爱奇艺奇秀、腾讯QT星主播,优酷的来疯等等。
电竞直播。
以游戏赛事,游戏教程等为主要内容。最先是在美国兴起的Justin.TV,之后改为Twitch,被亚马逊收购。国内主要有斗鱼,战旗,熊猫,虎牙等游戏直播平台。
移动直播。
是以移动设备为视频源的直播方式。这种形式最早在2015上半年,起源于美国的创业公司Meerkat,Periscope。之后Periscope被Twitter收购,Facebook也涉及这一领域,在Twitter,Facebook的竞争压力下,Meerkat放弃了直播视频社交网络业务。
在2015年下半年,中国拷贝了这种形式。以视频化社交为方向,代表产品有映客和花椒,陌陌美拍等的直播功能。
活动直播。
主要为各种现场活动提供直播服务。这种服务通常由toB直播服务公司提供。需要相对好的人脉资源,直播要求高,行业壁垒高,大部分创业者无法涉及。对各种讲座,峰会以及商业活动进行直播,主要有微吼直播等。对各种演唱会的直播,主要有优酷,乐视等大型视频网站。
而在内容划分上,各中直播模式依赖不同的内容生产方式。如下图所示:
注:
UGC,User-generated Content也称为UCC,User-created Content
PGC,Professionally-generated Content也称为PPC,Professionally-produced Content
OGC,Occupationally-generated Content
2.视频直播系统
一个直播系统大概可以分为一下几个模块,媒体模块,服务模块,管理模块。
媒体模块是直播系统的技术核心,服务模块是关乎用户体验,管理模块对数据,系统进行管理控制。
2.1媒体模块
2.1.1采集
采集是直播系统中的第一环节,获取视频源。
因为iOS是软硬件种类不多,官方也提供了稳定可靠的接口,比较简单。
Android因为机型种类繁多,需要适配机型,会是很大一部分工作。
而PC也面临各种摄像头驱动,难点在于机型适配。
2.1.2前处理
前处理,主要用于图像美化,风格化,图像处理方面。
当前直播的美颜功能已不可或缺,除了秀场需求以外,在UGC内容生产方式下,大量的内容对美颜都有较高的要求。
美颜简单的可以通过美颜镜头,但局限性大,限于PC端的主播,更好的办法是通过软件实现,需要图像处理方面的人员,美颜算法需要需要用到GPU编程,要自己参考论文去研究。
难点在于美颜效果是否自然,GPU占用与效果的平衡。GPU用于高性能计算,但功耗也相对高,需要考虑到手机温度对数据采集的影响。温度过高,摄像头容易掉帧。图像处理不仅仅是美颜,在交互中可能会涉及到滤镜,人脸识别,人物风格化等,使得客户拥有更好的互动体验。
目前iOS上比较好的图像处理库是GPUImage,提供了丰富的预处理效果,也可利用该库自定义设计。
Android上也提供了功能强大的图像处理库grafika。
2.1.3编码
在编码方面,有两种编码方式,硬编码(硬件)与软编码(软件)。
目前大部分硬件都支持硬编码,但在Android上存在兼容性问题,源于不同厂商的芯片差异巨大,难以构建统一的库来兼容全平台。
编码的工作主要是对视频,音频的原始数据进行编码处理,得到可用的视频,音频数据。
编码涉及一系列的技术,常用的编码方式有CBR、VBR;对于视频,常用的编码标准是H.265、H.264、MPEG-4等,可封装为MKV、AVI、MP4等;对于音频的常用编码标准有G.711μ、AAC、Opus等,封装有MP3、OGG、AAC等。
编码通过压缩音视频数据来减少数据体积,方便音视频数据的推流,拉流和存储。大大提高存储传输效率。
H.265是当前性能最高的编码技术,在相同视频质量下,相比于H.264,H.265仅需一半的带宽,使得低于1.5Mbps的网络能够传输1080p的高清视频。
在编码方面的核心是平衡分辨率、码率、帧率、GOP(Group of Pictures)使得体积与画质达到最优,参数组合为技术核心,也是个家的商业机密。
2.1.4传输
传输涉及系统的多个部分,连接主播端,服务端,客服端等多个部分。
传输效率高与否决定直播系统的性能好不好,传输是直播系统非常重要的技术核心。
下面是传输的简单示意图:
从推流端到服务端。数据经过推流端采集和预处理,编码之后推流到服务端,流传输就涉及到相应的传输协议,最常用的协议是RTMP(Real Time Messaging Protocol,实时消息传送协议),RTMP是Adobe Systems公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议。还有RTSP,HLS等。
RTMP的传输延迟通常在1-3秒,符合手机直播对性能的要求,因此RTMP是手机直播中最常见的传输协议。之后通过QoS(Quality of Service指一个网络能够利用各种基础技术,为指定的网络通信提供更好的服务能力, 是网络的一种安全机制,是用来解决网络延迟和阻塞等问题的一种技术。)将流数据推送到网络端,通过CDN分发。
在直播场景中,网络不稳定很常见,需要通过QoS来保证直播体验。服务端还需要对数据流一定的处理,转码,使得数据流支持HLS,HTTP-FLV,RTMP等格式的拉流,支持一转多,适配不同网络、分辨率的终端。
推流作为视频源的传输,在稳定性速度上都比拉流高得多。实现推拉流的技术线没有雄厚的人才与资金是不现实的,通常需要依赖第三方的CDN提供商。
在实际中,大多数直播平台会接入多个视频云服务提供商,做拉流线路互备,视频集群也是可优化部分来提高直播流畅性与稳定性。
2.1.5解码,渲染
拉流获取音视频数据后,需要通过解码器解码,渲染才能在播放器上播放。
H.264和H.265是有所压缩的,在解码恢复之后是缺损的原数据。
之前提到的体积最小画质最优的编码参数,就是在这里恢复画质的,该参数组合是非常重要的技术。现在的播放器普遍都需要高清支持,解码也应选择硬解码。iOS能够较好的支持,但Android还需要很多工作去弥补Android在平台差异的缺陷。
而在播放端,保证音画同步的同时,保证稳定流畅的直播流量,需要服务端与播放端做调度优化。
2.2服务模块
服务模块涉及用户体验,从用户方的收益一部分也来自于服务模块。
系统需要完整的礼物,支付,运营,任务等系统,复杂度不亚于页游系统。
国内直播平台的营利模式决定:平台从打赏中抽成。礼物系统就成为平台的盈利方式。礼物系统是多数视频直播平台的标配。
在中国部分人有礼品消费的习惯。平台为用户主播设计多个等级、爵位等头衔。利用财富榜,家族榜,等级榜类拉动消费。
IM技术。IM即时通讯服务。包括聊天室、弹幕等。弹幕交互方式是很好的体验,偏年轻化,大量用户愿意通过弹幕互动。高峰时,弹幕消息量特别大,一是需要考虑到高峰时弹幕的实时性和高并发量,二是要在产品策略上作一些体验上的优化。
支付系统需要仔细处理各种异常,消费流水记录。
系统还需要在政策上作相应的考虑,例如国家规定所有直播必须打水印并存留15天以上。在内容审核方面,淫秽、暴力、犯罪、敏感问题的审核。在数据分析方面也需要相应的统计系统。
2.3管理模块
管理模块包括客户端的设计与维护、后台数据库、后台控制系统。
该部分根据直播平台的特性、定位设计相应的管理策略。具体技术上还包括缓存、分布式文件存储、消息队列,运维系统等等。
2.4 直播软件
Open Broadcaster Software(OBS)是一款比较好的PC端直播开源软件。该软件提供了对H264 (x264) 、AAC编码的支持。支持多场景多数据源,到Twitch, YouTube等平台的LRS支持。支持输出视频,基于GPU的游戏捕捉提供高性能的视频流等等众多支持。能够很好地完成采集、编码工作。
这款软件虽然免费,但是其稳定性和易用性都比较差,行业内还有一款更好的商业版直播软件叫“直播大师”,北京顺景科技有限公司开发的,在功能、稳定性和易用性上做得都非常到位。
以上简单地介绍了视频直播系统的技术构架,构架本身容易,但构建性能优良的构架就很有难度,需要在传输速度与效率、推流端兼容性、客户端体验上作深入的工作。
但说实话,如果仅从问题描述来看,我觉得这样的格局,对未来的生存表示担忧。
现在铺天盖地的直播,从游戏直播、到秀场、到移动端。
看似是块很大的蛋糕,但能留到最后的,一定是巨头中的其中一家。
很多初创团队,都觉得直播的市场很大,机会很多,但这个时间点入场,给初创者的时间并不多。
王思聪的熊猫TV,腾讯投资斗鱼和龙珠,最近疯狂烧钱的腾讯直播和企鹅直播,360投的花椒直播,陌陌的哈你直播、微博的一直播,金沙江投资映客,这些豪华阵容在直播的战场上厮杀的火热。
这类2C直播平台最重要的就是利用直播内容和主播人气吸引巨大的流量。
有流量就有钱进来。
这样的游戏规则下,各大2C平台就疯狂的买内容,签主播。广告狂轰乱炸,争夺江湖地位。
疯狂烧钱的同时,也只有一轮又一轮不断的融资才能生存下来。
有资本进入的地方就有对赌。
不管是2C的映客、斗鱼、熊猫,还是2B的微吼直播。
相比2C端频繁的资本大战,在2B端发展还是相对稳健。
还是以微吼直播为例,被爆已完成B轮对赌,对赌金额达7000万元人民币,有望在年内成为业内首家盈利的直播平台。
现在企业直播服务、城市直播服务的市场还是被严重低估。
尽管现在很多工作上的事情在微信里沟通、讨论。但是我们知道,选择微信,只是因为大家都在用它!只是大家都在用它!
封闭的社交环境使其在商业协作中难登大雅之堂的主因。
单从沟通介质所能承载的信息量来看:文字 < 语言 < 视频 < 面对面交流。
网络直播这种面对面的交流能够承载最丰富最真实的信息,这也让企业直播这样的2B直播行业迎来了千载难逢的机会。
回到题主的问题,我觉得自己搭建直播平台,还不如在别人已经创造好的平台上发现新的机会。
粗略看了下,2C和2B的都有,直播服务的大趋势就是这样。
(图片我下午拍的,2B直播调试现场)
最后,补充一句:搭建视频直播系统一定要符合中国特色。