网络虚拟化IRF2技术架构

虚拟化技术是当前企业IT技术领域的关注焦点,采用虚拟化来优化IT架构、提升IT系统运行效率是当前技术发展的方向。

对于服务器或应用的虚拟化架构,IT行业相对比较熟悉:在服务器上采用虚拟化软件运行多台虚拟机(VM---Virtual Machine),以提升物理资源利用效率,可视为1:N的虚拟化;另一方面,将多台物理服务器整合起来,对外提供更为强大的处理性能(如负载均衡集群),可视为N:1的虚拟化。

对于基础网络来说,虚拟化技术也有相同的体现:在一套物理网络上采用×××或VRF技术划分出多个相互隔离的逻辑网络,是1:N的虚拟化;将多个物理网络设备整合成一台逻辑设备,简化网络架构,是N:1虚拟化。H3C 虚拟化技术IRF2属于N:1整合型虚拟化技术范畴。

1            H3C IRF2虚拟化技术解析

1.1         IRF2技术概要

IRF2源自早期的堆叠技术,H3C或称为IRF1。

IRF1堆叠就是将多台盒式设备通过堆叠口连接起来形成一台虚拟的逻辑设备。用户对这台虚拟设备进行管理,来实现对堆叠中的所有设备的管理。这种虚拟设备既具有盒式设备的低成本优点,又具有框式分布式设备的扩展性以及高可靠性优点,早期在H3C S3600/S5600上提供此类解决方案。

IRF2既支持对盒式设备的堆叠虚拟化,同时支持H3C同系列框式设备的虚拟化(如图1所示):包括S12500,S9500E,S7500E,S5800,S5500,S5120EI各系列内的IRF2虚拟化整合。

       20091013_854974_p_w_picpath001_650694_30008_0.

图1 基于IRF22 的虚拟化

IRF2技术的软件体系架构如图2所示。IRF2虚拟化功能模拟出虚拟的设备,设备管理同时管理IRF2的虚拟设备与真实的物理设备,屏蔽其差异。而对于运行在此系统上的上层应用软件来说,通过设备管理层的屏蔽,已经消除了IRF2系统中不同设备物理上的差异,因此,对于单一运行的物理设备或IRF2虚拟出来的设备,上层软件都不需要做任何的修改,并且对于上层软件系统新增的功能,可同步应用于所有硬件设备。

IRF2虚拟化模块:自动进行IRF2系统的拓扑收集、角色选举,并将设备组虚拟成单一的逻辑设备,上层软件所见只是一台设备;

硬件系统:IRF2组内的硬件设备及组件;

设备管理层:提供对线卡、接口等各种设备资源的管理。这里的设备包括对硬件的抽象,也包括通过IRF2虚拟化发现的逻辑设备;

系统管理与上层应用模块:运行在IRF2系统上的所有管理、控制程序,包括各种路由协议模块、链路层协议模块等。

20091013_854975_p_w_picpath002_650694_30008_0.

图2 IRF2基本软件架构

IRF2作为通用的虚拟化技术平台,对不同形态产品的采用相同技术架构实现,便于整网运行特征一致性、升级能力一致性。

1.2         IRF2的系统管理

拓扑管理

设备上用于IRF2连接的物理端口被称为IRF2端口,它是一种逻辑接口。一个IRF2端口可能对应一个物理端口,也可能由多个物理端口聚合而成(称为聚合IRF2互联口),以达到增强带宽和链路备份的作用。IRF2物理端口之间可以使用专用线缆也可以使用光纤连接:专用线缆可提供更高带宽和较短的连接距离,光纤可提供远距的IRF2虚拟化能力。

如图4所示,IRF2系统连接拓扑有两种:链形连接和环形连接。

20091013_854976_p_w_picpath003_650694_30008_0.

图3 IRF2的主要连接拓扑

IRF2系统中的各台设备通过与直接相邻的其它成员交互HELLO报文来收集整个IRF2系统的拓扑关系。HELLO报文会携带拓扑信息,包括连接关系、成员设备编号、成员设备优先级、成员设备的桥MAC等内容。

IRF2成员设备在本地记录自己已知的拓扑信息,拓扑信息通过IRF2互联端口传递,经过一段时间的收集,所有设备上都会收集到完整的拓扑信息(称为拓扑收敛)。此时会进入角色选举阶段,确定成员为Master或者Slave。

角色选举会在拓扑发生变化的情况下产生,比如:IRF2建立、新设备加入、IRF2分裂或者两个IRF2系统合并。角色选举规则如下(按规则次序判断,直到找到唯一的最优成员,才停止选举。此最优成员即为IRF2系统的Master设备,其它设备则均为Slave设备):

1、当前Master优于非Master成员;

2、当成员设备均是框式分布式设备时,本地主用主控板优于本地备用主控板;

3、当成员设备均是框式分布式设备时,原Master的备用主控板优于非Master成员上的主控板;

4、成员优先级大的优先;

5、系统运行时间长的优先;

6、成员桥MAC小的优先。

角色选举阶段Master还会负责成员编号冲突处理、软件版本加载、IRF2合并管理等工作。拓扑与角色选举处理成功后,IRF2系统才能形成和正常运行。

 

成员管理

通过IRF2连接形成的虚拟设备在管理上可以看作是单一实体,用户使用Console口或者Telnet方式登录到IRF2中任意一台成员设备,都可以对整个IRF2系统进行管理和配置。

Master设备作为IRF2系统的管理中枢,负责响应用户的登录请求,即用户无论使用什么方式,通过哪个成员设备登录IRF2,最终都是通过Master设备进行配置,这种方式可以使IRF2内所有设备的配置保持高度统一。

IRF2系统使用成员编号(Member ID)来标志和管理成员设备,IRF2中所有设备的成员编号都是唯一的。成员编号被引入到端口编号中,便于用户配置和识别成员设备上的接口。

成员设备加入。IRF2系统当发现有新的成员设备加入时,会根据新加入设备的状态采取不同的处理:新加入的设备本身未形成IRF2(如:新成员是新上电,但IRF2已经配置和电缆连接),则该设备会被选为Slave;加入的设备本身已经形成了IRF2运行结构(如:新成员已经在IRF2状态下工作,使用IRF2电缆连接到已有IRF2系统),此时相当于两个IRF2合并(merge),两个系统会进行竞选,竞选失败的一方所有IRF2成员设备需要重启(冗余的网络结构设计已经保证了网络业务承载的不中断性),然后全部作为Slave设备加入竞选获胜的一方。

成员设备离开。正常情况下,直接相邻的IRF2成员设备之间周期×××换HELLO报文。如果持续10周期未收到直接邻居的HELLO报文,则认为该成员设备已经离开IRF2系统,IRF2系统会将该成员设备从拓扑中隔离出来。如果发现IRF2互联端口Down,则拥有该端口的成员设备会紧急广播通知其它成员,立即重新计算当前拓扑,而不用等到HELLO报文超时再处理。

如果离开的是Slave设备,则系统仅仅相当于失去一个备用主控板以及此板上的接口等物理资源;如果离开的是Master设备,则IRF2系统会重新进行选举,选举出的新Master接管原有Master的所有功能。

单台设备离开IRF2系统后会回到独立运行状态,相连的多台设备离开IRF2系统后会形成独立的两个IRF2系统,这种情况称为分裂。

盒式设备IRF2互联形成的虚拟设备相当于一台框式分布式设备,IRF2互联电缆模拟了交换背板,IRF2中的Master相当于虚拟设备的主用主控板,Slave设备相当于备用主控板(同时担任接口板的角色),如图4所示。

20091013_854977_p_w_picpath004_650694_30008_0.

图4 盒式设备虚拟化成框式设备

框式分布式设备IRF2互联后形成的虚拟设备也相当于一台框式分布式设备,但该虚拟的框式分布式设备拥有更多的备用主控板和接口板。IRF2中的Master的主用主控板相当于虚拟设备的主用主控板,Master的备用主控板以及Slave的主用、备用主控板均相当于虚拟设备的备用主控板(同时担任接口板的角色),如图5所示。

20091013_854978_p_w_picpath005_650694_30008_0.

图5 多框设备虚拟化成更高密度逻辑单框设备

 

软件管理

IRF2具有自动加载功能。新设备加入时,会与Master设备的软件版本号进行比较,如果不一致,则自动从Master设备下载系统启动文件,然后使用新的启动文件重启,重新加入IRF2系统。

 

1.3         IRF2对上层控制协议的支撑

IRF2的基本虚拟化思想是将多台设备合并成单台高密逻辑框式设备,因此系统内有多块主控,如何处理好Master主控与众多Slave主控的关系,成为IRF2支撑上层协议处理的关键。

IRF2系统采用的是1:N冗余,即Master负责处理业务,Slave作为Master的备份,随时与Master保持同步。当Master工作异常时,IRF2系统将选择其中一台Slave成为新的Master,接替原Master继续管理和运营IRF2系统,不会对原有网络功能和业务造成影响,

IRF2协议热备份功能负责将各运行协议的配置信息以及支撑协议运行的数据(比如状态机或者会话表项等)同步到其它所有成员设备,与单框设备的双引擎工作方式相似,从而使得IRF2系统能够作为一台独立的设备在网络中运行。

以路由协议为例,如图6所示,IRF2系统与外部网络使用的OSPF路由协议。当Master收到邻居路由器发送过来的Update报文时,一方面它会更新本地的路由表,同时它会立即将更新的路由表项以及协议状态信息发给其它所有成员设备,其它成员设备收到后会立即更新本地的路由表及协议状态,以保证IRF2系统中各个物理设备上路由相关信息的严格同步。当Slave收到邻居路由器发送过来的Update报文时,Slave设备会将该报文交给Master处理。

20091013_854979_p_w_picpath006_650694_30008_0.

图6 IRF2的协议处理

当Master故障时,新选举的Master可以在GR环境下无缝的接手系统运行的工作,新的Master接收到邻居路由器过来的OSPF报文后,会将更新的路由表项以及协议状态信息发给其它所有成员设备,并不会影响IRF2中数据转发。这样就保证了当成员设备出现故障的时候,其它成员设备可以照常运行并接管故障的物理设备功能,此时,域内路由协议不会随之出现中断,二三层转发流量和业务也不会出现中断,IRF2系统的GR与单台设备的GR处理流程相同,从而实现了不中断业务的故障保护和设备切换功能。

1.4         IRF2的底层转发实现

图8显示了单台框式设备与外部设备协议交互计算时的底层转发模式。设备通过主控与协议邻居进行协议的状态计算,产生全网的路由信息,然后形成转发表项,由主控下发同步到各接口卡(如图8左图)。在实际报文转发上,当以太网数据进入交换机时,交换机硬件ASIC根据转发表信息和报文头抽取源端口号、转发出端口号、其它信息组装成设备内部数据转发的附加信息头Inner Header,加载在实际以太网报文帧前在设备内部转发(如图7右图)。

20091013_854980_p_w_picpath007_650694_30008_0.

图7 单台框式设备的转发方式

对于IRF2结构下的转发,与单框设备的转发机制基本相似。对于多台盒式设备组成的IRF2系统,由Master计算并形成各成员的转发表;对于多台框式设备组成的IRF2系统,由Master设备的主用主控计算生成转发表,各框线卡的转发表均由此主控同步下发。当数据流在IRF2系统的成员设备间转发时,交换机硬件ASIC根据转发表信息和报文头抽取源端口号、转发出端口号、其它信息组装成IRF2系统内数据转发的附加信息头IRF2 Head,并封装在以太网报文前面通过IRF2互联链路转发到其它IRF2成员,便于出方向设备进行正确处理。如图8所示。

20091013_854981_p_w_picpath008_650694_30008_0.

图8 IRF2转发模式

IRF2采用分布式转发实现报文的二/三层转发,最大限度的发挥了每个成员的处理能力。IRF2系统中的每个成员设备都有完整的二/三层转发能力,当它收到待转发的二/三层报文时,可以通过查询本机的二/三层转发表得到报文的出接口以及下一跳,将报文从正确的出接口送出去。这个出接口可以在本机上也可以在其它成员设备上,并且将报文从本机送到另外一个成员设备是一个纯粹内部的实现,对外界是完全屏蔽的,即对于三层报文来说,不管它在IRF2系统内部穿过了多少成员设备,在跳数上只增加1,即表现为只经过了一个网络设备。

20091013_854982_p_w_picpath009_650694_30008_0.

20091013_854983_p_w_picpath010_650694_30008_0.

图9 IRF2跨设备链路聚合的实现

由于IRF2系统已经被虚拟化为一台设备,因此不同物理设备的端口可以被聚合(捆绑)在一起被当作一个逻辑端口,在配置与组网上也与单台设备的端口聚合功能完成相同(如图9上图所示)。但IRF2架构下的链路负载分担与单台设备有差异:对单台设备而言,一组聚合端口为一个逻辑端口,从此逻辑端口出去的数据流完全基于特定HASH (源、目的MAC地址,源、目的IP地址,四层协议端口号) 均衡算法进行流量分配;对IRF2系统来说,可以采用等同于单台设备的流量均衡方式,但此种方式下对IRF2互联带宽有一定要求。目前采用一种基于本地优先转发的方式,如图10下图所示,A和B、C和D为两组IRF2系统,共组成两层网络,两个IRF2系统通过四条链路全连接,此四条链路被聚合成一条逻辑链路。当上游设备流量(如红色线)到达A设备需要向下游转发时,A只将流量在本地聚合组的两个端口成员内以硬件HASH进行流量均衡,B设备也作相同处理,只有当IRF2成员本地没有业务出口(B的下行端口全部故障)时,数据流量才到IRF2的其它成员向下转发。因此就近本地优先转发的机制可充分发挥IRF2成员的性能,并在链路故障时流量自动绕行。

1.5         IRF2分裂检测处理

IRF2系统对外体现为一个整体的交换系统,但由于本身由多台设备组成,也存在由于意外原因导致IRF2系统分裂的可能。IRF2系统分裂后,形成两个或多个相同的逻辑设备:地址相同、配置相同,需要进行检测和进一步处理以消除对网络的影响。

桥MAC变化

IRF2系统作为逻辑单台设备,对外具有唯一的桥MAC(和三层MAC)。IRF2系统建立时,Master设备桥MAC同步到其它成员设备,分裂后,对于非Master所在系统,IRF2系统中其它设备维持该桥MAC不变并选举新的Master,此机制可避免当原Master故障时网络中的邻居设备重新学习MAC。同时IRF2也具有比较灵活的桥MAC处理方式以便于组网变通,目前提供了三种IRF2系统MAC变化的方式可通过配置实现:

     Master离开后,桥MAC立即变化

     保留6min后变化

     始终不变

Master检测和分裂处理

IRF2系统分裂后,会在网络中形成两组或多组“完全相同”的设备组,均有相同配置的Active Master,IRF2附加了检测和冲突处理,称为MAD(Multi-Active Detection,即多Active检测)。

20091013_854984_p_w_picpath011_650694_30008_0.

图10 IRF2分裂检测方式

检测:通过LACP(Link Aggregation Control Protocol,链路聚合控制协议)或者BFD(Bidirectional Forwarding Detection,双向转发检测)协议来检测网络中是否存在多个从同一个IRF2系统分裂出去的全局配置相同的IRF2,如图11所示。

LACP方式下,H3C进行了扩展开发,在LACP协议报文中增加IRF2 Master ID ,当系统分裂后,分裂后的IRF2系统有各自的Active Master ID,可通过LACP进行传递检测;BFD方式下,也通过在BFD中扩展Master ID来检测冲突。

冲突处理:IRF2系统分裂后,系统会检测到网络中存在多个处于Active状态相同的IRF2系统,Master成员编号小的处于Active状态的IRF2系统会继续正常工作,Master成员编号较大的处于Active状态的IRF2会迁移到Recovery状态:关闭该系统中所有成员设备上除保留端口以外的其他所有物理端口。

故障恢复:IRF2系统通过日志提示用户修复IRF2互联链路,链路修复后,冲突的设备重新启动,恢复IRF2系统,被Down掉的端口将重新恢复业务转发。

2            基于IRF2虚拟化技术的网络横向整合功能

IRF2是一种虚拟化技术,从对提升网络整体效率的角度,起到了一种横向整合的作用,即在不改变网络物理拓扑连接结构条件下,将网络同一层的多台设备横向整合,从逻辑上简化了网络架构。由于整合后的IRF2系统具备跨设备链路聚合功能,因此,不同网络层之间的电缆互联也可通过逻辑整合,多条链路被捆绑成一条聚合的逻辑链路,如图12所示。

20091013_854985_p_w_picpath012_650694_30008_0.

图11 IRF2对网络的横向虚拟化整合

IRF2网络架构与传统的网络设计相比,提供了多项显著优势:

1)运营管理简化。IRF2全局网络虚拟化能够提高运营效率,虚拟化的每一层交换机组被逻辑化为单管理点,包括配置文件和单一网关IP地址,无需VRRP。

2)整体无环设计。跨设备的链路聚合创建了简单的无环路拓扑结构,不再依靠生成树协议(STP)。虚拟交换组内部经由多个万兆互联,在总体设计方面提供了灵活的部署能力。

3)进一步提高可靠性。虚拟化能够优化不间断通信,在一个虚拟交换机成员链路故障时,不再需要进行L2/L3重收敛,能快速实现确定性虚拟交换机的恢复。

 

当前网络建设不断发展,虚拟化成为基础技术,全面虚拟化构建的IRF2网络同时支持包括IPv4、IPv6、MPLS、安全特性、OAA插卡、高可用性等全部交换网络特性,并且能够高效稳定地运行这些功能,大大扩展了IRF2在整网的应用范围。


IRF2技术对现网的升级及与第三方设备的标准化对接

H3C在新一代网络设备全面实施IRF2支持方案后,对基础网络结构进行了极大的简化,提升了网络运行维护的简捷性、灵活性、易扩展性,网络向虚拟化架构开始转化。

全新的基础网络建设进行端到端IRF2部署不存在问题,但是,企业现有运行网络结构绝大多数是传统模式,并且部分网络设备品牌并不统一,如何在现有模式向虚拟化过度、如何与第三方品牌设备互联正常运行,是企业非常关心的问题。

1            现网向IRF2网络的升级建议

网络本身是层次化的,IRF2技术是一种基于横向的虚拟化整合技术,应此在进行改造时也是基于层次化来考虑的,这里以图1所示的传统网络模型为例提供向IRF2网络升级改造的方式。

20091013_854813_p_w_picpath001_650637_30008_0.

图1 传统网络模型

只对接入层扩容

当网络只对接入层扩容时,有两种方式使用IRF2:二层接入和三层接入,将多台接入设备通过IRF2技术虚拟化成一台逻辑设备,然后将这个IRF2系统组接入网络。

二层接入时,大多数情况下IRF2设备仍然要与现有网络运行生成树协议和VRRP协议,IRF2系统对外只表示为一个网络节点。因此,运行生成树协议也只被作为一个生成树节点,IRF2系统对外的连接只需要使用成员设备的一般业务端口即可,可从不同的成员设备分别上联到不同的汇聚层设备。如图2所示,IRF2-A分别从不同两台成员设备上行了一条链路,生成树阻断其中一条;IRF2-B分别从不同四台成员设备上行了一条链路到两台汇聚设备,可分别将其中两条进行捆绑,形成捆绑的双上行,生成树阻断其中的一个上行捆绑链路组。

20091013_854814_p_w_picpath002_650637_30008_0.

图2 二层接入的IRF2扩容改造

IRF2三层接入方式对现网扩容时,接入IRF2设备组作为一个网络单元与汇聚层两台设备运行路由协议,由接入层IRF2设备上可见到上行网络有两条等价路由,如图3所示。

20091013_854815_p_w_picpath003_650637_30008_0.

图3 三层接入的IRF2扩容改造

汇聚层的IRF2改造

如果只对汇聚层设备进行IRF2改造,即将图1所示的双机网关设备升级到IRF2虚拟化,则基本上可消除接入层生成树环路和VRRP。采用IRF2双机替换原有独立双机设备后,可保持原有网络拓扑连接方式,对于接入层双上行到汇聚层的双链路均可进行链路捆绑,同时网关层IRF2被虚拟成一台逻辑设备,也不需要多个网关IP进行冗余,但需要对网络路由接口重新规划。在IRF2网关下再进行接入扩容时,可以直接采用IRF2接入设备。如图4所示。

20091013_854816_p_w_picpath004_650637_30008_0.

图4 汇聚层网络的IRF2改造

新建汇聚网络模块的IRF2部署

当在现有网络进行基于汇聚层模块级扩容改造时,部署IRF2方案更为简单,将汇聚层IRF2系统、两台核心设备作为三个网络节点进行路由层面互联设计,而汇聚、接入可实现模块级IRF2虚拟化结构。

20091013_854817_p_w_picpath005_650637_30008_0.

图5 新建汇聚层网络模块化IRF2方案

核心网络IRF2迁移改造

网络的核心层一般与其它层次运行路由协议,相对而言是松耦合,因此,核心层向IRF2迁移改造比较简单,可独立进行。

在传统网络结构中直接进行核心层IRF2改造,如图6所示,在规划上,维持传统设备间布线连接方式条件下,将汇聚层同一设备双上行到IRF2核心的两条链路捆绑即可,并重新进行路由接口规划。

20091013_854818_p_w_picpath006_650637_30008_0.

图6 只对核心进行IRF2改造升级的方案

核心改造也可在汇聚层改造完成后进行,或与汇聚层同时改造,这样整网形成一个简洁的无环网络,如图7所示。

20091013_854819_p_w_picpath007_650637_30008_0.

图7 核心与汇聚的IRF2改造互联

2            第三方设备与H3C IRF2的对接标准及组网方案

当企业网络中存在多种品牌设备时,需要解决第三方品牌设备如何与H3C IRF2解决方案互联互通的问题。将其他品牌的设备纳入IRF2体系是不现实的,这里提供几个互通对接的标准方式,以满足各种网络设备多品牌的对接需求。

IRF2的内部可靠性互联

IRF2的有效运行离不开可靠性互联,在非可靠性的IRF2互联情况下,H3C提供了多种IRF2分裂检测技术,如对LACP和BFD扩展的分裂检测。LACP扩展检测需要对端必须是支持H3C LACP扩展的设备。因此,保证IRF2内部通过多条链路互联,不仅可增加IRF2互联带宽,还可有效防止IRF2分裂的产生,更加有利于在任何网络结构中与周边设备的互联,如可通过标准LACP链路聚合协议互联。(如果使用BFD扩展进行IRF2的分裂检测,则可与任何第三方品牌交换机进行互联)。

20091013_854820_p_w_picpath008_650637_30008_0.

图8 IRF2内部可靠性互联

IRF2与外部设备对称性互联

IRF2技术本身是一种高可靠虚拟化技术,并在满足可靠性组网需求条件下简化网络运行。因此,为达到最佳的网络可靠性,一般建议IRF2与第三方品牌或现网设备互联时保持一定的对称性。如图9所示,其中B、C、F、G为推荐的互联方式;A、D、E、H方式可用但并不推荐。

20091013_854821_p_w_picpath009_650637_30008_0.

图9 IRF2与外部设备对称性互联

IRF2与外部设备的链路聚合

IRF2系统与外部设备通过聚合捆绑链路互联时,可以通过手工链路聚合、LACP协议标准模式聚合两种方式互联,IRF2设备的端口选取并无限制,一般情况下建议遵循对称性原则、端口分布在不同成员的原则。如图10所示。

20091013_854822_p_w_picpath010_650637_30008_0.

图10 H3C IRF2与外部设备链路聚合互联

IRF2与外部设备的其它标准化协议互通

完成IRF2系统与外部设备互联后,将IRF2作为一个网络单元来规划与其它设备的互通协议。IRF2继承了H3C软件平台所有标准化协议,因此对外运行路由协议(RIP/OSPF/ISIS/BGP/静态路由)、二层协议(802.1X/STP)、组播等与单台设备具有相同方式,如图11所示。

20091013_854823_p_w_picpath011_650637_30008_0.

图11 IRF2与外部设备运行标准协议

 

 

IRF2技术在H3C新一代网络技术平台化基础上,同时满足对所有标准网络协议的全面支持,因此,在对传统网络进行扩容与升级改造、与第三方品牌设备互联互通上都遵循既有的标准协议。IRF2既可利用本身的虚拟化优势对网络架构进行升级改良,同时能无缝融入已有网络、节省企业IT基础设施的投资。


IRF2部署实践三部曲

在基础网络架构技术已经迈入虚拟化技术的时代,主流网络设备制造商纷纷推出自己的网络虚拟化解决方案。H3C的IRF2技术可以满足从核心到接入全套的虚拟化解决方案,满足客户不同需求。本文根据真实应用情况总结了3个实践步骤,对实际的应用部署会有所帮助。

H3C IRF2在技术上实现了多项突破,操作上也非常简单易用。如图1所示为2台S12500交换机配置IRF2的步骤:

20091013_854827_p_w_picpath001_650642_30008_0.

图1: 2台交换机IRF2互联示意图

Switch1配置如下:

[switch1]irf member 1                配置设备的成员编号为1

[switch1] irf-port 1                 配置设备间互联端口

[switch1-irf-port1]port group interface Ten-GigabitEthernet 6/0/1   指定互联的物理端口

[switch1]chassis convert mode irf    系统切换到IRF2工作模式

Switch2配置如下:

[switch2]irf member 2                配置设备的成员编号为2

[switch2] irf-port 2                 配置设备间级联端口

[switch2-irf-port2]port group interface Ten-GigabitEthernet 6/0/1   指定互联的物理端口

[switch2]chassis convert mode irf   系统切换到IRF2工作模式

配置完成后会提示进行设备重启,连接好级联端口电缆等待设备启动完成后2台设备就完成虚拟化,之后就如同使用一台设备。唯一的区别只是增加了一维的chassis成员号,例如设备上某个接口编号为GigabitEthernet 3/0/1。当该设备加入堆叠后,如果成员编号为2,则接口的编号将为GigabitEthernet 2/3/0/1,其他的配置则与之前完全一样。

部署实践1:方案选择

以常用的核心与接入二级架构组网为例,使用万兆链路互联,IRF2虚拟化部署可以分为三类,如图2所示。

20091013_854828_p_w_picpath002_650642_30008_0.

图2:3种常见的网络虚拟化组网示意图

从上图可以看出,仅在接入层IRF2虚拟化组网的情况下,接入与核心设备之间还需要运行传统的STP协议来解决二层冗余链路问题,核心层的2台设备之间也要运行VRRP协议进行备份。在其他2种方案中,接入层与核心层之间都可以使用跨设备链路聚合来代替STP,使网络切换的可靠性由STP的秒级降低到链路聚合的毫秒级,两台核心设备被虚拟成一台设备后也不再需要运行VRRP协议,因此这2种组网方案能够完全体现IRF2的全部优点:解决了STP冗余环路的问题,提高了网络的可靠性,并且降低了配置与管理的复杂度;而接入层虚拟化仅仅解决了接入层设备的配置与管理复杂问题。

对于高密度接入的组网需求,可以考虑核心层与接入层全部进行IRF2虚拟化的方案;对于密度较低的接入或者需要高性能吞吐量的组网需求,可以考虑核心层进行IRF2虚拟化的方案。实际使用中可以根据实际业务需求及综合成本进行选择。

 


S12500

S9500E

S7500E*

S5800系列

S5820系列

S5500EI系列

S12500

X

X

X

X

X

S9500E

X

X

X

X

X

S7500E*

X

X

X

X

X

S5800系列

X

X

X

X

X

S5820系列

X

X

X

X

X

S5500EI系列

X

X

X

X

X

注:7500E的特定型号及主控板对IRF2有特殊要求,使用前请咨询H3C工程师。

表1 H3C交换机IRF2互联的可行性

支持IRF2级连接的端口类型:

1、S12500/9500E系列:支持万兆XFP与SFP+端口互联,以及千兆接口相互互联。其中SFP+接口也可以使用电缆连接,不用使用昂贵的光模块,在短距(最大10M)情况下可大大降低了成本。支持远程级联。

2、S7500E系列:支持万兆XFP接口互联,需要通过光纤直连。

3、S5800/S5820系列:支持万兆SFP+接口互联,可以使用光模块互联,也可以使用成本更低的SFP+电缆互联。

4、S5500EI系列:支持万兆接口互联,可使用CX4堆叠电缆或光纤互联。

总体来说,核心设备建议选择多插卡机箱式设备,这样可以满足后续业务扩展需求,接入设备可以选择低端盒式设备。通常建议使用万兆接口作为IRF2互联端口,短距离情况下使用电缆连接可以大大降低成本。

部署实践2拓扑选择

如图3所示,2台交换机进行IRF2级联,下行通过链路聚合,上行使用ECMP(等价路由)或者链路聚合连接。在此组网环境下,某台IRF2设备接收的数据会优先从本设备的出接口转发出去,而不会通过设备间级联端口到经过外一台IRF2设备的出接口转发出去。只有在本台设备没有出接口的情况下,才会选择其他IRF2设备的出接口转发,此时数据会通过2台IRF2设备之间的级联端口。这种数据流处理模式即为“本地转发优先”。

20091013_854829_p_w_picpath003_650642_30008_0.

图3:等价路由及链路聚合方式下IRF2内部转发示意图

如图4所示,如果两条上行链路一条为主用一条为备用,或者两条上行链路连接两台使用了类似VRRP技术进行热备份的防火墙/负载均衡设备,就有可能出现上行非等价路由情况,如果IRF2系统的上行为非等价路由或链路聚合的情况,将会出现上下行流量路径不一致情况:一部分流量上行时会同时经过2台IRF2交换机,另外一部分上行流量及所有下行流量将只经过一台IRF2交换机。

20091013_854830_p_w_picpath004_650642_30008_0.

图4:非等价路由方式下IRF2内部转发示意图

通过以上对比分析可以看出,“本地转发优先”的优点是:流量一般不经过级联端口,减少了级联端口的数量,从而降低了设备成本;数据经过最少的设备,降低了转发时延;当网络发生故障时,理论上一半的业务流量完全不会受到故障影响,缩小了故障影响范围。

因此,使用IRF2技术组网时,我们建议:

1、下行端口一般使用链路聚合,上行端口一般使用ECMP或者链路聚合进行互联,特殊情况下也可以使用非等价路由,但是要仔细评估业务流量的走向的影响。

2、级联端口总带宽≧2倍的上行出口带宽,一台设备最少使用2条同样类型的接口与另外一台设备进行互联,接入层设备使用环形连接。

部署实践3提高IRF2可靠性

在选择了合适的IRF2组网的方案与拓扑之后,每台IRF2系统内的成员设备去往同一目的地至少有两条链路连接到其他设备上,一条链路中断即可快速切换到另外一条链路;IRF2设备之间也互相备份,即使一台宕机也不会对网络造成严重的影响,从传统意义上看网络已经足够可靠了。但是IRF2技术提供了一个不一样的可靠性技术,在部署了这个技术之后才能真正打造出一个简化、高可靠的网络。

 当IRF2系统中出现某种故障如级联端口全部中断时,会发生IRF2分裂。为了解决此问题,H3C提供了3种分裂检测手段,在IRF2分裂后,系统会检测网络中是否存在多个从同一个堆叠系统分裂出去的全局配置相同的堆叠,检测到后,其中一台Member号大的设备会中断自己除IRF级联端口外其他所有端口,这样就保证了IRF2系统在分裂后网络中只有一台可以正常工作的IRF2设备,这种机制叫多Active检测(Multi-Active Detection,简称MAD)。

表2为三种MAD检测的适用性分析。一般来说,高可靠性要求下可以使用BFD方式MAD检测:


优点

适用性要求

LACP方式MAD检测

启用MAD domain时接入核心全虚拟化同时使能可以检测核心或接入之间的分裂;不需要占用专门检测端口

核心接入交换机均需支持该特性,其他厂家设备不支持

BFD方式MAD检测

可以独立检测本堆叠组分裂情况,对上下游设备无要求;检测速度快

单独占用一对检测端口;核心和接入需分别部署

Resilient ARP方式MAD检测

接入核心全虚拟化同时使能可以检测核心或接入之间的分裂;对上下游设备无要求;不需要占用专门检测端口

需要在3层接口上使能,建议使用单独VLAN来检测

表2 三种MAD检测方式

同时,在远距离非直连的情况下,H3C提供以太网OAM检测功能,来检测中间线路的状态,同时进行故障侦测和告警。

 

典型组网

如图5所示,某企业用户使用IRF2进行组网,核心为2台S9500E交换机IRF2互联,接入层交换机为S5500EI进行IRF2连接,每组4台,全万兆互联,每个IRF2系统的2个万兆接口连接到2台核心交换机,千兆到桌面,接入近2000台桌面PC及数百台服务器,整个网络实现了高可靠,易管理的目标

20091013_854831_p_w_picpath005_650642_30008_0.

图5:IRF2实际组网方案一

如图6所示为某大型数据中心组网,核心交换机实用2台S12500IRF2互联,高性能业务1区使用S5800-56C进行IRF2互联接入,每组4台,每个IRF2系统使用4个万兆连接到核心交换机,高性能业务2区使用5810-50S非IRF2交换机,每台使用2个万兆端口连接到核心交换机,外联区使用S9500E交换机,总共满足约4000台服务器的接入规模,整个网络实现了高可靠,易管理,高吞吐量及大缓存,满足了大型数据中心业务需求。

20091013_854832_p_w_picpath006_650642_30008_0.

                                         图6:IRF2实际组网方案二