Oracle ASM Failgroup故障组

- - 1. 故障组的核心作用
  - 2. 故障组的配置规则
  - 3. 故障组的设计最佳实践
  - 4. 故障组的实际示例
  - - 场景1：普通冗余（2个故障组）
    - 场景2：高冗余（3个故障组，跨数据中心）
  - 关键注意事项
  - 总结

Oracle ASM **故障组（Failure Group，简称Failgroup）**是ASM磁盘组中用于定义冗余逻辑的核心概念。它用于标识一组可能共享相同故障风险的磁盘（例如同一物理磁盘阵列、同一控制器、同一机架或同一数据中心）。通过将磁盘分配到不同的故障组，ASM可以确保数据的冗余副本分布在不同的故障组中，从而避免单点故障导致数据丢失。

1. 故障组的核心作用

冗余保护
在启用**Normal Redundancy（普通冗余）或High Redundancy（高冗余）**的磁盘组中，ASM会将数据块的副本存储在不同的故障组中。例如：
• 普通冗余：每个数据块保存2个副本，分布在2个不同的故障组。
• 高冗余：每个数据块保存3个副本，分布在3个不同的故障组。
故障隔离
故障组的划分基于物理或逻辑的隔离条件（如不同磁盘柜、不同电源、不同网络交换机），确保单个硬件故障不会同时影响多个故障组。
存储均衡
ASM会均匀地将数据分布在所有故障组中，从而实现负载均衡和性能优化。

2. 故障组的配置规则

默认行为
• 如果没有显式定义故障组，每个磁盘会被视为一个独立的故障组。
• 在普通冗余模式下，必须至少配置2个故障组；在高冗余模式下，必须至少配置3个故障组。

显式定义
可以通过FAILGROUP关键字在创建磁盘组时手动指定故障组。例如：

CREATE DISKGROUP data NORMAL REDUNDANCYFAILGROUP fg1 DISK '/dev/sda1', '/dev/sda2'  -- 故障组1（例如同一机架的磁盘）FAILGROUP fg2 DISK '/dev/sdb1', '/dev/sdb2'; -- 故障组2（例如另一机架的磁盘）

动态扩展
可以向现有故障组添加磁盘，或创建新的故障组来扩展磁盘组容量。

3. 故障组的设计最佳实践

物理隔离原则
• 每个故障组应代表一个独立的故障域（Failure Domain），例如：
◦ 同一磁盘控制器下的磁盘 → 一个故障组。
◦ 同一机架的磁盘 → 一个故障组。
◦ 同一数据中心的存储 → 一个故障组（适用于跨数据中心的高可用架构）。
数量匹配冗余策略
• 普通冗余：至少2个故障组。
• 高冗余：至少3个故障组。
• 外部冗余：无需故障组（依赖底层硬件冗余）。
均衡容量与性能
• 每个故障组的磁盘数量和容量应尽量均衡，避免数据分布倾斜。

4. 故障组的实际示例

场景1：普通冗余（2个故障组）

CREATE DISKGROUP ocr NORMAL REDUNDANCYFAILGROUP fg1 DISK '/dev/asm-disk1', '/dev/asm-disk2'  -- 故障组1（机架A）FAILGROUP fg2 DISK '/dev/asm-disk3', '/dev/asm-disk4'; -- 故障组2（机架B）

• 数据分布：每个数据块在fg1和fg2中各存一个副本。
• 容错能力：单个机架故障或单个磁盘故障不影响数据可用性。

场景2：高冗余（3个故障组，跨数据中心）

CREATE DISKGROUP prod_data HIGH REDUNDANCYFAILGROUP fg1 DISK '/dev/asm-disk1', '/dev/asm-disk2'  -- 数据中心1FAILGROUP fg2 DISK '/dev/asm-disk3', '/dev/asm-disk4'  -- 数据中心2FAILGROUP fg3 DISK '/dev/asm-disk5', '/dev/asm-disk6'; -- 数据中心3

• 数据分布：每个数据块在3个数据中心的故障组中各存一个副本。
• 容错能力：可容忍两个数据中心同时宕机。

关键注意事项

故障组与冗余策略绑定
故障组仅在普通冗余或高冗余的磁盘组中有意义。外部冗余的磁盘组无需配置故障组。
不可修改现有故障组结构
无法直接修改磁盘组的故障组定义，需通过ALTER DISKGROUP ... ADD/DROP DISK动态调整。
监控与均衡
使用V$ASM_DISK和V$ASM_DISKGROUP视图监控故障组的容量和性能均衡状态：
```
SELECT GROUP_NUMBER, FAILGROUP, TOTAL_MB, FREE_MB FROM V$ASM_DISK;
```