面试场景题系列:设计云盘系统

news/2025/1/4 3:17:34/

近些年,谷歌云盘(Google Drive)、Dropbox、微软OneDrive和苹果iCloud等云存储服务变得很流行。在本章中,你被要求设计一个像谷歌云盘的系统。

在开始设计之前,让我们花点时间来了解谷歌云盘。谷歌云盘提供文件存储和同步服务,它可以帮我们在云端存储文档、照片、视频和其他文件。你可以在电脑、智能手机和平板上访问你的文件,也可以很轻松地将这些文件共享给朋友、家人和同事。图-1和-2分别展示了谷歌云盘在浏览器上和移动应用上的界面。

图-1

图-2

场景需求界定

本文设计的云盘需求如下:

•可靠性。对于存储系统而言,可靠性极其重要。数据丢失是不可接受的。

•快速同步。如果文件的同步需要很长时间,用户会变得不耐烦,然后放弃使用产品。

•带宽的使用。如果产品占用了很多网络带宽,用户会不开心,特别是他们在使用移动数据流量套餐时。

•可扩展性。系统应该有能力应对大流量。

•高可用性。即使有服务器离线、变慢或者出现意外的网络故障,用户应该依然可以使用系统。

性能估算:

•有5000万注册用户和1000万的DAU。

•每个用户有10GB的免费空间。

•每位用户每天上传两个文件,每个文件的平均大小是500KB。

•用户的读写操作的比例为1∶1。那么,可以得出以下估算数字。

•总存储空间:5000万×10GB=500PB。

•上传API的QPS:1000万×2÷24÷3600≈240。

•峰值QPS=QPS×2≈480。

顶层设计

在本节,我们会使用稍微不同的方式讲解,而不是一上来就展示高层级设计图。我们会从简单的工作开始,在单服务器中构建所有的组件。然后,对组件进行扩展以支持百万量级的用户。我们从单服务器设置开始。

•用一个Web服务器来上传和下载文件。

•用一个数据库来追踪元数据,如用户数据、登录信息和文件信息等。

•用一个存储系统来存储文件。我们分配1TB存储空间来存储文件。

图-3的左边展示了一个“/drive”目录的例子,并在右边展示了它展开后的样子。

图-3

2.1 API

API看起来是什么样子的?我们主要需要3个API:一个用于上传文件,一个用于下载文件,还有一个用于获取文件修改信息。

上传文件至云盘

我们支持两种类型的上传。

•简单上传。如果文件较小,就使用这种上传类型。

•可续传上传。如果文件很大,而且网络中断的概率很高,就使用这种上传类型。可续传上传的API示例:https://api.example.com/files/upload?uploadType=resumable参数:

•uploadType=resumable

•data:要上传的本地文件。

可续传上传通过如下3步来实现[插图]:•发送初始请求来获取可续传URL。•上传数据并监控上传状态。•如果上传被中断,则恢复上传。

从云盘下载文件

示例API:https://api.example.com/files/download参数:

•path:下载文件的路径。

示例参数:

{"path":"/下载/生活/日志.txt"
}

获取文件修改信息

示例API:https://api.example.com/files/list_revisions参数:

•path:要获取其修改历史的文件的路径。

•limit:可返回的修改记录的最大数量。

示例参数:

{"path":"/下载/生活/日志.txt","limit":20
}

2.2 跳出单服务器设计

随着越来越多的文件要上传,你会收到云盘空间已满的警告。你想到的第一个解决方案是数据分片,这样数据就可以被存储在多个存储服务器上。图-4展示了基于user_id分片的例子。

图-4

你通宵奋战,设置好数据库分片并仔细地监控它,一切又平稳运行了。你扑灭了火,但是依然害怕存储服务器出现故障导致数据丢失。很多像Netflix和Airbnb这样的大公司使用Amazon S3来存储数据。“亚马逊简单存储服务(Amazon Simple Storage Service,Amazon S3)是一种对象存储服务,它提供了业界领先的可扩展性、数据可用性、安全性和性能”。你决定做一些调查来看看它是否适合自己。

阅读各种资料后,你对Amazon S3存储系统有了很好的理解,决定把文件存储在Amazon S3中。Amazon S3支持同地区和跨区复制。地区是指AWS(Amazon Web Services,亚马逊网络服务)有数据中心的地理区域。如图-5所示,数据可以在同地区(左图)和跨区(右图)复制。将冗余文件存储在多个地区,可以防止数据丢失并确保可用性。桶(Bucket)就像文件系统中的文件夹。

把文件放到Amazon S3后,你终于可以睡个安稳觉了,不用担心数据丢失。为了防止类似的问题再次发生,你决定做进一步的研究,找出可以改进的地方。以下是你找到的一些改进点。

•负载均衡器:添加负载均衡器来分配网络流量。负载均衡器可以确保网络流量均匀地分布,并且如果一个Web服务器发生故障,负载均衡器就会重新分配流量。

•Web服务器:在添加负载均衡器后,可以根据流量负载轻松地添加/移除Web服务器。

•元数据数据库:把数据库从服务器中移出来,以避免单点故障。与此同时,设置好数据复制和分片来满足可用性和可扩展性需求。

•文件存储:Amazon S3被用来存储文件。为了确保可用性和持久性,文件在两个分隔的地理区域之间进行复制。

在实施上述改进措施之后,你已经成功地从单服务器中解耦出Web服务器、元数据数据库和文件存储。更新后的设计如图-6所示。

图-6

2.3 同步冲突

对于像谷歌云盘这样的大型存储系统,同步冲突会时不时发生。当两个用户在同一时间修改同一个文件或者文件夹时,冲突就会发生。如何解决冲突?我们的策略是:系统先处理的版本胜出,系统后处理的版本将收到冲突通知。图-7展示了一个同步冲突的例子。

图-7

在图-7中,用户1和用户2尝试在同一时间更新同一个文件,但是我们的系统先处理了用户1的文件。用户1完成了更新,用户2遇到了同步冲突。怎么解决用户2遇到的同步冲突呢?我们的系统展示了同一个文件的两个副本:用户2的本地版本和服务器上的最新版本(如图-8所示)。用户2可以选择把两个文件合并,或者用一个版本覆盖另一个版本。

图-8

2.4 高层级设计

图-9展示了高层级设计。我们来看系统的每个组件。

**用户:**用户通过浏览器或者移动应用来使用该应用程序。

**块服务器(Block Server):**块服务器将块上传到云存储。块存储,也叫作块级存储,是一种在云端存储数据文件的技术。一个文件可以被分成几个块(Block)。每个块都有一个唯一的哈希值,存储在我们的元数据库里。每个块都被当作独立的对象并存储在我们的存储系统中(Amazon S3)。要重新构建一个文件时,按照特定的顺序将块连接在一起。至于块的大小,我们可以参考Dropbox的设置,它设定一个块最大为4MB[插图]。

**云存储:**一个文件可以被分成小块并存储在云存储里。

**冷存储:**一个专门用于存储不活跃数据的计算机系统。不活跃数据指的是在很长时间内都没有被访问过的文件。

**负载均衡器:**平均地在API服务器之间分配请求。

图-9

**API服务器:**负责除了上传流程之外的几乎所有事情。API服务器用于验证用户身份、管理用户资料、更新文件元数据等。

**元数据数据库:**存储用户、文件、块、版本等元数据。请注意,文件是存储在云上的,元数据数据库中只包含元数据。

**元数据缓存:**缓存某些元数据以便快速获取。

**通知服务:**它是一个发布者—订阅者系统。当特定事件发生时,它允许数据经由通知服务传输到客户端。在我们的场景中,当一个文件被添加、编辑,或移到别的地方时,通知服务通知相关客户端,使它们可以获知文件最新的状态。

**离线备份队列:**如果一个客户端离线,无法及时接收通知服务发送的文件更改通知时,离线备份队列会存储这些信息,这样当客户端上线时就可以同步更新自己的文件。

设计继续深入

在本节中,我们会详细讨论下面的话题:块服务器、元数据数据库、上传流程、下载流程、通知服务、节约存储空间和故障处理。

3.1 块服务器

对于经常更新的大文件,如果每次更新时都发送整个文件会消耗很多带宽。为了最小化传输的数据量,我们提出以下两个优化方法。

•增量同步(Delta Sync)。当文件被修改时,通过使用同步算法,仅同步被修改的块而不是同步整个文件。

•压缩。对块进行压缩可以显著减小数据大小。因此,可以基于文件类型,使用压缩算法来压缩块。举个例子,可以将gzip和bzip2用于压缩文本文件。对于图像和视频则需要采用不同的压缩算法。

在我们的系统中,块服务器为了上传文件承担了繁重的工作。块服务器处理传给客户端的文件,包括把文件分割成块、对每个块进行压缩和加密。我们并不会将整个文件上传到存储系统,而只传输有改动的块。

图-10展示了一个新文件被添加进来时块服务器是如何工作的。

•将文件分割成小块。

•使用压缩算法压缩所有块。

•为了确保安全性,在把每个块发送到云存储之前先对其加密。

•将块上传到云存储。

图-10

图-11展示了增量同步的例子,这意味着只有更改过的块才会被传给云存储。黑底的“块2”和“块5”为更改过的块。如果使用增量同步,则只有这两个块会被上传到云存储中。

图-11

块服务器通过增量同步和压缩数据,帮我们节省了网络流量。

3.2 高一致性需求

我们的系统默认要求强一致性。在同一时间内,不同客户端上展示的同一个文件必须是一致的。系统需要为元数据缓存和数据库层提供强一致性支持。

内存缓存默认采用最终一致模型,这意味着不同的副本可能有不同的数据。为了实现强一致性,我们必须确保如下两点。

•缓存的副本中的数据和主数据库中的数据是一致的。

•对数据库写入时让缓存失效,以确保缓存和数据库持有相同的值。

在关系型数据库中实现强一致性是容易的,这是因为它维护了ACID(Atomicity,原子性;Consistency,一致性;Isolation,隔离性;Durability,持久性)特性。但是,NoSQL默认不支持ACID特性,必须通过编程将ACID特性纳入同步逻辑。在我们的设计中,我们选择关系型数据库,因为它天然支持ACID特性。

3.3 元数据数据库

图-12展示了数据库Schema设计。请注意,这是一个高度简化的版本,只包括最重要的表和想要关注的字段。

**用户表(user):**包含用户的基本信息,比如用户名、电子邮件地址、个人照片等。

**设备表(device):**存储设备信息。push_id用于发送和接收手机推送通知。请注意,一个用户可以有多个设备。

**命名空间(workspace):**命名空间是用户的根目录。

**文件表(file):**存储与最新文件有关的所有信息。

**文件版本(file_version):**存储一个文件的版本历史。已有的行都是只读的,从而保证文件修订历史的完整性。

**块(block):**存储关于文件块的所有信息。只要按正确的顺序连接所有块,就可以重新构建任意版本的文件。


图-12

3.4 上传流程

下面我们讨论当客户端上传一个文件时会发生什么。为了更好地理解这个流程,我绘制了如图-13所示的顺序图。

在图-13中,并行发送两个请求:添加文件元数据和上传文件至云存储。这两个请求都来自客户端1。

添加文件元数据

1.客户端1发送请求,添加新文件的元数据。

2.在元数据数据库中存储新文件元数据,并将文件上传状态改为“等待”。

3.告知通知服务有一个新文件正在被添加。

4.通知服务通知相关客户端(客户端2)有一个文件正在被上传。

图-13

上传文件至云存储

2.1 客户端1将文件内容上传到块服务器。

2.2 块服务器把文件分成块,对块进行压缩和加密并把它们上传到云存储。

2.3 一旦文件被上传,云存储就会触发上传完成回调,并将请求发送给API服务器。

2.4 在元数据数据库中,文件状态被改为“已上传”。

2.5 告知通知服务有一个文件状态被改为“已上传”。

2.6 通知服务发通知给相关客户端(客户端2),文件已上传。

当文件被编辑时,流程是类似的,所以不再赘述。

3.5 下载流程

当添加文件或者在别的地方编辑它时会触发下载流程。客户端如何知道有文件被添加或者别的客户端在编辑文件呢?有两个方法可以让客户端知道。

•如果其他客户端在修改文件时,客户端A在线,那么通知服务会告知客户端A有文件发生变更,所以它需要拉取最新的数据。

•如果其他客户端在修改文件时,客户端A已离线,那么数据会被存储到缓存中。当客户端A再次上线时,它将拉取最新的数据。

一旦客户端知道文件被更改,它首先会通过API服务器请求元数据,再下载块来构建文件。图-14展示了详细流程。请注意,因为版面有限,这里只展示了最重要的组件。

图-14

1.通知服务告知客户端2,文件在别的地方被更改了。

2.一旦客户端2知道有新的更新,就发送请求来获取元数据。

3.API服务器向元数据数据库发送请求以获取改动的元数据。

4.元数据被返回给API服务器。

5.客户端2获取元数据。

6.一旦客户端收到元数据,就向块服务器发送请求来下载块。

7.块服务器首先从云存储下载块。

8.云存储将块返回给块服务器。

9.客户端2下载所有新块来重新构建文件。

3.6 通知服务

为了保持文件的一致性,在本地发生的任何文件变更都需要通知其他客户端,以减少冲突。为了达到这个目的,要创建通知服务。当事件发生时,通知服务将数据传输给客户端。下面是一些方法。

•长轮询。Dropbox使用的就是长轮询。

•WebSocket。WebSocket提供客户端和服务器之间的持久连接。通信是双向的。尽管两个方法都可以用,但出于下面两个原因,我们选择长轮询。

•与通知服务的通信不是双向的。服务器发送文件变更的信息给客户端,但不会反过来。

•WebSocket适用于实时双向的通信,比如聊天应用。对于云盘,当没有数据爆发时,不会经常发送通知。

通过长轮询,每个客户端建立一个长轮询连接到通知服务。如果检测到某个文件的变更,客户端会关闭这个长轮询连接。关闭连接意味着客户端必须连接元数据服务器来下载最新的变更。在收到响应或者连接超时后,客户端会立刻发送一个新请求来保持连接打开。

3.7 节约存储空间

为了支持文件版本历史和确保可靠性,同一个文件的多个版本被存储在多个数据中心内。频繁备份文件的所有修订会会很快填满存储空间。我们提议采用以下3个技术来降低存储成本。

•数据块去重。在账号级别消除冗余块是节省空间的一个简单方法。如果两个块有相同的哈希值,我们就认为它们是一样的。

•采用智能数据备份策略。可以应用以下两个优化策略。

◆ 设定一个阈值。我们可以设定存储的版本的最大数量。如果达到阈值,最老的版本就会被替换为新版本。

◆ 仅保存有价值的版本。有些文件可能经常被修改。例如,保存一个被多次修改的文件的每个版本,可能意味着在短时间内要保存这个文件超过1000次。为了避免产生不必要的副本,我们可以限制保存的版本的数量,给最新的版本更高的权重。做实验有助于找出要保存的最合理的版本数量。

•把不常用的数据放到冷存储里。冷数据是那些几个月甚至几年都未被使用的数据。Amazon S3 Glacier这样的冷存储比Amazon S3便宜多了。

3.8 故障处理

大型系统可能出现故障,我们必须在设计中采用特定策略来解决这些故障。面试官可能会想听你谈一谈如何处理下列系统故障。

•负载均衡器故障:如果负载均衡器坏了,备用负载均衡器会启动并接管流量。负载均衡器之间通常用心跳信号来互相监控。心跳信号是在负载均衡器之间定期发送的信号。如果某负载均衡器在一段时间内没有发送心跳信号,就会被认为发生了故障。

•块服务器故障:如果某个块服务器发生故障,其他块服务器就会接管未完成或者待处理的工作。

•云存储故障:将S3桶在不同地区复制多次。如果某文件在一个地区无法访问,可以从不同的地区获取它。

•API服务器故障:API服务器是无状态的,如果一个API服务器发生故障,流量会通过负载均衡器重定向到别的API服务器。

•元数据缓存服务器故障:将元数据缓存服务器复制多次,如果一个节点发生故障,你依然可以通过访问其他节点来获取数据。我们会启用一个新缓存服务器来替换发生了故障的那个。

•元数据数据库故障。

◆ 如果是主节点发生故障,则将一个从节点提升为新的主节点,并启用一个新的从节点。

◆ 如果是从节点发生故障,可以用另一个从节点来执行读操作,并启用一个新的数据库服务器来替换发生故障的节点。

•通知服务故障:每个在线的用户和通知服务器都保持了长轮询连接。因此,每个通知服务器和很多用户建立了连接。根据Kevin Modzelewski的技术演讲“How We’ve Scaled Dropbox?”,每个服务器每秒有超过100万个连接。如果一个服务器发生故障,所有长轮询连接都会丢失,客户端必须重连到另一个服务器。尽管一个服务器可以保持很多打开的连接,但它无法同时重连所有丢失的连接。与所有丢失的客户端重新建立连接是一个相对慢的过程。

•离线备份队列故障:将队列复制多次。如果一个队列发生故障,队列的消费者可能需要重新订阅备份队列。

总结

在本章中,我们提出了一个类似谷歌云盘的系统设计。强一致性、低网络带宽和快速同步,这些特性让这个设计很有趣。我们的设计包含两个流程:管理文件元数据和文件同步。通知服务是系统的另一个重要组成部分。它使用长轮询使客户端实时了解文件变更。

和所有系统设计面试问题一样,这个问题没有完美解决方案。每个公司有特定的限制,而你必须设计一个满足这些限制的系统。了解设计的权衡和技术选择是重要的。如果面试的最后还剩几分钟时间,你可以讨论一下不同的设计选择。

例如,我们可以从客户端直接将文件上传到云存储而不是通过块服务器上传。这个方法的优点是文件上传速度更快,因为文件只需要往云存储中传输一次。在我们的设计中,文件先被传输到块服务器,然后才被传输到云存储中。尽管如此,新方法还是有缺点。

•首先,对于同样的分块,其压缩和加密逻辑必须在不同的平台(iOS系统、安卓系统、桌面浏览器)上实现。这容易产生错误,并且需要做很多工程工作。在我们的设计中,所有这些逻辑都在一个中心化的地方实现——块服务器。

•其次,因为客户端容易被入侵或者操控,在客户端上实现加密不是理想的方式。系统的另一个有趣演进是把在线/离线逻辑移到一个单独的服务中。我们把这个服务叫作在线状态服务。把在线状态服务从通知服务器中移出,就可以将在线/离线功能集成到其他服务中。

系统的另一个有趣演进是把在线/离线逻辑移到一个单独的服务中。我们把这个服务叫作在线状态服务。把在线状态服务从通知服务器中移出,就可以将在线/离线功能集成到其他服务中。


http://www.ppmy.cn/news/1559988.html

相关文章

Cornerstone3D:了解Nifti文件,并查看元数据

Nifti 全称Neuroimaging Informatics Technology Initiative是一种专为存储医学和神经影像数据而设计的文件格式。设计目的是高效的存储三维或四维图像数据,同时将相关的元数据紧凑地嵌入文件中。Nifti文件的组成:头信息(元数据)…

机器学习研究方向有哪些创新点

机器学习方向的创新点众多,这些创新不仅推动了机器学习技术的发展,也拓展了其应用领域。以下是一些主要的创新点: ### 一、算法创新 1. **新型神经网络架构** * **图神经网络(Graph Neural Networks, GNNs)**:传统神经网络主要处理欧几里得空间的数据,如图像和序列。然…

下载并使用CICFlowMeter提取网络流特征(Windows版本)

CICFlowMeter简介 CICFlowMeter是一款流量特征提取工具,从原始的pcap包中聚合流,并提取流特征到csv格式的文件中。使用CICFlowMeter提取的特征有助于后续基于网络流的分析与建模 官方github地址:https://github.com/ahlashkari/CICFlowMete…

WebSocket封装

提示:记录工作中遇到的需求及解决办法 文章目录 前言二、背景三、WebSocket3.1 什么是 WebSocket ?为什么使用他?四、封装 WebSocket4.1 Javascript 版本4.2 Typescript 版本4.3 如何使用?五、我的痛点如何处理前言 本文将介绍 WebSocket 的封装,比如:心跳机制,重连和一…

探索电商数据:爬取不同平台商品信息的Python实践

在数字化时代,电商平台的商品信息成为了宝贵的数据资源。除了亚马逊,全球还有许多电商平台的商品信息值得爬取。本文将介绍几个值得关注的电商平台,并提供Python代码示例,展示如何爬取这些平台的商品信息。 1. 京东 (JD.com) 京…

迁移SVN工程到GITLAB

1.迁移整个版本库,保留提交记录: git svn clone SVN仓库地址 --stdlayout --no-metadata --authors-file userinfo.txt project(拉取的数据存储目录) 其中: --stdlayout 参数表示你的项目在 SVN 中是常见的 “trunk/branches/tags” 目录结…

【brew安装失败】DNS 查询 raw.githubusercontent.com 返回的是 0.0.0.0

从你提供的 nslookup 输出看,DNS 查询 raw.githubusercontent.com 返回的是 0.0.0.0,这通常意味着无法解析该域名或该域名被某些 DNS 屏蔽了。这种情况通常有几个可能的原因: 可能的原因和解决方法 本地 DNS 问题: 有可能是你的本…

tomcat窗口闪退,以及在eclipse上面运行不出来

能解决是因为我原来的tomcat安装包还在。 我之前搞eclipse的时候好像在工具还是什么里面吧tomcat给移除了,然后就变成了,虽然我的tomcat安装包还在,但是eclipse上面死活运行不了,而且也识别不了我的jsp代码;并且我来访…