学校工作总结 教学工作总结 教师工作总结 班主任工作总结 教学心得体会 师德师风建设 教学试卷 教案模板 教学设计 教学计划 教学评语 教学课件 学校管理
首页 > 教学资源 > 教案模板

云服务操作管理高级课堂讲稿

作者:吖哚时间:2021-04-24 下载本文

云服务操作管理高级课堂讲稿

一.P1

大家好,欢迎大家来到我们的云服务操作管理高级课堂。在上一章我们已经学习了自动化运维技术,相信大家都有了一定的了解,这一章我们将进入云服务运营规划的学习。

二.P2

那么在本章节,我们将会了解运营成本的概念,云服务企业运营成本管理的过程、控制方式、风险优化,熟悉云资源的规划;掌握云服务架构高可用性设计、柔性部署方式设计和其他云服务运营规划技术等知识点。

那么这些知识呢,将会辅助我们完成相应的技能目标,要求我们能够独立进行服务器/IDC/CDN/公有云/私有云的选型并给出相关实施建议;对大中型企业的硬件设备、机房网络等资源状况,进行资源的调配、带宽迁移及扩容进行决策;对成本进行分摊核算;掌握运营管理过程中所涉及业务的风险点,并能够通过一些方法进行有效控制和改进等等。

三.P3

另外,此次课程所涉及的职业技能认证的重要考点有:了解云服务运营成本的规划、控制、管理。熟悉云服务成本核算。能够根据成本模型,采用有效的方法对业务产生的成本进行有效控制。掌握对中小型业务结合硬件设备、机房网络等资源状况,进行资源的使用调配、带宽迁移及扩容决策,和运营管理过程中所涉及业务的风险点,并能够通过一些方法进行有效控制和改进等等。我们的课程也会围绕这些考点进行详细的讲解。

四.P4

为了大家更好的理解,在接下来的课程中,我们将以一个大型企业云服务运营规划与设计为案例,进行具体的学习和分析。

五.P5

我们根据技能认证考点的要求把第六章分为了五个小节,第一节进行知识概念的铺垫,后面四节开始进行一些项目实践。好的,废话不多说,咱们进入第一节的内容

六.P6

随着云计算的发展,IT企业在市场运营的竞争也越来越激烈,各个企业的生产运营大环境也发生了大变化,做好企业运营的成本控制逐渐成为了企业获取利益的另一个措施途径,同时也是企业在日益激烈的市场竞争中有效利用手段。从目前的市场发展来看,每一种 IT 产品的市场都有许多家企业在竞争,如果企业降低运营成本,就获得了比同类企业更大的竞争优势,企业就可以利用价格这一优势作为自己的竞争手段,有利于企业占有更多的市场份额。因此,为了后面的学习更好开展,我们需要先了解一些云服务运营成本规划方面的基础知识。

七.P7

首先,我们需要知道,云服务公司的生产成本与传统的制造业和IT公司有所不同:它主要通过互联网提供产品和服务。它的生产成本主要由机房和电信费用等运营成本来构成。

我们需要记住的一个公式是:运营成本=运营设备折旧+机房+运营部门人员和部门费用。

这些成本的要素主要有:

首先,设备的资本投入:如 IDC 设施投资、服务器和电话设备的投入等。这些资本投入是需要根据财务规则逐月来摊销费用的。

另外,还有数据中心的运营费用,运营时的成本,例如电费,网络带宽等按月发生的费用。

最后,人力资源的成本:机房运营人员的相关费用,包括工资、奖金等其他费用。

八.P8

来,我们一起看到右图的表格,云服务提供商与传统IT产业的成本比较。以Google、Amazon与IBM、Oracle作为示例企业,在其运营成本、资本、数据中心开销和人力成本方面的对比,从表中可以看出,与传统的IT产业如软件公司相比,云服务公司面临了不少挑战:

第一,投资高度密集:需要购买大量的服务器、网络设备等,如果建立自己的数据中心设施,成本会非常高,带来现金流的巨大压力。

第二,数据中心的实时运营成本,如带宽和托管费是一个持续的重复发生的成本。这是一个传统的 IT 公司不需要,或者只需要维持在较低水平的成本。

第三,相比传统的 IT 公司,机房基础设施运营团队的成本是一个额外的开支,因为一般 IT 公司都没有基础设施技术运营团队。技术运营团队涉及到人力资源的成本,这一成本在近年来以全球居于高位的增长速度,持续上涨。

九.P9

那么,面对这些挑战呢,我们要对云服务企业运营管理,就是对运营过程的计划。组织、实施和控制,是与产品生产和服务创造密切相关的各项管理工作的总称。从另一个角度来讲,运营管理也可以指为对生产和提供公司主要的产品和服务的系统进行设计、运行、评价和改造。

在云服务提供商的成本中,技术类的运营成本占的比例非常高。包括研发成本,主要是研发的人力成本;和技术运营成本,其主要是指构建生产线的服务平台和7×24生产线的运营。

运营管理是在服务、基础设施、项目等的整个生命周期中进行成本管理的一种方法,运营管理的重点始于项目选择、规划和启动阶段。到成本管理的各个阶段直到服务完成商业生命周期后下线。

这里的活动包括:

(1)工程造价:成本估算、控制、预算、投入产出分析等;

(2)项目管理;

(3)规划和调度;

(4)成本和进度绩效监控。

十.P10

如图所示,上面的核心活动融入到一个服务的生命周期的各个流程中,包括在整体服务的开发及运营过程中的关键控制点。这时,主要有四个过程关联和促进着运营管理。它们分别是公司财务控制、服务产品的设计、容量规划和服务质量管理。

十一. P11

每个过程都有自己的目标和重点,并且每个过程都有可衡量的和可管理的检查点,以此来决定何时何地何人,来执行上述活动。公司财务控制是从整体企业的角度看,根据公司经营战略,盈利能力等来进行的成本管理,公司财务控制的目标是,以确保运营成本是可以达到该公司所定义的投资回报率的目的。

这个过程中所涉及的活动包括以下内容:

(1)全面预算管理,部门预算规划;

(2)投资回报率分析;

(3)常规审计;

(4)供应商筛选;

(5)生成一个详细的“应该成本”,以验证供应商的报价,并确保最低价格;

(6)批量分析整个商品目前的价格,以发现超过成本的问题;

(7)库存管理。

十二.P12

在云服务生产设计过程中呢,我们主要是从工程设计和开发方面入手来控制成本,容量规划是技术运营管理的关键流程之一

大家需要注意的是:首先,不要把生产线建的过大或过小,以免造成浪费。其次,需要容量的建模或模拟来做预测,即使是用简单的线性回归来做计算。在实施过程中用分期实施的方式。最后,对架构和设计的生命周期的要求。例如,基础设施的设计需要至少要满足12个月的时间内的生产线需求,在这期间内不要再进行升级。

服务质量管理的重要目标之一是提高成本效率。为达到这个目标,SQM需要监控生产环境的各个环节、收集数据、分析数据和提出改善计划。

十三.P13

至于对云服务公司的运营成本的控制,可以从下个几个方面来着手:

第一,云服务公司的产品设计,包括采用价值工程法,做最佳性价比分析,确定销售产品的功能。

第二,采购过程的控制非常重要。

第三,生产成本包括机房技术运营所需要的费用,机房的房租水电费,以及机房技术运营人员的工资和福利。

第四,期间费用主要是机房工程的折旧,机器及电子设备和办公设备的折旧。

第五,销售及管理费用,在财务报表中是独立的两笔分类。

十四.P14

想要优化云服务企业运营管理,就必须明白我们要做什么——即运营的目标是什么。以及怎样去做——即实现的原理及方法,或怎样达到我们的目标。

我们可以看一下一线运营管理者的经验总结

首先,一半技术一半管理,就是说生产线问题的一半原因来自于技术和人员的管理问题,另一半原因来源于技术问题。

第二,主动措施,而非被动措施。我们应该在在生产线发布之前建立稳固的服务平台,而不是上线后才发现问题不得不整改。

第三,生产线运营:快速恢复服务是第一要务。在处理事故过程中,找问题不是关键,我们应该第一时间去恢复服务,以满足客户需求。

第四,任何事物都在不断的发展与变化,我们需要不间断的学习和改进来提高服务质量。

第五,KISS原则,用尽量简单的流程或技术设计,保持简单和易懂。

最后,人员管理:团队的分立。相对独立团队不仅会对服务质量的提高提供保障,也能让不同风格的工程设计师找准自己的的位置。

十五.P15

云服务企业运营管理过程风险点及控制方法有哪些呢?

在7×24小时的云服务运营中,很多的技术运营经理都会遇到很多运营管理过程的问题,云服务的运营管理和一般IT公司环境有所区别,在运营管理问题的处理上,比一般的IT活动要花更多的精力和时间。

首先,服务高可用性需求,通常需要99.9%或者是99.99%级别。

其次,大数量用户共享的生产线环境。

最后,客户形态千变万化,尤其对于B2B商业模式来说,从财富500强客户到中小企业,带来对服务特性的要求的不同。

这样的挑战需要生产线的变更要有严格的控制,包括变更时间、变更频率、变更成功率、客户的影响等。所有的这些要素都应该在运营管理中考虑到。

十六.P16

对于一个云计算服务的公司,如果想要生存并且成功,服务的可靠性和业务连续性是必须要保证的。因此,要在服务质量不受影响的前提下,变更服务和基础设施需要从以下几个方面来进行:

第一,控制变更、降低无计划的变更或紧急变更,从而减少相关的服务中断,提高服务可用性。第二,通过更快、更成熟的变更实施步骤来减少恢复服务的平均时间。第三,对业务所要求的变更能够快速响应,及时安排和实施。第四,管理、法律、合同和监管需求都需满足安全规范的审计。

6.2

一.P17

从这节课开始,我们将以项目为案例进行下面的学习,需要大家完成的任务有:能够进行云资源的规划,应用、高可用架构设计,进行柔性部署方式设计和其他云运营规划技术。

二.P18

云计算已经被公认为是信息产业发展的制高点。云计算技术将大大提高社会计算资源、存储资源的利用效率,促进资源、信息的高度共享。建设、应用好云数据中心,将进一步推动我国信息产业健康持续发展,提高互联网、电子商务、电子政务等行业的国际竞争力。

那么企业如何进行云资源的规划与设计呢?让我们一起进入任务1—云资源的规划,我们将从五个部分进行学习:云计算的类型及应用场景、云计算资源的选型、云网络资源的选型、云存储资源的选型和云数据库资源的选型。

三.P19

首先,我们一起来了解一下云计算的类型及应用场景。如图所示,云计算作为一种计算方式,它允许通过互联网以“服务”的形式向外部用户交付灵活、可扩展的IT功能。云计算是在互联网上部署和交付应用,且可按需求而扩展。云计算不是终端用户购买的东西,而是企业为了达到降低基础架构成本、提高效益、解决容量和可扩展性问题等目的,而采用的一种新型应用架构。

四.P20

根据运营模式进行分类,目前云计算的类型主要分为三种:

首先是私有云,私有云是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。

相对应的还有公有云。公有云通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过 Internet 使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。

而混合云是融合了公有云和私有云,近年来云计算的主要模式和发展方向。它使IT有更多的灵活性,可以选择将应用放在哪里运行,在成本和安全性之间进行平衡。

那么,云计算在我们的生活中都应用在了哪些方面呢?

首先,App部署。使用云平台部署App应用,可以根据目前用户数量动态调整需要的硬件以及网络带宽等资源,随时调整随时生效非常方便,而且使用成本非常廉价。

其次,企业商务网站及办公。企业网站可以根据目前最新的客户需求,通过云计算平台提供的开发模块进行网站的动态扩张,商业模式推出之后,商务网站会迅速完成软件部署。

最后,行业应用。比如连锁销售、金融等行业应用,通过云计算平台能完成独立运行、安全运行和整合运行的灵活应用。

五.P21

关于云计算资源的选型,计算资源承载私有云中所有业务系统的需求,计算资源选型需满足以下两点:

第一,根据先进可用的原则,进要保证整个计算平台的平稳运行,要不能过多得追求高性能,要求做到合理选型、合理分配。

第二,尽量的利旧,利用现有可用资源可以根据后续需要合理设计到整个计算平台中,防止浪费。

服务器是云计算平台的核心之一,其承担着云计算平台的“计算”功能。因此,在服务器选型方面,我们要求其具有可靠性、可用性、可扩展性、易用性和可管理性。

六.P22

在选着服务器时,我们需要注意以下硬件配置。

CPU 处理器相当于人体的大脑,负责整个服务器的运算和控制,是影响其性能效率的最核心部件。多核高主频技术使得CPU成为性能瓶颈的可能性越来越低。

其次,内存大小,作为硬指标的内存,配置越高,所能支持的虚机数量越多。

目前,千兆网环境已很普遍,网络带宽大多有保证,更多从管理角度来考虑网络端口的选择。

关于HBA卡,由于磁盘访问性能对虚机数量有一定影响,建议采用10G以太网或者8Gbps FC以减少链路影响。

最后,内置磁盘的可用性及IO吞吐能力均较弱,不建议在其上存放虚拟机,推荐使用外置高性能磁盘阵列。

七.P23

由于物理服务器资源自身的最大限制,应用负载越大,所能同时运行的虚机数量越少。因此,当我们将不同应用访问特性的应用混合部署在同一物理服务器上时,可运用DRS和VMotion技术将物理机与虚机的比率关系调到最优。考虑到HA及DRS所要求的资源冗余,所有运行虚机在正常负载下,总体资源使用率不超过三分之二会比较合适,在部署虚拟化时,对物理服务器的硬件配置需要考虑以下因素:

第一,可用的CPU目标数量尽可能多。

第二,超线程技术并不能提供等同于多核处理器的好处;建议关闭CPU的超线程功能。

第三,使用具有EM64T能力的IntelVT或AMDV技术的CPU可以同时支持运行32位和64位的虚拟机。

第四,采用同一厂商、同一产品家族和同一代处理器的服务器组成的集群。

第五,尽可能采用最大容量的内存条,八.P24

看到下面这个表格,部署虚拟化时的服务器典型配置。大家可以看到双路服务器CPU和四路服务器CPU的配置情况。

九.P25

网络资源主要是指借助于网络环境可以利用的各种信息资源的总和,同计算资源以及存储资源一样,是一种可被租户共享使用并提高利用率的资源。但是,不同租户的计算资源以及存储资源之间,有很强的隔离性,可以实现按需按比例分配的使用方式,但是网络资源却不可以。因为一台虚拟机在使用的网络资源时,会受到在其他虚拟机影响,其他虚拟机之间的通信也会竞争此虚拟机通信时可使用的链路资源。

在传统的数据中心,每个网口对应唯一一个物理机。有了云,一台物理网卡可能会承载多个虚拟网卡。如右图所示,对应于一个二层广播域,二层网络可以进行二层可以为三层网络提供二层隔离。一般用物理网络的设备名称标识。VLAN、VXLAN、或者SDN等能提供二层隔离技术都可作为二层网络。

十.P26

大家一起来看一下二层网络主要支持以下网络类型有哪些呢?

首先,NoVlanNetwork类型,表示相关的物理机对应的网络设备不设置VLAN,如果交换机端口设置了VLAN,则需在交换机端配置Access模式,如果交换机端口没有设置VLAN,则无须特别设置。至于VlanNetwork类型呢,则表示相关的物理机对应的网络设备需设置VLAN,从逻辑上划分虚拟局域网,支持1~4094个子网,此类型需在物理机接入的交换机端进行Trunk设置。此外,VxlanNetwork类型,表示使用VXLAN的子网进行网络配置,需要先建立VXLANPool,再建立VxlanNetwork。

十一.P27

接下来,我们一起看到三层网络资源,三层网络是由子网以及一系列网络服务组成,云主机使用的网络配置,包含了IP地址范围、网关、DNS、网络服务等。

主要分为:

公有网络,即可直接连通互联网的网络。

系统网络,即管理节点用于特定用途的网络。

私有网络,也可称之为业务网络或接入网络。私有网络指定为云主机使用的网络作为系统网络的一种,用于管理控制对应的物理资源。

还有,存储心跳网络,特指在进行分布式存储部署时,底层存储系统通信使用的网络。大家在添加主存储时,可标识存储网络的无类别域间路由,表示使用此网络来判断云主机健康状态。

十二.P28

云路由与硬件路由器不同,云路由是在云资源之间通过各种资源的唯一识别代码按照一定资源的组织规律计算出资源所处位置的一种计算方法。主要使用定制的Linux云主机作为路由设备,提供DHCP、DNS、SNAT、弹性IP、端口转发、负载均衡、IPsec隧道、安全组等网络服务。

云路由网络主要分为:公有网络,管理网络,和私有网络。

云网络的设计与实施要根据项目实际情况进行,既要满足生成环境需求,又要便于管理。

十三.P29

大家看到右边这三张图片,目前主流的存储架构结构图,第一张是直连方式存储。在这种方式中,存储设备是通过电缆直接到服务器。I/O请求直接发送到存储设备。第二张图片所示为网络连接存储,NAS设备通常是集成了处理器和磁盘/磁盘柜,连接到TCP/IP网络上,通过文件存取协议存取数据。NAS将文件存取请求转换为内部I/O请求。

最右边这张图所展示的是存储区域网络,是存储设备组成单独的网络,大多利用光纤连接,服务器和存储设备间可以任意连接。I/O请求也是直接发送到存储设备。如果SAN是基于TCP/IP的网络,则通过iSCSI技术,实现IP-SAN网络。

十四.P30

下面我们用一个表格对上述几种存储方式的优劣势进行了分析。

首先是DAS,它的费用低,适合于单独的服务器连接。但是主机的扩展性受到限制,主机和存储的连接距离受到限制,只能实现网络备份,对业务网络的压力较大。

NAS的优势是高性能,高扩展性,光纤连接距离远,可连接多个磁盘阵列或磁带库组成存储池,易于管理,通过备份软件,可以做到Server-Free和LAN-Free备份,减轻服务器和网络负担。但是其成本较高。

至于SAN,其安装过程简单,易于管理,利用现有的网络实现文件共享,具有高扩展性。但是不支持数据库应用。

十五.P31

通过以上的对比呢,我们可以看出SAN具有如下优势:

 首先是其关键任务数据库应用,其中可预计的响应时间、可用性和可扩展性是基本要素;SAN不仅具有出色的可扩展性,还克服了传统上与SCSI相连的线缆限制,极大地拓展了服务器和存储之间的距离,从而增加了更多连接的可能性;

 改进的扩展性还简化了服务器的部署和升级,保护了原有硬件设备的投资。集中的存储备份,其中性能、数据一致性和可靠性可以确保关键数据的安全;高可用性和故障切换环境可以确保更低的成本、更高的应用水平;可扩展的存储虚拟化,可使存储与直接主机连接相分离,并确保动态存储分区;改进的灾难容错特性,在主机服务器及其连接设备之间提供光纤通道高性能和扩展的距离。

最后,考虑到IP-SAN的扩展性比FC-SAN更加出色。我们可以在IP-SAN中使用SCSI、FC、SATA、SAS等多种磁盘阵列来扩展IP-SAN的容量,我们推荐使用IP-SAN存储架构。

十六.P32

现在无论是对于中小企业还是大中型企业,云计算带来的运营管理和业务效率的提升都是显著的。随着业务云化的深入,数据库云化也尤为重要。因为,企业的研发、设计、生产、销售等一系列业务流程,离不开对数据进行存储和管理的仓库,云同样是最合适的。因此数据库云化是必然趋势。

数据库云化有着诸多明显优势,首先其具有更高的灵活性和可扩展性。利用云计算池化资源的天然优势,云数据库可以提供更好的弹性,利于企业进行存储和计算资源的独立扩缩容,按需开通、快速部署,使资源得到最大化利用。其次,云数据库的性价比更高。相比自建数据库,需付出昂贵的软硬件成本,云数据库只需要按照自己实际使用的资源付费,产品开发与运营的硬件成本显著降低。最后,云数据库更高效,即开即用。几分钟内便可获得一个高性能、高可靠的数据库实例,从而实现从繁琐的硬件采购、服务部署与维护中解放出来。

右图的表格像大家清晰的展示了常见的云数据库及其特点,包括:

1.MySQL数据库

2.Redis数据库

3.MongoDB数据库

4.HBase数据库

6.3

一.P33

这一节,我们将开始任务二:云服务系统架构设计,我们将从五个部分进行学习:云服务系统架构分层、架构高可用性术语介绍、应用场景、具体设计和监控策略。

二.P34

如图所示,云服务的技术架构层次从云服务构架层次上来划分,可分为三层,IaaS是基础,然后是PaaS和SaaS。

首先,在IaaS层,服务于用户的是基础设施,如计算机,包括CPU、内存、磁盘空间、网络连接等基础设备,此外还有操作系统等基础软件,其计费往往以CPU内存、存储空间和网络流量等使用收费。

PaaS服务呢,主要是在基础层之上提供中间件,让用户能够快速开发部署SaaS应用,这些应用开发是对原始PaaS应用扩展,使其能够快速开张业务。

最后,SaaS服务是面向客户的应用,是基于PaaS开发,并可使用IaaS部署的服务,因此构建云服务时,要同时了解IaaS、PaaS和SaaS特点,有针对性设计构架。

三.P35

关于架构高可用性术语,有以下几个需要大家注意的:

第一,高可用性HA指的是通过尽量缩短因日常维护操作和突发的系统崩溃所导致的停机时间,以提高系统和应用的可用性,是企业防止核心计算机系统因故障停机的最有效手段。

第二,集群技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。

第三,负载均衡,就是指将负载进行平衡、分摊到多个操作单元上进行运行,例如FTP服务器、Web服务器、企业核心应用服务器和其它主要任务服务器等,从而协同完成工作任务。

第四,双机热备是一种软硬件结合的服务容错方案,通常由两台服务器系统和一个外接共享磁盘队列柜及相应的软件组成。“故障检测”是双机热备的一项任务,采用“心跳”方法来保证主系统和备用系统的联系。

第五,容灾系统DR是指在相隔较远的异地,建立两套或多套功能相同的系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统可以继续正常工作。

四.P36

那么架构高可用性应用场景都有哪些呢?

大家一起来看一下高可用Web应用的场景描述,如图所示,将业务不同的服务采用不同可用组部署,隔离服务层故障影响。高可用组将保证Web服务对应的云主机实例分散在物理资源上,数据库服务对应的云主机也分散在不同物理资源上。当某一台Web服务云主机所在物理资源出现故障时,其他Web服务实例以及数据库服务实例不受影响,保证业务高可用。

五.P37

在弹性高性能计算应用的场景描述中,如图可以看到:计算请求通过负载均衡到达应用服务器,当计算量波动时,支持基于监控指标配置告警伸缩策略,自动触发新增或删除云主机,保障集群计算能力,节省业务部署成本。若可预估计算量波动情况,可预先规划可用组内云主机数量并配置定时伸缩策略,定时触发新增或删除云主机。

六.P38

如图所示,高可用数据库应用场景描述:一台机器A作为读写库,另一台B作为备份库;A库故障后B库作为读写库;A库恢复后A作为备库。数据源配置中的数据库IP地址,可采用虚拟的IP地址。虚拟IP地址由两台数据库机器上的Keepalive配置,并互相检测心跳。当其中一台故障后,虚拟IP地址会自动漂移到另外一台正常的库上。

数据库的主备配置、故障排除和数据补全,需要DBA和运维人员来维护。而程序代码或配置并不需要修改。

七.P39

接着,大家再一起来学习架构高可用性具体是如何设计的。在不同的应用要求中呢,高可用的具体设计要求和级别是不一样的。下面我们从简单到复杂,从低要求到高要求进行设计。

首先,双机热备是应用于服务器的一种重要解决方案,其通过创建与主实例保持虚拟同步的虚拟机,使应用在服务器发生故障的情况下也能够持续可用。

八.P40

架构高可用性设计还可以利用虚拟机HA,主要指在有一个共享存储池的情况下,当一台物理机挂了,这台物理机上的虚拟机可以迁移到其他物理机的机制。如图所示,因为虚拟机是有状态的,因而需要共享存储池来保证状态可以被另外一台物理机读取到。

九.P41

大家思考一个问题,如果一个机架,或者整个机房,甚至整个数据中心着火了,则如何保证业务的连续性呢?

我们常用的机制是同城双活,就是在同一个城市,距离大概30km到100km的两个数据中心之间,通过高速专线互联的方式,让两个数据中心形成一个大二层网络。如图6-3-7所示。

十.P42

在同城双活的前提下,如果你觉得一个地方两个数据中心还是不保险,例如海啸、地震、原子弹等,则可以在异地修建容灾数据中心。

如图所示,异地容灾距离比较远,不可能像双活一样采取近同步的方式,只能通过异步的方式进行同步,可以预见的是容灾切换的时候,数据会丢失一部分。由于容灾数据中心平时是不用的,不会将所有的业务都进行容灾,否则成本太高。

十一.P43

接下来就是本节最后一部分内容,监控系统。

如果没有监控,生产环境的状态将不能被有效展现,甚至失去控制。完善的监控服务能够快速地发现故障、定位故障点、诊断故障原因、帮助制定解决方案,从而缩短服务停止时间和提高客户满意度。监控体系面临的两大挑战分别是有效性和高效性,即要求保证所上报生产线上的问题要准确并具有意义。

十二.P44

如图所示,监控系统是由内部环境监控和外部环境监控组成。其中,内部环境监控包括客户的性能监控、用户体验监控和互联网性能监控;外部环境监控包括云服务提供商的服务系统监控、业务活动层监控和基础层监控。这些监控就像是航空服务,如果因为天气不好,乘客被耽误飞机。但是乘客会把天气耽误飞机的原因归咎于航空公司一样。因此,航空公司要严密监控天气,做好防范和应急措施。这就是云服务运营商要做的同样的事情。

十三.P45

在计算机诞生的时候就一直伴随着宕机、硬件故障、软件故障等等问题,虽然计算机的硬件和软件制造商不断地改进优化,但是从理论上来讲,无故障的硬件和软件是不可能实现的。因此,对于基础设施的监控尤为重要。

为了让故障发生时,服务商能第一时间知道,并且处理问题,将损失降低到最小,需要对计算机的系统、网络设备、数据库、存储等进行监控,这些就是基础设施的监控。看到下面的表格,就是基础设施的监控的主要对象和目标。

十四.P46

我们所监控内容有很多,比如:

系统是否出现磁盘满、网络中断、CPU或内存出现高负载,指定进程是否在运行、端口是否绑定、HA服务是否正常。

网络设备是否出现网络中断、线路负载过高、CPU或内存出现高负载。

数据库不仅需要对其进行系统级的监控,还需要对数据库服务进行监控,进程是否存在,是否可以提供正常的查询/写入服务、数据同步是否正常。

存储也需要对其进行系统级的监控,另外还需要监控器是否可以提供网络服务、磁盘空间,高可用性(HA)是否正常工作等等。

十五.P47

那如何进行基础监控呢?我们可以利用基于SNMP协议开发的监控件,还可以通过C/S的方式开发的监控软件。

另外,虚拟化监控能大大节约硬件资源的投入,提高硬件的资源使用效率,可以更合理、更简单的调整和分配资源,使IT管理成本也得到很大地降低。对这些虚拟化的宿主机监控也是基础监控的一部分,每台组主机都工作数台甚至数十台虚拟机,一旦出现故障,影响将十分巨大,因此对宿主机的监控也是监控工作的重点。

如果要监控企业运营状况,我们还可以进行业务活动监控。业务活动监控的核心是应用程序层的监控。具体分三个步骤执行,首先以有效及时的方式收集足够量的相关数据来提供有意义结果;然后处理数据来识别分类特定关系相关的因素;最后分析数据并以清晰、简洁的方式展示结果,让工作人员能采取适当措施。

十六.P48

关于对互联网的性能监控主要有以下几个指标:

(1)网络丢包率监控

网络丢包率是指测试中所丢失数据包数量占所发送数据包的比率,通常在吞吐量范围内测试。丢包率主要与网络的流量及硬件设备有关,另外如果之间的设备损坏也会造成丢包。

(2)网络延时及抖动监控

网络延时指一个数据包从用户的计算机发送到产品运营服务器,然后再立即从服务器返回用户计算机的来回时间。网络延时和网络延时的抖动越小,网络的质量就越好。

在云服务的环境下,服务商需要提供给用户一个最优的用户体验,不管用户处于何种网络,以及何种地理位置,都能得到最好的服务,因此传统的监控已经不能满足需求,需要监控到每个用户使用云服务的情况,也就是用户体验的监控这包括:

(1)监控用户端到服务端的网络质量状况,当客户到某个云服务点出现网络问题,根据当时情况,可以调整客户到他最优的另外一个云服务点。

(2)监控用户端的使用体验,如用户的LAN的状况、Client软件的运行情况、客户使用模式等。监控体系可以根据收集到数据做用户行为分析,为以后产品的更新和重构提供基础。

6.4

一.P49

在项目迭代的过程中,不可避免需要进行项目上线。上线对应着部署或者重新部署,部署对应着修改,修改则意味着风险。目前有很多用于部署的技术,有的简单,有的复杂,有的得停机,有的不需要停机即可完成部署。在这一节,我们将学习任务3:柔性部署方式设计。我们分为蓝绿部署、灰度/金丝雀发布和滚动发布三个部分学习。

二.P50

所谓蓝绿部署,是指同时运行两个版本的应用,蓝绿部署的时候,并不停止掉老版本,而是直接部署一套新版本,等新版本运行起来后,再将流量切换到新版本上。但是蓝绿部署要求在升级过程中,同时运行两套程序,对硬件的要求就是日常所需的二倍,比如日常运行时,需要10台服务器支撑业务,那么使用蓝绿部署,你就需要购置二十台服务器。

如图所示,蓝绿部署的特点是无需停机,并且风险较小。但蓝绿部署对框架隔离有较高要求,如Docker容器、Dubbo框架等,不建议将新老版本部署在一个容器中。服务器及数据库资源要求1比1复制,对资源消耗较大。其优势为:升级切换和回退速度非常快。但是,切换需要全量切换,如果新版本有问题,则对用户体验有直接影响,但可快速还原到旧版本,需要两倍机器资源,对数据库同步要求高。

三.P51

灰度发布也叫金丝雀发布,在灰度发布开始后,先启动一个新版本应用,但是并不直接将流量切过来,而是测试人员对新版本进行线上测试,启动的这个新版本应用,如果没有问题,那么可以将少量的用户流量导入到新版本上,然后再对新版本做运行状态观察,收集各种运行时数据,如果此时对新旧版本做各种数据对比,就是所谓的A/B测试。

如图所示,当确认新版本运行良好后,再逐步将更多的流量导入到新版本上,在此期间,还可以不断地调整新旧两个版本的运行的服务器副本数量,以使得新版本能够承受越来越大的流量压力。其优势是:用户体验影响小,灰度发布过程出现问题只影响少量用户。但是发布自动化程度不够,发布期间可引发服务中断。

四.P52

滚动发布是在金丝雀发布基础上的进一步优化改进,一种自动化程度较高的发布方式,用户体验比较平滑,是目前成熟型技术组织所采用的主流发布方式。就是在升级过程中,并不一下子启动所有新版本,是先启动一台新版本,再停止一台老版本,然后再启动一台新版本,再停止一台老版本,直到升级完成.其特点是:部署方式更加节约资源——它不需要运行两个集群、两倍的实例数。我们可以部分部署,例如每次只取出集群的20%进行升级。用户体验影响小,体验较平滑。但是发布和回退时间比较缓慢。

6.5

一.P53

大家好,本节是第六章最后一节了,我们将学习任务4:其他云服务运营规划技术,我们将分为迁移上云规划、异地多活规划和容灾备份规划三个部分展开。

二.P54

首先,迁移上云规划系统迁移上云是一个整体系统工程。迁移必须保证用户系统建设的相关要求,在迁移方案设计中,我们重点考虑几个问题。

第一,保障业务中断停机时间最小化

业务中断对于用户无论是运行环境还是测试环境均存在较大的恢复风险,这样的风险特别对于时间敏感型数据和数据完整性业务都是不可以接受的。我们基于这样的要求,考虑到如何将停机时间最小,能否实现0停机的建设目标。

第二,业务切割时间节点优化

针对现有系统需要对外提供服务的应用,需要通过对用户历史应用进行分析,选择最优的切割时间节点,以及切割期间的备份链路、人工受理手段。

第三,迁移后完整性测试

迁移涉及到应用、实例、数据库的操作以外,还涉及到迁移前规划、迁移后测试的完整性测试。这些测试包括但不限于数据一致性测试、数据完整性测试、应用会话状态完整性测试、连接中断测试、数据恢复测试。只有这样才能保证迁移的安全性和有效性。

三.P55

服务器硬件环境该如何迁移呢?对原有服务器硬件环境和操作系统环境虚拟的支持程度,可以降低迁移的难度。迁移评估迁移前,需要工程师勘察现有系统的架构和资源使用状况。

首先是进行迁移评估。其次,要对迁移做出计划。迁移计划后,执行小批量的测试迁移方案。最后,在迁移实施过程中,所有的服务器都会被迁移到虚拟化系统下。在目标系统和最终系统之间进行迁移。

关于应用系统和数据库的迁移方案,我们可以应用服务器迁移和数据库迁移实施

四.P56

异地多活一般是指在不同城市建立独立的数据中心,“活”是相对于冷备份而言的,冷备份是备份全量数据,平时不支撑业务需求,只有在主机房出现故障的时候才会切换到备用机房,而多活是指这些机房在日常的业务中也需要走流量,做业务支撑。冷备份的主要问题是成本高,不跑业务,当主机房出问题的时候,也不一定能成功把业务接管过来。

其架构模式主要有:

(1)同城异区

部署在同一个城市不同区的机房,用专用网络连接。同城异区两个机房距离一般就是几十千米,网络传输速度几乎和同一个机房相同,降低了系统复杂度、成本。

(2)跨城异地

部署在不同城市的多个机房,距离要远一些,例如北京和广州。此模式就是用来处理极端灾难情况的,例如城市的地震、相邻城市的大停电。

(3)跨国异地

部署在不同国家的多个机房。此模式的延时就更长了,正常情况也得几秒,无法满足正常的业务访问。

五.P57

分布式数据库异地多活架构主要有:

异地容灾:异地的容灾和备份,保证数据安全,中心间距离超过1000km以上。满足“两地三中心”的需求。

同城双活:同城双中心的数据准实时同步,保证数据一致;双中心数据可以实现同时读写,大大提升读写效率;中心切换RTO小于10分钟。

数据压缩机制:节约带宽资源,加快同步和备份过程。

六.P58

该架构是基于三副本方案构建的同城灾备,其中两副本部署在本机生产环境中,一副本部署在灾备环境中,整个集群跨越生产环境与灾备环境两个机房。如图所示,为了保证灾备环境与生产环境的数据保持实时一致,开启数据库中数据同步强一致性的功能。

开启数据同步强一致性后,每次进行数据更新时,只有当存活的节点全部同步完成后,应用端才回收到更新成功的返回,这样就能在最大程度上保证了数据不丢失。

七.P59

在同城灾备的基础上,在异地机房单独部署一套集群作为异地灾备集群。如图所示,异地集群只保持单副本,两地间结构化数据的同步通过传输同城灾备集群日志到异地灾备集群,然后通过重放日志记录的方式实现结构化数据的同步。

八.P60

关于灾难应对主要分为:

(1)单节点故障应对。如图所示,由于采用了三副本高可用架构,个别节点故障情况下,数据组依然可以正常工作。针对个别节点的故障场景,无需采取特别的应对措施,只需要及时修复故障节点,并通过自动数据同步或者人工数据同步的方式去恢复故障节点数据即可。

九.P61

(2)本地生产环境整体故障应对。当生产环境机房出现整体故障时,整个集群环境将会失去三分之二的节点,如果从每个数据组来看,相当于每个数据组有两个数据节点出现了故障,存活的节点只剩余一个。当这种情况发生时,如果不采取任何措施,灾备环境中存活的节点,只能为业务提供查询功能。

当这种场景发生时,为了让使灾备环境中的一个副本继续提供读写服务,这时需要使用SequoiaDB的集群Takeover功能,把灾备环境中的集群分裂成单节点集群,这时灾备环境节点均可提供读写服务。分裂集群的耗时相对比较短,一般在十分钟内便能完成。如图所示,分裂集群之后,不可再启动生产集群的两个副本,需要使用SequoiaDB的合并集群功能后才能进行启动,否则将出现脑裂,即生产集群也开始提供数据更新服务。将造成生产集群和灾备集群两个数据版本,很难将两者合并。

十.P62

(3)灾备环境整体故障应对。当灾备环境出现整体故障时,由于每个数据组都有两个副本部署在生产环境中,每个数据组存活节点的数量还大于每个数据组的总节点数,所以每个数据组仍然能够为应用层提供读写服务。针对灾备环境整体故障的场景,无需采取特别的应对措施,只需要及时修复故障节点,并通过自动数据同步或者人工数据同步的方式去恢复故障节点数据即可。

十一.P63

(4)网络故障应对。当同城网络出现故障,导致本地环境与灾备环境无法进行通信时,由于采用了三副本的架构,应用程序可以通过访问本地两副本集群。针对同城网络的故障场景,无需采取特别的应对措施,只需要及时修复网络故障,修复后通过自动数据同步或者人工数据同步的方式去恢复灾备节点的数据即可。

如图所示,该用户的影像平台采用了同城双活架构,每个数据组都有两个节点落在主机房中,另外一个节点落在灾备机房中。当主机房整体出现故障时,可以使用SequoiaDB数据库提供的分裂功能在数分钟内快速地把灾备机房中的单一副本分裂成独立的集群为业务提供服务,因此恢复时间目标几乎接近零。

分布式数据库作为数据管理的最核心枢纽,也将不断提高数据安全、数据可用性方面的功能。通过双活、多活以及高可用灾备等机制不断创新,数据库安全将会提升一个新的台阶。

十二.P64

关于容灾备份的规划,灾备系统是一种基于不同地理位置的服务高可用性解决方案。它通过在不同的地理位置建立相同的云计算服务实例,实例之间进行数据实时复制,以此来实现自然灾害造成的大规模的区域云数据中心失效时,将云计算服务自动转移到另一个地理位置的云数据中心,从而保证服务可以继续的一种策略。如图所示,云服务灾备系统是一个庞大而复杂的系统,它包括以下几个子系统网络系统、应用系统、数据同步系统,包含存储数据及数据库数据的同步。当一个地点的服务完全中断,其他地点的客户被透明地转移到另一个地点。

十三.P65

在网络系统中,网络层是整个云计算系统中的最高层,终端用户通过网络访问服务,所以首先要求主系统和备份系统所在的不同的数据中心之间要有必要的网络互联。

如图所示,服务备份系统服务转移过程如下: 一般客户端都是通过域名来访问服务,假设服务的域名是boo.com,在域名服务器上会有两条记录,分别对应着主服务和备份服务的虚拟IP。如果主服务是健康的,当客户端访问boo.com时,域名服务器会返回主服务的虚拟IP给客户端,客户的请求就被定向到主服务;如果主服务有问题,主服务的虚拟IP就会自动关闭,当域名服务器感知后,就会返回备份服务的虚拟IP给客户端,这样客户的请求就被自动转移到备份服务,从而实现服务转移。

十四.P66

在云应用系统中,应用层是云计算的业务逻辑层。当终端用户通过网络访问服务时,网络层最终把请求转发给了相应的应用服务器,一般现代的企业级的云计算系统都用一群功能相同的服务器来实现一个服务。如图,我们可以看到应用层集群的结构。

集群的好处有:

动态扩展容量。第一次部署可能只有2台服务器,后面如果发觉访问量增加了,可以加一台或多台服务器到已经存在的集群。一定的容错能力。当一个集群中有多台服务器时,如果其中的部分服务器发生故障,负载平衡器会自动地把这些服务器从集群中屏蔽掉,从而保证用户的请求永远只会被转发给健康的服务器。

十五.P67

接下来,大家一起思考一个问题:负载平衡器是根据什么来判断和某一个VIP相关联的服务器的健康状况呢?

十六.P68

数据同步系统包括数据库和文件系统。如图,数据库复制工具的工作机制如下:文件系统的实时双向复制机制类似于数据库复制工作机制。由于复制是实时双向的,所以必然会存在两边同时修改同一个文件或数据库的记录,当复制到对方时,必然会产生数据冲突。这时要根据应用程序和客户的需要,进行取舍。这就要求在数据复制工具中,要能够根据客户和应用程序的需要,灵活地定制数据冲突解决方案,并且要求数据复制工具能够感知数据冲突的发生,并且能够选择调用合适的冲突解决方案来修正数据。

十七.P69

到这里,我们第六章的内容就学习得差不多了,大家再一起来回顾一下吧。

云课堂作文

云课堂观后感

高级管理岗位职责

单证管理操作自查报告

云课堂作文750字

《云课堂作文750字.docx》
云课堂作文750字
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
相关文章
猜你喜欢