百度快照
  • INTRODUCTION
  • 大会简介
  • CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天,主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

  • 从行业角度出发

    不鼓吹某项技术也不抹黑某项技术

  • 从社区角度出发

    希望引导社区向着正确的方向前进

  • 从内容角度出发

    专题系统全面且演讲有层次有深度

  • 从听众角度出发

    重经验 & 谈实践 多落地 & 少概念

  • special topics
    专题介绍
    CO-CHAIR
    联席主席
    HOSTS
    出品人
    SPEAKERS
    演讲嘉宾
    schedule
    会议日程
    第一天
    第二天
    时间 主题 讲师
    主会场
    09:00~09:30 开场:智能时代的新运维 徐川
    极客邦科技 InfoQ中国主编
    09:30~10:15 为什么说AIOps是未来,百度的思考与实践

    百度应用运维团队一直追求高质量的产品可用性和用户体验,追求最经济的硬件和带宽成本,追求高效的产品迭代速度,追求无人值守的场景化运维,追求帮助业务核心能力的构建。百度应用运维平台经历了基础运维平台、开放运维平台到现在的智能化运维平台这几个阶段。

    本次将分享百度对于运维下一幕的思考——AIOps,以及AIOps在百度具体业务场景下的实践落地。

    王栋
    百度基础技术体系主任架构师
    10:30~11:15 DevOps知识体系与标准化的构建

    作为一种源自业界的新的软件工程范式,针对DevOps的实践和讨论正处于风口浪尖。DevOps正在广度和深度上“重塑”软件工程的技术与实践。像以往的重大软件变革一样,DevOps的发展也必将经历一个由“野蛮生长”,到集体反思,再到知识体系构建,并进一步推动DevOps持续发展的成熟过程。作为DevOps中国社区的核心成员,南京大学率先开展了覆盖DevOps全周期、围绕DevOps全方位的探索工作,并通过整合科研、产业和教育来助力DevOps在中国的发展走向成熟。

    本次分享将介绍我们在DevOps知识体系构建上的最新进展,以及建立DevOps标准化方向上的探索与思考。

    听众获益:

    1. 提供一个厂商中立的认识DevOps的视角;
    2. 对DevOps相关技术和实践的系统化梳理;
    3. 了解DevOps知识体系基本架构;
    4. 参与DevOps标准化建设的机遇。

    张贺
    南京大学 软件学院教授
    11:30~12:15 从自动化到智能化的阿里运维体系

    运维体系在前些年集中在信息化、自动化,这两年随着AI的火热,AI和运维如何更好的结合来提升运维成为了火热的方向,阿里的运维体系同样也在经历着这样的演变过程,包括脚本化、工具化、自动化和智能化4个阶段。自动化是智能化的大前提,本话题将分享阿里在从工具化走向自动化的经验和挑战,甚至是为此所做的组织结构调整,以及在自动化有不错的进展后在智能化上所做的尝试和看到的一些方向。

    内容大纲:
    1. 阿里运维体系,主要介绍阿里运维体系所cover的范围;
    2. 从信息化到自动化,介绍阿里走向自动化这个过程的经历及经验;
    3. 探索智能化,阿里在智能化运维上做的一些探索和尝试;
    4. 挑战及未来。

    听众受益:
    自动化、智能化是目前大家都能看到的运维领域的两大阶段,但其实真正的要做到自动化并没那么容易,阿里的经验相信能给大家一些帮助,加速大家达成自动化,为走向智能化奠定基础,而阿里在智能化运维上的一些尝试和探索也能让大家看到基于自动化的基础和AI的结合,给运维这个领域所能带来的变化和收益。

    林昊(毕玄)
    阿里巴巴研发效能事业部负责人
    智能化运维
    13:30~14:15 AIOps的核心技术之一:任务机器人如何在金融运维/运营中落地

    近年来,人工智能技术备受关注,将AI引入IT运维领域,AIOps的概念由此而生。那么金融领域中,其运维场景到底能否落地AI,以及如何落地,甚至能否通过AIOps支持更好的运营,这也成为了金融行业关注的焦点。

    本次分享是通过宜信技术研发中心在金融运维/运营领域中如何引入人工智能技术的探索与实践,帮助大家了解哪些痛点适合引入人工智能技术,以及AIOps的关键技术之一:任务机器人的概念和难点。从我们的实践中,提炼任务机器人的构建思路和架构原理,针对难点问题阐述解决之道,并通过对应用场景的落地剖析,提供一系列参考实现,希望为大家建立适合自身需求的AIOps应用场景提供思路和方法。

    主要内容如下:

    1.为什么引入人工智能:金融运维/运营的痛点

    2.AIOps之核:任务机器人系统

       2.1与聊天机器人的区别与联系
       2.2三个核心难点
            基本意图理解
            系统API理解
            个性化交流上下文构建及语义理解

    3.构建任务机器人实战

       3.1设计理念与思路
       3.2架构与实现原理
       3.3难点问题攻略

    4.应用场景落地实践剖析

       4.1机器人程序员:智能系统上线
       4.2机器人玩转SRE:微服务架构下的智能巡检
       4.3类人化的运营参与者:实时运营协作与咨询

     听众收益:

    1.了解金融运维/运营中哪些问题适合引入人工智能技术,为大家在自身领域中识别哪些问题是人工智能的问题提供参考
    2.通过围绕AIOps的核心技术之一的任务机器人展开的话题,帮助大家掌握任务机器人的概念和难点,并提供了一种参考实现,启发大家构建自己的任务机器人的思路和灵感
    3.通过任务机器人的应用场景剖析,让大家深入了解AIOps是如何在这些场景中落地,会带来什么变革与价值,帮助大家更清晰的认识该如何运用人工智能技术来解决领域中的实际问题


     

    张真
    宜信技术研发中心高级架构师/研发总监
    14:30~15:15 基于日志trace的智能故障定位系统

    传统的trace系统面对大规模系统故障时有以下几个问题:
    1.日志回收处理能力强,但对于单PV的精细分析定位受限于人工分析速率,通常在分钟级每PV;
    2.大规模复杂异常时,抽样个别PV的定位结论,容易以偏概全,缺少汇聚回归;
    3.依赖于人的经验;

    因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术:

    1.基于GBDT的单PV根因预测模型;
    2.数据多维度汇聚与维度间信息熵排序;
    3.智能抽样系统;
    4.数据获取异步化、维度逐级下钻等一系列工程优化;

    最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

    听众受益:

    1.复杂系统大规模故障自动定位的一次最佳实践,包含我们的方法论和理想方案的思考;
    2.机器学习技术与运维工具的有机结合,label-set的选取和折衷;
    3.日志trace系统在大规模高并发、高吞吐系统上的工程实践和折衷;

    曹轩
    百度搜索运维团队技术负责人
    15:35~16:20 容器环境下的智能运维技术研发与实践

    随着数据中心规模增长和容器技术应用深入,数据中心容器应用或服务间依赖日益复杂化,应用异常告警呈爆发式增长,误报率与漏报率居高不下,给传统运维带来巨大压力。事实上,大量告警之间、告警与事件(升级、配置变更、容器迁移等)之间存在显式或隐含的因果关系,采用机器学习技术发掘潜在因果关系,将有助于大幅提升告警分析处理的效率。 

    本专题将详细分享浙江大学SEL实验室在容器云平台监控与智能化异常检测分析方面的研发实践,包括应用性能监控、动态拓扑、全链路分析、异常根源检测以及智能化运维实践。

    听众收益:
    1.了解应用全链路容器运行数据采集与分析技术;
    2.了解容器应用异常检测及根源分析技术思路;

    才振功
    浙江大学软件学院讲师
    16:35~17:20 机器学习在大规模服务器治理复杂场景的实践

    我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大地挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。

    本专题主要分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来,在数据能覆盖的场景下,实现了100%的发现率。

    听众受益:

    1. 了解大数据和机器学习在智能运维方面的实践;
    2. 了解机器学习在批量问题发现问题中的思路和产品设计。

    陈立波
    阿里巴巴高级技术专家
    大数据运维
    13:30~14:15 腾讯TB级别的海量日志监控平台

    处理多样和海量的业务日志对实现、性能、稳定性和成本带来挑战,怎样支持灵活的日志采集处理,实现具有容灾能力的高性能和低成本的存储系统?这里介绍腾讯SNG基于QQ号码体系的每天70TB,峰值130万/s的业务日志采集、实时处理、存储和在线统计分析大数据平台。该平台基于Jstorm、Druid和ElasticSearch构建,支持标准化的日志和有规则的个性日志采集;将数据处理过程抽象为过滤、翻译、聚合统计和存储,实现配置化的数据处理流程;构建自研的低成本日志存储系统和基于Druid的OLAP系统,提供秒级响应的在线数据查询服务。

    听众收益:

    1. 如何实现自定义的日志采集方案?
    2. 如何实现通用的数据处理平台?
    3. 如何实现低成本的日志存储系统?
    4. 如何集成和维护稳定的大数据平台套件?

    吴树生
    腾讯SNG监控负责人
    14:30~15:15 苏宁大数据平台运维实践

    苏宁大数据平台经过3年多的快速发展,集群规模从10台虚机急速扩展到700台物理机,平台组件也逐渐丰富,形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中,平台规模的增长和组件的增多都给平台运维带来了很大的挑战。本话题将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点,以及相应的应对措施和解决方案,希望能为大家提供一些思路或经验。

    1. 如何解决部署及运维复杂的问题?
    2. 如何解决缺少资源使用视图的问题?
    3. 如何解决排查问题耗时长的问题?
    4. 如何解决应用优化门槛高的问题?

    王志强
    苏宁云商IT总部技术总监
    15:35~16:20 阿里巴巴大数据运维实践

    阿里拥有海量的数据和超大规模的计算集群,每天离线调度节点超百万,如何保障数据的稳定性,这对于运维保障人员挑战巨大,这里面除了要保证系统稳定性外,还包括故障体系的建立和跨组织协调保障等问题,在全民AI的时代,运维工作同样需要依靠大数据,我们有很多工作需要重新思考。

    1、背景介绍:
    从以下几个方面介绍大数据运维的重要性
    1)阿里巴巴是一家数据公司;2)阿里基于数据驱动的线上应用越来越多;3)稳定性是大数据能力的基本要求;
    2、目前遇到的挑战
    1)体量越来越大,超EB的存储,超百万的计算节点;
    2)几十个bu数据之间错综复杂的依赖关系;
    3)数据链路太长,涉及平台非常多,系统环境比较复杂;
    4)业务压力,需要快速迭代;
    3、和稳定性相关的几个标准
    1)数据资产等级,从资损、影响范围等维度定义;2)破线率,是衡量运维效果的最重要指标;
    3)故障体系,包括故障定义、故障处理、故障review、故障定责等内容;
    4.大数据运维的主要目标
    1)数据及时性;2)数据准确性;3)驱动大数据能力快速发展;
    5、实践过程(重点讲的部分)
    1)强保障基线策略,包括基线定义、实现原理等方面的介绍;
    2)平台工具建设,包括监控告警系统、运维操作平台、规则校验平台等几个体系化的工具介绍;
    3)组织保障,包括各团队SLA建立、稳定性月会等;
    6、举个例子
    以一个具体的数据业务场景,完整的描述这个应用在整个生命周期内的运维过程;
    7、未来的规划
    1)打通整条数据链路;2)持续投入工具平台建设;3)通过数据解决数据的问题;  
     

    张磊(宗超)
    阿里巴巴数据技术及产品部-高级技术专家
    16:35~17:20 百度运维大数据存储平台设计与实践

    百度一直践行AI+大数据运维的理念,我们的智能化运维技术也构建在由海量运维数据采集、计算和存储系统所组成的运维大数据平台之上。规模上,我们监控了十亿量级的指标,日均采集万亿级的数据点,每日各类运维平台产生的运维事件数以千万计。在这种规模下,运维大数据平台不仅要求7*24持续高写入,而且承载50K QPS的查询压力,给系统的设计带来了空前的技术挑战。我们应用Redis、HBase、Elasticsearch等,来构建多层分布式存储架构,并通过运维特有的数据模型、极致的压缩算法和单IDC故障容灾等技术来解决上述问题和挑战。  
    本次talk,主要和大家分享百度构建运维大数据存储平台的经验和心得,主要内容围绕大规模时序数据存储技术(TSDB),此外也会包含我们的运维事件存储(EventDB)和运维知识库等技术。主要内容有: 

    1.海量运维数据处理的技术挑战 
    2.大规模时序数据的存储
    - 时序数据的存储特征
    - 三层存储结构
    - 极致数据压缩
    - 高可用保障
    3.海量运维事件存储
    4.运维知识库
     
    听众受益
    1.了解大数据运维&智能化运维的问题场景和技术挑战
    2.百度大规模运维数据存储的技术架构和经验心得
    3.大规模分布式系统的设计和实践  

    李玉明
    百度运维大数据存储平台负责人
    容器优化与实践
    13:30~14:15 携程容器云优化与实践

    本话题将向大家介绍携程容器云的大致架构,以及基于Mesos自研Framework的原因,分享容器在实际runtime环境下遇到过的一些坑,特别是针对Java应用,面对JVM时的一些例子,还会分享从虚机转向容器过程中遇到的困境及解决思路,如何在破坏性最小的情况下做到架构颠覆。

    1. 携程容器云的大致架构

    1.1. 自研Framework
    1.2. cexecutor
    1.3. offer碎片的处理
    1.4. 监控的情况

    2. 针对Java应用踩过的坑

    2.1. 使人发疯的JVM OOM
    2.2. 1个docker deamon OOM 的case
    2.3. 自定义jvm参数带来的恶果
    2.4. logrotate的坑
    2.5. kernal 调整
    2.6. 其他一些遇到的问题

    3. 容器迁移的一些思考

    3.1. 业务开发的诉求
    3.2. 与已有研发模式的冲突
    3.3. 一些解决思路

    王潇俊
    携程系统研发部总监
    14:30~15:15 腾讯游戏容器云平台的演进之路

    腾讯游戏从2014年开始使用Docker,支撑了腾讯游戏200多款在线业务。整个平台经历了从最开始的“轻量级虚拟机”方式,到现在的原生容器云方式;接入的业务也由原来的在线服务扩展到现在的微服务、大数据、机器学习等类型业务。本次分享主要介绍腾讯游戏容器云平台这些年的建设过程和经验,并探讨相关技术问题,主要内容为:

    1. 腾讯游戏容器云平台建设历程
    2. 平台整体架构和技术方案
    3. 总结

    听众受益:了解腾讯游戏业务在实践Docker上的经验

    尹烨
    腾讯高级工程师
    15:35~16:20 华为使用Docker支持系统容器的优化实践

    系统容器相对Docker传统支持的应用容器,有一些独特的价值,对于华为这样的企业,有很多需要使用系统容器的场景。但系统容器同时也有很多独特的需求,原生Docker无法支持。本议题将分享Docker对支持系统容器所需要做的改造,常见的应用容器的功能需求,需要解决的问题和面临的挑战等。

    听众受益:

    1.了解系统容器的基本概念和应用场景;
    2.了解系统容器的基本特征;
    3.了解如何让Docker支持系统容器;
    4.了解业界存在的局限和挑战

    黄强
    华为资深软件工程师
    16:35~17:20 多租户Kubernetes实践:从容器运行时到SDN

    作为最流行的开源容器集群管理系统,Kubernetes已经被大量用在生产环境中。然而,Kubernetes在多租户支持上还并不完善,默认网络模型、Docker容器隔离性等存在很大风险。本次演讲主要介绍Hyper如何基于Kubernetes的插件机制构建强隔离的容器运行时,并配合Neutron提供多租户容器SDN网络。主要分享内容包括:1、Kubernetes插件机制简介;2、基于Kubernetes CRI的强容器隔离实践分享;3、基于CNI的多租户容器网络实践;4、实践中遇到的问题和挑战。

    听众受益:

    1.Kubernetes插件机制简介
    2.如何打造强隔离的容器运行时
    3.如何打造多租户容器网络
     

    倪朋飞
    Hypernetes & Kubernetes Maintainer
    互联网金融
    13:30~14:15 区块链和可问责服务

    可问责(Accountability)传统上是政府机构和商业运营上的一个重要要求。IT行业的快速发展,已经渗透到各行各业,成为商业和社会的一个关键组成部分。过去IT行业强调的是功能、性能,而可问责没有受到重视。IT运维目前是提供可问责的IT服务的基础。但是在大数据,云计算和AI时代,自动化的可问责机制将成为必然趋势。而该趋势将对IT运维带来深远影响。该演讲介绍可问责IT服务的理念,并探讨结合区块链技术实现自动化可问责机制的可行方案。

    听众受益:

    1. 了解区块链技术;
    2. 了解可问责IT服务的新理念;
    3. 启发如何在日益复杂的IT运维环境中实现可问责的IT服务的思考。

    邹均
    海纳云计算CTO
    14:30~15:15 基于资产配置业务场景下的全链路监控平台

    随着系统平台化的演进,服务拆分越来越精细化,原本依赖于总线交互的功能模块都被分散到了PaaS中,形成了“微颗粒”。在松耦合给产品带来“快速交付”的同时,发现故障 、定位故障、排除故障却变成了测试、运维同学“烦恼”的心事。在“互联网金融需要实行强监管”的体制下,在“监管细则划定13条红线 ”的背景下,如何在互联网金融公司中,寻找到“快速排障”与“快速交付”的平衡点?来听听好买的经历吧。

    听众受益:希望本次分享能够对正处于或即将处于类似场景的互联网金融同行,起到推动、引领、借鉴的参考作用。

    王晔倞
    好买财富技术总监
    15:35~16:20 麻袋理财安全与合规建设

    本话题将分享麻袋理财在互联网金融领域安全与合规建设的经验,包括如何通过国家信息安全等级保护三级的测评工作以及银行资金存管落地实践经验。

    听众受益:

    1. 对同行来说,可以通过本次分享对互联网金融行业的安全与合规建设有更全面的了解,少走弯路;
    2. 对外部投资者来说,可以通过本次分享对互联网金融行业消除负面意识,合理判断,理性投资。

    王耀
    麻袋理财首席安全官
    16:35~17:20 风控系统在容器化时代的实践

    冰鉴作为一家独立第三方征信服务提供商,在过去的2年内,自主研发了风控系统中的四大核心模块:数据服务、模型服务、反欺诈服务、策略服务。同时也从传统的单体应用架构及系统级运维逐步过渡到微服务架构和容器化运维,在此次大会中将分享我们的风控系统在演进到容器化时代中的实践。

    听众受益:

    1. 了解风控系统的架构;
    2. 学习单体架构到微服务架构过程中的经验。

    朱清
    冰鉴科技信息技术部总监
    容器与运维解决方案专场
    13:30~14:15 容器与Serverless架构实践

    容器和Serverless都是目前业界比较火的概念,本次演讲将分享UCloud在容器和Serverless结合方面的实践,介绍Serverless架构及产品,以及容器在在其中的所起的作用。

    听众收益:
    1. 了解Serverless的概念
    2. 了解Serverless的使用场景
    3. 了解容器在Serverless的实践

    叶理灯
    UCloud创新产品线研发总监
    14:30~15:15 采用Harbor开源企业级Registry实现高效安全的镜像运维

    随着容器技术的广泛使用,镜像管理成为实际运维中的重要问题。本演讲以Harbor为例,介绍如何在实际开发运维中,高效安全地管理容器镜像的方法,内容包括: 开发和生产环境中镜像仓库的权限和镜像版本控制;多数据中心镜像远程同步(复制)的应用;大规模应用镜像快速发布方式,镜像来源的验证,镜像漏洞扫描、镜像删除和空间回收;用分布式存储实现Registry高可用性设计等。

    听众收益: 

    1. 对容器运维的要点
    2. 镜像管理的最佳实践

    张海宁
    VMware先进技术中心技术总监
    15:35~16:20 从内容分发端谈自动化运维

    从用户侧的角度来说,运维的目标或者本质是交付最佳用户体验。当前,几乎所有面向公众的互联网应用,都会采用内容分发网络(CDN,Content Delivery Network)来减轻服务器端的计算负载,减少带宽消耗,将内容分发至靠近用户一侧的互联网边缘服务器,以便获取更好的用户体验。服务器端的运维因为和应用创建、代码部署都密切相关而备受重视,但分发端的运维往往被忽略;与此同时,CDN技术也已从单纯的内容缓存发生了本质的变化;如何将分发端的CDN服务集成至运维流程之中,打造端到端的自动化运维,保障最佳用户体验是一个值得探讨的话题。Akamai将带您一起了解当前CDN最新发展趋势,以及如何将CDN无缝集成至您的运维流程之中。

    听众收益:
    1. 了解CDN最新发展趋势
    2. 获得端到端运维方法

    周德振
    Akamai中国区解决方案部高级技术顾问
    16:35~17:20 Kubernetes在大规模场景下的service性能优化实战

    kubernetes原生的服务负载均衡是基于iptables实现的。Kubernetes通过iptables将service的虚IP转换成后端Pod的IP。然而,iptables基于内核的规则链,最初设计是做防火墙的,并不适合做大规模的负载均衡。Kubernetes基于iptables的负载均衡实现,规则链会随着service数量的增加而线性增长。在大规模场景下,会暴露出以下弊端:

    1. service访问时延随service数量增加而指数级增长;
    2. iptables周期性刷新导致用户业务访问不稳定;
    3. service扩容期间服务不可访问。

    本次分享将介绍Huawei PaaS团队在Kubernetes service性能优化方面的探索与实践。Huawei Paas基于IPVS负载均衡技术,对Kubernetes的负载均衡组件Kube-proxy进行性能优化,为其增加IPVS模式,实现了Kubernetes万级service的弹性伸缩。做到了万级service场景下,集群内服务访问毫秒级响应。当前,支持IPVS负载均衡已经被加到Kubernetes社区1.8 release的特性列表中。

    听众受益:

    本次演讲的主要受众是对Kubernetes有一定基础的开发者,要求对Kubernetes现有的服务发现和负载均衡机制有初步的了解。通过本次演讲,他们能够:

    1. 了解Kubernetes原生service load balancer在性能和可靠性方面的问题;
    2. 获得Kube-proxy IPVS load balancer实现的第一手设计方案和实现细节;
    3. 获悉Kubernetes社区在network和service方向最新的发展动态。

    杜军
    华为PaaS服务产品部软件工程师
    晚场活动
    18:30~20:45 CNUTCon夜聊:谈谈智能时代的新运维

    近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。那就当下而言,我们应该如何理解AIOps?AIOps应该如何落地?

    如果你希望一起探讨运维技术发展趋势,以及未来可能的变化,那不要错过9月10日晚上的夜聊活动,我们邀请了百度AIOps技术负责人、宜信AIOps落地负责人,以及DevOps和SRE领域的技术大咖,通过夜聊的方式来和大家分享他们所看到和认为的运维发展趋势,同时,也会就最近业界发生的技术事件进行讨论,为国内的广大社区和技术从业者指明方向,相信这一定可以给你带来不一样的视野和思考。

    主持人:万林涛
    嘉宾:曲显平 张真 赵成 许晓斌
    运维基础架构
    09:30~10:15 阿里巴巴基础运维平台实践

    百万级规模的服务器,千变万化的业务,每天上亿次的调用……基础运维平台负责淘宝、天猫、蚂蚁、菜鸟、阿里云、合资公司等全网业务服务器的运维管理,是全集团唯一的服务器管控通道,本次分享将首次对外介绍阿里巴巴基础运维产品的设计与实现。

    听众受益:

    1. 了解阿里巴巴基础运维产品的架构与实现;
    2. 了解大规模服务器运维管控系统的设计。

    宋健(宋意)
    阿里巴巴运维中台技术专家
    10:30~11:15 美团云基础运维体系建设实践

    美团云作为承载美团点评千万日订单的云计算平台,电商和公有云的业务属性对基础设施稳定要求更加苛刻。随着云计算、大数据普及,基础设施规模在飞速增长,AI等新技术技术引入对基础架构提出更高的要求,极大的提升基础设施的维护复杂度。基础设施规模的成倍甚至指数级增长,对基础设施运维的效率提出了更高的要求。

    本次分享主要是在基础设施建设过程中,基础设施稳定性面临的挑战和解决方案。 如何在规划实施时候规避问题?如何从架构上提升基础设施自愈能力?如何快速的发现、定位和解决问题?以及如何完成基础运维体系建设提升运维效率。 主要包括:

    1. 制约基础设施稳定性关键因素?
    2. 如何在规划和实施时候规避问题?
    3. 如何快速发现、定位、解决/隔离故障?
    4. 持续优化、完善运维体系建设提升运维效率。 

    听众受益:

    1. 基础设施建设及提升稳定性相关经验
    2. 美团云在基础架构方面的思考
    3. 我们在持续优化和完善基础运维的思路

    胡湘涛
    美团云基础设施负责人
    11:30~12:15 腾讯包管理系统演进

    早在2006年,腾讯SNG运营部就开始设计和实现包系统了,经过10多年不断使用和优化,现在包系统不仅承载了SNG的标准化运维理念,并且被多个BG广泛使用。目前,在包系统上,共托管了3.5W个包,平均每天执行超过5K个发布任务。那么,腾讯的包系统是如何实现的?如何同时支撑业务发布和运维管理?经过哪些功能演化?

    本次演讲的内容包括:
    1. 包系统的功能演进
    2. 现有包系统的设计方案以及使用实践
    3. 我们正在进行哪些新的探索

    陈芳录
    腾讯高级运维工程师
    数据库运维
    09:30~10:15 分布式数据库系统TiDB在Kubernetes平台的自动化运维实践

    Kubernetes作为当下最流行的开源容器编排系统,由于长期以来一直没有Local PersistentVolume,在其上部署对性能要求比较高的有状态数据库服务一直没有比较好的解决方案,基于 CoreOS 公司提出的 Operator 的概念而开发的TiDB-Operator 成功地解决了这一难点问题,使大规模自动化运维分布式数据库TiDB 成为可能。本次演讲主要介绍 TiDB-Operator 是如何扩展Kubernetes 来实现有状态服务的自动化运维。主要内容如下:

    1. 分布式系统部署运维的复杂性与挑战
    2. 有状态服务在 Kubernetes 平台的部署面临的困难
    3. Kubernetes Operator 模式简介
    4. Operator 模式实践:TiDB-Operator
    5. TiDB-Operator 的架构和实现

    听众受益:

    1. 了解分布式数据库 TiDB 及其简单运维
    2. 了解如何将 k8s 作为框架定制开发部署管理有状态的服务

    邓栓
    PingCAP SRE工程师
    10:30~11:15 从理论到实践,深度解析MySQL Group Replication

    从Oracle官方宣布MySQL Group Replication插件在2016年12月12日发布的MySQL 5.7.17版本上正式GA以来,不少从事MySQL工作的技术人已经开始学习、研究与测试。但相对而言,大多数人因为限于时间跟精力的原因,没有去深入了解这方面的内容。本次演讲,将会以理论应用到实践、由实践再反推理论的方式,由浅入深、再深入浅出地介绍Group Replication的理论知识与生产实践。

    徐春阳
    民生银行科技部项目经理
    11:30~12:15 MySQL数据库在腾讯支付业务中的大规模应用实战

    财付通金融支付平台支撑了整个腾讯集团的底层支付业务,包括大家所熟知的微信支付、手Q支付、红包转账、商业支付等。而财付通也是最早就使用开源MySQL数据库系统支撑整个金融支付业务的平台。本次将对外分享财付通平台上的MySQL数据库应用,以及在如此大规模数据库平台上如何高效的运维这么庞大的数据库集群。

    姜承尧
    腾讯金融支付部副总监
    运维自动化实践
    09:30~10:15 京东物流系统自动化运维平台技术揭密

    物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。

    本专题将详细为大家介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。

    听众受益:

    1. 了解基于saltstack实现自动化运维平台的设计思路;
    2. 了解应用部署自动化、自助化运维工具的实现思路。

    赵玉开
    京东资深架构师
    10:30~11:15 阿里一键建站技术解密

    每年的双十一都是一个全球狂欢的节日,双十一当天的秒级交易峰值平时的近10多倍,要用3-4倍的机器去支撑。阿里采用异地多活技术来把这些机器分成多个单元,然后水平复制每个单元完成大促备容。每个单元涉及几百个系统,他们之间的依赖错综复杂,复制新单元难度很大。阿里在Docker化的基础上,利用调度和CaaS,把单元终态描述成一个镜像,完成了单元的快速复制,做到了8小时从机器交付到线上引流到单元。本次分享将重点介绍阿里基于容器的建站平台的背景、架构、发展历程及未来展望,主要包括以下内容:

    1. 阿里一键产生和背景及意义;
    2. 基于阿里现有架构下,一键建站的可行性、困难及挑战;
    3.  一键建站三代技术的发展历程;
    4. 一键建站的未来展望。

    谢吉宝(唐三)
    阿里巴巴高级技术专家
    11:30~12:15 百度大规模时序指标自动异常检测实战

    异常检测是监控系统中的重要环节,百度的业务种类繁多,业务的监控需求不尽相同,这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、PVLOST等常见业务曲线监控?怎样支持O2O业务不定期运营活动场景下的异常检测?怎样给大规模时序数据的快速配置异常检测算法及参数?作者将介绍百度异常检测系统以及几种异常检测算法,以及针对大规模时序指标的难以人工逐一配置的问题引入的算法自动选择决策树和参数自动配置算法。

    听众受益:

    1.  百度异常检测系统以及内部的异常检测算法
    2.  异常检测算法自动选择决策树以及参数自动配置算法的实践

    王博
    百度资深软件研发工程师
    游戏开发与运维
    09:30~10:15 "运维+",腾讯游戏海量运营的催化剂

    互联网+,大家已经非常熟悉了,但“腾讯游戏运维+”,就要从腾讯游戏运营说起,当然也就离不开游戏的内容创造和运营决策者:游戏策划,以及游戏功能建造师:游戏开发。从PC游戏到移动游戏,作为游戏运营中不可或缺的守护者:游戏运维,也在游戏浪潮中践行自己的转型之路,作为亲身经历过腾讯多款自研及代理的运维工程师,我想分享这几年来是如何实践"游戏运维+"的一些故事,大家也会了解,为什么游戏运维是整个游戏运营的催化剂。

    听众收益:
    1.如何实现和游戏开发合作共赢的方法
    2.如何挖掘运营痛点并巧用运维技术解决
    3.对于运维在项目大团队中定位与发展的思考
     

    管鹤鸣
    腾讯游戏运维专家
    10:30~11:15 盛大游戏的深度网络优化实践

    极致的游戏体验离不开技术的支撑,千人同屏、万人同服、万人国战需要高性能的网络环境,而在云环境中,如何得到高性能、低延迟的网络,而不过多的消耗CPU资源是大家追求的目标。

    本次分享盛大游戏G云通过SDN的网络优化,提升游戏体验的实践之路。

    主要内容如下:
    1.游戏对网络的需求
    2.公网的优化和SD-WAN
    3.服务器之间的通信优化
    4.tcp协议的优化
    5.pps对游戏的影响和dpdk的应用

    听众收益:了解盛大游戏对网络优化的实践经验
     

    何少鹏
    盛大游戏云平台高级架构师
    11:30~12:15 网易游戏基于容器的持续集成与简化运维深度实践

    传统游戏开发和运维往往是分离的,开发将二进制包和配置手册交给运维,运维需要维护大量的物理机器,环境多样复杂,在大量游戏频繁上线更新的情况下,往往力不从心,而且游戏上线时通过上线时间表和架构文档做资源预估,通过编写自动化脚本进行线上运维,这样会面临资源预估不准和上线频繁的问题,容器是能够解决这些问题的,但是往往运维部门有各种的忧虑和怀疑,本次分享网易云通过自身的性能优化以及对网易自身游戏的分阶段的迁移,最终实现基于容器的持续集成和简化运维的实践之路。

    主要内容如下:

    1.传统游戏开发与运维的痛点
    游戏频繁上线
    底层环境多样
    进程数目很大
    资源预估不准
    2.游戏开发与运维对于容器的顾虑
    安全性  稳定性  高性能
    3.网易云为支撑游戏所做的优化
    持续集成工具链
    云主机和容器优化
    裸机容器支撑
    网络转发优化
    存储性能优化
    4.游戏迁移的实践之路
    从开发到运维的持续集成
    测试环境迁移与实践
    游戏架构与运维流程梳理
    运营平台与周边服务迁移与实践
    核心业务迁移与实践:部署架构,升级回滚,开服合服

    听众收益:
    了解游戏开发与运维常见的痛点,以及适合使用容器解决这些痛点的场景;
    了解云平台计算,网络,存储如何优化,才能够支撑线上游戏的持续集成与运维;
    如果您是一个游戏开发或者运维人员,如果希望通过容器提高持续集成或者运维效率,则可以了解网易游戏的迁移之路,以及中间踩过的一些坑
       

    刘超
    网易云解决方案总架构师
    Workshop专场
    09:30~12:00 Kubernetes与AI相结合架构、落地解析

    在云环境中,如何更好的利用云资源,更好地进行云的部署,并且将企业的业务融合其中成为了如何将云真正在企业中落地的关键组成部分。而Kubernetes作为目前炙手可热的云技术,是如何做到这些的?同时在Container编排环境中,又与以 VM为虚拟化的环境优缺点又有哪些?在云作为企业基础设施的一部分的同时,AI可以融入进企业的各个关键环境,为企业提供基于原有数据的更快反应,为企业提供诸如预测、识别等业务,助力企业业务腾飞。而AI对于硬件的消耗是怎么样的,如何将AI解决方案和云环境相结合也成了热门的话题。在这次演讲中,赵慧智将向大家介绍Kubernetes的云环境,以及如何和AI相结合,并在企业中落地中的问题和实践。

    听众受益:
    1. 了解Kubernetes的基本原理和关键功能。
    2. 了解Kubernetes在企业实施中的问题和解决方式。
    3. 了解Kubernetes如何与企业业务相关联和注意事项。
    4. 了解基本的AI知识和作用。
    5. 了解如何将AI与Kubernetes相结合并应用于企业。
    6. 了解在AI和Kubernetes这两大技术结合时的注意事项以及实施方法。

    赵慧智
    才云科技技术总监
    13:30~15:30 基于混合云的一体化运维、运营平台最佳实践

    随着企业应用规模及复杂度不断增大的同时,虚拟化、容器化和云计算等新技术不断发展并在企业落地。传统分散、低效的运维模式已经难以满足大规模、高效率、全栈化、混合云化的企业需求,针对以上挑战,演讲嘉宾结合在腾讯、百度的经历,为大家分享全新的一体化运维、运营平台最佳实践。

    听众受益:

    1. 了解运维简史、价值变迁及行业、职业红利;
    2. 了解基于混合云的运维平台化和基础组件平台化实践;
    3. 了解运营管理及数据分析、可视化平台实践;
    4. 了解移动运维平台实践;
    5. 了解做为运维管理者的管理思路和技巧;
    6. 了解运维的趋势及职业发展建议。

    唐文
    高升控股技术VP
    15:50~17:50 Elastic Stack运维数据分析从0到1

    发布5.0版本后的ElasticStack已经全面超越了曾经单纯用于采集日志的ELK工具栈,成为以数据检索为核心,兼备多来源汇集、展示、分析等于一体的通用数据处理平台,提供了很多针对数据聚合分析的能力。这个话题将围绕运维领域的典型场景,和大家一起从零开始探索ElasticStack的运维数据分析之道。

    内容大纲:
    1. 基于Beats的数据采集
    2. ElasticSearch的核心API
    3. 实战数据聚合查询
    4. Timelion数据可视化
    5. 无监督的时间序列机器学习
    6. 自定义数据告警

    林帆
    ThoughtWorks DevOps和容器技术咨询师
    容器编排与管理
    13:30~14:15 腾讯云多Kubernetes集群高可用运维实践

    腾讯云基于kubernetes的公有云容器服务会为每个租户提供单独的kubernetes集群,现在腾讯云上已经有数百个kubernetes集群(持续增长中),数百个分属不同租户的kubernetes集群其运维难度远大于有数百个节点的单一kubernetes集群。本文主要内容如下:

    1. 腾讯云基于kubernetes的容器服务架构简介 
    2. 运维数百个不同租户的kubernetes集群有哪些难点 
    3. 业界的多集群运维方案有哪些 
    4. 腾讯云是如何通过kubernetes master集群化部署和多维度监控来解决这些问题的

    于广游
    腾讯云容器服务高级工程师
    14:30~15:15 基于Kubernetes的互联网Ingress实践

    ingress是针对inbond connection的配置和管理,它决定了用户请求如何通过最优路径转发至后台服务,也决定如何实现跨集群跨region的高可用,可以说ingress是互联网公司的根。

    eBay基于kubernetes ingress实现了对inbond connection的配置和管理,本session包含如下内容:

    1. 互联网负载均衡技术的演进
    2. 基于kubernetes ingress的负载均衡实践分享
    3. 基于ingress实现的unified frondend services(路径优化)
    4. service mesh

    孟凡杰
    eBay软件工程师
    15:35~16:20 京东JDOS2.0平台有状态服务编排实践

    JDOS1.0完成京东业务全面运行在容器之上,以及数据库和中间件等系统也全面容器化。今年上线的JDOS2.0系统,完成了从Openstack向Kubernetes整体迁移,截止到今年618大促,已经有超过60%的核心业务运行在了JDOS2.0平台上面。在京东超过10000多的应用中,有状态应用和服务的编排和管理是最具挑战性的。本次分享将深入介绍京东使用Kubernetes进行有状态服务集群的编排和管理。具体包括使用京东自研ContainerFS结合Kubernetes的动态存储请求和分配机制对服务状态的持久化存储、 使用京东自研基于DPDK的高性能负载均衡结合URL Check功能对服务状态的实时监控、以及高效部署和管理有状态服务集群的Init Container, StatefulSet等特性的实践。最后会通过一个有状态集群的例子来展示京东如何在JDOS2.0上面轻松进行有状态服务的创建和自动化管理。

    听众受益:

    了解京东新一代容器平台JDOS2.0关于有状态服务编排和管理的最新进展。

    王华夏
    京东基础平台集群技术部资深架构师
    16:35~17:20 机器学习模型训练的Kubernetes实践

    通过人工智能、机器学习的途径来挖掘数据的深层价值,已经成为当前的热点,通过Kubernetes来管理机器学习的任务也是当前的趋势。机器学习很重要的一个环节是模型训练,模型训练往往对计算力、磁盘和网络IO及资源调度都有不低的要求。虽然通过Kubernetes可以解决训练任务的资源调度问题,训练中间结果的存取也可以通过Ceph来实现。但是kubernetes原生对GPU的支持不够完善,在异构GPU的处理、GPU资源监控、NVIDIA Driver的外部依赖等版本问题上,有若干问题存在。主要内容如下:

    1. 如何克服挑战将模型训练移植到kubernetes;
    2. 如何通过Ceph的一写多读解决机器学习训练的中间结果数据集大,存储效率低的问题;
    3. Kubernetes原生对于Ceph的支持不够,如何通过ImageFormat、mount options解决;
    4.如何自动清理废弃的PV等。

    袁晓沛
    七牛云技术总监
    SRE与微服务最佳实践
    13:30~14:15 Uber SRE以及Cache服务在微服务环境下的演进

    Uber全球业务爆发式增长,现在已经覆盖全球超过570座城市,业务也已经涵盖汽车共享UberX/UberPool,外卖服务Uber Eats,卡车运输协调Uber Freight,无人驾驶Uber ATG等等。前端业务对后台基础Infrastructure的需求强劲而且变化快,数据中心一直处于爆发式增长。如何为超过2000个微服务以及无人车提供稳定可靠高性能的计算存储支持是整个Infrastructure部门的工作重心,而其中SRE部门又是守护系统稳定的最后一道防线。

    本专题将为大家介绍Uber的SRE团队是如何协同和其他部门工作,对公司业务和基础Infrastructure进行监控,以及在主要业务外围开发稳定性服务监控、报警软件实现自动化。本专题也将分享Uber的整个数据中心从只有一个可写到现在全美国双活乃至全球多活的历程和故事。

    听众受益:

    1.了解如何建立稳定性SRE团队;
    2.了解如何从一个数据中心拓展成多个多活数据中心;
    3.了解一个Infrastructure团队如何支持多种不同类型的业务
     

    孟飞
    Uber SRE存储部门高级工程师
    14:30~15:15 阿里巴巴国际环境下的SRE体系

    AliExpress是阿里巴巴国际电商平台,海外买家覆盖200+国家,分布广且离散,国际架构、网络体系复杂,为了提升全球用户体验面临诸多技术挑战,本次主要围绕全球架构体系下的SRE保障,分享全球架构体系的可用性解决方案及具体实践。主要内容为:

    1. 全球网络体系复杂,互联互通问题诸多,如何应对由此带来的网站可用性问题;
    2. 国际架构体系下,全球物理距离使得网络传输时间成为技术难点之一,如何解决可用性和提升全球用户体验;
    3. 如何实现全球多IDC下的异地多活;
    4. 全球多IDC下的数据一致性问题;

    听众受益:

    1. 国际SRE的运作
    2. 国际异地多活
    3. 国际网络稳定性解决方案
    4. 大数据SRE发现问题解决问题

    周志伟
    阿里巴巴高级技术专家/AliExpress SRE负责人
    15:35~16:20 搜狗配置中心架构演化与实践

    传统的分布式配置文件管理模式已越来越难满足微服务灵活多变的特性,而如何应对配置的频繁变更和生效则成为了微服务时代配置中心的重点。在微服务的背景下,配置中心正在逐渐开启新的定义和赋予新的角色,成为串联整个微服务架构体系的不可或缺的一部分。

    本主题通过对搜狗统一配置中心的迭代演进,从资源依赖的模型角度阐述新一代的配置中心设计理念,从配置管理、配置变更、容灾等方面结合微服务现状进行深度架构剖析,同时分享配置中心在多环境并行测试、数据库热切换、灰度发布等方面的成功实践和思考。

    听众受益:

    1. 阐述目前主流配置中心的基本架构与设计思路;
    2. 微服务时代如何实现分布式配置文件管理和变更,自动容灾等;
    3. 配置中心在搜狗商业部门的实践经验总结,关键技术解决方案等。

    郭理勇
    搜狗资深高级工程师
    16:35~17:20 滴滴稳定性建设实践

    故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增长。滴滴现在服务近4亿+乘客、1700w+司机、覆盖400+城市,超过10个业务线提供服务,业务的高速增长对稳定性工作开展是挑战,更是难得的机会。本专题将为大家详细介绍滴滴在故障处理方面的建设,以及各团队如何围绕星辰花稳定性技术竞赛开展稳定性工作。主要包括星辰花赛制介绍、监控分级建设、全局状态观察及事件根因推荐等。

    1. 稳定性建设总览
    1.1 星辰花稳定性竞赛介绍
    1.2 故障生命周期及滴滴建设情况总览
    1.3 各部门如何配合处理故障

    2. 故障定位 —— 灭火图:全局状态展示
    2.1 为什么需要灭火图?灭火图是什么?
    2.2 成长史:濒临窒息
    2.3 曾经的迷茫:没有业务拓扑,不可能完成的任务
    2.4 抽丝剥茧:目标重塑,建立标准
    2.5 避不开的雷:数据稳定性


    3. 故障定位 —— 多维度监控:异常接口推荐
    3.1 多维度监控是什么?背景介绍
    3.2 成长史:API监控、upstream 监控、独立于通用监控系统,...
    3.3 我不是张衡:数不完的 API
    3.4 借力大数据:哪里需要“聚”哪里
    3.5 众里寻他:异常推荐
    4 智能化定位 —— 事件推送:故障根因推荐
    4.1 事件的由来
    4.2 事件分类
    4.3 基于时序和规则的根因推荐
    5 总结

    听众受益:

    1.了解滴滴在业务高速发展的同时,如何开展稳定性工作;
    2.了解滴滴如何划分监控层次,达成对复杂系统的有效监控;
    3.了解在故障定位方面如何进行全局把控及根因推荐

    张云柳
    滴滴资深运维工程师
    DevOps & CI/CD
    13:30~14:15 微服务场景下的Serverless架构实践

    2016年11月份ThoughtWorks发布的Technology Radar上Serverless architecture从评估阶段升级到了试用阶段。恰逢此时我们在某项目中大胆采纳并实践了Serverless架构。在如今微服务大行其道的情况下,Serverless架构结合微服务倡导的Event Sourcing往往能收到奇效。不过Serverless架构强依赖平台,对传统的CI/CD也带来了诸多挑战。本主题会分享在实践Serverless架构过程中的一线经验和教训。

    听众受益:

    1. 理解Serverless架构的优势和缺陷;
    2. 在微服务场景下采纳Serverless架构的最佳姿势;
    3. Serverless架构下的CI/CD该如何做;
    4. Serverless架构的演进。

    黄博文
    ThoughtWorks高级软件工程师/咨询师
    14:30~15:15 天猫DevOps转型实践

    在2016财年,天猫的技术,不仅仅在双11创造了一个漂亮的新记录--1207亿,并且在研发流水线上,也完成了两件大事:Dev转型DevOps、应用的运维工作由PE交接给DevOps。天猫为什么要做出这种转型?带来了什么收益?天猫是怎么去做的?此次演讲,会从研发人员的角度进行一个展示。这个过程是不是合理?经验是不是可以复制?我们将共同探讨。

    刘雄昌(邵雍)
    天猫互动架构师
    15:35~16:20 基于虚拟化的CI/CD流程与基础架构建设

    随着持续集成理论的深入人心,公司内对于CI/CD系统的依赖也越来越深,更多的业务线接入,更多的流水线建立,都会对CI/CD系统的可用性和易用性提出了更高的要求。本次分享主要介绍如何用容器等技术手段,来架构和实现针对公司多个业务线的CI/CD流程和基础架构,以及在版本管理、测试环境、产品发布等方面的实践应用。主要包括:
    1. 基于容器的CI/CD系统架构
    2. 基于虚拟化架构的CI/CD流程
    3. 服务端版本与测试环境的管理

    听众收益:

    1. 如何建设CI/CD基础架构,针对复杂大量的业务需求?
    2. 如何解决CI/CD资源池,资源分配不平均的问题?
    3. 如何解决利用基础架构,实现从开发到上线的过程?

    钮博彦
    美团点评高级技术经理
    16:35~17:20 全方位的监控与智能透明的自动化运维

    Monitoring是什么?Monitoring需要做什么事情?作者会从2个不同的维度出发来展开这两个问题,阐述monitor要“两条腿一起走路” 的两条腿分别指什么,并提供全套开源工具链供参考。

    你认为的自动化运维是什么?自动化脚本?不完全是,作者会结合过去2年来ChatOps的实践,来阐述如何通过chat bots来实现透明的自动化运维以及所带来的益处。

    听众受益:

    1. 了解全方位的监控系统解决方案,以及监控系统所需的全套开源工具链和最佳实践;
    2. 了解到ChatOps的相关知识和实践,以及如何引入ChatOps到平时的工作中来。

    邸富杰
    IBM CIO DevOps 教练
    运维监控与安全
    13:30~14:15 固守服务器的第一道防线——美联集团堡垒机的前世今生

    在信息安全越来越被重视的今天,堡垒机作为服务器的第一道直接防线,充当着十分重要的角色。本次分享将基于本人在堡垒机方面的研究与总结,并结合在工作中的实际经验,为大家讲解美联集团堡垒机系统从摸索到落地中遇到的问题以及挑战,与大家一起探讨安全与运维的结合方式。

    1. 背景

    1.1 老堡垒机在使用中遇到的问题
    1.2 使用市面上的开源产品,但是并不适合本身的业务需求以及安全需求
    1.3 决定进行自研

    2. 历史问题以及处理过程

    2.1 权限如何规范,权限收回,root 回收
    2.2 权限回收后的系统依赖问题
    2.3 线上机器互跳
    2.4 免密登录,使开发过程更便捷
    2.5 录屏、以及历史记录管理

    3. 构建二期中遇到的问题以及难点

    3.1 二期设计的整体思路
    3.2 用到的相关技术栈
    3.3 用到的一些技术细节
    3.4 二期部署落地以及总结

    齐剑涛(榛名)
    美丽联合集团高级安全工程师
    14:30~15:15 构建微服务下的性能监控

    APM系统诞生已久,但是在这几年才越来越受到开发、运维团队的关注,应用系统从CS到J2EE,再到如今的SOA、微服务以及容器化,应用的分布式复杂程度与日俱增,当年可以从日志排查的错误,现在却成为了难以定位的问题。

    本次分享我将根据自身多年的分布式监控产品的设计和研发经验,带领大家了解分布式监控领域的常用理论、方法及面临的问题。教大家如何选择适合自己的分布式监控系统,甚至如何构建属于自己的分布式监控系统。主要内容如下:

    1. 面向微服务和DevOps的下一代APM
    2. 概念:CNCF OpenTracing的语义、概念及近一年的发展情况
    3. 三大领域
       3.1 监控的数据化、全领域监控
       3.2.应用的发现、追踪和诊断
       3.3 应用分析:蝴蝶效应以及告警风暴
    4. 产品形态与定位:面向运维和面向研发的监控系统
    5.选择:分布式追踪系统中的抉择
       5.1 手动埋点和自动埋点之争
       5.2 采样与全量之争
       5.3 实时与批量之争
       5.4 调用链路与日志收集
    6.sky-walking开源APM展示,Spring Cloud微服务监控

    吴晟
    华为软件开发云分布式应用性能监控产品专家
    15:35~16:20 阿里巴巴监控之路

    在2016年双11全球购物狂欢节中,天猫全天交易额1207亿元,前30分钟每秒交易峰值17.5万笔,每秒支付峰值12万笔。承载这些秒级数据背后的监控产品是如何实现的呢?本主题通过对阿里巴巴监控体系的演进来阐述新一代的监控系统是如何实现的,以及架构是如何进化的。

    这次主要讲的是海量实时秒级监控系统,以日志、REST 接口、Shell 脚本等作为数据采集来源,提供系统、应用、业务等各种视角的监控能力,从而帮助业务快速发现问题、定位问题、解决问题,为线上系统可用率提供有效保障。

    听众受益:

    1. 超大规模的实时秒级监控系统的架构;
    2. 支持业务发展的关键技术点;
    3. 系统演进过程的思考和实践。

    程超
    阿里巴巴监控平台技术专家
    16:35~17:20 京东金融分布式服务跟踪实践

    随着京东业务规模的不断扩大,SOA及微服务架构日趋深入,服务数量不断膨胀,线上环境日益复杂,服务依赖关系每天都在发生巨大变化。业务发展变化之快超乎想象,业务监控需求不断变化。本次分享的主要是海量并发的实时APM系统的主要功能展示及我们碰到的问题和解决方案。如何快速的发现问题,定位问题。如何为业务的高速发展保驾护航。主要包括:

    1. 如何梳理服务依赖关系? 
    2. 如何自动发现应用瓶颈?
    3. 如何自动容量规划?
    4. 如何满足快速变化的业务监控需求?
    5. 如何自动找到问题的根本原因?

    听众受益:

    1. 超大规模APM系统的架构设计
    2. 系统容量与水位的另一种思考
    3. 我们碰到的问题以及解决思路

    沈建林
    京东金融资深架构师
    TRAINING
    培训
    立即报名
    reviews
    2016 CNUTCon 回顾
    PARTNERS
    合作伙伴

    上海·光大会展中心大酒店

    会议时间:

    2017年9月10日-11日

    会议地点:

    上海市徐汇区漕宝路66号

    地铁路线:

    乘坐地铁至漕宝路站(8号口出)

    公交路线:

    乘车43路、92路、120路、166路、186路、
    198路、809路、946路等至漕宝路习勤路站

    © 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方