INTRODUCTION

大会简介

CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天，主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨，CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例，使企业可以更精准地确定自己的选型方案，并提前预估相关的风险和收益，实现技术落地。

从行业角度出发

不鼓吹某项技术也不抹黑某项技术

从社区角度出发

希望引导社区向着正确的方向前进

从内容角度出发

专题系统全面且演讲有层次有深度

从听众角度出发

重经验 & 谈实践多落地 & 少概念

special topics

专题介绍

智能化运维

近年来，随着大数据、机器学习和AI技术的飞速发展，智能化运维成为运维的热点领域。本专题将重点探讨如何将大数据和机器学习的方法引入运维，以提升运维的能力和效率。
运维基础架构

随着虚拟化、容器化和云计算的发展，运维基础架构也从提供资源往提供能力的方向进行转变，提高应用对基础架构的透明性，进而提高基础架构的灵活性。本专题将讨论运维基础架构的新进展。
数据库运维

随着互联网更加广泛的使用，数据库运维也呈现出新的形态，如以容器化的方式来对数据库进行管理和调度；通过对数据库各项指标的分析和挖掘，提供智能化的诊断方案等，本专题将逐一探讨。
运维自动化实践

随着运维管理的复杂度和难度增大，资源和流程的标准化统一化、应用运行状态可视化管理越来越重要，本专题将分享主流公司工具自动化向一站式自动化运维管理平台演化的经验。
游戏开发与运维

游戏开发团队采用通用化框架和最新引擎技术的趋势越来越明显，运维技术也在朝着标准化、高效、云化多维度发展。本专题将从开发与运维双重角度思考，开发与运维将面对哪些挑战，如何解决。
容器编排与管理

各大主流公司都基于Kubernetes、Mesos等开源或私有方案对其基础架构进行迁移，以便更好地管理分布式应用、控制成本，提高可移植性和开发效率。本专题将探讨容器编排和管理的挑战与经验。
SRE与微服务最佳实践

SRE是谷歌提出的实践，旨在保障互联网服务的稳定性和性能；而广受应用的微服务架构，几乎是大家保持研发效率的唯一方法。如何又快又稳地为用户提供服务，将是本专题探讨的主题。
大数据运维

在大数据平台的运维中，由于涉及分布式架构、多源异构海量数据存储、数据的处理框架更为多样化和复杂化等问题，大数据的运维也变得异常复杂。本专题将邀请领域专家分享一线实战经验。
DevOps & CI/CD

本专题将共同探讨，在人工智能时代，企业转型过程中如何将工程实践和管理实践有效结合，打通从需求到上线部署、效果验证的全价值流，快速响应业务需求，提升研发效率和交付质量。
容器优化与实践

过去几年间，应用容器技术正在颠覆IT运维领域，软件的构建、分发与运行都在容器化，更广泛的应用场景也让容器本身的部署、管理等受到越来越多挑战。本专题关注容器技术实践中各方面的优化。
互联网金融

互联网金融在数据留存、安全合规、防攻击能力、支付清算、金融监管、数据安全、大数据风控等方面都有较强需求甚至强制性的监管规范。本专题将带您探讨如何攻克这些难题。
运维监控与安全

监控与安全是IT系统运维中保障核心业务稳定可用的重要环节，随着应用规模迅速扩大及DevOps、微服务、容器等技术的快速发展，运维监控和安全都出现了哪些新形态，本专题将重点讨论。

CO-CHAIR

联席主席

涂彦

腾讯游戏运维总监

涂彦，腾讯游戏运维总监，负责游戏业务运维服务以及管理工作。从事网络游戏运维十年以上，是腾讯游戏运维智能化、服务化、产品化的坚定实践者，关注互联网行业运维标准建设、海量业务运维增值服务等工作。
钟红军

美团点评运维部高级总监

钟红军，美团点评运维部高级总监，此前曾就职于百度、腾讯、PPTV等互联网公司，2013年加入美团点评，带领运维团队实现多次突破。熟悉系统、网络、运维、安全、数据、开发等多个领域。
周彦伟

去哪儿网数据库总监

周彦伟，“数据库运维”专场出品人，中国MySQL用户组(ACMUG)创始人&主席，Oracle MySQL ACE Director，去哪儿网数据库总监，负责数据库平台的管理和维护工作。工作范围包括MySQL、Redis、HBase平台的架构设计、性能调优、日常运维及自动化运维平台设计。曾任人人网MySQL技术主管，负责数千规模的MySQL数据库实例的运维管理。
刘建

搜狗资深架构师

刘建，搜狗资深架构师，负责搜狗商业平台的基础研发和平台架构，涉及广告计费、报文等核心业务服务，致力于解决分布式、高并发、大数据量等带来的各种技术难题及挑战，构建和持续优化商业平台基础架构，保证高可靠、高性能、低成本的快速支撑新业务。在多个技术方向有较深刻的理解，有多年大规模复杂系统架构实践经验。
张磊

Hyper HQ & CNCF Member

张磊，Hyper项目成员，Kubernetes项目官方Project Manager和Feature Maintainer。曾任浙江大学研究员和课程讲师，期间组建浙大云计算团队（现为CNCF正式学术会员）并出版《Docker容器与容器云》技术书籍，在Docker和Kubernetes开源社区均享有声誉。是微软“云计算与数据中心领域”最有价值专家、以及LinuxCon、KubeCon等多个国际会议的讲师。
李响

CoreOS分布式系统组主管

李响，现就职于CoreOS，任分布式系统组主管，负责调度、存储、协作等相关分布式系统设计与实现。开源分布式键值存储系统etcd项目作者，开源容器管理平台 Kuberentes项目维护者。他实现的Raft协议被广泛使用在分布式数据库、调度器中。2012年本科毕业于浙江大学，2014年研究生毕业于Carnegie Mellon University。

HOSTS

出品人

张晓强

携程基础架构运维总监

张晓强，“运维自动化实践”专场出品人，目前主要负责携程数据中心基础架构运维管理工作。在网站运维和IT服务管理领域有20多年的相关经验，对于网络自动化平台、IAAS平台开发有丰富的建设经验，带领团队利用开源平台独立开发了携程的网络和存储的自动化运维平台。他是国内首批Devops Master专家课程授权讲师，积累了丰富的Devops转型、管理、落地执行实践经验。
曲显平

百度运维部技术经理

曲显平，“智能化运维”专场出品人，百度运维部技术经理。毕业于复旦大学，2009年加入百度, 先后负责基础运维平台、运维数据仓库、智能化运维平台的研发，目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会（SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等）发表多篇重量级论文和talk。
许晓斌

阿里巴巴高级技术专家

许晓斌，“SRE与微服务最佳实践”专场出品人，阿里AliExpress高级技术专家，目前在AliExpress从事微服务实施、研发效率提升相关工作。曾是Maven中央仓库的维护者，参与开发Maven仓库管理软件Nexus。推崇敏捷开发方法和DevOps理念，关注Scalability、领域驱动设计、编程语言等技术领域。《Maven实战》作者，《Cucumber：行为驱动开发》合译者。
徐巍

饿了么高级运维经理

徐巍，“运维基础架构”专场出品人，饿了么高级运维经理，目前主要负责饿了么基础设施运维。曾就职于携程、PPTV等互联网公司，在视频CDN、分布式文件系统、大数据运维、大规模缓存系统、自动化运维平台建设等方面具有一定的经验积累。
肖世广

腾讯QQ技术运营总监

肖世广，“大数据运维”专场出品人，腾讯QQ技术运营总监，2008年进入腾讯，经历了应用型、大流量大存储型和平台级的技术运营，负责几万台服务器/几T带宽的运营优化经验，过程中在运营标准化、集群化、智能化，set高度调度和全球分布能力建设，大数据和运营，内部云和DevOps的构建，业务架构优化、业务质量、成本优化等方向都积累了丰富的实践经验。
霍金健

百度资深敏捷教练&交付经理

霍金健，“DevOps&CI/CD”专场出品人，百度资深敏捷教练&交付经理。目前致力于推动互联网创新产品管理和创新业务的工程能力建设。主导完成商业知心、大数据工厂、用户画像、大数据+、人工智能等公司战略产品的敏捷改进和产品交付工作，通过度量驱动方式提升工程能力，结合业务目标和团队特点取得突出效果。多书译者，国内外多个领域知名大会演讲嘉宾。
赵成（谦益）

美丽联合集团运维经理

赵成（谦益），“运维监控与安全”专场出品人，美丽联合集团运维经理，负责美丽联合集团（原蘑菇街、美丽说）运维团队的管理及运维体系建设工作。拥有近10年研发和运维经验，见证和参与了多个电信级和互联网产品从无到有的创造、从微量到海量的成长过程，也经过多轮炼狱般的磨练和蜕变积累了非常丰富的电信级和互联网业务研发和运维经验。
刘建

搜狗资深架构师

刘建，“容器编排与管理”专场出品人，搜狗资深架构师，负责搜狗商业平台的基础研发和平台架构，涉及广告计费、报文等核心业务服务，致力于解决分布式、高并发、大数据量等带来的各种技术难题及挑战，构建和持续优化商业平台基础架构，保证高可靠、高性能、低成本的快速支撑新业务。在多个技术方向有较深刻的理解，有多年大规模复杂系统架构实践经验。
强昌金

Redis中国用户组(CRUG)创始人

强昌金，“数据库运维”专场出品人，去哪儿MySQL高级DBA，Redis中国用户组(CRUG)创始人&副主席。先后就职于陌陌、去哪儿网，目前主要负责去哪儿网数据库管理平台的开发、MySQL和Redis的运维。在数据库方面，具有丰富的数据库运维和性能优化经验。
王旭

Hyper CTO & Cofounder

王旭，“容器优化与实践”专场出品人，Hyper Cofounder & CTO，北京邮电大学博士，HyperContainer项目的最初作者，曾就职于中国移动研究院，负责大云项目中的Hadoop HDFS和分布式存储系统。后在盛大云计算负责弹性块存储服务。2013年作为CTO加入VisualOps，2015年创立Hyper虚拟化容器项目。同时也是一位Linux、云计算、大数据等领域的作/译者。
涂彦

腾讯游戏运维总监

涂彦，“游戏开发与运维”专场出品人，腾讯游戏运维总监，负责腾讯游戏业务运维服务以及管理工作。从事网络游戏运维十年以上，是腾讯游戏运维智能化、服务化、产品化的坚定实践者，关注互联网行业运维标准建设、海量业务运维增值服务等工作。
曾波

家视天下技术总监

曾波，“互联网金融”专场出品人，家视天下技术总监，负责鹏博士集团旗下大麦OTT业务基础研发和平台架构。先后就职于微软中国、什么值得买、京东金融东家财富，有多年互联网金融领域大规模复杂系统架构实践经验。

SPEAKERS

演讲嘉宾

王栋

百度基础技术体系主任架构师

王栋，百度基础技术体系主任架构师，本科硕士毕业于清华大学计算机系，博士毕业于北京大学计算机系。曾就职于Bell Labs和Google。2015年加入百度，主要负责运维平台基础架构和智能化演进方向，参与和主导了百度智能运维AIOps平台的设计和研发过程，在SREcon和LISA等国际系统运维行业会议多次发表演讲。
林昊（毕玄）

阿里巴巴研发效能事业部负责人

林昊(毕玄)，阿里巴巴研发效能事业部负责人。2007年加入阿里，10年间打造了阿里目前使用最为广泛的核心中间件之一的服务框架；建设了阿里的HBase团队，发展到今天HBase已经是阿里最重要的NoSQL产品；打造阿里基于LXC的虚拟化系统，以及集群资源管理系统，不断降低阿里巴巴在机器资源上投入的成本；设计并带领团队实现了阿里巴巴技术发展史上具有里程碑意义的异地多活。
孟飞

Uber SRE存储部门高级工程师

孟飞，现任Uber SRE存储部门高级工程师。技术栈涵盖操作系统存储、分布式存储、高性能计算存储、企业级SAN/NAS存储、云存储以及大规模互联网存储服务。先后任职于NetApp ATG、VMware、Pure Storage和Uber从事存储系统的研究、开发和运维。现在负责Uber存储系统的缓存服务，为整个Uber的微服务以及无人车提供高可用性可靠的存储缓存服务。
孟凡杰

eBay软件工程师

孟凡杰，eBay软件工程师，目前着力于kubernetes，特别是Federation和Ingress在eBay的落地与实践。kubernetes社区贡献者，参与了社区集群联邦的开发和重构等。拥有10多年的从业经验，先后就职于IBM、EMC、eBay等公司，专注于系统设计和软件开发。有多年基础架构管理、高性能计算、容器调度系统的开发经验，对资源管理、作业调度、网络技术有较深认识。
张贺

南京大学软件学院教授

张贺，哲学博士，博士生导师。国际软件工程研究联盟（ISERN）成员、南京大学代表，中国计算机学会高级会员、软件工程/服务计算专委会委员。毕业于澳大利亚新南威尔士大学，师从世界级软件工程专家 Ross Jeffery 教授和 Barbara Kitchenham 教授。近年来，在国际软件工程大会等国际主要软件工程期刊和会议上发表论文100余篇，其中8篇会议长文获最佳论文奖。2013年起任教于南京大学。
谢吉宝（唐三）

阿里巴巴高级技术专家

谢吉宝（唐三），阿里巴巴高级技术专家，2010年加入阿里集团，2012年加入中间件技术部高可用架构团队，主导设计了灰度发布系统、中间件运维平台、建站平台及异地多活的架构演进。见证了阿里的高可用产品体系从1.0到3.0的整个发展历程，积累了丰富的架构和稳定性经验，多次参与双11负责稳定性保障工作，目前主要负责异地多活和中间件DevOps及集团云化工作。
王潇俊

携程系统研发部总监

王潇俊，多年来致力于云平台及持续交付的实践，2015年加入携程，参与携程部署架构的全面改造，主导设计和打造新一代的适用于微服务的发布系统。同时负责基于携程私有云的兼容虚机与容器的持续交付平台。ROR狂热粉丝，敏捷文化的忠实拥趸。
张云柳

滴滴资深运维工程师

张云柳，滴滴资深运维工程师。主要关注服务稳定性、Devops、持续交互及分布式架构，本次主要将在滴滴进行稳定性建设的经验分享出来，和大家一起交流进步。
钮博彦

美团点评高级技术经理

钮博彦，美团点评高级技术经理，负责美团的质量工具平台建设。从2007年开始曾就职于微软中国、雅虎北研、唱吧等公司，从事测试开发、持续集成和DevOps等相关工作。一直专注于提升研发整体质量与效率，以及自动化测试与持续集成的架构设计。
曹轩

百度搜索运维团队技术负责人

曹轩，2011年硕士毕业后加入百度搜索运维团队，目前担任搜索运维团队技术负责人，长期从事搜索产品运维工作，积累了大量故障分析定位、大规模故障组织协调的经验，在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向，都有深入的见解和丰富的实战经验。
王志强

苏宁云商IT总部技术总监

王志强，苏宁云商IT总部大数据基础平台负责人，主要负责集团大数据基础平台建设，包括以hadoop、hive、hbase、spark为基础构建的海量数据存储和计算平台，以storm为基础构建的流式计算平台，以druid、elastic search为基础构建的olap平台等，在大数据平台架构设计、平台优化、大规模集群运维方面有丰富的经验。
徐春阳

民生银行科技部项目经理

徐春阳，曾供职阿里、百度、人民搜索和京东商城，现供职于民生银行，主要从事开源关系型数据库的相关工作，如指导项目组开发工程师在开源数据库系统上进行开发、维护开源的关系型数据库系统等。工作之余会通过公众号(MysqlPg)和个人技术网站(xuchunyang.com)分享一些有实际价值的技术文章。
邸富杰

IBM CIO DevOps教练

邸富杰，就职IBM CIO，做为4个团队的敏捷教练，主导大型Data Warehouse项目的DevOps转型和落地。曾做为IBM Bluemix PaaS云平台运维专家，参与并主导多个IBM云计算部门DevOps转型。ChatOps自动化运维模式早期实践者和推广者，为Bluemix SRE团队成功导入ChatOps这种对话驱动的自动化运维模式，对敏捷开发和持续交付有较深刻的认识和丰富的实践经验。
王耀

麻袋理财首席安全官

王耀，中信产业基金旗下麻袋理财首席安全官，麻袋理财信息安全管理委员会主席，CISSP(注册信息系统安全专家中国区执业人员)，CEH(注册道德黑客大中华区执业人员)，美国(ISC)²信息安全协会会员，美国EC-Council安全委员会会员。全面负责麻袋理财信息安全体系建设工作，涉及信息安全技术、信息安全风险管理、信息安全合规建设、内部信息安全人材梯度培养等工作。
刘雄昌（邵雍）

天猫互动架构师

刘雄昌(邵雍)，天猫互动架构师。2008年加入阿里至今，一直从事Java相关的工作。热爱脚本、热爱Linux、热爱折腾.，早年在阿里软件做过线上发布管理员（手动线上执行Bash脚本发布代码）。去年至今，在天猫带领了一个小的虚拟团队，推动着天猫所有技术人员进行DevOps转型。本次分享将过程中的一些实践经验分享出来，和大家一起探讨碰撞，希望都能有所提高。
张真

宜信技术研发中心高级架构师/研发总监

张真，宜信技术研发中心高级架构师/研发总监，主要负责金融基础系统架构演进与优化，智能运维、微服务建设、DevOps平台等，多个国际技术专利贡献者，个人也比较喜欢参与开源社区贡献，如Cloud Foundry、Apache CXF、Apache Wink等。目前主要关注微服务架构实施、微智能设计思想应用、智能运维、共识计算研究。个人理念：做一个写代码、能架构、懂算法、会智能的架构师。
赵玉开

京东资深架构师

赵玉开，十年以上互联网研发经验， 2013年加入京东，在运营研发部任架构师，期间先后主持了物流系统自动化运维平台、青龙数据监控系统和物流开放平台的研发工作，具有丰富的物流系统业务和架构经验。在此之前在和讯网负责股票基金行情系统的研发工作，具备高并发、高可用互联网应用研发经验。
王晔倞

好买财富技术总监

王晔倞，好买财富平台架构部技术总监，负责好买中间件及平台化的研发及运营、团队管理和重大技术决策实施。2011年加入大智慧，担任测试总监，带团队自研了“大智慧云测试平台”，通过平台化将金融数据服务业务从瀑布式转型为DevOps。2013年加入好买财富，4年期经历了公司面向互联网的业务转型与技术变迁，辗转过不同的业务团队，对技术与业务都有较深入的了解。
姜承尧

腾讯金融支付部副总监

姜承尧，腾讯金融支付业务部数据库研发与运营负责人。拥有超过10年MySQL数据库运维与内核开发经验，出版了“MySQL技术内幕”系列书籍3本。2013年被Oracle授予MySQL ACE头衔，独立运营深受DBA喜爱的MySQL公众账号InsideMySQL。
郭理勇

搜狗资深高级工程师

郭理勇，搜狗商业平台研发部资深高级工程师，毕业于北京航空航天大学计算机学院，主要关注大规模分布式系统架构、海量数据存储、微服务和自动化运维体系等。
陈立波

阿里巴巴高级技术专家

陈立波，多年的硬件、内核和系统层的研发经历，目前是阿里基础设施运维智能化、服务化和产品化的先行者，在IDC、网络和服务器领域先后主导和建设了多个智能运维系统，改变了传统的运维方式。
胡湘涛

美团云基础设施负责人

胡湘涛，美团云基础设施团队负责人，先后在蓝汛、世纪互联、爱奇艺、百度软件研究院工作，参与负责基础设施规划设计，及自动化运维平台建设。2014年加入美团点评，负责网络架构设计、基础运维标准化，主动运维自动化平台建设。
朱清

冰鉴科技信息技术部总监

朱清，冰鉴科技信息技术部总监，Spring Cloud中国社区联合创始人，曾就职于腾讯视频。在冰鉴期间，设计并主导了冰鉴风控一体化平台和冰鉴信用大数据平台的研发，在互联网金融风控系统建设方面有着丰富的经验。
王华夏

京东基础平台集群技术部资深架构师

王华夏，2015年加入京东，现任基础平台集群技术部资深架构师，目前主要负责京东新一代容器平台JDOS2.0的开发和落地工作。2012年硕士毕业后加入中兴通讯，参与大型分布式文件系统ZTE DFS的开发。在分布式、linux底层系统、网络、容器等领域有比较丰富的实践经验。
吴晟

华为软件开发云分布式应用性能监控产品专家

吴晟，华为开发云监控产品经理，主导监控产品的规划、技术路线及相关研发工作。前OneAPM Ai 应用性能监控产品架构师，CNCF OpenTracing分布式追踪标组织成员，OTIAB成员，OpenTracing标准中文版本的发起者和维护者，CNCF GSoC 2017导师，开源分布式Java自动追踪系统sky-walking创始人与主要贡献者（https://github.com/wu-sheng/sky-walking）。
于广游

腾讯云容器服务高级工程师

于广游，腾讯云容器服务高级工程师，现负责腾讯云容器服务的架构设计与研发工作。在分布式系统的设计与开发以及可用性的保障上有多年经验。此前，曾负责腾讯云块存储服务（CBS）的设计与研发工作。
周志伟

阿里巴巴高级技术专家／AliExpress SRE负责人

周志伟，阿里巴巴高级技术专家，Aliexpress区域化主要成员，推进Aliexpress国际区域化改造，搭建国际电商环境下的系统架构，解决国际网络等带来的系统架构问题。目前负责Aliexpress SRE，利用大数据保障Aliexpress整体可用性和稳定性。
管鹤鸣

腾讯游戏运维专家

管鹤鸣，拥有10年网络游戏运维从业经验，涵盖了自研、代理端手游等不同游戏类型，覆盖了从业务立项一直到公测商业化运营的完整生命周期的运维和规划经验，腾讯游戏运维专家，高级工程师，善长从用户和产品运营角度出发，挖掘业务痛点提出优化解决方案并获得多项专利。
张磊（宗超）

阿里巴巴数据技术及产品部高级技术专家

张磊（宗超），阿里巴巴数据技术及产品部-高级技术专家，负责阿里巴巴集团全域数据的接入及数据稳定性保障工作，拥有百万离线任务运维经验，多年双11保障经验，对阿里巴巴集团核心业务数据的稳定性负责。
何少鹏

盛大游戏云平台高级架构师

何少鹏，盛大游戏云平台高级架构师，资深网络专家，负责盛大游戏云IaaS平台的整体规划和网络设计。曾在英特尔从事DPDK高性能网络开发套件和FPGA OVS的研发工作，是《深入浅出DPDK》的作者之一。现阶段主要关注openstack和k8s框架下云平台和SDN网络在游戏方面的应用和优化，致力于公有云和私有云高性能网络架构的研究。
宋健（宋意）

阿里巴巴运维中台技术专家

宋健(宋意)，阿里巴巴运维中台技术专家，工作10年一直专注在运维领域，对于大规模运维体系、自动化运维有着深刻的理解与实践。2010年加入阿里巴巴，目前负责阿里巴巴基础运维平台。加入阿里后曾负责：从零建立支付宝基础监控体系、推动整个集团监控体系的整合统一、负责运维工具&测试PE团队。
尹烨

腾讯高级工程师

尹烨，2011年毕业后加入腾讯，先后从事后台服务、MySQL内核开发；14年开始从事Docker等容器技术研究，并负责Docker等容器技术在腾讯游戏业务的实践和落地。个人喜欢研究各种开源技术，对Linux内核、Docker/Kubernetes等有较为深入的研究。
邹均

海纳云计算CTO

邹均，海纳云计算CTO，澳大利亚麦考瑞大学电脑PhD、麦考瑞工商学院MBA，多年IT经验，资深云计算专家、区块链技术和应用爱好者，曾任IBM澳洲软件部金融行业首席架构师。 2011年回国，历任多个云计算公司高管。被评为高级海外人才，中关村区块链产业联盟专家。在领先的国际会议和期刊上发表论文20余篇，参加《中国云力量》写作，著有《区块链技术指南》。
倪朋飞

Hypernetes & Kubernetes Maintainer

倪朋飞，就职于HyperHQ，Hypernetes/frakti作者，Kubernetes feature maintainer。在云计算、SDN网络和容器编排调度等领域具有多年实践经验。
沈建林

京东金融资深架构师

沈建林，京东金融资深架构师，负责基础开发部基础中间件的设计和研发工作。主导过RPC服务框架、数据库分库分表、统一日志平台，分布式服务跟踪、流程编排等一系列中间件的设计与研发，参与过多家支付公司支付核心系统的建设。擅长基础中间件设计与开发，关注大型分布式系统、JVM原理及调优、服务治理与监控等领域。
黄博文

ThoughtWorks高级软件工程师/咨询师

黄博文，ThoughtWorks高级软件工程师/咨询师，干过开发、做过测试、搞过运维。目前专注于DevOps技术及云端架构，在搭建持续集成及部署平台、自动化构建基础设施、虚拟化环境、云端运维等方面有着丰富的经验。拥有AWS解决方案架构师认证证书。译有《Effective JavaScript》《C#多线程编程实战》《面向对象的思考过程》《基础设施即代码》等多本图书。
黄强

华为资深软件工程师

黄强，入职华为6年多，一直从事容器方面的研究和开发工作，熟悉Cgroups、namespace、CRIU、LXC、Docker、OCI等技术和项目，目前是OCI中runtime-spec、runc、 runtime-tools项目的maintainer和 Containerd项目的maintainer，在华为内部致力于容器技术的开发落地和各种容器相关技术的研究。
李玉明

百度运维大数据存储平台负责人

李玉明，百度智能运维平台研发架构师。负责运维大数据存储平台，包括大规模监控时序数据存储、海量运维事件数据存储和运维知识库建设等。自2008年中国科学院软件研究所硕士毕业后，在IBM中国研发中心从事数据库DB2内核引擎的研发工作。2014年加入百度，构建了大规模时序数据的分布式存储系统，当前承载百度运维十亿级指标、日均万亿级数据点的写入存储和查询。
吴树生

腾讯SNG监控负责人

吴树生，近十年监控系统开发经验，现任职于腾讯社交网络运营部，负责SNG大数据监控平台建设。主导完成基于Jstorm和Druid的海量多维数据监控系统、基于ElasticSearch的海量日志全链路跟踪分析系统和自研时间序列的业务特性监控系统，具有构建基于大数据平台的海量高可用分布式监控系统研发经验。
齐剑涛（榛名）

美丽联合集团高级安全工程师

齐剑涛(榛名)，美丽联合集团高级安全工程师，毕业于杭州电子科技大学。目前主要负责集团信息安全相关的工作，包括集团情报系统(Dylan)，集团堡垒机系统二期(Turtle)，在安全研究、漏洞挖掘等安全方面有着丰富的经验。
王博

百度资深软件研发工程师

王博，百度资深软件研发工程师，2014年加入百度，先后参与异常检测系统、报警收敛、故障诊断等相关工作，目前是异常检测系统的技术负责人。本次演讲希望能给大家分享百度在时序数据的异常检测策略与工程方面的相关实践经验，与大家共同探讨提高。
邓栓

PingCAP SRE工程师

邓栓，PingCAP SRE 工程师，Kubernetes 爱好者，目前主要负责 TiDB 与各种云平台整合工作。 Rust 中国社区联合创始人。
才振功

浙江大学软件学院讲师

才振功，博士，先后在美国道富、网新恒天工作多年，2011年起任教于浙江大学软件学院。主要研究领域包括容器云平台、机器学习、系统运维与容量规划等，承担和参与了浙江大学与IBM、CFETS、阿里巴巴等联合研发课题，提出了面向云平台的容量规划技术方案、应用系统性能预测与优化方案、基于机器学习的故障检测技术等。
程超

阿里巴巴监控平台技术专家

程超，阿里巴巴监控平台技术专家，2008年加入阿里巴巴,构建了阿里巴巴第一代CMDB.现在负责监控产品的开发。
陈芳录

腾讯高级运维工程师

陈芳录，现任职于腾讯社交网络运营部，负责织云自动化平台研发工作。主导织云建设了CMDB、包发布、流程系统、基础监控、告警等功能，具有丰富的自动化运维系统建设经验。
杜军

华为PaaS服务产品部软件工程师

杜军，Cloud Foundry和Kubernetes的代码贡献者，浙江大学SEL实验室硕士，致力于虚拟化技术、云计算，深入研究过Cloud Foundry、Docker、Kubernetes等开源PaaS和容器技术。《Docker——容器与容器云》一书Kubernetes部分作者。目前就职于华为PaaS服务产品部，负责Kubernetes服务负载均衡的性能优化，并推动优化成果反合Kubernetes社区。
唐文

高升控股技术VP

在腾讯、百度工作近10年，曾负责腾讯四大平台之一腾讯网整体运维、运营规划，参与将腾讯网速度优化到门户最快，获得腾讯最高技术奖；曾任百度T7架构师、负责百度访问速度TOPIC，百度UAQ、APM平台负责人，协助将百度网页搜索、移动搜索、多个商业产品及社区产品速度优化到业界最快。mmTrix创始人，后并入主板上市公司高升控股，出任技术VP。
林帆

ThoughtWorks DevOps和容器技术咨询师

林帆，DevOps和容器技术咨询师，目前就职于ThoughtWorks，从事软件开发运维咨询以及社区推广工作，在容器规模化运维方面有丰富经验。StuQ特约课程讲师，著有《CoreOS实践之路》一书，并在InfoQ等多家业内媒体发表有许多相关领域文章。
袁晓沛

七牛云技术总监

袁晓沛，曾在盛大创新院、EMC工作，参与盛大网盘EverBox，EMC备份服务Mozy百PB对象存储的设计、开发工作，主要方向在大规模分布式系统的架构设计、开发、性能调优、以及后期运维优化。目前在七牛云任技术总监负责容器的公有云、专有云技术架构，借助容器的便捷性实现大规模分布式应用的自动化部署、运维、以及高可用服务。
赵慧智

才云科技技术总监

赵慧智，当前为才云科技的技术总监，负责 AI 云平台的产品战略制定，架构设计、产品化以及关键技术点的研发工作。同时作为 Kubernetes Member，曾向 Kubernetes 社区提出在 Kubernetes 中如何支持 GPU，以及实现其中的关键部分，并在 2017 年柏林 KubeCon 做演讲并分享其中的技术点。赵慧智有过超过 10 年的研发经验，包括 3 年多的项目管理经验。
刘超

网易云解决方案总架构师

刘超，10余年云计算领域研发及架构经验，先后在EMC、CCTV证券资讯频道、HP、华为、网易从事云计算和大数据架构工作，毕业于上海交通大学。曾出版《Lucene应用开发揭秘》，在工作中积累了大量运营商系统、互联网金融系统、电商系统等容器化和微服务化经验。
周德振

Akamai中国区解决方案部高级技术顾问

周德振，现任 Akamai 公司中国区高级技术顾问。主要关注OTT 点播、直播，短视频以及低延时互动直播，视频用户体验的监控和优化。加入Akamai 前曾在 Netis、Compuware、Riverbed 等公司任职，具有多年网络性能、应用性能、加速以及优化工作背景。提出并致力于推广“分发端运维”这一概念，推动运维从服务端运维延伸至用户侧，将CDN纳入到运维体系架构之中，保障端到端的最近用户体验。
叶理灯

UCloud创新产品线研发总监

叶理灯，UCloud创新产品线研发总监。拥有10年丰富的互联网研发经验，先后任职于腾讯、盛大云等互联网公司，从事海量分布式后台系统研发及运营。现负责UCloud创新产品及研发，专注面向企业的云计算产品的研发及运营。
张海宁

VMware先进技术中心技术总监

张海宁，现任VMware中国研发中心先进技术中心技术总监， Harbor企业级容器镜像仓库开源项目创建人和架构师，Cloud Foundry中国社区最早的技术布道师之一、《区块链技术指南》作者之一。目前着重关注容器、区块链和云计算等领域的研究和开发工作。

schedule

会议日程

第一天

第二天

时间	主题	讲师
主会场
09:00~09:30	开场：智能时代的新运维	徐川
09:00~09:30	开场：智能时代的新运维	极客邦科技 InfoQ中国主编
09:30~10:15	为什么说AIOps是未来，百度的思考与实践百度应用运维团队一直追求高质量的产品可用性和用户体验，追求最经济的硬件和带宽成本，追求高效的产品迭代速度，追求无人值守的场景化运维，追求帮助业务核心能力的构建。百度应用运维平台经历了基础运维平台、开放运维平台到现在的智能化运维平台这几个阶段。本次将分享百度对于运维下一幕的思考——AIOps，以及AIOps在百度具体业务场景下的实践落地。	王栋
09:30~10:15		百度基础技术体系主任架构师
10:30~11:15	DevOps知识体系与标准化的构建作为一种源自业界的新的软件工程范式，针对DevOps的实践和讨论正处于风口浪尖。DevOps正在广度和深度上“重塑”软件工程的技术与实践。像以往的重大软件变革一样，DevOps的发展也必将经历一个由“野蛮生长”，到集体反思，再到知识体系构建，并进一步推动DevOps持续发展的成熟过程。作为DevOps中国社区的核心成员，南京大学率先开展了覆盖DevOps全周期、围绕DevOps全方位的探索工作，并通过整合科研、产业和教育来助力DevOps在中国的发展走向成熟。本次分享将介绍我们在DevOps知识体系构建上的最新进展，以及建立DevOps标准化方向上的探索与思考。听众获益： 1. 提供一个厂商中立的认识DevOps的视角； 2. 对DevOps相关技术和实践的系统化梳理； 3. 了解DevOps知识体系基本架构； 4. 参与DevOps标准化建设的机遇。	张贺
10:30~11:15		南京大学软件学院教授
11:30~12:15	从自动化到智能化的阿里运维体系运维体系在前些年集中在信息化、自动化，这两年随着AI的火热，AI和运维如何更好的结合来提升运维成为了火热的方向，阿里的运维体系同样也在经历着这样的演变过程，包括脚本化、工具化、自动化和智能化4个阶段。自动化是智能化的大前提，本话题将分享阿里在从工具化走向自动化的经验和挑战，甚至是为此所做的组织结构调整，以及在自动化有不错的进展后在智能化上所做的尝试和看到的一些方向。内容大纲： 1. 阿里运维体系，主要介绍阿里运维体系所cover的范围； 2. 从信息化到自动化，介绍阿里走向自动化这个过程的经历及经验； 3. 探索智能化，阿里在智能化运维上做的一些探索和尝试； 4. 挑战及未来。听众受益：自动化、智能化是目前大家都能看到的运维领域的两大阶段，但其实真正的要做到自动化并没那么容易，阿里的经验相信能给大家一些帮助，加速大家达成自动化，为走向智能化奠定基础，而阿里在智能化运维上的一些尝试和探索也能让大家看到基于自动化的基础和AI的结合，给运维这个领域所能带来的变化和收益。	林昊（毕玄）
11:30~12:15		阿里巴巴研发效能事业部负责人
智能化运维
13:30~14:15	AIOps的核心技术之一：任务机器人如何在金融运维/运营中落地近年来，人工智能技术备受关注，将AI引入IT运维领域，AIOps的概念由此而生。那么金融领域中，其运维场景到底能否落地AI，以及如何落地，甚至能否通过AIOps支持更好的运营，这也成为了金融行业关注的焦点。本次分享是通过宜信技术研发中心在金融运维/运营领域中如何引入人工智能技术的探索与实践，帮助大家了解哪些痛点适合引入人工智能技术，以及AIOps的关键技术之一：任务机器人的概念和难点。从我们的实践中，提炼任务机器人的构建思路和架构原理，针对难点问题阐述解决之道，并通过对应用场景的落地剖析，提供一系列参考实现，希望为大家建立适合自身需求的AIOps应用场景提供思路和方法。主要内容如下： 1.为什么引入人工智能：金融运维/运营的痛点 2.AIOps之核：任务机器人系统 2.1与聊天机器人的区别与联系 2.2三个核心难点基本意图理解系统API理解个性化交流上下文构建及语义理解 3.构建任务机器人实战 3.1设计理念与思路 3.2架构与实现原理 3.3难点问题攻略 4.应用场景落地实践剖析 4.1机器人程序员：智能系统上线 4.2机器人玩转SRE：微服务架构下的智能巡检 4.3类人化的运营参与者：实时运营协作与咨询听众收益： 1.了解金融运维/运营中哪些问题适合引入人工智能技术，为大家在自身领域中识别哪些问题是人工智能的问题提供参考 2.通过围绕AIOps的核心技术之一的任务机器人展开的话题，帮助大家掌握任务机器人的概念和难点，并提供了一种参考实现，启发大家构建自己的任务机器人的思路和灵感 3.通过任务机器人的应用场景剖析，让大家深入了解AIOps是如何在这些场景中落地，会带来什么变革与价值，帮助大家更清晰的认识该如何运用人工智能技术来解决领域中的实际问题	张真
13:30~14:15		宜信技术研发中心高级架构师/研发总监
14:30~15:15	基于日志trace的智能故障定位系统传统的trace系统面对大规模系统故障时有以下几个问题： 1.日志回收处理能力强，但对于单PV的精细分析定位受限于人工分析速率，通常在分钟级每PV； 2.大规模复杂异常时，抽样个别PV的定位结论，容易以偏概全，缺少汇聚回归； 3.依赖于人的经验；因此，结合机器学习技术的进步，我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案，主要基于以下技术： 1.基于GBDT的单PV根因预测模型； 2.数据多维度汇聚与维度间信息熵排序； 3.智能抽样系统； 4.数据获取异步化、维度逐级下钻等一系列工程优化；最终能够实现WQPS/sec的PV根因定位能力，并能够根据根因做统计上的多维度汇聚，该系统应用于百度核心搜索系统，极大的提升了重大异常问题定位效率。听众受益： 1.复杂系统大规模故障自动定位的一次最佳实践，包含我们的方法论和理想方案的思考； 2.机器学习技术与运维工具的有机结合，label-set的选取和折衷； 3.日志trace系统在大规模高并发、高吞吐系统上的工程实践和折衷；	曹轩
14:30~15:15		百度搜索运维团队技术负责人
15:35~16:20	容器环境下的智能运维技术研发与实践随着数据中心规模增长和容器技术应用深入，数据中心容器应用或服务间依赖日益复杂化，应用异常告警呈爆发式增长，误报率与漏报率居高不下，给传统运维带来巨大压力。事实上，大量告警之间、告警与事件（升级、配置变更、容器迁移等）之间存在显式或隐含的因果关系，采用机器学习技术发掘潜在因果关系，将有助于大幅提升告警分析处理的效率。本专题将详细分享浙江大学SEL实验室在容器云平台监控与智能化异常检测分析方面的研发实践，包括应用性能监控、动态拓扑、全链路分析、异常根源检测以及智能化运维实践。听众收益： 1.了解应用全链路容器运行数据采集与分析技术； 2.了解容器应用异常检测及根源分析技术思路；	才振功
15:35~16:20		浙江大学软件学院讲师
16:35~17:20	机器学习在大规模服务器治理复杂场景的实践我们今天面临的问题，云、支付和交易的程序通过虚拟化打散在百万级的服务器上，任何一次硬件故障都可能影响到重要的业务。面对如此庞大的基础设施：百种机型、万种应用、百万服务器、千万部件，再加上不同业务对故障的敏感程度不一致，传统的运维方法受到了极大地挑战，海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。本专题主要分享在无高质量样本的情况下，通过关联分析和异常检测算法，构建算法闭环。自动迭代，让批量问题的预测精度不断提高。打通故障定位和装机系统，提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来，在数据能覆盖的场景下，实现了100%的发现率。听众受益： 1. 了解大数据和机器学习在智能运维方面的实践； 2. 了解机器学习在批量问题发现问题中的思路和产品设计。	陈立波
16:35~17:20		阿里巴巴高级技术专家
大数据运维
13:30~14:15	腾讯TB级别的海量日志监控平台处理多样和海量的业务日志对实现、性能、稳定性和成本带来挑战，怎样支持灵活的日志采集处理，实现具有容灾能力的高性能和低成本的存储系统？这里介绍腾讯SNG基于QQ号码体系的每天70TB，峰值130万/s的业务日志采集、实时处理、存储和在线统计分析大数据平台。该平台基于Jstorm、Druid和ElasticSearch构建，支持标准化的日志和有规则的个性日志采集；将数据处理过程抽象为过滤、翻译、聚合统计和存储，实现配置化的数据处理流程；构建自研的低成本日志存储系统和基于Druid的OLAP系统，提供秒级响应的在线数据查询服务。听众收益： 1. 如何实现自定义的日志采集方案？ 2. 如何实现通用的数据处理平台？ 3. 如何实现低成本的日志存储系统？ 4. 如何集成和维护稳定的大数据平台套件？	吴树生
13:30~14:15		腾讯SNG监控负责人
14:30~15:15	苏宁大数据平台运维实践苏宁大数据平台经过3年多的快速发展，集群规模从10台虚机急速扩展到700台物理机，平台组件也逐渐丰富，形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中，平台规模的增长和组件的增多都给平台运维带来了很大的挑战。本话题将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点，以及相应的应对措施和解决方案，希望能为大家提供一些思路或经验。 1. 如何解决部署及运维复杂的问题？ 2. 如何解决缺少资源使用视图的问题？ 3. 如何解决排查问题耗时长的问题？ 4. 如何解决应用优化门槛高的问题？	王志强
14:30~15:15		苏宁云商IT总部技术总监
15:35~16:20	阿里巴巴大数据运维实践阿里拥有海量的数据和超大规模的计算集群，每天离线调度节点超百万，如何保障数据的稳定性，这对于运维保障人员挑战巨大，这里面除了要保证系统稳定性外，还包括故障体系的建立和跨组织协调保障等问题，在全民AI的时代，运维工作同样需要依靠大数据，我们有很多工作需要重新思考。 1、背景介绍：从以下几个方面介绍大数据运维的重要性 1）阿里巴巴是一家数据公司；2）阿里基于数据驱动的线上应用越来越多；3）稳定性是大数据能力的基本要求； 2、目前遇到的挑战 1）体量越来越大，超EB的存储，超百万的计算节点； 2）几十个bu数据之间错综复杂的依赖关系； 3）数据链路太长，涉及平台非常多，系统环境比较复杂； 4）业务压力，需要快速迭代； 3、和稳定性相关的几个标准 1）数据资产等级，从资损、影响范围等维度定义；2）破线率，是衡量运维效果的最重要指标； 3）故障体系，包括故障定义、故障处理、故障review、故障定责等内容； 4.大数据运维的主要目标 1）数据及时性；2）数据准确性；3）驱动大数据能力快速发展； 5、实践过程（重点讲的部分） 1）强保障基线策略，包括基线定义、实现原理等方面的介绍； 2）平台工具建设，包括监控告警系统、运维操作平台、规则校验平台等几个体系化的工具介绍； 3）组织保障，包括各团队SLA建立、稳定性月会等； 6、举个例子以一个具体的数据业务场景，完整的描述这个应用在整个生命周期内的运维过程； 7、未来的规划 1）打通整条数据链路；2）持续投入工具平台建设；3）通过数据解决数据的问题；	张磊（宗超）
15:35~16:20		阿里巴巴数据技术及产品部-高级技术专家
16:35~17:20	百度运维大数据存储平台设计与实践百度一直践行AI＋大数据运维的理念，我们的智能化运维技术也构建在由海量运维数据采集、计算和存储系统所组成的运维大数据平台之上。规模上，我们监控了十亿量级的指标，日均采集万亿级的数据点，每日各类运维平台产生的运维事件数以千万计。在这种规模下，运维大数据平台不仅要求7*24持续高写入，而且承载50K QPS的查询压力，给系统的设计带来了空前的技术挑战。我们应用Redis、HBase、Elasticsearch等，来构建多层分布式存储架构，并通过运维特有的数据模型、极致的压缩算法和单IDC故障容灾等技术来解决上述问题和挑战。本次talk，主要和大家分享百度构建运维大数据存储平台的经验和心得，主要内容围绕大规模时序数据存储技术（TSDB），此外也会包含我们的运维事件存储（EventDB）和运维知识库等技术。主要内容有: 1.海量运维数据处理的技术挑战 2.大规模时序数据的存储 - 时序数据的存储特征 - 三层存储结构 - 极致数据压缩 - 高可用保障 3.海量运维事件存储 4.运维知识库听众受益 1.了解大数据运维&智能化运维的问题场景和技术挑战 2.百度大规模运维数据存储的技术架构和经验心得 3.大规模分布式系统的设计和实践	李玉明
16:35~17:20		百度运维大数据存储平台负责人
容器优化与实践
13:30~14:15	携程容器云优化与实践本话题将向大家介绍携程容器云的大致架构，以及基于Mesos自研Framework的原因，分享容器在实际runtime环境下遇到过的一些坑，特别是针对Java应用，面对JVM时的一些例子，还会分享从虚机转向容器过程中遇到的困境及解决思路，如何在破坏性最小的情况下做到架构颠覆。 1. 携程容器云的大致架构 1.1. 自研Framework 1.2. cexecutor 1.3. offer碎片的处理 1.4. 监控的情况 2. 针对Java应用踩过的坑 2.1. 使人发疯的JVM OOM 2.2. 1个docker deamon OOM 的case 2.3. 自定义jvm参数带来的恶果 2.4. logrotate的坑 2.5. kernal 调整 2.6. 其他一些遇到的问题 3. 容器迁移的一些思考 3.1. 业务开发的诉求 3.2. 与已有研发模式的冲突 3.3. 一些解决思路	王潇俊
13:30~14:15		携程系统研发部总监
14:30~15:15	腾讯游戏容器云平台的演进之路腾讯游戏从2014年开始使用Docker，支撑了腾讯游戏200多款在线业务。整个平台经历了从最开始的“轻量级虚拟机”方式，到现在的原生容器云方式；接入的业务也由原来的在线服务扩展到现在的微服务、大数据、机器学习等类型业务。本次分享主要介绍腾讯游戏容器云平台这些年的建设过程和经验，并探讨相关技术问题，主要内容为： 1. 腾讯游戏容器云平台建设历程 2. 平台整体架构和技术方案 3. 总结听众受益：了解腾讯游戏业务在实践Docker上的经验	尹烨
14:30~15:15		腾讯高级工程师
15:35~16:20	华为使用Docker支持系统容器的优化实践系统容器相对Docker传统支持的应用容器，有一些独特的价值，对于华为这样的企业，有很多需要使用系统容器的场景。但系统容器同时也有很多独特的需求，原生Docker无法支持。本议题将分享Docker对支持系统容器所需要做的改造，常见的应用容器的功能需求，需要解决的问题和面临的挑战等。听众受益： 1.了解系统容器的基本概念和应用场景； 2.了解系统容器的基本特征； 3.了解如何让Docker支持系统容器； 4.了解业界存在的局限和挑战	黄强
15:35~16:20		华为资深软件工程师
16:35~17:20	多租户Kubernetes实践：从容器运行时到SDN 作为最流行的开源容器集群管理系统，Kubernetes已经被大量用在生产环境中。然而，Kubernetes在多租户支持上还并不完善，默认网络模型、Docker容器隔离性等存在很大风险。本次演讲主要介绍Hyper如何基于Kubernetes的插件机制构建强隔离的容器运行时，并配合Neutron提供多租户容器SDN网络。主要分享内容包括：1、Kubernetes插件机制简介；2、基于Kubernetes CRI的强容器隔离实践分享；3、基于CNI的多租户容器网络实践；4、实践中遇到的问题和挑战。听众受益： 1.Kubernetes插件机制简介 2.如何打造强隔离的容器运行时 3.如何打造多租户容器网络	倪朋飞
16:35~17:20		Hypernetes & Kubernetes Maintainer
互联网金融
13:30~14:15	区块链和可问责服务可问责（Accountability）传统上是政府机构和商业运营上的一个重要要求。IT行业的快速发展，已经渗透到各行各业，成为商业和社会的一个关键组成部分。过去IT行业强调的是功能、性能，而可问责没有受到重视。ＩＴ运维目前是提供可问责的ＩＴ服务的基础。但是在大数据，云计算和ＡＩ时代，自动化的可问责机制将成为必然趋势。而该趋势将对ＩＴ运维带来深远影响。该演讲介绍可问责ＩＴ服务的理念，并探讨结合区块链技术实现自动化可问责机制的可行方案。听众受益： 1. 了解区块链技术； 2. 了解可问责ＩＴ服务的新理念； 3. 启发如何在日益复杂的ＩＴ运维环境中实现可问责的ＩＴ服务的思考。	邹均
13:30~14:15		海纳云计算CTO
14:30~15:15	基于资产配置业务场景下的全链路监控平台随着系统平台化的演进，服务拆分越来越精细化，原本依赖于总线交互的功能模块都被分散到了PaaS中，形成了“微颗粒”。在松耦合给产品带来“快速交付”的同时，发现故障、定位故障、排除故障却变成了测试、运维同学“烦恼”的心事。在“互联网金融需要实行强监管”的体制下，在“监管细则划定13条红线 ”的背景下，如何在互联网金融公司中，寻找到“快速排障”与“快速交付”的平衡点？来听听好买的经历吧。听众受益：希望本次分享能够对正处于或即将处于类似场景的互联网金融同行，起到推动、引领、借鉴的参考作用。	王晔倞
14:30~15:15		好买财富技术总监
15:35~16:20	麻袋理财安全与合规建设本话题将分享麻袋理财在互联网金融领域安全与合规建设的经验，包括如何通过国家信息安全等级保护三级的测评工作以及银行资金存管落地实践经验。听众受益： 1. 对同行来说，可以通过本次分享对互联网金融行业的安全与合规建设有更全面的了解，少走弯路； 2. 对外部投资者来说，可以通过本次分享对互联网金融行业消除负面意识，合理判断，理性投资。	王耀
15:35~16:20		麻袋理财首席安全官
16:35~17:20	风控系统在容器化时代的实践冰鉴作为一家独立第三方征信服务提供商，在过去的2年内，自主研发了风控系统中的四大核心模块：数据服务、模型服务、反欺诈服务、策略服务。同时也从传统的单体应用架构及系统级运维逐步过渡到微服务架构和容器化运维，在此次大会中将分享我们的风控系统在演进到容器化时代中的实践。听众受益： 1. 了解风控系统的架构; 2. 学习单体架构到微服务架构过程中的经验。	朱清
16:35~17:20		冰鉴科技信息技术部总监
容器与运维解决方案专场
13:30~14:15	容器与Serverless架构实践容器和Serverless都是目前业界比较火的概念，本次演讲将分享UCloud在容器和Serverless结合方面的实践，介绍Serverless架构及产品，以及容器在在其中的所起的作用。听众收益： 1. 了解Serverless的概念 2. 了解Serverless的使用场景 3. 了解容器在Serverless的实践	叶理灯
13:30~14:15		UCloud创新产品线研发总监
14:30~15:15	采用Harbor开源企业级Registry实现高效安全的镜像运维随着容器技术的广泛使用，镜像管理成为实际运维中的重要问题。本演讲以Harbor为例，介绍如何在实际开发运维中，高效安全地管理容器镜像的方法，内容包括：开发和生产环境中镜像仓库的权限和镜像版本控制；多数据中心镜像远程同步（复制）的应用；大规模应用镜像快速发布方式，镜像来源的验证，镜像漏洞扫描、镜像删除和空间回收；用分布式存储实现Registry高可用性设计等。听众收益： 1. 对容器运维的要点 2. 镜像管理的最佳实践	张海宁
14:30~15:15		VMware先进技术中心技术总监
15:35~16:20	从内容分发端谈自动化运维从用户侧的角度来说，运维的目标或者本质是交付最佳用户体验。当前，几乎所有面向公众的互联网应用，都会采用内容分发网络（CDN，Content Delivery Network）来减轻服务器端的计算负载，减少带宽消耗，将内容分发至靠近用户一侧的互联网边缘服务器，以便获取更好的用户体验。服务器端的运维因为和应用创建、代码部署都密切相关而备受重视，但分发端的运维往往被忽略；与此同时，CDN技术也已从单纯的内容缓存发生了本质的变化；如何将分发端的CDN服务集成至运维流程之中，打造端到端的自动化运维，保障最佳用户体验是一个值得探讨的话题。Akamai将带您一起了解当前CDN最新发展趋势，以及如何将CDN无缝集成至您的运维流程之中。听众收益： 1. 了解CDN最新发展趋势 2. 获得端到端运维方法	周德振
15:35~16:20		Akamai中国区解决方案部高级技术顾问
16:35~17:20	Kubernetes在大规模场景下的service性能优化实战 kubernetes原生的服务负载均衡是基于iptables实现的。Kubernetes通过iptables将service的虚IP转换成后端Pod的IP。然而，iptables基于内核的规则链，最初设计是做防火墙的，并不适合做大规模的负载均衡。Kubernetes基于iptables的负载均衡实现，规则链会随着service数量的增加而线性增长。在大规模场景下，会暴露出以下弊端： 1. service访问时延随service数量增加而指数级增长； 2. iptables周期性刷新导致用户业务访问不稳定； 3. service扩容期间服务不可访问。本次分享将介绍Huawei PaaS团队在Kubernetes service性能优化方面的探索与实践。Huawei Paas基于IPVS负载均衡技术，对Kubernetes的负载均衡组件Kube-proxy进行性能优化，为其增加IPVS模式，实现了Kubernetes万级service的弹性伸缩。做到了万级service场景下，集群内服务访问毫秒级响应。当前，支持IPVS负载均衡已经被加到Kubernetes社区1.8 release的特性列表中。听众受益：本次演讲的主要受众是对Kubernetes有一定基础的开发者，要求对Kubernetes现有的服务发现和负载均衡机制有初步的了解。通过本次演讲，他们能够： 1. 了解Kubernetes原生service load balancer在性能和可靠性方面的问题； 2. 获得Kube-proxy IPVS load balancer实现的第一手设计方案和实现细节； 3. 获悉Kubernetes社区在network和service方向最新的发展动态。	杜军
16:35~17:20		华为PaaS服务产品部软件工程师
晚场活动
18:30~20:45	CNUTCon夜聊：谈谈智能时代的新运维近年来，随着大数据、机器学习和AI技术的飞速发展，智能化运维成为运维的热点领域。Gartner的报告宣称，到2020年，将近50%的企业将会在他们的业务和IT运维方面采用AIOps，远远高于今天的10%。那就当下而言，我们应该如何理解AIOps？AIOps应该如何落地？如果你希望一起探讨运维技术发展趋势，以及未来可能的变化，那不要错过9月10日晚上的夜聊活动，我们邀请了百度AIOps技术负责人、宜信AIOps落地负责人，以及DevOps和SRE领域的技术大咖，通过夜聊的方式来和大家分享他们所看到和认为的运维发展趋势，同时，也会就最近业界发生的技术事件进行讨论，为国内的广大社区和技术从业者指明方向，相信这一定可以给你带来不一样的视野和思考。	主持人：万林涛
18:30~20:45		嘉宾：曲显平张真赵成许晓斌
运维基础架构
09:30~10:15	阿里巴巴基础运维平台实践百万级规模的服务器，千变万化的业务，每天上亿次的调用……基础运维平台负责淘宝、天猫、蚂蚁、菜鸟、阿里云、合资公司等全网业务服务器的运维管理，是全集团唯一的服务器管控通道，本次分享将首次对外介绍阿里巴巴基础运维产品的设计与实现。听众受益： 1. 了解阿里巴巴基础运维产品的架构与实现； 2. 了解大规模服务器运维管控系统的设计。	宋健（宋意）
09:30~10:15		阿里巴巴运维中台技术专家
10:30~11:15	美团云基础运维体系建设实践美团云作为承载美团点评千万日订单的云计算平台，电商和公有云的业务属性对基础设施稳定要求更加苛刻。随着云计算、大数据普及，基础设施规模在飞速增长，AI等新技术技术引入对基础架构提出更高的要求，极大的提升基础设施的维护复杂度。基础设施规模的成倍甚至指数级增长，对基础设施运维的效率提出了更高的要求。本次分享主要是在基础设施建设过程中，基础设施稳定性面临的挑战和解决方案。如何在规划实施时候规避问题？如何从架构上提升基础设施自愈能力？如何快速的发现、定位和解决问题？以及如何完成基础运维体系建设提升运维效率。主要包括： 1. 制约基础设施稳定性关键因素？ 2. 如何在规划和实施时候规避问题？ 3. 如何快速发现、定位、解决/隔离故障？ 4. 持续优化、完善运维体系建设提升运维效率。听众受益： 1. 基础设施建设及提升稳定性相关经验 2. 美团云在基础架构方面的思考 3. 我们在持续优化和完善基础运维的思路	胡湘涛
10:30~11:15		美团云基础设施负责人
11:30~12:15	腾讯包管理系统演进早在2006年，腾讯SNG运营部就开始设计和实现包系统了，经过10多年不断使用和优化，现在包系统不仅承载了SNG的标准化运维理念，并且被多个BG广泛使用。目前，在包系统上，共托管了3.5W个包，平均每天执行超过5K个发布任务。那么，腾讯的包系统是如何实现的？如何同时支撑业务发布和运维管理？经过哪些功能演化？本次演讲的内容包括： 1. 包系统的功能演进 2. 现有包系统的设计方案以及使用实践 3. 我们正在进行哪些新的探索	陈芳录
11:30~12:15		腾讯高级运维工程师
数据库运维
09:30~10:15	分布式数据库系统TiDB在Kubernetes平台的自动化运维实践 Kubernetes作为当下最流行的开源容器编排系统，由于长期以来一直没有Local PersistentVolume，在其上部署对性能要求比较高的有状态数据库服务一直没有比较好的解决方案，基于 CoreOS 公司提出的 Operator 的概念而开发的TiDB-Operator 成功地解决了这一难点问题，使大规模自动化运维分布式数据库TiDB 成为可能。本次演讲主要介绍 TiDB-Operator 是如何扩展Kubernetes 来实现有状态服务的自动化运维。主要内容如下： 1. 分布式系统部署运维的复杂性与挑战 2. 有状态服务在 Kubernetes 平台的部署面临的困难 3. Kubernetes Operator 模式简介 4. Operator 模式实践：TiDB-Operator 5. TiDB-Operator 的架构和实现听众受益： 1. 了解分布式数据库 TiDB 及其简单运维 2. 了解如何将 k8s 作为框架定制开发部署管理有状态的服务	邓栓
09:30~10:15		PingCAP SRE工程师
10:30~11:15	从理论到实践，深度解析MySQL Group Replication 从Oracle官方宣布MySQL Group Replication插件在2016年12月12日发布的MySQL 5.7.17版本上正式GA以来，不少从事MySQL工作的技术人已经开始学习、研究与测试。但相对而言，大多数人因为限于时间跟精力的原因，没有去深入了解这方面的内容。本次演讲，将会以理论应用到实践、由实践再反推理论的方式，由浅入深、再深入浅出地介绍Group Replication的理论知识与生产实践。	徐春阳
10:30~11:15		民生银行科技部项目经理
11:30~12:15	MySQL数据库在腾讯支付业务中的大规模应用实战财付通金融支付平台支撑了整个腾讯集团的底层支付业务，包括大家所熟知的微信支付、手Q支付、红包转账、商业支付等。而财付通也是最早就使用开源MySQL数据库系统支撑整个金融支付业务的平台。本次将对外分享财付通平台上的MySQL数据库应用，以及在如此大规模数据库平台上如何高效的运维这么庞大的数据库集群。	姜承尧
11:30~12:15		腾讯金融支付部副总监
运维自动化实践
09:30~10:15	京东物流系统自动化运维平台技术揭密物流系统会有很多分支机构，比如仓库、分拨中心、转运中心等，业务复杂的分支机构可能会有自己的信息系统，这些信息系统往往分布式地部署到全国各地，如何管理好这些分支机构的服务器、信息系统，降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。本专题将详细为大家介绍京东物流系统自动化运维平台的实现方案，包括仓库系统的开仓实现、应用部署方案，以及研发排查问题的运维自助工具实现等。听众受益： 1. 了解基于saltstack实现自动化运维平台的设计思路； 2. 了解应用部署自动化、自助化运维工具的实现思路。	赵玉开
09:30~10:15		京东资深架构师
10:30~11:15	阿里一键建站技术解密每年的双十一都是一个全球狂欢的节日，双十一当天的秒级交易峰值平时的近10多倍，要用3-4倍的机器去支撑。阿里采用异地多活技术来把这些机器分成多个单元，然后水平复制每个单元完成大促备容。每个单元涉及几百个系统，他们之间的依赖错综复杂，复制新单元难度很大。阿里在Docker化的基础上，利用调度和CaaS，把单元终态描述成一个镜像，完成了单元的快速复制，做到了8小时从机器交付到线上引流到单元。本次分享将重点介绍阿里基于容器的建站平台的背景、架构、发展历程及未来展望，主要包括以下内容： 1. 阿里一键产生和背景及意义； 2. 基于阿里现有架构下，一键建站的可行性、困难及挑战； 3. 一键建站三代技术的发展历程； 4. 一键建站的未来展望。	谢吉宝（唐三）
10:30~11:15		阿里巴巴高级技术专家
11:30~12:15	百度大规模时序指标自动异常检测实战异常检测是监控系统中的重要环节，百度的业务种类繁多，业务的监控需求不尽相同，这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、PVLOST等常见业务曲线监控？怎样支持O2O业务不定期运营活动场景下的异常检测？怎样给大规模时序数据的快速配置异常检测算法及参数？作者将介绍百度异常检测系统以及几种异常检测算法，以及针对大规模时序指标的难以人工逐一配置的问题引入的算法自动选择决策树和参数自动配置算法。听众受益： 1. 百度异常检测系统以及内部的异常检测算法 2. 异常检测算法自动选择决策树以及参数自动配置算法的实践	王博
11:30~12:15		百度资深软件研发工程师
游戏开发与运维
09:30~10:15	"运维+"，腾讯游戏海量运营的催化剂互联网+，大家已经非常熟悉了，但“腾讯游戏运维+”，就要从腾讯游戏运营说起，当然也就离不开游戏的内容创造和运营决策者：游戏策划，以及游戏功能建造师：游戏开发。从PC游戏到移动游戏，作为游戏运营中不可或缺的守护者：游戏运维，也在游戏浪潮中践行自己的转型之路，作为亲身经历过腾讯多款自研及代理的运维工程师，我想分享这几年来是如何实践"游戏运维+"的一些故事，大家也会了解，为什么游戏运维是整个游戏运营的催化剂。听众收益： 1.如何实现和游戏开发合作共赢的方法 2.如何挖掘运营痛点并巧用运维技术解决 3.对于运维在项目大团队中定位与发展的思考	管鹤鸣
09:30~10:15		腾讯游戏运维专家
10:30~11:15	盛大游戏的深度网络优化实践极致的游戏体验离不开技术的支撑，千人同屏、万人同服、万人国战需要高性能的网络环境，而在云环境中，如何得到高性能、低延迟的网络，而不过多的消耗CPU资源是大家追求的目标。本次分享盛大游戏G云通过SDN的网络优化，提升游戏体验的实践之路。主要内容如下： 1.游戏对网络的需求 2.公网的优化和SD-WAN 3.服务器之间的通信优化 4.tcp协议的优化 5.pps对游戏的影响和dpdk的应用听众收益：了解盛大游戏对网络优化的实践经验	何少鹏
10:30~11:15		盛大游戏云平台高级架构师
11:30~12:15	网易游戏基于容器的持续集成与简化运维深度实践传统游戏开发和运维往往是分离的，开发将二进制包和配置手册交给运维，运维需要维护大量的物理机器，环境多样复杂，在大量游戏频繁上线更新的情况下，往往力不从心，而且游戏上线时通过上线时间表和架构文档做资源预估，通过编写自动化脚本进行线上运维，这样会面临资源预估不准和上线频繁的问题，容器是能够解决这些问题的，但是往往运维部门有各种的忧虑和怀疑，本次分享网易云通过自身的性能优化以及对网易自身游戏的分阶段的迁移，最终实现基于容器的持续集成和简化运维的实践之路。主要内容如下： 1.传统游戏开发与运维的痛点游戏频繁上线底层环境多样进程数目很大资源预估不准 2.游戏开发与运维对于容器的顾虑安全性稳定性高性能 3.网易云为支撑游戏所做的优化持续集成工具链云主机和容器优化裸机容器支撑网络转发优化存储性能优化 4.游戏迁移的实践之路从开发到运维的持续集成测试环境迁移与实践游戏架构与运维流程梳理运营平台与周边服务迁移与实践核心业务迁移与实践：部署架构，升级回滚，开服合服听众收益：了解游戏开发与运维常见的痛点，以及适合使用容器解决这些痛点的场景；了解云平台计算，网络，存储如何优化，才能够支撑线上游戏的持续集成与运维；如果您是一个游戏开发或者运维人员，如果希望通过容器提高持续集成或者运维效率，则可以了解网易游戏的迁移之路，以及中间踩过的一些坑	刘超
11:30~12:15		网易云解决方案总架构师
Workshop专场
09:30~12:00	Kubernetes与AI相结合架构、落地解析在云环境中，如何更好的利用云资源，更好地进行云的部署，并且将企业的业务融合其中成为了如何将云真正在企业中落地的关键组成部分。而Kubernetes作为目前炙手可热的云技术，是如何做到这些的？同时在Container编排环境中，又与以 VM为虚拟化的环境优缺点又有哪些？在云作为企业基础设施的一部分的同时，AI可以融入进企业的各个关键环境，为企业提供基于原有数据的更快反应，为企业提供诸如预测、识别等业务，助力企业业务腾飞。而AI对于硬件的消耗是怎么样的，如何将AI解决方案和云环境相结合也成了热门的话题。在这次演讲中，赵慧智将向大家介绍Kubernetes的云环境，以及如何和AI相结合，并在企业中落地中的问题和实践。听众受益： 1. 了解Kubernetes的基本原理和关键功能。 2. 了解Kubernetes在企业实施中的问题和解决方式。 3. 了解Kubernetes如何与企业业务相关联和注意事项。 4. 了解基本的AI知识和作用。 5. 了解如何将AI与Kubernetes相结合并应用于企业。 6. 了解在AI和Kubernetes这两大技术结合时的注意事项以及实施方法。	赵慧智
09:30~12:00		才云科技技术总监
13:30~15:30	基于混合云的一体化运维、运营平台最佳实践随着企业应用规模及复杂度不断增大的同时，虚拟化、容器化和云计算等新技术不断发展并在企业落地。传统分散、低效的运维模式已经难以满足大规模、高效率、全栈化、混合云化的企业需求，针对以上挑战，演讲嘉宾结合在腾讯、百度的经历，为大家分享全新的一体化运维、运营平台最佳实践。听众受益： 1. 了解运维简史、价值变迁及行业、职业红利； 2. 了解基于混合云的运维平台化和基础组件平台化实践； 3. 了解运营管理及数据分析、可视化平台实践； 4. 了解移动运维平台实践； 5. 了解做为运维管理者的管理思路和技巧； 6. 了解运维的趋势及职业发展建议。	唐文
13:30~15:30		高升控股技术VP
15:50~17:50	Elastic Stack运维数据分析从0到1 发布5.0版本后的ElasticStack已经全面超越了曾经单纯用于采集日志的ELK工具栈，成为以数据检索为核心，兼备多来源汇集、展示、分析等于一体的通用数据处理平台，提供了很多针对数据聚合分析的能力。这个话题将围绕运维领域的典型场景，和大家一起从零开始探索ElasticStack的运维数据分析之道。内容大纲： 1. 基于Beats的数据采集 2. ElasticSearch的核心API 3. 实战数据聚合查询 4. Timelion数据可视化 5. 无监督的时间序列机器学习 6. 自定义数据告警	林帆
15:50~17:50		ThoughtWorks DevOps和容器技术咨询师
容器编排与管理
13:30~14:15	腾讯云多Kubernetes集群高可用运维实践腾讯云基于kubernetes的公有云容器服务会为每个租户提供单独的kubernetes集群，现在腾讯云上已经有数百个kubernetes集群（持续增长中），数百个分属不同租户的kubernetes集群其运维难度远大于有数百个节点的单一kubernetes集群。本文主要内容如下： 1. 腾讯云基于kubernetes的容器服务架构简介 2. 运维数百个不同租户的kubernetes集群有哪些难点 3. 业界的多集群运维方案有哪些 4. 腾讯云是如何通过kubernetes master集群化部署和多维度监控来解决这些问题的	于广游
13:30~14:15		腾讯云容器服务高级工程师
14:30~15:15	基于Kubernetes的互联网Ingress实践 ingress是针对inbond connection的配置和管理，它决定了用户请求如何通过最优路径转发至后台服务，也决定如何实现跨集群跨region的高可用，可以说ingress是互联网公司的根。 eBay基于kubernetes ingress实现了对inbond connection的配置和管理，本session包含如下内容： 1. 互联网负载均衡技术的演进 2. 基于kubernetes ingress的负载均衡实践分享 3. 基于ingress实现的unified frondend services（路径优化） 4. service mesh	孟凡杰
14:30~15:15		eBay软件工程师
15:35~16:20	京东JDOS2.0平台有状态服务编排实践 JDOS1.0完成京东业务全面运行在容器之上，以及数据库和中间件等系统也全面容器化。今年上线的JDOS2.0系统，完成了从Openstack向Kubernetes整体迁移，截止到今年618大促，已经有超过60%的核心业务运行在了JDOS2.0平台上面。在京东超过10000多的应用中，有状态应用和服务的编排和管理是最具挑战性的。本次分享将深入介绍京东使用Kubernetes进行有状态服务集群的编排和管理。具体包括使用京东自研ContainerFS结合Kubernetes的动态存储请求和分配机制对服务状态的持久化存储、使用京东自研基于DPDK的高性能负载均衡结合URL Check功能对服务状态的实时监控、以及高效部署和管理有状态服务集群的Init Container, StatefulSet等特性的实践。最后会通过一个有状态集群的例子来展示京东如何在JDOS2.0上面轻松进行有状态服务的创建和自动化管理。听众受益：了解京东新一代容器平台JDOS2.0关于有状态服务编排和管理的最新进展。	王华夏
15:35~16:20		京东基础平台集群技术部资深架构师
16:35~17:20	机器学习模型训练的Kubernetes实践通过人工智能、机器学习的途径来挖掘数据的深层价值，已经成为当前的热点，通过Kubernetes来管理机器学习的任务也是当前的趋势。机器学习很重要的一个环节是模型训练，模型训练往往对计算力、磁盘和网络IO及资源调度都有不低的要求。虽然通过Kubernetes可以解决训练任务的资源调度问题，训练中间结果的存取也可以通过Ceph来实现。但是kubernetes原生对GPU的支持不够完善，在异构GPU的处理、GPU资源监控、NVIDIA Driver的外部依赖等版本问题上，有若干问题存在。主要内容如下： 1. 如何克服挑战将模型训练移植到kubernetes； 2. 如何通过Ceph的一写多读解决机器学习训练的中间结果数据集大，存储效率低的问题； 3. Kubernetes原生对于Ceph的支持不够，如何通过ImageFormat、mount options解决； 4.如何自动清理废弃的PV等。	袁晓沛
16:35~17:20		七牛云技术总监
SRE与微服务最佳实践
13:30~14:15	Uber SRE以及Cache服务在微服务环境下的演进 Uber全球业务爆发式增长，现在已经覆盖全球超过570座城市，业务也已经涵盖汽车共享UberX/UberPool，外卖服务Uber Eats，卡车运输协调Uber Freight，无人驾驶Uber ATG等等。前端业务对后台基础Infrastructure的需求强劲而且变化快，数据中心一直处于爆发式增长。如何为超过2000个微服务以及无人车提供稳定可靠高性能的计算存储支持是整个Infrastructure部门的工作重心，而其中SRE部门又是守护系统稳定的最后一道防线。本专题将为大家介绍Uber的SRE团队是如何协同和其他部门工作，对公司业务和基础Infrastructure进行监控，以及在主要业务外围开发稳定性服务监控、报警软件实现自动化。本专题也将分享Uber的整个数据中心从只有一个可写到现在全美国双活乃至全球多活的历程和故事。听众受益： 1.了解如何建立稳定性SRE团队； 2.了解如何从一个数据中心拓展成多个多活数据中心； 3.了解一个Infrastructure团队如何支持多种不同类型的业务	孟飞
13:30~14:15		Uber SRE存储部门高级工程师
14:30~15:15	阿里巴巴国际环境下的SRE体系 AliExpress是阿里巴巴国际电商平台，海外买家覆盖200+国家，分布广且离散，国际架构、网络体系复杂，为了提升全球用户体验面临诸多技术挑战，本次主要围绕全球架构体系下的SRE保障，分享全球架构体系的可用性解决方案及具体实践。主要内容为： 1. 全球网络体系复杂，互联互通问题诸多，如何应对由此带来的网站可用性问题； 2. 国际架构体系下，全球物理距离使得网络传输时间成为技术难点之一，如何解决可用性和提升全球用户体验； 3. 如何实现全球多IDC下的异地多活； 4. 全球多IDC下的数据一致性问题；听众受益： 1. 国际SRE的运作 2. 国际异地多活 3. 国际网络稳定性解决方案 4. 大数据SRE发现问题解决问题	周志伟
14:30~15:15		阿里巴巴高级技术专家／AliExpress SRE负责人
15:35~16:20	搜狗配置中心架构演化与实践传统的分布式配置文件管理模式已越来越难满足微服务灵活多变的特性，而如何应对配置的频繁变更和生效则成为了微服务时代配置中心的重点。在微服务的背景下，配置中心正在逐渐开启新的定义和赋予新的角色，成为串联整个微服务架构体系的不可或缺的一部分。本主题通过对搜狗统一配置中心的迭代演进，从资源依赖的模型角度阐述新一代的配置中心设计理念，从配置管理、配置变更、容灾等方面结合微服务现状进行深度架构剖析，同时分享配置中心在多环境并行测试、数据库热切换、灰度发布等方面的成功实践和思考。听众受益： 1. 阐述目前主流配置中心的基本架构与设计思路； 2. 微服务时代如何实现分布式配置文件管理和变更，自动容灾等； 3. 配置中心在搜狗商业部门的实践经验总结，关键技术解决方案等。	郭理勇
15:35~16:20		搜狗资深高级工程师
16:35~17:20	滴滴稳定性建设实践故障处理是每个系统都要面对的现实问题，但随着系统越来越复杂，故障的发现、定位、处理难度也将随之增长。滴滴现在服务近4亿+乘客、1700w+司机、覆盖400+城市，超过10个业务线提供服务，业务的高速增长对稳定性工作开展是挑战，更是难得的机会。本专题将为大家详细介绍滴滴在故障处理方面的建设，以及各团队如何围绕星辰花稳定性技术竞赛开展稳定性工作。主要包括星辰花赛制介绍、监控分级建设、全局状态观察及事件根因推荐等。 1. 稳定性建设总览 1.1 星辰花稳定性竞赛介绍 1.2 故障生命周期及滴滴建设情况总览 1.3 各部门如何配合处理故障 2. 故障定位 —— 灭火图：全局状态展示 2.1 为什么需要灭火图？灭火图是什么？ 2.2 成长史：濒临窒息 2.3 曾经的迷茫：没有业务拓扑，不可能完成的任务 2.4 抽丝剥茧：目标重塑，建立标准 2.5 避不开的雷：数据稳定性 3. 故障定位 —— 多维度监控：异常接口推荐 3.1 多维度监控是什么？背景介绍 3.2 成长史：API监控、upstream 监控、独立于通用监控系统，... 3.3 我不是张衡：数不完的 API 3.4 借力大数据：哪里需要“聚”哪里 3.5 众里寻他：异常推荐 4 智能化定位 —— 事件推送：故障根因推荐 4.1 事件的由来 4.2 事件分类 4.3 基于时序和规则的根因推荐 5 总结听众受益： 1.了解滴滴在业务高速发展的同时，如何开展稳定性工作； 2.了解滴滴如何划分监控层次，达成对复杂系统的有效监控； 3.了解在故障定位方面如何进行全局把控及根因推荐	张云柳
16:35~17:20		滴滴资深运维工程师
DevOps & CI/CD
13:30~14:15	微服务场景下的Serverless架构实践 2016年11月份ThoughtWorks发布的Technology Radar上Serverless architecture从评估阶段升级到了试用阶段。恰逢此时我们在某项目中大胆采纳并实践了Serverless架构。在如今微服务大行其道的情况下，Serverless架构结合微服务倡导的Event Sourcing往往能收到奇效。不过Serverless架构强依赖平台，对传统的CI/CD也带来了诸多挑战。本主题会分享在实践Serverless架构过程中的一线经验和教训。听众受益： 1. 理解Serverless架构的优势和缺陷； 2. 在微服务场景下采纳Serverless架构的最佳姿势； 3. Serverless架构下的CI/CD该如何做； 4. Serverless架构的演进。	黄博文
13:30~14:15		ThoughtWorks高级软件工程师/咨询师
14:30~15:15	天猫DevOps转型实践在2016财年，天猫的技术，不仅仅在双11创造了一个漂亮的新记录--1207亿，并且在研发流水线上，也完成了两件大事：Dev转型DevOps、应用的运维工作由PE交接给DevOps。天猫为什么要做出这种转型？带来了什么收益？天猫是怎么去做的？此次演讲，会从研发人员的角度进行一个展示。这个过程是不是合理？经验是不是可以复制？我们将共同探讨。	刘雄昌（邵雍）
14:30~15:15		天猫互动架构师
15:35~16:20	基于虚拟化的CI/CD流程与基础架构建设随着持续集成理论的深入人心，公司内对于CI/CD系统的依赖也越来越深，更多的业务线接入，更多的流水线建立，都会对CI/CD系统的可用性和易用性提出了更高的要求。本次分享主要介绍如何用容器等技术手段，来架构和实现针对公司多个业务线的CI/CD流程和基础架构，以及在版本管理、测试环境、产品发布等方面的实践应用。主要包括： 1. 基于容器的CI/CD系统架构 2. 基于虚拟化架构的CI/CD流程 3. 服务端版本与测试环境的管理听众收益： 1. 如何建设CI/CD基础架构，针对复杂大量的业务需求？ 2. 如何解决CI/CD资源池，资源分配不平均的问题？ 3. 如何解决利用基础架构，实现从开发到上线的过程？	钮博彦
15:35~16:20		美团点评高级技术经理
16:35~17:20	全方位的监控与智能透明的自动化运维 Monitoring是什么？Monitoring需要做什么事情？作者会从2个不同的维度出发来展开这两个问题，阐述monitor要“两条腿一起走路” 的两条腿分别指什么，并提供全套开源工具链供参考。你认为的自动化运维是什么？自动化脚本？不完全是，作者会结合过去2年来ChatOps的实践，来阐述如何通过chat bots来实现透明的自动化运维以及所带来的益处。听众受益： 1. 了解全方位的监控系统解决方案，以及监控系统所需的全套开源工具链和最佳实践； 2. 了解到ChatOps的相关知识和实践，以及如何引入ChatOps到平时的工作中来。	邸富杰
16:35~17:20		IBM CIO DevOps 教练
运维监控与安全
13:30~14:15	固守服务器的第一道防线——美联集团堡垒机的前世今生在信息安全越来越被重视的今天，堡垒机作为服务器的第一道直接防线，充当着十分重要的角色。本次分享将基于本人在堡垒机方面的研究与总结，并结合在工作中的实际经验，为大家讲解美联集团堡垒机系统从摸索到落地中遇到的问题以及挑战，与大家一起探讨安全与运维的结合方式。 1. 背景 1.1 老堡垒机在使用中遇到的问题 1.2 使用市面上的开源产品，但是并不适合本身的业务需求以及安全需求 1.3 决定进行自研 2. 历史问题以及处理过程 2.1 权限如何规范，权限收回，root 回收 2.2 权限回收后的系统依赖问题 2.3 线上机器互跳 2.4 免密登录，使开发过程更便捷 2.5 录屏、以及历史记录管理 3. 构建二期中遇到的问题以及难点 3.1 二期设计的整体思路 3.2 用到的相关技术栈 3.3 用到的一些技术细节 3.4 二期部署落地以及总结	齐剑涛（榛名）
13:30~14:15		美丽联合集团高级安全工程师
14:30~15:15	构建微服务下的性能监控 APM系统诞生已久，但是在这几年才越来越受到开发、运维团队的关注，应用系统从CS到J2EE，再到如今的SOA、微服务以及容器化，应用的分布式复杂程度与日俱增，当年可以从日志排查的错误，现在却成为了难以定位的问题。本次分享我将根据自身多年的分布式监控产品的设计和研发经验，带领大家了解分布式监控领域的常用理论、方法及面临的问题。教大家如何选择适合自己的分布式监控系统，甚至如何构建属于自己的分布式监控系统。主要内容如下： 1. 面向微服务和DevOps的下一代APM 2. 概念：CNCF OpenTracing的语义、概念及近一年的发展情况 3. 三大领域 3.1 监控的数据化、全领域监控 3.2.应用的发现、追踪和诊断 3.3 应用分析：蝴蝶效应以及告警风暴 4. 产品形态与定位：面向运维和面向研发的监控系统 5.选择：分布式追踪系统中的抉择 5.1 手动埋点和自动埋点之争 5.2 采样与全量之争 5.3 实时与批量之争 5.4 调用链路与日志收集 6.sky-walking开源APM展示，Spring Cloud微服务监控	吴晟
14:30~15:15		华为软件开发云分布式应用性能监控产品专家
15:35~16:20	阿里巴巴监控之路在2016年双11全球购物狂欢节中，天猫全天交易额1207亿元，前30分钟每秒交易峰值17.5万笔，每秒支付峰值12万笔。承载这些秒级数据背后的监控产品是如何实现的呢？本主题通过对阿里巴巴监控体系的演进来阐述新一代的监控系统是如何实现的,以及架构是如何进化的。这次主要讲的是海量实时秒级监控系统，以日志、REST 接口、Shell 脚本等作为数据采集来源，提供系统、应用、业务等各种视角的监控能力，从而帮助业务快速发现问题、定位问题、解决问题，为线上系统可用率提供有效保障。听众受益: 1. 超大规模的实时秒级监控系统的架构； 2. 支持业务发展的关键技术点； 3. 系统演进过程的思考和实践。	程超
15:35~16:20		阿里巴巴监控平台技术专家
16:35~17:20	京东金融分布式服务跟踪实践随着京东业务规模的不断扩大，SOA及微服务架构日趋深入，服务数量不断膨胀，线上环境日益复杂，服务依赖关系每天都在发生巨大变化。业务发展变化之快超乎想象，业务监控需求不断变化。本次分享的主要是海量并发的实时APM系统的主要功能展示及我们碰到的问题和解决方案。如何快速的发现问题，定位问题。如何为业务的高速发展保驾护航。主要包括： 1. 如何梳理服务依赖关系? 2. 如何自动发现应用瓶颈？ 3. 如何自动容量规划？ 4. 如何满足快速变化的业务监控需求？ 5. 如何自动找到问题的根本原因？听众受益： 1. 超大规模APM系统的架构设计 2. 系统容量与水位的另一种思考 3. 我们碰到的问题以及解决思路	沈建林
16:35~17:20		京东金融资深架构师

TRAINING

培训

立即报名

reviews

2016 CNUTCon 回顾

让每天的1亿2千万小时更完美－ Netflix微服务生态系统
Netflix，一个在北美日峰值占用互联网总带宽37%以上的一家网络视屏公司，每天提供全球用户1亿两千五百万小时以上的高质量影片用户体验，是如何把所有的关键分布式基础设施和平台搭建在AWS云端？我们会一起讨论一些微服务构架在netflix的具体实现，以及整个工程生态系统中其他关键因素（比如公司文化）是如何和微服务构架达到契合。
一个云计算人对容器技术现在以及未来的冷思考
目前容器技术已经取得了突破性的进展，它在社区的采纳度非常高，很多企业都已经将容器用于生产环境中。但除了应用打包、部署以及DevOps之外，容器技术还能再走多远？容器又会给计算领域带来怎样的整体影响？在此次演讲中，我们将共同探讨容器技术在服务器、云以及物联网等计算环境下的潜在发展空间。
使用Docker SwarmKit 进行集群管理和服务编排
Docker 6月份发布SwarmKit，在Swarm的基础上提供Docker原生集群来管理计算资源和编排容器。Swarmkit主要特性包括服务定义，负载均衡，故障恢复，滚动更新等。Swarmkit用相对简洁的方式实现集群功能，帮助用户灵活的进行Docker容器管理。我们会演示如何使用Swarmkit定义计算，网络和存储，实现服务部署及升级，并探讨下一步发展方向。