CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天,主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。
从行业角度出发
不鼓吹某项技术也不抹黑某项技术
从社区角度出发
希望引导社区向着正确的方向前进
从内容角度出发
专题系统全面且演讲有层次有深度
从听众角度出发
重经验 & 谈实践 多落地 & 少概念
涂彦,腾讯游戏运维总监,负责游戏业务运维服务以及管理工作。从事网络游戏运维十年以上,是腾讯游戏运维智能化、服务化、产品化的坚定实践者,关注互联网行业运维标准建设、海量业务运维增值服务等工作。
钟红军 ,美团点评运维部高级总监,此前曾就职于百度、腾讯、PPTV等互联网公司,2013年加入美团点评,带领运维团队实现多次突破。熟悉系统、网络、运维、安全、数据、开发等多个领域。
周彦伟,“数据库运维”专场出品人,中国MySQL用户组(ACMUG)创始人&主席 ,Oracle MySQL ACE Director,去哪儿网数据库总监,负责数据库平台的管理和维护工作。工作范围包括MySQL、Redis、HBase平台的架构设计、性能调优、日常运维及自动化运维平台设计。曾任人人网MySQL技术主管,负责数千规模的MySQL数据库实例的运维管理。
刘建,搜狗资深架构师,负责搜狗商业平台的基础研发和平台架构,涉及广告计费、报文等核心业务服务,致力于解决分布式、高并发、大数据量等带来的各种技术难题及挑战,构建和持续优化商业平台基础架构,保证高可靠、高性能、低成本的快速支撑新业务。在多个技术方向有较深刻的理解,有多年大规模复杂系统架构实践经验。
张磊,Hyper项目成员,Kubernetes项目官方Project Manager和Feature Maintainer。曾任浙江大学研究员和课程讲师,期间组建浙大云计算团队(现为CNCF正式学术会员)并出版《Docker容器与容器云》技术书籍,在Docker和Kubernetes开源社区均享有声誉。是微软“云计算与数据中心领域”最有价值专家、以及LinuxCon、KubeCon等多个国际会议的讲师。
李响,现就职于CoreOS,任分布式系统组主管,负责调度、存储、协作等相关分布式系统设计与实现。开源分布式键值存储系统etcd项目作者,开源容器管理平台 Kuberentes项目维护者。他实现的Raft协议被广泛使用在分布式数据库、调度器中。2012年本科毕业于浙江大学,2014年研究生毕业于Carnegie Mellon University。
张晓强,“运维自动化实践”专场出品人,目前主要负责携程数据中心基础架构运维管理工作。在网站运维和IT服务管理领域有20多年的相关经验,对于网络自动化平台、IAAS平台开发有丰富的建设经验,带领团队利用开源平台独立开发了携程的网络和存储的自动化运维平台。他是国内首批Devops Master专家课程授权讲师,积累了丰富的Devops转型、管理、落地执行实践经验。
曲显平,“智能化运维”专场出品人,百度运维部技术经理。毕业于复旦大学,2009年加入百度, 先后负责基础运维平台、运维数据仓库、智能化运维平台的研发,目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会(SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等)发表多篇重量级论文和talk。
许晓斌,“SRE与微服务最佳实践”专场出品人,阿里AliExpress高级技术专家,目前在AliExpress从事微服务实施、研发效率提升相关工作。曾是Maven中央仓库的维护者,参与开发Maven仓库管理软件Nexus。推崇敏捷开发方法和DevOps理念,关注Scalability、领域驱动设计、编程语言等技术领域。《Maven实战》作者,《Cucumber:行为驱动开发》合译者。
徐巍,“运维基础架构”专场出品人,饿了么高级运维经理,目前主要负责饿了么基础设施运维。曾就职于携程、PPTV等互联网公司,在视频CDN、分布式文件系统、大数据运维、大规模缓存系统、自动化运维平台建设等方面具有一定的经验积累。
肖世广,“大数据运维”专场出品人,腾讯QQ技术运营总监,2008年进入腾讯,经历了应用型、大流量大存储型和平台级的技术运营,负责几万台服务器/几T带宽的运营优化经验,过程中在运营标准化、集群化、智能化,set高度调度和全球分布能力建设,大数据和运营,内部云和DevOps的构建,业务架构优化、业务质量、成本优化等方向都积累了丰富的实践经验。
霍金健,“DevOps&CI/CD”专场出品人,百度资深敏捷教练&交付经理。目前致力于推动互联网创新产品管理和创新业务的工程能力建设。主导完成商业知心、大数据工厂、用户画像、大数据+、人工智能等公司战略产品的敏捷改进和产品交付工作,通过度量驱动方式提升工程能力,结合业务目标和团队特点取得突出效果。多书译者,国内外多个领域知名大会演讲嘉宾。
赵成(谦益),“运维监控与安全”专场出品人,美丽联合集团运维经理,负责美丽联合集团(原蘑菇街、美丽说)运维团队的管理及运维体系建设工作。拥有近10年研发和运维经验,见证和参与了多个电信级和互联网产品从无到有的创造、从微量到海量的成长过程,也经过多轮炼狱般的磨练和蜕变积累了非常丰富的电信级和互联网业务研发和运维经验。
刘建,“容器编排与管理”专场出品人,搜狗资深架构师,负责搜狗商业平台的基础研发和平台架构,涉及广告计费、报文等核心业务服务,致力于解决分布式、高并发、大数据量等带来的各种技术难题及挑战,构建和持续优化商业平台基础架构,保证高可靠、高性能、低成本的快速支撑新业务。在多个技术方向有较深刻的理解,有多年大规模复杂系统架构实践经验。
强昌金,“数据库运维”专场出品人,去哪儿MySQL高级DBA,Redis中国用户组(CRUG)创始人&副主席。先后就职于陌陌、去哪儿网,目前主要负责去哪儿网数据库管理平台的开发、MySQL和Redis的运维。在数据库方面,具有丰富的数据库运维和性能优化经验。
王旭,“容器优化与实践”专场出品人,Hyper Cofounder & CTO,北京邮电大学博士,HyperContainer项目的最初作者,曾就职于中国移动研究院,负责大云项目中的Hadoop HDFS和分布式存储系统。后在盛大云计算负责弹性块存储服务。2013年作为CTO加入VisualOps,2015年创立Hyper虚拟化容器项目。同时也是一位Linux、云计算、大数据等领域的作/译者。
涂彦,“游戏开发与运维”专场出品人,腾讯游戏运维总监,负责腾讯游戏业务运维服务以及管理工作。从事网络游戏运维十年以上,是腾讯游戏运维智能化、服务化、产品化的坚定实践者,关注互联网行业运维标准建设、海量业务运维增值服务等工作。
曾波,“互联网金融”专场出品人,家视天下技术总监,负责鹏博士集团旗下大麦OTT业务基础研发和平台架构。先后就职于微软中国、什么值得买、京东金融东家财富,有多年互联网金融领域大规模复杂系统架构实践经验。
王栋,百度基础技术体系主任架构师,本科硕士毕业于清华大学计算机系,博士毕业于北京大学计算机系。曾就职于Bell Labs和Google。2015年加入百度,主要负责运维平台基础架构和智能化演进方向,参与和主导了百度智能运维AIOps平台的设计和研发过程,在SREcon和LISA等国际系统运维行业会议多次发表演讲。
林昊(毕玄),阿里巴巴研发效能事业部负责人。2007年加入阿里,10年间打造了阿里目前使用最为广泛的核心中间件之一的服务框架;建设了阿里的HBase团队,发展到今天HBase已经是阿里最重要的NoSQL产品;打造阿里基于LXC的虚拟化系统,以及集群资源管理系统,不断降低阿里巴巴在机器资源上投入的成本;设计并带领团队实现了阿里巴巴技术发展史上具有里程碑意义的异地多活。
孟飞,现任Uber SRE存储部门高级工程师。技术栈涵盖操作系统存储、分布式存储、高性能计算存储、企业级SAN/NAS存储、云存储以及大规模互联网存储服务。先后任职于NetApp ATG、VMware、Pure Storage和Uber从事存储系统的研究、开发和运维。现在负责Uber存储系统的缓存服务,为整个Uber的微服务以及无人车提供高可用性可靠的存储缓存服务。
孟凡杰,eBay软件工程师,目前着力于kubernetes,特别是Federation和Ingress在eBay的落地与实践。kubernetes社区贡献者,参与了社区集群联邦的开发和重构等。拥有10多年的从业经验,先后就职于IBM、EMC、eBay等公司,专注于系统设计和软件开发。有多年基础架构管理、高性能计算、容器调度系统的开发经验,对资源管理、作业调度、网络技术有较深认识。
张贺,哲学博士,博士生导师。国际软件工程研究联盟(ISERN)成员、南京大学代表,中国计算机学会高级会员、软件工程/服务计算专委会委员。毕业于澳大利亚新南威尔士大学,师从世界级软件工程专家 Ross Jeffery 教授和 Barbara Kitchenham 教授。近年来,在国际软件工程大会等国际主要软件工程期刊和会议上发表论文100余篇,其中8篇会议长文获最佳论文奖。2013年起任教于南京大学。
谢吉宝(唐三),阿里巴巴高级技术专家,2010年加入阿里集团,2012年加入中间件技术部高可用架构团队,主导设计了灰度发布系统、中间件运维平台、建站平台及异地多活的架构演进。见证了阿里的高可用产品体系从1.0到3.0的整个发展历程,积累了丰富的架构和稳定性经验,多次参与双11负责稳定性保障工作,目前主要负责异地多活和中间件DevOps及集团云化工作。
王潇俊,多年来致力于云平台及持续交付的实践,2015年加入携程,参与携程部署架构的全面改造,主导设计和打造新一代的适用于微服务的发布系统。同时负责基于携程私有云的兼容虚机与容器的持续交付平台。ROR狂热粉丝,敏捷文化的忠实拥趸。
张云柳,滴滴资深运维工程师。主要关注服务稳定性、Devops、持续交互及分布式架构,本次主要将在滴滴进行稳定性建设的经验分享出来,和大家一起交流进步。
钮博彦,美团点评高级技术经理,负责美团的质量工具平台建设。从2007年开始曾就职于微软中国、雅虎北研、唱吧等公司,从事测试开发、持续集成和DevOps等相关工作。一直专注于提升研发整体质量与效率,以及自动化测试与持续集成的架构设计。
曹轩,2011年硕士毕业后加入百度搜索运维团队,目前担任搜索运维团队技术负责人,长期从事搜索产品运维工作,积累了大量故障分析定位、大规模故障组织协调的经验,在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向,都有深入的见解和丰富的实战经验。
王志强,苏宁云商IT总部大数据基础平台负责人,主要负责集团大数据基础平台建设,包括以hadoop、hive、hbase、spark为基础构建的海量数据存储和计算平台,以storm为基础构建的流式计算平台,以druid、elastic search为基础构建的olap平台等,在大数据平台架构设计、平台优化、大规模集群运维方面有丰富的经验。
徐春阳,曾供职阿里、百度、人民搜索和京东商城,现供职于民生银行,主要从事开源关系型数据库的相关工作,如指导项目组开发工程师在开源数据库系统上进行开发、维护开源的关系型数据库系统等。工作之余会通过公众号(MysqlPg)和个人技术网站(xuchunyang.com)分享一些有实际价值的技术文章。
邸富杰,就职IBM CIO,做为4个团队的敏捷教练,主导大型Data Warehouse项目的DevOps转型和落地。曾做为IBM Bluemix PaaS云平台运维专家,参与并主导多个IBM云计算部门DevOps转型。ChatOps自动化运维模式早期实践者和推广者,为Bluemix SRE团队成功导入ChatOps这种对话驱动的自动化运维模式,对敏捷开发和持续交付有较深刻的认识和丰富的实践经验。
王耀,中信产业基金旗下麻袋理财首席安全官,麻袋理财信息安全管理委员会主席,CISSP(注册信息系统安全专家中国区执业人员),CEH(注册道德黑客大中华区执业人员),美国(ISC)²信息安全协会会员,美国EC-Council安全委员会会员。全面负责麻袋理财信息安全体系建设工作,涉及信息安全技术、信息安全风险管理、信息安全合规建设、内部信息安全人材梯度培养等工作。
刘雄昌(邵雍),天猫互动架构师。2008年加入阿里至今,一直从事Java相关的工作。热爱脚本、热爱Linux、热爱折腾.,早年在阿里软件做过线上发布管理员(手动线上执行Bash脚本发布代码)。去年至今,在天猫带领了一个小的虚拟团队,推动着天猫所有技术人员进行DevOps转型。本次分享将过程中的一些实践经验分享出来,和大家一起探讨碰撞,希望都能有所提高。
张真,宜信技术研发中心高级架构师/研发总监,主要负责金融基础系统架构演进与优化,智能运维、微服务建设、DevOps平台等,多个国际技术专利贡献者,个人也比较喜欢参与开源社区贡献,如Cloud Foundry、Apache CXF、Apache Wink等。目前主要关注微服务架构实施、微智能设计思想应用、智能运维、共识计算研究。个人理念:做一个写代码、能架构、懂算法、会智能的架构师。
赵玉开, 十年以上互联网研发经验, 2013年加入京东, 在运营研发部任架构师, 期间先后主持了物流系统自动化运维平台、 青龙数据监控系统和物流开放平台的研发工作, 具有丰富的物流系统业务和架构经验。在此之前在和讯网负责股票基金行情系统的研发工作, 具备高并发、高可用互联网应用研发经验。
王晔倞,好买财富平台架构部技术总监,负责好买中间件及平台化的研发及运营、团队管理和重大技术决策实施。2011年加入大智慧,担任测试总监,带团队自研了“大智慧云测试平台”,通过平台化将金融数据服务业务从瀑布式转型为DevOps。2013年加入好买财富,4年期经历了公司面向互联网的业务转型与技术变迁,辗转过不同的业务团队,对技术与业务都有较深入的了解。
姜承尧,腾讯金融支付业务部数据库研发与运营负责人。拥有超过10年MySQL数据库运维与内核开发经验,出版了“MySQL技术内幕”系列书籍3本。2013年被Oracle授予MySQL ACE头衔,独立运营深受DBA喜爱的MySQL公众账号InsideMySQL。
郭理勇,搜狗商业平台研发部资深高级工程师,毕业于北京航空航天大学计算机学院,主要关注大规模分布式系统架构、海量数据存储、微服务和自动化运维体系等。
陈立波,多年的硬件、内核和系统层的研发经历,目前是阿里基础设施运维智能化、服务化和产品化的先行者,在IDC、网络和服务器领域先后主导和建设了多个智能运维系统,改变了传统的运维方式。
胡湘涛,美团云基础设施团队负责人,先后在蓝汛、世纪互联、爱奇艺、百度软件研究院工作,参与负责基础设施规划设计,及自动化运维平台建设。2014年加入美团点评,负责网络架构设计、基础运维标准化,主动运维自动化平台建设。
朱清,冰鉴科技信息技术部总监,Spring Cloud中国社区联合创始人,曾就职于腾讯视频。 在冰鉴期间,设计并主导了冰鉴风控一体化平台和冰鉴信用大数据平台的研发,在互联网金融风控系统建设方面有着丰富的经验。
王华夏,2015年加入京东,现任基础平台集群技术部资深架构师,目前主要负责京东新一代容器平台JDOS2.0的开发和落地工作。2012年硕士毕业后加入中兴通讯,参与大型分布式文件系统ZTE DFS的开发。在分布式、linux底层系统、网络、容器等领域有比较丰富的实践经验。
吴晟,华为开发云监控产品经理,主导监控产品的规划、技术路线及相关研发工作。前OneAPM Ai 应用性能监控产品架构师,CNCF OpenTracing分布式追踪标组织成员,OTIAB成员,OpenTracing标准中文版本的发起者和维护者,CNCF GSoC 2017导师,开源分布式Java自动追踪系统sky-walking创始人与主要贡献者(https://github.com/wu-sheng/sky-walking)。
于广游,腾讯云容器服务高级工程师,现负责腾讯云容器服务的架构设计与研发工作。在分布式系统的设计与开发以及可用性的保障上有多年经验。此前,曾负责腾讯云块存储服务(CBS)的设计与研发工作。
周志伟,阿里巴巴高级技术专家,Aliexpress区域化主要成员,推进Aliexpress国际区域化改造,搭建国际电商环境下的系统架构,解决国际网络等带来的系统架构问题。目前负责Aliexpress SRE,利用大数据保障Aliexpress整体可用性和稳定性。
管鹤鸣,拥有10年网络游戏运维从业经验,涵盖了自研、代理端手游等不同游戏类型,覆盖了从业务立项一直到公测商业化运营的完整生命周期的运维和规划经验,腾讯游戏运维专家,高级工程师,善长从用户和产品运营角度出发,挖掘业务痛点提出优化解决方案并获得多项专利。
张磊(宗超),阿里巴巴数据技术及产品部-高级技术专家,负责阿里巴巴集团全域数据的接入及数据稳定性保障工作,拥有百万离线任务运维经验,多年双11保障经验,对阿里巴巴集团核心业务数据的稳定性负责。
何少鹏,盛大游戏云平台高级架构师,资深网络专家,负责盛大游戏云IaaS平台的整体规划和网络设计。曾在英特尔从事DPDK高性能网络开发套件和FPGA OVS的研发工作,是《深入浅出DPDK》的作者之一。现阶段主要关注openstack和k8s框架下云平台和SDN网络在游戏方面的应用和优化,致力于公有云和私有云高性能网络架构的研究。
宋健(宋意),阿里巴巴运维中台技术专家,工作10年一直专注在运维领域,对于大规模运维体系、自动化运维有着深刻的理解与实践。2010年加入阿里巴巴,目前负责阿里巴巴基础运维平台。加入阿里后曾负责:从零建立支付宝基础监控体系、推动整个集团监控体系的整合统一、负责运维工具&测试PE团队。
尹烨,2011年毕业后加入腾讯,先后从事后台服务、MySQL内核开发;14年开始从事Docker等容器技术研究,并负责Docker等容器技术在腾讯游戏业务的实践和落地。个人喜欢研究各种开源技术,对Linux内核、Docker/Kubernetes等有较为深入的研究。
邹均,海纳云计算CTO,澳大利亚麦考瑞大学电脑PhD、麦考瑞工商学院MBA,多年IT经验,资深云计算专家、区块链技术和应用爱好者,曾任IBM澳洲软件部金融行业首席架构师。 2011年回国,历任多个云计算公司高管。被评为高级海外人才,中关村区块链产业联盟专家。在领先的国际会议和期刊上发表论文20余篇,参加《中国云力量》写作,著有《区块链技术指南》。
倪朋飞,就职于HyperHQ,Hypernetes/frakti作者,Kubernetes feature maintainer。在云计算、SDN网络和容器编排调度等领域具有多年实践经验。
沈建林,京东金融资深架构师,负责基础开发部基础中间件的设计和研发工作。主导过RPC服务框架、数据库分库分表、统一日志平台,分布式服务跟踪、流程编排等一系列中间件的设计与研发,参与过多家支付公司支付核心系统的建设。擅长基础中间件设计与开发,关注大型分布式系统、JVM原理及调优、服务治理与监控等领域。
黄博文,ThoughtWorks高级软件工程师/咨询师,干过开发、做过测试、搞过运维。目前专注于DevOps技术及云端架构,在搭建持续集成及部署平台、自动化构建基础设施、虚拟化环境、云端运维等方面有着丰富的经验。拥有AWS解决方案架构师认证证书。译有《Effective JavaScript》《C#多线程编程实战》《面向对象的思考过程》《基础设施即代码》等多本图书。
黄强,入职华为6年多,一直从事容器方面的研究和开发工作,熟悉Cgroups、namespace、CRIU、LXC、Docker、OCI等技术和项目,目前是OCI中runtime-spec、runc、 runtime-tools项目的maintainer和 Containerd项目的maintainer,在华为内部致力于容器技术的开发落地和各种容器相关技术的研究。
李玉明,百度智能运维平台研发架构师。负责运维大数据存储平台,包括大规模监控时序数据存储、海量运维事件数据存储和运维知识库建设等。自2008年中国科学院软件研究所硕士毕业后,在IBM中国研发中心从事数据库DB2内核引擎的研发工作。2014年加入百度,构建了大规模时序数据的分布式存储系统,当前承载百度运维十亿级指标、日均万亿级数据点的写入存储和查询。
吴树生,近十年监控系统开发经验,现任职于腾讯社交网络运营部,负责SNG大数据监控平台建设。主导完成基于Jstorm和Druid的海量多维数据监控系统、基于ElasticSearch的海量日志全链路跟踪分析系统和自研时间序列的业务特性监控系统,具有构建基于大数据平台的海量高可用分布式监控系统研发经验。
齐剑涛(榛名),美丽联合集团高级安全工程师,毕业于杭州电子科技大学。目前主要负责集团信息安全相关的工作,包括集团情报系统(Dylan),集团堡垒机系统二期(Turtle),在安全研究、漏洞挖掘等安全方面有着丰富的经验。
王博,百度资深软件研发工程师,2014年加入百度,先后参与异常检测系统、报警收敛、故障诊断等相关工作,目前是异常检测系统的技术负责人。本次演讲希望能给大家分享百度在时序数据的异常检测策略与工程方面的相关实践经验,与大家共同探讨提高。
邓栓,PingCAP SRE 工程师,Kubernetes 爱好者,目前主要负责 TiDB 与各种云平台整合工作。 Rust 中国社区联合创始人。
才振功,博士,先后在美国道富、网新恒天工作多年,2011年起任教于浙江大学软件学院。主要研究领域包括容器云平台、机器学习、系统运维与容量规划等,承担和参与了浙江大学与IBM、CFETS、阿里巴巴等联合研发课题,提出了面向云平台的容量规划技术方案、应用系统性能预测与优化方案、基于机器学习的故障检测技术等。
程超,阿里巴巴监控平台技术专家,2008年加入阿里巴巴,构建了阿里巴巴第一代CMDB.现在负责监控产品的开发。
陈芳录,现任职于腾讯社交网络运营部,负责织云自动化平台研发工作。主导织云建设了CMDB、包发布、流程系统、基础监控、告警等功能,具有丰富的自动化运维系统建设经验。
杜军,Cloud Foundry和Kubernetes的代码贡献者,浙江大学SEL实验室硕士,致力于虚拟化技术、云计算,深入研究过Cloud Foundry、Docker、Kubernetes等开源PaaS和容器技术。《Docker——容器与容器云》一书Kubernetes部分作者。目前就职于华为PaaS服务产品部,负责Kubernetes服务负载均衡的性能优化,并推动优化成果反合Kubernetes社区。
在腾讯、百度工作近10年,曾负责腾讯四大平台之一腾讯网整体运维、运营规划,参与将腾讯网速度优化到门户最快,获得腾讯最高技术奖;曾任百度T7架构师、负责百度访问速度TOPIC,百度UAQ、APM平台负责人,协助将百度网页搜索、移动搜索、多个商业产品及社区产品速度优化到业界最快。mmTrix创始人,后并入主板上市公司高升控股,出任技术VP。
林帆,DevOps和容器技术咨询师,目前就职于ThoughtWorks,从事软件开发运维咨询以及社区推广工作,在容器规模化运维方面有丰富经验。StuQ特约课程讲师,著有《CoreOS实践之路》一书,并在InfoQ等多家业内媒体发表有许多相关领域文章。
袁晓沛,曾在盛大创新院、EMC工作,参与盛大网盘EverBox,EMC备份服务Mozy百PB对象存储的设计、开发工作,主要方向在大规模分布式系统的架构设计、开发、性能调优、以及后期运维优化。目前在七牛云任技术总监负责容器的公有云、专有云技术架构,借助容器的便捷性实现大规模分布式应用的自动化部署、运维、以及高可用服务。
赵慧智,当前为才云科技的技术总监,负责 AI 云平台的产品战略制定,架构设计、产品化以及关键技术点的研发工作。同时作为 Kubernetes Member,曾向 Kubernetes 社区提出在 Kubernetes 中如何支持 GPU,以及实现其中的关键部分,并在 2017 年柏林 KubeCon 做演讲并分享其中的技术点。赵慧智有过超过 10 年的研发经验,包括 3 年多的项目管理经验。
刘超,10余年云计算领域研发及架构经验,先后在EMC、CCTV证券资讯频道、HP、华为、网易从事云计算和大数据架构工作,毕业于上海交通大学。曾出版《Lucene应用开发揭秘》,在工作中积累了大量运营商系统、互联网金融系统、电商系统等容器化和微服务化经验。
周德振,现任 Akamai 公司中国区高级技术顾问。主要关注OTT 点播、直播,短视频以及低延时互动直播,视频用户体验的监控和优化。 加入Akamai 前曾在 Netis、Compuware、Riverbed 等公司任职,具有多年网络性能、应用性能、加速以及优化工作背景。提出并致力于推广“分发端运维”这一概念, 推动运维从服务端运维延伸至用户侧,将CDN纳入到运维体系架构之中,保障端到端的最近用户体验。
叶理灯,UCloud创新产品线研发总监。拥有10年丰富的互联网研发经验,先后任职于腾讯、盛大云等互联网公司,从事海量分布式后台系统研发及运营。现负责UCloud创新产品及研发,专注面向企业的云计算产品的研发及运营。
张海宁,现任VMware中国研发中心先进技术中心技术总监, Harbor企业级容器镜像仓库开源项目创建人和架构师,Cloud Foundry中国社区最早的技术布道师之一、《区块链技术指南》作者之一。目前着重关注容器、区块链和云计算等领域的研究和开发工作。
时间 | 主题 | 讲师 |
---|---|---|
主会场 | ||
09:00~09:30 | 开场:智能时代的新运维 | 徐川 |
极客邦科技 InfoQ中国主编 | ||
09:30~10:15 |
为什么说AIOps是未来,百度的思考与实践
百度应用运维团队一直追求高质量的产品可用性和用户体验,追求最经济的硬件和带宽成本,追求高效的产品迭代速度,追求无人值守的场景化运维,追求帮助业务核心能力的构建。百度应用运维平台经历了基础运维平台、开放运维平台到现在的智能化运维平台这几个阶段。 本次将分享百度对于运维下一幕的思考——AIOps,以及AIOps在百度具体业务场景下的实践落地。 |
王栋 |
百度基础技术体系主任架构师 | ||
10:30~11:15 |
DevOps知识体系与标准化的构建
作为一种源自业界的新的软件工程范式,针对DevOps的实践和讨论正处于风口浪尖。DevOps正在广度和深度上“重塑”软件工程的技术与实践。像以往的重大软件变革一样,DevOps的发展也必将经历一个由“野蛮生长”,到集体反思,再到知识体系构建,并进一步推动DevOps持续发展的成熟过程。作为DevOps中国社区的核心成员,南京大学率先开展了覆盖DevOps全周期、围绕DevOps全方位的探索工作,并通过整合科研、产业和教育来助力DevOps在中国的发展走向成熟。 本次分享将介绍我们在DevOps知识体系构建上的最新进展,以及建立DevOps标准化方向上的探索与思考。 听众获益: 1. 提供一个厂商中立的认识DevOps的视角; |
张贺 |
南京大学 软件学院教授 | ||
11:30~12:15 |
从自动化到智能化的阿里运维体系
运维体系在前些年集中在信息化、自动化,这两年随着AI的火热,AI和运维如何更好的结合来提升运维成为了火热的方向,阿里的运维体系同样也在经历着这样的演变过程,包括脚本化、工具化、自动化和智能化4个阶段。自动化是智能化的大前提,本话题将分享阿里在从工具化走向自动化的经验和挑战,甚至是为此所做的组织结构调整,以及在自动化有不错的进展后在智能化上所做的尝试和看到的一些方向。 内容大纲: 听众受益: |
林昊(毕玄) |
阿里巴巴研发效能事业部负责人 | ||
智能化运维 | ||
13:30~14:15 |
AIOps的核心技术之一:任务机器人如何在金融运维/运营中落地
近年来,人工智能技术备受关注,将AI引入IT运维领域,AIOps的概念由此而生。那么金融领域中,其运维场景到底能否落地AI,以及如何落地,甚至能否通过AIOps支持更好的运营,这也成为了金融行业关注的焦点。 本次分享是通过宜信技术研发中心在金融运维/运营领域中如何引入人工智能技术的探索与实践,帮助大家了解哪些痛点适合引入人工智能技术,以及AIOps的关键技术之一:任务机器人的概念和难点。从我们的实践中,提炼任务机器人的构建思路和架构原理,针对难点问题阐述解决之道,并通过对应用场景的落地剖析,提供一系列参考实现,希望为大家建立适合自身需求的AIOps应用场景提供思路和方法。 主要内容如下: 1.为什么引入人工智能:金融运维/运营的痛点 2.AIOps之核:任务机器人系统 2.1与聊天机器人的区别与联系 3.构建任务机器人实战 3.1设计理念与思路 4.应用场景落地实践剖析 4.1机器人程序员:智能系统上线 听众收益: 1.了解金融运维/运营中哪些问题适合引入人工智能技术,为大家在自身领域中识别哪些问题是人工智能的问题提供参考
|
张真 |
宜信技术研发中心高级架构师/研发总监 | ||
14:30~15:15 |
基于日志trace的智能故障定位系统
传统的trace系统面对大规模系统故障时有以下几个问题: 因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术: 1.基于GBDT的单PV根因预测模型; 最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。 听众受益: 1.复杂系统大规模故障自动定位的一次最佳实践,包含我们的方法论和理想方案的思考; |
曹轩 |
百度搜索运维团队技术负责人 | ||
15:35~16:20 |
容器环境下的智能运维技术研发与实践
随着数据中心规模增长和容器技术应用深入,数据中心容器应用或服务间依赖日益复杂化,应用异常告警呈爆发式增长,误报率与漏报率居高不下,给传统运维带来巨大压力。事实上,大量告警之间、告警与事件(升级、配置变更、容器迁移等)之间存在显式或隐含的因果关系,采用机器学习技术发掘潜在因果关系,将有助于大幅提升告警分析处理的效率。 本专题将详细分享浙江大学SEL实验室在容器云平台监控与智能化异常检测分析方面的研发实践,包括应用性能监控、动态拓扑、全链路分析、异常根源检测以及智能化运维实践。 听众收益: |
才振功 |
浙江大学软件学院讲师 | ||
16:35~17:20 |
机器学习在大规模服务器治理复杂场景的实践
我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大地挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。 本专题主要分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来,在数据能覆盖的场景下,实现了100%的发现率。 听众受益: 1. 了解大数据和机器学习在智能运维方面的实践; |
陈立波 |
阿里巴巴高级技术专家 | ||
大数据运维 | ||
13:30~14:15 |
腾讯TB级别的海量日志监控平台
处理多样和海量的业务日志对实现、性能、稳定性和成本带来挑战,怎样支持灵活的日志采集处理,实现具有容灾能力的高性能和低成本的存储系统?这里介绍腾讯SNG基于QQ号码体系的每天70TB,峰值130万/s的业务日志采集、实时处理、存储和在线统计分析大数据平台。该平台基于Jstorm、Druid和ElasticSearch构建,支持标准化的日志和有规则的个性日志采集;将数据处理过程抽象为过滤、翻译、聚合统计和存储,实现配置化的数据处理流程;构建自研的低成本日志存储系统和基于Druid的OLAP系统,提供秒级响应的在线数据查询服务。 听众收益: 1. 如何实现自定义的日志采集方案? |
吴树生 |
腾讯SNG监控负责人 | ||
14:30~15:15 |
苏宁大数据平台运维实践
苏宁大数据平台经过3年多的快速发展,集群规模从10台虚机急速扩展到700台物理机,平台组件也逐渐丰富,形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中,平台规模的增长和组件的增多都给平台运维带来了很大的挑战。本话题将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点,以及相应的应对措施和解决方案,希望能为大家提供一些思路或经验。 1. 如何解决部署及运维复杂的问题? |
王志强 |
苏宁云商IT总部技术总监 | ||
15:35~16:20 |
阿里巴巴大数据运维实践
阿里拥有海量的数据和超大规模的计算集群,每天离线调度节点超百万,如何保障数据的稳定性,这对于运维保障人员挑战巨大,这里面除了要保证系统稳定性外,还包括故障体系的建立和跨组织协调保障等问题,在全民AI的时代,运维工作同样需要依靠大数据,我们有很多工作需要重新思考。 1、背景介绍: |
张磊(宗超) |
阿里巴巴数据技术及产品部-高级技术专家 | ||
16:35~17:20 |
百度运维大数据存储平台设计与实践
百度一直践行AI+大数据运维的理念,我们的智能化运维技术也构建在由海量运维数据采集、计算和存储系统所组成的运维大数据平台之上。规模上,我们监控了十亿量级的指标,日均采集万亿级的数据点,每日各类运维平台产生的运维事件数以千万计。在这种规模下,运维大数据平台不仅要求7*24持续高写入,而且承载50K QPS的查询压力,给系统的设计带来了空前的技术挑战。我们应用Redis、HBase、Elasticsearch等,来构建多层分布式存储架构,并通过运维特有的数据模型、极致的压缩算法和单IDC故障容灾等技术来解决上述问题和挑战。 1.海量运维数据处理的技术挑战 |
李玉明 |
百度运维大数据存储平台负责人 | ||
容器优化与实践 | ||
13:30~14:15 |
携程容器云优化与实践
本话题将向大家介绍携程容器云的大致架构,以及基于Mesos自研Framework的原因,分享容器在实际runtime环境下遇到过的一些坑,特别是针对Java应用,面对JVM时的一些例子,还会分享从虚机转向容器过程中遇到的困境及解决思路,如何在破坏性最小的情况下做到架构颠覆。 1. 携程容器云的大致架构 1.1. 自研Framework 2. 针对Java应用踩过的坑 2.1. 使人发疯的JVM OOM 3. 容器迁移的一些思考 3.1. 业务开发的诉求 |
王潇俊 |
携程系统研发部总监 | ||
14:30~15:15 |
腾讯游戏容器云平台的演进之路
腾讯游戏从2014年开始使用Docker,支撑了腾讯游戏200多款在线业务。整个平台经历了从最开始的“轻量级虚拟机”方式,到现在的原生容器云方式;接入的业务也由原来的在线服务扩展到现在的微服务、大数据、机器学习等类型业务。本次分享主要介绍腾讯游戏容器云平台这些年的建设过程和经验,并探讨相关技术问题,主要内容为: 1. 腾讯游戏容器云平台建设历程 听众受益:了解腾讯游戏业务在实践Docker上的经验 |
尹烨 |
腾讯高级工程师 | ||
15:35~16:20 |
华为使用Docker支持系统容器的优化实践
系统容器相对Docker传统支持的应用容器,有一些独特的价值,对于华为这样的企业,有很多需要使用系统容器的场景。但系统容器同时也有很多独特的需求,原生Docker无法支持。本议题将分享Docker对支持系统容器所需要做的改造,常见的应用容器的功能需求,需要解决的问题和面临的挑战等。 听众受益: 1.了解系统容器的基本概念和应用场景; |
黄强 |
华为资深软件工程师 | ||
16:35~17:20 |
多租户Kubernetes实践:从容器运行时到SDN
作为最流行的开源容器集群管理系统,Kubernetes已经被大量用在生产环境中。然而,Kubernetes在多租户支持上还并不完善,默认网络模型、Docker容器隔离性等存在很大风险。本次演讲主要介绍Hyper如何基于Kubernetes的插件机制构建强隔离的容器运行时,并配合Neutron提供多租户容器SDN网络。主要分享内容包括:1、Kubernetes插件机制简介;2、基于Kubernetes CRI的强容器隔离实践分享;3、基于CNI的多租户容器网络实践;4、实践中遇到的问题和挑战。 听众受益: 1.Kubernetes插件机制简介 |
倪朋飞 |
Hypernetes & Kubernetes Maintainer | ||
互联网金融 | ||
13:30~14:15 |
区块链和可问责服务
可问责(Accountability)传统上是政府机构和商业运营上的一个重要要求。IT行业的快速发展,已经渗透到各行各业,成为商业和社会的一个关键组成部分。过去IT行业强调的是功能、性能,而可问责没有受到重视。IT运维目前是提供可问责的IT服务的基础。但是在大数据,云计算和AI时代,自动化的可问责机制将成为必然趋势。而该趋势将对IT运维带来深远影响。该演讲介绍可问责IT服务的理念,并探讨结合区块链技术实现自动化可问责机制的可行方案。 听众受益: 1. 了解区块链技术; |
邹均 |
海纳云计算CTO | ||
14:30~15:15 |
基于资产配置业务场景下的全链路监控平台
随着系统平台化的演进,服务拆分越来越精细化,原本依赖于总线交互的功能模块都被分散到了PaaS中,形成了“微颗粒”。在松耦合给产品带来“快速交付”的同时,发现故障 、定位故障、排除故障却变成了测试、运维同学“烦恼”的心事。在“互联网金融需要实行强监管”的体制下,在“监管细则划定13条红线 ”的背景下,如何在互联网金融公司中,寻找到“快速排障”与“快速交付”的平衡点?来听听好买的经历吧。 听众受益:希望本次分享能够对正处于或即将处于类似场景的互联网金融同行,起到推动、引领、借鉴的参考作用。 |
王晔倞 |
好买财富技术总监 | ||
15:35~16:20 |
麻袋理财安全与合规建设
本话题将分享麻袋理财在互联网金融领域安全与合规建设的经验,包括如何通过国家信息安全等级保护三级的测评工作以及银行资金存管落地实践经验。 听众受益: 1. 对同行来说,可以通过本次分享对互联网金融行业的安全与合规建设有更全面的了解,少走弯路; |
王耀 |
麻袋理财首席安全官 | ||
16:35~17:20 |
风控系统在容器化时代的实践
冰鉴作为一家独立第三方征信服务提供商,在过去的2年内,自主研发了风控系统中的四大核心模块:数据服务、模型服务、反欺诈服务、策略服务。同时也从传统的单体应用架构及系统级运维逐步过渡到微服务架构和容器化运维,在此次大会中将分享我们的风控系统在演进到容器化时代中的实践。 听众受益: 1. 了解风控系统的架构; |
朱清 |
冰鉴科技信息技术部总监 | ||
容器与运维解决方案专场 | ||
13:30~14:15 |
容器与Serverless架构实践
容器和Serverless都是目前业界比较火的概念,本次演讲将分享UCloud在容器和Serverless结合方面的实践,介绍Serverless架构及产品,以及容器在在其中的所起的作用。 听众收益: |
叶理灯 |
UCloud创新产品线研发总监 | ||
14:30~15:15 |
采用Harbor开源企业级Registry实现高效安全的镜像运维
随着容器技术的广泛使用,镜像管理成为实际运维中的重要问题。本演讲以Harbor为例,介绍如何在实际开发运维中,高效安全地管理容器镜像的方法,内容包括: 开发和生产环境中镜像仓库的权限和镜像版本控制;多数据中心镜像远程同步(复制)的应用;大规模应用镜像快速发布方式,镜像来源的验证,镜像漏洞扫描、镜像删除和空间回收;用分布式存储实现Registry高可用性设计等。 听众收益: 1. 对容器运维的要点 |
张海宁 |
VMware先进技术中心技术总监 | ||
15:35~16:20 |
从内容分发端谈自动化运维
从用户侧的角度来说,运维的目标或者本质是交付最佳用户体验。当前,几乎所有面向公众的互联网应用,都会采用内容分发网络(CDN,Content Delivery Network)来减轻服务器端的计算负载,减少带宽消耗,将内容分发至靠近用户一侧的互联网边缘服务器,以便获取更好的用户体验。服务器端的运维因为和应用创建、代码部署都密切相关而备受重视,但分发端的运维往往被忽略;与此同时,CDN技术也已从单纯的内容缓存发生了本质的变化;如何将分发端的CDN服务集成至运维流程之中,打造端到端的自动化运维,保障最佳用户体验是一个值得探讨的话题。Akamai将带您一起了解当前CDN最新发展趋势,以及如何将CDN无缝集成至您的运维流程之中。 听众收益: |
周德振 |
Akamai中国区解决方案部高级技术顾问 | ||
16:35~17:20 |
Kubernetes在大规模场景下的service性能优化实战
kubernetes原生的服务负载均衡是基于iptables实现的。Kubernetes通过iptables将service的虚IP转换成后端Pod的IP。然而,iptables基于内核的规则链,最初设计是做防火墙的,并不适合做大规模的负载均衡。Kubernetes基于iptables的负载均衡实现,规则链会随着service数量的增加而线性增长。在大规模场景下,会暴露出以下弊端: 1. service访问时延随service数量增加而指数级增长; 本次分享将介绍Huawei PaaS团队在Kubernetes service性能优化方面的探索与实践。Huawei Paas基于IPVS负载均衡技术,对Kubernetes的负载均衡组件Kube-proxy进行性能优化,为其增加IPVS模式,实现了Kubernetes万级service的弹性伸缩。做到了万级service场景下,集群内服务访问毫秒级响应。当前,支持IPVS负载均衡已经被加到Kubernetes社区1.8 release的特性列表中。 听众受益: 本次演讲的主要受众是对Kubernetes有一定基础的开发者,要求对Kubernetes现有的服务发现和负载均衡机制有初步的了解。通过本次演讲,他们能够: 1. 了解Kubernetes原生service load balancer在性能和可靠性方面的问题; |
杜军 |
华为PaaS服务产品部软件工程师 | ||
晚场活动 | ||
18:30~20:45 |
CNUTCon夜聊:谈谈智能时代的新运维
近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。那就当下而言,我们应该如何理解AIOps?AIOps应该如何落地? 如果你希望一起探讨运维技术发展趋势,以及未来可能的变化,那不要错过9月10日晚上的夜聊活动,我们邀请了百度AIOps技术负责人、宜信AIOps落地负责人,以及DevOps和SRE领域的技术大咖,通过夜聊的方式来和大家分享他们所看到和认为的运维发展趋势,同时,也会就最近业界发生的技术事件进行讨论,为国内的广大社区和技术从业者指明方向,相信这一定可以给你带来不一样的视野和思考。 |
主持人:万林涛 |
嘉宾:曲显平 张真 赵成 许晓斌 | ||
运维基础架构 | ||
09:30~10:15 |
阿里巴巴基础运维平台实践
百万级规模的服务器,千变万化的业务,每天上亿次的调用……基础运维平台负责淘宝、天猫、蚂蚁、菜鸟、阿里云、合资公司等全网业务服务器的运维管理,是全集团唯一的服务器管控通道,本次分享将首次对外介绍阿里巴巴基础运维产品的设计与实现。 听众受益: 1. 了解阿里巴巴基础运维产品的架构与实现; |
宋健(宋意) |
阿里巴巴运维中台技术专家 | ||
10:30~11:15 |
美团云基础运维体系建设实践
美团云作为承载美团点评千万日订单的云计算平台,电商和公有云的业务属性对基础设施稳定要求更加苛刻。随着云计算、大数据普及,基础设施规模在飞速增长,AI等新技术技术引入对基础架构提出更高的要求,极大的提升基础设施的维护复杂度。基础设施规模的成倍甚至指数级增长,对基础设施运维的效率提出了更高的要求。 本次分享主要是在基础设施建设过程中,基础设施稳定性面临的挑战和解决方案。 如何在规划实施时候规避问题?如何从架构上提升基础设施自愈能力?如何快速的发现、定位和解决问题?以及如何完成基础运维体系建设提升运维效率。 主要包括: 1. 制约基础设施稳定性关键因素? 听众受益: 1. 基础设施建设及提升稳定性相关经验 |
胡湘涛 |
美团云基础设施负责人 | ||
11:30~12:15 |
腾讯包管理系统演进
早在2006年,腾讯SNG运营部就开始设计和实现包系统了,经过10多年不断使用和优化,现在包系统不仅承载了SNG的标准化运维理念,并且被多个BG广泛使用。目前,在包系统上,共托管了3.5W个包,平均每天执行超过5K个发布任务。那么,腾讯的包系统是如何实现的?如何同时支撑业务发布和运维管理?经过哪些功能演化? 本次演讲的内容包括: |
陈芳录 |
腾讯高级运维工程师 | ||
数据库运维 | ||
09:30~10:15 |
分布式数据库系统TiDB在Kubernetes平台的自动化运维实践
Kubernetes作为当下最流行的开源容器编排系统,由于长期以来一直没有Local PersistentVolume,在其上部署对性能要求比较高的有状态数据库服务一直没有比较好的解决方案,基于 CoreOS 公司提出的 Operator 的概念而开发的TiDB-Operator 成功地解决了这一难点问题,使大规模自动化运维分布式数据库TiDB 成为可能。本次演讲主要介绍 TiDB-Operator 是如何扩展Kubernetes 来实现有状态服务的自动化运维。主要内容如下: 1. 分布式系统部署运维的复杂性与挑战 听众受益: 1. 了解分布式数据库 TiDB 及其简单运维 |
邓栓 |
PingCAP SRE工程师 | ||
10:30~11:15 |
从理论到实践,深度解析MySQL Group Replication
从Oracle官方宣布MySQL Group Replication插件在2016年12月12日发布的MySQL 5.7.17版本上正式GA以来,不少从事MySQL工作的技术人已经开始学习、研究与测试。但相对而言,大多数人因为限于时间跟精力的原因,没有去深入了解这方面的内容。本次演讲,将会以理论应用到实践、由实践再反推理论的方式,由浅入深、再深入浅出地介绍Group Replication的理论知识与生产实践。 |
徐春阳 |
民生银行科技部项目经理 | ||
11:30~12:15 |
MySQL数据库在腾讯支付业务中的大规模应用实战
财付通金融支付平台支撑了整个腾讯集团的底层支付业务,包括大家所熟知的微信支付、手Q支付、红包转账、商业支付等。而财付通也是最早就使用开源MySQL数据库系统支撑整个金融支付业务的平台。本次将对外分享财付通平台上的MySQL数据库应用,以及在如此大规模数据库平台上如何高效的运维这么庞大的数据库集群。 |
姜承尧 |
腾讯金融支付部副总监 | ||
运维自动化实践 | ||
09:30~10:15 |
京东物流系统自动化运维平台技术揭密
物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。 本专题将详细为大家介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。 听众受益: 1. 了解基于saltstack实现自动化运维平台的设计思路; |
赵玉开 |
京东资深架构师 | ||
10:30~11:15 |
阿里一键建站技术解密
每年的双十一都是一个全球狂欢的节日,双十一当天的秒级交易峰值平时的近10多倍,要用3-4倍的机器去支撑。阿里采用异地多活技术来把这些机器分成多个单元,然后水平复制每个单元完成大促备容。每个单元涉及几百个系统,他们之间的依赖错综复杂,复制新单元难度很大。阿里在Docker化的基础上,利用调度和CaaS,把单元终态描述成一个镜像,完成了单元的快速复制,做到了8小时从机器交付到线上引流到单元。本次分享将重点介绍阿里基于容器的建站平台的背景、架构、发展历程及未来展望,主要包括以下内容: 1. 阿里一键产生和背景及意义; |
谢吉宝(唐三) |
阿里巴巴高级技术专家 | ||
11:30~12:15 |
百度大规模时序指标自动异常检测实战
异常检测是监控系统中的重要环节,百度的业务种类繁多,业务的监控需求不尽相同,这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、PVLOST等常见业务曲线监控?怎样支持O2O业务不定期运营活动场景下的异常检测?怎样给大规模时序数据的快速配置异常检测算法及参数?作者将介绍百度异常检测系统以及几种异常检测算法,以及针对大规模时序指标的难以人工逐一配置的问题引入的算法自动选择决策树和参数自动配置算法。 听众受益: 1. 百度异常检测系统以及内部的异常检测算法 |
王博 |
百度资深软件研发工程师 | ||
游戏开发与运维 | ||
09:30~10:15 |
"运维+",腾讯游戏海量运营的催化剂
互联网+,大家已经非常熟悉了,但“腾讯游戏运维+”,就要从腾讯游戏运营说起,当然也就离不开游戏的内容创造和运营决策者:游戏策划,以及游戏功能建造师:游戏开发。从PC游戏到移动游戏,作为游戏运营中不可或缺的守护者:游戏运维,也在游戏浪潮中践行自己的转型之路,作为亲身经历过腾讯多款自研及代理的运维工程师,我想分享这几年来是如何实践"游戏运维+"的一些故事,大家也会了解,为什么游戏运维是整个游戏运营的催化剂。 听众收益: |
管鹤鸣 |
腾讯游戏运维专家 | ||
10:30~11:15 |
盛大游戏的深度网络优化实践
极致的游戏体验离不开技术的支撑,千人同屏、万人同服、万人国战需要高性能的网络环境,而在云环境中,如何得到高性能、低延迟的网络,而不过多的消耗CPU资源是大家追求的目标。 本次分享盛大游戏G云通过SDN的网络优化,提升游戏体验的实践之路。 主要内容如下: 听众收益:了解盛大游戏对网络优化的实践经验 |
何少鹏 |
盛大游戏云平台高级架构师 | ||
11:30~12:15 |
网易游戏基于容器的持续集成与简化运维深度实践
传统游戏开发和运维往往是分离的,开发将二进制包和配置手册交给运维,运维需要维护大量的物理机器,环境多样复杂,在大量游戏频繁上线更新的情况下,往往力不从心,而且游戏上线时通过上线时间表和架构文档做资源预估,通过编写自动化脚本进行线上运维,这样会面临资源预估不准和上线频繁的问题,容器是能够解决这些问题的,但是往往运维部门有各种的忧虑和怀疑,本次分享网易云通过自身的性能优化以及对网易自身游戏的分阶段的迁移,最终实现基于容器的持续集成和简化运维的实践之路。 主要内容如下: 1.传统游戏开发与运维的痛点 听众收益: |
刘超 |
网易云解决方案总架构师 | ||
Workshop专场 | ||
09:30~12:00 |
Kubernetes与AI相结合架构、落地解析
在云环境中,如何更好的利用云资源,更好地进行云的部署,并且将企业的业务融合其中成为了如何将云真正在企业中落地的关键组成部分。而Kubernetes作为目前炙手可热的云技术,是如何做到这些的?同时在Container编排环境中,又与以 VM为虚拟化的环境优缺点又有哪些?在云作为企业基础设施的一部分的同时,AI可以融入进企业的各个关键环境,为企业提供基于原有数据的更快反应,为企业提供诸如预测、识别等业务,助力企业业务腾飞。而AI对于硬件的消耗是怎么样的,如何将AI解决方案和云环境相结合也成了热门的话题。在这次演讲中,赵慧智将向大家介绍Kubernetes的云环境,以及如何和AI相结合,并在企业中落地中的问题和实践。 听众受益: |
赵慧智 |
才云科技技术总监 | ||
13:30~15:30 |
基于混合云的一体化运维、运营平台最佳实践
随着企业应用规模及复杂度不断增大的同时,虚拟化、容器化和云计算等新技术不断发展并在企业落地。传统分散、低效的运维模式已经难以满足大规模、高效率、全栈化、混合云化的企业需求,针对以上挑战,演讲嘉宾结合在腾讯、百度的经历,为大家分享全新的一体化运维、运营平台最佳实践。 听众受益: 1. 了解运维简史、价值变迁及行业、职业红利; |
唐文 |
高升控股技术VP | ||
15:50~17:50 |
Elastic Stack运维数据分析从0到1
发布5.0版本后的ElasticStack已经全面超越了曾经单纯用于采集日志的ELK工具栈,成为以数据检索为核心,兼备多来源汇集、展示、分析等于一体的通用数据处理平台,提供了很多针对数据聚合分析的能力。这个话题将围绕运维领域的典型场景,和大家一起从零开始探索ElasticStack的运维数据分析之道。 内容大纲: |
林帆 |
ThoughtWorks DevOps和容器技术咨询师 | ||
容器编排与管理 | ||
13:30~14:15 |
腾讯云多Kubernetes集群高可用运维实践
腾讯云基于kubernetes的公有云容器服务会为每个租户提供单独的kubernetes集群,现在腾讯云上已经有数百个kubernetes集群(持续增长中),数百个分属不同租户的kubernetes集群其运维难度远大于有数百个节点的单一kubernetes集群。本文主要内容如下: 1. 腾讯云基于kubernetes的容器服务架构简介 |
于广游 |
腾讯云容器服务高级工程师 | ||
14:30~15:15 |
基于Kubernetes的互联网Ingress实践
ingress是针对inbond connection的配置和管理,它决定了用户请求如何通过最优路径转发至后台服务,也决定如何实现跨集群跨region的高可用,可以说ingress是互联网公司的根。 eBay基于kubernetes ingress实现了对inbond connection的配置和管理,本session包含如下内容: 1. 互联网负载均衡技术的演进 |
孟凡杰 |
eBay软件工程师 | ||
15:35~16:20 |
京东JDOS2.0平台有状态服务编排实践
JDOS1.0完成京东业务全面运行在容器之上,以及数据库和中间件等系统也全面容器化。今年上线的JDOS2.0系统,完成了从Openstack向Kubernetes整体迁移,截止到今年618大促,已经有超过60%的核心业务运行在了JDOS2.0平台上面。在京东超过10000多的应用中,有状态应用和服务的编排和管理是最具挑战性的。本次分享将深入介绍京东使用Kubernetes进行有状态服务集群的编排和管理。具体包括使用京东自研ContainerFS结合Kubernetes的动态存储请求和分配机制对服务状态的持久化存储、 使用京东自研基于DPDK的高性能负载均衡结合URL Check功能对服务状态的实时监控、以及高效部署和管理有状态服务集群的Init Container, StatefulSet等特性的实践。最后会通过一个有状态集群的例子来展示京东如何在JDOS2.0上面轻松进行有状态服务的创建和自动化管理。 听众受益: 了解京东新一代容器平台JDOS2.0关于有状态服务编排和管理的最新进展。 |
王华夏 |
京东基础平台集群技术部资深架构师 | ||
16:35~17:20 |
机器学习模型训练的Kubernetes实践
通过人工智能、机器学习的途径来挖掘数据的深层价值,已经成为当前的热点,通过Kubernetes来管理机器学习的任务也是当前的趋势。机器学习很重要的一个环节是模型训练,模型训练往往对计算力、磁盘和网络IO及资源调度都有不低的要求。虽然通过Kubernetes可以解决训练任务的资源调度问题,训练中间结果的存取也可以通过Ceph来实现。但是kubernetes原生对GPU的支持不够完善,在异构GPU的处理、GPU资源监控、NVIDIA Driver的外部依赖等版本问题上,有若干问题存在。主要内容如下: 1. 如何克服挑战将模型训练移植到kubernetes; |
袁晓沛 |
七牛云技术总监 | ||
SRE与微服务最佳实践 | ||
13:30~14:15 |
Uber SRE以及Cache服务在微服务环境下的演进
Uber全球业务爆发式增长,现在已经覆盖全球超过570座城市,业务也已经涵盖汽车共享UberX/UberPool,外卖服务Uber Eats,卡车运输协调Uber Freight,无人驾驶Uber ATG等等。前端业务对后台基础Infrastructure的需求强劲而且变化快,数据中心一直处于爆发式增长。如何为超过2000个微服务以及无人车提供稳定可靠高性能的计算存储支持是整个Infrastructure部门的工作重心,而其中SRE部门又是守护系统稳定的最后一道防线。 本专题将为大家介绍Uber的SRE团队是如何协同和其他部门工作,对公司业务和基础Infrastructure进行监控,以及在主要业务外围开发稳定性服务监控、报警软件实现自动化。本专题也将分享Uber的整个数据中心从只有一个可写到现在全美国双活乃至全球多活的历程和故事。 听众受益: 1.了解如何建立稳定性SRE团队; |
孟飞 |
Uber SRE存储部门高级工程师 | ||
14:30~15:15 |
阿里巴巴国际环境下的SRE体系
AliExpress是阿里巴巴国际电商平台,海外买家覆盖200+国家,分布广且离散,国际架构、网络体系复杂,为了提升全球用户体验面临诸多技术挑战,本次主要围绕全球架构体系下的SRE保障,分享全球架构体系的可用性解决方案及具体实践。主要内容为: 1. 全球网络体系复杂,互联互通问题诸多,如何应对由此带来的网站可用性问题; 听众受益: 1. 国际SRE的运作 |
周志伟 |
阿里巴巴高级技术专家/AliExpress SRE负责人 | ||
15:35~16:20 |
搜狗配置中心架构演化与实践
传统的分布式配置文件管理模式已越来越难满足微服务灵活多变的特性,而如何应对配置的频繁变更和生效则成为了微服务时代配置中心的重点。在微服务的背景下,配置中心正在逐渐开启新的定义和赋予新的角色,成为串联整个微服务架构体系的不可或缺的一部分。 本主题通过对搜狗统一配置中心的迭代演进,从资源依赖的模型角度阐述新一代的配置中心设计理念,从配置管理、配置变更、容灾等方面结合微服务现状进行深度架构剖析,同时分享配置中心在多环境并行测试、数据库热切换、灰度发布等方面的成功实践和思考。 听众受益: 1. 阐述目前主流配置中心的基本架构与设计思路; |
郭理勇 |
搜狗资深高级工程师 | ||
16:35~17:20 |
滴滴稳定性建设实践
故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增长。滴滴现在服务近4亿+乘客、1700w+司机、覆盖400+城市,超过10个业务线提供服务,业务的高速增长对稳定性工作开展是挑战,更是难得的机会。本专题将为大家详细介绍滴滴在故障处理方面的建设,以及各团队如何围绕星辰花稳定性技术竞赛开展稳定性工作。主要包括星辰花赛制介绍、监控分级建设、全局状态观察及事件根因推荐等。 1. 稳定性建设总览
听众受益: 1.了解滴滴在业务高速发展的同时,如何开展稳定性工作; |
张云柳 |
滴滴资深运维工程师 | ||
DevOps & CI/CD | ||
13:30~14:15 |
微服务场景下的Serverless架构实践
2016年11月份ThoughtWorks发布的Technology Radar上Serverless architecture从评估阶段升级到了试用阶段。恰逢此时我们在某项目中大胆采纳并实践了Serverless架构。在如今微服务大行其道的情况下,Serverless架构结合微服务倡导的Event Sourcing往往能收到奇效。不过Serverless架构强依赖平台,对传统的CI/CD也带来了诸多挑战。本主题会分享在实践Serverless架构过程中的一线经验和教训。 听众受益: 1. 理解Serverless架构的优势和缺陷; |
黄博文 |
ThoughtWorks高级软件工程师/咨询师 | ||
14:30~15:15 |
天猫DevOps转型实践
在2016财年,天猫的技术,不仅仅在双11创造了一个漂亮的新记录--1207亿,并且在研发流水线上,也完成了两件大事:Dev转型DevOps、应用的运维工作由PE交接给DevOps。天猫为什么要做出这种转型?带来了什么收益?天猫是怎么去做的?此次演讲,会从研发人员的角度进行一个展示。这个过程是不是合理?经验是不是可以复制?我们将共同探讨。 |
刘雄昌(邵雍) |
天猫互动架构师 | ||
15:35~16:20 |
基于虚拟化的CI/CD流程与基础架构建设
随着持续集成理论的深入人心,公司内对于CI/CD系统的依赖也越来越深,更多的业务线接入,更多的流水线建立,都会对CI/CD系统的可用性和易用性提出了更高的要求。本次分享主要介绍如何用容器等技术手段,来架构和实现针对公司多个业务线的CI/CD流程和基础架构,以及在版本管理、测试环境、产品发布等方面的实践应用。主要包括: 听众收益: 1. 如何建设CI/CD基础架构,针对复杂大量的业务需求? |
钮博彦 |
美团点评高级技术经理 | ||
16:35~17:20 |
全方位的监控与智能透明的自动化运维
Monitoring是什么?Monitoring需要做什么事情?作者会从2个不同的维度出发来展开这两个问题,阐述monitor要“两条腿一起走路” 的两条腿分别指什么,并提供全套开源工具链供参考。 你认为的自动化运维是什么?自动化脚本?不完全是,作者会结合过去2年来ChatOps的实践,来阐述如何通过chat bots来实现透明的自动化运维以及所带来的益处。 听众受益: 1. 了解全方位的监控系统解决方案,以及监控系统所需的全套开源工具链和最佳实践; |
邸富杰 |
IBM CIO DevOps 教练 | ||
运维监控与安全 | ||
13:30~14:15 |
固守服务器的第一道防线——美联集团堡垒机的前世今生
在信息安全越来越被重视的今天,堡垒机作为服务器的第一道直接防线,充当着十分重要的角色。本次分享将基于本人在堡垒机方面的研究与总结,并结合在工作中的实际经验,为大家讲解美联集团堡垒机系统从摸索到落地中遇到的问题以及挑战,与大家一起探讨安全与运维的结合方式。 1. 背景 1.1 老堡垒机在使用中遇到的问题 2. 历史问题以及处理过程 2.1 权限如何规范,权限收回,root 回收 3. 构建二期中遇到的问题以及难点 3.1 二期设计的整体思路 |
齐剑涛(榛名) |
美丽联合集团高级安全工程师 | ||
14:30~15:15 |
构建微服务下的性能监控
APM系统诞生已久,但是在这几年才越来越受到开发、运维团队的关注,应用系统从CS到J2EE,再到如今的SOA、微服务以及容器化,应用的分布式复杂程度与日俱增,当年可以从日志排查的错误,现在却成为了难以定位的问题。 本次分享我将根据自身多年的分布式监控产品的设计和研发经验,带领大家了解分布式监控领域的常用理论、方法及面临的问题。教大家如何选择适合自己的分布式监控系统,甚至如何构建属于自己的分布式监控系统。主要内容如下: 1. 面向微服务和DevOps的下一代APM |
吴晟 |
华为软件开发云分布式应用性能监控产品专家 | ||
15:35~16:20 |
阿里巴巴监控之路
在2016年双11全球购物狂欢节中,天猫全天交易额1207亿元,前30分钟每秒交易峰值17.5万笔,每秒支付峰值12万笔。承载这些秒级数据背后的监控产品是如何实现的呢?本主题通过对阿里巴巴监控体系的演进来阐述新一代的监控系统是如何实现的,以及架构是如何进化的。 这次主要讲的是海量实时秒级监控系统,以日志、REST 接口、Shell 脚本等作为数据采集来源,提供系统、应用、业务等各种视角的监控能力,从而帮助业务快速发现问题、定位问题、解决问题,为线上系统可用率提供有效保障。 听众受益: 1. 超大规模的实时秒级监控系统的架构; |
程超 |
阿里巴巴监控平台技术专家 | ||
16:35~17:20 |
京东金融分布式服务跟踪实践
随着京东业务规模的不断扩大,SOA及微服务架构日趋深入,服务数量不断膨胀,线上环境日益复杂,服务依赖关系每天都在发生巨大变化。业务发展变化之快超乎想象,业务监控需求不断变化。本次分享的主要是海量并发的实时APM系统的主要功能展示及我们碰到的问题和解决方案。如何快速的发现问题,定位问题。如何为业务的高速发展保驾护航。主要包括: 1. 如何梳理服务依赖关系? 听众受益: 1. 超大规模APM系统的架构设计 |
沈建林 |
京东金融资深架构师 |