SDCC 2016数据库峰会(深圳站)学习笔记

本文主要查阅了SDCC 2016数据库峰会(深圳站)PPT合集后的学习笔记,在此记录。下面的几个标题是各个PPT的文件标题。

01 金融大数据技术与实战-平安科技-王健宗

  • 背景

  3月15日,持续七天的围棋“人机世界大战” 落下帷幕,谷歌的人工智能机器人 AlphaGo 以4:1大比分战胜围棋世界冠军李世乭九段。此战成名的智能机器人AlphaGo利用“策略网络(Policy Network)” 和“值网络(Value Network)” 两大核心深度神经网络,分析棋盘局面,在可控计算量的范围内判断每步下子策略的优劣。

  • 问题的提出

  人工智能下一个进军和颠覆是金融界?智能投顾,是虚拟机器人基于投资者自身的理财需求,通过算法和产品来完成以往人工提供的理财顾问服务。用户无需掌握太多市场和金融产品知识就可以使用该服务。基于人工智能布局金融大数据,具体形式如下:

布局金融大数据

  • 相关的概念

    • 深度学习技术(擅长对非结构化数据处理)

      卷积神经网络(CNN)是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。

      基于卷积神经网络的深度学习技术:包括卷积层(特征提取)和降采样层。可用于图像识别(字符识别、物体识别)和语音识别等。利用图像的空间联系是局部的,我们使每个神经元只感受局部的图像区域,然后在更高层中,将这些感受不同局部的神经元综合起来就可以得到全局的信息。

      深度学习技术

    • 异构运算体系( HSA) 在计算任务并行性类型基础上, 将具有相同类型的代码段划分到同一子任务中, 然后根据不同并行性类型将各子任务分配到最适合执行它的计算资源上加以执行, 达到使计算任务总的执行时间为最小

      异构计算采用GPU计算,因为GPU具有更强的计算力和更高的带宽。相比于CPU,GPU更多的晶体管都用来做计算而不是做cache和flow control。

      异构计算

    • 深度学习在金融场景中的应用

      • 智能推荐(用户推荐反馈分析、基于深度学习的推荐系统设计、面向高净值客户的精准推荐)

      • 风险控制(金融产品用户欺诈行为模式检测、虚假信息智能过滤、基于用户信用特征的信用评分体系)

      • 智能问答(智能问答机器人的语料库构建、基于深度学习的NLP技术应用、自动问答智能模型搭建)

      • 社交大数据与LBS服务( 个体及群体用户金融行为分析、群体的金融同质性及影响力分析、面向社交群体的LBS服务)

    • 众包

      • 定义:一种分布式的问题解决和生产模式。 问题以公开招标的方式传播给未知的决方案提供者群体。用户(指众包里的“众” )典型地组成在线社区并提交方案。这些最好的方案最后由最先提出问题的一方(众包人, crowdsourcer)所有,并且群“众”中胜出的个人时会被奖励。(此定义来源于“维基百科”)

      • 主要的众包平台:亚马逊Mturk (AMT)、CrowdFlower、Captricity、微差事、DesignCrowd、猪八戒网等。

        • 亚马逊Mturk (AMT),具有面向全球,拥有庞大的用户群,任务形式自由多样等优势。但是Worker市场水平参差, 准入门槛较低。
        • CrowdFlower,具有专注数据分析细分领域,提供完善的数据众包服务优势。但是服务更新较慢。
        • Captricity,针对手写、扫描、打印等多种文本提供识别功能,融合了机器学习技术,提升了众包结果的准确性。但是市场规模仍然较小。
        • 微差事,借助稳固的市场和移动众包的核心获得迅速发展,任务形式简单易用, 获得年轻群体的青睐。但是任务发布总量较小。

02-丁奇-SDCC-数据库系统化实战(数据库运维幸福感提升实战)

人物介绍:阿里丁奇 RDS 数据库内核组、 MySQL/PG 源码&运维团队 SQLServer 运维团队
(上海/杭州)

数据库系统基本结构

  • 可靠性

    • 说说备份
      1. 一主一备够吗——误操作
      2. 定时备份够吗——恢复到任意时间点需求
      3. 备份对不对——备份验证问题
      4. 恢复过程对不对——新备库验证
    • 主备一致性问题
      1. 备库跟主库一致吗——如何验证、如何修复
      2. 无法按片修复的时候怎么办——主库备份、备库重做
  • 可用性

    • 备库运行可靠性
      • 备库是否正常工作、延迟及解决
      • apply 线程的各种错误(1062/1032、myisam表crash, 需要repair、relay解析错误、找不到主库对应binlog)
    • 连接闪断问题背景(机器维护/版本升级 总要切换)
    • 连接保持解决方案(引入proxy、连接保持、事务外切换)
    • 自建库解决方案(应用做异常重连重试、教育开发!)
    • 雪崩问题背景(刚刚谁说的重试?一个超时重试引发的血案)
    • 自建库解决方案(监控+kill)
    • 源码解决方法(select max_statement_time=1000 ….)
    • ……
  • 稳定性

    • 资源隔离(进程间资源隔离、线程间资源隔离、只读库方案)
    • 基本监控及基本判断
  • 可诊断性(链路监控、审计日志、审计日志的实现方式)

03-张翼-携程实时计算平台实践分享 Base

人物介绍: 携程的大数据平台负责人,关注大数据架构领域的发展, 对Hadoop,HIVE, HBASE, Spark, Storm等有所研究,致力于大数据架构和业务场景的结合和落地,通过数据产生业务价值。

04-马如悦-palo-201604

Palo:MPP-based Interactive SQL Data Warehousing

  • Online Data Serving、
    • Palo:大规模并行分析型数据库(OLAP)
    • TDB:分布式事务型数据库(NewSQL)
    • SimpleDB:高性能(实时+批量) KV数据库
    • Elasticsearch:文本型数据查询和分析数据库

05-雷海林-mysql备份原理与在TDSQL中的实践

人物介绍:腾讯 / TEG / 计费平台部。2007年加入腾讯公司,10年以上的Linux后台Server开发经验,之前重点负责高一致性分布式Cache系统的设计开发(HOLD平台),目前是TDSQL的技术负责人

  • 备份的意义和基本原理

    • 主要用来做数据恢复(错误的SQL业务/数据库本身的Bug/黑客攻击/审计或者测试,回档到指定时间点/DBA睡觉踏实)

    • 备份的基本原理-多引擎的结构。MySQL-server层包括binlog、innodb、其他引擎如MyISAM等、表结构.frm文件

    • 备份的基本原理-如何获取数据
      • 核心是一致性全量数据+BINLOG位置
      • 离线备份
        • 停机
        • 锁表,FLUSH TABLES WITH READ LOCK
      • 在线热备份
        • 逻辑备份,select获取一致性数据+BINLOG位置
        • 物理备份,拷贝一致性数据文件+BINLOG位置
  • mysqldump分析

  • FTWRL锁的分析

  • 逻辑复制的性能优化

  • xtrabackup原理分析

  • 方案对比和选型建议

  • TDSQL目前采用的备份方案

总结

根据查阅这些PPT,发现数据库系统包含很多内容,围绕可靠性、可用性、稳定性和可诊断性的目标展开。对于各个企业的数据库相关大牛的分享,他们介绍了如何保证数据库系统的性能以及实现更强大的功能的数据库技术。