MLA2016笔记
开幕式
- ppt会在网站上共享
- 每年的会议也会由清华大学出版社整理为《机器学习及其应用》一书
- 公众号:MLA2016
以下笔记整理与会议期间,主要关注机器学习应用方向,对于一些比较小众或者高深的topic,由于个人水平有限,会跳过一部分不讲。
Presentation(11月5日)
分布式学习
- 背景
- 大数据分布式学习介绍
- 大数据自然地分散存储
- 问题
- 数据分为子集,子集运算,output平均
- 分布式结果与单机运算结果理论上是否应该近似??
- 常用方法
- 最小二乘回归:最小化预测与实际值差异 - 过拟合 - 假设空间
- 假设空间越大学习效果越好
- 具体应用时假设空间会被限制
- 目标函数要学好,需要与kernel空间有联系,具体关系由一个函数描述
- kernel空间
- 假设空间越大,函数光滑性越好
- 回归分布式学习
- 函数复杂度:λ趋向无穷的速度
- 衡量学习算法的好坏
- 单机结果与分布式结果的误差由一个公式描述,这个公式表述了:
- 分布式能达到单机效果
- m一般越大越接近单机结果,分的多variance越小,但不能分到底,要有一个限制
- 数学上的问题:最小二乘回归能得出minimize rate吗?用二次分解解决
- 深度学习困境:
- 黑箱:强加条件可能有效但不明所以
- 浅层神经网络做不了局部近似,两层可以做到,三层与两层效果往往有很大差别,但不明所以
- 希望从数学上说明更多层数能获得许多不同的结构层次信息
- 内积学的是多个方向上的东西,多层时方向维度信息指数增加
- sgd
- 在经典结构上加些几何结构能学到数学上对应的结构
- minor gradient
- 深度网络,函数有结构才能学得好
ML in NLU,CL,NLP
- NLP && DL
- 机器翻译,情感分析,自动摘要,问答系统,关系抽取
- 挑战
- 未知现象太多
- 歧义,双关,隐喻
- 跨文化语义
- 方法
- 规则:词法,词性
- 统计:概率,贝叶斯,语言模型,翻译模型,解码器
- 分词-短语-翻译-调序
- 常用方法,开源工具
- example:
- 由字构词,识别词的位置做为特征,进一步得到词义
- 词义消岐,词性,位置
- 文本分类,分类器组合
- 深度学习
- RBM无监督做图像,HMM语音识别的突破
- 词向量
- one hot 相乘为0!
- 近似词放在相近的地方
- 词表规模, 词向量维度的确定
- 词向量获取CBOW,etc
- 句子语义表达:RNN,attention(在句子中的重要性,可用眼动仪测量)
- 翻译:生词 - 概率优化 - 同义词 - 拆词 - 补词
- 《统计自然语言处理》宗成庆
- 深度学习不等于深度理解
- 难以全文分析,就缺乏归纳推理
- 常识学习
- 深度学习泛滥,应该多考虑其他机器学习方法的出路
- 深度学习不等于深度理解
忆阻
- 硬件模拟大脑计算
- 内存基于电容,易失,忆阻不易失
- BP更新权重需要用外部电路辅助实现
Spotlight
- hulu:CF-NADE神经网络协同过滤推荐
- CNN可视化,随机权重少量训练,重构图像,验证ML也不一定需要大量训练 **
- 估计光泽量,反射量,考量对数变换
- 深度网络缩小文本与图像的语义差异,再映射??
- 迁移学习:模型的联合概率分布有差异
- 高维非凸最优化
- 函数偏移值强化学习
- 异构人脸识别
- loss function求和优化,共享内存异步优化
- 深度学习+哈希学习
- 蒙特卡罗预测状态
Presentation 11-06
迁移学习 kernel embedding of distribution
- 分类聚类,增强学习
- wifi室内定位,N个路由器,N维向量,
- 连续空间:回归问题
- 设备移动,记录位置和路由器强度
- 回归学习定位系统
- WiFi对温度敏感,所以强度会发生变化,不同目标设备也会影响强度值
- 使用迁移学习,让后来的设备适配先前的设备模型
- 情感分析
- 用户情感词可能很多种,不同产品会有不同类型的情感词
- 添加enable标签
- Bug predict
- 机器学习强假设:训练与测试数据需要来源相同,分布相同,特征相同
- 其实我们只需要收集一些enable数据和一点feature数据(半监督)
- 添加迁移学习方法预测target
- 异构迁移,同构迁移
- 监督迁移,半监督,无监督迁移
- 基于样本迁移学习
- source跟target在数据集上有重叠
- 基于特征迁移学习
- 训练集与测试集只有一部分重叠特征
- 特征映射到一个空间,在这个空间训练集与测试集接近
- 基于参数迁移学习
- 可能迁移目标与源在参数上相近
- 基于关系迁移学习
- source和target在数据之间的关系可能相同
- 通用的基于特征的迁移学习
- source和target结构相似,
- 假设它们有潜在的相同因子
- 去掉一些因子,使得数据的分布不变,那这些因子就是它们的共同特征
- 同时还要尽量保持原来的数值
- 最小化source和target分布的差异
- RKHS
- 找一个向量代表一组数据
- 增加多维统计信息比如(E[x] E[x2] ...)
- 无穷维,用核函数形式展示
搜索引擎信息检索
- 略
可视化特征学习与表达
- 特征的寻找,低维表达高维图像数据 - 子空间
- 稀疏特征表达 **
- 人脸 - 关键点定位 - 让模拟关键点与实际关键点误差最小,先拟合再回归
- CSR
- hypergraph base:feature hyper edge: 轮廓
- 空间大,边不能自适应非均匀自适应分布
Bug mining
- 自然语言与程序语言存在不同
- 需要根据问题本身进行设计
多任务学习
- school数据集:每个学校单独预测,多个学校同时联合训练
- 弥补训练数据的缺失
- 训练过程中多任务联合,抓住任务间联系,建模,预测
- 重点在任务之间的关联
- 假设所有任务相似
- 假设所有任务参数向量接近,让所有任务共享方差,简单,假设太强
- 特征空间相似
- 共享同一组特征:所有任务都会使用特征中的某一部分,group sparsity l1,q norm 规范化,最小化norm,使得共享稀疏特征
- 共享低维子空间
- rank minimization,增加一个rank项,rank最小化
- 共享结构,聚簇,图,树
- 聚簇:同一个族中的任务距离更相近
- 学习外围任务
- 假设所有任务相似
- 避免无关因素影响
- 约定
- 每个任务有一个特征矩阵,不同任务样本数量不同,矩阵长度不同,但所有任务的特征相同,矩阵宽度相同
- 每个任务有一个参数向量
- 用以上符号表达几乎所有多任务模型
- 损失:正常的预测与实际值的偏差
- 规范化参数
- 然而上述假设都有点强,需要分开:W = P + Q,任务由相关部分和不相关部分组成
- l2 norm,在Q中让有些列为0,表示有些列是有特异性的
- 任务之间的关系:task-level(这种假设还是比较强)
- feature-level:任务在某些特征上是否相关,有何相关
协同聚类
- 规范化项
- 仍然W = P + Q模型
- Q描述协同聚类效果
- 模拟任务与特征之间的协同聚类
- Q的一个行是一个特征,Q的一个列是一个任务
- 在Z向量上聚类
- 两个规范化项
- 第二个规范化项是非凸的,需要CoCMTL优化
- 优化
- Low rank MTL
- 为求解添加核范数 nuclear norm,做一个松弛
- 矩阵信息主要由奇异值大的特征向量表达,很受核范数影响,产生负面因素
- 在核范数前增加权值,奇异值越大,权重越小,权值自动优化,需要设计优化算法
- 这个权重也是非凸,但物理意义更接近矩阵的秩
- 权值的优化:近似非凸函数,随机权值,逐步调节
- 权值优化收敛性:一定会收敛,收敛速度还可以
- 轨迹回归
- 一个序列,含有多个路段的数据,预测通过路线的时间
- n 个轨迹对,每个路段的行驶距离,需要预计走过每个路段的时间
- 挑战:
- 不同时间走过一个路段的耗时是不同的
- 轨迹数据非常稀疏
- 训练样本有限
- 不能单任务
- 将序列按时间划分成多个子集,每个时间段的预测分别为一个任务(比如早高峰一个任务,晚高峰一个任务, 平常时间为一个任务)
- 相邻时间代价变化光滑,存在全局光滑性
- 存在局部突出变化
- 分解
- P 模拟全局平滑性质
- Q 抓住局部性质
- P 时间上的平滑性,空间上的平滑性
- Q 异常现象,l inf,1 范数,达到列稀疏效果,描述了某些任务与其他大部分任务之间的区别
- 高峰代价由全路段最大代价决定
- 建模完成
- 优化非平滑,需要近似
- 苏州出租车行驶数据,6W轨迹信息
- Q矩阵每列的最大值画出来,几乎描述了高峰的局部现象
大数据
- 核心:分析处理
- 大数据分析与处理的核心基础,搭建新平台,研发新算法
- 数据预处理,算法工程化
- 处理:计算机为基础
- 分析:数学为基础
- 基于全数据中心估计
- 基于数据分解的分布估计
- ADMM
- 理论决定深度结构
- 模型族决定假设空间
- 深度学习解决模型选择与参数选择
- 解反问题的一个新思路:模型求解与范例学习
自适应动态规划 - 学习控制
- 略
人脸识别
- triplet loss不需占用额外显存
- seetaface
Spotlight
- 社交影响驾驶行为
- 车联网
- 司机之间的社交分享提高司机经验
- 启发:在同一个地方都停留超过10分钟,就可能是有社交关系
- 2013纽约出租车行驶数据集
- 从行为模式建模出社交关系
- 用社交关系得到权重作用于行为模式预测
- 行为模式得到轨迹
Special Session
顶会Review(以下环节中paper部分表示很值得关注的paper)
- ML
- ICML
- 神经网络,深度学习,优化,再增强学习,矩阵构造,无监督学习,在线学习,学习理论,应用
- 过去十年最有影响文章:dynamic topic models
- rnn,采样,动态组织模型深度强化学习
- NIPS
- 论文数取决于场地。。
- learning,model, network,optimization,deep, inference,贝叶斯
- 顶会有tutorial,tensorflow,NVIDIA gpu介绍
- 邀请牛人分享
- workshop:bayesian, application, deep learning, new areas, others
- Paper:
- Competitive Distribution Estimation: Why is Good-Turing Gooding good
- Fast Convergence of Regularized Learning in Games
- startup:
- ai startup: openai was founded
- hot areas: new models: optimization for dl , bayesian, reinference
- adaptive data analysis: 实验不可泛化,需要避免
- review: 每篇论文有六个reviewer,review会公开(重要)
- COLT
- 计算机理论文章进入这个圈子
- 十大机构占半
- 一小群数学家在这里开会
- bandit, 计算机理论,online, 限制学习, 监督学习,pac
- 两个invited talk
- Paper:
- Multi-scale exploration of convex functions and bandit convex optimization
- Provably manipulation-resistant reputation systems (协同过滤)
- dl:理论:
- the power of depth for feedforward neural networks
- benefits of depth in neural networks
- on the expressive power of deep learning: a tensor analysis
- 深层少节点可行,浅层多节点才行
- Paper
- Online Learning in Repeated Auctions: 拍卖,true value unknow the true value
- Learning Simple Auctions:证明多项式级样本可以达到买卖平衡
- ICML
- AI
- AAAI
- tripleAI
- topic: machine learning method, ml app, 博弈论,
- 计算机视觉,web,nlp, 认知模型
- 启发式,多智能,不确定,规划调度
- 鲁棒AI
- paper:
- Bidirectional Search That Is Guaranteed to Meet in the Middle
- Toward a Taxonomy and Computational Models of Abnormalities in Images
- What is hot: meeting and competitions
- IJCAI
- deep learning渐弱
- 传统领域review比较多,ml review少
- ml, ai arguement 少
- 投稿时解释清楚问题
- co-author list投稿后一般不可变
- 限制author投稿数量
- knowledge graph, knowledge base
- paper:
- Hierarchical Finite State Controllers for Generalized Planning
- Using Task Features for Zero-Shot Knowledge Transfer in Lifelong Learning
- AAAI
- DM
- KDD
- sigkdd
- talks多
- classical ml , techniques still , pronounce for solving dm tasks
- graph, streawm, heterogeneous
- clustering, neural network
- paper:
- FRAUDAR: Bounding Graph Fraud in the Face of Camouflage
- Ranking Causal Anomalies via Temporal and Dynamical Analysis on Vanishing Correlations
- TRIEST: Counting Local and Global Triangles in Fully-Dynamic Streams with Fixed Memory Size
- Predicting Matchups and Preferences in Context
- kdd有点看author
- graphs over time:densification laws, shinking dismeters
- kdd china: acm 数据挖掘中国分会
- ICDM
- 数据挖掘blabla
- 盲审,关注可重现性
- Paper
- Fast Random Walk with Restart and its Applications
- Diamond Sampling for Approximate Maximum All-pairs Dot-product (MAD) Search
- From Micro to Macro: Uncovering and Predicting Information Cascading Process with Behavioral Dynamics
- 新应用,正面的论文title,
- 不要早于两周提交,
- 多跨界合作
- 神经网络,学习 ⬆️
- KDD
- Other
- ISCA
- 处理器架构
- 寒武纪团队
- 深度学习处理器
- AI statistics↑
- ai, ml, statistics
- 在美国受认可
- \<4人审核,逐层审核
- 高斯,图模型,优化,在线学习,聚类,矩阵,推理,贝叶斯,压缩感知,稀疏编码,深度学习
- 半监督,nonlinear embedding and manifold learning , semi-supervised learning ↓
- Paper
- Provable Bayesian Inference via Particle Mirror Descent
- UAI
- AI的不确定性
- 图模型,贝叶斯,因果推断
- Paper
- Stability of Causal Inference
- Online learning with Erdos-Renyi side-observation graphs
- bayesian, reinforce, optimization
- 非凸问题,凸近似
- 深度神经网络自由度
- 理论理解,迁移学习中协同矩阵重构
- 因果发现,贝叶斯应用,ml on health
- 外国比较火,DL不太火
- ICLR
- 小
- emergeing
- dl
- open review
- ACML
- 亚太
- 长文16页
- 4-5 review
- 两轮投稿
- 会议转期刊 -> MLJ
- ML
- SIGIR
- 信息检索
- ML
- search new trend from google
- IR
- Matching
- Translation
- classification
- structured predicction
- Word Embedding, rnn, cnn
- ACM multimedia
- 多媒体
- 多个投稿方向
- 视觉,多媒体搜索,,
- DL on Multimedia,图片检索,视频分析
- 图像视频自动描述
- 多模态社交媒体主体意见挖掘
- CNN分析菜肴
- CVPR
- CV
- 应用Dl
- 3D
- 紧密结合工业界
- 主题提取
- 视频问答
- imagenet
- ICCV
- CV
- 提前投
- DL ↑
- Track
- ACL
- 计算语言学、自然语言处理
- 工业界应用
- 双盲审
- 语义,语法,ML,资源与评估
- ACM SIGGRAPH
- 图形学顶会
- 工业界,艺术界
- TOG
- Geometry
- Animation
- Human Model
- 3d print, image processing, render↓
- VR, AR, ML
- novelty
- 视觉效果
- ISCA