#AIProCon | Explore Tumblr posts and blogs

qianqiuxue · 5 years ago

Photo

2019北京AIProCon开发者大会——计算机视觉技术专题

计算机视觉技术领域的创新已达瓶颈？该领域有哪些方向将取得突破，还有哪些前景应用尚待挖掘？本论坛将聚焦于计算机视觉技术最新突破和应用实践，并就当下遇到的技术挑战探索出可能的解决方案。

互联网视频基础技术探索及其应用出品人: 王华彦 | 快手硅谷实验室负责人王华彦，快手硅谷实验室负责人，斯坦福大学计算机科学博士，师从Daphne Koller教授研究计算机视觉。曾就读于斯坦福大学人工智能实验室，为复杂化的概率图模型开发了高效的推理算法，并将其应用于计算机视觉研究。王博士的研究曾登上行业期刊CACM首页，并在多个顶级会议如CVPR、ICML、ECCV、IJCV、AAAI上发表。王华彦本科和硕士阶段就读于北京大学，师从査红彬教授，也曾参与香港科技大学的杨强教授的科研活动。加入快手前，他曾担任Vicarious AI的高级研究员，以极其高效的数据方式，开发高度结��化的模型，解决CAPTCHA和Robotics等现实问题��他在人工智能领域的工作曾发表于美国的《科学》杂志。王博士现在领导快手位于硅谷的Y-tech实验室，在开发高效的人工智能解决方案的同时，也将更多的尖端技术引入快手的移动平台。

文石磊 | 百度视觉技术部主任架构师，视频基础技术团队负责人互联网视频基础技术探索及其应用目前互联网视频数据日益增多，用户观看长视频、短视频、小视频的时长也迅速增长，在实际应用中需要解决两类重要问题，视频语义理解和视频编辑。视频语义理解从多维度解析视频内容，理解视频语义，自动分类打标签，极大节省人工审核效率，节约成本，同时实现精准用户推荐，提升体验效果。其主要技术难点在基于海量数据构建高性能视频分类模型。视频编辑主要解决手机端美颜、滤镜、属性编辑、AR特效、超分辨率等问题。随着GAN的快速发展，基于GAN的特效编辑几乎达到以假乱真的地步，逐渐成为视频编辑中研究的热点。本次演讲将围绕高性能大规模视频分类技术与生成式对抗网络技术（GAN），主要介绍百度视觉技术部在视频语义理解和视频编辑两个问题上的探索与应用成果。

专家介绍：文石磊，百度视觉技术部主任架构师，视频基础技术团队负责人，两次获得百度最高奖。带领团队获得CVPR2019 5项比赛冠军，涵盖目标检测、智慧城市、视频理解、超分辨率等领域，其中连续三年获得视频理解比赛ActivityNet冠军，19年发表AAAI/CVPR/ICCV顶会论文八篇，并将相关技术成功应用于核心产品，在百度云/AI开放平台累计输出约50项能力。

石建萍 | 商汤科技研究总监视觉感知驱动的量产自动驾驶计算视觉及其在图像视频中的识别理解能力在近些年的突飞猛进，极大提升了量产自动驾驶对于低成本高感知能力方案的可靠度。在本报告中，我们会综述团队在计算视觉领悟的整体布局及重点突破。接下来会以优化自动驾驶系统能力，提升量产可靠性为整体目标，介绍系统级的优化实践。最后，我们将展望自动驾驶方向未来的研究热点以及商汤在自动驾驶方面的整体布局。

专家介绍：石建萍博士为商汤科技研究总监。她领导了商汤科技自动驾驶研发团队，推动商汤科技与本田的长期战略合作。同时，她也负责多条产品线的算法交付，包括娱乐互联网，手机，遥感等。石建萍本科毕业于浙江大学计算机科学与技术系，同时隶属于竺可桢荣誉学院，2015年博士毕业于香港中文大学计算机科学与工程系。她是深度学习和计算机视觉领域的专家。她领导了商汤科技的团队赢得多项国际竞赛冠军，包括ImageNet Scene Parsing Challenge 2016, COCO Instance Segmentation Challenge 2017, 2018以及众多CVPR, ECCV workshop竞赛等。建萍发表过超过40篇顶级会议，期刊论文，论文发表在SIGGRAPH Asia, CVPR, ICCV, ECCV, NIPS, MM, TPAMI,TIP等。她的论文在Google Scholar上引用率超过3400。在博士期间，她获得过微软学者，HK-ACM最佳年轻学者，香港博士生政府津贴等众多荣誉��项。 2018年，凭借在计算机视觉原创技术的卓越创新成就，石建萍还入选了《麻省理工科技评论》 “35岁以下科技创新35人”(35 Innovators Under 35)中国榜单。

王乃岩 | 图森未来合伙人&首席科学家图森未来无人驾驶技术实践分享【演讲大纲】1、图森未来无人驾驶的发展历程，以及最新的技术进展；2、计算机视觉技术在无人驾驶卡车领域中的实践和应用

专家介绍：王乃岩，图森未来合伙人&首席科学家。香港科技大学博士，主要负责带领中国国内算法团队进行自动驾驶卡车技术研发。曾多次在国际数据挖掘和计算机视觉比赛中名列前茅，发表论文引用次数已超过4000余次，是将深度学习应用于目标追踪领域全球第一人。曾入选2014Google PhD Fellow 计划，也是 MXNet 核心开发者。

张祥雨 | 旷视研究院主任研究员、基础模型组负责人高效轻量级深度模型的研究与实践深度基础模型在现代深度视觉系统中居于核心地位。在实际应用中，受应用场景、目标任务、硬件平台等的不同，经常会对模型的执行速度、存储大小、运算功耗等进行限制。因此，如何针对各种不同的情景设计“又好又快”的模型，成为深度学习系统实用化的重要课题。尤其是近年来，AutoML技术的发展给轻量级模型的研发带来了新的思路，基于AutoML/NAS技术的深度视觉模型在多个维度上不断刷新性能上限，展现出了良好的研究与应用前景。本次演讲主要围绕实用模型设计的两个常用技术：轻量级模型设计和模型裁剪，重点介绍旷视研究院在高效视觉模型领域的科研成果和实践经验。分享内容包括多种轻量级高性能模型，以及基于AutoML的自动化模型设计、模型裁剪的最新研究成果。

专家介绍：张祥雨，现任旷视研究院主任研究员、基础模型组负责人。2017年博士毕业于西安交通大学。期间参加西交大-微软亚洲研究院联合培养博士生项目，师从孙剑博士和何恺明博士。目前团队研究方向包括高性能卷积网络设计、AutoML与自动化神经网络架构搜索、深度模型的裁剪与加速等。已在CVPR/ICCV/ECCV/NIPS/TPAMI等顶级会议/期刊上发表论文二十余篇，获CVPR 2016最佳论文奖，Google Scholar引用数38000+。多次获得顶级视觉竞赛如ImageNet 2015、COCO 2015/2017/2018冠军。代表作包括ResNet、ShuffleNet v1/v2等，均在业界得到广泛应用。

王晶 |华为云OCR人工智能高级算法工程师文字识别服务的技术实践、底层框架及应用场景近年来，随着智能设备的普及和大数据技术的高速发展，自动化办公和智能数据分析成为可能并逐渐普及，人们要求计算机“读懂并理解文字”。本活动将会以介绍华为云文字识别服务的识别精度高、鲁棒性好、支持多类单据识别、服务稳定高效等特点，以及实现这些特点所应用的技术内容及框架、实践的过程与经验。初次之外，还会介绍一体化模型、任意角度纠正技术、端云结合等特色技术的实现方式及底层架构。除了技术内容、架构设计的介绍，还会用一部分篇幅介绍目前已经成熟的应用场景，例如全球快递物流、财务、医疗、保险、金融、政务、交通、汽车等具有跨系统信息整合需求的业务领域，以帮助听众更好��了解这一领域的技术与实践的结合，通过华为的项目经历，分享这一技术在实践过程中的真实经验、踩过的坑和解决方案等。

专家介绍：王晶，华为云OCR人工智能高级算法工程师，拥有多年的算法经验，分别获得新加坡南洋理工大学和中国科学技术大学数学与应用数学博士和学士学位。负责文字识别核心算法，提交多个基于深度学习的文字识别专利和论文，组队ICDAR SROIE票据识别大赛并以96.43%的高精度夺得世界第一，华为云文字识别服务获得2019数博会“新产品奖”。熟悉云计算、人工智能、密码和计算机网络安全。从事过华为云PaaS平台安全设计和测试工作。Covert Redirect（隐蔽重定向）漏洞发现者，曾提交十几个CVE安全漏洞并被微软、苹果、阿里巴巴等十几家公司列名安全感谢榜，多个发现被包括人民网、凤凰网、CNET在内的众多国内外媒体报道。

杨民光 | Product manager in Google Research Perception Research On-Device, Real-Time multi-modal (video, audio) applications with MediaPipe Video, audio (multimodal) mobile applications that utilize machine learning models (eg Tiktok 抖音, Shazam) are becoming more common. However, creating these multimodal ML applications are challenging as developers need to deal with real time synchronization of time series data during model inference and doing it cross platform (Android & iOS) on mobile and edge devices.

专家介绍： Ming Guang is a Product manager in Google Research Perception Research leading open source efforts in computer vision. In Google, he was previously product manager in Google Search and product lead for mobile video ad formats. Before Google, Ming was cofounder Socialwok, an enterprise collaboration service for Google Apps (Finalist of the Techcrunch Disrupt 2011) and Voiceroute, a startup focused on open source VOIP telephony services for small medium enterprises.

专题链接

https://bss.csdn.net/m/topic/ai_procon/topic_detail?mid=2051&id=9374

#AIProCon #csdn #开发者大会 #端上视觉技术 #互联网视频 #量产自动驾驶 #无人驾驶技术 #轻量级深度模型 #文字识别技术实践 #MediaPipe

8 notes · View notes

lifegrey · 5 years ago

Photo

AI ProCon圆满落幕——计算机视觉技术专题报告内容介绍

2019 年 9 月 7 日，由新一代人工智能产业技术创新战略联盟（AITISA）指导，鹏城实验室、北京智源人工智能研究院支持，专业中文IT技术社区 CSDN 主办的 2019 中国 AI 开发者大会（AI ProCon 2019）迎来了重头戏，机器学习、自然语言处理、计算机视觉、AI+DevOps 和AI+小程序五大技术专场先后开讲，近 40 位行业专家和技术专家带来了精彩分享。如下为计算机视觉方向的专题介绍。

快手硅谷实验室负责人王华彦以《端上视觉技术的极致效率及其短视频应用实践》为题做了演讲。

王华彦表示，端上视觉短视频的应用场景带来的技术挑战有三方面：

· 第一是不可控的复杂场景和环境；

· 第二是极为有限的移动设备计算资源；

· 第三是由于所有应用都是时效性很强的。

为了解决这些挑战，快手的解决方案和研究方向有四个要素：

· 第一是运用高度结构化的模型和充分利用先验知识；

· 第二是面对计算资源的紧缺，需要充分发掘各种冗余来提高算法的推理效率；

· 第三是用高度结构化的信息表示提高学习算法利用数据的效率;

· 第四是快速开发和部署的需要。

在他看来，如果希望像人一样高效地从很少的数据或者虚拟的数据中学习，就需要有分解的本事，把视觉信息分解为形状轮廓信息和颜色纹理的信息，才能在不同样本中有效建立联系，从而提高学习的效率。

百度视觉技术部主任架构师、视频基础技术团队技术负责人文石磊为现场观众介绍了互联网视频基础技术探索和应用。基于百度丰富的视频应用场景，什么样的技术来支撑应用？文石磊解释，与互联网视频相关的技术分为视频理解、视频编辑、算力优化。视频理解分三个内容，第一是视频分类/检测/摘要/垂类，第二是做多模态融合和知识图谱，我们看到视频内容不仅有图像还有语音、标题，这些不同的信息资源该怎么融合，基于视频得到的标签如何结合构建好的知识图谱都是热门内容。

商汤科技研究总监石建萍则以《视觉感知驱动的量产自动驾驶》为题主要介绍了商汤在智能驾驶上的主要方向。第一是非常重要的ADAS驾驶辅助系统的量产方向，以模块级别装到汽车上，要达到精确识别检测，预警及时且准确率高，车规级标准，灵活易部署；第二是做自动驾驶的研发，以计算机视觉为主、多传感器融合的自动驾驶解决方案。第三是基础技术，包括大数据、自研深度学习系统、自研FPGA计算平台。

图森未来合伙人&首席科学家王乃岩分享了图森未来无人驾驶技术实践。

为什么图森未来会选择卡车货运的场景？王乃岩解释称，一个最重要的原因是商业场景是成立的，对于出租车来说场景很复杂，至少是一个城市的级别，对于干线运输来说需求非常简单，在一条道路上从A点到B点不会有多样化的需求，简化的需求恰恰是AI落地非常重要的因素，卡车货运会是自动驾驶行业尤其高级别自动驾驶行业中最希望率先落地的场景。

图森未来把无人车系统分为四部分，感知、定位、路径规划、车辆控制。感知过程中，要做的是融合不同传感器完成感知车辆周围环境和状态，为后面的决策规划输出合适表示。在定位阶段，不同于拿出手机做导航的定位，��们在无人车做的定位是遥感车辆相对道路的基准。再往下的模块是路径规划，首先是融合前面两个模块输出做出下一步行驶决策，然后根据这样的决策会生出一条车辆可知性的最优轨迹。最后一部分是车辆控制，执行规划计划的轨迹，输出车辆控制量。

旷视研究院主任研究员、基础模型组负责人张祥雨分享了高效轻量级深度模型的研究与实践。

他提到了六点高效模型设计的基本思路，旷视会使用这六种甚至更多的方案综合进行模型的设计。

在他看来，目前在轻量级模型设计这个领域基于模型搜索的方法已经成为了目前的主流，也是最重要的研究方向。在实践中会发现模型搜索对设备适配尤其是寻找对于具体设备上运行时间最快、功耗最少的模型，相对于人工有非常大的优势，但是也有很多问题，搜索空间现在还是依靠人工设计，搜索空间的设计非常依赖经验，并且没有好的指导原则，这是未来的研究方向和难点。

华为云OCR人工智能高级算法工程师王晶讲述了文字识别服务的技术实践、底层框架及应用场景。

他认为，不只是OCR产品，而是所有人工智能产品或其他产品都需要走这样的路。第一条路是要持续突破新场景，要识别分子式，希望把证件类和票据类的APR归一，很多公司都希望用一个模型包打天下，省时省力。其次是推理和训练速度要持续优化，因为训练速度的提高意味着产品更快的迭代，而推理速度的提高意味着成本更可控。

Google研发产品经理杨民光分享了Google的开源跨平台多媒体机器学习模型应用框架MediaPipe。MediaPipe是一个针对机器学习工程师和研发人员的多媒体机器学习落地框架，用来帮助建立感知流水线。这个框架从2012年就开始研发，在谷歌内部用来做视频和音频方面的落地场景，比如YouTube每分钟上传两三千个小时的视频，Google要用机器模型看这个视频是否有黄色和暴力，处理视频的正是MediaPipe。

全部专题链接

https://blog.csdn.net/weixin_42232219/article/details/100644707

#AIProCon #KUAISHOU #BAIDU #SENTIMES #MEGVIL #GOOGLE #HUAWEI #CSDN

4 notes · View notes