7 月 16 日消息 今日讯飞输入法新版在小米应用商店首发上线,推出了一套离线输入方式,包括完全离线的拼音、语音以及手写输入,更好地保护好用户数据安全。据了解,《信息安全技术移动互联网应用(App)收集个人信息基本规范》中规定,输入法类应用程序是为用户提供键盘、手写、语音等方式输入字符功能的服务,该服务类型必须遵循知情同意和最小必要原则,明确无须个人信息即可使用基本服务功能。IT之家了解到,讯飞输入法新版通过将 AI 能力“离线化”,比如说离线语音输入,讯飞输入法升级 AI 语音识别模型,在不联网的环境下,无云端数据传输,通过手机本地解码就能为用户提供转文字服务,可以满足在任何场景下进行语音输...... Last article READ

在AI的海洋里,将往哪里航行?

文/当下君

图片/来源网络

没有什么比更像一片海。

从探索的角度来说,尽管人类已经在地球的外层空间探索并绘制了火星和月球的大部分区域,但到目前为止,世界上只有一小部分海洋被探索过。

人工智能也是如此,尽管从达特茅斯会议到今天已经有超过60年,但现在没有人敢说人类对这一领域的探索超过5%。

从蕴含资源和财富的角度来说,大海更几乎是无穷尽的、蕴含着矿产、能源、食物来源,甚至是人类未来建立家园的空间。

人工智能也是如此,它可能是彻底改变人类生活方式、文化、技术演进的一次革命。

无论通往星辰大海的征途是否必经过万丈孤独,但总有一小部分人试图探索AI的海洋,他们甚至发布了自己的大航海计划。

1

启航,纾解AI人才之困

2020年中国在人工智能领域的投融资金额再次创下新高,达到1748亿元,相比2019年同比增长73.8%。

相对于将近1800亿的投资金额,5亿元只是一个很小的数字。

但哥伦布首次远航的时候,也只有3艘船:旗舰圣玛丽亚号,以及平塔号和尼尼雅号。

对探索一个需要无尽资源的领域来说,有时候,方向比金额更重要。因为金钱不足可以追加,但方向错了就是纯粹的浪费。

对于百度飞桨来说,其大航海计划的启航计划,核心内容就是在三年内投入5亿元的资金和资源,联合500所高校,重点培训5000位高校AI教师,联合培养50万AI学子。

而中国未来AI人才的缺口,保守估计是500万。

也就是说,如果方向选择正确,百度与500所高校形成的合力,至少能解决中国AI人才之困的十分之一,预期效果可谓惊人。

但这个计划的执行,远远不是列出几个数字这么简单。

不久前,来自全国百余所高校的数百名教师齐聚北京,以学生的身份参加2021年首期也是总第十四期全国高校深度学习师资培训班,开启为期四天的AI学习旅程。这一活动由教育部和工业和信息化部指导,百度与国内各大高校联合发起。

笔者至今记得在这次培训班上遇到的一位老师谈到的真实情况,他说:“我们从2020年开始尝试办人工智能系,我们把能够胜任的老师和一部分正在接受培训的老师统统算进来,得出的结论是今年可以开两个班,每个班60人,一共120个人。”

如果按照500万人才缺口对应500所高校,每所高校要培养1万名AI人才,那么这所高校按现在的能力达到这个数字要83年;如果按照启航计划的口径,即培养50万AI人才,那么这所高校也要8.3年,是计划预期3年的2.7倍。

然而,这就是目前中国高校AI人才培养能力的现状,也是飞桨大航海计划中“启航计划”必须面对的现实。

在这个计划实施之前,高校培养AI人才的痛点包括师资、教学资源、硬件环境等方方面面。

第一要过的就是师资关,一个事实是,目前优秀的人工智能专业的毕业生,很少有把进入高校任教当做首选的。

“坦率的说,现在的国内一流学院、或者有海外留学背景的学人工智能方向的学生,对进入高校任教的兴趣是很少的。待遇上是一方面,更重要的是学校里也没有企业里的软硬件条件,没有实践的项目,所以从学以致用的角度,学AI的学生最好的选择其实是去企业,这没有错。”河南科技学院人工智能学院的负责人马玉琨表示。

换言之,一个优秀的人工智能专业的毕业生如果不进企业而进高校,那么他接触到的AI前沿动态、可供持续提升的实践资源、能够做出成绩的平台都将非常狭窄,他会很快落后于一线和脱离实际。

对此,中国人民大学信息学院院长、高瓴人工智能学院执行院长文继荣表示,应该大力鼓励和拥抱校企合作,让产教融合成为目前高校AI人才培养的新趋势,从而避免研究与人才培养进入固步自封的困局,他说:“高校要开放心态,和企业、政府去提出新做法与新思路。”

而作为企业,百度的努力则体现在,不断把前沿的AI成果通过校企合作、师资培训、评比竞赛等各种方式,传递给高校从事AI教学的一线教师,使他们能够始终与行业前沿同频共振。

例如,在WAVE SUMMIT 2021峰会上,百度飞桨就宣布——与三大高校创新创业实验室现场签约,包括清华大学基础工业训练中心、吉林大学创新创业实验室、郑州大学人工智能工程应用实验室。

“高校的人工智能研究,要始终和产业相结合,清华大学已经开始使用飞桨深度学习开源平台提供的开源算法和算力进行研究实践。同时,在人工智能创新创业能力证书的项目中,清华与百度共建产业级平台,请产业大咖来授课,与同学们形成良性互动。”清华大学基础工业训练中心人工智能实验室主任周晋表示。

百度公司AI技术生态部总经理刘倩在演讲中表示:“人工智能是一门实践出真知的专业,为了更好的支持高校教学,尤其是人工智能实践课的开展,飞桨新增开放了50+实战案例,如人体关键点检测、新能源汽车锂电池隔膜质检等,到7月底累计开放案例将达100+。这些案例的特点是——深入产业实践,来源于真实工业场景,数据集不仅来自百度内部,还有生态合作伙伴(高校、企业)共同支持”。

与此同时,百度还与高校知名专家学者和教授达成深度合作,为名师的教材配套相关的案例与实践教辅书。如浙江大学吴飞教授《人工智能导论》配套的案例与实践即将出版,复旦大学邱锡鹏教授的《神经网络与深度学习》配套的案例与实践,以及和更多老师的合作都将在年内陆续出版。

除了师资培训,百度拿出的还有大量资源。

在接触到了飞桨的AI Studio学习与实训社区提供的免费开放的GPU算力后,很多老师都非常的感动,一位老师对笔者说:“现在全球的GPU算力都极度紧张,大量的GPU卡被高价买去挖矿,一块两三年前的带GPU的显卡现在网上能翻三四倍的价格,卖五六千块,在这种全球的GPU算力都极度紧张的情况下,飞桨还能开放如此珍贵的资源用于高校的教学,难能可贵,很有责任感。”

但启航计划并不仅仅如此。

简单来说,AI人才可以分为4个层面:

理论引领者-产业引领者-产业实践骨干-AI应用者。

其中,是否有第一、二层次的人才,决定了中国能否成为世界级AI创新策源地;第三、第四层次的人才,决定了中国是否成为AI产业应用的大国和强国。

因此,除了培养师资以提供产业应用层面的人才之外,百度飞桨也盯住了进阶人才的培养。

为了更好支持青年学者基于中国自主的产业级深度学习平台开展科研,百度和CCF联合发布了CCF-百度松果基金,致力于推动我国深度学习平台和科技的应用,去年已有23位青年学者获得了松果基金资助。

如果在各大开发社区搜索“论文复现”,可以发现这是很多AI研究者的困惑,这是一个难度很高、又缺乏绝对标准的领域。面对这种现状,启航计划精选当年全球TOP10的AI论文,进行复现。

“百度的老师几乎是手把手带着我们,从精读解读论文、研习算法模型再到动手复现。事实上,由于论文的原文中不会把每个细节都写到,无论是阅读还是复现的过程中,我们都会遇到各种各样的困难,常规的方法是在开发者社区发文咨询,但通常很难得到有价值的帮助。”一位论文复现营的参与者告诉笔者:“但是像现在这样,在这有组织而且互帮互助的氛围下去做,整个的研读科研过程变得非常有趣,也非常有参与感,我们成功复现出像GAN、视频理解等前沿模型,并且进一步又贡献给飞桨的开源社区,获得感非常强”。

除此之外,启航计划在顶会及算法类比赛方面,有视觉方向的CVPR 2021 NAS、图像图形学会轻量级OCR大赛以及总奖金池高达300万的“先导杯”计算应用大奖赛;自然语言理解方向,则有2021语言与智能技术竞赛等。

他们正在航渡大海。

本文目录: 一. 实时计算初期二. 实时数仓建设三. Lambda架构的实时数仓四. Kappa架构的实时数仓五. 流批结合的实时数仓实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有不少公司有实时计算的需求,但数据量不成规模,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:早期实时计算如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据源,后面进行清洗、过滤、扩维等操作,都要重复做一遍,唯一不同的是业务的代码......Next article READ