:华为高管回应芯片遭打压 【“没有人能够熄灭满天星光”,在芯片“断供”日逼近时探访华为】随着美国对华为的打压持续升级,一些略带悲壮、但更多是激昂的元素在华为的发布活动中渐渐多了起来。10日,华为开发者大会2020的主题演讲环节中,华为消费者业务CEO余承东的一句“没有人能够熄灭满天星光,每一位开发者,都是华为要汇聚的星星之火”在朋友圈中刷屏。也许不是巧合,本次华为开发者大会开幕的时间点恰恰临近美国对华为芯片实施“断供”的9月15日,华为最新的一系列发布所透露出的信息显得意味深长。 开发者大会没谈&l...... Last article READ

医学数据集训练算法期间面临的问题及解决方案

在医学数据集的训练算法期间面临的许多问题中,以下三个是最常见:类别不均衡多任务数据集大小对于这些问题,本文将分享一些解决的方法。类别不均衡挑战在现实世界中,我们看到的健康人远远比患病的人要多得多,这也反映了在医学数据集中,健康和患病类别的样本数量是不平均。在医疗数据集和信用卡欺诈数据集中,你可能会看到正样本的数量是负样本的一百倍。所以模型训练的结果往往被误认为是表现出色的,然而实际上却并非如此。如果使用accuracy_score准确度这样的简单度量,就会发生这种情况。准确度对于这类数据集来说不是一个很好的度量标准,因为标签严重倾斜,所以一个只输出正常标签的神经网络的准确率甚至还能略高于90%。

解决方案:终上所述,我们可以定义更有用的指标,例如F1度量或"精确度/召回率"。精确度定义为"真正例个数/(真正例个数+假正例个数)",在假正例很多的情况下,这是一个很好的度量;另一方面,召回率定义为"真正例个数/(真正例个数+假反例个数)",在假反例本很多的情况下,这是一个很好的度量。医疗领域的大多数模型是这种情况,但是我们也经常需要同时考虑假正例个数和假反例个数,这就是F1度量的功能,它在精确度(Precision)和召回率(Recall)之间取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))给出。处理类不均衡的另一种流行技术是"重采样",这是从多数类(样本过多的那一类)中删除样本(称为欠采样)或在少数类中添加样本(称为过采样)来在这两个类之间取得均衡的行为。尽管它们可以通过使用复杂的重采样技术来解决,但它们具有自己的缺点,如信息丢失和过拟合。多任务挑战在现实世界中,通常仅预测健康或患病是不够的,我们经常需要将医疗数据分为多个类别或标签,例如,仅从心律中检测出心律失常并没有什么市场,对患者进行分析判断得到哪种心律失常更有价值,例如病状可能是房颤,室上性心动过速或任何其他类型。从理论上讲,可以为需要分类的每个标签训练单独的神经网络模型,但是这对于写代码来说是非常不切实际的,如果我们可以将所有这些分类模型组合到一个返回多个预测的单个深度神经网络中,就比较有价值。

解决方案:我们可以使用一种称为"多类别分类"或"多标签分类"的方法来应对这一挑战。这两种方法略有不同,在多类别中,数据样本的类别是互斥的,而在多标签中,数据样本可以属于多个类别。在医学领域,我们通常使用多标签分类,因为如果患者被诊断为肺不张(肺的膨胀不全),则并不意味着他/她就不会有心脏肥大。我们将模型最后一层的分数再传递给Sigmoid激活函数,这会把最后一层的每个分数转换为0到1之间的值,而与其他分数无关。对于多标签分类,我们选择的损失函数变为binary_crossentropy,其中由于我们使用了Sigmoid激活函数,因此每个标签都被视为独立的伯努利分布。在需要多类的情况下,可以用损失函数设置为categorical_crossentropy的softmax激活函数来替换Sigmoid激活函数。数据集大小挑战另外一个处理医学数据集的挑战为数据集的大小。大型训练数据集除了具有良好的体系结构外,还对模型的性能起着重要的作用,但可用于疾病的患者数据数量往往不够。低数据集大小会导致高偏差和高方差,这些原因导致模型的推广和优化困难。

解决方案:为了解决模型优化的困难,我们可以使用一种称为"迁移学习"的方法,其中我们使用从相关网络较低层中学习来训练较高层,而无需它们从头开始学习。由于先前的训练,较低的图层可以用作良好的特征提取器,因此我们可以根据数据集对其进行微调,该技术优化速度更快,并减少了训练新模型所需的数据量。为了解决模型泛化的困难,我们可以使用一种称为"数据增强"的技术,将数据提供给模型之前,可以对样本进行一些随机转换,这样我们可以使模型对于大小或亮度等微小变化保持不变。诸如水平或垂直翻转图像,更改图像的亮度或对比度,将图像旋转或缩放到一定程度之类的做法都有助于数据扩充。此技术在小型数据集中避免过度拟合非常有用。

☆ END ☆

腾讯云智能制造首次披露三大战略布局9月10日在腾讯全球数字生态大会上,腾讯云智能制造首次披露三大战略布局,一是助力区域产业数字化,打造工业互联网平台,为地方中小企业提供最后一公里的数字化能力;二是提供企业数字化转型的产品方案;三是推出大数据与AI的工业场景创新方案。同时发布“511”生态计划,未来将聚焦工业制造研、产、供、销、服5大环节,携手100家合作伙伴,打造1000个行业解决方案。华为与中国电力建设集团签署战略合作协议根据协议,双方将在新型基础设施建设、智慧工地、智慧水务、智慧水利、智慧新能源、未来社区及智慧园区等领域进行全面合作,以共同推动工程技术与数字化技术的融合发展。重庆移动正式发......Next article READ