李开复先生的一次“口误”引发了人们敏感的神经:在遍地都是刷脸应用的今天,我如何保护我的人脸隐私?
9月12日,李开复一个创业者峰会上谈到早期帮助AI公司旷视科技从合作伙伴“美团、蚂蚁金服”等合作伙伴“拿到了大量的人脸数据”,随后蚂蚁金服澄清“蚂蚁集团从未提供任何人脸数据给旷视科技”,合作仅限于“旷视科技授权其图像识别算法能力给蚂蚁单独部署和使用”,虽在9月12日晚上李开复先生致歉,并表示自己“理解数据一直存在合作方客户服务器中,不涉及任何数据的共享与传输。”
短暂几个会合,基本事实已经浮出水面,其实对于蚂蚁金服这样的拥有数据的公司基本不大可能给算法公司直接提供数据,无论是算法训练还是实际业务应用,基本都会部署在自己的系统中。
那么,AI科技公司在研发过程中显然还是需要大量的人脸数据进行产品的研发和测试,那么这些人脸数据一般来自哪里呢?一般来说有这么几种模式:
第一种模式,利用互联网公开的人脸数据库进行研发测试。
目前在互联网上,有为数不少的覆盖多种目的的免费人脸数据库。
下图只是部分免费数据库的举例,在这方面的资源还有很多,大多是大学研究机构或者政府组织提供的。开发者或者初创企业开始使用这些数据库进行研发测试。
第二种模式:与拥有数据的公司进行合作。
政府、银行、大型互联网公司或者科技公司,一般都拥有高价值、海量的数据资源。这些公司一般都拥有严格的数据安全政策,无论是从数据安全隐私保护角度还是从商业利益角度,这些数据公司都不会把数据直接交给AI公司。
对于AI公司来说,选择与这类数据公司合作,提供算法和模型,在这些数据公司的机房里运行和测试系统,一般称之为沙箱模式,数据公司通过提供脱敏的数据到沙箱里,AI公司在沙箱运行自己的系统进行研发,成熟之后部署到数据公司的系统中。AI公司获得研发的经验、沉淀AI技术,但是不会得到数据。
第三种模式AI公司自己建立人脸数据库。
建立自己的人脸数据库一般需要耗费一定的成本,因为人脸数据库的建立需要覆盖各种各种的场景以满足不同的研发功能的需求,只有拥有了一定的资本的公司才会在早期建立自己的人脸数据库。不过随着AI公司的成长,也会逐渐积累起自己的人脸数据库,用户持续的产品研发。
第四种模式AI公司从客户处获得人脸数据。
很多AI产品具有高度的定制性,以满足大客户的在特殊场景的应用要求。在这种情况下,AI公司一般会在客户的支持下获得人脸的数据,建立服务于该客户的特定数据库,用于满足定制产品开发测试需求。
以上是AI公司在产品研发过程中人脸数据的来源的四种只要模式。今天人脸应用已经高度普及,与我们的生活息息相关,国家已经陆续出台数据安全保护的相关法律法规,完善我们的数据隐私保护制度环境,不过当前我们需要对公众提供一定的透明度,对人脸等隐私数据的使用提供可朔源不可修改的管理,才能消除公众的疑虑。
在教学、研究、知识转移等的方面对一个学校进行一个考量,那么正是因为这样严苛的标准,于是才会有了全世界那么多的高等的学校。同样也正是因为有了这样的一些高等教育的学校,于是才出现了那么多的会研究懂得为国家创造价值的一些领军人物的出现。