来源: 时间:2022-07-11 20:35:03
微软的研究人员正在开发一种启用人工智能 (AI) 的 “绘图机器人”,该机器人可以根据对象的文本描述创建图像。微软在一篇博客文章中说,这项技术可以生成从放牧牲畜等普通田园场景到荒诞场景 (如漂浮的双层公共汽车) 的所有图像。
它说,每张图像都包含文本描述中缺少的细节,这表明这种人工智能包含人工想象力。该公司表示,微软研究实验室正在开发的技术被编程为在从类似字幕的文本描述生成图像时密切注意个人单词。
根据发布在arXiv.org上的一篇研究论文中报告的行业标准测试结果,与以前用于文本到图像生成的先进技术相比,这种故意的焦点使图像质量提高了近三倍。“如果你去必应搜索一只鸟,你会得到一张鸟的照片。但是在这里,图片是由计算机从零开始逐像素创建的。”微软华盛顿研究实验室的首席研究员何晓东说。
他和同事从自动编写照片字幕的技术开始-字幕机器人-然后转移到回答人类询问图像的问题的技术,例如对象的位置或属性,这对盲人特别有帮助。“现在我们想用文本来生成图像,” 何先生小组的博士后研究员黄秋原说。
研究人员说,文本到图像生成技术可以找到实际应用,作为画家和室内设计师的素描助手,或作为语音激活照片细化的工具。微软绘图机器人的核心是一种被称为生成对抗网络 (GAN) 的技术。该网络由两种机器学习模型组成,一种通过文本描述生成图像,另一种称为鉴别器,它使用文本描述来判断生成图像的真实性。
相关推荐
猜你喜欢