为阐述清楚基于AIGC的新生成主义,本文从四个方面论述:AIGC的内涵、AIGC的四大模块、AIGC与新生成主义、人工智能与未来数字科技的发展。
2022年11月30日,OpenAI发布了名为ChatGPT的超级AI对话模型,再次引爆了人们对于AIGC的讨论热潮。2023年3月14日,OpenAI公司正式公布了ChatGPT-4,再次引燃了我们对AIGC新一轮的广泛关注。
OpenAI公司开发的ChatGPT(Generative Pre-Training)是基于大型语言模型(Large Language Model,LLM)预训练的新型生成式人工智能。它可以清晰地理解用户的问题,还能流畅地回答用户问题,并完成一些复杂任务,包括脚本编写、文案撰写、翻译等任务。
为阐述清楚基于AIGC的新生成主义,我从四个方面继续论述:AIGC的内涵、AIGC的四大模块、AIGC与新生成主义、人工智能与未来数字科技的发展。
AIGC指AI Generated Content,即人工智能内容生成技术,目前该技术已在文字、音乐、图像、视频等领域得到应用,并在行业内诞生了不少专注于此的技术型公司。AIGC正在重构人们的办公、娱乐乃至生活方式。正如我们早先预计的那样,这场AIGC浪潮才刚刚开始。
在已有的内容生产方式中,由专业化团队主导的PGC(Professional-generatedcontent)与由用户生产内容的UGC(User-generatedcontent)分别受产能和质量所限,难以满足迅速增长的内容需求,亟须新的生产方式带来内容变革。未来,在智能生成内容的过程中,智能语音、智能创作、沉浸体验等将广泛应用于内容生产和内容推送,逐步实现智能创作、智能呈现与精准智能推送。
纵观内容生成的历史过程,我们见证了从PGC到UGC,再到AIGC的转变。当前,ChatGPT火爆全球,引爆了全球性的话题与广阔市场。ChatGPT作为AIGC的一种强大功能表现,是基于AI,并朝向AGI(Artificial General Intelligence)通用人工智能的。在未来,基础的人工智能模型将是跨模态的,这意味着相同的模型将被用于生成不同体裁的内容,包括但不限于文本、图像、视频、音频等等。
人工智能(Artificial Intelligence)作为一门用于模拟和扩展人的智能的理论、方法、技术及应用系统的新技术科学,在具体应用上,按照模态对AIGC进行划分最为常见,业内通常将其分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成。
(一)AIGC文本生成的方式大体分为两类:非交互式文本生成与交互式文本生成。非交互式文本生成的主要应用方向包括结构化写作(如标题生成)、非结构化写作(如营销文本)、辅助性写作。其中,辅助性写作主要包括相关内容推荐及润色帮助,通常不被认为是严格意义上的AIGC。交互式文本生成则多用于虚拟男/女友、心理咨询、文本交互游戏等涉及互动的场景,如ChatGPT。
(二)AIGC音频生成分为语音合成与歌曲生成,广泛应用于有声读物制作、语音播报、短视频配音、音乐合成等领域。在语音合成领城,可以运用文本转语音(Text to Speech,简称TTS)技术,推出真人声音重现版作品。在听书模块,用户也可选择自己喜欢的AI语音包进行播放,并且合成的语音节奏分明、情绪自然。AI歌曲生成领域,在OpenAI发布的最新项目MuseNet中,用户可以使用AI生成多达10种乐器演奏的歌曲,甚至还可以制作多达15种风格的音乐,模仿莫扎特等古典作曲家、Lady Gaga等当代艺术家,也可以模仿电子游戏音乐等类型。
(三)AIGC在图像生成方面有两种最成熟的落地使用场景:图像编辑工具与图像自主生成。图像编辑工具的功能包括去除水印、提高分辨率、特定滤镜等。图像自主生成其实就是近期兴起的AI绘画,包括创意图像生成(随机或按照特定属性生成画作)与功能性图像生成(生成logo、模特图、营销海报等)。
(四)AIGC在视频生成方面的常见传统应用场景还包括视频属性编辑、视频自动剪辑及视频部分编辑,能够高效节省人力和时间。2022年9月,Meta推出的Make-A-Video工具具有根据文本描述生成相应短视频的能力。谷歌也推出了主打高清生成的Imagenvideo和主打更长视频内容生成的Phenaki。2022年10月,AI重置版《幻觉东京》发布,通过AI逐帧完成图片生成,让我们看到了AIGC参与到视频创作中的可能性。
(一)新生成主义的概念
AI技术可根据功能价值被划分成分析式AI和生成式AI,新生成主义是指AI技术在利用电脑模拟和仿真方面,基于大数据、大模型、预训练、生成性而实现了从单一语言文本生成模态到音频、视频、图像多领域、多模态的生成突破,进而可能促进更深程度、更广范围的社会思维方式、生产方式、生活方式以及社会方式的革命性变革。与传统的AI方法相比,新生成主义更注重构建具有普适性的智能系统,这些系统可以适应不同的环境和任务,而不需要进行特定的编程或培训。新生成主义在AI领域中具有广泛的应用前景。
(二)新生成主义的特点
1.超大数据:单位基本都是数以亿计,各种海量的内容数据、行为数据、生产数据等;
2.算力强大:当前的参数量和语料库都呈现指数级扩容,必须要更大算力来支撑,而且算力也是支撑数字经济发展的“基石”;
3.预训练:这种模型是一个通过大数据进行训练并被保存下来的网络。可以将其理解为前人为了解决类似问题所创造出来的一个模型,当遇到新的问题时不再需要从零开始训练新模型,而可以直接用这个模型入手,进行简单的学习便可解决新问题;
4.大模型:这是AI迈向通用智能的里程碑技术,兼具“大规模”和“预训练”两种属性。面向实际任务建模前需在海量通用数据上进行预训练,能大幅提升AI的泛化性、通用性、实用性;
5.交互性:指通过对话、交互体现出来的智能行为,通常智能系统通过与用户或环境进行交互,并在交互中实现学习与建模;
6.通用性:这里要特别强调一下,新生成主义中的通用性指机器具有认知并执行通用智能行为的能力,可以使人类开启一个新的创造力时代。
(三)新生成主义的内容
1.新的内容生成方式:数字内容迈入强需求、视频化、拼创意的螺旋式升级周期,新生成主义迎合了这一需求,正以这种新的内容生成方式,为未来互联网的内容生成基础设施;
2.新的人机融合方式:人机共融的重要特征即通过人机交互、人机交流、人机一体的新一代人机共融方式,标志着人类进入新的时代;
3.新的生存方式:新生成主义将更深刻促进人的数字化生存,使人类真正迈入数字化生存模式,成为后人类文明进化的关键所在;
4.新硬件主义:新型电脑、新型手机、新型手环等新型穿戴设备将生成新的平台与新的入口,构建新的场景,新生成主义一定要借助这样的平台才能发挥作用;
5.新的产业体系与商业模式:未来,资讯、影视、医疗、教育、电商以及金融等行业将成为通用人工智能率先发力的领域,并逐步开始对传统产业体系的智能化解构,并重塑全新的商业模式;
6.新的社会形象塑造和家族传承:借助虚拟数字人、分身等,把家族和个人的思想理念通过新的平台形成家族传承,从而构筑新的社会形象;
7.新的监管和挑战:新生成主义将给法律、社会和监管带来挑战,比如难以避免的侵权或隐私等信息泄露问题,国家监管也难免缺乏专业性和滞后性,数字化带来便利的同时也带来了新的问题。
随着AI生成内容(AIGC)爆发式的发展,数字技术将逐步进入快车道,生产力将进一步被解放,垂直领域快速落地,爆款产品不断推出,将助推形成更广阔的应用场景、更丰富的商业化模式,以及更大的市场价值。
(一)人工智能如何理解人类意图
人们都很关注AI如何能有自己的思想感情,虽然眼下的ChatGPT参数量很大,语言库也很丰富,但还是没有心理分析和心智理论。最近的一些研究成果有证据表明,ChatGPT背后的AI能理解别人的观点,说明有社交能力的机器不是白日梦。更重要的是,这可能是朝着更宏伟的目标迈出的一步——拥有自我意识的人工智能。人工智能想做到这一点需要改变强化学习的传统机器学习技术。一种流行的逆强化学习方式依靠的是被称为贝叶斯推理的统计技术:在分析新数据的同时,一方面考虑到之前的知识,同时还要结合深度学习并构建知识库。向机器灌输心智理论不仅仅是为了制造更多有用的机器人,这也是在为实现人工智能和机器人研究的更深层次目标铺路,这个目标就是——制造真正有感情的机器。
(二)“机器人生产机器人”的现象与后果
近日,ChatGPT之父Sam Altman在社交媒体称,一个全新的摩尔定律可能很快就会出现,即宇宙中的智能数量每18个月翻一番。在未来的五年里,会思考的电脑程序将会阅读法律文件并给出建议。在接下来的十年里,他们将在流水线上工作,甚至可能成为基辛格博士称之为的人类新物种。在那之后的几十年里,他们几乎会做任何事情,包括做出新的科学发现,这场革命将创造惊人的财富。一旦足够强大的人工智能加入劳动力市场,许多种类的劳动力(驱动商品和服务成本)的价格将降至零。世界将发生迅速且剧烈的变化,同时需要新的政策来分配这些财富,进而促使整个社会的变革。它们要是再具有意识思维等那就会对人类社会造成很大的冲击,甚至是风险,这个值得我们深切关注和研究,这些又以全新的摩尔定律为基础;
(三)未来值得关注的十大数字科技前沿应用趋势
数字科技在未来有十大趋势:云原生加速IT体系迈进全云时代;量子计算NISQ时期仍将持续;人工智能迈向普适化和工业化新阶段;云网融合构建“连接升维”;疫后新需求按下云原生安全发展快进键;多路径并行演进推动万物孪生;硬件迭代驱动扩展现实(XR)产业拐点到来;多模态融合驱动复杂任务服务机器人深入家庭生活;双碳目标倒逼能源互联网加快发展;星地协同智能化开启“大航天”时代。这十大趋势将带领我们从大航海时代走向大航天时代,将要求我们不仅要关注现实世界,更要关注外太空和虚拟世界。
(四)国内外大厂争相布局数字科技
新硬件与通用人工智能将构成未来元宇宙发展的核心要素,将成为世界科技巨头500强竞争的下半场。谷歌将透过智能眼镜的AR,强化和丰富其现有的地图、搜索等业务。微软将更多结合其MR头显和云服务,以服务B端用户。百度将进一步完善“文心一言”大模型,使其具备跨模态、跨语言的深度语义理解与生成能力,并通过将搭载在百度智能云上赋能各行各业,或成为国内大语言模型落地的新范式。字节跳动正在建立起自己的设备、商店及内容生态系统。腾讯也在积极地研发更加“全真”的技术,用到其游戏及视频业务中,也会探索用于更多与实体结合的领域。
(一)未来我们将迎来数字化智能时代、大航天时代与元宇宙时代。这也预示着我们将生活在一个由现实世界、外太空世界与虚拟世界相互关联、交相辉映、相互穿越的平行世界。
(二)随着AI技术的完善推广,GPT有可能形成突变性的发展,比如GPT4的功能改进,并带领连锁反应,从而形成一种新的变量。通用人工智能平台AGI将极速推进人工智能或整个数字科技的跳跃性发展,新生成式AI将步入产品化的快车道,新硬件进一步丰富多样,将会形成包括GPT、新型手机、新型手环、新型眼镜等各式各样新型穿戴设备的多入口、多平台的新生成格局,将快速促进新生成主义时代的到来。
(三)在数字科技大爆发的时代下,新生成式AI带来的改变是前所未有的、爆发式的,将彻底改变内容生成模式,以及人类可能的思维方式、生产方式、生活方式以及社会方式。AIGC的快速发展将加速元宇宙时代的到来,生成式AI与元宇宙将是我们未来的消费平台。
(四)在我们享受更多数字化、数智化便捷的同时,我们不得不面对数字科技与人工智能对我们人类生产生活方式的挑战与风险。随着AI与数字科技的突飞猛进,我们要注意AI与数字科技的伦理问题,要加强诸如知识产权保护、个人隐私、元宇宙社会规则的建立与治理,要共同构建一个和谐、健康、充满生机与想象力的平行世界。
作者:乔卫兵
(本文原载于:独角兽DIGITALIZATION)
来源:
发表评论前,请先[点此登录]