目前,有多种注释和分类工具可用于大规模管理 NLP 训练数据。然而,手动标记的黄金标准注释仍然是先决条件,尽管 ML 模型的自动标记能力越来越强,但在无法以高置信度自动标记数据的情况下,人工注释变得必不可少。
处理大型或多个文档是 NLP 模型面临的另一个重大挑战。大多数 NLP 研究都是关于在小型文本任务上对模型进行基准测试,即使是最先进的模型也会限制输入文本中允许的单词数量。第二个问题是监督稀缺且成本高昂。因此,扩展 NLP 以从大量中长非结构化文档中提取上下文仍然是一项技术挑战。
当前的 NLP 模型大多基于无法表示较长上下文的循环神经网络 (RNN)。然而,随着图结构可能成为 NLP 数据的最佳表示,人们对图启发式 RNN 的关 贝宁手机数据 注度不断提高。深度学习、图和 NLP交叉领域的研究正在推动图神经网络 (GNN) 的发展。如今,GNN 已成功应用于各种 NLP 任务,从句子分类、语义角色标记和关系提取等分类任务,到机器翻译、问题生成和摘要等生成任务。
开发时间和资源
正如我们在上一篇关于NLP 语言挑战的文章中提到的那样,像 AlphaGo 这样的人工智能程序已经快速进化,能够以更少的预定义知识掌握更多种类的游戏。但 NLP 开发周期尚未看到这种速度和程度的进化。
这是因为人类语言本身就很复杂,因为它通过从一组有限的构建块中生成无限数量的可能性,实现了“有限手段的无限使用”。每种语言的普遍语法形式都是数千年来交流需求和进化过程的结果。因此,NLP 开发是一个复杂且耗时的过程,需要评估数十亿个数据点才能从头开始充分训练 AI。
与此同时,大型语言模型的复杂性每两个月翻一番。像 GPT-3 这样强大的语言模型包含 1750 亿个参数,需要 314 zettaflops(1021 次浮点运算)进行训练。据估计,训练全球最大、最强大的生成语言模型(包含5300 亿个参数)需要花费近 1 亿美元的深度学习 (DL) 基础设施。2021 年,谷歌开源了一个1.6 万亿个参数的模型,预计 GPT-4 的参数数量约为 100 万亿。因此,语言建模在经济上和概念上都变得非常复杂,但很快又变得极具挑战性。