为了展示文学本的多维性文学文本分析试图

Bappy11 · Post by **Bappy11** » Sat Feb 08, 2025 10:15 am

数字文学研究项目大多是正在扩展到人们经常强调的“几乎无限”的万维网存储空间的版本。除了对代表性作品进行独家、精心制作的数字版批判性出版[7] 外，现在还大规模地对整个图书馆进行数字化，以保存有价值的旧藏书，或者向公众开放大型文献库。[8] 动机、组织、技术实施和使用概念可能有很大差异。[9]重要的语料库已经并由国家机构委托和管理；[10]此外，还有志愿者[11]或公司进行的数字文本捕获。谷歌在众多大学图书馆的支持下建立了庞大且部分可免费访问的数据库。[12]大量文本的数据保存和归档以及文本段落的更容易获取、可搜索和更佳可查找性是在该领域应用数字化方法的优势。

尽管半个多世纪以前人们就已尝试过多种方法，[13]但与在计算语言学中取得巨大进步的统计语言分析相比，文学研究迄今为止仍不太愿意将信息技术应用于文本分析，更不用说将“计算机文学研究”制度化了。[14]就数字版而言，其锚定在传统文本语言学分支学科中是显而易见的。在这里，数字技术不仅可以支持和简化那些以前必须费力手工完成的流程。它还可以帮助开发用于捕获、表示和分析文本结构复杂性的新格式。因此，数字人文领域的相关项目得到存在、支持和认可。[15]

我们该如何进行呢？本文提出了一种将数字文本捕获与基于语料库的分析方法更紧密地结合起来的方法。我将主要关注万维网提供的可能性。互联网是获取知识的潜在媒介：首先，它是一个巨大的、可广泛访问的数据存储设施；其次，链接文档的能力提供了以新的方式显示文本参考结构的可能性。通过数据联网，它可以在多维空间中表示德里达所关注的“从一个[文本]踪迹到另一个[文本]踪迹的差异引用” [16]，从而为文学分析提供了深远的可能性，可以被文学研究以外的其他学科有效地利用。

2. 万维网作为数字文学分析的可能性空间
万维网（网络）的数字数据空间创建于 25 年前，并一直在不断扩展[17]，它具有以下特点：

无限容量，可长期存储数据；
空间和时间上数据的可用性不受限制；原则上，从技术上来说，可以从世界任何地方随时访问任何文档；
大量数据的免费访问（开放存取），且趋势日益增加。
网络不是一个静态的档案馆，而是一个不断重组的虚拟存储空间。执行的操作导致

万维网通过不断扩展或修改已有数据而不断发展；任何人都可以输入数据，或者在可访问的情况下修改现有数据；
生成可单独评估的元数据；
通过将数据相互链接起来形成网络结构。
一方面，万维网具有根本的开放性和无与伦比的容量，另一方面，与之相关的操作也不断发展变化着，呈现出多样性和多变性，这些都表明，我们应该考虑万维网中的数据是否以及在多大程度上为文学分析创造了一个新的可能性空间，在这个空间里，文学文本的多维网络可以以不同于以前的方式得到展示、表示和研究。在互联网上可视化与文学研究相关的数据的方法已经过部分测试，并且正在得到进一步开发。[18]然而，对与万维网相关的文学文本进行科学分析的可能性的评估仍有待完成。下面，我将概述已经测试过的方法以及可预见的基于数字文本处理的网络文学科学的前景，我的考虑重点是数据链接。

3. 互联网上的文本
在互联网上使用信息技术生成和管理的数据中，只有极小一部分来自自然语言文本。与狭义的文学研究相关

数字副本，即最初以其他格式出版且仍然存在的（文学）文本，但现在也可以在互联网上获取（DTA、Gutenberg、Google Books 等）；并非所有这些数字副本都可以被机器读取；其中许多都是文本扫描件；
数字文学，即最初以数字形式撰写并发布在网络上的（文学）文本；范围从网络日志到在线文学（杂志）再到超小说等高度链接的形式；[19]
包含与文学研究相关信息的文本和其他数据（图像、声音文件等）；传统资源如字典、传记词典、书目、百科全书和其他参考书正日益被维基百科等互联网数据库所取代。
互联网上可供从文学角度评价的文本数量正在迅速增加。那些由于难以获取而迄今为止很少受到科学关注的文本，例如非经典文本、“小语种”文献、遥远的、绝版的或被遗忘的版本的文本等，正变得越来越容易获取，应该被纳入相关研究。这给语言学家带来了巨大的压力，他们必须注意文本基础研究的起点的变化，并相应地调整他们的方法论。

旨在对某个时代、某种流派或某种语言的文学（标准示例：“19 世纪的英国小说”）做出一般性陈述的研究不再局限于已知或经典的文本，而可以在大型语料库中测试先前的发现并进一步区分它们。尽管互联网上可用的文本越来越多，但可用的数据仍然不能代表文学研究中要考察的全部文献范围。获取途径仍然受到限制，特别是受版权保护的作品，以及 20 世纪和 21 世纪的大部分文学作品。因此，数字文学分析大多基于 1900 年之前出版的文本。

然而，当代文学研究不能忽视当代文本的网络存在。这既适用于像埃尔弗里德·耶利内克这样的作家，他们主要在互联网上发表作品[20] ，也适用于利用数字技术开发的文本格式，这些文本格式根本无法以印刷形式呈现，或不再能以适合类型的方式呈现，比如超小说或Twitterature。[21]正如数字化文本一样，它们需要新的文学评价方法。

4. 网络结构与文本结构
当数字化文本（即转换成机器可读格式的文本）“上线”时，它们可以链接到其他数据。正是这种连接使得万维网的网络结构成为可能。

值得注意的是，网络的结构和网络的处理与（文学）文本的结构和处理有相似之处，即网络具有许多结构相关的属性，可以与自然语言编写的文本进行比较。

聪明的读者会不断地将自己所读的内容与自己的知识和经验（包括以前的阅读内容）联系起来；这样他才能理解文本的含义。[22]在阅读的过程中，他不断地将自己在头脑中读到的内容与先前知识中的各个元素“联网”：他将文本链接成一个网络，而他吸收的每一个新信息都会改变网络的格局。[23]这种网络是虚拟的，或者（按照本尼迪克特·安德森的定义）是虚构的，[24]因为它包含了大量的信息，这些信息可以被很多人同时共享或访问。然而，对于每个人来说，只有特定的、独特的部分才会被记录下来。万维网的情况类似。

我们通常将万维网理解为大量数字数据的集合，这些数据以不同的密度相互连接，并可在世界各地访问。万维网上管理的数据与我们所感知的“世界”之间的关系至少有两种结构：

符号/象征：在网络中，指向外部事物的信息被转化为数据并进行管理；转化为地缘政治空间数据的信息的“非本地化”与其在全球可访问的网络环境（URI）中的新位置相对应；信息的“解读”需要分配到符号/符号代码有效且能产生意义的系统；
操作性：数据通过自然或人工智能操作产生和管理；原则上，技术上每个用户都可以执行这些操作。
文本也可以理解为以自然语言表示的广泛相互关联的信息的积累，这些信息可以被捕获为数据。在这里，“世界指称”也是符号学/象征性的；读者负责从可用的数据中解读信息，还必须执行一系列操作，将文本的字符转化为含义（见第 7 节）。

在这种情况下，对于网络和文本来说，参考或链接系统至关重要：（自然）语言和在其中制定的文本只有在引用某种语言以外的事物（即它们以符号形式表示它）时才能产生和传达意义，并且只有在它们能够操作地链接到其他语言语句或文本并在虚构网络中变得可识别时才能产生和传达意义。文本是语言传播网络中的授权节点。它们通过语言引用公认的符号和价值体系来产生意义。这种意义从来不是单方面的；链接必须能够被读者在文本的多个层面上更新和跟踪。

文学研究旨在理解文学文本中高度详尽的连接结构。这意味着，它要证明文学文本在与其他文本和系统的多样化联系中创造的多维性，并将其作为一种质量特征来区分。

这就引发了一个问题：互联网上数字化文本的可用性在多大程度上可以用来展示、表示和分析其多维性，即万维网在多大程度上不仅可以作为数据存储设施，还可以作为文学科学知识的媒介。

5.文学文本分析

从结构上理解文本，即确定文本的属性及其相互关系，对文本进行分类，并根亚美尼亚电报数据据这些属性对文本进行分类；
从解释学的角度理解文本，即根据所选择的语言表达形式确定“文字的多重含义”、内容和陈述的含义；
在上下文中定位文本，即关联并评估其属性与语言和文化所确定的秩序（系统）及其历史发展。
因此，文学分析包括：（i）对文本的选定属性进行分离、描述和分类，以及（ii）将这些特征差异化地分配给意义承载系统。联想（链接）对于理解文本至关重要；只有（正确）识别了参考值才可以做到这一点。文学文本的多维性——这是其吸引力的一部分——也意味着多种分类的可能性。在分析中必须考虑到这种可能的多样性。因此，它的目的是捕捉我称之为文本的“参考概况”的复杂内容。[25]

6.数字化文本的文学分析
利用信息技术的支持处理文学文本，是指将文学方法部分地转移到计算机程序中，以期通过计算机程序的支持，促进或提高特定学科工作目标的实现。这尤其适用于或多或少机械化、系统化的过程，例如固定单元的计数和分类，通过使用程序可以实现更高的完整性和更低的错误率。数字版本就是一个很好的例子，它显著改善了文本的记录和存储以及呈现和访问选项，尤其是对于作品的版本。

对于计算机辅助文学文本分析，学术读者执行的分析过程被分解为单独的步骤，其中一些可以由计算机程序执行。目前，主要重点是让程序阅读文本并搜索特定的单词或文本段落。第二步是开发能够识别和注释文本内和文本之间链接的程序。

6.1 准备基于机器的搜索查询
为了使文本能够被计算机程序搜索，必须将其转换为机器可以分析的文本格式。