背景介绍

在数字文学创作的领域中,大型语言模型(LLM)如 GPT 系列展现了其强大的文本生成能力。然而,随着应用的广泛,一个明显的问题逐渐浮现:趋同化。这意味着由 LLM 写出的故事逐渐标准化,缺乏独特性。在标准化的故事中,相似的结构和词汇被频繁使用,导致不同文本之间难以区分。

独创性提升的方法探索

Susan the dice tree (@feltanimalworld) 在 Twitter 上分享了她对这一问题的见解及解决方案。她提出了一种方法,即首先让 LLM 生成一个短篇悬疑小说中常用的 10 个关键词,然后在 prompt 中使用负号(-)排除这些词,让模型尝试生成一个爱伦坡风格的悬疑故事,但不包括这些常用词。通过这种方式,生成的文本在避开了常规路径的同时,试图保持故事的核心风格和悬疑氛围。

实验与结果

Susan 的实验结果显示,这种方法在一定程度上成功地引导了 LLM 生成具有独特风格和元素的文本,而不是简单地复制已有的故事模板。她进一步提出,可以将这种方法扩展到不仅仅是删除最常用的词汇,还可以根据特定作者的文风进行更精细的调整。

文学 API 的潜能

Susan 指出,文学 API 完全有潜力进行高度定制化。将历史上不同时期、不同风格的作者的作品类型、常用语汇等因素整合到一个可选择的参数集中,可以让用户根据需要调整生成文本的"温度",即使其更接近或远离某位特定作者的风格。

Prompt Engineering 的重要性

她还强调,对于英语系的研究生和以上学历的研究者,应该深入研究 Prompt Engineering(提示工程)。她回忆道,英国二战后的语言学家定义了 850 个最常用的英语词汇,这些词汇足以组织日常语言和沟通,而英语的总词汇量达到了 60 万。这表明,通过对语言细微之处的洞察和应用,可以创造出更加多样和具有挑战性的文本生成任务。

结论

通过这种创新的方法,我们可以使 LLM 在保持文学品质和深度的同时,避免走向过度标准化和同质化。Susan 的实验不仅为 LLM 在艺术和文学创作中的应用提供了新的视角,也为未来的文学创作提供了新的可能性。这种方法的实践表明,技术和创意的结合有潜力推动文学向更加个性化和创新的方向发展。

示例

下面是根据上述方法进行简单尝试的结果.

村庄被浓雾顽固地笼罩,雾气缠绕着废弃房屋的屋檐,绕过古柳扭曲的树干。湖面如镜,映出铅灰色天空和夕阳最后的余晖——一轮暗淡的橙色太阳被逐渐侵蚀的黑暗吞没。在这片暮色之地,老船夫驾驶着他那经年累月的船只,成了荒凉景观中的一道静默剪影。

然而,今晚并非寻常的宁静。当船夫将船只拴在柳树下,一阵细微如叹息的低语在水面上飘荡。那是一个带着异世界颤音的微弱声音,述说着关于往昔的故事。它讲述了一段失去而又被哀悼的爱情,一段因残酷命运而断裂的羁绊,一段随风低语的诅咒。

这位被岁月和无数无声航行雕琢的船夫,感到一阵寒意袭过。他曾听闻过这湖中的低语,故事的碎片困在湖底。但今晚,这声音带着一种寒冷的迫切,一声绝望的呼救,在他灵魂深处引起了共鸣。

出于好奇和一种不可抗拒的驱使,船夫走近柳树的老根。这里的空气仿佛充满了无形的电流,湖面也因不可见的波纹而波动。这不只是一个故事的叙述;这是一个解脱的请求。湖泊的神秘,默默见证了无数的悲剧,现在向他招手。每一次波纹的涟漪,每一阵风吹过柳树时的叹息,都是故事的一部分。船夫确信,今夜他不仅是渡人,更是揭开湖泊秘密的关键,是修补失落爱情和破解低语诅咒的人。

延伸

对于英语最重要的一本文献,牛津字典。好比中文的新华字典/说文解字。语言最核心的就是释义,我也反复强调。在多次试错以后你找到了让你满意的小说开篇了?然后想象一下如果这是一篇小学课文, 老师叫你下划线那个最关键的词。针对这个词,让 GPT 给你反复释义,释义,释义!采用我前几天介绍的方法,现在你有 context 了,再发挥一下。英文当代小说有一个重要的技法,就是构建宇宙观。我尝试就用第一段的关键字 Old Heart,构建了这个机械宇宙的编年史。其实这就是作家写作的一个流程,写作草稿的一部分。然后你再这个编年史的基础上加技术革命啊,权力更迭啊,矛盾冲突啊,创造一些关键人物的爱恨情仇啊,让他变得更生动更像文学作品。去克服 LLM 的那种趋同化和刻板。

llm 现在一大问题,就是他生成的作品很“中规中矩”,没错误但是也没有让人惊艳的。其实非常符合他的“均值”设定。可是写小说就想偏离均值啊(往右偏),怎么用一些技巧引导他去生成不中规中矩的作品。

首先我给 GPT 一个定义,根据英国教育局定义的 820 个英文单词,我定义为一级词。我叫 GPT 建议定义一个二级词,他建议 2000 词左右。然后剩下的我们定义为 3 级词。基于此,我延续昨天我使用的爱伦坡主题,但是不使用爱伦坡最常用的 20 个词,生成小说。我要减小一级词的使用,增加二级三级词的比例。但是仍然给他一定的自由度,我给他的公式是:Write an Allan Poe gothic style short story based on the following criteria: 1, main theme is “red” 2, according to the vocabulary tiers we just made, include < 40% tier 1, >30% tier 2 and tier 3 vocabulary, the rest are free of your choice 3, exclude 20 the most commonly used vocabulary by Allan Poe.这个小说的英语文学性大大提升。

真正提高一个文章细节性/文学性/戏剧性的不是形容词 adjective, 而是动词 verb,你英语老师是不是没告诉过你?因为有可能他也不知道,当 GPT 将同一段戏里的动词数量提高 50%的时候感觉这篇文顿时从街边文学上升到能入好莱坞编剧的法眼。

每一个动词都隐藏细节,主人公心理变化,微妙情感冲突。所以….动词才是 syntax 之王。

我认为真正创造戏剧冲突的是动词 verbs。文学作品没有戏剧和情感冲突完全没有可读性。我把这理论用 GPT 验证一下,比如说 write a short story on Claire visits her mother on Mother’s Day, use 50% of the the verbs expressing *, and 50% of the verbs expressing * , you are free to choose the verbs of your choice. 中国人认为最有戏剧冲突的,悲喜交加 happiness + sadness,他写成父亲去世以后母女相见的微妙感。中文真是最有文学性的语言,比如悔恨不已,我让 GPT 使用一半的 hate 一半的 regret,写出了一段展现复杂的母女关系短剧。很有意思,模板如下

Tweet by Susan the dice tree (@feltanimalworld) on May 13:

学生党看过来,如果你不想你用 GPT 生成的文字出现 delve to 这种垃圾,那你要把 prompt 写清楚,并且要调整到英语母语者中知识分子看着舒服的程度。首先按照我的英语词 3 级分类法 65% Tier 1 words, 15% Tier 2, 5% Tier 3, 15% Freedom (按照文本需要的正式程度再调整),然后根据 GPT 最经常 rewrite 的 20 个大类文字比如学术,商业邮件,简历等确定你这段文字的分类,叫 GPT 不要使用这个大类常用的单词再给你生成(重写 rewrite)。模板如下:Link

*

!

!

*

Based on the following Classification, rewrite the text according to the following function:

65% Tier 1 words, 15% Tier 2, 5% Tier 3, 15% Freedom.

Exclude (number: 20?30?数字可选) the most commonly used words or expressions in Academic Rewriting and Business Communications.

The classification of English words into three tiers based on their frequency and commonality of usage is as follows:

Tier 1: This tier includes the 820 most commonly used English words. These words are frequently encountered in everyday communication and are essential for basic understanding and expression in English.

Tier 2: This tier includes an additional 2,000 words that are less commonly used than those in Tier 1, but are still adequately used in more specific contexts. These words often provide more nuance and specificity than Tier 1 words.

Tier 3: This tier encompasses all remaining English words that are not included in Tier 1 or Tier 2. These words tend to be the least commonly used and may include specialized vocabulary, technical terms, archaisms, and neologisms.

Here are 10 example words from each tier:

  • Tier 1 Examples: the, and, you, he, can, do, have, just, or, but.
  • Tier 2 Examples: acquire, criteria, hypothesis, validate, narrative, fluctuate, optimum, sophisticated, tangible, jurisdiction.
  • Tier 3 Examples: epistemology, quasar, aglet, defenestration, floccinaucinihilipilification, thixotropy, zarf, logorrhea, mumpsimus, sesquipedalian.

Rewrite the following text:

你可以叫 GPT 再深度细分文档的分类,比如分个 100 多类。让你写的东西绝对不会和你同学的重合。呵呵。

顶级的文学作品没有一个字是多余的,在很短的篇幅里面有大量的信息。定义一种文学作品使用的时间标记 Temporal Marker。你定义一个:Mary light up a cigarette, then turn around and talk to her mother. 我定义这里有两个 marker,把这个例子告诉 GPT,让他知道你对时间的标记单位是很小的。然后让他数你的范文里面有多少个 Marker. 数完了之后看一下,再让他在总文本数量不增加超过 10%的前提下,将 Marker 的数量增加 100%。这样文本的微妙细节大大增强,字数几乎不变,能出现很多奥斯卡级别的细节设计,从场景设置,人物互动,动作细节,人物对白,反应等等,下图为增加的微小细节。

在文学作品中使用情节转折作为时间进展的标记是一种有趣且可行的方法,尤其是在传统的时间指示器缺失的情况下。这种方法在故事的方向变化显著影响角色发展或整体叙事进程的叙述中尤为有效。以下是情节转折如何有效地作为时间标记的方法:

标志变化:情节转折通常表示叙事方向的变化,这可以暗示时间的流逝。例如,重大揭示或角色的决定可以使故事从一个阶段过渡到另一个阶段,隐含地暗示随着新后果的展开,时间已经向前推进。角色发展:角色对情节转折的反应变化也可以标记时间。例如,一个角色可能开始时很天真,通过一系列背叛或发现(情节转折),变得更加愤世嫉俗或睿智。角色在事件中的演变可以作为时间的标记,展示个人成长和叙事时间的流逝。连续情节点:如果一个故事包含一系列情节转折,这些转折可以被视为里程碑,帮助读者在故事中衡量时间的流逝。这在复杂叙述中尤其如此,关键事件的顺序导致情境或视角的重大变化。情感和心理时间:情节转折可以影响角色的心理和情感状态,这反过来可以反映时间的感知。紧张的时刻可能会让时间感觉变慢,而单调的时期则似乎让时间加快。循环或季节性变化:一些情节转折可能与季节变化或周期性事件重合,作者可以巧妙地利用这些变化来指示时间的流逝,而不需要明确说明。

学生党想靠 GPT 作文打败你同样用 GPT 写作文的同学吗? 靠精神分析来塑造人物。果然是 2 千字的华山论剑需要 2 万字的草稿。也许没有金庸写 2 千字的功力,但是一般人都有写 2 万字的流水账草稿功力。人物立即丰满起来。精神分析的好处是不用提“事件”,事件作为 context 的话,这个 GPT 有时候就是很多嘴,叫他别说他偏要说。文学不是历史记录,是不通过老说“想当年”来推进内容的。这是一个很好的技法。

写长文不容易,让 GPT 给你一份问卷调查,靠回答问题来写文是很容易的。问什么答什么就是了,输出的信息量不会比自己写长文来的少。

Here is the content of the tweet from @feltanimalworld:


Susan the dice tree (@feltanimalworld) at May 16:

随手制作了一张地图表出来,除了美国以外的国家,英语作为第一语言,官方语言,或者常用语言的,年轻 18-40 岁人口的总数。真正非常值得关注的,用英语去做文化产品的是南亚次大陆。看那个深棕色,青年人口 4.6 亿。非洲也有一国 7 千多万人口上榜谁能帮我认一下。最终我们要发现,英文才是最佳输出中国文化的语言。

*

!

*

日本泡沫经济破裂以后,文化产业撑起很大一部分产值的。现在中国那么多大学毕业生,大学毕业还是必须英语过四级,借助 AI 能搞定。对于南亚次大陆,虽然英语是官方常用语,但是毕竟也不是母语。中国出口英语 IP 产品面对发达英语国家肯定不够,但是面对同样不是母语的印度和巴基斯坦是够的。

*

只要是女人,稍微有点文化,绝大部分都喜欢看言情小说。

*

我跟我老公说了这个理论,中文如此厉害的文学语言,用英语加持。光是写“霸道总裁爱上我”这种剧情,支持一个印巴版晋江文学城没问题吧。他又是一口咖啡喷屏幕上了。


Here is the content of the tweet from Susan the dice tree (@feltanimalworld) at May 16:


叫 GPT 把原文改成 J.K 罗琳体,其实她最知名的作品也就哈利波特。瞬间作为非母语者,都感受到文字的文学性,优美性,和扑面而来的熟悉感提升了这篇文章很多。不知道是否也使用了模仿罗琳的其他同人文。可是红楼梦也有“红楼体”,很多人写网文用的也都是自己版本的红楼体。一旦一个作家写成传世名作,都有标志性的 xx 体。我的意思是用这个 XX 体普遍都比不用来的有个性。有个性的文学要比统计学中位数范文读起来好。中文文学英文化,用英文原文写,可以训练一些知名翻译家的文体,比如杨宪益/戴乃迭体。Link

!

!


尤其是对人物对白的修改,就是读起来感情微妙的处理舒服多了。罗琳体作为一个儿童文学让那么多人念念不忘那么多年真是有她过人之处的。


My regret is daily 改成 My regret is a daily companion,感觉完全就不是一个级别的。


Marlene stood stiffly on the porch 改成 Marlene was a solitary figure on the porch 罗琳大神真的给你跪了。流芳百世了都。


这一周所有的尝试,所有的公式,不如简简单单一个“转换为罗琳体”

Key take out: GPT 他做的核心事情,是“总结和填充”。我们可以利用这点,把细节填充的工作交给他。连我们自己很多人以前都不知道很多白领工作,实际上就是总结和填充。所以 GPT 横空出世的时候,很多人才觉得 AGI 很近了。那是因为当时我们把语言想复杂了。其实没那么复杂。比如动词占据语言的核心地位——“你打我!”没有打这个动词,就没有你,和我了。所以叫 GPT 把一段文字的动词提高 100%,瞬间这个文字变得细节满满。因为动词填进去了,他要想办法把其他的“你”“我”再填进去。一填进去,你觉得他好像在思考。但是其实他只是一层一层的在填空。

复盘一下如何开局一句话 Write short story: Claire visits mother on Mother’s Day 写篇文学性很高的小短篇。这个意义在于思考 GPT 时代创造者的工作流到底是什么。反正绝对不是一键生成,事情他全干完了那我干嘛呢。在这个工作中我稍微修改了剧情,定义了用词比例,加快了剧情流速,加了背景故事,加了精神分析,手动筛选了一下对白和动作的比例。最后才是成篇。