AI 自动写作 · 论文阅读

上一篇：AI自动写作·产品调研，主要了解了当下的文本生成在商业领域的应用和业务场景。本篇是AI自动写作相关论文笔记，主要目的是想了解底层技术逻辑，虽然基本上没看懂，但是也有了一个大体的流程和了解。

诗歌生成

传统方法的诗歌生成：基于遗传算法的方法

PaperWeekly-解读：

传统方法非常依赖于诗词领域的专业知识，需要专家设计大量的人工规则，对生成诗词的格律和质量进行约束。同时迁移能力也比较差，难以直接应用到其他文体（唐诗，宋词等）和语言（英文，日文等）

基于遗传算法的方法，将诗歌生成看成状态空间搜索问题。先从随机诗句开始，然后借助人工定义的诗句评估函数，不断进行评估，进化的迭代，最终得到诗歌。这种方法在单句上有较好的结果，但是句子之间缺乏语义连贯性。

周昌乐等构建了一种基于遗传算法的宋词生成计算模型，由生成模块和评价模块两部分组成：

生成模块根据词法、句法、概念等信息产生备选诗作

评价模块则依据一定的准则对备选输出给予等级评价

首先遇到的问题：为了使机器能够产生好的宋词，首先要解决宋词句法规律与语义度量的计算问题。

要给出衡量宋词优劣与否的量化计算方法，作为适应度函数的构造与计算依据。

诗歌的质量主要反映在句法和语义两个层次上：

句法：既包括通常汉语所需遵循的句法，又包括诗歌特有的格律规则：如平仄、押韵等规则

语义：包括了主题与词句的连贯、风格的统一、情感与意境的传达等等

句法层次：

宋词作为一种特殊的文体，其句法也有特定的要求。一般每个词牌的词体句法都有固定的总字数、总句数，每一句的字数也是固定的。采用DFA(deterministicfiniteautomata)的句法判定规范。

语义层次：

最关键的问题是：

如何使产生的诗句看起来更有意义

使句与句之间更有连贯性

而不是毫无关联的词汇或句子的堆砌

宋词的语义计算问题，包括词义相关度计算、词义相似度计算，以及风格情感一致性计算3个方面。

计算词义相关度：目的是建立词语间的关联，发掘词语共现和搭配的可能，从而保证生成诗词行文和主题上的连贯

计算词语相似度：词语相似度主要用于衡量文本中词语的可替换程度。计算词义相似度，目的是在保证所选词紧扣主题的前提下，尽量使生成诗词的语言更丰富多变。

风格情感一致性计算：在全宋词风格与情感标注的基础上，对词语做简单风格与情感分类统计来作为计算依据

将词语集分为柔和、中性、强烈3个子集，然后递归地对各个子集进行相应的操作，最后将词语集分为7个不同意味的子集，用数字分别表示为−3、−2、−1、0、+1、+2、+3这7种水平，分数越高，代表该词语能够体现某种风格的贡献度越强。

~对诗词风格的评价指标和方式，这里又拓展阅读了下另一篇论文基于词联接的诗词风格评价技术-中国知网，根据事物形式上的确定其风格的柔和或强烈意味：

事物的形式包括数量、形体、色彩、声音、味道、重量、力量、节奏、韵律、速度、质感等许多因素，能够给人丰富的意味体验。

一般而言，具有数量少、形体小、色彩素、声音柔、味道淡、重量轻、速度慢等形式特征的事物更容易引起人的柔和意味，美学上往往称为“优美”，“指小巧、细腻、柔和的美”；

具有数量多、形体大、色彩艳、声音粗、味道浓、重量沉、速度快等形式特征的事物更容易引起人的强烈意味，美学上往往称为“壮美”，“指巨大、粗犷、豪放的美”。

这是人们在艺术实践中摸索出的普遍规律。该规律将人对事物形式的审美体验的质与事物形式的量相联系，从而具有很大的理论与实践意义。作品宏观上的豪放与婉约风格决定于词汇所指事物微观上形式的。

有两个问题需要解决：

确定参照点

确定意味水平

这两个问题的解决方式：成立专家组，通过讨论或其它互动方式一致将词集分为柔和、中性、强烈三个子集，然后递归地对各个子集进行相应的操作，递归的层次依精确需求而定。

《基于词联接的诗词格评价技术》

评测方式：

目前对于机器艺术作品质量的评测主要通过图灵测验性方式进行，也采用评判专家组来进行宋词生成结果的评测：

针对主题相关度评判、风格情感一致性评判和总体质量评判这3个指标进行评测。评判专家组由5名中文系本科生组成，评判采用5分制。

基于深度学习技术的诗歌生成

这里直接看PaperWeekly第二十三期—机器写诗，有几种不同的方法。

球赛新闻

足球赛事战报的自动写作研究

核心思路：

首先，分析处理已有的战报，找到实时数据中编辑们认为最为关键的事件，间接地完成对实时数据进行标注，得到训练集。

然后，训练一个基于卷积神经网络的模型，自动识别实时数据中的关键事件。由于实时数据中定义的事件能够精确地反映事件发生的时间、位置、动作目标，甚至助攻队友。

最后，取出关键事件后，仅需针对不同类型的事件制作少量的模板句，再将这些模板句填入模板库，一篇生动详实的战报便呈现在读者面前。

足球赛事战报流程

评价方式：

评价一篇体育赛事战报的指标因人而异。从读者角度出发，本文出 3 个方面的评价指标，分别是关键事件覆盖率(critical incident coverage)、细节还原率(detail reduction rate)和语言表达正确率(correct expression rate)。

NBA赛事新闻的自动写作研究

核心思路：

本文通过分析 NBA 文字直播的特点，构建一种 NBA 赛事新闻自动生成方法。首先，根据文字直播的特点构建球队的分差函数，并提出基于分差函数的数据分片算法和数据合成算法，然后对数据片进行分类，构建模板库，从而构建 NBA 赛事新闻自动生成的模型。

评价方式：

NBA 赛事新闻的自动写作缺乏通用的评价标准，本文将生成时间作为一种评价指标，然后采用人工评价的方法，请 3 名 NBA 球迷进行评价，采用 3 种评价指标：指标1，是否由计算机所写；指标 2，是否符合文字直播的真实情况；指标 3，语言是否生动。

参考论文

新闻类（赛报）

人文类：（诗歌）

算法&模型：

update，180420
created，180303