使用C++实现简单的文章生成器_C类语言-免费资源网

来自：网络

时间：2024-06-09

阅读：

1 前言

继上次【C++】狗屁不通文章生成器之后，很久不想看一眼这个代码，因为当时写这个代码深受中文字符的处理烦恼。而且现在回看，程序的模块化、可读性使我大受震惊，是在想不到当时的我为什么要这样做。于是昨天无心工作，想到了把这堆乐色改进一下，至少做到能看的水平。遂记之。

2 改进

2.1 字词的前后关系

为了表示字词的前后关系，即将句子划分为前缀词+后缀词的关系，依然需要定义一个class wordpair，这里去除一些数据上的冗余，强化了类的封闭性。

class wordpair
{
private:
    string preword;            // 前缀
    map<string, int> sufwords; // 后缀，次数
    int count;                 // 总次数

public:
    wordpair(string pre);
    wordpair(string pre, string suf);
    wordpair(string pre, map<string, int> suf);
    ~wordpair();
    string getPreword() const;
    map<string, int> getSufwords() const;
    void setPreword(string pre);
    void setSufwords(map<string, int> suf);
    string toJson() const;

    void addSufword(string suf);
    string chooseSufword() const;
};

采用map记录后缀的出现次数，数据的结构性更强，也易于查找。记录所有后缀出现的总次数是为了在生成文章时选择后缀提供方便（具体作用看3.1.3）

2.2 文章生成系统

将太多的操作塞进main()函数的做法不够美观，且容易忘记各个部分的功能。于是这里将文章生成的功能抽象出来，作为一个类。主要的工作是记录所有的字词对、记录生成的、文件流操作、文章生成等逻辑。

class createArticle
{
private:
    vector<wordpair> wordpairlist;
    string article;

public:
    createArticle();
    ~createArticle();

    void importWords(string filename, int len_pre = 1, int len_suf = 1);
    void exportWords(string filename);
    void addWordPair(string pre, string suf);
    void generateArticle(string startword, int lenout = 10000);
    void printArticle(string filename);
};

3 实现(部分)

由于大多函数都很简单，这里只贴出部分比较重要的函数。

3.1 class wordpair

除去构造函数、类成员输出输入等函数，我们直接进入主题。

3.1.1 转化为 json

这个函数主要是为了输出格式化的词对，而文本文件中json格式的结构性且简单。

ps: 其实这个函数不太重要，主要目的是检查。不过也可以为直接读词对做准备（虽然这里没有从文件导入词对的功能）

string wordpair::toJson() const
{
    string str = "\"";
    str += this->preword + "\" : {";

    for (auto &it : this->sufwords)
    {
        str += "\"" + it.first + "\"" + ":" + to_string(it.second) + ",";
    }
    str += "}";
    return str;
}

效果演示：

使用C++实现简单的文章生成器

3.1.2 添加后缀词

添加后缀的函数，逻辑是：

if 这个后缀已经有记录 then count++；

else 添加新的后缀到map中

void wordpair::addSufword(string suf)
{
    for (auto &it : this->sufwords)
    {
        if (it.first == suf)
        {
            it.second++;
            return;
        }
    }
    this->sufwords[suf] = 1; // if the word is not in the map, add it with a count of 1
}

3.1.3 选择后缀词

这个函数的主要功能是从众多后缀词中选取一个（语料库大的话就会多啦），选择的策略是随机数的方案，类似于转盘抽奖。实现方法如下:

string wordpair::chooseSufword() const
{
    if (this->sufwords.size() == 1)//如果只有一个后缀词就直接输出，减少算力负担
    {
        return this->sufwords.begin()->first;
    }
    else
    {
        // 随机选择一个后缀词
        random_device rd;
        ranlux48 engine(rd());
        uniform_int_distribution<> dist(0, this->count);//在类中定义了count,这里就省掉了遍历
        int random_number = dist(engine);//产生一个随机数

        std::string result;
        for (auto &it : this->sufwords)//抽奖
        {
            if (random_number < it.second)
            {
                result = it.first;
            }
            else
                random_number -= it.second;
        }
        return result;
    }
}

3.2 class createArticle

3.2.1文本分割

vector<string> charlist = splitchar(filestr);//先将从文件读到的字符串分割
    string preword = "", sufword = "";
    for (int i = 0; i < charlist.size() - len_suf - len_pre; i++)//每次向后移动一个字符，进行切割
    {
        preword = "", sufword = "";
        for (int j = i; j < i + len_pre + len_suf; j++)
        {
            if (j - i < len_pre)
            {
                preword += charlist[j];//从第i个字符开始，到第i+len_pre个字符连接起来作为前缀
            }
            else
            {
                sufword += charlist[j];//从第i+len_pre个到字符开始，到第i+len_pre+len_suf个字符连接作后缀
            }
        }
        this->addWordPair(preword, sufword);//添加进wordpairlist
    }

3.2.2生成文章

/*
startword——启动词
lenout——长度限制（避免无限循环）
*/
void createArticle::generateArticle(string startword, int lenout)
{
    this->article += startword;
    bool stop; // 加一个停止标志，当无法匹配到前缀时停止
    int prewordlen = this->wordpairlist.front().getPreword().length();
    int sufwordlen = this->wordpairlist.front().getSufwords().begin()->first.length();
    string lastword;
    for (int i = 0; i < lenout; ++i)
    {
        stop = true;
        if (this->article.length() >= prewordlen) // 如果文章长度大于词对中前缀词的长度，则直接拼接
        {
            lastword = this->article.substr(this->article.length() - prewordlen, prewordlen);//article最后的len_pre个字符，作为前缀
            for (auto &it : this->wordpairlist)
            {
                if (it.getPreword() == lastword)//通过lastword匹配词对
                {
                    this->article += it.chooseSufword();
                    stop = false;
                    break;
                }
            }
            if (stop)//遍历了一边词对的list没有匹配的词对时，退出循环
                break;
        }
        else//启动词长度小于词对前缀的情况，例如词对分割为3+2时，启动词长度为2,小于前缀长度3,无法正常拼接，于是走此处
        {
            lastword = this->article;
            for (auto &it : this->wordpairlist)//同上遍历
            {
                int position = it.getPreword().find(lastword);
                if (position != string::npos)
                {
                    this->article += (it.getPreword() + it.chooseSufword()).substr(position+lastword.length(), sufwordlen);//先将前后缀连接，再从匹配到的位置开始截取
                    stop = false;
                    break;
                }
            }
            if (stop)
                break;
        }
    }
}

4演示

4.1 wordpair(3x2), 启动词(春天)

使用C++实现简单的文章生成器

4.2 wordpair(2x1)，启动词(春天)

使用C++实现简单的文章生成器

4.3 wordpair(2x2)，启动词(春天)

使用C++实现简单的文章生成器

可见，加了长度限制的重要性。

5总结

目前，这个版本的处理方法不会出现中文乱码，即使是中英文混合字符串也能正确读取和分割。而且拼接时采用的随机数策略，在语料库足够大的情况下可以有较好的灵活性。但是任然无法产出具备可读性的文章。

目录 0、常见的判断图片文件的方法 1. 根据文件扩展名判断代码示例优缺点 2. 通过文件头（Magic Number）判断代码示例优缺点 3. 使用 ImageSharp 判断文件是否为图

2024-10-18 23:26:39

目录 1.界面实现效果 2.简介 3.使用1.界面实现效果以下是具体的项目需要用到的效果展示，用于验证字母。2.简介自定义CaptchaMovableLabel，继承自QLabel类：
中间的4个字母，就是Ca

2024-10-18 23:26:30

目录一、函数输入二、函数输出三、使用示例一、函数输入输入有两个，参数一：需要截图的容器控件，参数二：保存截图的绝对路径路径<param name="control">控件名</param>
<param

2024-10-14 19:57:08

目录1. 使用 Lambda 表达式和标准库 std::function2. 使用 std::future 和 std::promise3. 使用协程 (C++20)4. 使用异步框架总结“地狱回调”（Callback Hell）是指

2024-09-10 22:05:57

目录简介什么是Buffer OverflowBuffer Overflow的常见原因如何检测和调试Buffer Overflow解决Buffer Overflow的最佳实践详细实例解析示例1：数组越界写入示例2：未检查输入长度

2024-09-10 22:05:55

目录引言段错误的产生原因段错误的检测方法段错误的预防措施段错误的解决方案总结引言段错误（Segmentation Fault）是 C++ 编程中常见且令人头疼的错误之一。段错误通常发生在

2024-09-10 22:05:53

QPushButton是Qt库中的一个重要组件，它是用户界面（UI）设计中常用的一个按钮控件。在Qt程序中，QPushButton用于创建可以在界面上点击响应操作的交互元素。它的主要作用包括：显示文

2024-09-10 22:05:51

目录引言示例需求开发环境代码实现运行结果程序分析注意引言之前写了一个手动切换多个布局的程序，下面来记录一下。
程序运行效果如下：示例需求通过点击程序界面上不同的布局

2024-09-10 22:05:49

目录前言1. 加载数据库驱动2. 创建数据库连接3. 执行SQL查询或命令4. 关闭数据库连接示例完整代码片段打开多个数据库使用建议总结前言在Qt中访问数据库涉及到几个关键步骤

2024-09-10 22:05:47

目录步骤 1: 安装Protobuf步骤 2: 配置Qt项目步骤 3: 编译和运行项目运行qmake以生成Makefile：注意事项在Qt项目中使用Protobuf（Protocol Buffers）可以有效地处理数据序列化和

2024-09-10 22:05:45

目录一：功能二：用法一：功能 iota 是给定一个初始元素，然后依次对序列中每个元素进行递增++操作，详见代码一； atoi 是将字符串转换成整数；atol, atoll 将字符串转换成

2024-09-10 22:05:43

目录前言1. 直接在字符串中包含空格2. 使用 %s 和空格3. 使用 \t 输出制表符（Tab）4. 使用循环输出多个空格5. 使用格式控制符输出空格总结前言在C语言中，输出空格可以通过使用

2024-09-10 22:05:41

一、为什么使用文件在学习完结构体后，为了检验学习成果，我们写了一个通讯录的小程序，当通讯录运行起来的时候，可以给通讯录中增加、删除数据，此时数据是存放在内存中的，当程序退出

2024-09-10 22:05:39

目录1. 使用 QThread::sleep示例代码：说明：优点：缺点：2. 使用 QTimer 和事件循环示例代码：说明：优点：缺点：3. 使用 QEventLoop 结合 QTimer示例代码：说明：优点：缺点：4. 使用 QPauseAnima

2024-09-10 22:05:35

目录C 语言中如何实现自定义数据类型的输入输出一、结构体数据类型的输入输出二、枚举数据类型的输入输出三、联合数据类型的输入输出四、使用指针实现复杂数据结构的输入输

2024-09-10 22:05:34

目录一、背景二、环境依赖安装三、编写kakfa生产者消费者3.1 生产者3.2 消费者3.3 编译运行3.3.1 编译生产者消费者3.3.2 运行验证3.4 SASL认证kakfa3.5 结束语一、背景在实

2024-09-10 22:05:32

目录传值传址传引用如何选择合适的参数传递方式在C++中，参数传递方式主要有三种：传值（pass by value）、传址（pass by address）、传引用（pass by reference）。每种方式都有其特定的使

2024-09-10 22:05:30

目录概述CHP_Sha256总结概述SHA-256，英文全称为Secure Hash Algorithm 256-bit，是一种广泛使用的密码散列函数，属于SHA-2家族。SHA-256算法由美国国家安全局（NSA）设计，并由美国国

2024-09-10 22:05:28

简介assert 是 C 语言中的一个宏，用于在程序运行时进行条件检查，主要用于调试目的。它在 <assert.h> 头文件中定义，用于验证程序中的假设条件是否成立，如果不成立，程序将打印错误

2024-09-10 22:05:26

目录1.引言2.简单示例3.推荐使用方法4.常见使用场景和注意事项4.1.检查参数的合法性4.2.assert不能使用改变环境的语句4.3.在未知的逻辑中添加assert(false)5.总结1.引言ass

2024-09-10 22:05:24

目录一、基本概念二、用法1.旧版用法（Qt4和早期Qt5）2.新版用法（推荐）3.自动连接（无需使用connect()函数）4.Lambda表达式（Qt5.4）三、断开连接disconnect()1.为什么使用disconnect()2.

2024-09-10 22:05:23

目录一、inline关键字1.1 什么是内联函数？1.2 为什么会有内联函数？1.2.1 回顾宏1.2.2 宏的改进–内联函数1.3 内联函数的特性二、指针空值nullptr2.1 C和C++中NULL的含义

2024-09-10 22:05:21

目录1.获取服务器IP2.安装并且启用ssh服务3.在vscode中远程连接 4.实现免密登录vscode的远程连接功能十分方便，可以让我们在一个开发工具中实现完整的工作流，下面介绍如何在vs

2024-09-10 22:05:18

目录LRU的概念哈希表（unordered_map）主要特性常用操作双向链表（list）特性常用操作LRU缓存（C++）初始化状态LRU的概念LRU（Least Recently Used，最近最少使用）是一种常用的缓存淘汰策略，

2024-09-10 22:05:16

目录一、前言二、代码实操2.1 将二进制数据转为Base64编码2.2 实现图片的base64编码和解码一、前言Base64编码是一种广泛使用的编码方案，将任意二进制数据转换为可打印的ASCI

2024-09-10 22:05:14

目录一、strcat函数的简介二、strcat函数的使用三、strcat函数的注意事项四、strcat函数的模拟实现一、strcat函数的简介strcat函数用于将源字符串追加到目标字符串的末尾，并

2024-09-10 22:05:12

目录1.C++ 的存储类型1.1.存储周期（Storage duration）1.2.存储类型说明符（Storage class specifiers）1.3.存储类型说明符与存储周期的关系2.thread_local简介3.thread_local 应

2024-09-10 22:05:10

c++栈内存和堆内存的基本使用#include <iostream>// 定义一个简单的结构体struct Person { std::string name; int age;};int main() { // 栈内存分配 int a = 10; //

2024-09-10 22:05:08

目录<mutex>std::call_once函数例程:使用call_once实现的单例模式std::mutex类 -- 独占互斥锁成员函数std::recursive_mutex类 -- 递归互斥锁使用注意:描述:std::timed_mute

2024-09-10 22:05:06

目录C++实现字符串元音字母反转的巧妙方法示例方法一：利用数据结构存储元音位置和字符并反转代码实现1. 如何在C++中存储数字和字符并支持翻转2. 判断字符是否在列表中3. 巧

2024-09-10 22:05:04

2020-05-31

2021-06-03

2020-05-26

2021-04-24

2020-11-01

2020-05-26

2021-02-22

2020-06-19

2020-11-01

使用C++实现简单的文章生成器

目录

1 前言

2 改进

2.1 字词的前后关系

2.2 文章生成系统

3 实现(部分)

3.1 class wordpair

3.2 class createArticle

4演示

4.1 wordpair(3x2), 启动词(春天)

4.2 wordpair(2x1)，启动词(春天)

4.3 wordpair(2x2)，启动词(春天)

5总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道