时间：2024-03-31

阅读：

1.概述

传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在AI大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如OpenAI的GPT-4按照token的个数来计算费用。那么，在这种情况下是否有一种方案来解决呢？既能降低使用LLM API的成本，也能同时提升调用LLM API的效率和性能。GPTCache的出现，专门解决了这类痛点，对于大语言模型的对话场景，没有必要每次都去调用LLM的API，完全可以通过缓存调用一次即可，大大节省使用成本。本篇博客，笔者将为大家介绍GPTCache的相关内容。

2.内容

GPTCache 是一款高效的开源缓存解决方案，专为提升基于 GPT 的应用程序性能而设计。它通过语义缓存技术，有效存储语言模型的生成响应，从而加速应用程序的响应速度和整体效率。作为一个灵活的 LLM 缓存层，GPTCache 提供了高度可定制的缓存选项，允许用户根据特定需求调整嵌入函数、相似性评估机制、数据存储位置以及缓存驱逐策略。目前，GPTCache 支持与 OpenAI ChatGPT 和 LangChain 接口的集成，扩展了其在多种应用场景下的适用性。

2.1 为什么使用 GPTCache？

使用语义缓存来存储 LLM 响应的好处如下：

提升性能：将 LLM 响应存储在缓存中可以显著减少检索响应所需的时间。如果之前的请求已经存储在缓存中，能够更大幅度地降低响应时间，提高应用程序的整体性能；
节省开销：大多数LLM服务根据请求次数和令牌数的组合收费。缓存 LLM 响应可以减少对服务 API 的调用次数，从而节省成本。尤其是在高流量场景下，缓存尤为重要。如果不使用语义缓存，可能会多次调用 API，产生极高的费用；
提高可扩展性：缓存 LLM 响应可以通过降低 LLM 服务的负载来提高整体应用的可扩展性。语义缓存有助于避免系统瓶颈，确保应用可以处理更多请求；
降低开发成：语义缓存工具能够减少大语言模型应用的开发成本。开发过程中需要连接大语言模型的 API，因此成本可能会十分高昂。GPTCache 界面与大语言模型 API 相同，可存储模型生成数据。使用 GPTCache 无需再连接至大语言模型 API，从而降低成本；
降低网络延迟：语义缓存更靠近客户端，可以减少从 LLM 服务检索数据所需的时间。降低网络延迟能有效提升用户的整体体验；
提升可用性：LLM 服务频繁限制用户或客户端在特定时间段内访问服务器的频次。触达访问速率上限时，请求会被屏蔽。用户不得不等待一段时间后才可以继续访问服务器，这种限制会导致服务中断。使用 GPTCache 后，您可以根据应用用户数量和查询量灵活快速扩展，保障服务可用性和性能。

总的来说，开发用于存储LLM响应的语义缓存可以提供多种好处，包括性能改进、降低成本、更好的可伸缩性、自定义性和降低网络延迟。

2.2 GPTCache 的工作原理

GPTCache 通过捕捉在线服务数据的局部性特征，对频繁使用的数据进行存储，从而显著减少检索延迟并缓解后端服务器的压力。区别于传统的缓存解决方案，GPTCache 实现了先进的语义缓存机制，能够识别并保留高度相似或紧密相关的查询，大幅提升缓存的命中率。

该工具运用 embedding 技术将用户的问题转换为向量形式，并借助向量数据库执行相似性查询，以便从缓存中快速提取相关响应。GPTCache 的模块化架构设计为用户提供了极大的灵活性，使得每个组件都可以根据用户的具体需求进行个性化配置。

尽管语义缓存在某些情况下可能会产生误报（false positives）或漏报（false negatives），GPTCache 设计了三种性能评估指标，协助开发者对缓存系统进行细致的调优。

通过这一高效流程，GPTCache 能够有效地在缓存中定位并提取出与用户查询相似或相关的信息，如流程图所示：

GPTCache使用

2.3 什么是语义缓存

GPTCache 的模块化架构提供了灵活性和可定制性，使用户能够根据特定的应用需求和场景，轻松构建和调整个性化的语义缓存解决方案。每个组件都配备了多样的配置选项，确保用户能够精准地实现其缓存策略，以适应不同的业务挑战和技术环境。

1.大语言模型适配器（LLM Adapter）

适配器将大语言模型请求转换为缓存协议，并将缓存结果转换为 LLM 响应。适配器方便轻松集成所有大语言模型，并可灵活扩展。GPTCache 支持多种大语言模型，包括：

OpenAI ChatGPT API
langchain
Minigpt4
Llamacpp
dolly
后续将支持：Hugging Face Hub、Bard、Anthropic 等

2.预处理器（Pre-Processor）

预处理器管理、分析请求，并在将请求发送至 LLM 前调整请求格式，具体包括：移除输入种冗余的信息、压缩输入信息、切分长文本、执行其他相关任务等。

3.向量生成器（Embedding Generator）

Embedding 生成器将用户查询的问题转化为 embedding 向量，便于后续的向量相似性检索。GPTCache 支持多种模型，包括：

OpenAI embedding API
ONNX（GPTCache/paraphrase-albert-onnx 模型）
Hugging Face embedding API
Cohere embedding API
fastText embedding API
SentenceTransformers embedding API
Timm 模型库中的图像模型

4.缓存存储（Cache Store）

GPTCache 将 LLM 响应存储在各种数据库管理系统中。GPTCache 支持丰富的缓存存储数据库，用户可根据性能、可扩展性需求和成本预算，灵活选择最适合的数据库。GPTCache 支持多个热门数据库，包括：

SQLite
PostgreSQL
MySQL
MariaDB
SQL Server
Oracle

5.向量存储（Vector Store）

向量存储模块会根据输入请求的 embedding 查找 top-K 最相似的请求。简而言之，该模块用于评估请求之间的相似性。GPTCache 的界面十分友好，提供丰富的向量存储数据库。选择不同的向量数据库会影响相似性检索的效率和准确性。GPTCache 支持多个向量数据库，包括：

Milvus
Zilliz Cloud
Milvus Lite
Hnswlib
PGVector
Chroma
DocArray
FAISS

6.逐出策略（Eviction Policy）

管理：控制缓存存储和向量存储模块的操作。缓存满了之后，缓存替换机制会决定淘汰哪些数据，为新数据腾出空间。GPTCache 目前支持以下两种标准逐出策略：

“最近最少使用”逐出策略（Least Recently Used，LRU）
“先进先出”逐出策略（First In First Out，FIFO）

7.相似性评估器（Similarity Evaluator）

GPTCache 中的相似性评估模块从 Cache Storage 和 Vector Store 中收集数据，并使用各种策略来确定输入请求与来自 Vector Store 的请求之间的相似性。该模块用于确定某一请求是否与缓存匹配。GPTCache 提供标准化接口，集成各种相似性计算方式。多样的的相似性计算方式能狗灵活满足不同的需求和应用场景。GPTCache 根据其他用例和需求提供灵活性。

8.后处理器（Post-Processor）

后处理器负责在返回响应前处理最终响应。如果没有命中缓存中存储的数据，大语言模型适配器会从 LLM 请求响应并将响应写入缓存存储中。

3.案例实践

接下来，笔者将介绍学习如何有效地使用 GPT 聊天功能。虽然原始示例基于 OpenAI 的演示，但我们的重点是教授如何通过 GPTCache 来缓存精确和相似的响应，这一过程异常简洁。您只需遵循几个简单的初始化缓存的步骤即可。

在开始之前，请确保您已经通过设置环境变量 OPENAI_API_KEY 来配置您的 OpenAI API 密钥。如果您还未进行设置，根据您的操作系统（MacOS/Linux或 Windows），可以通过以下命令进行设置：

对于 MacOS/Linux 系统：

export OPENAI_API_KEY=YOUR_API_KEY

完成这些步骤后，您可以通过以下代码示例来体验 GPTCache 的应用和加速效果。我们将展示三个部分：使用 OpenAI 的原始方式、进行精确搜索以及执行相似搜索。

1.使用 OpenAI 的原始方式

实现代码如下所示：

import time
from openai import ChatCompletion

def format_response(openai_response):
    return openai_response['choices'][0]['message']['content']

# 定义问题
question = 'what’s github'

# 使用 OpenAI API 获取响应
start_time = time.time()
response = ChatCompletion.create(
    model='gpt-4-0125-preview',
    messages=[{'role': 'user', 'content': question}]
)

# 打印问题和响应
print(f"Question: {question}")
print(f"Time consuming: {time.time() - start_time:.2f}s")
print(f"Answer: {format_response(response)}\n")

2.精确搜索

为了启动 GPTCache 并优化性能，您需要进行适当的初始化。这包括从 gptcache.adapter 导入 openai 模块，这样会自动配置数据管理器以便于精确地匹配和检索缓存数据。有关如何构建和定制您自己的缓存系统的更多信息，请参考 GPTCache 的构建指南。

当您向 ChatGPT 提出两个完全相同的问题时，GPTCache 将确保第二个问题的答案直接从缓存中获取，避免了对 ChatGPT 的重复请求，从而提高了响应速度和效率。实现代码如下所示：

import time
from gptcache import cache
from gptcache.adapter import openai

# 初始化 GPTCache
cache.init()
cache.set_openai_key()

def get_response_text(response):
    return response['choices'][0]['message']['content']

print("Cache loading.....")

question = "what's github"
for _ in range(2):
    start_time = time.time()
    response = openai.ChatCompletion.create(
        model='gpt-4-0125-preview',
        messages=[
            {'role': 'user', 'content': question}
        ]
    )
    print(f'Question: {question}')
    print(f"Time consuming: {time.time() - start_time:.2f}s")
    print(f'Answer: {get_response_text(response)}\n')

3.相似搜索

为了配置 GPTCache 以提高效率和性能，您需要定义几个关键组件：embedding_func 用于生成文本的嵌入表示，data_manager 负责管理缓存中的数据，以及 similarity_evaluation 用于评估不同文本之间的相似性。这些组件的具体设置和优化方法，详见“构建您的缓存”部分的详细指南。

当您使用 ChatGPT 回答一系列相关的问题后，GPTCache 能够根据之前的交互从缓存中提取答案，这样对于后续的相似问题，就无需再次向 ChatGPT 发起请求，从而减少了延迟并提高了响应速度。实现代码如下所示：

import time
from gptcache import cache, get_data_manager
from gptcache.adapter import openai
from gptcache.embedding import Onnx
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation
from gptcache.manager import CacheBase, VectorBase

# 初始化 GPTCache
onnx = Onnx()
data_manager = get_data_manager(CacheBase("sqlite"), VectorBase("faiss", dimension=onnx.dimension))
cache.init(
    embedding_func=onnx.to_embeddings,
    data_manager=data_manager,
    similarity_evaluation=SearchDistanceEvaluation()
)
cache.set_openai_key()

def get_response_text(response):
    return response['choices'][0]['message']['content']

print("Cache loading.....")

questions = [
    "what's github",
    "can you explain what GitHub is",
    "can you tell me more about GitHub",
    "what is the purpose of GitHub"
]

for question in questions:
    start_time = time.time()
    response = openai.ChatCompletion.create(
        model='gpt-4-0125-preview',
        messages=[{'role': 'user', 'content': question}]
    )
    print(f'Question: {question}')
    print(f"Time consuming: {time.time() - start_time:.2f}s")
    print(f'Answer: {get_response_text(response)}\n')

4.GPTCache server

GPTCache 目前具备了构建服务器的能力，该服务器不仅支持缓存功能，还能进行对话交互。通过简单的几行代码，用户便能够启动一个个性化的 GPTCache 服务实例。以下是一个简洁的示例，演示了如何搭建 GPTCache 服务器以及如何与其进行交互操作。

# 安装和启动服务
$ gptcache_server -s 127.0.0.1 -p 8000

# 用doker启动服务
$ docker pull zilliz/gptcache:latest
$ docker run -p 8000:8000 -it zilliz/gptcache:latest

1.命令行交互

# 写数据到 GPTCache
curl -X 'POST' \
  'http://localhost:8000/put' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
  "prompt": "Hi",
  "answer": "Hi welcome"
}'

# 从 GPTCache 中读数据
curl -X 'POST' \
  'http://localhost:8000/get' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
  "prompt": "Hi"
}'

2.Python实现

>>> from gptcache.client import Client

 >>> client = Client(uri="http://localhost:8000")
 >>> client.put("Hi", "Hi welcome")
 200
 >>> client.get("Hi")
 'Hi welcome'

5.总结

GPTCache 是一个为基于 GPT 的应用程序设计的高性能缓存解决方案，它利用语义缓存技术来存储和快速检索语言模型的输出。通过模块化设计，GPTCache 支持个性化配置，允许用户根据需求选择嵌入函数、相似性评估方法和数据存储选项。它不仅提高了响应速度，减少了对原始数据源的请求，还通过智能缓存机制优化了服务器负载。此外，GPTCache 支持构建对话服务器，简化了与大型语言模型的集成和交互，为用户提供了更加流畅和智能的体验。

问题描述A 页面有个按钮，点击后会跳转到一个新页面 B，如果我们跳转之后再打开 devtools 工具条就会无法看到 B 页面初始化发起的请求，那你会说我刷新下不就好了吗？大多数时候这

2024-10-18 23:12:41

在 Rust 中，*、ref、mut、& 和 ref mut 是用于处理引用、解引用和可变性的关键字和操作符，它们在不同的上下文中有不同的用法。一、* 解引用* 属于操作符1. 作用用于解引用指

2024-07-25 21:49:58

目录一.系统环境二.前言三.Open Policy Agent 简介四.Rego 语言简介五.配置基本环境六.docker安装OPA插件 6.1 安装docker 6.2 docker安装OPA插件 6.3 启用OPA

2024-06-05 22:14:00

HTTP 长连接，也称为 HTTP 持久连接（HTTP Persistent Connection）或 HTTP 连接重用，是一种在 HTTP 协议中实现的机制。在传统的 HTTP 通信中，每个 HTTP 请求和响应都会伴随着 TCP

2024-06-05 22:11:55

先给出公式 ans = n - LPS[n-1]其中ans为最小周期,n为给出的由假设的周期字符串中提取出的子串长度,LPS为前缀函数,n-1为字符串最后的位置下标证明如下
证明ans = n - LPS[n

2024-05-26 14:39:26

原文出处：改造 Kubernetes 自定义调度器 | Jayden's Blog (jaydenchang.top)OverviewKubernetes 默认调度器在调度 Pod 时并不关心特殊资源例如磁盘、GPU 等，因此突发奇想

2024-05-26 14:38:11

检索增强生成 (Retrieval Augmented Generation，RAG) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模

2024-05-25 11:53:26

目录 Ceph存储池 1. Ceph的存储流程 1. 数据写入 2. 数据读取 2. 资源池的配置 2.1 资源池创建 pgp是什么（Placement Group for Placement purpose）

2024-05-25 11:48:13

rust 处理错误，不使用 try catch，而是使用 Result<T, E>。简单的处理rust错误在各种关于rust错误处理的文档中，为了解释清楚其背后的机制，看着内容很多，不好理解。比如我们写一

2024-05-10 21:43:40

在上文中我们学会学会更改加载路径，加载对应文件夹下的Lua脚本。默认解析加载的lua脚本存在的文件位置非AB包或者Resources文件夹下往往不能随包体更新，这显然不符合热更需要

2024-05-10 21:29:47

方便我们在项目中使用Lua解析方法，我们封装管理一个lua解析器，管理LuaState的方法执行。解析器脚本：using LuaInterface;namespace BaseFramework{ /// <summary> /// 自

2024-05-10 21:29:22

使用自定义委托来调用lua脚本中的多返回值函数和长参数类型的函数。先看代码，依旧是上篇文章中所贴的脚本。新增调用两个函数testFuncusing System;using BaseFramework;usin

2024-05-10 21:28:53

访问数组类型的tableCallLuaEntrance测试脚本中内容： //--------------------------------------访问table-----------------------------//4.1 访问list/数组类型的table//

2024-05-10 21:28:16

在并发的世界中，最常见的并发安全问题就是数据竞争，也就是两个线程同时对一个变量进行读写操作。但当你在 Safe Rust 中写出有数据竞争的代码时，编译器会直接拒绝编译。那么它

2024-04-30 21:37:14

使用ollama + AnythingLLM快速且简单的在本地部署llama3不多说，直接开始一、安装ollamaollama官网：https://ollama.com/
下载地址：https://ollama.com/download打开以后注册并

2024-04-23 22:31:56

为什么需要 CNI在 kubernetes 中，pod 的网络是使用 network namespace 隔离的，但是我们有时又需要互相访问网络，这就需要一个网络插件来实现 pod 之间的网络通信。CNI 就是为了

2024-04-21 22:16:12

背景我是有个基于DOM实现的简历编辑器项目的，因为暂时找不到可以用Canvas实现的比较有意思的场景，所以才选择了继续做简历编辑器，最开始做简历编辑器就是因为很多简历网站都是

2024-04-15 11:46:07

前言在Canvas2D中实现圆形的绘制比较简单，只要调用arc指令就能在Canvas画布上绘制出一个圆形，类似的，在SVG中我们也只需要一个<circle>标签就能在页面上绘制一个圆形。那么在We

2024-04-13 21:52:27

第一章：引言导言在当今数字化时代，数据安全和完整性变得至关重要。消息摘要算法是一种用于验证数据完整性和安全性的重要工具。在众多消息摘要算法中，MD5（Message
Digest Algori

2024-04-11 21:57:55

1.概述传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在AI大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如OpenAI的GPT-4按照token

2024-03-31 22:20:53

目录简介架构 Application 和组件简单入门示例先决条件创建项目编译库文件引用库文件运行项目界面交互示例创建项目编译库文件实现应用函数引

2024-03-26 11:54:50

目录简介 hello world 常用功能动态路径多个片段(segments) 静态文件服务器简单WebAPI示例添加依赖实现接口接口测试参考链接简介Rust中最知名的两个web

2024-03-19 23:21:01

一、RabbitMQ的集群模式主要有两种：普通集群模式和镜像队列模式。下面分别介绍这两种模式的原理：1.普通集群模式：在普通集群模式下，RabbitMQ的集群节点之间主要同步元数据，而不

2024-03-19 23:07:45

0 前言在物联网领域中，mqtt消息一直是海量设备连接到平台的标配协议，而平台向移动端开放的操作接口往往是http协议，这就要求平台为两种协议作消息一一适配。在某些情况下，这些设

2024-03-19 23:04:15

目录前言 git rm 命令 git reset 命令 git rm 和 git reset 的比较不同用例的适用性比较对文件状态的影响比较 git update-index 命令 git clean 命令实际应用

2024-03-18 21:30:10

一、?=、?!、?＜=、?＜!、?:的解释1. 先看一下比较官方的解释 (?=pattern)：正向先行断言，表示匹配位置后面必须紧跟着满足 pattern 的字符串，但不包括这个字符串在匹配结果中。 (?!

2024-03-18 21:24:29

4）Playbook4.1）Playbook 介绍PlayBook 与 ad-hoc 相比，是一种完全不同的运用 Ansible 的方式，类似与 Saltstack 的 state 状态文件。ad-hoc 无法持久使用，PlayBook 可以持久使用

2024-03-17 23:18:56

尽管ggez提供了很多相关特性的demo供运行查看，但笔者第一次使用的时候还是有很多疑惑不解。经过仔细阅读demo代码并结合自己的实践，逐步了解了ggez在不同场景下的绘图方式，在此

2024-03-17 22:57:09

前言最近在学习 ES，所以需要在服务器上装一个单节点的 ES服务器环境：centos 7.9安装下载镜像目前最新版本是 8.12.2docker pull docker.elastic.co/elasticsearch/elasticsear

2024-03-15 20:55:15

MD5算法起源：MD5（Message Digest Algorithm 5）算法是由MIT的计算机科学家Ronald Rivest于1991年设计的一种消息摘要算法。MD5算法最初被用于提供数据完整性和一致性的验证，后来

2024-03-15 20:51:05

2020-09-27

2018-09-21

2018-09-02

2021-03-15

2022-12-16

2021-03-10

2019-08-24

2020-09-16

2019-07-29

2022-12-12