Embedding

1、先基于模型实现向量数据转换。 2、基于HuggingFace安装模型实现向量数据转换。
5 months ago · ab2b6e2ce4
parent ab3e88bba4
commit ab2b6e2ce4
5 changed files with 76 additions and 2 deletions
--- a/.env
+++ b/.env
@ -5,4 +5,4 @@ DASHSCOPE_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
 OPENAI_API_KEY=sk-o0H5KfO57uO69NqCp0CFydBYkUjnQp8tge4fc4LcUyyKrtpL
 OPENAI_BASE_URL=https://api.openai-proxy.org/v1

-
+ZHIPU_API_KEY=xxxxx
--- a/05-Embedding/01-Embedding实操-OpenAI.py
+++ b/05-Embedding/01-Embedding实操-OpenAI.py
@ -0,0 +1,24 @@
+from openai import OpenAI
+
+from env_util import OPENAI_BASE_URL, OPENAI_API_KEY
+
+
+
+# 这里采用原生的OpenAI的API去玩。
+# 1、 拿到OpenAI的Client
+client = OpenAI(
+    base_url=OPENAI_BASE_URL,
+    api_key=OPENAI_API_KEY,
+);
+
+# 2、 调用Embedding模型，获取text的向量
+text = "i like LLM.";
+resp = client.embeddings.create(
+    model='text-embedding-3-large',
+    dimensions=512,  # 向量的维度~~
+    input=text
+);
+
+# 3、输出结果
+print(resp.data[0].embedding)
+print(len(resp.data[0].embedding))
--- a/05-Embedding/02-Embedding实操-LangChian.py
+++ b/05-Embedding/02-Embedding实操-LangChian.py
@ -0,0 +1,23 @@
+from langchain_openai import OpenAIEmbeddings
+from openai import OpenAI
+
+from env_util import OPENAI_BASE_URL, OPENAI_API_KEY
+
+
+
+# 这里采用Langchain的API访问,模型还是OpenAI的模型
+# 1、 拿到OpenAI的Client
+llm = OpenAIEmbeddings(
+    base_url=OPENAI_BASE_URL,
+    api_key=OPENAI_API_KEY,
+    model='text-embedding-3-large',
+    dimensions=512,  # 向量的维度~~
+);
+
+# 2、 调用Embedding模型，获取text的向量
+text = "i like LLM.";
+resp = llm.embed_query(text);
+
+# 3、输出结果
+print(resp)
+# print(len(resp))
--- a/05-Embedding/03-Embedding实操-Qwen3.py
+++ b/05-Embedding/03-Embedding实操-Qwen3.py
@ -0,0 +1,25 @@
+#  使用这个类需要先安装库：pip install langchain-huggingface
+from langchain_huggingface import HuggingFaceEmbeddings
+
+# 指定模型名，如果你本地没有这个模型，第一次执行后它会先下载
+model_name = "BAAI/bge-small-zh-v1.5" # 模型名
+model_kwargs = {'device': 'cpu'} # 没有显卡就用cpu，有英伟达显卡写cuda
+encode_kwargs = {'normalize_embeddings': True} # set True to compute cosine similarity
+
+#  第一次运行，会自动下载模型（去huggingface上下载），下载到hf默认的缓存目录。
+
+hf_embedding = HuggingFaceEmbeddings(
+    model_name=model_name,
+    model_kwargs=model_kwargs,
+    encode_kwargs=encode_kwargs
+)
+
+
+resp = hf_embedding.embed_documents(
+    ['I like large language models.',
+     '今天的天气非常不错！'
+     ]
+)
+
+print(resp[0])
+print(len(resp[0]))
--- a/env_util.py
+++ b/env_util.py
@ -8,4 +8,6 @@ DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY");
 DASHSCOPE_BASE_URL = os.getenv("DASHSCOPE_BASE_URL");

 OPENAI_API_KEY = os.getenv("OPENAI_API_KEY");
-OPENAI_BASE_URL = os.getenv("OPENAI_BASE_URL");
+OPENAI_BASE_URL = os.getenv("OPENAI_BASE_URL");
+
+ZHIPU_API_KEY = os.getenv("ZHIPU_API_KEY");