为 fineDataLink 添加文本向量化(Embedding)算子

楼主
我是社区第2202337位番薯,欢迎点我头像关注我哦~

我们在使用 fineDataLink 进行数据管道编排时,

常常需要把原始文本字段(如评论、摘要、用户描述等)转换为向量化表示,

以便后续做相似度检索、聚类、情感分析或喂给下游 ML 模型 /OLAP 引擎/向量化数据库查询。
当前的 fineDataLink 只提供了基本的 数据清洗、抽取、聚合 等算子,缺少统一的 文本向量化 功能。
下面提出一项 功能建议,希望能在 fineDataLink 中加入 Embedding(文本向量化) 算子,并支持以下特性:


需求 说明
1️⃣ 统一的算子接口 通过 embedding(text_field)pipeline.add_operator("embedding", ...) 调用,和现有算子保持相同的使用方式。
2️⃣ 多模型 Provider 内置多个常用的文本向量化模型(如 OpenAI‑text‑embedding‑ada‑v2、sentence‑transformers/all‑mpnet‑base‑v2、C annotations/baidu‑ernie‑doc‑vector 等),用户可在配置文件或 UI 中切换。
3️⃣ 灵活的字段映射 支持将向量结果写入新字段(如 embedding_vector),或直接覆盖原字段(可选)。
4️⃣ 自动批处理 & 并行 对大数据集自动开启批处理、并行调度,节省 GPU/CPU 资源。
5️⃣ 兼容多种 API 既支持 云端服务(OpenAI、Google Vertex AI、Cohere、AWS Bedrock) 也支持 本地模型( sentence‑transformers、HuggingFace Transformers 本地加载)
6️⃣ 模型/参数配置化 通过 embedding_config = {"model":"sentence-transformers/all-mpnet-base-v2","pooling":"mean","batch_size":64} 之类的字段可在配置文件中自定义。
7️⃣ 费用/速度提醒 当使用付费云端模型时,提供 预估费用速度估算(可选的 UI 提示)。
8️⃣ 错误与容错处理 对 API 调用失败提供回滚策略(使用本地模型/缓存),并记录详细错误日志。

 

分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 1关注人数 102浏览人数
最后回复于:2025-12-26 15:24

返回顶部 返回列表