为 fineDataLink 添加文本向量化（Embedding）算子

帆软用户W2clmAK4dP

我们在使用 fineDataLink 进行数据管道编排时，

常常需要把原始文本字段（如评论、摘要、用户描述等）转换为向量化表示，

以便后续做相似度检索、聚类、情感分析或喂给下游 ML 模型 /OLAP 引擎/向量化数据库查询。
当前的 fineDataLink 只提供了基本的 数据清洗、抽取、聚合 等算子，缺少统一的 文本向量化 功能。
下面提出一项 功能建议，希望能在 fineDataLink 中加入 Embedding（文本向量化） 算子，并支持以下特性：

需求	说明
1️⃣ 统一的算子接口	通过 `embedding(text_field)` 或 `pipeline.add_operator("embedding", ...)` 调用，和现有算子保持相同的使用方式。
2️⃣ 多模型 Provider	内置多个常用的文本向量化模型（如 OpenAI‑text‑embedding‑ada‑v2、sentence‑transformers/all‑mpnet‑base‑v2、C annotations/baidu‑ernie‑doc‑vector 等），用户可在配置文件或 UI 中切换。
3️⃣ 灵活的字段映射	支持将向量结果写入新字段（如 `embedding_vector`），或直接覆盖原字段（可选）。
4️⃣ 自动批处理 & 并行	对大数据集自动开启批处理、并行调度，节省 GPU/CPU 资源。
5️⃣ 兼容多种 API	既支持云端服务（OpenAI、Google Vertex AI、Cohere、AWS Bedrock）也支持本地模型（ sentence‑transformers、HuggingFace Transformers 本地加载）。
6️⃣ 模型/参数配置化	通过 `embedding_config = {"model":"sentence-transformers/all-mpnet-base-v2","pooling":"mean","batch_size":64}` 之类的字段可在配置文件中自定义。
7️⃣ 费用/速度提醒	当使用付费云端模型时，提供预估费用或速度估算（可选的 UI 提示）。
8️⃣ 错误与容错处理	对 API 调用失败提供回滚策略（使用本地模型/缓存），并记录详细错误日志。

0回帖数	1关注人数	752浏览人数
最后回复于：2025-12-26 15:24

提问

为 fineDataLink 添加文本向量化（Embedding）算子