讨论了图片生成与产品库扩充
会议记录总结:《图片生成与库扩》
一、会议基本信息
- 时间:2025年4月2日 16:36 - 17:35
- 主要议题:
- 图片变种生成的实现方案
- 产品库扩充的技术优化
- 外部数据爬取与处理的工具开发
二、核心讨论内容
1. 图片变种生成
- 需求背景:
- 老板希望实现通过自然语言描述快速修改产品设计(如颜色、形状等),类似电商场景的AI生成效果。
- 早期方案依赖Stable Diffusion等模型,但需复杂提示语,效率低。
- 技术进展:
- 多模态模型(如GPT-4V、Gemini):
- 支持直接上传图片并基于文本指令修改(如“将狗改成机器人”),无需手动标注选区。
- 优势:语义理解更强,减少人工干预。
- 当前局限:
- 生成结果仍需人工编辑优化,无法完全自动化满足老板的“完美”预期。
- 需构建工作流:用户编辑 → AI生成 → 人工调整 → 最终输出。
- 多模态模型(如GPT-4V、Gemini):
- Demo演示:
- 使用Google AI Studio的免费API实现图片编辑功能(如修改产品颜色、形状)。
- 对比GPT-4V生成效果更稳定,但API未开放,暂用替代方案。
- 后续计划:
- 开发集成多模态API的编辑器(类似Figma),支持批量处理多张图片。
- 优先实现人工编辑流程,再逐步优化自动化变种生成。
2. 产品库扩充优化
- 现状与问题:
- 本地数据库已存26万产品(7.1GB),目标扩充至千万级,但服务器成本高。
- 当前爬取依赖搜索引擎(如Google),需解决代理问题(国内服务器直连国外网站易被封)。
- 解决方案:
- 代理架构调整:
- 腾讯云服务器 → 本地代理 → 国外网站,避免直接国际流量。
- 增量爬取与去重:
- 定时任务从MySQL提取新产品名,排除一个月内已搜索记录。
- 支持图片搜索(如Google Lens)补充文本搜索的不足。
- 数据应用:
- 在商品详情页增加“类似产品推荐”功能,基于爬取数据提供参考。
- 代理架构调整:
- 任务分工:
- 代理配置优化(A负责)。
- 朱晨实现查询构建与任务提交逻辑。
3. 外部数据爬取工具开发
- 需求场景:
- 从竞品网站爬取产品数据并转为结构化文本(Markdown),供AI分析。
- 技术方案:
- 分阶段处理URL:
- 直接HTML转Markdown:适用于静态页面(70%-80%案例)。
- 无头浏览器渲染:处理JS动态内容(如React单页应用)。
- 付费反爬服务(如ScrapingBee):应对Cloudflare等验证(成本高,备用方案)。
- 开源工具整合:
- 使用
readability
库提取主体内容,html-to-markdown
转换格式。
- 使用
- 分阶段处理URL:
- 挑战:
- 反爬机制(如LinkedIn)需特殊处理,可能依赖第三方API。
- 成本控制:优先低费用方案,仅对关键数据调用高价服务。
三、其他工具与资源推荐
- AI代码助手:
- 推荐
Cursor
(付费)或CherryStudio
(开源),本地运行更流畅。 - 模型优先级:Claude 3.5(代码) > Gemini 1.5(多模态) > GPT-4(综合)。
- 推荐
- 免费资源:
- Google AI Studio提供高额免费API调用额度。
四、下一步行动项
- 图片生成:
- 小关完善编辑器功能,接入多模态API。
- 产品库扩充:
- 朱晨实现增量爬取任务,A完成代理配置。
- 爬虫工具:
- A补充URL转Markdown的Demo代码,团队评估优先级。
会议结束:无进一步问题,后续按分工推进。