DieselChen

个人博客,记录一下学习的点滴~

0%

图片生成与库扩

讨论了图片生成与产品库扩充

会议记录总结:《图片生成与库扩》

一、会议基本信息

  • 时间:2025年4月2日 16:36 - 17:35
  • 主要议题
    1. 图片变种生成的实现方案
    2. 产品库扩充的技术优化
    3. 外部数据爬取与处理的工具开发

二、核心讨论内容

1. 图片变种生成
  • 需求背景
    • 老板希望实现通过自然语言描述快速修改产品设计(如颜色、形状等),类似电商场景的AI生成效果。
    • 早期方案依赖Stable Diffusion等模型,但需复杂提示语,效率低。
  • 技术进展
    • 多模态模型(如GPT-4V、Gemini)
      • 支持直接上传图片并基于文本指令修改(如“将狗改成机器人”),无需手动标注选区。
      • 优势:语义理解更强,减少人工干预。
    • 当前局限
      • 生成结果仍需人工编辑优化,无法完全自动化满足老板的“完美”预期。
      • 需构建工作流:用户编辑 → AI生成 → 人工调整 → 最终输出。
  • Demo演示
    • 使用Google AI Studio的免费API实现图片编辑功能(如修改产品颜色、形状)。
    • 对比GPT-4V生成效果更稳定,但API未开放,暂用替代方案。
  • 后续计划
    • 开发集成多模态API的编辑器(类似Figma),支持批量处理多张图片。
    • 优先实现人工编辑流程,再逐步优化自动化变种生成。

2. 产品库扩充优化
  • 现状与问题
    • 本地数据库已存26万产品(7.1GB),目标扩充至千万级,但服务器成本高。
    • 当前爬取依赖搜索引擎(如Google),需解决代理问题(国内服务器直连国外网站易被封)。
  • 解决方案
    • 代理架构调整
      • 腾讯云服务器 → 本地代理 → 国外网站,避免直接国际流量。
    • 增量爬取与去重
      • 定时任务从MySQL提取新产品名,排除一个月内已搜索记录。
      • 支持图片搜索(如Google Lens)补充文本搜索的不足。
    • 数据应用
      • 在商品详情页增加“类似产品推荐”功能,基于爬取数据提供参考。
  • 任务分工
    • 代理配置优化(A负责)。
    • 朱晨实现查询构建与任务提交逻辑。

3. 外部数据爬取工具开发
  • 需求场景
    • 从竞品网站爬取产品数据并转为结构化文本(Markdown),供AI分析。
  • 技术方案
    • 分阶段处理URL
      1. 直接HTML转Markdown:适用于静态页面(70%-80%案例)。
      2. 无头浏览器渲染:处理JS动态内容(如React单页应用)。
      3. 付费反爬服务(如ScrapingBee):应对Cloudflare等验证(成本高,备用方案)。
    • 开源工具整合
      • 使用readability库提取主体内容,html-to-markdown转换格式。
  • 挑战
    • 反爬机制(如LinkedIn)需特殊处理,可能依赖第三方API。
    • 成本控制:优先低费用方案,仅对关键数据调用高价服务。

三、其他工具与资源推荐

  • AI代码助手
    • 推荐Cursor(付费)或CherryStudio(开源),本地运行更流畅。
    • 模型优先级:Claude 3.5(代码) > Gemini 1.5(多模态) > GPT-4(综合)。
  • 免费资源
    • Google AI Studio提供高额免费API调用额度。

四、下一步行动项

  1. 图片生成
    • 小关完善编辑器功能,接入多模态API。
  2. 产品库扩充
    • 朱晨实现增量爬取任务,A完成代理配置。
  3. 爬虫工具
    • A补充URL转Markdown的Demo代码,团队评估优先级。

会议结束:无进一步问题,后续按分工推进。

欢迎关注我的其它发布渠道

-----------本文结束感谢您的阅读-----------