基于计算机视觉的图书推荐应用【AI编程实录】

我相信这篇文章的许多读者都有一个“抽屉”，里面装满了未完成的很酷的业余项目。由于AI每天都在帮助我的团队编写代码，我决定试一试，看看它能让我在一个我最喜欢的业余项目中走多远，最好是用最少的代码编写。

由于我对它能走多远感到非常惊讶，我决定写下我的经历，并检查“无代码人工智能编程”能走多远的极限以及实际的局限性。这篇文章（实际上是这个系列）将描述这段旅程。

1、简介

我酝酿这个想法已经很多年了——一个只需拍照就能推荐书籍的应用程序。正如所说，我通常忙于客户项目。但在最新AI工具的帮助下，我决定试一试。事情并不总是一帆风顺的——计算机视觉和文本识别给我带来了一些意外。但令我惊讶的是，我设法以比我预期快得多的速度得到了一个好的原型。即使在你不是专家的领域，人工智能也能帮助将想法变成现实，这真是太神奇了。这段旅程既令人谦卑又令人兴奋，我迫不及待地想看看它会带来什么。

宣传语如下：“想象一下，你走进一家书店，你真的想买一本书，但买哪一本呢？此外，可能还有一张打折的桌子，周围散落着许多书，等着你选择一本或多本，但同样，选哪一本呢？我希望有一个应用程序可以解决这个问题，而不是无助地四处寻找。进入 Book Shazam：拍一张这个场景的照片，然后获得书籍的个性化评分。”

那么为什么是现在呢？在我们公司 Shibumi AI，我们已经使用 LLM 很长一段时间了，大约从 2021 年 API 发布开始。我们还利用 Copilot 完成各种编程任务。当然，我们使用 Web UI 本身来编写文本、总结文本等等。偶尔，我们会尝试在 Web 应用程序中编写代码（无论是 ChatGPT 还是 Claude）。

直到最近，结果都不是特别令人印象深刻。但最近，特别是自 Claude Sonnet 3.5 发布以来，我们感觉到可以使用此工具创建真正的软件项目，尽管很简单。我们到处尝试（也看到其他人这样做）浏览器扩展、简单的应用程序等。因此，我决定是时候站出来构建一个稍微复杂一点的产品了。这一系列帖子记录了这个过程。

此外，最近一直在讨论非开发人员是否以及何时能够使用 AI 创建成熟的应用程序或产品。在这个项目期间，我牢记这个讨论并尝试：

不要触碰代码，或者至少尽可能少地触碰
特别注意那些对我这个技术人员来说可能很容易，但对非开发人员来说却有点挑战性甚至非常具有挑战性的任务。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

2、规划项目

总体而言，这不是一个超级难的项目，但它有挑战性。此外，作为一名数据科学家，我更擅长 Python 和 ML 模型，而 JavaScript 和 UX 则较弱。但 LLM，尤其是 Claude，让我感觉范围缩小了。所以让我们开始吧。

首先，让我们稍微分解一下产品——我们需要构建：

用户界面
计算机视觉（检测和 OCR）系统
推荐引擎

显然，实施先进而酷炫的解决方案（例如尖端的推荐器和 OCR）很诱人，但我们将采用简单的产品方法。

任何新手产品经理都会为你画出类似这样的图：

这个草图通常意味着从开发的早期阶段开始，你就应该有一个可行的解决方案。换句话说，你不应该在最终的 1.0 版本准备好并发布之前对其进行开发，因为在整个期间你不会得到任何用户反馈。你应该做的是从一个丑陋的简单工作解决方案和 MVP（最小可行产品）开始，并在每个阶段根据用户反馈逐步改进它。我们将采用这种方法。

因此，我们将这样完成我们的任务：

计算机视觉系统：具有简单的用户界面，这将是应用程序的支柱。我们希望具有上传图像、检测书籍、识别其名称（OCR — 光学字符识别）和单击它们的功能。我们将让 Claude 处理所有事情。

推荐引擎：目前最简单的推荐引擎就是“询问 LLM”。我们需要处理冷启动问题（没有新用户的数据），因此我们可以简单地要求用户输入他们最近阅读并喜欢的几本书（我知道这很基本）。我们将在下一篇文章中处理这个问题

UX：在拥有一个“可运行”的系统后，我们将优化用户体验：

使设计看起来更美观、更现代
使流程更友好、更流畅。

更多功能：

为了使这个应用程序更具功能性，我们将添加一个登录系统，让用户可以多次使用该应用程序。
最终，我们将把应用程序部署到云端，让用户可以访问它。
超出本系列的范围，我们可以为应用程序添加更多功能，例如对不在图像中的书籍进行评级等等。

3、流程—书籍检测

让我们首先讨论使用 LLM 进行开发的一般方法：如前所述，Claude 的能力将我们带到了 LLM 开发的 0.2 版。0.1 版本是 GPT4（和 4o），它主要返回有时有效的代码，并且每个任务都需要进行几次迭代。

在 Claude 中，情况会好一些：代码版本会作为工件保存，你可以管理一种对话（有时包括编辑模型消息以进行错误的转变）。

Claude 还包括“预览”功能，允许在编辑器本身中运行简单的脚本。这似乎是一个小功能，但在我看来，对于非开发人员来说至关重要。我们不会在本演练中使用它。

当你要求 Claude 编写代码时，应该：

非常具体。
清楚地写出所有必需的功能。
不要写得太长。

所以我要求以下内容：

请注意，这是使用 LLM 执行编程任务的良好做法：

如果模型在某个部分严重失败，您可以使用相关部分的“强化”编辑请求（如您在“确保”中看到的 - 根据我在计算机视觉任务中的经验，模型经常变得懒惰并选择无法真正处理任务的模型。）
另外，请注意，我给了模型选择技术的自由 - 它可以选择 JavaScript 或其其中一种风格（例如 React）......实际上，它选择了 Flask - 这极大地影响了整个架构 - 而不是在浏览器中运行整个模块，我们将在这里拥有一个服务器/客户端系统。这种选择有利有弊。但是，由于我们计划在应用程序中使用 LLM，因此目前将密钥保留在服务器上会更容易。此外，我对 Python 感觉更舒服，所以我现在不会抱怨。但我们以后可能会想要一个仅限客户端的应用程序。

为了测试目的，我们将配备一张测试图像：