Simplified representation of Grounding DINO implementationimport groundingdino.datasets.transforms as T

from groundingdino.models import build_model from groundingdino.util.utils import clean_state_dict

Load model

model = build_model(args) checkpoint = torch.load(path_to_model, map_location="cpu") model.load_state_dict(clean_state_dict(checkpoint["model"]), strict=False) model.eval()# Process image and text prompt transform = T.Compose([ T.RandomResize([800], max_size=1333), T.ToTensor(), T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]) image_transformed, _ = transform(image_pil, None)# Detect food itemswith torch.no_grad(): outputs = model(image_transformed, captions=["food item"]) boxes, logits, phrases = outputs["pred_boxes"], outputs["pred_logits"], outputs["pred_phrases"]


**2. 跨平台移动应用**

客户端应用程序使用 React Native 和 TypeScript 开发，确保 iOS 和 Android 平台的兼容性，同时保持性能。该应用包括以下模块：

（1）用户身份验证和个人资料管理；

（2）食物图像捕获和处理；

（3）显示营养信息和建议；

（4）饮食模式的历史跟踪；

（5）基于用户个人资料的个性化健康见解。

**3. 后端处理和数据库管理**

服务器端实现使用 Python 和 Django 处理请求，PostgreSQL 存储数据。数据库架构包括以下表格：

（1）用户个人资料和健康参数；

（2）食物项目和营养价值；

（3）基于健康状况的饮食建议；

（4）用于性能优化的使用分析。

### 六、模型性能

Grounding DINO 模型在食物识别任务中表现出色。关键性能指标包括：

**（1）精确率**：90.79%；

**（2）准确率**：87.98%；

**（3）召回率**：93.84%；

**（4）F1分数**：92.30%。

这些指标表明该模型能够从图像中准确识别各种食物的强大能力，即使是遇到训练数据中未明确包含的食物也是如此。这种零样本学习能力在现实场景中特别有价值，因为用户可能会消费多种文化多样的食物。

该模型的性能可以通过以下用于计算 F1 分数的公式来表示：


![图2.png](https://dds-blogs.oss-accelerate.aliyuncs.com/assets/1745373/174537370_图2.png)

如此高的 F1 分数表明在精确率和召回率之间达到了良好的平衡，确保了该应用程序能够以极少的误报或漏报正确识别出食品项目。

## 七、用户体验与验证

研究人员进行了全面调查，评估应用程序的可用性、准确性和用户满意度。主要发现包括：

**（1）用户友好性**：调查参与者对应用程序的界面和易用性表示高度满意；

**（2）准确性认知**：用户认为食物识别能力和营养建议准确可靠；

**（3）隐私信任**：受访者对应用程序的数据处理方式和隐私措施表示信任；

**（4）净推荐值（NPS）**：应用程序获得了 41.3 的NPS，表明用户满意度高，且有可能向他人推荐该应用。

用户满意度指标表明，应用程序的技术复杂性并不影响其可访问性，使其适合具有不同技术水平的多样化用户群体。

### 八、数据隐私和安全

智能膳食助手应用的突出特点是对数据隐私和安全的重视。研究人员实施了几项措施来保护敏感的健康信息：

**（1）自托管数据库**：通过使用自托管的 PostgreSQL 数据库，应用程序与基于云的替代方案相比，对数据存储和访问保持更大的控制权。

**（2）AES 加密**：采用高级加密标准加密来保护静态数据。

**（3）TLS 协议**：传输层安全性保护客户端和服务器之间传输的数据。

**（4）Firebase 身份验证**：安全的用户身份验证防止未经授权访问个人健康信息。

**（5）持续监控**：使用 Prometheus 和 Grafana 检测并响应潜在的安全异常。

这些以隐私为中心的设计决策使该应用程序区别于许多可能优先基于商业目的进行数据收集，而非保护用户隐私的商业替代方案。

### 九、意义与影响

智能膳食助手应用对健康信息学领域做出了几项重要贡献：

**（1）零样本学习的应用**：将 Grounding DINO 用于食物识别，展示了尖端 AI 技术在日常健康管理中的实际应用。

**（2）个性化饮食指导**：应用程序根据个人健康状况提供定制的营养建议，对糖尿病等疾病患者特别有价值。

**（3）保护隐私的健康技术**：对数据安全的重视为负责任的健康应用开发树立了榜样。

**（4）跨文化适用性**：模型的零样本能力使其在多元文化食品环境中具有潜在价值。

其潜在影响不仅限于个人用户，还延伸到更广泛的医疗保健生态系统，此类应用可以补充专业饮食咨询，减轻医疗服务提供者的负担，并为以营养为重点的公共健康计划做出贡献。

### 十、局限性和未来工作

在原文中，研究人员承认该应用存在一些局限性和，并给出未来改进的方向：

**（1）扩展食物识别能力**：进一步完善模型，以识别更复杂的菜肴和混合食物。

**（2）与可穿戴设备集成**：未来版本可以整合来自血糖监测仪、活动追踪器和其他健康设备的数据，实现更全面的健康管理。

**（3）纵向饮食分析**：开发功能追踪长期饮食习惯并提供洞察。

**（4）文化适应**：增强应用程序以更好地识别并提供多元文化食物的营养信息。

**（5）临床验证**：进行临床试验，验证使用该应用程序管理糖尿病等疾病的健康影响。

### 结论

本应用通过使用 Grounding DINO 模型的零样本学习能力，推动了膳食辅助技术的进步。此外，优秀的性能指标，以及积极的用户反馈表明，这种方法在改善膳食管理方面具有相当大的潜力，特别是对于具有特定健康状况的个体。随着移动健康技术的不断发展，将 Grounding DINO 等先进的 AI 模型与用户友好界面和隐私保护机制的集成为未来健康信息学创新设定了宝贵先例。

通过连接计算机视觉、零样本学习和营养科学之间的鸿沟，智能膳食助手应用展示了跨学科方法在以个性化方式解决复杂健康挑战方面的潜力。

### 参考资料

（1）论文《Eating Smart: Advancing Health Informatics with the Grounding DINO based Dietary Assistant App》，作者：Abdelilah Nossair 和 Hamza El Housni。链接：[https://arxiv.org/pdf/2406.00848](https://arxiv.org/pdf/2406.00848)

（2）在 DINO-X 开放平台调用最新的 DINO 模型 API：[https://cloud.deepdataspace.com/](https://cloud.deepdataspace.com/)

（3）Grounding DINO Playground：[https://cloud.deepdataspace.com/playground/grounding_dino](https://cloud.deepdataspace.com/playground/grounding_dino)