The app-of-savor from lujizhi

文档名称	Savor—产品需求文档
产品名称	Savor
产品描述	一款利用智能翻译、中文菜单扫描、点菜辅助来帮助外国人解决在华饮食痛点，并且全面体验中华美食的APP
产品版本	1.0
文件现状	进行中
文件作者	黄滢

加值宣言

我认为目前市场上对于菜单识别以及实时翻译进行有效以及高效整合的产品还没有出现，Savor App就是针对该漏洞对现在已有的美食类App和翻译类App进行整合并加值和优化。其中，该App使用到的人工智能技术有菜品识别api技术、语音翻译api技术与图片翻译api技术，这些技术的综合运用能更好更有效的解决外国人在点菜或享受**美食时遇到的困难。

一、需求概述

1. 产品背景

随着**近几年的快速发展，**逐渐成为了旅行、留学、生活的一大热门目的地。并且由于媒介对**文化的广泛传播，**美食在世界各国的名气愈加增强。体验”舌尖上的**“成为外国人来华必不可少的一大亮点。但与此同时，由于点菜过程中沟通交流的困难，以及不同国家的饮食习俗多样，都会给华外国人在享受**美食时造成诸多困难。

2. 产品市场

经过对商场上美食类APP、翻译类APP的调查，发现想对美食进行扫描获知、内容进行翻译并不难，但是将这些内容进行整合并将外国人作为核心用户的APP少之又少。另外，随着人工智能和人工神经网络技术的发展，翻译技术已在类型上被细分，已能满足人们日常的生活需求，但在饮食类应用的领域，对于菜单进行识别翻译的应用程序依旧处于起步阶段。

3. 市场概述

3.1全球智能翻译类应用市场概述

伴随着全球翻译行业的发展，其市场规模从2011年的385.3亿美元，增长至2015年的392.5亿美元。另外预计在2010年到2020年间，翻译行业预计将增长42%。获得如此大的增长幅度的主要原因是全球化的发展，以及机器翻译和其余计算机辅助翻译软件的快速发展。 ——《What is The Size of the Translation Industry》

从目前来看，全球的翻译服务已能完全满足日常生活的使用需要，其中也根据应用、运营、服务的类型进行了细分，但在一些较为专业的、需要较高精确度的领域需要实现无差错的翻译，还是有一定难度的。在饮食类应用的领域，目前已有可对菜单进行识别翻译的应用程序，例如waygo、有道实景翻译等。但是数量相对其余领域较少，依旧处于起步阶段。

3.2 市场特征

智能翻译市场广阔，增长迅速,目前正在处于迅速发展的时期。
菜单翻译市场处于发展初期，目前直接针对菜单翻译的工具甚少，发展空间广阔。还未出现行业龙头。
对产品技术要求较高，需要契合场景要求，由于**菜具有菜名多变、菜谱翻译不能采用直译的方式，而需要从中提取关键词翻译（例如：佛跳墙、蚂蚁上树等）。

3.3. 发展优势

目前菜谱智能翻译市场广阔，竞争对手很少，竞争力小；
对菜谱翻译有需求的市场广阔，痛点明显，具有一定的开发价值；
可以真正为外国来客解决困难，将会受到欢迎。

二、核心价值（最小可行性产品）

着眼于解决外国人在**点菜困难问题的最基本需求，Savor将提供给用户中文菜单识别、点菜辅助的服务功能。

用户痛点

在点菜过程中因与服务员沟通不方便困难重重；
**菜谱少有英文翻译，且菜名比较复杂，难以理解菜品的内容；
自己有特殊的饮食习俗，不知道这道菜（原材料）是否符合要求。

三、用户分析

目标用户群：

核心用户：18~25岁的较为年轻的在华外国人群体（分为来华旅行和在华留学两种）
主要用户：26~40岁之间的在华外国人群体（分为来华旅行和在华留学两种）

用户画像及使用场景

使用场景：Janet是刚来北京留学的学生，基本不会说中文，不喜欢吃辣。他就餐时发现自己看不出菜的原料是什么，和打饭大妈无法交流，很耽误后面同学的时间。于是他退到一边，打开Savor APP，将菜单扫描了一遍，将自己喜欢的菜名展示给大妈，成功挑选出两道适合自己的菜。

使用场景：Windy在西安进行自由行，发现美食遍地！但是这里的小商贩不会说英文，自己更是看不懂那些奇怪的菜名。她打开Savor APP，逐个扫描菜名，考虑自己是否适合吃。最后她来到一家小店点了羊肉泡馍，向服务员用“快速点菜交流”功能确认“里面没有她会过敏的花生”后，开心的吃了起来。

四、核心价值与用户痛点

用户痛点	API加值
无法与服务员进行有效的沟通	有道智云开放平台中的语音翻译API
菜谱没有提供英文翻译	有道智云开放平台中的图片翻译API
不懂菜品的原料是什么	百度开放平台的菜品识别API

五、人工智能概率性与用户痛点

随着人工智能的不断发展，麦肯锡全球研究所在2018年发布的一份报告中，估计人工智能可以在全球经济中创造3.5万亿至5.8万亿美元的年价值，约占所有分析技术总影响力的40％。另外，人工智能在与内容相关的领域（例如翻译服务和转录服务）也取得了长足进步。 ——哈佛商业评论

有道智云开放平台的自然语言翻译技术与百度AI开放平台的图像识别中的菜品技术，有以下优势：

自然语言翻译技术优势/用户痛点	图像识别中的菜品识别技术优势/用户痛点
1. 语种丰富：提供27种语言高质量翻译服务，覆盖中、英、日、韩、俄、葡等热门语种——保证用户与商家的有效沟通	1. 丰富度：识别超过9千种菜品，接口返回菜品的名称、置信度、百科信息等综合信息——清楚菜品的原料是什么
2. 技术优：支持神经网络翻译，根据用户翻译习惯不断优化翻译结果——提高翻译的准确性	2. 准确性高：基于百度丰富的海量数据，利用深度学习技术及精准的算法迭代模型，不断提高准确性——能让外国人准确了解菜品名称
3. 功能丰富：可对图片进行翻译，支持多国语言——保证用户在对菜单拍照后进行内容翻译	3. 个性化：支持自建菜品图库，适用于识别含有多个菜品的图片，接口返回菜品的名称、位置、相关性等综合信息——利于用户的自定义设计

所以，该产品利用菜品识别功能将在现场拍的菜品照片进行识别并列出菜品名称，但是需要注意的是，该技术只针对单一菜品的图片进行识别；其中，这项功能的精确性以及精确率较高，除了照片过于模糊等非正常因素（该产品因拍照模糊而不准确的状况，为概率较小的少数事件），在普遍情况下都可以使用。另外，人工智能在翻译技术上较娴熟，且完成度与准确率非常高，仅存在少部分因用户发音过于不标准或模糊导致翻译不准确的状况，这也是概率较小的少数时间，对正面影响并不大。

识别不准确的方法：机器自身的深度学习

五、需求列表（对应人工智能加值）

序号	api技术	用户场景	优先级
1	百度AI中的菜品识别	快速知道菜品上的菜是什么原料	A（重要）
2	有道智云AI的语音翻译	需要和服务员交流自己的点菜需求	A（重要）
3	有道智云AI的图片翻译	快速对菜单上的内容进行翻译	B（次重要）

六、产品结构图

产品功能结构图

用户流程图

产品结构图

七、数据推理

	页面
问题1	我们在页面上呈现什么内容
回答1	菜品识别结果；语音翻译结果；图片翻译结果
问题2	向用户输出的结果内容从哪里来
回答2	去开放平台调用api，获得结果内容
问题3	请求从哪里来
回答3	用户对照片的上传，对语音的输入
问题4	如果页面出现识别错误，应该如何获取并处理数据，正确数据的信息从哪里来
回答4	通过用户的反馈进行信息获取，通过用户的自愿反馈扩大数据库，强化机器学习

八、产品原型及交互设计

原型文档下载区

原型文档交互展示

原型文档rp文件下载区

启动及登录界面

核心页面——菜品识别功能

用户通过菜品扫描界面，可利用相机或相册对菜品进行扫描，从而该App将会对用户的菜品图片进行扫描，并返回其相应的菜品原料及口味等结果给用户，另外还将给用户提供进入百度进行进一步把了解的链接。（利用百度开放平台的菜品识别API，解决用户“不懂菜品的原料是什么”的痛点）

主要页面——快速交流功能

当用户进入快速交流页面后，可对输入与输出的语言进行选择，然后按住按钮进行语音说话，App将会根据用户所选的语言进行对应的翻译，输出相应的翻译内容。（利用有道智云开放平台中的语音翻译API，解决“无法与服务员进行有效沟通”的痛点）

九、API的运用

（一）图像识别

百度AI开放平台——菜品识别（本产品使用的api平台）

接口描述：该请求用于菜品识别。即对于输入的一张图片（可正常解码，且长宽比适宜），输出图片的菜品名称、卡路里信息、置信度。
接口地址：https://aip.baidubce.com/rest/2.0/image-classify/v2/dish
请求方法：POST

（1）首先需要通过API Key和Secret Key获取access_token

输入与输出的源代码链接

（2 ）接着对菜品进行识别

输入与输出的源代码链接
案例1：
- 输入：单一菜品，将返回五个置信度最高的结果

案例2：
- 输入：多种菜品，判断结果为‘非菜’。

腾讯AI开放平台——美食图片识别

案例1：
- 输入：上传单张或多张图片，能识别一个图像是否为美食图像。

百度与腾讯API的对比

百度菜品识别API：只能对单一菜品进行识别，并返回菜品的名称、置信度、卡路里、百科信息等综合信息；对于多个菜品的照片无法辨别，识别为“非菜”。
腾讯美食图片识别API：目前提供的美食图片识别API只能对图片进行判断其是否为美食，还没能提供关于菜品的食材用料和热量计算等等

总结分析：通过对百度与腾讯API的调用，对其提供的功能有了大致的了解。我个人认为腾讯AI的美食图片识别API仅能对图片进行判断是否为美食的功能并不能发挥什么作用，用处不大。但对于百度AI的菜品识别API功能，我认为还是能进一步优化的，例如可找寻办法解决能处理多菜品图片识别的功能。

（二）语音翻译

有道智云AI开放平台（自然语言翻译）

接口描述：通过调用有道语音翻译API，传入待翻译的音频文件，并指定要翻译的源语言（支持源语言语种自动检测）和目标语言种类。
接口地址：https://openapi.youdao.com/speechtransapi
请求方法：POST

输入与输出的源代码链接

（三）图片翻译

有道智云AI开放平台（自然语言翻译）

接口描述：通过调用图片翻译API，传入图片的Base64编码，指定源语言与目标语言，通过POST请求方式，就可以识别图片中的文字并进行翻译。
接口地址:https://openapi.youdao.com/ocrtransapi
请求方法：POST

输入与输出源代码链接

腾讯AI开放平台（机器翻译）

输入：上传菜单图片，对菜单内容进行语言转译

有道与腾讯API的对比

有道图片翻译API：有道在一些细节上对图片的识别会有变化，例如它有时对某区域的内容翻译是一大段话的（即对一片区域的内容进行无序列表的翻译），但对有些部分的翻译是有序并进行分类翻译的。另外，其翻译的准确性较高。
腾讯图片翻译API：在对腾讯的图片翻译API进行调用时，发现其有一个优点是相对有利的，即它是根据菜单的排布以及划分来进行翻译的，不会出现像有道那样的对某一区域的内容进行无序无断句的翻译。但它有一个致命性的问题，则是腾讯图片翻译API的准确性有待提高，通过上面图中的划线部分可看出问题所在。

总结分析：通过对有道与腾讯图片翻译API的调用，对其提供的功能有了大致的了解。我认为，两者的结合就是优化的最后结果。因为，有道的某些无序无断句的缺陷能让腾讯有序有断句的优点进行弥补；腾讯准确性待完善的缺陷能让有道准确性较高的优点进行弥补。因此说，两者的结合是最好的优化结果。

十、API的使用价格

百度的菜品识别价格：

每日500次免费调用额度，免费额度用尽后开始计费，价格如下：

有道的语音翻译价格：

有道的图片翻译价格

十一、API使用风险评估

AI随着计算机的计算能力的增强，已经有了重大进展（Buchanan，AI Magazine，2005）。AI和神经网络可以在更短的时间内完成比人类更多的工作。他们也不需要休假，也不会生病。一旦编程，它们的错误率就很小，并且如果有错误，通常是在编程中，这是人为错误。 ——Excelsior College

错误现象及处理办法：

仅能识别单一的菜色（百度菜品识别API）：需要具备更为庞大的食物库，不断强化机器学习，使得其在多种混合菜品中仍能进行精确识别。另外，可开启一个反馈栏，使得用户可对其进行建议性输入，从而强化其数据库。
语音识别中文不正确，接受到用户反馈后，提示用户：这次中文考试又不及格，请主人不要举报我，我现在再去复习一遍。
当菜品识别错误的时候，可以推荐用户手动输入关键词，帮助机器学习进行自我更正，并输出给用户最正确的答案。

十二、竞品分析

竞品对象由于用户为外国人，因此竞品均来自在外国网站中调研得到的APP。在“智能菜单识别类APP”中，以“菜单识别”或“菜单翻译”为关键词，在谷歌搜索中查看了一些境外旅行APP推荐文章。综合得到推荐次数较多的APP：以多种语言和准确的结果著称的谷歌翻译，以及专门针对亚洲菜谱识别的waygo。
竞品的战略定位分析

竞品	简介	定位	菜单翻译功能体验	优势
谷歌翻译	一款功能强大的翻译软件，支持多国语言的相互翻译，以及多种输入模式	1. 全能型翻译软件。具有近百种语言，满足绝大多数需求；2. 提供更多种输入方式，适合于多种场景；3. 更加适合大篇幅文字的翻译	1. 安卓版具有“点击选择翻译区域”的功能，此功能比较适合于单行短小文字的翻译；2. 单行获取信息以后，只有菜名，并不知道详细信息；3. 即时性并不强；4. 离线时只能支持实景翻译	1.超级多的语言类别；2. 算法强大，准确度更高；3. 提供更多元的输入方式，场景多元化
Waygo	一款可以翻译亚洲语言（中文、韩文、日文）的翻译产品，并且特别强调了更加适合翻译菜单、短小的文字	1. 专注于亚洲语言翻译；2. 专注菜单和短句翻译；3. 帮助用户初步了解知道菜品的英文名及其原料，基本可以解决菜品名称的识别困难	1. 满足即时性高的需求；2. 对“扫描菜单”场景的功能上研究颇深，但是内容上依旧不够丰富，在得知菜品英文名以及图片之后没有更多的信息可供参考；3. 支持离线翻译，这点对旅行者帮助很大。	1. 技术上专注于菜单识别的体验，在用户体验上较优；2. 相比于谷歌翻译，支持离线翻译。

竞品的产品结构

3.1 谷歌翻译（时间：2019年2月5日；版本：5.26.0）

分析：谷歌翻译的功能分布比较平均，在各种输入方式中都配有十分完备的配套功能。这些功能都各有优势和其适合的使用场景，需要详细研究针对即时性强、沟通不便的菜谱翻译场景下，更适合选用什么样的场景。

3.2 Waygo（时间：2019年2月5日；版本：6.17）

分析：不管是功能的细致程度还是功能体验的考量上都比较细致和友好。非常契合菜谱场景的单行识别和短小文字的识别。

在识别结果上，明显向“菜谱”靠拢（例如一些识别模糊的字，会自动向食品类词汇翻译靠拢），考虑到产品的场景差异性，这也是Savor需要努力的方向。

进入以后直接开始扫描，在即时性上略胜一筹。

竞品的差异化分析

4.1 区别

分析一：两款App相比，最明显的区别就是功能大而全和功能小而精的对比。

谷歌翻译注重多种的语言之间的对应翻译，并且具有语言字典，实景覆盖翻译，手写输入等等多种强大的功能，不愧为一部工具书式的全能应用，但是缺点也很明显，在“菜单识别”这个比较特别的场景下的契合性较弱，强大功能的首要代价就是复杂的操作和选项带来的效率低下。在这方面Waygo做的略好，从窄条的扫描框，横竖排切换等功能就能略窥一二。但是两款产品最终获得的信息深度都还不够。

结论：紧靠“菜单识别”的场景优化算法。并且结合“菜单识别”这个场景下的其余需求定制“**就餐体验”的优化服务。

4.2 缺点

分析二：最终获取的信息量。两款竞品都存在信息深度不够的缺点

谷歌只提供中文发音和英文解释，进一步的细节需要自行搜索。Waygo则更进一步，提供中文读音、拼音、英文翻译和可能的菜品图片，用户基本可以确定菜品的内容。但是这些信息是否足够用户选出这道菜呢？可能需要进一步的调研。

结论：首先做好有关菜谱识别的内容提供。用户在只通过菜名不能很好地判断，需要提供更多的菜品信息。（这些信息具体包括哪些，则需要通过用户调研完成

十三、该产品未来的发展路线构想

发展理念：由基础功能延伸到附属功能，首先满足基本的菜品识别和语音翻译的功能，紧紧抓住**餐馆点菜的场景，以完成点菜任务，优化场景体验为目标，最终实现完整的中华美食体验类产品。

(一）产品的更新迭代过程

V1.0
1. 实现菜品识别功能，满足基本的识别需求；
2. 实现语音翻译功能，满足用户的交流需要；
3. 实现图片翻译功能，满足用户对菜单的了解需求。
V2.0
1. 针对一些比较著名的菜品，与专业人士沟通开发适合外国人学习制作的菜谱；
2. 完善基础的菜单补充反馈、收藏、语音翻译等功能。
V3.0
1. 根据用户反馈，不断丰富菜单识别的准确程度和菜谱的丰富程度；
2. 小规模投入，首先在大学校园中尝试投入，测试年轻用户对产品的反馈，对需求和算法进行优化；
3. 寻找种子用户并维护；
4. 完成基础的数据统计后台和用户营销管理后台。
V4.0
1. 根据用户反馈，不断丰富菜单识别的准确程度和菜谱的丰富程度；
2. 正式开始市场推广，主要推广渠道为跨境旅行网站，**美食相关的外国交流/服务平台，相关媒体等；
3. 合作更多供应商，开发和完善菜品购置和配送服务。
V5.0
1. 对上个版本的用户体验进行优化；
2. 上线点菜交流功能和菜品评论、分享等社交功能，搜集用户反馈并优化；
3. 尝试组织进行**菜线下体验活动，宣传产品并尝试活动推广的可行性；
4. 逐渐实现目标市场的闭环，提高口碑与粘性。

(二）产品可能涉及的功能范围

(三）产品的盈利模式

智能识别功能收费；会员制度收费；可在商城一键购齐原料，靠提成获利；后期通过特色付费课程、开办活动等获利

(四）产品的业务模式

前期需要录入一些菜品和原料的信息，在获得一定用户数量之后，可以利用用户分享和评论生产更多内容；与电商平台合作共同完成做菜原料的下单和配送业务。

所使用的AI功能链接

一句话版本

随着**的快速发展，使其成为了旅行、留学、生活的一大热门目的地，体验”舌尖上的**“成为外国人来华必不可少的一大亮点，但与此同时，由于点菜过程中沟通交流的困难，会给外国人在享受**美食时造成诸多困难；为了解决外国人在华点菜困难的痛点，该App产品将向用户提供智能翻译、中文菜单扫描、点菜辅助功能，并最终实现完整的中华美食体验类产品。

1分钟版本 (图文线上可阅读含可查连结)

如今市面上有大量美食类、翻译类App的存在，

但是对这两项功能进行整合，并将外国人作为核心用户群的美食翻译类App少之又少，该产品则是一款利用智能翻译、中文菜单扫描、点菜辅助来帮助外国人解决在华饮食痛点，并且全面体验中华美食的APP。其中，利用到的人工智能技术有图像识别中的菜品识别技术、自然语言翻译中的语音翻译和图片翻译。另外，通过对人工智能概率性的分析以及对API使用风险的评估，认为该产品是有发展前景的。最后，该产品还会通过特色付费课程、开办活动等方式进行盈利，从而进一步的扩大该产品的知名度与覆盖面。

lujizhi / app-of-savor Goto Github PK

app-of-savor's Introduction