lazyparser / xbot_head Goto Github PK
View Code? Open in Web Editor NEW中科院软件所XLab的机器人UI交互模块
Home Page: https://github.com/lazyparser/weloveinterns/wiki/
License: Apache License 2.0
中科院软件所XLab的机器人UI交互模块
Home Page: https://github.com/lazyparser/weloveinterns/wiki/
License: Apache License 2.0
当前的解说词TTS是按照文字长度切分的。在后续需求中需要将解说词和展板对应,因此需要按照展板内容切分。
人脸检测这个功能实际上是一个门禁系统实用的功能
后续我们可以把这个功能移除掉
门禁系统fork到别的仓库中去了
现有的代码是从github上一个demo项目中直接fork过来的.
能work, 问题是demo目的所以速度没有关注.
目前的实测速度是FPS=3~5
(这个跟具体设备有关, 以我们JDTab或者小米pad3为准).
有点卡的. 我们希望优化一下代码, 或者重写一下, 让FPS可以达到7~10
最好.
另外, 现有的代码中有大量的 magic number. 有关于中脸部框框截图的计算, 大部分是我当时手工调的. 日子久了就没法看了. 这部分, 可以摳出來一个小的class来进行处理.
另外, 目前, 没记错的话, 摳图发送给youtu服务器的, 和在屏幕上显示摳图的框框的, 代码好象是复制粘贴的两部分. 这个最好能够合并起来(我觉得是应该合并起来的).
目前的app开启的时候连接ROS服务器,如果服务器没有可能就闪退了,网络异常处理机制没有做。
在优图客户端可识别人脸,下方可显示YOUTU:ret,confidence,id;
阈值不足0.6则认为无法识别到对应id,播报“你好游客,这里是&#@”,阈值到达0.6以上则可识别到对应id,播报“你好,这里是&¥#@”;
这个功能室逐步加入智能化功能的一部分。
这个issue的目标不是实现对话,是实现简单的一个语音控制功能。
目前的希望是能够在xbot开始播放解说词之后,用户对着pad的麦克风说“停止解说”四个字,xbot能够暂停解说;对着pad说“继续解说”、“恢复解说”、“开始解说”三个命令词的任何一个,xbot能够从之前停止的位置继续解说(不用从精确的几分几秒开始,是从当前的解说点开始重新解说)。
基于 @hibernate2011 的 RosClient 项目,添加跟ROS的通信功能。
目前的IP地址是输入一个字符串。
理想的情况是能够:
192.168.
和10.0.0.
这两个常用的子网段可以直接选择,在测试的时候输入会方便一些。安卓中的TextToSpeech可以实现朗读文字。
但目前只支持以下语言(并不支持中文):英文、德文、法文、西班牙文、意大利文
github上有大量的面向开源项目的自动构建服务。例如 Travis 等。
我看过 Travis 可能并不一定适合 Android 项目的构建。
目前github集成了几百个CI服务,不出意外肯定有针对安卓项目的。
这个issue的目标是调研一下github上可以免费集成的CI服务,并给 xbothead项目添加自动构建。
我昨天找到一个不错的图标素材网站:http://www.iconsdb.com/
iconsDB.com currently has 4113 icons in the database that you can customize and download in any color and any size you want ! 412,028,303 icon downloads and counting ! 2659 icons can be used freely in both personal and commercial projects with no attribution required, but always appreciated and 1454 icons require a link to be used. All logos and trademarks presented in some icons are copyright of their respective trademark owners.
里面的图标是无版权,可商用的。
我打算寻找几个合适的来替换当前的原生按钮界面
现在有如下两种设置选项需要处理非法值:
还需考虑用户输入错误值之后,应该将值恢复为何值(我觉得应该恢复为上一次设置的合法值,如果用户从来没有设置过,则设置为默认值)。
20170519我们会迎来又一次小的发布(Release),在此次发布中我们希望能够使用百度在线TTS的服务将已注册用户的名字念出来。
目前的实现方式:预先通过百度TTS生成和保存了几位开发人员的名字,对于普通游客和非工作人员的已注册用户,则统一念出来“游客”或者“已注册用户”。
这个issue预期的改变:
bonus(意思是加分项):能够将已经查询过的名字缓存起来,这样可以减少网络查询的次数。
代码是直接基于 @betri28 的 FaceDetectCamera 进行修改的,REAME还没有更新,需要更新一下xbot的介绍。
用户注册功能需要实现:
要求用户输入姓名,然后进行头像采集。发送给服务端,然后在界面显示:注册成功或失败。
从 #6 拆分过来的需求。 /speaker_done
是高优先级的需求,并且pending了下层机器人的运动控制;而 /stop_run
目前并不需要。
Caffe2是facebook的机器学习框架。
这个feature的目标是加速测试/使用时候IP输入的速度。
对于输入过的ID地址,能够在再次输入IP地址的时候弹出来,点一下,就再次输入进去。
例如可以固定的添加上 192.168.1.x 以及 10.0.0.x 两条。
如果在项目的代码审计中看到了已被废弃(deprecated)的代码,开新的issue,一次更新一个/类api。
代码质量改进。
移动端接收:/speak_done (std_msg/Bool)
pad端接收:/stop_run (std_msg/Bool)
具体的实现方法见test_pub2.py,在test_pub2.py中假设了语言运行的函数是speakCB,计数50次,完成语音说话。
xbot_navigation/Xbot/src/nav_staff/src/test_pub2.py
https://github.com/DinnerHowe/xbot_navigation/blob/master/Xbot/src/nav_staff/src/test_pub2.py
昨天和汪学长讨论了之后,决定将人脸识别+解说词播放+AI对话功能整合为一个整体功能,其实现细节大致如下:
正常流程是走走停停播放语音,异常处理之后怎么恢复,有多种技术可行的方式,需要讨论明确下,看看哪种方式是最符合在场的人的预期的。
目前的代码非常乱,实际上是两个App的代码共用一个仓库。Ctrl-C 和 Ctrl-V 了不少的部分。还有很多为了demo用的硬编码需要去掉。
目标是能够将几个不同的功能模块化出来,将两个app共用的部分抽取出来变成jar库;同时也更多可配置的部分。
这个issue的目标是调研和学习一下成熟开源安卓程序在跟服务器通信时如何处理各种可能的网络异常情况并进行处理的,以保证app在常见网络场景下能够保持对用户的响应,以及符合用户的预期。
在等待ROS Server连接的界面,加入一个等待动画。
用一个专门的handler处理后台人脸识别请求
TensorFlow是Google的机器学习框架。
原理上还是通过topic的方式。keyop的形式可以作为参考。 在 xbot 项目中有一个 keyop 项目,或许可以作为参考的起点。具体的交互方式,可以等roc忙完这两周之后来一起约定下。
这期间可以继续看看ROS的核心库,尤其是通信部分,关于控制信号传送的稳定性或许到时候是一个需要考虑的因素。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.