工具 1天前

30美元/月的AI语音输入,我用2小时平替了,顺便把Alfred也干掉了

作者头像 刘宇帅
22 0

最近 AI 语音输入法突然火了起来,朋友圈和技术群里到处都在讨论。程序员们在 AI 的帮助下,继不自己动手写代码之后,连字都懒的打了,用 AI 语音输入法动动嘴就把代码写了。

我也心动了。但看完一圈价格之后,感觉都挺贵的。

最近,发现自己除了模型的钱随便花以外,其他的钱都不舍得花了,所以我决定自己写一个。

起因:不想写代码了,也不想打字了

事情是这样的。

最近这段时间,在 AI 的辅助下,我对写代码的热情越来越高了。打字打的也越来越多,手都打疼了,而且有时候总是感觉自己的手速跟不上脑子的思路。

前面试过用搜狗等输入法的语音输入,效果都不是很好。

直到昨天,我实在是不想再打字了。

于是我就又去找好用的语音输入法,最后终于找到了一个体验很不错的软件。

但是看了下价格,竟然需要 30 美元每个月。一个语音输入功能,一年下来需要好几千块??

我心想:这玩意儿不就是调个语音识别接口,再加个 AI 润色吗?我自己来不就行了。

然后我就打开了过年写的那个小工具,花了点时间,给它加了一个 AI 语音输入功能。按个快捷键开始录音,说完自动识别,识别完直接插入到光标位置。

2个多小时就开发完了,就这么简单。

我对 AI 语音输入法的理解

用了一整天之后,我对 AI 语音输入这件事有了一些新的理解,也理解了为什么最近这么火。

首先,中文语音识别的门槛确实降下来了。

以前中文语音输入最大的痛点是识别不准,尤其是技术术语、中英混合场景。但现在不管是阿里云、讯飞还是其他引擎,中文识别准确率已经相当高了。我在日常使用中,纯中文场景基本不需要修改,中英混合也能处理得七八成。

其次,真正拉开差距的不是识别,而是润色。

语音转出来的文字,口语化很重,直接用的话读起来很别扭。AI 润色就是把口语化的内容自动整理成书面表达,这一步才是体验的关键。不只是把语言组织的有条有序,而且再也不怕会打错字了。

最后,最影响体验的其实是交互方式。

市面上大部分 AI 语音输入法,要么需要切换输入法,要么需要打开一个独立窗口,打断感很强。你正在写文档,突然要切出去录个音,再切回来粘贴,想想都麻烦。

所以我给自己的工具设计了一个很简单的交互:

  1. 在任意应用里按 Ctrl+Alt+I,弹出一个小悬浮窗开始录音
  2. 说完话,自动识别转文字
  3. 直接插入到当前光标位置

不需要切应用、不需要切输入法、不需要复制粘贴,几秒钟就完成了。这个"无打断"的体验,用了一天之后我就回不去了。

尤其是写长文档的时候,先用语音把想法说出来,再稍微改改,比从零开始打字快得多。

等等,这个工具好像不只是语音输入

加完语音输入之后,到了晚上,我突然回过神来:这个工具好像已经不只是一个给自己用的玩具了。

我数了数,这个工具目前已经有了这些功能:

  • 全局搜索面板:Alt+Space 呼出,聚合了应用启动、书签搜索、进程管理、翻译、时间戳转换、IP 查询、编解码、UUID 生成、二维码生成、JSON 格式化等一堆日常工具
  • 剪贴板历史:自动记录文本/图片/文件的复制记录,支持搜索和预览
  • Snippet 文本片段:配置常用文本,输入关键词自动展开,还支持模板变量和修饰符链
  • 翻译 + 命名助手:中英互译,自动转 camelCase、snake_case 等命名格式,程序员的刚需
  • 系统命令控制:锁屏、音量、亮度、深色模式、Wi-Fi 开关……直接在搜索框里输入就能控制
  • 项目命令面板:自动识别 Git 项目,一键执行 build/test/deploy
  • 待办 + 外部数据小组件:悬浮球展示待处理数量,支持对接自定义接口
  • AI 语音输入:快捷键录音,实时识别,支持 AI 润色,直接插入光标位置

这些功能,每一个单拎出来可能都不算什么新鲜事。但把它们整合到一个统一的快捷键面板里,体验确实比我想象中好很多。

YuAI Tools

搜索面板

为什么要做这个工具

说回最初的动机。

在我第一次看到 Alfred 的时候,就被它惊艳到了,当天就下单买了终身会员。但是用了这么多年之后,越来越觉得不那么顺手了,虽然我也已经定制了很多 workflow,解决了自己很多日常工作。

怎奈 Alfred 没什么上进心啊,这么多年来,功能和 UI 基本上没有什么调整。

最关键的是,作为一个程序员,我总想按自己的习惯来。比如我想要在 Alfred 里加一个 JSON 格式化的面板,但是做不到啊;比如我想要更方便的用 goland 等工具打开项目,也是做不到啊。

这些小需求,单个都不难,但市面上很难找到一个工具能把它们全部串起来。

所以过年在家,我就决定自己写一个。用的是 Avalonia 框架,跨平台的,macOS 和 Windows 都能用。

写的时候其实没想太多,就是自己用着爽就行。但功能越加越多,慢慢地也就成了现在这个样子。

写在最后

说实话,我自己都没想到事情会发展成这样。

过年写这个工具的时候,纯粹就是不想用 Alfred 了,想自己造个轮子玩玩。后来加了翻译、加了剪贴板、加了 Snippet……每次都觉得"再加一个功能就够了"。

直到昨天因为嫌 AI 语音输入法太贵,自己动手加了一个,用了一整天之后,我才突然意识到:这个东西可能不只是我一个人需要。

虽然做的还比较粗糙,但是我实在是太激动了,所以迫不及待的想要分享给大家,欢迎大家试试看。

目前支持 macOS(Apple Silicon / Intel)和 Windows,可以在这里下载和查看使用文档:

👉 YuAI Toolshttps://yuai.life/yuai-tools

如果你也在找一个好用又不贵的 AI 语音输入方案,或者你也是那种喜欢用快捷键搞定一切、不想在各种小工具之间来回切换的人,相信你会喜欢的。

有任何问题或建议,随时告诉我。这个工具还在持续迭代中,你的反馈对我来说非常重要。

祝好

作者头像

刘宇帅

非著名程序员,全栈开发工程师,长期专注系统开发与架构设计。

提示

功能待开通!


暂无评论~

相关文章

ChatGPT最热开源项目

自2月份开始,我对ChatGPT的精彩表现感到非常着迷,它展现出了真正的智能。随后,我陆续注册了ChatGPT Plus会员,申请了GPT-4 API权限等。起初,我通过简单的数学和逻辑题来测试它的智能水平;后来,我开始将其视为搜索引擎,不仅用于搜寻概念性知识,还用于解决技术问题、技术方案,甚至是公司业务应用。如今,ChatGPT已经逐渐融入了我的工作和生活。 然而,由于日常工作繁忙,我总是根据需要解决的问题,寻找针对性的方案,而没有认真研究过基于ChatGPT的应用现状。因此,我决定花时间了解一下ChatGPT相关的热门开源项目,并将所得到的信息整理和记录在此。 lencx/ChatGPT

shadowsocks配合Proxifier实现全局代理

shadowsocks 使用的 sockets5 代理,而一般只有浏览器支持,所以使用 shadowsocks 可以实现科学上网,但是其他的应用却仍无法科学上网,所以要想实现全局科学上网需要 Proxifier 支持。 Proxifier介绍 Proxifier是一款功能非常强大的socks5客户端,可以让不支持通过代理服务器工作的网络程序能通过HTTPS或SOCKS代理或代理链。支持 64位系统,支持Xp,Vista,Win7,MAC OS ,支持socks4,socks5,http代理协议,支持TCP,UDP协议,可以指定端口,指定IP,指定域名,指定程序等运行模式,兼容性非常好。有点类

SVN 认证失败

问题 搭建好 svn 之后可以正常拉下库,但是 commit 的时候报以下权限错误。 > $ svn commit -m "test" svn: E170001: Commit failed (details follow): svn: E170001: Authorization failed 解决 问题是因为 svn 权限配置问题。

定时任务系统调研

webcron 源码地址 功能列表 基本任务创建、启动、手动执行、暂停 任务日志 任务执行结果邮件通知 任务分组 任务运行实例控制 缺点 任务只能在单机跑 不能添加用户 评价 安装部署简单,功能页面简洁,适合任务量不多个人或者小型项目组使用。 gocron 源码地址 功能列表 基本任务创建、手动执行、禁止执行、删除 任务依赖 任务分组 超时、重试 可以选择任务执行结果通知不同用户,通知类型包括邮件(并支持模板配置)、slack、webhook。 任务日志 支持分布式,添加执行任务节点,创建任务可指定任务可运行的节点(如果是单例模式,会选择一台执行) 用户管理 登录日志 执行方式支持

Macos 卸载Xcode git运行报错

我电脑上原本装了Xcode,但是我电脑是128G,用了两年东西越来越多硬盘不够用了,而我本身开发中很少用Xcode所以就把它卸载了,卸载之后发现Xcode占了11G左右的空间。。 卸载Xcode之后执行git,报错如下: > $ git status xcrun: error: active developer path ("/Applications/Xcode.app/Contents/Developer") does not exist Use `sudo xcode-select --switch path/to/Xcode.app` to specify the Xcode t