Skip to content

iFLYTEK-OP/websdk-java-demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 

Repository files navigation

一、JAVA-SDK-DEMO信息获取与运行

1、AI能力使用的 APPID、APISecret、APIKey获取

请点击控制台进行获取并填写到src/main/resources/test.properties文件!

2、实时语音转写rtaAPIKey获取

请点击实时语音转写控制台进行获取并填写到src/main/resources/test.properties文件!

3、音频文件语音转写lfasrSecretKey获取

请点击音频文件语音转写控制台进行获取并填写到src/main/resources/test.properties文件!

4、DEMO运行说明

获取到信息后填写到项目路径src/main/resources/test.properties文件中,找到能力对应的主类运行即可。能力与主类对应说明如下:

AI能力名称 对应主类名称
语音听写 IatClientApp
实时语音转写 RtasrClientApp
音频文件语音转写 LfasrClientApp
语音合成 TtsClientApp
语音评测 IseClientApp
小牛翻译及自研机器翻译 TranslateApp
文本纠错 TextCheckClientApp
PPT生成 AIPPTClientApp
静默活体检测 AntiSpoofClientApp
银行卡识别 BankcardClientApp
名片识别 BusinessCardClientApp
人脸比对 FaceCompareClientApp
人脸检测和属性分析 FaceDetectClientApp
配合式活体检测 FaceStatusClientApp
人脸比对sensetime FaceVerificationClientApp
指尖文字识别 FingerOcrClientApp
印刷文字识别和手写文字识别 GeneralWordsClientApp
性别年龄识别 IgrClientApp
场景识别和物体识别 ImageRecClientApp
图片类识别(营业执照,出租车发票,火车票,增值税发票 ,身份证,印刷文字) ImageWordClientApp
身份证识别 营业执照识别 增值税发票识别 印刷文字识别(多语种) IntsigOcrClientApp
场所识别 PlaceRecClientApp
歌曲识别 QbhClientApp
静默活体检测sensetime SilentDetectionClientApp
人脸检测和属性分析 TupApiClientApp
人脸水印照比对 WatermarkVerificationClientApp

二、讯飞开放平台常用AI能力介绍与常用参数说明

1、语音听写(流式版)

(1)功能说明

语音听写流式接口,用于1分钟内的即时语音转文字技术,支持实时返回识别结果,达到一边上传音频一边获得识别文本的效果。

(2)常用参数

以下仅为常用参数说明,详情请点击语音听写文档 查看。

参数名 类型 必传 描述 示例
vad_eos int 用于设置端点检测的静默时间,单位是毫秒。
即静默多长时间后引擎认为音频结束。
默认2000(小语种除外,小语种不设置该参数默认为未开启VAD)。
3000
dwa string (仅中文普通话支持)动态修正
wpgs:开启流式结果返回功能
注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。
"wpgs"

2、实时语音转写

(1)功能说明

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。 支持的音频格式: 采样率为16K,采样深度为16bit的pcm_s16le音频

(2)常用参数

以下仅为常用参数说明,详情请点击实时语音转写文档查看。

参数名 类型 必传 描述 示例
lang string 实时语音转写语种,不传默认为中文
语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:"
lang=en"
targetLang string 目标翻译语种 例如:targetLang="en"
如果使用中文实时翻译为英文传参示例如下:
"
&lang=cn&transType=normal&transStrategy=2&targetLang=en"
注意:需控制台开通翻译功能

3、音频文件语音转写

(1)功能说明

语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。 如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过5小时 。 另外,为使转写服务更加通畅,请尽量转写5分钟以上的音频文件。

(2)常用参数

以下仅为常用参数说明,详情请点击音频文件语音转写文档查看。

参数名 类型 必传 描述 示例
speaker_number string 发音人个数,可选值:0-10,0表示盲分
:发音人分离目前还是测试效果达不到商用标准,如测试无法满足您的需求,请慎用该功能。 默认:2(适用通话时两个人对话的场景)
has_seperate string 转写结果中是否包含发音人分离信息 false或true,默认为false
role_type string 支持两种参数
1: 通用角色分离
2:
电话信道角色分离(适用于speaker_number为2的说话场景)该字段只有在开通了角色分离功能的前提下才会生效,正确传入该参数后角色分离效果会有所提升。
如果该字段不传,默认采用 1 类型
language string 语种
cn:中英文&中文(默认)
en:英文(英文不支持热词)
cn

4、语音合成(流式版)

(1)功能说明

语音合成流式接口将文字信息转化为声音信息,同时提供了众多极具特色的发音人(音库)供您选择,可以在 这里 在线体验发音人效果。

(2)常用参数

以下仅为常用参数说明,详情请点击语音合成文档查看。

参数名 类型 必传 描述 示例
vcn string 发音人,可选值:请到控制台添加试用或购买发音人,添加后即显示发音人参数值 "xiaoyan"
rdn string 合成音频数字发音方式
0:自动判断(默认值)
1:完全数值
2:完全字符串
3:字符串优先
"0"

5、语音评测(流式版)

(1)功能说明

通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。涉及的核心技术主要可分为两个部分:中文普通话发音水平自动评测技术、英文发音水平自动评测技术。

(2)常用参数

以下仅为常用参数说明,详情请点击语音评测文档查看。

参数名 类型 必传 描述 示例
ent string 中文:cn_vip
英文:en_vip
"cn_vip"
category string 中文题型:
read_syllable(单字朗读,汉语专有)
read_word(词语朗读)
read_sentence(句子朗读)
read_chapter(篇章朗读)
英文题型:
read_word(词语朗读)
read_sentence(句子朗读)
read_chapter(篇章朗读)
simple_expression(英文情景反应)
read_choice(英文选择题)
topic(英文自由题)
retell(英文复述题)
picture_talk(英文看图说话)
oral_translation(英文口头翻译)
"read_sentence"
text string 待评测文本 utf8 编码,需要加utf8bom 头 '\uFEFF'+text
tte string 待评测文本编码
utf-8
gbk
"utf-8"
extra_ability string 拓展能力(生效条件ise_unite="1", rst="entirety")多维度分信息显示(准确度分、流畅度分、完整度打分)extra_ability值为multi_dimension(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension"))单词基频信息显示(基频开始值、结束值)extra_ability值为pitch ,仅适用于单词和句子题型音素错误信息显示(声韵、调型是否正确)extra_ability值为syll_phone_err_msg(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension")) "multi_dimension"
aue string 音频格式
raw: 未压缩的pcm格式音频或wav(如果用wav格式音频,建议去掉头部)
lame: mp3格式音频
speex-wb;7: 讯飞定制speex格式音频(默认值)
"raw"
auf string 音频采样率
默认 audio/L16;rate=16000
"audio L16;rate=16000"
group string 针对群体不同,相同试卷音频评分结果不同 (仅中文字、词、句、篇章题型支持),此参数会影响准确度得分
adult(成人群体,不设置群体参数时默认为成人)
youth(中学群体
pupil(小学群体,中文句、篇题型设置此参数值会有accuracy_score得分的返回))
"adult"
grade string 设置评测的学段参数 (仅中文题型:中小学的句子、篇章题型支持)
junior(1,2年级)
middle(3,4年级)
senior(5,6年级)
"middle"
rst string 评测返回结果与分制控制(评测返回结果与分制控制也会受到ise_unite与plev参数的影响)
完整:entirety(默认值)
中文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用)
英文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用)
精简:plain(评测返回结果将只有总分),如:
<total_score value="98.507320"/>
"entirety"
ise_unite string 返回结果控制
0:不控制(默认值)
1:控制(extra_ability参数将影响全维度等信息的返回)
"0"
plev string 在rst="entirety"(默认值)且ise_unite="0"(默认值)的情况下plev的取值不同对返回结果有影响。
plev:0(给出全部信息,汉语包含rec_node_type、perr_msg、fluency_score、phone_score信息的返回;英文包含accuracy_score、serr_msg、 syll_accent、fluency_score、standard_score、pitch信息的返回)
"0"

Releases

No releases published

Packages

No packages published

Languages