Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问如何识别中文字符? #54

Open
clare96 opened this issue Jun 19, 2020 · 18 comments
Open

请问如何识别中文字符? #54

clare96 opened this issue Jun 19, 2020 · 18 comments

Comments

@clare96
Copy link

clare96 commented Jun 19, 2020

我的任务主要是中文的,套用这个方法如何实现呢?

@Pay20Y
Copy link
Owner

Pay20Y commented Jun 20, 2020

您好,只需要修改一下config.py里面的CHAR_VECTOR就可以了,改成中文字符

@Pay20Y
Copy link
Owner

Pay20Y commented Jun 22, 2020

这个都可以,只要和ICDAR15的标注格式相同就可以

@Pay20Y
Copy link
Owner

Pay20Y commented Jun 23, 2020

这个问题感觉是在数据读入那里,识别的label有点问题,可能要调试一下才知道

@clare96
Copy link
Author

clare96 commented Jun 28, 2020

WE´RE
substring not found
Step 000510, detect_loss 0.0131, recognize_loss 22.3125, total loss 0.4936, 1.15 seconds/step, 10.43 examples/second
Step 000520, detect_loss 0.0163, recognize_loss 20.3499, total loss 0.4768, 0.96 seconds/step, 12.50 examples/second
Step 000530, detect_loss 0.0267, recognize_loss 21.5296, total loss 0.4985, 0.86 seconds/step, 14.00 examples/second
CAFÉ
substring not found
Step 000540, detect_loss 0.0214, recognize_loss 19.2192, total loss 0.4696, 0.96 seconds/step, 12.52 examples/second
World´s
substring not found
请问在训练的过程中经常出现substring not found,这个是正常的吗?

@Pay20Y
Copy link
Owner

Pay20Y commented Jun 29, 2020

您好,那个是正常的,那个单引号和带上标的E确实都是CHAR_VECTOR中没有。顺时针标注通过下标转换一下就可以变成逆时针吧,我记得EAST的数据处理代码里处理过顺时针的问题,好像直接用顺时针坐标也没问题,您可以试一下。

@clare96
Copy link
Author

clare96 commented Jul 7, 2020

您好,我们用您代码在自己的数据集上进行了训练和测试,训练的时候使用的是5540个中文字符。请问为什么识别的时间会如此之慢?我们已经调用了GPU
批注 2020-07-07 110927

@Pay20Y
Copy link
Owner

Pay20Y commented Jul 7, 2020

您好,请问是不是文字区域太多了呢,NMS比较耗时,我记得代码里面有计算每个模块的时间,您看一下。我这里网络有点问题看不到您的附图,抱歉,

@Pay20Y
Copy link
Owner

Pay20Y commented Jul 7, 2020

这个问题之前也有人反应过,我觉得您可以交给识别的时候先控制一下roi的数量,从32开始递增一下,看看速度变换,之后可以通过循环,把很多框分批次交给识别,没准会快一些。

@clare96
Copy link
Author

clare96 commented Jul 8, 2020

您说的这一点我在代码里看到了,我变换了一下感觉区别并不是很大,并且我们的数据在nms以后的roi个数基本都会在32个以下。然而当把字符数目由5500多变到200多个时,识别的时间大幅下降,由先前的200多秒下降到了5秒左右,这个是解码部分造成的吗?为什么会有如此大的差别呀?

@Pay20Y
Copy link
Owner

Pay20Y commented Jul 9, 2020

这个应该就是识别部分的原因了,我也不太清楚为什么会这样,您可以单独试一下CRNN,看看有没有这个问题。

@yuanjiXiang
Copy link

您好,那个是正常的,那个单引号和带上标的E确实都是CHAR_VECTOR中没有。顺时针标注通过下标转换一下就可以变成逆时针吧,我记得EAST的数据处理代码里处理过顺时针的问题,好像直接用顺时针坐标也没问题,您可以试一下。

请问 打印substring 语句出现在哪呢,我想把它关掉

@Pay20Y
Copy link
Owner

Pay20Y commented Nov 19, 2020

您好,那个是正常的,那个单引号和带上标的E确实都是CHAR_VECTOR中没有。顺时针标注通过下标转换一下就可以变成逆时针吧,我记得EAST的数据处理代码里处理过顺时针的问题,好像直接用顺时针坐标也没问题,您可以试一下。

请问 打印substring 语句出现在哪呢,我想把它关掉

您好,您是指这里

@yuanjiXiang
Copy link

您好,那个是正常的,那个单引号和带上标的E确实都是CHAR_VECTOR中没有。顺时针标注通过下标转换一下就可以变成逆时针吧,我记得EAST的数据处理代码里处理过顺时针的问题,好像直接用顺时针坐标也没问题,您可以试一下。

请问 打印substring 语句出现在哪呢,我想把它关掉

您好,您是指这里

是的,谢谢

@yuanjiXiang
Copy link

这个问题感觉是在数据读入那里,识别的label有点问题,可能要调试一下才知道

你好,我训练中文时config.py都配置好的,训练时各个loss正常的,但为啥测试时detection 正常,而后面什么文本都没有预测到呢,请问可能哪里出了问题,我测试甚至用的训练集里的数据。

@wycrystal
Copy link

您好,只需要修改一下config.py里面的CHAR_VECTOR就可以了,改成中文字符

请问如何修改成中文字符,把所有的汉字都列一遍吗?

@laofeiwei
Copy link

据集上进行了训练和测试,训练的时候使用的是5540个中文字符。请问为什么识别的时间会如此之慢?我们已经调用了GPU

你好,我想在你提供是模型上继续训练中文数据集,但是改动了config文件的字符数量,调用预训练时总是提示
Input to reshape is a tensor with 48640 values, but the requested shape has 3067392
这是什么原因,我无法改动你提供的模型的输出层形状.

@SkrDrag
Copy link

SkrDrag commented Apr 25, 2022

这个问题感觉是在数据读入那里,识别的label有点问题,可能要调试一下才知道

你好,我训练中文时config.py都配置好的,训练时各个loss正常的,但为啥测试时detection 正常,而后面什么文本都没有预测到呢,请问可能哪里出了问题,我测试甚至用的训练集里的数据。

你好能分享一下你的中文数据集和预训练模型吗!谢谢。[email protected]

@SkrDrag
Copy link

SkrDrag commented Apr 29, 2022

这个问题感觉是在数据读入那里,识别的label有点问题,可能要调试一下才知道

你好,我训练中文时config.py都配置好的,训练时各个loss正常的,但为啥测试时detection 正常,而后面什么文本都没有预测到呢,请问可能哪里出了问题,我测试甚至用的训练集里的数据。

我也遇到了这个问题,请问你解决了吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants