最近准备做文本训练,有没有什么框架可以快速提取很多不同类型文本的内容?

提问者:帅平 问题分类:大数据
最近准备做文本训练,对应的文件格式有:PPT,xls,pdf,txt等格式的文件,有没有什么框架可以快速提取很多不同类型文本的内容?
1 个回答
你以为我的心是不锈钢么
你以为我的心是不锈钢么
有的,可以看看apache tika
发布于:9个月前 (03-13) IP属地:四川省
我来回答