技术
1. 中文ELECTRA模型
今天,哈工大讯飞联合实验室放出了基于更大训练语料的中文ELECTRA预训练模型,由于今天时间主要用在了分析数据上,等有时间做个基于剧本内容领域的ELECTRA预训练模型。
今天,哈工大讯飞联合实验室放出了基于更大训练语料的中文ELECTRA预训练模型,由于今天时间主要用在了分析数据上,等有时间做个基于剧本内容领域的ELECTRA预训练模型。
来源:冯大辉微博
最近开发中需要用到词向量检索,主要用于寻找某一个词的近义词,然后做近义词替换,增加语料数量,提升模型的泛化性。之前腾讯公开了一个800万词200维的词向量,上次直接使用 Gensim 载入,足足花了将近半个小时,虽然可以通过减少载入词的数量来提升速度,但是对于我来说,在资源足够的情况下,一次性全部载入,然后做成在线服务随时调用是最好的了。
这是今天着重学习的库,最终做了一个剧本数据分析的实时交互网站,个人感觉效果不错,这种方式我可以快速验证算法产品原型,而不需要依赖前端的协助,提高开发效率,以后也可以作为个人业余项目的Demo展示工具。