KETTLE中的组件都试过了不能解析公司财务提供数据文件。按照网络爬虫思路利用htmlparser包解决了表格解析问题。
JAVASCRIPT脚本如下:
/***解析HTML信息表格***/
trans_Status = SKIP_TRANSFORMATION;
var Parser= org.htmlparser.Parser;
var TagNameFilter = org.htmlparser.filters.TagNameFilter;
var HasAttributeFilter = org.htmlparser.filters.HasAttributeFilter;
var AndFilter = org.htmlparser.filters.AndFilter;
var NodeList = org.htmlparser.util.NodeList;
//从上级获取html数据流
var parser = new Parser(FileContent); //FileContent为输入参数
var index = getInputRowMeta().size();
var filterTable = new AndFil


2565

被折叠的 条评论
为什么被折叠?



