1. 概述
当用户业务系统的数据通过EXCEL、CSV文件方式推送到服务器,文件输入节点帮助用户获取远程服务器的EXCEL、CSV文件并解析数据,供后续算子处理。
2. 操作步骤
- 将数据流算子区的 文件输入 算子拖入右侧画布编辑区;

- 配置文件输入

- 数据连接:可选择配置好的FTP连接;
- 文件类型:支持CSV文件类型(EXCEL类型后续上线);
- 文件地址:手动输入文件夹地址(可设置参数,手动点击选中该参数);

- 文件名称:根据填写的正则表达式在指定FTP目录下获取匹配的文件,如果获取多个文件将针对所有文件进行union操作,文件名称支持引用参数;
- 文件编码:针对CSV文件类型,指定文件编码,支持UTF-8、GB18030、UTF-16;
- 分隔符:根据分隔符,分隔数据为多列,需要与文件中实际的分隔符保持一致才可正常解析,默认使用逗号,支持用户自定义;
- 封闭字符:将在字段数据周围加上一对封闭字符,如果字段数据本身中存在分隔符,封闭字符可以保证分隔符被解析为数据本身;
- 逃逸字符:如果字段数据中存在特殊字符(eg:双引号、tab键、\n、\t、\r、斜杠),会在特殊字符前面加上逃逸字符,可以保证特殊字符被正常解析;
- 字段解析:首行作为字段名、首行作为实际数据解析,默认首行作为字段名;当选择首行作为实际数据解析时会自动生成表头字段名col1、col2....;
- 点击获取字段,自动解析数据类型,可修改字段名和字段类型,可选择部分字段作为下游算子的输入;

3. 点击预览
查看csv解析后的数据
