第二次实验【助睿实验指导】学生用户画像-考勤主题标签构建
【助睿实验指导】学生用户画像-考勤主题标签构建1 实验说明1.1 实验目的基于“数智教育”大赛数据集设计并实现学生多维度考勤统计助睿ETL转换流掌握ETL数据处理全流程数据接入、关联、衍生、聚合、落地解决校园考勤人工统计效率低、口径不统一的问题同时结合实验实际数据情况优化空值处理逻辑确保转换流可正常运行输出精准的多维度考勤统计结果为校园考勤管理提供数据支撑。1.2 实验环境- 工具助睿零代码在线实验平台https://lab.guilian.cn/本次实验使用助睿数智Uniplore是AI驱动的一站式数据科学平台。平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。产品官网https://www.uniplore.com/- 数据源“数智教育”大赛数据集共包含7张核心业务表- 实验设备计算机支持助睿ETL平台运行具备数据库连接权限1.3 实验范围本次实验覆盖助睿ETL转换流全流程配置包括多表数据接入、多表关联、考勤行为标签衍生、多维度聚合统计及结果落地入库重点验证数据关联的精准性及统计指标的准确性结合实验数据实际情况优化配置确保实验顺利完成。---2 转换流整体设计2.1 功能用途与业务价值本转换流替代人工Excel统计实现考勤数据从原始打卡到标准化结果的闭环处理批量输出多维度指标同时固化口径、提升效率、沉淀台账提供数据支撑且可灵活扩展新考勤类型无需修改转换流适配校园考勤管理的核心需求。2.2 核心处理逻辑转换流核心逻辑接入三大数据源→多表关联→标记考勤行为→计算核心指标→基础属性关联→落地统计结果实现全流程自动化通过助睿ETL平台可视化界面完成配置。---3 数据与标签梳理3.1 源数据说明本次转换流处理的数据来源于“数智教育”大赛数据集原始数据集共包含7张表1_teacher.csv教师信息2_student_info.csv学生信息3_kaoqin.csv考勤主表4_kaoqintype.csv考勤类型码表5_chengji.csv成绩信息6_exam_type.csv考试类型7_consumption.csv消费信息本次实验聚焦“考勤主题”核心使用以下3张表- 考勤主表3_kaoqin存储学生每日原始打卡记录、考勤行为明细- 考勤类型码表4_kaoqintype提供考勤行为标准化名称- 学生信息表2_student_info提供学生基础属性支撑维度拆分3.2 标签字段说明3.2.1 学生基础属性标签包含学生ID、学生姓名、班级ID、班级名称、性别、出生日期、政治面貌等为后续分维度统计提供核心依据。3.2.2 学生画像维度标签- 年级从班级名称中提取- 是否住校由学生信息表bf_zhusu字段映射而来- 校区类型从班级名称前缀判断3.2.3 考勤行为统计标签- 迟到次数- 早退次数- 请假次数- 没穿校服次数3.3 标签处理口径统一固化基础属性、衍生维度、考勤行为指标的处理口径确保统计结果准确、可比、可复用。---4 实验步骤含配图定位4.1 创建实验项目点击“新建项目”【配图1】平台首页-新建项目界面输入项目名称“学生用户画像标签构建”点击“确定”【配图2】项目命名界面创建成功后在数据集成页面查看新项目4.2 数据资源获取4.2.1 获取实验数据集项目创建成功后点击右上角“…”选择“打开项目”【配图4】打开项目操作界面进入文件库右键根目录点击“新建目录”【配图5】文件库根目录界面输入目录名称“数智教育数据集”点击“确定”【配图6】新建目录界面点击公共空间→数据资源【配图7】公共空间数据资源界面选择3_kaoqin.csv点击“更多”→“导出”【配图8】选择导出考勤数据界面选择导出到新建目录点击“确定”重复操作将4_kaoqintype.csv、2_student_info.csv一并导出4.2.2 建立数据源连接元数据→关系数据库→右键→新建数据源【配图11】新建数据源菜单配置MySQL连接信息连接名称、主机、端口、数据库名、驱动类型MySQL8点击“测试”提示“数据库连接成功”点击“添加”完成数据源配置4.2.3 数据导入团队私有数据库4.2.3.1 原始考勤记录表数据导入新建转换流“创建原始_学生考勤表”添加“执行一个SQL脚本”组件编写建表SQL选择数据库连接执行建表运行转换流查看执行日志【配图17】建表执行成功日志新建转换流“导入原始考勤数据”添加“CSV文件输入”【配图18】新建数据导入转换流配置文件名、编码UTF-8获取字段【配图19】CSV输入配置界面添加“表输出”连接组件配置目标表raw_attendance【配图20】表输出基本配置配置数据库字段映射【配图21】字段映射配置界面运行转换流查看日志【配图22】考勤数据导入成功日志4.2.3.2 原始考勤类型表数据导入参照上述步骤执行SQL创建raw_attendance_type表CSV输入配置列分隔符为TAB编码GB2312配置表输出并执行查看执行日志【配图26】考勤类型数据导入日志4.2.3.3 原始学生基本信息表数据导入执行SQL创建raw_student_info表添加CSV文件输入读取2_student_info.csv添加“字段选择”组件规范bf_zhusu、bf_qinshihao字段类型配置表输出并执行转换流查看导入日志4.2.4 创建学生考勤主题标签表新建转换流“创建学生考勤主题标签表”添加SQL脚本组件【配图32】新建标签表建表流编写并执行student_attendance_stats建表语句【配图33】标签表SQL配置运行转换流查看日志【配图34】标签表创建成功日志4.3 学生考勤主题标签构建4.3.1 数据转换流逻辑说明遵循数据接入—清洗整合—维度拆解—标签标记—指标计算—结果落地。4.3.2 数据接入新建转换流“学生考勤主题标签”拖拽3个“表输入”分别读取考勤记录、考勤类型、学生信息配置各表输入SQL【配图37】考勤记录表输入配置【配图38】考勤类型表输入配置【配图39】学生信息表输入配置4.3.3 数据关联考勤记录考勤类型添加“排序记录”按关联字段排序添加“记录集连接”左外连接两张表配置关联字段并完成连接4.3.4 行为标签衍生添加JavaScript组件“提取异常考勤记录”编写脚本标记迟到、早退、请假、未穿校服【配图44】异常考勤脚本代码获取输出字段并测试脚本【配图45】脚本输出字段配置4.3.5 多维度分组聚合统计添加“分组”组件按学生ID等字段分组【配图46】分组组件配置配置SUM统计各类异常次数4.3.6 关联学生信息添加排序组件按stu_id排序【配图48】学生信息排序配置添加记录集连接关联考勤与学生信息【配图49】第二次记录集连接4.3.7 字段选择移除冗余字段添加“字段选择”保留核心字段【配图50】字段选择配置查看输出字段【配图51】输出字段预览4.3.8 空值处理添加“替换NULL值”组件【配图52】替换NULL值配置将空值统一替换为“未知”【配图53】空值替换字段设置4.3.9 学生基础属性标准化处理4.3.9.1 住校状态映射添加“值映射”将0/1映射为“否/是”【配图54】值映射配置界面4.3.9.2 从班级名提取年级添加JavaScript提取高一/高二/高三【配图55】年级提取脚本4.3.9.3 校区类型判定添加JavaScript按前缀判定新/老校区【配图56】校区判定脚本4.3.10 结果入库添加“表输出”目标表student_attendance_stats【配图57】表输出基本配置配置字段映射4.3.11 执行工作流启动转换流查看运行日志进入数据探查查看结果表【配图61】数据探查结果预览---5 实验结果完成MySQL数据源配置与三张原始表的创建与数据导入。实现考勤记录、考勤类型、学生信息三表关联。完成空值处理、字段标准化、标签衍生与指标统计。成功生成学生考勤主题标签表student_attendance_stats。输出字段包含学生基础信息、年级、校区、住校状态及四类异常考勤统计可直接用于学生用户画像分析。6 实验总结本次实验完整完成了从数据接入、多表关联、标签衍生、指标聚合到结果落地的ETL全流程操作熟练掌握了CSV输入、表输入/输出、排序、记录集连接、JavaScript、分组、字段选择、空值替换等组件用法。通过标准化考勤统计口径实现了校园考勤数据自动化加工与标签化输出达到实训教学与业务应用双重目标。