数据科学可视化工具正在改变研究人员和学生探索海量信息的方式。这正是“Knime在研究、教学和工业项目中的应用”活动的焦点,该活动汇集了来自系统工程与计算机工程研究生项目(PESC)和海洋工程研究生项目(PENo)的Coppe教授Geraldo Xexéo和Jean David Caprace,分别分享了使用Knime的具体经验和成果。Knime是一个用于数据分析和文本挖掘的免费开源平台。
活动还邀请了Knime公司的数据科学家Aline Bessa参与。Knime是一家拥有约250名员工的公司,创建于德国康斯坦茨大学。她解释说,Knime既是这家初创公司的名称,也是其开发的平台名称,并详细介绍了该工具如何支持数据科学的整个生命周期,涉及两个主要阶段:创建和生产。Aline强调,该平台是开源且免费的,其理念是 democratizar 数据科学,连接学术界、初创公司和工业界,以探索复杂数据。
包容性教学与概念可视化
Xexéo强调了Knime在文本挖掘和机器学习教学中的作用,特别是对于没有计算机背景的学生。通过该工具,分析流程——从文本清洗和向量化到模式与情感检测——变得可视化和直观。
“教授概念比教授编程更重要。”他表示。据他所说,Knime使得来自不同领域的学生,从社会学 to 医学,能够理解数据分析过程,而无需掌握编程语言。在课堂上进行的项目包括在线游戏中的毒性检测和数字对话中掠夺性行为的早期识别。
从课堂到工业
Jean David介绍了Knime在能源和海运等战略行业的工业应用。与Petrobras合作,开发了平台腐蚀模型和船舶能效预测系统,成果发表在《Marine Structures》和《Ocean Engineering》等国际期刊上。
其他例子包括风暴潮预测模型和供国际海事组织(IMO)使用的海事脱碳模拟。“在一次与Petrobras的会议中,我花了五分钟在Knime上构建了一个解决方案,节省了数周的工作量。”他报告说。
与语言模型的集成与新前沿
演示还涉及了Knime与语言模型(LLMs)及智能代理的集成。使用受控流程可以减少典型于大模型的幻觉,并创建协作系统,用于意图分类、数据提取和自动回复生成等任务。
“LLMs会产生幻觉,它们产生幻觉是正常的——重要的是通过结构良好的流程来控制这个过程。”Xexéo解释道,并强调了这种兼具透明度和可追溯性的方法的教学与科学价值。
具有实际影响的研究与生产力
所展示的结果强化了像Knime这样的低代码工具远不止于原型设计。由教师们及其研究小组进行的项目表明,开发时间减少了高达35%,能够处理超过1.2亿行数据的数据库,并应用于由CNPq、Petrobras、RNP和AWS资助的项目中。
数据科学的民主化
对于两位教授和Aline Bessa而言,该平台代表了一种协作和包容的工作理念,它连接了学术界与工业界,并扩大了数据科学的访问范围。其多功能性允许同一个环境既可供初学者学生使用,也可供开发复杂预测模型的研究人员使用。
此次活动不仅仅是展示一个工具,更突出了Coppe将科学转化为创新和社会效益的愿景,拉近了大学与现实世界挑战和需求的距离。
内容转载自里约热内卢联邦大学官网

