DataCon(中文译名：“哋它亢”) 2024大数据安全分析竞赛盛大启动

DataCon(哋它亢) 大数据安全分析竞赛，自2019年由奇安信集团与清华大学联合发起以来，已经成为了国内乃至国际上具有重要影响力的大数据安全分析赛事。作为国内首个以大数据安全分析为核心目标的大型竞赛，DataCon(哋它亢)旨在选拔和培养一批能够应对未来网络安全挑战的积极防御型人才。经过五年的发展，DataCon(哋它亢)不仅成为了一个展示顶尖网络安全技术与人才的重要舞台，更是在推动网络安全领域技术创新和人才培养方面发挥了不可替代的作用。

竞赛亮点

实战导向：DataCon(哋它亢)的最大特色在于其“实战化”原则，通过模拟真实的网络环境中的攻防对抗场景，全面考察参赛者运用新技术方法解决复杂安全问题的能力。
多元合作：本届比赛得到了清华大学网络科学与网络空间研究院、奇安信集团、蚂蚁集团、广东联通、百度安全、赛尔网络、北京航空航天大学国家卓越工程师学院等多家机构的大力支持。此外，复旦大学计算机科学技术学院、西安交通大学、腾讯安全应急响应中心、北京蓝莲网安科技有限公司等单位也将作为协办方加入到此次竞赛中来。
聚焦前沿：比赛特别设置了五大核心赛道——AI安全、软件供应链安全、网络基础设施安全、网络黑产分析以及漏洞分析，紧密围绕行业热点议题展开，旨在解决企业面临的实际业务需求，同时促进高校与知名安全企业的深度合作，共同探索和实践大数据分析在网络安全领域的应用。

时间安排

报名时间：10月10日 12:00 至 11月11日 18:00
线上初赛：11月13日 10:00 至 11月22日 18:00
线上答辩：11月26日至11月27日
颁奖典礼：具体日期待定，敬请关注官方公告

DataCon(哋它亢)2024不仅是对参赛者技术能力的一次大考，更是为所有关注网络安全领域的人士提供了一个了解最新安全趋势、交流实践经验的绝佳机会。我们诚邀各界人士积极参与，共同见证这一场汇聚智慧与创新的安全盛会！

赛道详情

AI安全赛道

在当今数字化时代，人工智能技术的迅猛发展正深刻改变着我们的生活和工作方式。其中，大语言模型（LLM）因其强大的语言理解和生成能力而备受瞩目，广泛应用于自然语言处理、图像生成、语音识别等多个领域。然而，随着这些技术的应用日益普及，一系列新的安全挑战也随之而来。DataCon(哋它亢)2024 AI安全赛道特设两大挑战，旨在探索和解决这些前沿问题。

挑战一：大模型幻觉触发与缓解

背景介绍

大语言模型虽然在各种任务中表现出色，但其生成的内容有时会出现虚构或错误的情况，这种现象被称为“幻觉”。幻觉不仅影响了模型输出的准确性，还可能引发严重的社会和安全问题。例如，如果一个智能助手在提供投资建议时出现了错误信息，可能会导致用户遭受经济损失。因此，深入研究幻觉现象的原因，并开发有效的检测和缓解措施，对于保障AI系统的可靠性和安全性至关重要。

挑战内容

大模型幻觉触发：参赛者需要设计一种方法，能够在保持原始文本语义不变的前提下，增加大模型生成幻觉的可能性。这要求参赛者深入理解模型的工作原理，通过调整输入数据的方式，激发模型产生错误或虚构内容。比赛提供的数据来源于奇安信的安全业务数据和网络安全领域的专业知识，参赛者需要利用这些资源，精心构造能够触发幻觉的文本。
大模型幻觉缓解：另一项任务则是设计一个检索增强方法（RAG），帮助大模型在生成答案时能够有效地参考外部知识库，提高回答的准确性和可信度。参赛者需要开发一套系统，能够高效地从大量文档中检索相关信息，并将其整合进模型的输入中。这不仅考验参赛者的算法设计能力，也要求他们具备良好的数据处理和文本理解技巧。

挑战二：大语言模型多轮对话越狱挑战

背景介绍

尽管大语言模型在知识存储和理解能力上表现出色，但在面对恶意用户的攻击时，它们也可能被诱导生成非法或不道德的内容。特别是在多轮对话场景中，攻击者可以利用多步交互策略，逐步绕过模型的安全防护机制，达到越狱的目的。此类行为不仅损害了用户的体验，还可能触犯法律法规，造成不良的社会影响。因此，研究大语言模型在多轮对话中的安全性和防护措施，对于确保AI技术的健康发展具有重要意义。

挑战内容

本挑战要求参赛者在黑盒测试环境下，设计一种有效的多轮对话越狱诱导方法。参赛者需要将给定的危害问题分解为若干个子问题，通过多轮互动逐步引导模型生成不符合规则的内容。具体来说，参赛者需要考虑以下几个方面：

策略设计：如何构建合理的对话策略，使每一步都朝着最终的目标推进，同时避免被模型的安全机制所阻止。
数据利用：充分利用奇安信提供的安全业务数据和网络安全领域的知识，研究模型的行为模式，发现潜在的安全漏洞。
自动化实现：开发自动化工具，能够根据预设的策略自动生成对话内容，提高越狱成功的概率。

通过这两个挑战，DataCon(哋它亢)2024 AI安全赛道不仅为参赛者提供了展示才华的机会，也为推动AI安全技术的发展做出了积极贡献。我们期待着各位参赛者的精彩表现，共同为构建更加安全可靠的数字世界努力！

软件供应链安全赛道

随着软件开发过程的不断演进，开源软件包已成为现代软件开发不可或缺的一部分。它们不仅加速了开发周期，降低了成本，同时也促进了技术的共享与创新。然而，开源软件包的广泛使用也带来了新的安全挑战。攻击者通过在开源软件源中植入恶意软件包，对开发者及其系统构成了严重威胁。近年来，此类供应链攻击事件频发，引起了业界的高度关注。因此，如何有效检测和防范恶意软件包，成为当前亟待解决的问题之一。

赛道背景

软件供应链安全赛道聚焦于开源软件包的安全性问题，特别是恶意软件包的检测。本赛道旨在通过竞赛的形式，激励参赛者开发出高效、准确的检测方法，以应对日益复杂的软件供应链安全威胁。我们基于真实世界的数据，设计了两个面向不同生态系统的数据集挑战，希望借此机会推动相关技术的发展，提升整个行业的安全水平。

挑战内容

挑战一：npm恶意软件包识别

数据集描述：参赛者将获得一个包含50000个npm软件包的数据集，其中约有500个软件包被植入了恶意行为。这些恶意行为可能包括但不限于恶意代码注入、后门程序、信息窃取等。
任务目标：参赛者需要从这些软件包中尽可能准确地识别出所有的恶意软件包，并按照指定格式提交最终的检测结果。
评估标准：我们将根据检测的准确率（True Positive Rate）、误报率（False Positive Rate）以及整体性能综合评分。

挑战二：pypi恶意软件包识别

数据集描述：另一个数据集包含50000个pypi软件包，同样约有500个软件包含有恶意行为。这些恶意行为类型与npm数据集相似。
任务目标：参赛者需要对这些pypi软件包进行检测，识别出所有恶意软件包，并按要求提交检测结果。
评估标准：与npm挑战相同，我们将根据准确率、误报率及整体性能进行综合评分。

技术要求

参赛者可以采用多种检测技术来完成任务，包括但不限于：

静态分析：通过对软件包的源代码或二进制文件进行分析，检测其中是否存在恶意代码或可疑行为。
动态分析：运行软件包并在沙箱环境中监控其行为，识别潜在的恶意活动。
行为分析：结合历史数据和行为特征，建立机器学习模型，预测软件包是否包含恶意行为。
组合方法：鼓励参赛者结合多种技术手段，提高检测的准确性和效率。

参赛指南

数据获取：参赛者需通过官方渠道下载数据集及相关文档。
提交格式：详细说明提交结果的格式要求，确保所有参赛者都能清晰理解。
技术支持：提供在线论坛和技术支持团队，解答参赛过程中遇到的问题。
评审流程：明确评审的时间节点和标准，确保公平公正的评选过程。

通过本次软件供应链安全赛道的比赛，我们希望能够汇集各方智慧，共同探索和解决开源软件包安全问题的新思路和新方法。欢迎所有对软件安全感兴趣的技术爱好者和专业人士积极参与，共同为打造更加安全可靠的软件生态系统贡献力量。

网络基础设施安全赛道

随着互联网技术的快速发展，网络基础设施的安全问题日益凸显。特别是域名系统（DNS）和蜜罐技术，作为网络基础设施的关键组成部分，面临着诸多安全挑战。DataCon(哋它亢)2024网络基础设施安全赛道特别设置了两个挑战，旨在提升参赛者在这些领域的安全意识和技术能力。

挑战一：DNS开放解析器识别与攻击利用

背景介绍 DNS是互联网的基石之一，负责将域名转换为IP地址。在DNS系统中，开放解析器由于其广泛的可用性和配置上的漏洞，成为了攻击者常用的目标。攻击者可以利用开放解析器发起放大攻击，通过伪造的DNS请求将大量响应数据发送到受害者的网络，导致受害者网络资源耗尽或服务中断。这种攻击方式不仅效率高，而且难以追踪，给网络安全带来了巨大威胁。

挑战内容

开放解析器识别：参赛者需要设计并实现一种网络扫描和探测技术，用于识别存在漏洞的开放解析器。这一步骤要求参赛者具备使用网络扫描工具的能力，并能够准确识别潜在的漏洞。
攻击方法选择：在识别出开放解析器后，参赛者需要选择合适的攻击方法，以最大化攻击效果。这要求参赛者熟悉不同DNS攻击方法的原理和实施步骤。
攻击实施：参赛者将在虚拟仿真环境中模拟攻击者的行为，发起攻击并验证其效果。攻击效果将每5分钟评估一次，最终成绩以最高值为准。

技术要求

网络扫描工具：如Nmap、Masscan等，用于扫描和探测网络中的开放解析器。
DNS攻击技术：包括但不限于DNS放大攻击、DNS缓存中毒等。
攻击评估：通过流量监测和日志分析，评估攻击的效果和影响。

挑战二：蜜罐模拟与对抗

背景介绍 蜜罐是一种用于诱捕和分析网络攻击的技术手段，通过部署一些存在漏洞的主机或网络服务作为诱饵，吸引攻击者的注意力。蜜罐不仅可以帮助安全专家了解攻击者的行为模式，还可以为防御措施的改进提供宝贵的数据支持。然而，随着攻防技术的不断升级，攻击者也逐渐掌握了识别蜜罐的方法，导致传统蜜罐的有效性大大降低。因此，设计一个高效且难以被识别的高交互蜜罐成为了一个重要的研究方向。

挑战内容

蜜罐设计：参赛者需要设计并实现一个高交互蜜罐，该蜜罐应具备以下特点：
- 功能实现：蜜罐应尽可能贴近真实服务，提供真实的交互体验。
- 防识别机制：蜜罐应具备防止被攻击者识别的特性，避免暴露蜜罐的真实身份。
对抗测试：参赛者将从攻击者视角出发，向其他参赛者设计的蜜罐发送扫描流量，测试其防御能力和识别难度。比赛将根据蜜罐的交互质量和防识别能力进行综合评分。

技术要求

蜜罐技术：了解并掌握常见的蜜罐技术和工具，如Cowrie、Dionaea等。
协议交互：能够模拟常见网络协议的交互过程，如HTTP、FTP、SSH等。
防识别策略：研究和实现防止蜜罐被识别的方法，如动态响应、随机化行为等。

参赛指南

数据获取：参赛者需通过官方渠道下载数据集及相关文档。
提交格式：详细说明提交结果的格式要求，确保所有参赛者都能清晰理解。
技术支持：提供在线论坛和技术支持团队，解答参赛过程中遇到的问题。
评审流程：明确评审的时间节点和标准，确保公平公正的评选过程。

通过本次网络基础设施安全赛道的比赛，我们希望能够激发参赛者的创新思维，推动网络基础设施安全技术的发展。欢迎所有对网络安全感兴趣的选手积极参与，共同为构建更加安全的网络环境贡献力量。

网络黑产分析赛道

网络黑产活动严重影响了互联网的健康发展和社会秩序，尤其在医疗挂号和搜索引擎优化领域，这些问题尤为突出。DataCon(哋它亢)2024网络黑产分析赛道特别设置了两个挑战，旨在通过竞赛的形式，激励参赛者探索和提出有效的解决方案，打击网络黑产行为。

挑战一：黄牛挂号日志分析

背景介绍 顶尖三甲医院拥有丰富的医疗资源，尤其是热门科室和知名专家的号源常常供不应求。这种稀缺性吸引了大量黄牛，他们利用技术手段或人力抢占医院的挂号资源，然后高价倒卖给患者，牟取暴利。黄牛行为不仅加剧了普通患者的挂号难度，还影响了医疗系统的公平性，导致医院服务秩序混乱，损害了患者的合法权益。尽管有关部门采取了多项措施，如实名制挂号、引入动态验证码和加强法律监管，但黄牛问题仍未得到彻底解决，成为困扰医院和患者的顽疾。

挑战内容

数据集描述：参赛者将获得大量脱敏的挂号日志数据，这些数据包含了挂号时间、用户ID、挂号科室、医生信息等字段。
任务目标：通过对这些数据进行深入分析，探索新型黄牛对抗与检测手段。具体任务包括但不限于：
- 黄牛行为识别：利用数据分析方法识别出疑似黄牛的用户和行为模式。
- 行为特征提取：提取黄牛行为的关键特征，如高频挂号、跨科室挂号等。
- 模型构建：构建机器学习模型，对黄牛行为进行分类和预测。
- 策略建议：提出具体的对抗黄牛的策略和建议，包括技术手段和管理措施。

技术要求

数据分析工具：如Python、Pandas、NumPy等，用于数据清洗和预处理。
机器学习框架：如Scikit-Learn、TensorFlow等，用于模型构建和训练。
可视化工具：如Matplotlib、Seaborn等，用于结果可视化。

奖励机制 本赛题的优胜团队将有机会与顶级医院进行深度合作，共同探讨和实施黄牛对抗策略，为改善医疗服务环境做出贡献。

挑战二：搜索引擎优化

背景介绍 搜索引擎优化（SEO）是一种通过了解搜索引擎的工作原理，提高网站在搜索引擎中的排名，从而增加网站的可见度和访问量的技术。然而，一些不法分子滥用SEO技术，发展出“黑帽SEO”，通过欺骗或操纵搜索引擎算法获得不正当排名优势。常见的黑帽SEO手法包括关键词堆砌、链接农场等，这些行为严重影响了用户体验和互联网生态。搜索引擎公司持续更新算法，以打击这些非法行为。

挑战内容

任务目标：参赛者需要在真实的百度搜索引擎中，运用合法、有效的SEO技巧，将指定的网页推向搜索结果的顶峰。具体任务包括但不限于：
- 关键词研究：选择合适的关键词，确保它们与网页内容高度相关。
- 内容优化：优化网页内容，提高质量和可读性。
- 链接建设：通过合法手段增加高质量的外部链接。
- 技术优化：优化网站结构和加载速度，提高用户体验。
- 效果评估：定期监测和评估SEO效果，及时调整优化策略。

技术要求

SEO工具：如Google Analytics、SEMrush等，用于关键词研究和效果评估。
- 内容管理系统：如WordPress、Joomla等，用于创建和管理网页内容。
- 链接建设工具：如Moz Link Explorer、Ahrefs等，用于链接建设和分析。
- 网站性能工具：如Google PageSpeed Insights、GTmetrix等，用于优化网站性能。

参赛准备

域名准备：参赛者需提前准备好参赛所需的域名，并自行进行搜索引擎收录提交尝试。具体要求详见赛题指南：链接

评估标准

关键词排名：参赛网页在指定关键词搜索结果中的排名。
流量增长：参赛网页的有机搜索流量增长情况。
用户体验：网页加载速度、内容质量和用户互动情况。

通过本次网络黑产分析赛道的比赛，我们希望能够激发参赛者的创新思维，推动网络黑产防治技术的发展，为构建更加健康、公平的互联网环境贡献力量。欢迎所有对网络安全和SEO技术感兴趣的选手积极参与，共同迎接挑战！

漏洞分析赛道

随着网络安全威胁的日益增多，漏洞分析和挖掘成为保障信息系统安全的重要手段。DataCon(哋它亢)2024漏洞分析赛道特别设置了三个挑战，旨在通过竞赛的形式，激励参赛者探索和应用先进的技术手段，提高漏洞分析和挖掘的效率与准确性。

挑战一：大模型应用——情报提取

背景介绍 在漏洞挖掘过程中，对特定目标的历史漏洞挖掘经验的学习是至关重要的。然而，传统的搜索引擎在面对海量数据时往往效率低下，难以快速有效地获取所需的关键信息。近年来，随着人工智能大模型技术的发展及其在自然语言处理方面的显著进步，利用大模型从海量漏洞分析文章中提取关键知识已经成为一种可行的方法。

挑战内容

任务目标：参赛者需要利用大模型技术，对漏洞分析文章进行高效梳理，从中提取出有价值的摘要信息。具体任务包括但不限于：
- 文献整理：收集和整理相关的漏洞分析文章。
- 文本预处理：对文本进行清洗、分词、去噪等预处理操作。
- 关键信息提取：利用大模型技术提取文章中的关键信息，如漏洞类型、影响范围、修复方法等。
- 摘要生成：生成简洁明了的摘要，概述文章的主要内容和关键点。
- 结果验证：对生成的摘要进行验证，确保其准确性和完整性。

技术要求

大模型技术：如BERT、T5等，用于自然语言处理任务。
文本处理工具：如NLTK、spaCy等，用于文本预处理。
数据管理工具：如Pandas、NumPy等，用于数据管理和分析。

挑战二：大模型应用——漏洞挖掘

背景介绍 漏洞挖掘是网络安全工作中不可或缺的一环，但传统的审计方法耗时耗力，且静态分析技术存在一定的局限性。随着人工智能技术特别是大模型的发展，通过对代码中的语义进行深度分析，实现更为精准的漏洞挖掘已经成为可能。这种新型的技术手段不仅提高了漏洞检测的准确性，还极大地提升了工作效率。

挑战内容

任务目标：参赛者需要自行编写程序，并结合大模型技术自动化识别出漏洞样例中存在的安全隐患。具体任务包括：
- 知识提取：从已知漏洞数据库中提取相关知识，用于训练大模型。
- 代码分析：利用大模型技术对代码进行深度分析，识别潜在的漏洞。
- 漏洞识别：对识别出的漏洞进行分类和标注，生成详细的漏洞报告。
- 误报消除：通过进一步分析和验证，减少误报率，提高检测的准确性。

技术要求

大模型技术：如BERT、RoBERTa等，用于代码分析和漏洞识别。
代码分析工具：如AST解析器、CFG生成器等，用于代码结构分析。
漏洞数据库：如CVE、NVD等，用于获取已知漏洞信息。

挑战三：真实设备漏洞挖掘

背景介绍 在万物互联的时代，物联网设备已经成为我们生活中不可或缺的一部分。然而，这些连接万物的设备也带来了前所未有的安全挑战。为了提高物联网设备的安全性，本挑战要求参赛者对真实设备进行漏洞挖掘，发现并报告其中存在的0day安全漏洞。

挑战内容

任务目标：主办方提供12个真实目标设备，参赛者需要尝试发现并报告设备中存在的0day安全漏洞。具体任务包括：
- 漏洞发现：利用各种技术手段，如逆向工程、模糊测试等，发现设备中的安全漏洞。
- 漏洞报告：撰写详细的漏洞报告，包括漏洞类型、影响范围、复现步骤等，并提交至补天平台（https://www.butian.net/）。
- 奖金分配：第一个满足比赛要求且验证通过的0day漏洞，将获得该目标的全部奖金。其他漏洞收录情况，按照补天漏洞收录标准判定。

技术要求

逆向工程工具：如IDA Pro、Ghidra等，用于反编译和分析固件。
模糊测试工具：如AFL、boofuzz等，用于自动化测试和漏洞发现。
漏洞验证工具：如Burp Suite、Wireshark等，用于漏洞复现和验证。

参赛准备

目标设备：参赛者需提前访问提供的链接，查看目标设备及其详细信息。
- 奖金规则：详细奖金规则和分配方式见赛题指南：链接

通过本次漏洞分析赛道的比赛，我们希望能够激发参赛者的创新思维，推动漏洞分析和挖掘技术的发展，为构建更加安全的网络环境贡献力量。欢迎所有对网络安全感兴趣的选手积极参与，共同迎接挑战！

哋它亢

DataCon(中文译名：“哋它亢”) 2024大数据安全分析竞赛盛大启动

竞赛亮点

时间安排

赛道详情

AI安全赛道

挑战一：大模型幻觉触发与缓解

挑战二：大语言模型多轮对话越狱挑战

软件供应链安全赛道

赛道背景

挑战内容

挑战一：npm恶意软件包识别

挑战二：pypi恶意软件包识别

技术要求

参赛指南

网络基础设施安全赛道

挑战一：DNS开放解析器识别与攻击利用

挑战二：蜜罐模拟与对抗

参赛指南

网络黑产分析赛道

挑战一：黄牛挂号日志分析

挑战二：搜索引擎优化

漏洞分析赛道

挑战一：大模型应用——情报提取

挑战二：大模型应用——漏洞挖掘

挑战三：真实设备漏洞挖掘

最新文章