本文原发自澎湃新闻·湃客频道,经“湃客工坊”(ID: thesparker)授权转载。
文 /董悦 闫一帆 苏子涵 付峻莹
图 /董悦 姜俊强 刘紫璇
指导老师 /白净
编辑 /章靛
小丁在一所双一流高校读研一,有一天在QQ空间发现校友王伟发了一条长文,怀疑自己的论文被查重网站出卖,被人买去当作自己的本科毕业论文提交,在学校倒查毕业论文质量时,被发现查重率高达90%的情况,抄袭者甚至“连致谢都一字未改”。王伟在长文中称自己和抄袭者,总有一个会回到高中文凭。
小丁没想到,十天后自己也面临了同样的问题,和她一起被“毕业论文重复率过高”困扰的还有自己的16个本科同学,大家被教务员告知,本科毕业论文重复率过高,如果不是跟自己之前发表的论文重合,那就存在抄袭嫌疑。
遇到同样问题的17个人被拉到一个群,有人忍不住在群里发问,“我们要证明‘我的论文是我写的’这种命题吗?”看着同学发在群聊中高达98%查重率的报告,小丁联想到王伟的那篇长文,心口像被塞了一大团棉花,堵得慌。
王伟发布在qq空间的长文
根据教育部数据,2019年我国有约64万硕博研究生、近760万普通本专科学生(本科生395万)毕(结)业,这还不包括成人本专科、网络本专科学生。学生在毕业前要过的最后一关便是通过毕业论文答辩。
注:上图只统计了本科生数据,未统计大专生数据
近年来,为杜绝学术不端行为,教育部发布了关于印发《本科毕业论文(设计)抽检办法(试行)》的通知,其中第四条要求本科毕业论文抽检每年进行一次,抽检对象为上一学年度授予学士学位的论文,抽检比例原则上应不低于2%。通知发布后,多所高校开始先一步进行校内自检。
“亦真亦假”的查重网站
“论文是我一个字一个字写出来的,尽管可能写得不好,但是绝对和抄袭没有任何关系。”小丁拿出了当初自行查重的报告,检测结果那一栏显示“去除本人已发表文献复制比”仅有0.3%,并且该数据与论文提交到学校系统时显示的数据保持一致。
小丁说,自己论文写得很赶,稿子只发给导师看过,没有对外泄露过。自己没有抄袭,学校更不可能故意泄露学生的论文,那么问题只能出在毕业论文自行查重那一步。
一年前,读大四的小丁并不清楚知网不提供个人查重服务,“我是在百度上搜知网查重,点开一个网站觉得挺正规,最重要的是它域名里写了cnki,并且它的页面标签长得和知网一模一样”,小丁回忆道,“我当时觉得那就是知网。”
同样,用360、Bing等搜索引擎查询 “论文查重”,出现在首页的是PaperPass、PaperOK、PaperWord、PaperRay、PaperRed等注明是广告的查重服务链接。而知网、维普、万方这三大国内权威论文检测平台,并未出现在首页上。
小丁本科同学麋鹿也怀疑是查重网站泄露了自己的论文。
麋鹿是在淘宝上购买的查重服务,“淘宝上很便宜,并且我挑选的也是好评很多的查重网店。”淘宝店铺向询问的学生保证他们服务的正规性,表明他们使用的是“知网官方的检测机会”,并以毕业季检测机会紧张来催促学生下单。
购买服务之后,店家会提供一个自助查重地址,要求学生进入这个地址所指向的网站进行查重,而麋鹿在淘宝店铺中购买的查重服务所指向的链接,如今在微信中已经涉嫌欺诈被举报而无法打开,但复制链接在其他浏览器中仍然可以打开。
这些“查重网站”到底是何方神圣?早在2012年,知网官方就在网站上发布公告,声明“从来没有对任何个人和单位提供所谓的自助检测系统,所有声称‘与官网对接的自助系统’均为假冒行为”。
然而,以“论文查重”为关键词在天眼查搜索,可以查到106家相关公司。其中既包括中科院、北大同方等有相关查重专利的高校和科研机构,也包括自称“知网查重”的多家小微企业。
除高校、科研机构之外的96家论文查重公司中,有75家处于存续状态。对企业经营范围进行词频统计,可以发现其表述较为暧昧,集中在技术、教育、服务和零售等方面,论文查重并不明显。
这些公司通过在淘宝、京东、拼多多等平台开店,吸引买家。电商平台对论文查重服务的监管也近乎于无。在淘宝平台搜索“论文查重”,可以看到不少在架商品,热门店铺的宝贝描述和图标均和知网、万方等正规查重机构十分相似。
不同平台对论文查重的收费标准和数额都参差不齐。根据平台给出的价格大致划分区间,其中按篇计价的大多100元-400元/篇,多半报价在300元-400之间。而按千字计价的4个区间中,大多数报价分布在1.1-2元/千字。
某电商平台的“论文查重”商品
“我的论文被卖了吗?”
学计算机的刘刚也在淘宝购买了查重服务,但他不认为自己的毕业成果会被店家泄漏,因为他做的是毕设工程论文。
除了文本之外,他的毕业成果中还包含配套源码和工程文件,这两项他只提交给了学校,“没有这两项,论文泄漏别人也用不了。”因此可能是知网的查重算法有漏洞,“查重率基本100%,连致谢中指导老师姓名,代码里学校的相关标识、域名都一致,这种情况应该是和自己之前提交查重的论文重复了。店家给的确实是知网官方报告,所以我这样判断。”
知网查重究竟是如何进行的?如何判定自己的论文重复率过高是由于被泄露贩卖还是算法漏洞?
查重的本质是将学生提交的论文文本,与数据库中已有文本进行相似性比较,因此数据库大小和算法精确度都会影响查重率。数据库越大,可比对的文章越多,查重的准确度就越高,因此,只有像知网、万方、维普这样的大型资料库才有条件开展查重服务。
CNKI科研诚信管理系统研究中心表明,其数据库检测范围涵盖中国学术期刊网络出版总库、中国博士论文网络出版总库、中国优秀硕士论文网络出版总库、中国报纸全文数据库等,除此之外,知网独有的大学生论文联合对比库收录了历届本科生毕业论文,该库于每年春节前更新一次,它的存在让本科生们没办法再“借鉴”之前学长学姐的毕业论文。知网利用其研发的算法海量比对文献资源和网络资源,并创建一份完整的文献复制报告单,即毕业生论文查重报告。
据知网工作人员介绍,在查重过程中,学生本人已发表的论文会被排除在外,即算法会自动排除“自己抄自己”的情况,所以一般情况下,学生顺利毕业一年后再查,不会出现查重率高的情况。工作人员强调,学生必须使用高校提供的知网查重渠道,如果使用了第三方渠道进行自费查重,那么第二年的结果就可能变得复杂。
知网自称,一直以来只与高校、科研院所、期刊编辑部和出版社等学术单位进行合作,为这些学术单位提供论文查重检测机会,并明确用户只能检测合同规定范围内的文献。在高校-知网的查重流程中,高校一般以合作的方式从知网获得免费的限量查重名额,并将账号、密码分配给应届毕业生。学校在分配账号的过程中,容易出现泄露的危险。
2020年4月7日,知网发布公告称,近年来不法分子利用合法使用机构管理漏洞和个别管理人员非法倒卖等途径盗用或窃取账号,进而大肆牟利,用户单位如果发现账号泄露或接到账号泄露通知,应调查泄露情况并在确认后报警。对于合作高校账号信息泄露的情况,知网将取消其包年服务模式或核减服务量。
在中国裁判文书网检索“知网”“查重”,仅能找到两个相关案例的3份判决书。案件被告人均涉及盗窃或非法购买知网查重账号,通过盗用高校学生的查重权限帮他人进行论文查重并获利。这两例盗窃刑事案件分别由广东省中山市第一人民法院和广州市番禺区人民法院于2019年和2020年宣判,被告被处有期徒刑并处罚金,但刑期较短。
根据刑事判决书及相关报道,不难发现高校安排毕业生进行论文查重时存在多处风险,从账号、密码到论文文本,都可能在不同环节泄露,被不法分子盗用和贩卖。
在非正规查重平台进行检查时,学生往往应商家要求抹去真实姓名提交论文,所以论文很容易被盗用发表或被知网系统误判为已发表论文,具体情况需要根据查重检测报告来判断。
知网工作人员表示,如果报告单中复制比对应最高的文章明确地指出了单位和作者,那么这篇论文很有可能已经被泄露盗用;如果复制比对应最高的文章没有作者和单位信息,那就有可能是使用非正规平台检测时不规范命名所造成。
明知山有虎,偏向虎山行?
4月14日,南京大学教学运行服务中心发布《关于开展2021年本科毕业论文(设计) 中期检查工作的通知》,特别提醒学生不要在南大毕设系统之外的任何机构和平台进行查重检查,以免论文被盗用、窃取和倒卖等,影响正常毕业。同时,知网也一再提醒学生,绝对不要去淘宝这类渠道购买检测服务,有查重需求,可与学校管理部门沟通。
实际上,当学生有查重需求时,还是会优先考虑第三方查重。有些学生不知道知网查重不对个人开放,被忽悠购买了第三方服务;而有些学生,明知道第三方查重风险很大,但依然自费查重。
驱使他们这么做的主要原因是,高校提供的免费查重服务大多有次数限制,一般是1到2次,如果学生无法在有限的查重机会中达成学校要求的标准,可能将无法答辩,甚至要延毕,所以学生通常会提前做查重。
知网规定,连续13个字相同便会被认定重复,而教育部规定,对涉嫌存在抄袭、剽窃、伪造、篡改、买卖、代写等学术不端行为的毕业论文,高校应按照相关程序进行调查核实,对查实的应依法撤销已授予学位,并注销学位证书。
“尽管毕业论文是我自己一个字一个字写出来的,但是万一重复了呢?一些专有名词、专有解释很长,很容易重复,我怎么知道我的一些表述没有和之前的学长学姐重复呢,我没有学术不端,但是我依然要检测,学校只提供一次查重机会,用完就没了,万一不能再提交影响我毕业怎么办?”自费查重会有论文泄漏以及其他风险,而使用学校提供的一两次查重机会,也许会面临毕不了业的风险。
小林认为,学校应及时告诫学生第三方查重的危险,而不仅仅是警告学生“不要抄袭否则剥夺学位”。
在豆瓣上,有同学称自己花720元从网上购买知网查重服务,结果显示达标。但到学校提供的正规知网平台查重时,结果却是不达标。虚假查重坑钱不说,还有可能导致学生延毕。
各种不规范的论文查重服务为何屡禁不止,甚至有愈演愈烈的趋势?某985高校曾与官方查重平台有过合作的老师认为,学生的论文查重出现问题,会影响到学生毕业,但并不影响正规查重平台的直接利益,正规平台除了发布声明外,并无开展大规模打击行动。
那么知网为何不开放个人检测?知网工作人员解释,知网不对个人开放是因为系统开发的最初目的是服务于机构管理部门,而机构不希望个人去检测,否则管理部门无法了解到论文真实的抄袭或重复情况,“开放个人自费查重有悖于我们做学术不端检测工作的初心,也有悖于高校教学质量工作的思路。”
临近毕业季,论文查重需求量巨大,也有正规机构看中了商机。相对于知网不对个人开放服务,作为万方数据旗下的万方检测系统(运营授权商为湖南学刊联信息科技有限公司),面向个人开放查重服务,论文万字以内30元。今年4月30日,学信网宣布与万方数据合作,为应届毕业生提供正规、安全的文献相似性检测服务。拥有学信网账号可获得一次免费查重机会。
对于大多数只认知网查重结果的高校来说,是否接纳万方的查重结果呢?严把毕业论文质量关,需要多方协同。在查重环节,正规军不能满足需要,就会冒出各种杂牌军浑水摸鱼,对此视而不见,就是漠视广大学生的利益。