联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

哈希表技术判别源程序HASH GAME - Online Skill Game ET 300的相似性实验报告docx

发布时间:2025-05-08 07:55:30  点击量:

  HASH GAME - Online Skill Game GET 300

哈希表技术判别源程序HASH GAME - Online Skill Game GET 300的相似性实验报告docx

  1、哈希表技术判别两个源程序的相似性实验报告Administrator2014-12-26一.问题描述实验题目:对于两个 C 语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。 要求与提示:C 语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考: Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。 扫描两个源程序所统计的所有关键字不同频度, 可

  2、以得到两个向量。如下面简单的例子所示:根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其中X1= (4 3 0 4 3 0 7 0 0 2)TX2= (4 2 0 5 4 0 5 2 0 1)T一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相似值的判别函数计算公式为:最后的相似性判别计算可分两步完成: 第一步用式(3-1)计算S,把接近1的保留,抛弃接近。的情况(把不相似的排除); 第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者 对应的程序确实可能相似(慎重肯定相似的)。 S和D的值达到什么门限才能决定取舍?

  3、需要积累经验,选择合适的阑值。3)测试数据: 做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S 并对比差异程度。4)输入输出:输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。基本要求:建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。测试数据:自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二需求分析1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。2.用户

  6、根据哈希函数放入哈希表中的指定位置的函数 函数原型:void Hashfunc(char str); 思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线)在哈希表中找是否该words为关键字,并统计频度的函数 函数原型:int Hashfind(char *words); 思路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1. (4)重置哈希表函数 函数原型:void resethash(int n); 功能:当n为0时,将指向哈希表中

  7、关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0.(5)获取单词key的函数 函数原型:int getkey(char *str,int len); 思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。 (6)判断是否为字母的函数 函数原型:int isletter(char ch); 思路:如果调进来的ch字符的ASCII值在az或AZ范围内的线)读取源程序文件中的单词的函数 函数原型:int readc(char * filename); 思路:为了读取源程序文件中的单词,所以一个字

  8、符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。 (8)将频度拷贝到数组里的函数 函数原型:void copycount(int x,int n); 功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。 (9)检查两个源程序是否相似的函数 函数原型:void check(int *x1, int *x2); 思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。(10)取模函数 函数原型:float M

  14、close(fp);接下来的是没有那两句的运行后的窗口截图如果加上那两句红色的语句后的运行窗口就是这样的后来调试时发现,(就拿文件ckey.txt中的第一个关键字为例)在没有那两句红色语句时,调试窗口是这样显示的说明在执行逐行读取关键字的那段代码时,它把每一行的换行号也读进了str数组里,导致输出时,每个关键字都做了换行,便有了上面的第一个截图。所以我的解决办法就是加入红色的那两句,即length=strlen(str); strlength-1=0; 也就是把最后的换行号替换为0.3)第三个问题出现在readc函数中。在下面代码中原本没有注销的那一语句。所以导致这样的结果:即统计不到源程序文

  15、件中的关键字的频度,均显示为0.然后进行调试发现(就以读取到的第一个单词include为例):从调试窗口可看出读取完一个完整的单词后,它自己不能给该word数组赋值0来结束,这样导致的结果将会发生在Hashfind函数中的strcmp函数中,即通过上网查资料后知道,strcmp函数进行两字符串比较时是两个字符串自左向右逐个字符相比(按ASCII值大小相比较),直到出现不同的字符或遇0为止。而我的hashtkey.hash1数组里的字符串为i,n,c,l,u,d,e0,而words数组为i,n,c,l,u,d,e,所以比较的结果是它们不相等,就统计不到关键字的频度。所以我的解决办法即注销的那句:

  17、何距离是个很奇怪的随机数,每运行一次得出的结果都不一样。原因在于在Sub函数中X数组是个局部变量,返回的X只能是个指针,此时它已经不代表刚才指向的那个数组了,然后调进Mol函数中,进行的操作也只是对X的地址进行操作,因为地址是随机数,所以返回的也是个随机数。我所以我将这D和Sub两个函数直接合并为一个D函数float D(int *x1, int *x2) /求几何距离int xN, i = 0; for (i = 0; i N; i+) /向量相减xi= x1i - x2i; return Mol(x); /再求模2.复杂度的分析 本程序中没有用到循环嵌套,所以每个函数的时间复杂度基本为O(

  18、n),空间复杂度也基本为O(n)。六使用说明,本程序的主要功能就是统计源程序之间的相似度,所以使用者只需要将要检测的源程序的txt文件放入该程序的工程文件夹中然后在修改读取的文件名便可直接运行了。七测试结果结果与实际结果相符,故可以认为该程序是成功的。八心得与体会。 1.通过本实验让我用程序对文件的操作有了更深的理解,知道了如果直接的逐行读取文件的话,换行号也会被读进去的。 2.对局部变量有了更好的理解。 3学会了建立哈希表的过程,以及更好的掌握了调试这一功能。4.由于本程序的编写和调试我是在visual studio2012进行的,所以上述截图均为在该编辑环境中进行的。使用visual st

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: