毕业生就业数据分析系统开发

计算机信息工程学院毕业设计说明书

毕业生就业数据分析系统开发

摘要

高校毕业生的就业问题已经成为全社会都关注的热点问题。这些年来高校招生规模逐年扩大，不断增加的毕业生数目给高校的就业管理工作造成了很大的压力。在这种形势下，如果仍然采用传统的毕业生管理办法，不仅仅工作效率低下，而且工作质量不高，很容易发生错误。

目前对高校毕业生的就业状况分析是较为简单的，大多仅仅按学校的就业率和专业就业率来进行评价，显得片面缺乏科学性。根据这一情况，借助计算机对毕业生就业信息进行挖掘，对如今的教学质量和学生工作质量进行科学的综合分析，寻找影响毕业生就业困难的原因，以便对我们今后的教学和学生工作提出指导性的建议。

本课题针对学生的性别、素质培养、综合成绩、社会实践等方面在学生就业所反应的情况建立一个数据挖掘分析模型，由此得到对教学质量和学生工作质量评价的科学的新方法。针对毕业生就业情况建立数据挖掘分析模型是数据挖掘分析方法的一个新尝试，这将进一步促进数据挖掘理论的发展，并且拓宽了数据挖掘分析方法的应用领域，同时对教学质量分析和学生工作质量分析提供科学评价的新方法。

关键字：数据挖掘；贝叶斯定理；数据库

Abstract

Development Of Analysis System for Graduate Employment Data

Abstract

The employment of university graduates has already became the hot topic which draws much attention around the entire society. As the university recruitment of students scale is expanding year by year gradually, the increasing number of graduate students has created huge pressure for university's supervisory work. Under this situation, if we still use the traditional policing method of the graduate, both the working efficiency and the work quality will not be satisfying and it will be very easy to make mistake.

Currently, the analysis to university graduates' work status is quite simple. Most of the evaluation is based on the school employment rate and the specialized employment rate, which is considered to be improper. According to this situation, we find the information of the graduate with the aid of the computer and carry on the scientific and comprehensive analysis of the quality of teaching and the students’ work. We focus on seeking to the causes of difficulty in employment in order to propose some suggestions to guide the next teaching and the work of student.

The topic is to establish a data mining anatomic model in terms of sex, quality training, integrated results, social practice and so on to obtain a new scientific method to evaluate the quality of teaching and the student work quality. This data analysis method is a new attempt, this will promote the further development of data mining theory, and it has expanded the application domain of data mining analysis method. Simultaneously, it provides a new scientific method to evaluate the quality of teaching and the student work quality .

Key words ：Data mining Baye theorem Database

第1章选题背景概述 ............................................................................................................................ 1

1.1 课题背景 .......................................................................................................................................... 1

1.2 课题的目的和意义 ....................................................................................................................... 1

1.3国内外发展概况 . ............................................................................................................................ 1

1.3.1国外研究和发展现状 .......................................................................................................... 2

1.3.2国内研究和发展现状 .......................................................................................................... 2

1.4指导思想 ........................................................................................................................................... 2

1.5数据挖掘技术 . ................................................................................................................................. 2

1.5.1数据挖掘技术的产生背景 ................................................................................................. 2

1.5.2数据挖掘技术的定义及含义 ............................................................................................ 3

1.6贝叶斯分类算法 . ............................................................................................................................ 3

1.6.1 贝叶斯算法的介绍 .............................................................................................................. 3

1.6.2 贝叶斯定理 ............................................................................................................................ 3

1.6.3朴素贝叶斯分类的原理与流程 ....................................................................................... 4

1.6.4估计类别下特征属性划分的条件概率及Laplace 校准 . ....................................... 6

1.6.5贝叶斯定理应用 .................................................................................................................... 6

1.7小结 . .................................................................................................................................................... 7

第2章方案论证 ................................................................................................................................... 8

2.1设计原理、方案选择 ................................................................................................................... 8

2.2开发工具和开发环境介绍 . ......................................................................................................... 9

2.2.1开发工具MyEclipse 8.5 .................................................................................................. 9

2.2.2 MySQL 数据库 . ....................................................................................................................... 9

2.2.3 Tomcat 服务器 ................................................................................................................... 10

2.2.4 Tomcat在MyEclipse 的配置和使用.......................................................................... 10

2.3小结 . .................................................................................................................................................. 13

第3章系统分析与设计...................................................................................................................... 14

3.1 需求分析 ........................................................................................................................................ 14

3.1.1 系统功能需求 . ..................................................................................................................... 14

3.1.2系统可行性分析 .................................................................................................................. 14

3.2总体设计 ......................................................................................................................................... 15

3.2.1毕业生就业信息表 ............................................................................................................. 15

3.2.2 模块划分 ............................................................................................................................... 16

3.2.3系统数据流图 . ...................................................................................................................... 17

3.2.4 系统总功能图 . ..................................................................................................................... 17

3.3数据库设计 .................................................................................................................................... 18

3.3.1 概念模型 ............................................................................................................................... 18

3.3.2 逻辑模型 ............................................................................................................................... 18

3.3.3 物理模型 ............................................................................................................................... 19

3.4分模块设计 .................................................................................................................................... 21

3.4.1 毕业生数据录入、修改的模块设计 . .......................................................................... 21

3.4.2 数据建模的模块设计 ....................................................................................................... 22

3.3.3 预测毕业生就业情况 ....................................................................................................... 22

3.4.4分析统计图............................................................................................................................ 22

3.5小结 . .................................................................................................................................................. 23

第4章系统测试与运行...................................................................................................................... 24

4.1 毕业生就业数据分析系统 ....................................................................................................... 24

4.1.1 数据库的连接和访问操作正常 .................................................................................... 24

4.1.2 整个界面菜单正常 ............................................................................................................ 25

4.2 模块设计 ........................................................................................................................................ 25

4.2.1 数据录入、修改模块 ....................................................................................................... 25

4.2.2 MyEclipse 的运行正常................................................................................................... 25

4.2.3 数据分析图输出正常 ....................................................................................................... 26

第5章结束语与展望 .......................................................................................................................... 28

5.1 结束语 ............................................................................................................................................. 28

5.2 展望 .................................................................................................................................................. 28 致谢 ........................................................................................................................................................... 30 参考文献 . ..................................................................................................................................................... 31

引言

近年来随着人工智能技术和数据库技术的发展，数据挖掘技术出现。数据挖掘是一个从模糊的、有噪声的、不完全的、大量的、随机的，从大量人们事先所不知道的、但又是潜在有用的信息和知识的一个过程。需要我们不断挖掘。

本论文讲述的是运用数据挖掘技术中的贝叶斯分类算法对应届毕业生在毕业后的就业情况进行预测。《毕业生就业数据分析系统开发》是按照数据挖掘方法及软件工程设计步骤，详细地说明了整个开发过程以及每一个技术细节。同时，还阐述了课题的来源、需求分析、设计、实现和实验结果等情况。

第1章选题背景概述

1.1 课题背景

随着数据库技术的不断发展以及数据库管理系统的推广应用，人们积累的数据越来越多。而九十年代后因特网的出现，更是打破了各种限制，人们甚至能够跨越时空交换数据信息。因此，展现在人们面前的数据不仅仅局限于某个部门、某个单位和某个行业等，而是浩瀚无限的信息海洋。

大量增加的数据背后隐藏着很多的重要信息，人们希望能够进行更高层次的分析，以便更好地利用这些数据。虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但是无法自动、智能地将等待处理的数据背后隐藏的重要信息和知识挖掘出来加以利用，无法根据现有的数据预测未来的发展趋势，并达到决策服务的目的，因此导致“数据海量爆炸但是知识贫乏”的现象。

因此，我们必须找到有关方法，自动地分析数据、自动地对数据汇总、自动发现和描述数据中的趋势、自动地对数据进行分类、自动地标记异常。

1.2 课题的目的和意义

随着我国高等教育的普及，全国大部分高校都根据自身情况进行了扩招，于是造成如今高校毕业生的就业形势逐渐严峻的状态。很多大学生都愁于找不到工作。当前对于高校毕业生的就业状况的分析相对简单，大多仅仅按学校的就业率和专业就业率进行评价，显得片面、缺乏科学性。

在现实实际中，所谓名校，热门专业等等，并不能保证毕业生绝对能就业。从微观上看，学生自身的素质和某些硬性条件是影响就业的关键。根据这一情况，借助计算机对毕业生的就业信息进行挖掘，可以对目前的教学质量进行科学的综合分析，寻找影响毕业生就业的因素，以便对我们今后的教学和学生工作提出指导性建议。本课题正是在这一背景下提出，利用数据挖掘任务之一的分类，对过往的毕业生就业信息建立预测模型，同时应用该模型对即将的毕业生的就业状况进行预测，以便为学校招生就业部门的工作提供参考与建议。

《毕业生就业数据分析系统开发》就是为了解决这个就业预测问题而开发的，它采用数据挖掘方法，通过统计分析，应用贝叶斯定理对未来即将就业的毕业生的就业趋势进行了预测。可以预测到他们的就业情况和就业的概率。该系统要求用户录入毕业生的各项相关数据，同时在录入后可以对录入的数据进行抽样分析，得到相应的计算模型，并测试该模型的可靠性及精确度，根据该计算模型对毕业生就业情况进行预测，得出就业统计分析图和就业概率统计图。

1.3国内外发展概况

1.3.1国外研究和发展现状

与数据挖掘(Data Mining)极为相似的术语一一从数据库中发现知识(KDD)一词，首次出现在1989年8月在美国底特律召开的第1l 届国际人工智能联合会议的专题讨论会上。1993年以后，美国计算机协会(ACM)每年都举行了专门的会议研究探讨数据挖掘技术。会议名称为ACM SIGKDD Intemational Conference on Knowledge Discovery and Data Mining，简称KDD 会议。KDD 会议的规模由原来的专题讨论会发展到国际学术大会。研究重点也逐渐从发现方法转向系统应用。并且注重多种发现策略和技术的集成，以及多种学科之问的相互渗透。

国外的研究重点从发现方法逐渐向系统应用直到专享大规模的综合系统开发，并且注重多种发现策略和技术的集成。

1.3.2国内研究和发展现状

与国外相比．国内对DMKD 的研究稍晚，没有形成整体力量。1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目。目前从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究。

1.4指导思想

本设计主要采用数据挖掘技术对毕业生就业情况进行预测。整个设计关键在于贝叶斯定理的分类算法实现。该设计方案主要采用数据挖掘技术，通过对往届毕业生就业数据的导入，对其进行统计分析，应用贝叶斯定理建立预测模型，并应用该模型对未来即将就业的毕业生的就业趋势进行预测。可以预测到他们的就业情况和就业的概率。

1.5数据挖掘技术

1.5.1数据挖掘技术的产生背景

随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。其主要任务是关联分析、分类、预测时序模式和偏差分析等。是知识发现(knowledge discovery in database)的关键步骤。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可以对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。

1.5.2数据挖掘技术的定义及含义

数据挖掘（Data Mining ）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

从广义上讲，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，不断地挖掘。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

数据挖掘也是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。简而言之，数据挖掘其实是一类深层次的数据分析方法。商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的

（Opportunistic ）商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。但所有企业面临的一个共同问题是：企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。

1.6贝叶斯分类算法

1.6.1 贝叶斯算法的介绍

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naive Bayes ，NB) 分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。

1.6.2 贝叶斯定理

贝叶斯定理（Bayes' theorem）是概率论中的一个结论，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

通常，事件A 在事件B （发生）的条件下的概率，与事件B 在事件A 的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。贝叶斯公式的用途在于通过己知三个概率函数推出第四个。它的内容是:在B 出现的前提下,A 出现的概率等于A 出现的前提下B 出现的概率乘以A 出现的概率再除以B 出现的概率。通过联系A 与B, 计算从一个事件产生另一事件的概率, 即从结果上溯原。

作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的；然而，频率主义者和贝叶斯主义者对于在应用中，某个随机事件的概率该如何被赋值，有着不同的看法：频率主义者根据随机事件发生的频率，或者总体样本里面的发生的个数来赋值概率；贝叶斯主义者则根据未知的命题来赋值概率。这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。

贝叶斯定理是关于随机事件A 和B 的条件概率（或边缘概率）的一则定理。

(1.1)

P (B |A ) P (A ) P (A |B ) P (B )

其中P(A|B)是在B 发生的情况下A 发生的可能性。

在贝叶斯定理中，每个名词都有约定俗成的名称：

(1)P(A ) 是A 的先验概率或边缘概率。之所以称为" 先验" 是因为它不考虑任何B 方面的因素。

(2)P(A |B ) 是已知B 发生后A 的条件概率，也由于得自B 的取值而被称作A 的后验概率。

(3)P(B |A ) 是已知A 发生后B 的条件概率，也由于得自A 的取值而被称作B 的后验概率。

(4)P(B ) 是B 的先验概率或边缘概率，也作标准化常量（normalizing constant ）。按这些术语，Bayes 定理可表述为：

后验概率 = (相似度*先验概率)/标准化常量。

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例P(B |A )/P(B ) 也有时被称作标准相似度（standardised likelihood），Bayes 定理可表述为：

后验概率 = 标准相似度*先验概率。

1.6.3朴素贝叶斯分类的原理与流程

朴素贝叶斯分类法是一种十分简单的分类算法，朴素贝叶斯分类名字缘由是因为

这种方法的思想很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个概率最大，就认为此待分类项属于哪个类别。通俗说，就好比这么个道理，你在街上看到一个黑人，我们不能确切说他是从哪里来的，但是你十有八九猜是非洲人。主要原因是黑人中非洲人的比率最高，不能否定黑人也可能是美洲人或其他，但是在没有其它可用信息下，我们一定是会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类法的正式定义如下：

1、设x ={a 1, a 2,..., a m } 为一个待分类项，而每个a 为x 的一个特征属性。

2、有类别集合C ={y 1, y 2, ,..., y n }。

3、计算P (y 1|x ), P (y 2|x ),..., P (y n |x )。

4、如果P (y k |x )=max {P (y 1|x ), P (y 2|x ),..., P (y n |x )}，则x ∈y k 。

现在的关键是计算第3步中各个条件概率，就能得出第4步的最大值。

接下来我们可以这么做：

1、先要找到一个已知分类的待分类项集合，这个集合称为训练样本集。

2、然后统计得到在各类别下各个特征属性的条件概率估计。即

P (a 1|y 1), P (a 2|y 1),..., P (a m |y 1); P (a 1|y 2), P (a 2|y 2),..., P (a m |y 2);...; P (a 1|y n ), P (a 2|y n ) 。

P (x |y i )P (y i )() P y i |x = (1.2) P x 独立的，所以有： 3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：因为分母对于所有类别为常数，即我们只要将分子最大化。又因各特征属性为条件

j =1

(1.3)

根据上述分析，朴素贝叶斯分类的流程可以由下图1-1表示：

图1-1朴素贝叶斯分类流程图

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率, 并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

1.6.4估计类别下特征属性划分的条件概率及Laplace 校准

我们可以看出计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)，下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。

即：

1-(χ-η)g (χ, η, σ)=e 2σ22πσ

而P (a k |y i )=g (a k , ηy i , σy i ) 。

述公式即可得到需要的估计值。 2（1.4）因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上

另外出现P(a|y)=0时应该怎么处理。当某个类别下某个特征项划分没有出现时，就会产生这种现象，这种现象会令分类器质量大大降低。为解决这个问题，我们引入Laplace 校准，其思想很简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面，问题得到解决。

1.6.5贝叶斯定理应用

贝叶斯定理用于投资决策分析是在已知相关项目B 的资料，而缺乏论证项目A 的直接资料时，通过对B 项目的有关状态及发生概率分析推导A 项目的状态及发生概率。如果我们用数学语言描绘，即当已知事件Bi 的概率P （Bi ）和事件Bi 已发生条件下事

件A 的概率P （A│Bi），则可运用贝叶斯定理计算出在事件A 发生条件下事件Bi 的概率P （Bi│A）。

按贝叶斯定理进行投资决策的基本步骤是：（1）列出在已知项目B 条件下项目A 的发生概率，即将P （A│B）转换为 P（B│A）；

（2）绘制树型图；

（3）求各状态结点的期望收益值，并将结果填入树型图；

（4）根据对树型图的分析，进行投资项目决策；

搜索巨人Google 和Autonomy ，一家出售信息恢复工具的公司，都使用了贝叶斯定理（Bayesian principles ）为数据搜索提供近似的（但是技术上不确切）结果。研究人员还使用贝叶斯模型来判断症状和疾病之间的相互关系，创建个人机器人，开发能够根据数据和经验来决定行动的人工智能设备。

1.7小结

本章介绍了本课题选题的的背景、目的和意义。阐述了数据挖掘技术的概念和含义。本章主要归纳了数据挖掘技术中的贝叶斯分类法，详细描述了朴素贝叶斯分类的原理与流程以及它的应用。

第2章方案论证

先建立一个数据模型，并测试该模型的可靠性。然后根据这个模型，对毕业生就业情况进行数据预测，根据这些有用的信息，用户就可以对即将毕业的毕业生的就业情况有一个预测。从而可知毕业生的就业趋势以及毕业后的就业率是怎么样的。这对于学校和毕业生个人来讲说都是一个很有价值的信息，同时也给学校招生就业部门的工作提供参考与建议。对于学校来说，他们可以根据今年毕业生就业情况的预测，来考虑明年的招生问题，是否可增大招生的名额，来满足社会的各种就业需求。当然也可以根据这个来对学生的素质教育进行调整，使学生能够更好地为自己的就业创造更有利条件，对整个社会来说也是有益的。

目前对高校毕业生的就业状况分析是较为简单的，大多仅仅按学校的就业率和专业就业率来进行评价，显得片面缺乏科学性。我们根据这一情况，借助计算机对毕业生就业信息进行挖掘，对如今的教学质量和学生工作质量进行科学的综合分析，寻找影响毕业生就业困难的原因，以便对我们今后的教学和学生工作提出指导性的建议。

本课题思路清晰，目的明显，并且在设计、编程、使用还是维护上都非常合理。所以在此选择此方案来实现软件的设计。

2.2开发工具和开发环境介绍

2.2.1开发工具MyEclipse 8.5

MyEclipse 企业级工作平台（MyEclipse Enterprise Workbench ，简称MyEclipse ）是对EclipseIDE 的扩展，利用它我们可以在数据库和JavaEE 的开发、发布以及应用程序服务器的整合方面极大的提高工作效率。它是功能丰富的JavaEE 集成开发环境，包括了完备的编码、调试、测试和发布功能，完整支持HTML, Struts, JSP, CSS , Javascript, Spring, SQL, Hibernate。

MyEclipse 是一个十分优秀的用于开发Java, J2EE的 Eclipse 插件集合，

MyEclipse 的功能非常强大，支持也十分广泛，尤其是对各种开源产品的支持十分不错。MyEclipse 目前支持Java Servlet, AJAX, JSP, JSF, Struts, Spring, Hibernate, EJB3, JDBC 数据库链接工具等多项功能。可以说MyEclipse 是几乎囊括了目前所有主流开源产品的专属eclipse 开发工具。

2.2.2 MySQL 数据库

MySQL 是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于Oracle 公司。Mysql 是最流行的关系型数据库管理系统，在WEB 应用方面MySQL 是最好的RDBMS(Relational Database Management System：关系数据库管理系统) 应用软件之

一。MySQL 是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。MySQL 所使用的SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策（本词条“授权政策”），它分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，

尤其是开放源码这一特点，一般中小型网站的开发都选择MySQL 作为网站数据库。由于其社区版的性能卓越，搭配PHP 和Apache 可组成良好的开发环境。

2.2.3 Tomcat 服务器

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器，属于轻量级应用服务器，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试

JSP 程序的首选。对于一个初学者来说，可以这样认为，当在一台机器上配置好Apache 服务器，可利用它响应对HTML 页面的访问请求。实际上Tomcat

部分是Apache 服务器的扩展，但它是独立运行的，所以当你运行tomcat 时，它实际上作为一个与Apache 独立的进程单独运行的。

Tomcat 广受广大程序员的喜欢，因为它运行时占用的系统资源小，扩展性好，支持负载平衡与邮件服务等开发应用系统常用的功能；而且它还在不断的改进和完善中，任何一个感兴趣的程序员都可以更改它或在其中加入新的功能。

2.2.4 Tomcat在MyEclipse 的配置和使用

下载Tomcat 并且对Tomcat 安装包进行解压，打开MyEclipse ，点击菜单栏的Window 里面的Preferences, 将Tomcat 安装到MyEclipse 里面，如图2-2。

图2-2 Tomcat的安装

打开浏览器输入http://localhost:8080/ 如果出现如图 2-3，则表示Tomcat 安装成功。

图2-3 Tomcat 安装成功

在MyEclipse 编译程序，实现对数据库的操作，并且可以在服务器上显示出来，并且编译程序实现图表的正确显示。

打开浏览器，输入http://localhost:8080/web06/list.do 我们可以得到这样的界面，如图 2-4 。

图 2-4 毕业生就业信息界面

对于该信息，我们还可以对已有的信息删除、修改操作，对于毕业生信息的修改，鼠标点击操作栏里面的修改，则出来如图界面，如图2-5所示。

图2-5 修改毕业生信息

点击页面左下角的添加毕业生信息按钮，实现毕业生信息的添加，如图2-6 。

图2-6 毕业生信息添加

2.3小结

本章主要阐述了论文的设计原理、方案选择，描述了创建一个好的系统的重要性，系统的功能实现，以及整个系统开发的重要意义。并且对该系统的开发工具以及开发环境等等做了一一介绍。

第3章系统分析与设计

3.1 需求分析

3.1.1 系统功能需求

（1）总功能

经过分析，本系统应该具备如下的功能：

① 系统应该能够连接到数据库，从数据库中导入所需要的毕业生信息数据。 ② 系统必须能提供在从数据库中导入数据的时候，能有一个体现随机取数据的功能。

③ 系统能够对导入的数据进行统计、归纳、分析后建立数学模型，当最终用户导入训练集数据后，系统能够统计出用训练集测试出本系统所建立的数学模型在毕业生预测时所能达到的准确度，并用数值和图形的方式显示出来。

④ 当系统建立好数学模型后，系统能够为用户提供一个单个毕业生信息测试的功能，就是能够预测改毕业生是否可以毕业，显示结果。（2）基本功能需求

①系统可以提供数据的录入和删除功能，包括对毕业生的姓名、学号、性别、综合成绩、党员、学生干部、英语过级、学位获得、家庭住址以及就业情况等数据的录入；

②系统可以对录入的数据进行统计，归纳，分析，这样当用户输入毕业生信息后，系统能够自动统计男女生人数，英语过级情况的人数，以及就业和未就业人数等各种统计信息；

③可以根据录入信息，建立数学模型，对数据进行统计预测，输出统计分析表； ④可以对统计得到的结果进行打印和保存；（3）用户界面需求

用户界面是人与计算机之间的媒介。用户通过用户界面来与计算机进行信息交换。因此，用户界面的质量，直接关系到应用系统的性能能否充分发挥，能否使用户准确、高效、轻松、愉快地工作。所以软件的友好性、易用性对于软件系统至关重要。作为一个友好的系统软件，其操作界面必须做到友好美观。在设计开发的过程中要合理安排和编辑界面，使各窗体与控件相互协调，使得整个程序界面更加友好。（4）系统性能需求体现

本系统能够为最终用户提供一个简洁的用户界面，可以对用户输入的毕业生信息进行统计、预测，得到一个毕业生就业概率，并以图表方式显示出来。

3.1.2系统可行性分析

（1）市场可行性分析

随着我国高等教育的普及，全国大部分高校都根据自身情况进行了扩招，于是造成如今高校毕业生的就业形势逐渐严峻的状态。很多大学生都愁于找不到工作。当前对于高校毕业生的就业状况的分析相对简单，大多仅按学校的就业率和专业就业率进行评价，显得片面、缺乏科学性。根据这一情况，借助计算机对毕业生的就业信息进行挖掘，可以对目前的教学质量进行科学的综合分析，寻找影响毕业生就业的因素，以便对我们今后的教学和学生工作提出指导性建议。本课题正是在这一背景下提出，利用数据挖掘任务之一的分类，对过往的毕业生就业信息建立预测模型，同时应用该模型对即将的毕业生的就业状况进行预测，以便为学校招生就业部门的工作提供参考与建议。

（2）技术可行性分析

该系统采用MySQL 作为后台存储数据库，实现毕业生就业信息的录入、删除、保存等等功能，主要是因为MySQL 对同时访问数据库的用户数量不受限制，保存记录多，是目前市场上现有产品中运行速度最快的数据库系统，用户权限设置简单、有效。利用MySQL 窗体，用户可以直观地进行查询、修改、插入、删除等操作。本系统采用Tomcat 服务器，用来运行运行JSP 页面和Servlet 。Tomcat 运行时占用的系统资源小，扩展性好，支持负载平衡与邮件服务等开发应用系统常用的功能。至于该系统的统计预测方面，则采用数据挖掘技术进行统计分析。数据挖掘方法是一种强大的新技术，数据挖掘就是从大型数据库中找出隐藏在里面的预测信息，有着巨大的潜力去从数据仓库中发掘出重要的信息，数据挖掘工具能够预测未来的发展趋势。总的来说，该系统在技术上是可行的。（3）实用可行性分析

本系统主要采用数据挖掘方法，通过对以往毕业生就业数据进行统计分析，应用贝叶斯定理建立预测模型，并对未来即将就业的毕业生的就业趋势进行了预测。通过这个系统可以预测到他们的就业情况和就业概率。这对于学校和毕业生个人来讲都是一个很有价值的信息。对于学校来说，他们可以根据今年毕业生就业情况的预测，来考虑明年的招生问题，考虑是否可以增大招生名额，以适应社会的各种就业需求。同时也可以据此来对学生的素质教育进行调整，使得毕业生能够更好地为自己的就业创造更有利条件。使得毕业生的就业率得以提高，对整个社会来说也是有益的。

本软件的使用，将在很大程度上提高学校的工作效率，节省大量的人力、物力资源，造福于社会。因此，具有较高的使用价值。

3.2总体设计

3.2.1毕业生就业信息表

对于本次的设计课题《毕业生就业数据分析系统开发》，先在MySQL 数据库里面创

建一个需要的数据库bysj ，接着在MyEclipse 开发工具里编译程序，实现各项功能，利用Tomcat 服务器运行，最后在网页上输入http://localhost:8080/web06/list.do 得到毕业生就业信息表界面，如图3-1所示。

图3-1 毕业生就业信息表

3.2.2 模块划分

本系统主要划分为四个模块，这些模块分别为：（1）数据录入（2）数据建模（3）预测结果（4）统计分析图模块间的关系图：

图3-2 系统模块关系图

3.2.3系统数据流图

根据本系统的开发设计，可以得到系统数据流图，如图3-3所示。

训练数据

输入

3-3 系统数据流图

3.2.4 系统总功能图

根据本系统的开发设计，可以得到系统功能图，如图3-4所示。

图3-4 系统功能图

3.3数据库设计

一般在建立数据库模型时，会涉及到几种模型种类：概念模型、逻辑模型、物理模型。这三个过程，就是实现一个软件系统的三个关键的步骤，是一个从抽象到具体的一个不断细化完善的分析，设计和开发的过程。本小结通过对这三种模型对数据库进行详细描述。

3.3.1 概念模型

概念模型是设计者对现实世界的认识结果的体现，是对软件系统的整体概括描述。概念模型就是在了解了用户的需求，用户的业务领域工作情况以后，经过分析和总结，提炼出来的用以描述用户业务需求的一些概念的东西。表示概念模型最常用的是“实体-关系”图。E-R 图主要是由实体属性和关系三个要素构成。

本系统通过研究比较，我们得到的毕业生数据的各个属性为：姓名，学号，性别，综合成绩，党员，学生干部，英语过级，毕业论文，家庭住址，就业情况。根据这些属性建立实体E-R 图，如图3-5所示。

图3-5 毕业生信息实体E-R 图

3.3.2 逻辑模型

逻辑模型就是要将概念模型具体化。逻辑数据模型反映的是系统分析设计人员对数据存储的观点，是对概念数据模型进一步的分解和细化。逻辑模型着重用逻辑的过程或主要的业务来描述对象系统；逻辑模型描述系统要“做什么”，或者说具有哪些功能。

本系统主要主要是在MySQL 数据库中创建一个数据库bysj ，在这个数据库中创建数据库表count ，表示毕业生就业信息表，并且在该表格中插入毕业生的相关信息，即

各属性：姓名，学号，性别，综合成绩，党员，学生干部，英语过级，毕业论文，家庭住址，就业情况。

3.3.3 物理模型

物理模型就是针对上述逻辑模型所说的内容，在具体的物理介质上实现出来。物理模型是对真实数据库的描述。数据库的物理结构设计大概包括：确定数据的存储方法、确定数据的存储结构。物理结构设计阶段实现的是数据库系统的内模式，它的质量直接决定了整个系统的性能。（1）数据库建立过程

根据本系统所涉及到的数据量以及这些数据对数据库的各种功能需求，可以在MySQL 数据库上建立表格，插入数据，显示各属性。

下载安装好MySQL 数据库，配置好该数据库，并且设置数据库密码：cinderella 。打开MySQL 运行窗体，先要求输入配置密码，如图3-6。

图3-6 数据库登录密码

创建数据库bysj ：create database bysj; 显示数据库：show databases；如图3-7。

图3-7 数据库中所有建立过的数据库名称

使用数据库bysj ：use bysj；

显示表格：show tables；（注意：创建表格前应先使用该数据库）创建毕业生信息表格count ： create table count(

id int primary key auto_increment,

name varchar(50) NOT NULL, stu_id int NOT NULL, sex char(2) NOT NULL, grade double NOT NULL, party char(2) NOT NULL, cadre varchar(30) NOT NULL, en_rank varchar(10) NOT NULL, thesis varchar(100) NOT NULL, address text NOT NULL, job varchar(50) NOT NULL );

显示表格属性:select * from count; 如图3-8。

图3-8 数据库表格内容信息

（2）数据库的连接

MyEclipse 通过JDBC 连接MySQL 数据库。数据库的连接部分代码如下：

public static Connection getConnection() throws Exception {

Connection conn = null; try {

Class. forName ("com.mysql.jdbc.Driver"); conn = DriverManager.getConnection (

"jdbc:mysql://localhost:3306/bysj?useUnicode=true&characterEncoding=gbk", } catch (Exception e) { }

return conn;

e.printStackTrace(); throw e;

"root", "cinderella");

该段代码可以正确连接数据库，通过数据库的连接可以对其进行操作。并且从该段代码中我们可以看出MySQL 中建立的数据名称为bysj ，数据库的密码为cinderella 。

3.4分模块设计

本系统由毕业生数据录入删除与修改、统计分析图、数据的抽样调查分析和预测毕业生就业情况等等模块。下面对数据录入、数据建模以及数据预测模块进行详细介绍。

3.4.1 毕业生数据录入、修改的模块设计

对于数据的录入、修改的设计模块，我们主要考虑影响毕业生就业的各种因素，而对于影响毕业生的就业的各种因素，我们需要对这些数据进行比较取舍，留下那些对毕业生就业率有关键性影响的数据，以此来作为我们数据统计研究的重要资料依据。我们得到的毕业生数据的各个属性为：姓名，学号，性别，综合成绩，党员，学生干部，英语过级，毕业论文，家庭住址，就业情况。

建立数据库，将这些属性整理成表格型式, 可得表3-1。

表3-1 数据库表

创建毕业生信息表格count ：

create table count(

id int primary key auto_increment, name varchar(50) NOT NULL, stu_id int NOT NULL, sex char(2) NOT NULL, grade double NOT NULL, party char(2) NOT NULL, cadre varchar(30) NOT NULL, en_rank varchar(10) NOT NULL, thesis varchar(100) NOT NULL, address text NOT NULL, job varchar(50) NOT NULL );

通过sql 语言实现对数据库的信息的录入修改等等操作。

3.4.2 数据建模的模块设计

（1）本系统的数据建模模块的数据分类共分为两步。

第一步：建立一个数据模型，描述预定的数据类集。通过分析由属性描述的数据库元组（记录）来构造模型。假定每个元组属于一个预定义的类，由一个称作类标号属性的属性确定。对于分类，数据元组也称作样本，为建立模型而被分析的数据元组形成训练数据集。

第二步：使用模型进行分类。首先评估模型（分类法）的预测准确率，如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组进行分类。

用贝叶斯分类算法分析数据并按要求对其进行分类，该分类法的准确性可用保持方法进行评估：将给定的数据随机的划分成两个独立的集合：训练集（取随机抽样集的2/3）和测试集（取随机抽样集的1/3）。

使用训练集导出分类法，其准确率用测试集评估，要求其准确率达80%以上时，认为导出的分类规则是可行的。在实际应用中，可把贝叶斯分类算法编写成相应软件进行处理。

3.3.3 预测毕业生就业情况

本系统对于预测毕业生的就业情况，可以根据对于该贝叶斯算法分类的程序编译，来预测该毕业生能否顺利就业，根据建立的数学模型，如果预测的概率大于模型建立的概率，就说明该毕业生可以顺利毕业。

3.4.4分析统计图

预测分析，得出该系统的分析统计图，如图3-9所示。

图3-9 分析统计图

3.5小结

本章主要是对整个系统设计过程的论述，是整个论文最核心的部分，本章对系统功能需求，系统可行性分析以及各大设计模块等等进行了详细描述，通过本章节，可以对整个系统有个清楚的认识，并且可以得出结果，对毕业生是否能就业有一个预测。

第4章系统测试与运行

4.1 毕业生就业数据分析系统

4.1.1 数据库的连接和访问操作正常

MySQL 数据库的正常连接，出现 Welcome to the MySQL monitor.并且有数据库的输入开始符号 mysql>,由此表示数据库接入正常，并且可以开始建立数据库，创建表格，在表格中插入数据, 进行对数据的查询。

数据库的正确连接，如图4-1所示。

图4-1 数据库的正确连接

数据库的显示，表格的显示，数据库的使用，如图4-2所示。

图4-2 数据库的使用

图4-3 毕业生就业信息的显示

4.1.2 整个界面菜单正常

整个系统界面可以显示应用菜单，并且可以对其进行浏览操作，以及对毕业生就业信息数据进行修改删除添加等操作，如图4-4所示。

图4-4 毕业生就业信息的修改删除添加

4.2 模块设计

4.2.1 数据录入、修改模块

数据的录入和实现都采用MySQL 数据库实现，在MySQL 界面上我们可以直接创建数据库，在数据库建立表格，插入数据等等，我们都可以采用正规的sql 语言在该软件上实现，如图4-5所示。

图4-5 毕业生就业信息的录入修改

4.2.2 MyEclipse 的运行正常

MyEclipse 的运行正常，没有出现错误，可以通过Tomcat 运行，并且在网页上正常显示，总界面图如图4-6所示。

图4-6 毕业生就业信息界面

在该界面上点击删除，可以将一行数据完全删除，我们可以将

id 号为

11的数据删除，得到界面如图4-7所示。

图4-7 毕业生就业信息删除

在该界面上还能进行修改和添加数据操作，如图4-8所示。

图4-8 毕业生就业信息修改与添加

4.2.3 数据分析图输出正常

在MyEclipse 里面运行程序，得出统计分析图，如图4-9所示。

图4-9统计分析图

第5章结束语与展望

5.1 结束语

本课题主要采用数据挖掘方法，通过对以往毕业生就业数据进行统计分析，应用贝叶斯定理建立预测模型，并对未来即将就业的毕业生的就业趋势进行了预测。可以预测到他们的就业情况和就业的概率。该系统要求用户录入毕业生的各项相关数据，同时在录入后可以对录入的数据进行抽样分析，得到相应的计算模型，并测试该模型的可靠性及精确度，根据该计算模型对毕业生就业情况进行预测，得出就业统计分析图和就业概率统计图。

系统必须能够连接导数据库，从数据库中导入所需要的毕业生信息数据；系统能提供从数据库导入数据的时候，能有一个体现随机取数据的功能；系统能够对导入的数据进行统计、归纳、分析后建立数学模型，当最终用户导入数据后，系统能够及时测试，进行预测，并且得出相应的图表。

该系统结构完整，程序运行正常，有友好的用户界面，并且有良好的帮助功能，可以对未来即将就业的毕业生的就业趋势进行了预测。是一个很有价值的开发系统。

通过以上的程序设计系统开发，我们能够准确快速的查询到各种统计结果，可以预测到他们的就业情况和就业概率。这对于学校和毕业生个人来讲都是一个很有价值的信息。对于学校来说，他们可以根据今年毕业生就业情况的预测，来考虑明年的招生问题，考虑是否可以增大招生名额，以适应社会的各种就业需求。同时也可以据此来对学生的素质教育进行调整，使得毕业生能够更好地为自己的就业创造更有利条件。使得毕业生的就业率得以提高，对整个社会来说也是有益的。

本软件的使用，将在很大程度上提高学校的工作效率，节省大量的人力、物力资源，造福于社会。因此，具有较高的使用价值。

5.2 展望

数据仓库(data warehousing)技术是一种数据的长期存储，这些数据来自于多数据源，是经过组织的，便于支持管理决策。并且这些数据在一种一致的模式下存放，通常是汇总的。数据仓库提供一些数据分析能力，称作OLAP(联机分析处理) 。

在《毕业生就业数据分析系统开发》过程中，使用数据库作为后台数据源进行开发，也就是说该系统数据挖掘的数据源是数据库，本系统运用的是MySQL 数据库。对于单一的数据源来说，使用数据库作为数据源还是恰当的，总的来说也已经是足够的了；但是当遇到大量的、多维的数据源时，由于它们散布在多个数据库，而这些数据库可能又存放于多个站时，这时就需要用到数据仓库了。数据仓库能从多个数据源收集到信息存储，存放于一个一致的模式下，并通常驻留在单个站点。数据仓库通过数

据清理、数据集成、数据装入、数据变换和定期数据刷新来构造。

而我的想法就是，对《毕业生就业数据分析系统开发》来说，它未来的发展方向应该是通过网络来连接各个系的学生数据信息库，把这多个信息源用数据仓库连接起来，通过数据仓库的清理、集成、变换、刷新、装入来存放在一个一致的模式下，然后通过分析系统来分析数据，导出分类法，对数据进行预测。

致谢

历时将近两个月的时间终于要完成这篇论文了，在本次论文的写作过程中遇到了各种的困难和障碍，但是有了老师和同学朋友的帮助，困难都一一解决。尤其要感谢我的论文指导老师—何老师，他对我进行了无私的指导和帮助，给我相关资料，方便我学习，写论文，并且不厌其烦的帮助我进行论文的修改和改进，直到完成论文的撰写。老师从选题指导、论文框架到细节修改，都给予了我细致的指导，提出了很多宝贵的意见与建议，老师以其严谨求实的治学态度、高度的敬业精神、兢兢业业、孜孜以求的工作作风和大胆创新的进取精神对我产生重要影响。他渊博的知识、开阔的视野和敏锐的思维给了我深深的启迪。这篇论文是在老师的精心指导和大力支持下才完成的。没有何老师的帮助，我将很难完成此次毕业论文的写作。

感谢我的同学和朋友，在我写论文的过程中给予我很多帮助，他们给我提供相关资料，帮助我熟悉软件的运用，特别是还在论文的撰写和排版过程中提供热情的帮助。

最后我要感谢我的父母，你们生我养我，纵有三世也无法回报你们，即将离开你们出去好好工作，我在心里默默的祝福你们平安健康，我不会让你们失望的，会好好工作回报社会的，回报你们的养育之恩。

参考文献

[1]雷华军, 秦开宇. 确定测试性验证试验方案的贝叶斯方法[J].系统工程与电子技术,2012,34(12):2612-2616.

[2]朱玉全杨鹤标孙蕾. 数据挖掘技术.[M].1.东南大学出版社,2006.

[3]薛惠锋. 智能数据挖掘技术.[M].1.西安:西北工业大学出版社,2005.

[4]胡可云田凤占黄厚宽. 数据挖掘理论与应用.[M].北京：清华大学出版社,2008.

[5]蒋玉婷. 数据挖掘技术在网络舆情预测中的应用[J].科技通报 ,2013,(10):73-75.

[6]罗美淑, 刘世勇, 夏春艳等. 数据挖掘技术在教学评价中的应用研究[J].教育探索,2013,(2):81-82.

[7]汪涛, 柳兵. 基于J2EE 的就业管理信息系统的设计与实现[J].湖北民族学院学报（自然科学版）,2013,31(2):216-218.

[8]曹方兴. 大学生就业管理信息系统的设计与实现[D].东南大学,2008.

[9]唐笑林. 数据挖掘技术的研究和应用[J].华东理工大学学报（自然科学版）,2008,34(2):290-295.

[10]王曙燕, 耿国华, 周明全等. 数据仓库与数据挖掘技术的研究与应用[J].计算机应用研究,2005,22(9):194-195,205.

[11]张丽伟. 浅析关联规则数据挖掘技术及其应用[J].科海故事博览：科技探索,2011,(9):104-105. [12]朱永春, 万敏. 浅析数据挖掘技术[J].电脑知识与技术,2010,6(2):266-267.

[13] 刘婧莉. 基于JSP 的高校毕业生就业管理系统设计与实现[J].电脑知识与技术,2012,08(3):512-514.

[14] 回健永. 高职院校毕业生就业管理系统的开发[J].电脑开发与应用,2011,24(5):68-70.

[15] 鲁亮. 毕业生就业管理系统的研究与实现[D].山东大学,2013.

[16] 朱建炜. 毕业生就业管理系统的开发与应用[J].长沙通信职业技术学院学报,2011,10(1):43-47.

[17] 陈烽. 毕业生就业管理系统分析与设计[D].云南大学,2013.

[18] 赵祥全. 就业管理系统的设计与实现[D].厦门大学,2012.

[19] 刘德豪. 高校毕业生就业管理系统开发[D].南昌大学,2011.

[20] 黄泽军. 毕业生就业管理系统的设计和实施[D].北京邮电大学,2009.