数据挖掘和知识发现

 

教师:

    邹权 博士,邮箱:datamining@xmu.edu.cn, 任何疑问都可以给我发邮件,邮件请署名;匿名邮件我有可能置之不理。

 

通知:(deadline2013.12.31

1. 选一个项目(项目1或项目3,题目见下方),按要求完成,如能都完成,可以获得加分;

2. 每个人都要提交,禁止组队完成,禁止抄袭;

3. 将实验报告(pdf格式最佳,doc格式也可,禁止docx格式)发到我的邮箱(datamining@xmu.edu.cn不是zouquan@xmu.edu.cn,发错了没成绩!),如果能附源代码、软件将得到加分;

l         如果只有实验报告,请以附件的形式,并命名为123张三.doc123张三.pdf(其中123是您的学号,张三是您的姓名)

l         如果还带有源代码等文件,请将实验报告一起压缩后以附件形式发给我,文件命名为123张三.rar

也就是说您的邮件应该有且只有一个附件,从该附件的文件名,我应该能看到您的学号和姓名,不按格式提交的同学将被扣分!

 

课件下载:

1. 绪论      2学时)

2. 分类-基础 4学时)

3. 分类-高级 4学时)

4. 聚类      4学时)

5. 精确搜索  4学时)

6. 近似搜索  4学时)

7. 应用-生物信息学 4学时)

8. 推荐 2学时)

9. 文本挖掘 4学时)

 

实验课内容:

第一节 924

1.       掌握查看系统配置和java环境

2.      学习下载安装weka

3.      熟悉weka的基本界面

第二节(108

1.       学习arff文件格式

2.      学习利用weka进行分类的训练和预测

3.      学习利用weka进行交叉验证

第三节 1022

1.       学习给样本加权重,处理类别不平衡的分类问题

2.      学习多示例分类

3.      下载、安装并熟悉Eclipse

第四节 115

1. Eclipse编写基本程序

2. Eclipse写程序给arff文件加权重,并生成jar

3. 尝试用Eclipse调用weka 交叉验证code

第五节 1119

1. 了解类、对象、方法和面向对象的含义

2. Eclipse中新建一个类

3. Eclipse中利用weka自己写一个新的分类器 参考代码

第六节 123

1. 学会用命令行调用weka

2. 利用weka进行文本分类 路透社新闻语料,其中trainingtest为数量top 10类。training-alltest-all90

第七节 1217

1. 学习使用libSVMlibLinear软件

2. 学习使用python优化libSVM参数 文档1文档2

3. 学习用weka调用libSVM 注意事项

第八节 1231

课程项目讲解与答疑

 

参考资料:

1. 数据堂网站:http://www.datatang.com/

2. Kaggle网站,硅谷最有人气的数据挖掘网站:http://www.kaggle.com/

3. Mining of Massive Dataset, pdf下载, 中文版

4. UCI数据集 (机器学习研究最重要的测试数据来源)

 

课程项目

1. 图像识别

    数据:101256397是三个著名的图片数据集

    内容:请提出一种分类方法(含特征提取方法和分类器算法),并用交叉验证检测你的分类准确率

    提示:特征提取方法可以参考此帖子 ,该特征提取方法与liblinear结合,被认为是目前最好的分类方法,如果你的分类方法可以完胜liblinear,请告知我;如果谁能将该程序用java实现,提高运算速度,也请告知我,本门课程可以给满分!当然,也鼓励同学们用其他的特征提取方法。

    资源:由于该特征提取太过费时,我已跑完该matlab程序,同学可直接下载arff文件(101.arff 256.arff)。如果在这两个数据上取得了令人欣喜的结果,可以凭实验报告向我索取397.arff (397数据太大,不适合网络传输)

    难点:多类分类、大规模数据分类

    要求:实验报告中要详细介绍你的分类器和实验结果,如果使用了其他分类方法、并附上java版的特征提取源代码和可执行程序,将会给予加分。

 

2. 不平衡数据分类

    数据:生物信息学数据UCI数据

    内容:请提出一种处理类别不平衡分类的策略,并编程实现,使得在以上两组数据中取得较好的效果(可以与我之前提供的结果做对比)

    提示:推荐将weka作为jar包导入,并在weka的基础上编程

    要求:实验报告要给出具体策略的介绍和实验结果,如果分类器能够独立打包,加入weka3.7,将会获得加分(打包方法参见该帖子)。

    参考:邹权, 郭茂祖, 刘扬, 王峻. 类别不平衡的分类方法及在生物信息学中的应用. 计算机研究与发展. 2010,47(8):1407-1414

          林舒杨,李翠华,江弋,林琛,邹权. 不平衡数据的降采样方法研究. 计算机研究与发展. 2011, 48(Suppl.):47-53

 

3. 特殊蛋白质识别

    内容:提出识别一种特殊的蛋白(如enzymecytokine等)的方法,并建立web server用于服务其他生物信息学研究人员。

    提示:过程和相关数据参考该文档

    要求:撰写学术论文(不是实验报告),英文为佳,论文写法请参考下面的文献,画出原创的漂亮的图和表格有加分!

    参考:郭颖婕, 刘晓燕, 郭茂祖, 邹权. 基于随机森林的植物抗性基因识别方法. 计算机科学与探索. 2012,6(1):67-77 (Web Server)

           胡始昌, 江弋, 林琛, 邹权基于集成分类器的蛋白质折叠模式识别. 生物信息学. 2012,10(2):112-115

           Chen Lin*, Ying Zou(厦门大学计算机系2009级本科生) Ji Qin, Xiangrong Liu, Yi Jiang, Caihuan Ke, Quan Zou*. Hierarchical Classification for Protein Fold Recognition Using a Novel Ensemble Classifier. PLoS One. 2013, 8(2):e56499. (Web Server) PDF