地理高考试题的试题分析初探课件

上传人:文**** 文档编号:190461501 上传时间:2023-02-27 格式:PPT 页数:25 大小:1.64MB
收藏 版权申诉 举报 下载
地理高考试题的试题分析初探课件_第1页
第1页 / 共25页
地理高考试题的试题分析初探课件_第2页
第2页 / 共25页
地理高考试题的试题分析初探课件_第3页
第3页 / 共25页
资源描述:

《地理高考试题的试题分析初探课件》由会员分享,可在线阅读,更多相关《地理高考试题的试题分析初探课件(25页珍藏版)》请在装配图网上搜索。

1、地理高考试题的试题分析初探戴新宇 博士 副教授南京大学课题组内容概要n试题分析框架n试题手动标注及总结n试题自动标注:分词、实体识别、术语n试题语义分析及表示2023-2-272试题分析框架2023-2-273试题手工标注n目的:通过对若干试题进行规范化、系统化的标注,掌握试题中词法、句法、语义特性,把握试题的类型、求解目标、知识点分布等,进而抽象出人工标注过程中学习得到的知识和求解策略 标注结果将来可以作为标注数据,利用自然语言处理和机器学习方法,对新的试题进行自动的标注,这些标注的结果将用于解题。自动标注的时间、地点、术语等可以帮助分析理解试题,标注出的知识点、求解目标、问句模式可以帮助确

2、定查询目标及确定解题策略。2023-2-274试题手工标注规范n给定的一道试题(选择题)及 ABCD 四个选项,对其进行手工的标注,需要标注的内容包括:求解目标(Answer Type):多实体、单实体、判断、流程、其它;问句模式(Question type):事实、因果、比较、关联、图表计算、其它。(注:四个 选项的求解模式可能不同,因此此项标注以选项为单位);时间:标注出该试题及选项中存在的时间名词及短语;地点:标注出该试题及选项中存在的地点名词和短语;术语:标注出该试题及选项中存在的地理学科专业术语;课本知识点:标注出该试题所考察的知识点在书本上对应的书号、章、节;思维导图知识点:标注出

3、该试题所考察的知识点在思维导图中所处的位置;图片:标注出图片的类型,以及图片中包含的三元组信息。2023-2-275手工标注总结(求解目标)n共28套试卷,486个选择题,1944个选项进行了标注,试卷包括2006-2014年北京市高考地理试卷,以及近几年北京市海淀区、西城区、东城区、朝阳区的模拟试卷。n求解目标:486个选择题,其中“判断”357个,“单实体”83 个,“多实体”36 个,“流程”9 个,“其它”1 个。题面中的某些词汇基本可以确定求解目标。“分别”、“依次”:“多实体”题型“顺序”、“阶段”:“流程”题型“正确”、“原因”、“影响”:“判断”题型2023-2-276手工标注

4、总结(求解目标标注示例)2023-2-2772,图2为某山地的垂直带谱示意图。读图,回答第45题。2,4图中所示山地判断4A各自然带的界线随季节变化而移动4B北坡热量条件差,林带上界比南坡低4C南坡冰雪带下界因降水量大而较低4D南北坡山麓水平距离造成基带差异大2,5该山地位于单实体5A喜马拉雅山脉5B天山山脉5C祁连山脉5D昆仑山脉手工标注总结(问句模式)n问句模式:问句模式以选项为单位,但是有些试题4个选项的问句模式一致,因此共标注1944个问句模式,其中“事实”1177个,“因果”363个,“比较”218个,“图表计算”112个,“关联”70个,“其它”4 个。n题面中的某些词汇基本可以确

5、定求解目标。如“相比”、“最大”、“最高”:“比较”问 句“看出”、“能够”:“关联”问句“原因”、“导致”、“因为”、“因 素”:“因果”问句。2023-2-278手工标注总结(问句模式标注示例)2,图2为某山地的垂直带谱示意图。读图,回答第45题。2,4图中所示山地判断4A各自然带的界线随季节变化而移动事实4B北坡热量条件差,林带上界比南坡低比较比4C南坡冰雪带下界因降水量大而较低因果因.而.4D南北坡山麓水平距离造成基带差异大因果造成2,5该山地位于单实体事实位于5A喜马拉雅山脉5B天山山脉5C祁连山脉5D昆仑山脉2023-2-279手工标注总结(时间词)n时间词标注:486道试题共标注

6、时间词251个。我们基于时间词及短语的形式进行了归类,将试卷中的时间词及短语分为 9 类,包括:周期类,如“每天”“每年雨季”“每年10月4 日至10日”等;时间段,如“1-3 月”“从 2010 年起”等;季节(包括部分节气),如“春季”“秋冬季”“夏至日”“冬夏之交”等;不同粒度的时间点,如“2013 年”“午后14点左右”“此日后20日”等;有条件的时间点,如“气温最低时”“甲天气系统途径菲律宾时”“地震发生后”等;某时期,如“甲时期”“十二五期间”等;一天中的某时段,如“日出时间”“日出日落时间”“上午”等;虚拟指代的时间,如“某年”“该日”等;other:其他。2023-2-2710

7、手工标注总结(地点词)n地点词标注:486道试题共标注地点词1019 个。n我们依据地点词或短语的构造规律,对地点词进行了归类,将试卷中的地点词及短语分为 9 类,包括:包含经纬度的地点,如“90 E”,“北纬 50”等;虚拟指代的地点,“图示河流”“该国东北部的某河河口附近”等;行政区域,国家、省、市、县等等,如“江苏省”“北京市”“苏、皖、浙、闽 四省”等;XX 站,如“空间站”“中山站”等;XX 平原、高原等,包括特例”公园”,如“长江流域”“台湾岛”“巴西兰索 瓦玛朗汉斯国家公园”等;XX 区,如“喀斯特地貌地区”“中国部分农业主产区”等;包含方位词,如“向北”“城市中心”“地中海沿岸

8、”等;8.other:其它。2023-2-2711手工标注总结(术语)n术语标注:486道试题共提取术语 1547 个。n术语的标注可能存在不一致的问题,比如“太阳年辐射总量”“工业生成成本”等是否归为术语值得进一步探讨。n地理学科术语需要一个规范的、明确的集合,以供构造知识库和试题分析所用。2023-2-2712手工标注总结(思维导图知识点)n思维导图知识点标注:基于北京大学出版社出版的思维导图伴你学(高中地理 学习导图)一书。我们知识点的分布进行了考察,“中国地理概况”、“地球和地图”、“人口数量变化和人口的合理容量”等知识点出现的比较频繁,需要对这类知识点的试题进行重点的研究和突破。由于

9、思维导图结构相对复杂,部分同学标注不够规范。2023-2-2713“人口老龄化”、“常住人口”、“养老金”:“人口数量变化和人口的合理容量”。“信风带”、“副热带”等:“气压带和风带”手工标注总结(课本知识点)n课本知识点标注:基于北京市高中地理用书,包括3本必修,和7本选修课本515 道试题共标注课本知识点总条数921条。其中超过 60%集中在“必修一”和“必修二”两本书中。2023-2-2714“侵蚀”、“板块”、“堆积”、“岩石”:“必修一-第四章”图表分类n地图底图:平面图、剖面图叠加图:网格(如经纬度)、曲面(如海拔)、等值线(如等压线)、散点n表格与图表表格图表:柱形图、堆积条形图

10、、散点图、折线图、曲面图n流程图n照片图表标注举例类型信息类型信息伦敦,类型,城市英国,类型,国家l1,类型,洋流l2,类型,洋流地图地图-底图底图-平面图平面图英国,类型,区域l1,类型,轨迹l2,类型,轨迹伦敦,类型,点 p1_1,类型,点p1_2,类型,点p2_1,类型,点p2_2,类型,点l1,轨迹点,(p1_1,p1_2)l2,轨迹点,(p2_1,p2_2)地图地图-叠加图叠加图-网格网格伦敦,经度,0度伦敦,纬度,北纬51度p1_1,经度,西经11度p1_1,纬度,北纬50度p1_2,经度,东经2度p1_2,纬度,北纬52度p2_1,经度,西经12度p2_1,纬度,北纬52度p2_

11、2,经度,西经7度p2_2,纬度,北纬59度英国,北端,北纬61度英国,东端,东经2度英国,南端,北纬49度英国,西端,西经8度地图地图-叠加图叠加图-曲面曲面英国,海拔,0-500米手工标注总结n标注标准需要完善,需要更规范的标注体系;n标注质量参差不齐,需要进一步提高;n需要增加新的标注内容:如中心词、谓词等n需要标注更多2023-2-2717试题自动标注2023-2-2718试题自动标注:词法n手工标注了2013-2014 两年的北京高考试题,对其进行手动的分词和术语标注,作为分词、时间词、地点词、术语识别的测试集。n分词结果的F-Score超过了90%,错误中超过50%是术语识别的错误

12、。10%左右为包含标点的切分错误(如7.8%),10%左右为包含指代的实体识别错误(如“甲地”)。n假设词典包含试卷中的所有术语,加一些额外的后处理,能够达到96%+。2023-2-2719试题自动标注:句法2023-2-2720试题自动标注(句法语义)nAbstract Meaning Representation(AMR)一种简单的能够表达句子内部概念之间语义关系的一种表示方式。2023-2-2721试题自动标注(句法语义)nAbstract Meaning Representation(AMR)一种简单的能够表达句子内部概念之间语义关系的一种表示方式。分析的过程分为三个阶段:concep

13、t identification,relation identification,parsing。2023-2-2722试题自动标注(句法语义)nAbstract Meaning Representation(AMR)一种简单的能够表达句子内部概念之间语义关系的一种表示方式。分析的过程分为三个阶段:concept identification,relation identification,parsing。2023-2-2723试题自动标注(句法语义)nAbstract Meaning Representation(AMR)一种简单的能够表达句子内部概念之间语义关系的一种表示方式。分析的过程分为三个阶段:concept identification,relation identification,parsing。要想实现面向地理考题文本的AMRn需要确定所有实体及概念的定义n需要给出带有语义框架的中文词典n需要一定规模的AMR 标注语料。与知识图谱结合,利用知识图谱中的概念及关系作为约束,帮助确定文本图表示结果。2023-2-2724 谢谢2023-2-2725

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!