OPENKG中文知识图谱公开数据集整理云社区

简介:商品标题(长)、url、价格、描述、品牌和类目(多类目用$连接,单类目里也有可能有/分隔,比如“手机/手机配件$手机通讯$手机”);可构建商品-品牌-类目三元组?

数据量:2000000

数据格式:txt,\t分隔符,可直接用

文件:data2020\spider\all.json或all.csv

领域:学校

数据量:100

数据量:数据缺失

数据格式:rdf./ttl/nq格式,三元组结构不清晰

文件:chineseconceptnet.csv

领域:常识

简介:数据为繁体字,xxx会想让你xxx,xxx能做的事情有xxx,你可以在xxx找到xxx等

数据量:624805

数据格式:csv格式,\t分隔符,三元组需要提取过滤,有/c/zh前缀等;有部分数据列粘合在了一起;有activity字段的才有三元组关系(需进一步细致分析)

数据样例:/a/[/r/CapableOf/,/c/zh/逃避壓力/,/c/zh/睡覺/]/r/CapableOf/c/zh/逃避壓力/c/zh/睡覺{"dataset":"/d/conceptnet/4/zh","license":"cc:by/4.0","sources":[{"activity":"/s/activity/ptt/petgame","contributor":"/s/contributor/petgame/pet_15677"}],"surfaceEnd":"睡覺","surfaceStart":"逃避壓力","surfaceText":"[[逃避壓力]]能做的事情有[[睡覺]]。","weight":1.0}/a/[/r/AtLocation/,/c/zh/雞毛/,/c/zh/雞舍/]/r/AtLocation/c/zh/雞毛/c/zh/雞舍{"dataset":"/d/conceptnet/4/zh","license":"cc:by/4.0","sources":[{"activity":"/s/act...

文件:entities.json

简介:实体类别和名字,如label为Check,name为食道X线钡餐检查,一个类别有多个实体,Disease类别的name除了名字外还有预防成因等。

数据量:44656

数据格式:json格式,整体为json数组

数据样例:[{"label":"Disease","name":{"name":"肺泡蛋白质沉积症","desc":"肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。","prevent":"1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。","cause":"病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡蛋白沉着症,例如巨细胞病毒,卡氏肺孢子虫,组织胞浆菌感染等均发现有肺泡内高蛋白沉着。\n虽然启动因素尚不明确,但基本上同意发病过程为脂质代谢障碍所致,即由于机体内,外因素作用引起肺泡表面活性物质...

[DatasetPart2]文件:medical.json

数据量:8808

数据格式:json格式,一行一个病症

数据样例:{"_id":{"$oid":"5bb578b6831b973a137e3ee6"},"name":"肺泡蛋白质沉积症","desc":"肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。","category":["疾病百科","内科","呼吸内科"],"prevent":"1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。","cause":"病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡...

[DatasetPart3]文件:relations.json

简介:实体关系,共12个,(疾病)推荐食谱、(疾病)宜吃、(疾病)忌吃、(科室)属于(科室)、(疾病)所属科室、(疾病)常用药品、(药品在售)生产药品、(疾病)好评药品、(疾病)诊断检查、(疾病)症状、(疾病)并发症、(疾病)治疗方法

数据量:312159

数据样例:[{"start_entity_type":"Disease","end_entity_type":"Food","rel_type":"recommand_eat","rel_name":"推荐食谱","rels":[{"start_entity_name":"藏毛囊肿","end_entity_name":"白菜肉末粥"},{"start_entity_name":"甲沟炎","end_entity_name":"蛋花空心菜汤"},]},{"start_entity_type":"Disease","end_entity_type":"Food",...

文件:opencyc-Chinese-2012-06-19.owl

简介:中英翻译对照,数据经由google翻译api获得

数据量:161276个节点/关系

数据格式:.owl格式,需二次提取和理解owl文件格式

数据样例:光开关/rdfs:label电灯开关LightSwitchOnWall/cycAnnot:label具体地说,电灯开关上找到一个房间的墙上。不是一个自己的灯和灯具。/rdfs:comment

文件:rdfosmchinaall.json

领域:地理位置

简介:地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自OpenStreetMap

数据量:1716个中文地名,331192个经纬度位置

数据格式:json格式,需二次提取对应关系,有等效的节点,需进一步理解数据

[DatasetPart2]文件:rdfwikichinaall.json

简介:地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自wiki

数据量:1707个中文地名,330946个经纬度位置

数据格式:json格式,需二次提取对应关系

文件:biterm/biterm/*.txt

领域:38个领域|术语翻译

简介:材料科学、出版、农业、艺术等领域术语中英翻译对照(共现次数最多的1w个术语)

数据量:380000

数据格式:txt格式,\t分隔符,可直接使用

数据样例:文化culture山西高等学校社会科学学报SocialSciencesJournalofCollegesofShanxi和谐社会harmonioussociety中国China创新innovation长春大学学报JournalofChangchunUniversity统计研究StatisticalResearch教育education湖南师范大学社会科学学报JournalofSocialScienceofHunanNormalUniversity大学生collegestudents襄樊学院学报JournalofXiangfanUniversity...

[DatasetPart2]文件:techabs/abstract/*.txt

简介:材料科学、出版、农业、艺术等领域论文摘要(每个领域随机10w个摘要)

数据量:3551049行

数据格式:txt格式,可直接使用

数据样例:本文概述了YMF—6耐酸型FRP(纤维—树脂复合材料)基体材料的配方设计与测试数据。同时,介绍了YMF—6耐酸型FRP基体材料在大型酸槽修复中的应用情况,为YMF—6耐酸型FRP基体材料的应用,提供了使用依据分析了磷酸镁水泥的原料制备、水化机理及主要水化产物,介绍了磷酸镁水泥凝结影响因素、强度影响因素研究现状,在此基础上对磷酸镁水泥的应用前景及亟需解决的问题进行了初步探讨。简要介绍了自分层涂料及其研究和发展;总结了在自分层涂料的研究中,筛选树脂和预测涂料自分层倾向所遵循的理论模型;分析了助剂和填料对涂料分层的影响;介绍了自分层涂料涂层(膜)的检测方法。...

[DatasetPart3]文件:techner/NER_subset/*.txt

简介:材料科学、出版、农业、艺术等领域基于techterm术语采用远程监督方式生成的领域术语识别(每个领域3w个训练句子),结构为句子->术语数组

数据量:1140000

数据样例:复合材料MSCs/-βTCP与自体骨的骨再生能力相当。['复合材料']加涂层的试样在1250℃氧化遵循分段抛物线规律。['涂层','氧化']运用表面热力学基本原理研究了活性金属/陶瓷体系的粘着功。['热力学','陶瓷体','金属']通过电导率(σ)测试。['电导率']不同温度下复合材料的MSP强度显示出不同的组织依存性。['复合材料']...

[DatasetPart4]文件:techqa/encoded_QA/*.txt

简介:各领域三元组关系(基于techKG10)基于模板转化为的qa句。(techKG10是从TechKG中抽取的子集,规则为;领域术语的tf*idf在前10%;每个实体至少出现在10个三元组中)

数据格式:不可用,三元组关系只有节点id没有内容;暂未找到节点id和节点内容的对应文件

数据样例:11192350在什么时候发表了论文《43607926》?12734281。4360792612734281published_year11192350的研究兴趣是什么?25575032,01779750,25911907,42464314,31174103,22630855,42613488,29048116,12580553,01171186,08103493,16122327,13633522,10339260,14505887,36847773,25061852,33481245,06639445。1119235025575032research_interest...

[DatasetPart5]文件:techre/sub_RE/*.txt

简介:材料科学、出版、农业、艺术等领域基于techKG10、采用远程监督方式生成的领域关系抽取(每个领域20w个训练bags,每个bag6个句子)

数据量:18663452行

数据样例:复合材料构件碳纤维复合材料NA特别是碳纤维复合材料构件。非晶相莫来石NA在硅酸盐溶液中获得的陶瓷膜由莫来石、α-Al2O3、γ-Al2O3晶态相和SiO2非晶相组成。水煤浆锅炉hierarchical结合带侧边风的油/水煤浆两用燃烧器在这种型式锅炉上的实际应用情况。文化自主创新NA为自主创新提供必需的文化支撑。...

[DatasetPart6]文件:techterm/术语/*.txt

简介:材料科学、出版、农业、艺术等领域的术语(每个领域术语来自techKG中tf*idf最高的术语中随机1w条)

数据样例:inorganicnon-metallicmaterials复合材料metallicmaterialsfoundationaldisciplineinmaterialsscience修志工作中国地方志地方志事业...

文件:data/*.txt

领域:11个领域|词语

简介:IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物领域词语和DF值,词频统计语料来自CSDN博客、新浪新闻、搜狗语料。(源数据缺失,补充下载)

数据量:157173

数据样例:信鸽220963黄蜂118861水母78147随时随地52510全力以赴36156丰富多彩34727余波未平32967民以食为天3900任重而道远3742一言以蔽之2183...

文件:yidu-n7k/code.txt

领域:临床医疗|术语

简介:临床医疗手术的术语,有两列分别为编号术语

数据量:9867行,9468个非重复术语(有的术语有两个标号)

数据样例:00操作和介入NEC00.0治疗性超声00.0100头和颈部血管治疗性超声00.0101头部血管治疗性超声00.0102颈部血管治疗性超声00.0200心脏治疗性超声90.8上消化道标本和呕吐物的显微镜检查90.8x00上消化道标本和呕吐物的显微镜检查90.9下消化道标本和大便的显微镜检查90.9x00下消化道标本和大便的显微镜检查...

[DatasetPart2]文件:yidu-n7k/*.xlsx

简介:临床医疗术语标准化前后对照,有训练集、测试集、验证集;有两列分别为原始词标准词

数据量:answer.xlsx:2000;1901个术语在术语词典里train.xlsx:4000;3801个术语在术语词典里val.xlsx:1000;950个术语在术语词典里

数据格式:xlsx格式,可直接使用

数据样例:原始词标准词横结肠造口还纳术横结肠造口闭合术右肾上腺巨大肿瘤切除术肾上腺病损切除术左侧单侧乳房根治性切除术单侧根治性乳房切除术经皮三叉神经半月节射频热凝术三叉神经半月节射频热凝术经内镜支撑喉镜下双侧声带小结摘除术内镜下声带病损切除术肋骨病损切除术肋骨病损切除术腰椎间盘髓核切除术腰椎髓核切除术双侧腔镜下交感神经切断术(胸腔镜下)胸腔镜下交感神经切断术...

文件:yidu-s4k/subtask1*yidu-s4k/subtask1*

领域:临床医疗|实体识别

简介:临床医疗术语命名实体识别,有训练集、测试集;有实体识别的原文和startendpos

数据量:train1001,test379

数据格式:txt/json格式,可直接使用

[DatasetPart2]文件:yidu-s4k/subtask2_*

简介:临床医疗病症(器官)转移和病灶大小识别,有已标注训练集、测试集和无标注原文本;train结构为原文肿瘤原发部位原发病灶大小转移部位

数据量:train999(去重后),test400,unlabled1000

数据格式:xlsx/txt格式,可直接使用

数据样例:原文肿瘤原发部位原发病灶大小转移部位"1.结合临床,右乳癌,较前(2015-06-23)片基本变化不著;双肺转移,较前部分缩小,部分变化不著,部分略增大;肝转移,较前好转;双侧腋窝、纵隔多发小淋巴结,变化不著;右侧内乳区饱满,变化不著;脑多发转移2.左肺胸膜局限性增厚,局部钙化,变化不著。右侧乳腺乳头上方见不规则软组织密度肿块影,约4.6CM×3.2CM,边缘浅分叶,局部与周围腺体及乳头区皮肤分界不清,胸肌间脂肪间隙模糊,增强扫描见显著不均匀强化,其内见片状低密度影。左乳未见异常密度灶。双侧腋窝见多发小淋巴结,大者短径约0.6CM。右侧内乳区显示饱满。纵隔内左侧下肺静脉旁及下段食管旁见小淋巴结影。双肺野散在分布大小不等结节灶,大者直径约1.7CM,边缘清晰,局部与胸膜及纵隔关系密切,增强扫描可见强化。左肺胸膜增厚,局部呈结节样;局部见多发钙化灶并致局部肋骨欠规则。扫描野肝实质内见多个低密度灶,大者直径约0.8CM,边缘尚清晰,增强扫描边缘强化显著。脑实质内示多发结节灶,大者直径约0.7CM,增强扫描可见环形强化。脑室池无扩张。脑沟回无增宽。中线结构居中。"右乳4.6C...

文件:firstreleaseowl.owl

领域:百科

简介:PKU-PIE知识库的类别\谓词的定义信息;对应原url的数据集PKU-PIEontologyOWL

数据量:753个owl节点

数据格式:owl文件,需二次处理

[DatasetPart2]文件:firstreleasetriple.ttl.bz2\firstreleasetriple.ttl

简介:维基百科实体的类别三元组;对应原url的数据集instancetypetriple

数据量:921968行

数据格式:ttl文件,需二次处理

数据样例:

[DatasetPart3]文件:traveltriple.ttl.bz2\traveltriple.ttl

数据量:161184行

[DatasetPart4]文件:allfieldtriple.ttl.bz2

简介:本知识库内全领域实体的优质三元组数据集;对应原url的数据集AllFieldTriples

数据量:数据缺失,据介绍有5000w+

文件:peg/peg.ttl

领域:医疗|病人事件

简介:使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。

数据量:1840752行;176981个resource

文件:data/graph.json

领域:菜谱

简介:node实体,包含菜谱名称、类型、耗时、口味、工艺、做法;node信息包括material原料和recipe食谱两类,link关系包括食谱和原料之间的主食材/辅料及用量的关系

数据量:82个食谱/原料;100个link

数据格式:json文件,可直接使用

[DatasetPart2]文件:data/ingre_func.json

简介:食物的营养价值和食用功效

数据量:1234

数据格式:json文件,unicode编码

数据样例:{"艾草":{"营养价值":"1.现代药理发现,艾叶挥发油含量多,1.8-桉叶素(占50%以上),其它有α-侧柏酮、倍半萜烯醇及其酯。风干叶含矿物质10.13%,脂肪2.59%,蛋白质25.85%,以及维生素A、B1、B2、C等。\n2.茎、叶都含有挥发性芳香油。它所产生的奇特芳香,可驱蚊蝇、虫蚁,净化空气。","食用功效":"1、理气血,逐寒湿;温经,止血,安胎。治心腹冷痛,泄泻转筋,久痢,吐衄,下血,月经不调,崩漏,带下,胎动不安,痈疡,疥癣。\n2、抗真菌作用、平喘作用、利胆作用、抑制血小板聚集作用、止血作用、对胃肠道及子宫的作用、对心血管系统作用、抗过敏作用等。"},"鹌鹑":{"营养价值":"鹌鹑为雉科动物。俗话说:“要吃飞禽,鸽子鹌鹑。”鹌鹑肉、蛋,味道鲜美,营养丰富。鹌鹑又简称鹑,是一种头小、尾巴短、不善飞的赤褐色小鸟,鹌鹑肉是典型的高蛋白、低脂肪、低胆固醇食物,特别适合中老年人以及高血压、肥胖症患者食用。鹌鹑可与补药之王人参相媲美,誉为"动物人参"。\n鹌鹑肉质鲜美,含脂...

[DatasetPart3]文件:data/recipe.json

简介:菜谱的菜名、主食材/辅料和用量、耗时、口味、工艺、做法、类型。

数据量:19669

数据样例:{"香肠炒菜干":{"主食材":[["香肠","2根"],["菜干","200g"]],"辅料":[["豆豉","2匙"],["蒜","少许"],["葱","1颗"],["酱油","2匙"],...

文件:invest-on-invent-kg.json

领域:投资

简介:企业投资公司/专利,投资方、被投资公司、被投资公司融资阶段、被投资专利

数据量:394204个节点;investor5322;company11960;patent376922

数据样例:{"@graph":[{"@id":"0","@type":"investor","name":"瑞华林投资","relationship":{"investCompany":[{"@id":"5617","@type":"company","round":"新三板定增","date":"2016-03-04"}]}},{"@id":"11219","@type":"comp...

文件:cqzg-kg\东周列国知识图谱\人物关系.xlsx

领域:历史

简介:春秋战国时期人物之间关系三元组,人物1人物2关系

数据量:613

数据格式:xlsx文件,可直接使用

数据样例:人物1人物2关系齐桓公齐襄公兄弟齐襄公文姜兄妹|情人文姜宣姜姐妹文姜鲁恒公夫妻...

[DatasetPart2]文件:cqzg-kg\东周列国知识图谱\人物信息.xlsx

数据量:436

[DatasetPart3]文件:cqzg-kg\东周列国知识图谱\事件信息.xlsx

简介:春秋战国时期的战争事件会盟事件序列事件(主事件&子事件)通用事件死亡事件成语事件同义词等

数据格式:xlsx文件,可直接使用,每种事件分别放在不同的xlsx表

文件:openentity\OpenEntity\entity.txt

领域:全领域?百科?

简介:实体

数据量:762942

数据格式:txt文件,可直接使用

数据样例:学长刘勇商周上海人民企业集团黑龙江机电销售有限公司中华人民共和国驻德意志联邦共和国大使馆中共开封市郊区委员会组织部党员教育中心...

[DatasetPart2]文件:openentity\OpenEntity\concept.txt

简介:概念

数据量:18726

数据样例:同学人专家光阴路线图布告...

[DatasetPart3]文件:openentity\OpenEntity\hyper.txt

简介:实体-概念

数据量:3180379

数据格式:txt文件,;分隔符,可直接使用

数据样例:学长;同学学长;人刘勇;专家中共开封市郊区委员会组织部党员教育中心;中心中共开封市郊区委员会组织部党员教育中心;空间...

[DatasetPart4]文件:openentity\OpenEntity\triple.txt

简介:实体三元组,(关系跟上面的概念不一样)

数据量:2983078

数据样例:学长;外文名;SeniorStudents/Senior学长;拼音;xuézhǎng学长;中文名;学长中华人民共和国驻德意志联邦共和国大使馆;职能;使馆中华人民共和国驻德意志联邦共和国大使馆;地点;德国中华人民共和国驻德意志联邦共和国大使馆;中文名;中华人民共和国驻德意志联邦共和国大使馆中华人民共和国驻德意志联邦共和国大使馆;性质;公办...

[DatasetPart5]文件:openentity\OpenEntity\bigcilin_schema.jsonbigcilin_open_schema.xlsx

简介:schame文件

数据量:188853

数据格式:json/xlsx文件,可直接使用

文件:ECSD-master\Do*

领域:电商|情感词汇

数据量:DoN|否定词|29;DoP|多极性观点|99;DoUM|中性观点|82;DoUN|负面观点|2084;DoUP|正面观点|844

数据格式:文本格式,可直接使用

数据样例:|正面观点表达|DoUP|844|...物有所值,实惠,舒服...||中性观点表达|DoUM|82|...美中不足,一般,凑合...||负面观点表达|DoUN|2084|...伤不起,差评,贵...||多极性观点表达|DoP|99|...水水的,大,高...||否定词|DoN|29|...不,不怎么,没那么...|...

文件:dbmovies.json

领域:电影

数据量:4587

文件:data.json

领域:股票

简介:港股、a股、美股部分股票的上市场所、公司名、公司总裁、行业、员工人数、注册地址、股票代码、邮编等

数据量:25527

文件:wn-data-cmn.tab

领域:wordnet

简介:wordnet数据,cmn:lemma

数据量:79810

数据格式:tab文件,\t分隔符,需二次处理

数据样例:02062744-ncmn:lemma鲸02689973-acmn:lemma鲸+的02005399-ncmn:lemma鲸头鹳02005238-ncmn:lemma鲸头鹳属02005102-ncmn:lemma鲸头鹳科02158619-ncmn:lemma鲸尾叶突15049902-ncmn:lemma鲸油14781989-ncmn:lemma鲸油02062209-ncmn:lemma鲸目02062430-ncmn:lemma鲸目动物02689973-acmn:lemma鲸目哺乳动物+的02062209-ncmn:lemma鲸类02689973-acmn:lemma鲸类+的14781989-ncmn:lemma鲸脂01993830-ncmn:lemma鲸虱01993714-ncmn:lemma鲸虱属14758252-ncmn:lemma鲸须14758252-ncmn:lemma鲸骨03323319-ncmn:lemma鲸骨衬箍02062744-ncmn:lemma鲸鱼...

[DatasetPart2]文件:wn-cmn-lemon.xml

简介:uniquewords?

数据样例:决斗录音磁带归来迷走神经+的极不公正+地怕二价盐大地线神志清醒知性+的心绞痛怀抱大志者无忧无虑适于掘地+的苦恼引言展出美洲黑杜鹃机器螺钉氢溴酸盐姑茑微小+的不干净+的肯定的回答面部白臀野牛南极不及格+的用铅笔写小腓鱼葡萄核去分化矮矮胖胖可改动+的...

[DatasetPart3]文件:wn-cmn-lmf.xml

简介:synsets

文件:Artificial-Intelligence-Terminology-master\data*.md

领域:AI术语

数据量:500

数据格式:md格式,需要二次处理

数据样例:ActivationFunction|激活函数|[1]/[2]Accumulatederrorbackpropagation|累积误差逆传播|[1]AdaptiveResonanceTheory/ART|自适应谐振理论|[1]...

文件:airportcnschema.json

领域:机场

数据量:12547

数据样例:"@graph":[{"@id":"a6f547d1a465d0a66e32e61585b40cdf0883a61c","@type":["Airport","CivicStructure","Place","Thing"],"address":{"@type":["PostalAddress","Thing"],"addressCountry":"MarshallIslands","city":"4"},"geo":{...

文件:santirelationships.json

领域:三体|人物

简介:三体人物关系

数据量:20个节点,23个人物名,四个关系

文件:*.nt

领域:知识库实体resource?

简介:cndbpediazhwikipkubasebelief-engine知识库实体名字和resource的对应关系;没太看懂;

数据量:interest_triple_actor_final_pku_label.nt;15529;ml_train_data_zhishime.nt;500;zhwiki_labels_zh.nt;575770;interest_triple_actor_final_belief_label.nt;4695;interest_triple_actor_final_pku_label.nt;15529;ml_train_data.nt;600;cndbpediaDump_26.nt;358986;zhwiki_labels_zh.nt;575770

数据格式:nt文件,需二次处理

数据样例:==========MLALgorithm使用实例-领域与百科数据集之间的匹配\领域与百科数据集之间的匹配\interest_triple_actor_final_pku_label.nt==========

pkubaseresource-label-名字

文件:smart-home-wordnet.csv

领域:家电控制

简介:空调、洗衣机、冰箱、热水器等不同种类家电的控制语义及词汇

数据量:1379

数据格式:csv文件,元组关系需要二次整理

数据样例:_id:id_labels:labelnametitleunitoff_shelve:longcold_warmfrequencylocen_nametypeadaptable_automobile_modefreezing_mediumurlimage_start:id_end:id_type:labelname12449:System系统类WordNet2450:sceneCulturalEntertainmentWordNet2451:CulturalEntertainment文化娱乐WordNet2479:scenePersonalServiceWordNet2480:PersonalService个性化服务WordNet2481:sceneSceneServiceWordNet2482...

文件:fin-temporal-hypergraph.owl

领域:金融

简介:面对金融领域多元关系表示的困境和时序事件表示需求,结合超图概念和事件5W(When,Where,Why,What,Who)定义,构建了可通用化的金融时序超…

数据格式:不懂

[DatasetPart2]文件:data.nt

简介:三种多元关系:(环形)交叉持股—形成环形有向拓扑、一人兼多家公司董事—形成星型外向拓扑、(债券)共同担保—形…

数据量:52

文件:*.json-ld

领域:气象

数据量:768359

数据格式:json格式,可直接使用

文件:paper-kg.json

领域:论文

数据量:31478个paper;604378个引用被引用关系

数据样例:{"@id":"f6370fe63ff9c7191335c3e5de8d4b6935ae1792","@type":"paper","fieldsOfStudy":"ComputerScience","relationship":{"inCitations":[{"@type":"paper","@id":"8ba747f106944eff37e6cca1fc62a4b56cc58d86"}],"outCitations":[{"@type":"paper",...

文件:7Lore_triple.csv

简介:百科知识图谱,包含了事物、事实、概念、规则等

数据量:文件损坏,据说有8000w百科三元组,重新下载文件也损坏

文件:graph.json

领域:企业|投资/融资

数据量:3582

数据样例:{"name":"北京恒康屠宰有限公司","financingEvent":[],"legalRepresentative":"郭文福","registeredCapital":200.0,"paidUpCapital":200.0,"status":"开业","foundingDate":"2009-12-10","creditCode":"91110115697664906X","taxID":"91110115697664906X","regId":"110115012476732","organizationCode":"69766490-6","type":"有限责任公司(自然人投资或控股)","industry":"制造业","approvalDate":"2017-12-15",...

文件:ekg-jsonld/EKG-JSON/*.json*.jsonld

领域:企业

数据量:共69979个关系

数据格式:json格式,有的为utf-8有的为utf-9-sig编码;.json文件的关系需按照binding-subject-value进行合并

文件:SciKG_min_1.0\SciKG_min_1.0.txt

领域:科技

简介:计算机科学领域,由概念、专家和论文、专家职位、隶属机构、研究兴趣、论文标题、中文名、作者、摘要、出版地点、年份、论文子父节点等信息;概念定义大多来自维基百科,专家和论文为概念对应的顶尖专家和论文;

数据量:20502个概念;206240个专家;512698篇论文

数据格式:txt格式(内部是json格式),可直接使用

数据样例:[{"id":1,"name":"Generalandreference","name_zh":"\u4e00\u822c\u548c\u53c2\u8003","level":0,"definition":"","definition_zh":"","child_nodes":[2,155],"parent":0,"experts":[{"id":"53f4cc4adabfaeebdcf80ce2","name":"KeesVanDeemter","name_zh":"","position":"","h_index":...

简介:乳腺癌临床试验语义标注,注解、检查、资格标准、患者、试验等信息

数据量:5k~1w

数据格式:nt格式,需要二次处理;一个nt文件为单独一个关系?大概有

文件:Disease.csv

领域:医疗|疾病知识

简介:疾病简介、科室分类、患病比例、易感人群、治疗方式、治愈率、病因、症状、推荐食谱、推荐药物等

数据量:483272行(关系);14955个疾病

数据格式:csv格式,可直接使用

数据样例:百日咳[疾病],简介,"百日咳(pertussis,whoopingcough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。"百日咳[疾病],一级科室分类,疾病百日咳[疾病],二级科室分类,儿科百日咳[疾病],三级科室分类,小儿内科百日咳[疾病],医保疾病,否百日咳[疾病],患病比例,0.5%百日咳[疾病],易感人群,多见于小儿百日咳[疾病],传染...

文件:emergency.rdf

领域:突发事件

数据量:540个事件,37种事件

数据格式:rdf格式,需二次处理

文件:ntriples.nt

领域:图书

简介:图书标题、评分、作者、作者国籍、译者、译者国籍、出版社、出版日期、价格、标签等;共计172112条三元组,包括9335本图书,10566个人,1030家出版社

数据量:172112个三元组;9335本书;10238个人;1030家出版社

数据格式:nt文件,需要二次处理

文件:*.json

领域:音乐

数据格式:json文件,一行为一首歌,三元组关系需要再提取

数据样例:{"_id":"1346104327","name":"多想在平庸的生活拥抱你","artist_ids":["12429072"],"artist_names":["隔壁老樊"],"album_id":"75019098","album_name":"我曾","lyric":"[by:Lucky-SN]-作曲:隔壁老樊-作词:隔壁老樊-制作人:段小林-编曲:黄超-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平淡淡安安静静的老去-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平...

文件:microeco.json

领域:微观经济学|术语名词

简介:微观经济学中的知识逻辑,市场主体、市场客体、市场行为,关系为is、include、positivelyrelated、negativelyrelated。

数据量:58

数据源链接:找不到

文件:data-concept-instance-relations.txt

简介:类型/关系实体count?

数据量:33377320个三元组;5376525个关系?(第一列);12501526个实体?(第二列)

数据格式:txt文件,\t为分隔符,每列含义需再确定

数据样例:factorage35167freerichcompanydatumsize33222freerichcompanydatumrevenue33185statecalifornia18062supplementmsmglucosaminesulfate15942factorgender14230factortemperature13660metalcopper11142issuestresspaindepressionsickness11110variableage9375informationname9274statenewyork8925socialmediumfacebook8919materialplastic8628supplementalmaterialcds8175supplementalmat...

文件:medicalai.json

领域:医疗、人工智能词汇

简介:通过8种器官,20余种疾病作为疾病前缀,通过“DeepLearning”,“Automatic”,“NeuralNetwork”,“CNN”“Net”等深度学习关键词作为模板进行文件检索在期刊网站上爬去搜索标题、只要、关键词。

数据量:85个实体,213个关系

数据格式:json文件,一行为一个实体

文件:medical.json

简介:疾病名称、描述、所属科目、预防、病因、症状、是否支持医保、传染性、发病率、治愈率、治疗费、推荐食物、推荐药物、推荐药物细节等信息

数据量:8808个病症

数据格式:json文件,一行一个病症

{"_id":{"$oid":"5bb578b6831b973a137e3ee7"},"name":"百日咳","desc":"百日咳(pertussis,whoopingcough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。","category":["疾病百科","儿科","小儿...

文件:kglol.rdf

领域:英雄联盟

简介:英雄联盟人物名字、类型、昵称、各种技能值、与其他英雄的关系等信息

数据量:168个英雄?

数据格式:rdf文件,需二次处理

文件:有色行业产业链图谱.json

领域:“有色”行业

简介:有色金属、贵金属、稀土、金属非金属新材料板块的产品产业链信息。展示行业内部结构的关系有“下位行业”、“主要产品”、“下位产品”;展示产品上下游的关系有“下游”。如稀土氧化物-下位产品-氧化钇(Y2O3),有色金属行业-下位行业-黄金行业

数据量:255个关系

数据样例:{"row":[{"name":"稀土氧化物"},{"name":"下位产品"},{"name":"氧化钇(Y2O3)"}],"meta":[{"id":5448,"type":"node","deleted":false},{"id":7037,...

文件:casia-kb-tourist-attraction.nt

领域:旅游景点

简介:旅游景点的中文名、拼音、所在地、别名、总面积、景点个数、特点等,馆藏名字、所在博物馆等,名人名字、所涉及地点等信息;抽取自百度百科和互动百科;

数据量:1982个关系

文件:图谱构建代码和可视化代码\graph\城市信息.csv

领域:城市

简介:城市名字、行政级别、rgdp、车牌前缀、别名、人口数、所在省、英文名等信息

数据量:342个城市

数据格式:csv文件,可直接使用

数据样例:,城市名,英文名,别名,人口数量,地区生产总值,车牌号,行政级别,省份0,玉林市,Yulin,郁林,736.97万,1679.77亿元,桂K,地级市,广西壮族自治区1,盐城市,Yancheng,盐渎、瓢城、登瀛、百河之城,821.35万,5702.26亿元,苏J,地级市,江苏省2,宿州市,Suzhou,宿城、云都、蕲城郡,568.14万,1978.75亿元,皖L,地级市,安徽省3,葫芦岛市,Huludao,筝岛,锦西,275.8万,807.1亿元,辽P,地级市,辽宁省...

[DatasetPart2]文件:图谱构建代码和可视化代码\graph\城市接壤数据.csv

简介:城市接壤信息:被接壤城市、城市

数据量:1900

数据样例:city_1,city池州市,安庆市六安市,安庆市九江市,安庆市巢湖市,安庆市铜陵市,安庆市黄冈市,安庆市滁州市,蚌埠市亳州市,蚌埠市淮北市,蚌埠市淮南市,蚌埠市宿州市,蚌埠市...

文件:zhishimejson\zhishime_json\baidubaikehudongbaikezhwiki*\home\wl\zhishime2**.json

摘要、类别、信息等分别单独存于*_abstrace_zh*、*_categories_*等json文件数据量:52559540个百科;4252402个百科链接对应关系;大概16583415个词条实体?

数据样例:======3.0_baidubaike_abstracts_zh.json==========

文件:zhontodump*.rdf

简介:词条的名字、subject、关系、相似、等信息;数据源于wikidatazh部分

数据量:共61801244行;大概总共有2930151个实体?

文件:baiketriples\baike_triples.txt

数据量:65001293;大概总共有9412272个实体?

数据格式:txt文件,\t分隔符,可直接使用

[DatasetPart2]文件:m2e\m2e.txt

简介:mentiontoentity

数据量:1120313

数据样例:!感叹号""(标点符号)""(长度单位)"10·28"暴力恐怖袭击案件10·28暴力恐怖袭击案"118"组织、领导传销系列案"1·18"组织、领导传销系列案"12.4"全国法制宣传日全国法制宣传日"20110805"特大跨省贩卖毒品案"2011·08·05"特大跨省贩卖毒品案"333"素质教育的理论与实践"3·3·3"素质教育的理论与实践HACCPHACCPHDHD(HD水溶性去屑因子)HK11A1式7.62mm轻机枪hk11a1式7.62mm轻机枪HK13式5.56mm轻机枪HK13式5.56mm轻机枪...

文件:dsc.nlp-bigdatalab.org\dsc.nlp-bigdatalab.org.ttl

领域:医疗|症状

数据量:1008765;大概总共有144605个实体?

数据格式:ttl文件,需要二次处理

文件:全部保险产品清单.xls

领域:保险

简介:保险公司的保险产品的类别、定位、销售状态和链接;可构建公司-保险类型-保险产品三元组?

数据量:15529

数据格式:csv格式,可直接用

华为开发者空间发布

让每位开发者拥有一台云主机

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

THE END
1.某图书馆书籍推荐系统的设计与实现(源码+开题)本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。 系统程序文件列表 开题报告内容 研究背景: 随着图书馆藏书量的不断增加,如何帮助读者快速找到自己感兴趣的书籍成为了一个重要的问题。传统的图书馆推荐方式存在着信息不全面、个性化程度不高等问题,无法满足现代读者的需求。因此,开发一https://blog.csdn.net/springboot6789/article/details/144399275
2.TKDE2023为推荐系统注入先验知识:基于近邻增强的对比学习推荐图2. 提出的邻域增强监督对比损失(NESCL)的整体框架 该框架有四个部分,A) 用于基于用户-物品交互矩阵 R 计算用户-用户相似度矩阵和物品-物品相似度矩阵。B) 它表示如何获得所有用户和项目的两个表示矩阵 H′∈R(|U|+|ν|)×D 和增强表示 H′′∈R(|U|+|v|)×D https://cloud.tencent.com/developer/article/2408024
3.ER图关系模式的转换数据库系统原理---ER图转化成关系模式 E-R图转换 ? E-R图是由实体、实体的属性和实体之间的联系三个要素组成的。将E-R图转换为关系模型实际上就是要将实体、实体的属性和实体之间的联系转化为关系模式 。 实体集向关系模式的转换 一般转换遵循的原则 实体集的转换规则:一个实体型转换为一个关系模式。实体https://www.pianshen.com/article/7895168137/
4.推荐系统概述(一)Jamestr=(E?αMT)?1(1?α)ror=(E?αMT)?1(1?α)ro 其中,(E?αMT)?1(E?αMT)?1可以看做所有顶点的推荐结果,每一列代表一个顶点项,对该顶点的PR值。 特点: 主题无关性 对新物品不利 5)Slope One算法 Slope One 算法 是一种基于评分的预测算法, 本质上也是一种基于项目的算https://www.cnblogs.com/hellojamest/p/10952382.html
5.如下所示的ER图,需要几个关系模式才能实现该EWindows系统中内置了一些用户组,其中,对计算机拥有不受限制的完全访问权的用户组是___。 A. Guests B. Power Users C. Users D. Administrators 查看完整题目与答案 在E-R图中,用来表示实体集的图形是 A. 矩形 B. 椭圆形 C. 菱形 D. 三角形 查看完整题目与答案 由于影响课程https://www.shuashuati.com/ti/ae5345d1c30148ca9422e274b7c0f696.html?fm=bd5b920ac7f623c8979282c4007fb82e11
6.awesomegocmdr star:118 一个POSIX/GNU风格的、类似getopt的命令行UI Go库。 env star:102 基于标记的结构gorse star:6586 基于协同过滤的离线推荐系统后端。 gorgonia star:4834 基于图形(graph-based)的计算excelize star:14334 Golang图书馆阅读和写作微软Excel?(XLSX)文件。 xlsx star:5456 用https://gitea.mrx.ltd/Go-pkg/awesome-go-cn/src/commit/c5a36a9329cd55bce92df7888f09e744ebea35b5/README.md
7.谢浩然等人工智能赋能个性化学习:E图1展示了E-Learning推荐系统领域的年度发文量,可以看出,该领域发文量总体呈现上升趋势,特别是自2020年以来呈现出快速增长态势。研究还根据发文年度和发文量提出了一个多项式回归估计方程:y=0.1966x2-788.1398x+789910.6,其拟合优度(R2)为84.16%,表明该模型能够有效拟合E-Learning推荐系统研究文献的年度发展趋势,并预测https://aidc.shisu.edu.cn/66/27/c11041a157223/page.htm
8.推荐系统之图神经网络推荐算法:RelationalGraphConvolutional实体关系嵌入:R-GCN不仅能够学习实体(用户和物品)的嵌入表示,还能够学习关系的嵌入表示,这有助于理解实体之间的动态关系。 高效性:通过使用基函数和关系权重矩阵的组合,R-GCN能够在保持模型复杂度的同时,处理大规模的图数据。 1.3示例:R-GCN在电影推荐系统中的应用 https://max.book118.com/html/2024/0905/5143001010011314.shtm
9.MKR模型在电影推荐系统中的应用研究摘要: 针对电影推荐系统中推荐结果的准确性和可解释性不高的问题,研究了基于多任务特征学习的知识图谱增强推荐(multi-task learning for knowledge graph enhanced recommendation, MKR)。通过构建知识图谱,将其作为辅助信息构建了MKR模型,并将其应用到电影推荐系统中。采用预测用户满意度评分的方法根据评分结果来判定用户http://hanspub.org/journal/PaperInformation?paperID=41485
10.GitHub2014-10-15 @好东西传送门: 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法https://github.com/mars2009bme/hao
11.机器学习与数据科学(基于R的统计学习方法)当你在访问www.r-project.org网站时,请尽可能利用上面所有的学习资源,包括R手册、R期刊、图书和其他关于R的文档。 在学习本书的过程中,另一个强烈推荐使用的软件是RStudio集成开发环境(IDE)。访问www.rstudio.com来下载RStudio。RStudio是一个功能强大的R用户界面,免费开源,并且在Windows、Mac和Linux上都有很好https://www.epubit.com/bookDetails?id=N17365
12.河南财大成教《大数据基础》高起专原题及答案B.E-R图 C.关系模型 D.概念模型 答案:D 9、SQL语言中的“视图(VIEW)”对应于数据库系统三级模式结构中的___。 A.模式 B.外模式 C.模式 D.都不对应 答案:B 10、在数据库设计中数据流图(DFD)和数据字典(DD)主要用来描述结构化方法中的___阶段的工具。 A.概念结构设计 B.需求分析 C.可行性分析 http://www.ehnzk.com/forum.php?mod=viewthread&tid=1820&page=1
13.新闻推荐系统python新闻推荐系统ER图柳随风的技术博客新闻推荐系统 python 新闻推荐系统ER图 E-R图也称实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。 用矩形表示实体型,矩形框内写明实体名;用椭圆表示实体的属性,并用无向边将其与相应的实体型连接起来;用菱形表示实体型之间的联系,在菱形框内写明联系https://blog.51cto.com/u_14276/7307966
14.融合知识图谱和轻量图卷积网络的推荐算法摘要:针对知识图谱推荐算法用户端和项目端建模程度不均且模型复杂度较高等问题, 提出融合知识图谱和轻量图卷积网络的推荐算法. 在用户端, 利用用户相似性生成邻居集合, 将用户及其相似用户的交互记录在知识图谱上多次迭代传播, 增强用户特征表示. 在项目端, 将知识图谱中实体嵌入传播, 挖掘与用户喜好相关的项目信息;https://c-s-a.org.cn/html/2023/8/9209.html
15.跨媒体科技大数据的知识图谱构建与动态精准画像( 记为 N) 的句子的 F1-score Models CopyRone CopyRMulti GraphRel1p GraphRel2р CopyRRL CasRel以及中国图 资源之间的学科交叉关系具有重要参考意义.在 书馆分类法中的图书分类号,将学科分类号作为 在推荐系统和在线广告等应用上发挥着巨大作用.以往的模型大 多忽略特征中存在的潜在结构性,从而并不能https://new.caai.cn/index.php?s=/home/file/download/id/456.html
16.百度算法岗武功秘籍(中)6 操作系统高频问题:数据库&线程等 7 技术&产品&开放性问题 3 百度面经涉及项目知识点 3.1 深度学习-CNN卷积神经网络方面 3.1.1 目标检测方面 3.1.1.1 讲解原理 ● 说一下Faster R-CNN,要详细画出图,说一下ROI polling与RPN? ● Rcnn,Fast-Rcnn,Faster-Rcnn,SSD,YOLO,FPN,MASK RCNN,Cascade RCNN,都https://www.flyai.com/article/948
17.September2017日攀科技(机器海岸线)其中包括图书 (915)、期刊 (99640)、报纸 (93)、学位论文(50897)、会议论文 (7465)、标准 (103)Matveev(3)、Silke Weinfurtner(3)、Sen, R. N.(3)、Volker Perlick(3)、Udriste, C(3)等智能电网 机器学习 推荐系统 遥感 申请人统计 国家电网公司(545) 微软公司(128) 腾讯科技(深圳)有限https://rsipe.wordpress.com/2017/09/