MASC I ANNOTATIONS

 

CHART LEGEND

GENRE indicates the genre of the data, drawn from the ANC controlled vocabulary for text categorization.
COLLECTION indicates the set of data from which the texts are drawn. Most are described in the documentation of OANC data.
NAME is the base name used for the text file and all of its associated standoff annotation files and headers.
LENGTH gives the length of each text in words.
FN = FrameNet, PB = PropBank, OA = Opinion Annotation (Pittsburgh ), TM = TimeML (Brandeis), DT = Discourse Treebank (Penn), HG = HSPG annotation (Stanford), CB = Committed Belief (CMU), EV = Event (CMU)

GREEN annotations included in MASC I
PURPLE annotations on hand, available as soon as prepared
YELLOW annotations to be provided
BLUE annotations in progress


GENRE SOURCE FILE
Length
FN PB OA TM DT HG CB EV
letters ICIC 110CYL067 505                
letters ICIC 110CYL068 449                
letters ICIC 110CYL069 565                
letters ICIC 110CYL070 193                
letters ICIC 110CYL071 424                
letters ICIC 110CYL072 144                
letters ICIC 110CYL200 401                
letters ICIC 112C-L012 280                
letters ICIC 112C-L013 357                
letters ICIC 112C-L014 248                
letters ICIC 112C-L015 311                
letters ICIC 112C-L016 195                
letters ICIC 113CWL017 258                
letters ICIC 113CWL018 213                
letters ICIC 114CUL057 260                
letters ICIC 114CUL058 352                
letters ICIC 114CUL059 297                
letters ICIC 114CUL060 415                
letters ICIC 115CVL035 331                
letters ICIC 115CVL036 354                
letters ICIC 115CVL037 404                
letters ICIC 116CUL032 385                
letters ICIC 116CUL033 295                
letters ICIC 116CUL034 666                
letters ICIC 117CWL008 227                
letters ICIC 117CWL009 242                
letters ICIC 118CWL048 241                
letters ICIC 118CWL049 345                
letters ICIC 118CWL050 629                
letters ICIC 119CWL041 231                
journal Slate Article247_327 782                
journal Slate Article247_328 473                
journal Slate Article247_3500 706                
journal Slate Article247_400 709                
journal Slate Article247_500 734                
journal Slate Article247_66 636                
gov't documents 9/11 report chapter-10 6064                
travel guides Berlitz HistoryGreek 2713                
travel guides Berlitz HistoryJerusalem 2664                
non-fiction OUP ch5 (kaufman3) 4408                
spoken Charlotte NapierDianne 2258                
spoken Charlotte PolkMaria 502                
spoken Charlotte ReidSandra 1863                
spoken Charlotte RindnerBonnie 340                
spoken Switchboard sw2014-ms98-a-trans 744                
spoken Switchboard sw2015-ms98-a-trans 1260                
spoken Switchboard sw2071-ms98-a-trans 938                
spoken Switchboard sw2078-ms98-a-trans 2106                
spoken transcript gov't docs Day3PMSession 20817                
fiction web lw.1 730                
journal Verbatim Vol15-3 14779                
non-fiction OUP ChZ 900                
technical PLOS pmed00129 412                
letters ICIC 602CZL285 301                
email Enron enron-thread-159550 388                
email Enron ENRON-pearson-email-25jul02 80                
newswire LU Corpus A1.E1-NEW 188                
newswire LU Corpus A1.E2-NEW 232                
newswire LU Corpus 20000410_nyt-NEW 227                
newswire LU Corpus 20000415_apw_eng-NEW 275                
newswire LU Corpus 20000419_apw_eng-NEW 221                
newswire LU Corpus 20000424_nyt-NEW 43                
newswire Wall St. Jrnl. wsj_1640.mrg-NEW.txt 531                
newswire Wall St. Jrnl. wsj_2465.txt 752                
spoken Switchboard sw2025-ms98-a-trans 1376                
               
TOTAL     82369