diff --git a/.github/workflows/pkg_index.yml b/.github/workflows/pkg_index.yml
new file mode 100644
index 0000000..7955b98
--- /dev/null
+++ b/.github/workflows/pkg_index.yml
@@ -0,0 +1,40 @@
+name: Build and commit index.xml on package update
+
+on:
+  push:
+    branches:
+      - gh-pages
+    paths:
+      - 'packages/**'
+
+jobs:
+  build-index:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout repository
+        uses: actions/checkout@v3
+
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: '3.x'
+
+      - name: Install dependencies
+        run: pip install nltk
+
+      - name: Install make
+        run: sudo apt-get update && sudo apt-get install -y make
+
+      - name: Build index.xml
+        run: make pkg_index
+
+      - name: Configure git
+        run: |
+          git config user.name "github-actions[bot]"
+          git config user.email "github-actions[bot]@users.noreply.github.com"
+
+      - name: Commit and push index.xml
+        run: |
+          git add index.xml
+          git commit -m "Auto-build index.xml after package update" || echo "No changes to commit"
+          git push
\ No newline at end of file
diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
new file mode 100644
index 0000000..67aec2a
--- /dev/null
+++ b/CONTRIBUTING.md
@@ -0,0 +1,81 @@
+# Contributing to nltk_data
+
+Thank you for your interest in contributing to [`nltk_data`](https://github.com/nltk/nltk_data)! This guide will help you add new data packages (corpora, taggers, models, etc.) and contribute improvements to existing ones.
+
+## Adding a New Data Package
+
+The `nltk_data` repository contains datasets and resources that can be downloaded by `nltk.downloader`. To add a new dataset or resource, please follow these steps:
+
+### 1. Fork and Clone the Repository
+
+First, fork the [`nltk_data`](https://github.com/nltk/nltk_data) repository to your own GitHub account. For help with forking, see the [GitHub documentation on forking a repository](https://docs.github.com/en/get-started/quickstart/fork-a-repo).
+
+Then, clone your fork locally:
+
+```bash
+git clone https://github.com/<your-github-username>/nltk_data.git
+cd nltk_data
+```
+
+### 2. Create a New Branch
+
+Create a branch for your dataset:
+
+```bash
+git checkout -b add-my-dataset
+```
+
+### 3. Add Your Data Package
+
+- Place your dataset in the appropriate directory (`corpora/`, `models/`, `tokenizers/`, etc.). If you are unsure, check the existing structure or open an issue for clarification.
+- If your dataset has a license, include the license file in the same directory. If the license is unknown or separate from the repository, please add a note in a `README` or `LICENSE` file within the dataset’s folder, and document this in your pull request.
+
+**Whenever you add a new data package, you must update [`DATASET-LICENSES.md`](DATASET-LICENSES.md) with the license information for your package.**
+
+You only need to update [`LICENSE-OVERVIEW.md`](LICENSE-OVERVIEW.md) if you are making changes to the repository’s overall licensing structure or guidance.
+
+### 4. Update Index Files
+
+- You do **not** need to manually update `index.xml`. This file is now rebuilt automatically by a GitHub Actions workflow after your changes are merged.
+- Any local changes you make to `index.xml` will be ignored and overwritten by the workflow.
+- Provide a short README or metadata file describing the package, its origin, and its license.
+
+### 5. Commit and Push Your Changes
+
+```bash
+git add <your new files>
+git commit -m "Add <name> dataset to nltk_data"
+git push origin add-my-dataset
+```
+
+### 6. Create a Pull Request
+
+Open a pull request from your branch to the `master` branch of `nltk/nltk_data`. For help, see the [GitHub documentation on creating a pull request](https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/proposing-changes-to-your-work-with-pull-requests/creating-a-pull-request).
+
+In your pull request, please include:
+- A description of the dataset and its purpose.
+- Any relevant licensing information or restrictions.
+- Instructions for any special installation or usage requirements.
+
+### 7. Respond to Feedback
+
+- Be responsive to comments and requested changes.
+- If your dataset cannot be accepted (e.g., due to licensing issues), we will let you know in the pull request.
+
+## General Guidelines
+
+- **Licensing**: Please ensure you have the right to redistribute any data you submit, and document the license clearly. If the license is unknown, state this explicitly in your pull request.
+- **No Large Files**: If your package is extremely large, consider hosting it elsewhere and providing an index/manifest, or open an issue to discuss options.
+- **No Executable Files**: Only data, not code, should be included unless a script is essential for using the dataset.
+
+## Additional Resources
+
+- [GitHub Docs: Fork a repo](https://docs.github.com/en/get-started/quickstart/fork-a-repo)
+- [GitHub Docs: Branches](https://docs.github.com/en/get-started/quickstart/github-glossary#branch)
+- [GitHub Docs: Pull Requests](https://docs.github.com/en/pull-requests)
+
+If you have questions or need help, please open an issue or join the [nltk-dev mailing list](https://groups.google.com/forum/#!forum/nltk-dev).
+
+---
+
+Thank you for helping improve NLTK’s data resources!
\ No newline at end of file
diff --git a/DATASET-LICENSES.md b/DATASET-LICENSES.md
new file mode 100644
index 0000000..978a24b
--- /dev/null
+++ b/DATASET-LICENSES.md
@@ -0,0 +1,243 @@
+# DATASET-LICENSES.md
+
+This document provides a grouped summary of licenses for all data packages present in the [`nltk_data`](https://github.com/nltk/nltk_data) repository, based on the current `index.xml` file. Each package is listed by its exact `id` and `name`, and grouped by license type as declared in the metadata.
+
+> **Disclaimer:**  
+> This information is provided as a convenience to users and is not legal advice.  
+> **You must verify the license for each dataset with the original source if your use case is sensitive (especially for commercial or redistributive use).**  
+> Licenses or terms can change over time; this file may become outdated if not maintained.
+
+---
+
+## MIT License
+
+- averaged_perceptron_tagger — Averaged Perceptron Tagger
+- averaged_perceptron_tagger_eng — Averaged Perceptron Tagger (JSON)
+- averaged_perceptron_tagger_ru — Averaged Perceptron Tagger (Russian)
+- averaged_perceptron_tagger_rus — Averaged Perceptron Tagger (Russian)
+- vader_lexicon — VADER Sentiment Lexicon
+
+---
+
+## Creative Commons Licenses
+
+### Creative Commons Attribution 4.0 International
+
+- opinion_lexicon — Opinion Lexicon
+- product_reviews_1 — Product Reviews (5 Products)
+- product_reviews_2 — Product Reviews (9 Products)
+- pros_cons — Pros and Cons
+- subjectivity — Subjectivity Dataset v1.0
+
+### Creative Commons Attribution 3.0 Unported License
+
+- framenet_v17 — FrameNet 1.7
+
+### Creative Commons Attribution-NonCommercial-ShareAlike 3.0 United States
+
+- universal_treebanks_v20 — Universal Treebanks Version 2.0
+
+### Creative Commons Attribution 3.0 (unspecified region)
+
+- sentiwordnet — SentiWordNet
+
+### CC0 1.0 Universal
+
+- panlex_swadesh — PanLex Swadesh Corpora
+
+### CC By SA 3.0 (Wiktionary) & UBY 1.0 (UBY)
+
+- extended_omw — Extended Open Multilingual WordNet
+
+---
+
+## GNU Licenses
+
+### GNU General Public License
+
+- pl196x — Polish language of the XX century sixties
+
+### GNU Free Documentation License
+
+- swadesh — Swadesh Wordlists
+- gazetteers — Gazetteer Lists (note: for some files only; others may be public domain)
+
+### GNU Lesser General Public License
+
+- nonbreaking_prefixes — Non-Breaking Prefixes (Moses Decoder)
+
+---
+
+## Public Domain
+
+- genesis — Genesis Corpus
+- gutenberg — Project Gutenberg Selections
+- inaugural — C-Span Inaugural Address Corpus
+- shakespeare — Shakespeare XML Corpus Sample
+- udhr — Universal Declaration of Human Rights Corpus
+- udhr2 — Universal Declaration of Human Rights Corpus (Unicode Version)
+- words — Word Lists
+
+---
+
+## “Distributed with Permission” / “May be used with Permission” / “Freely Redistributable”
+
+> **Warning:**  
+> These are not standard open licenses. Terms may prohibit redistribution, modification, or commercial use.  
+> **You must consult the upstream source for the actual terms and whether permission applies to your use case.**
+
+- alpino — Alpino Dutch Treebank
+- indian — Indian Language POS-Tagged Corpus
+- lin_thesaurus — Lin's Dependency Thesaurus
+- mac_morpho — MAC-MORPHO: Brazilian Portuguese news text with part-of-speech tags
+- paradigms — Paradigm Corpus
+- nombank.1.0 — NomBank Corpus 1.0
+- propbank — Proposition Bank Corpus 1.0
+- senseval — SENSEVAL 2 Corpus: Sense Tagged Text
+- verbnet — VerbNet Lexicon, Version 2.1
+- verbnet3 — VerbNet Lexicon, Version 3.3
+- maxent_treebank_pos_tagger — Treebank Part of Speech Tagger (Maximum entropy)
+- maxent_treebank_pos_tagger_tab — Treebank Part of Speech Tagger (Maximum entropy)
+- maxent_ne_chunker — ACE Named Entity Chunker (Maximum entropy)
+- maxent_ne_chunker_tab — ACE Named Entity Chunker (Maximum entropy)
+- pil — The Patient Information Leaflet (PIL) Corpus
+- pe08 — Cross-Framework and Cross-Domain Parser Evaluation Shared Task
+- kimmo — PC-KIMMO Data Files
+- jeita — JEITA Public Morphologically Tagged Corpus
+- knbc — KNB Corpus (Annotated blog corpus)
+
+---
+
+## “Non-commercial Use Only” / Educational Use
+
+- brown — Brown Corpus
+- brown_tei — Brown Corpus (TEI XML Version)
+- framenet_v15 — FrameNet 1.5
+- floresta — Portuguese Treebank
+- masc_tagged — MASC Tagged Corpus
+- nps_chat — NPS Chat
+
+---
+
+## “See LICENSE Files” (Aggregated/Mixed Licensing)
+
+> **Warning:**  
+> These packages include files from multiple sources, each with their own license. See LICENSE files inside the package and verify terms for your use case.
+
+- omw — Open Multilingual Wordnet
+- omw-1.4 — Open Multilingual Wordnet
+
+---
+
+## Special Cases, Custom, or Unique Licenses
+
+- bcp47 — BCP-47 Language Tags ("IETF Trust and Unicode Inc."; custom)
+- wordnet — WordNet ("Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty")
+- wordnet31 — Wordnet 3.1 (same as above)
+- wordnet2021 / wordnet2022 / english_wordnet — Open English Wordnet (combines WordNet License and Creative Commons Attribution)
+- twitter_samples — Twitter Samples ("Must be used subject to Twitter Developer Agreement")
+- switchboard — Switchboard Corpus Sample ("Permission is granted for use of this material in accordance with the Open Content License")
+- dependency_treebank — Dependency Parsed Treebank (fragment of Penn Treebank; non-commercial, no redistribution)
+- ptb — Penn Treebank (stub for full corpus)
+- treebank — Penn Treebank Sample (fragment; non-commercial, no redistribution)
+- conll2000 — CONLL 2000 Chunking Corpus (research use only)
+- conll2002 — CONLL 2002 Named Entity Recognition Corpus (see website)
+- conll2007 — Dependency Treebanks from CoNLL 2007 (Catalan and Basque Subset, see website)
+- ieer — NIST IE-ER DATA SAMPLE (see website)
+- reuters — Reuters-21578 benchmark corpus, ApteMod version (Reuters Ltd. copyright)
+- timit — TIMIT Corpus Sample (Creative Commons Attribution-NonCommercial-ShareAlike 3.0)
+
+---
+
+## Unclarified, Unknown, Ambiguous, or Citation-Only
+
+The following packages have:  
+- No `license` attribute  
+- An empty or ambiguous value  
+- A citation request instead of a license  
+- Or otherwise ambiguous status
+
+> **Warning:**  
+> These packages lack open, standard, or clearly documented licenses.  
+> Citation requests do **not** constitute a license.  
+> Despite long-standing and ongoing efforts (see [nltk_data issue #241](https://github.com/nltk/nltk_data/issues/241) and related discussions), clarification has not been possible for these cases.  
+> **If you need to use any of these for commercial or redistributive purposes, consult a qualified legal professional.**
+
+- abc — Australian Broadcasting Commission 2006
+- basque_grammars — Grammars for Basque
+- biocreative_ppi — BioCreAtIvE (Critical Assessment of Information Extraction Systems in Biology)
+- bllip_wsj_no_aux — BLLIP Parser: WSJ Model
+- book_grammars — Grammars from NLTK Book
+- cess_cat — CESS-CAT Treebank (citation requested, not a license)
+- cess_esp — CESS-ESP Treebank (citation requested, not a license)
+- chat80 — Chat-80 Data Files
+- city_database — City Database
+- cmudict — The Carnegie Mellon Pronouncing Dictionary (0.6)
+- comparative_sentences — Comparative Sentence Dataset (ambiguous license)
+- comtrans — ComTrans Corpus Sample
+- dolch — Dolch Word List
+- europarl_raw — Sample European Parliament Proceedings Parallel Corpus
+- framenet_v15 — FrameNet 1.5 (non-commercial use only)
+- gazetteers — Gazetteer Lists (mixed per-file)
+- large_grammars — Large context-free and feature-based grammars
+- machado — Machado de Assis -- Obra Completa ("Public Domain", verify at source)
+- moses_sample — Moses Sample Models
+- mwa_ppdb — Monolingual word aligner (subset of Paraphrase Database)
+- names — Names Corpus, Version 1.3 (1994-03-29)
+- nonbreaking_prefixes — Non-Breaking Prefixes (empty license field)
+- punkt — Punkt Tokenizer Models (no license attribute)
+- punkt_tab — Punkt Tokenizer Models (no license attribute)
+- porter_test — Porter Stemmer Test Files
+- ppattach — Prepositional Phrase Attachment Corpus
+- problem_reports — Problem Report Corpus
+- qc — Experimental Data for Question Classification
+- rslp — RSLP Stemmer (Removedor de Sufixos da Lingua Portuguesa)
+- rte — PASCAL RTE Challenges 1, 2, and 3
+- sample_grammars — Sample Grammars
+- semcor — SemCor 3.0
+- sentence_polarity — Sentence Polarity Dataset v1.0 (ambiguous license)
+- smultron — SMULTRON Corpus Sample
+- snowball_data — Snowball Data
+- spanish_grammars — Grammars for Spanish
+- state_union — C-Span State of the Union Address Corpus
+- stopwords — Stopwords Corpus
+- tagsets — Help on Tagsets
+- tagsets_json — Help on Tagsets (JSON)
+- toolbox — Toolbox Sample Files
+- unicode_samples — Unicode Samples
+- webtext — Web Text Corpus
+- wmt15_eval — Evaluation data from WMT15
+- word2vec_sample — Word2Vec Sample
+- wordnet_ic — WordNet-InfoContent
+- ycoe — York-Toronto-Helsinki Parsed Corpus of Old English Prose
+
+---
+
+## Packages with Citation Requests Instead of Licenses
+
+> **Note:**  
+> These packages specifically request citation for use, but do not provide a license. Citation requests are not a license.
+
+- cess_cat — CESS-CAT Treebank
+- cess_esp — CESS-ESP Treebank
+
+---
+
+## Packages Citing Source Website or “See Website” for Terms
+
+> **Note:**  
+> These packages refer users to an external website for their licensing terms.
+
+- conll2002 — CONLL 2002 Named Entity Recognition Corpus
+- conll2007 — Dependency Treebanks from CoNLL 2007 (Catalan and Basque Subset)
+- ieer — NIST IE-ER DATA SAMPLE
+- reuters — The Reuters-21578 benchmark corpus, ApteMod version
+
+---
+
+## Maintenance
+
+**If you add, update, or remove any data packages, update this file accordingly to ensure continued transparency and compliance.**  
+If you find omissions, errors, or outdated information, please open an issue or pull request.
+
+---
\ No newline at end of file
diff --git a/LICENSE b/LICENSE
new file mode 100644
index 0000000..cdec062
--- /dev/null
+++ b/LICENSE
@@ -0,0 +1,201 @@
+                                 Apache License
+                           Version 2.0, January 2004
+                        http://www.apache.org/licenses/
+
+   TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION
+
+   1. Definitions.
+
+      "License" shall mean the terms and conditions for use, reproduction,
+      and distribution as defined by Sections 1 through 9 of this document.
+
+      "Licensor" shall mean the copyright owner or entity authorized by
+      the copyright owner that is granting the License.
+
+      "Legal Entity" shall mean the union of the acting entity and all
+      other entities that control, are controlled by, or are under common
+      control with that entity. For the purposes of this definition,
+      "control" means (i) the power, direct or indirect, to cause the
+      direction or management of such entity, whether by contract or
+      otherwise, or (ii) ownership of fifty percent (50%) or more of the
+      outstanding shares, or (iii) beneficial ownership of such entity.
+
+      "You" (or "Your") shall mean an individual or Legal Entity
+      exercising permissions granted by this License.
+
+      "Source" form shall mean the preferred form for making modifications,
+      including but not limited to software source code, documentation
+      source, and configuration files.
+
+      "Object" form shall mean any form resulting from mechanical
+      transformation or translation of a Source form, including but
+      not limited to compiled object code, generated documentation,
+      and conversions to other media types.
+
+      "Work" shall mean the work of authorship, whether in Source or
+      Object form, made available under the License, as indicated by a
+      copyright notice that is included in or attached to the work
+      (an example is provided in the Appendix below).
+
+      "Derivative Works" shall mean any work, whether in Source or Object
+      form, that is based on (or derived from) the Work and for which the
+      editorial revisions, annotations, elaborations, or other modifications
+      represent, as a whole, an original work of authorship. For the purposes
+      of this License, Derivative Works shall not include works that remain
+      separable from, or merely link (or bind by name) to the interfaces of,
+      the Work and Derivative Works thereof.
+
+      "Contribution" shall mean any work of authorship, including
+      the original version of the Work and any modifications or additions
+      to that Work or Derivative Works thereof, that is intentionally
+      submitted to Licensor for inclusion in the Work by the copyright owner
+      or by an individual or Legal Entity authorized to submit on behalf of
+      the copyright owner. For the purposes of this definition, "submitted"
+      means any form of electronic, verbal, or written communication sent
+      to the Licensor or its representatives, including but not limited to
+      communication on electronic mailing lists, source code control systems,
+      and issue tracking systems that are managed by, or on behalf of, the
+      Licensor for the purpose of discussing and improving the Work, but
+      excluding communication that is conspicuously marked or otherwise
+      designated in writing by the copyright owner as "Not a Contribution."
+
+      "Contributor" shall mean Licensor and any individual or Legal Entity
+      on behalf of whom a Contribution has been received by Licensor and
+      subsequently incorporated within the Work.
+
+   2. Grant of Copyright License. Subject to the terms and conditions of
+      this License, each Contributor hereby grants to You a perpetual,
+      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
+      copyright license to reproduce, prepare Derivative Works of,
+      publicly display, publicly perform, sublicense, and distribute the
+      Work and such Derivative Works in Source or Object form.
+
+   3. Grant of Patent License. Subject to the terms and conditions of
+      this License, each Contributor hereby grants to You a perpetual,
+      worldwide, non-exclusive, no-charge, royalty-free, irrevocable
+      (except as stated in this section) patent license to make, have made,
+      use, offer to sell, sell, import, and otherwise transfer the Work,
+      where such license applies only to those patent claims licensable
+      by such Contributor that are necessarily infringed by their
+      Contribution(s) alone or by combination of their Contribution(s)
+      with the Work to which such Contribution(s) was submitted. If You
+      institute patent litigation against any entity (including a
+      cross-claim or counterclaim in a lawsuit) alleging that the Work
+      or a Contribution incorporated within the Work constitutes direct
+      or contributory patent infringement, then any patent licenses
+      granted to You under this License for that Work shall terminate
+      as of the date such litigation is filed.
+
+   4. Redistribution. You may reproduce and distribute copies of the
+      Work or Derivative Works thereof in any medium, with or without
+      modifications, and in Source or Object form, provided that You
+      meet the following conditions:
+
+      (a) You must give any other recipients of the Work or
+          Derivative Works a copy of this License; and
+
+      (b) You must cause any modified files to carry prominent notices
+          stating that You changed the files; and
+
+      (c) You must retain, in the Source form of any Derivative Works
+          that You distribute, all copyright, patent, trademark, and
+          attribution notices from the Source form of the Work,
+          excluding those notices that do not pertain to any part of
+          the Derivative Works; and
+
+      (d) If the Work includes a "NOTICE" text file as part of its
+          distribution, then any Derivative Works that You distribute must
+          include a readable copy of the attribution notices contained
+          within such NOTICE file, excluding those notices that do not
+          pertain to any part of the Derivative Works, in at least one
+          of the following places: within a NOTICE text file distributed
+          as part of the Derivative Works; within the Source form or
+          documentation, if provided along with the Derivative Works; or,
+          within a display generated by the Derivative Works, if and
+          wherever such third-party notices normally appear. The contents
+          of the NOTICE file are for informational purposes only and
+          do not modify the License. You may add Your own attribution
+          notices within Derivative Works that You distribute, alongside
+          or as an addendum to the NOTICE text from the Work, provided
+          that such additional attribution notices cannot be construed
+          as modifying the License.
+
+      You may add Your own copyright statement to Your modifications and
+      may provide additional or different license terms and conditions
+      for use, reproduction, or distribution of Your modifications, or
+      for any such Derivative Works as a whole, provided Your use,
+      reproduction, and distribution of the Work otherwise complies with
+      the conditions stated in this License.
+
+   5. Submission of Contributions. Unless You explicitly state otherwise,
+      any Contribution intentionally submitted for inclusion in the Work
+      by You to the Licensor shall be under the terms and conditions of
+      this License, without any additional terms or conditions.
+      Notwithstanding the above, nothing herein shall supersede or modify
+      the terms of any separate license agreement you may have executed
+      with Licensor regarding such Contributions.
+
+   6. Trademarks. This License does not grant permission to use the trade
+      names, trademarks, service marks, or product names of the Licensor,
+      except as required for describing the origin of the Work and
+      reproducing the content of the NOTICE file.
+
+   7. Disclaimer of Warranty. Unless required by applicable law or
+      agreed to in writing, Licensor provides the Work (and each
+      Contributor provides its Contributions) on an "AS IS" BASIS,
+      WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
+      implied, including, without limitation, any warranties or conditions
+      of TITLE, NON-INFRINGEMENT, MERCHANTABILITY, or FITNESS FOR A
+      PARTICULAR PURPOSE. You are solely responsible for determining the
+      appropriateness of using or redistributing the Work and assume any
+      risks associated with Your exercise of permissions under this License.
+
+   8. Limitation of Liability. In no event and under no legal theory,
+      whether in tort (including negligence), contract, or otherwise,
+      unless required by applicable law (such as deliberate and grossly
+      negligent acts) or agreed to in writing, shall any Contributor be
+      liable to You for damages, including any direct, indirect, special,
+      incidental, or consequential damages of any character arising as a
+      result of this License or out of the use or inability to use the
+      Work (including but not limited to damages for loss of goodwill,
+      work stoppage, computer failure or malfunction, or any and all
+      other commercial damages or losses), even if such Contributor
+      has been advised of the possibility of such damages.
+
+   9. Accepting Warranty or Additional Liability. While redistributing
+      the Work or Derivative Works thereof, You may choose to offer,
+      and charge a fee for, acceptance of support, warranty, indemnity,
+      or other liability obligations and/or rights consistent with this
+      License. However, in accepting such obligations, You may act only
+      on Your own behalf and on Your sole responsibility, not on behalf
+      of any other Contributor, and only if You agree to indemnify,
+      defend, and hold each Contributor harmless for any liability
+      incurred by, or claims asserted against, such Contributor by reason
+      of your accepting any such warranty or additional liability.
+
+   END OF TERMS AND CONDITIONS
+
+   APPENDIX: How to apply the Apache License to your work.
+
+      To apply the Apache License to your work, attach the following
+      boilerplate notice, with the fields enclosed by brackets "[]"
+      replaced with your own identifying information. (Don't include
+      the brackets!)  The text should be enclosed in the appropriate
+      comment syntax for the file format. We also recommend that a
+      file or class name and description of purpose be included on the
+      same "printed page" as the copyright notice for easier
+      identification within third-party archives.
+
+   Copyright [yyyy] [name of copyright owner]
+
+   Licensed under the Apache License, Version 2.0 (the "License");
+   you may not use this file except in compliance with the License.
+   You may obtain a copy of the License at
+
+       http://www.apache.org/licenses/LICENSE
+
+   Unless required by applicable law or agreed to in writing, software
+   distributed under the License is distributed on an "AS IS" BASIS,
+   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+   See the License for the specific language governing permissions and
+   limitations under the License.
\ No newline at end of file
diff --git a/LICENSE-OVERVIEW.md b/LICENSE-OVERVIEW.md
new file mode 100644
index 0000000..30d163d
--- /dev/null
+++ b/LICENSE-OVERVIEW.md
@@ -0,0 +1,50 @@
+# LICENSE-OVERVIEW.md
+
+## Overview
+
+This repository (`nltk_data`) is governed as a whole by the [Apache License 2.0](LICENSE). However, **the individual data packages included in this repository are each subject to their own licenses**, which may differ substantially from the repository-wide license. Packages may be covered by open licenses (MIT, Creative Commons, etc.), public domain dedication, custom or restrictive terms (such as "non-commercial use only" or "distributed with permission"), or may lack explicit license terms entirely.
+
+> **Important:**  
+> You must consult the specific license for each dataset before use, especially for commercial or redistributive purposes.  
+> See [DATASET-LICENSES.md](DATASET-LICENSES.md) for a grouped summary of package licenses.
+
+Maintainers are not legal professionals and cannot answer legal questions or provide legal advice.  
+If you have any doubts or require legal interpretation, **consult a qualified legal professional**.
+
+## Special Notes
+
+- **Unclarified, Ambiguous, or Missing Licenses**  
+  Some data packages have ambiguous, missing, or unclarified licenses (most notably the Punkt Tokenizer Models). Despite long-standing community efforts (see [nltk_data issue #241](https://github.com/nltk/nltk_data/issues/241) and related issues), clarification has not always been possible.  
+  These packages are grouped and flagged in [DATASET-LICENSES.md](DATASET-LICENSES.md) with explicit warnings.  
+  If you have legal questions or concerns about using any package with an unclear or ambiguous license, consult a qualified lawyer. Do not rely on assumptions, community answers, or advice from maintainers.
+
+- **This Documentation is Not Legal Advice**  
+  The information in these files is provided for convenience and transparency, and does not constitute legal advice.  
+  You are responsible for ensuring your own legal compliance when using, modifying, or redistributing any content from this repository.
+
+## Data Package Licenses
+
+Each data package may have its own license, as detailed in [DATASET-LICENSES.md](DATASET-LICENSES.md). These may include (but are not limited to):
+- Open source licenses (MIT, various Creative Commons, GPL, etc.)
+- Public domain dedication
+- Custom or restrictive terms ("distributed with permission", "non-commercial use only", "see website", etc.)
+- Citation requests (note: a citation request does not constitute a license)
+- No license or ambiguous terms
+
+If a license is unclear, missing, or does not suit your intended use, **do not assume that commercial or public redistribution is allowed**.
+
+## Your Responsibilities
+
+- **Check the Dataset License:**  
+  Before using, modifying, or redistributing any data package, check the relevant license entry in [DATASET-LICENSES.md](DATASET-LICENSES.md) and, if necessary, consult the original data source for updated terms.
+
+- **When in Doubt:**  
+  If the license is missing, ambiguous, or unclear, or if you are unsure about your intended use, seek advice from a qualified legal professional.
+
+## Keeping This Documentation Up to Date
+
+If you add, update, or remove datasets, please also update [DATASET-LICENSES.md](DATASET-LICENSES.md) and this overview file to ensure continued transparency for all users.
+
+## Apache License 2.0
+
+See the [LICENSE](LICENSE) file for the full text of the repository-wide license.
\ No newline at end of file
diff --git a/Makefile b/Makefile
index 8a4520b..35292f4 100644
--- a/Makefile
+++ b/Makefile
@@ -1,10 +1,10 @@
-PYTHON = python
-BASEURL = http://www.nltk.org/nltk_data/packages
+PYTHON = python3
+BASEURL = https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages
 
 pkg_index:
+	$(PYTHON) tools/build_collections.py .
 	$(PYTHON) tools/build_pkg_index.py . $(BASEURL) index.xml
-	git add index.xml
-	git commit -m "updated data index" index.xml
+	git add index.xml collections
 
 grammars:
 	git commit -m "updated grammar files" packages/grammars
diff --git a/README.md b/README.md
new file mode 100644
index 0000000..f1f4551
--- /dev/null
+++ b/README.md
@@ -0,0 +1,35 @@
+# Data Distribution for NLTK
+
+This repository contains data packages (corpora, models, tokenizers, etc.) for use with [NLTK](https://www.nltk.org/).
+
+## Installation
+
+To install data using the NLTK downloader, run:
+
+```python
+import nltk
+nltk.download()
+```
+
+For detailed instructions, please see the [NLTK website](https://www.nltk.org/).
+
+---
+
+## Recent Enhancements
+
+> **Note:** You do not need to update `index.xml` when adding or modifying packages. It is automatically rebuilt after changes are merged.
+
+### Licensing Transparency ([PR #242](https://github.com/nltk/nltk_data/pull/242))
+- Added a top-level `LICENSE` (Apache License 2.0) for the repository.
+- Added `LICENSE-OVERVIEW.md` summarizing the licensing structure, with emphasis on the diversity of dataset licenses and the importance of reviewing individual terms.
+- Added `DATASET-LICENSES.md` — a comprehensive, grouped list of all data packages and their licenses, highlighting any ambiguous or unclarified licensing.
+- These changes improve transparency, support responsible use, and aid compliance for all users.
+
+### Contribution Guidelines
+- Introduced a detailed `CONTRIBUTING.md` with step-by-step instructions for adding a new data package using Git and GitHub.
+- Please see `CONTRIBUTING.md` for instructions on adding datasets and making other contributions.
+- Contributors are encouraged to clarify dataset licenses and to consult the new licensing overview and dataset license table.
+
+---
+
+*For instructions on adding new data packages, please see [CONTRIBUTING.md](CONTRIBUTING.md). For licensing details, see [LICENSE-OVERVIEW.md](LICENSE-OVERVIEW.md) and [DATASET-LICENSES.md](DATASET-LICENSES.md).*
\ No newline at end of file
diff --git a/README.txt b/README.txt
deleted file mode 100644
index 0a1b3f0..0000000
--- a/README.txt
+++ /dev/null
@@ -1,7 +0,0 @@
-Data Distribution for NLTK
-
-Install using NLTK downloader: nltk.download()
-
-For instructions please see http://www.nltk.org/
-
-
diff --git a/collections/all-corpora.xml b/collections/all-corpora.xml
index 4c3bc55..055d975 100644
--- a/collections/all-corpora.xml
+++ b/collections/all-corpora.xml
@@ -1,74 +1,95 @@
 <collection id="all-corpora" name="All the corpora">
-    <item ref="abc"/>
-    <item ref="alpino"/>
-    <item ref="biocreative_ppi"/>
-    <item ref="brown"/>
-    <item ref="brown_tei"/>
-    <item ref="cess_cat"/>
-    <item ref="cess_esp"/>
-    <item ref="chat80"/>
-    <item ref="city_database"/>
-    <item ref="cmudict"/>
-    <item ref="comtrans"/>
-    <item ref="conll2000"/>
-    <item ref="conll2002"/>
-    <item ref="conll2007"/>
-    <item ref="crubadan"/>
-    <item ref="dependency_treebank"/>
-    <item ref="floresta"/>
-    <item ref="framenet_v15"/>
-    <item ref="gazetteers"/>
-    <item ref="genesis"/>
-    <item ref="gutenberg"/>
-    <item ref="ieer"/>
-    <item ref="inaugural"/>
-    <item ref="indian"/>
-    <item ref="jeita"/>
-    <item ref="kimmo"/>
-    <item ref="knbc"/>
-    <item ref="lin_thesaurus"/>
-    <item ref="mac_morpho"/>
-    <item ref="machado"/>
-    <item ref="masc_tagged"/>
-    <item ref="movie_reviews"/>
-    <item ref="names"/>
-    <item ref="nombank.1.0"/>
-    <item ref="nps_chat"/>
-    <item ref="oanc_masc"/>
-    <item ref="omw"/>
-    <item ref="paradigms"/>
-    <item ref="pil"/>
-    <item ref="pl196x"/>
-    <item ref="ppattach"/>
-    <item ref="problem_reports"/>
-    <item ref="propbank"/>
-    <item ref="ptb"/>
-    <item ref="qc"/>
-    <item ref="reuters"/>
-    <item ref="rte"/>
-    <item ref="semcor"/>
-    <item ref="senseval"/>
-    <item ref="sentiwordnet"/>
-    <item ref="shakespeare"/>
-    <item ref="sinica_treebank"/>
-    <item ref="state_union"/>
-    <item ref="stopwords"/>
-    <item ref="swadesh"/>
-    <item ref="switchboard"/>
-    <item ref="timit"/>
-    <item ref="toolbox"/>
-    <item ref="treebank"/>
-    <item ref="udhr"/>
-    <item ref="udhr2"/>
-    <item ref="unicode_samples"/>
-    <item ref="universal_treebanks_v20"/>
-    <item ref="verbnet"/>
-    <item ref="webtext"/>
-    <item ref="wordnet"/>
-    <item ref="wordnet_ic"/>
-    <item ref="words"/>
-    <item ref="ycoe"/>
-    <item ref="panlex_swadesh"/>
-    <item ref="mte_teip5"/>
-</collection>
-
+  <item ref="abc" />
+  <item ref="alpino" />
+  <item ref="bcp47" />
+  <item ref="biocreative_ppi" />
+  <item ref="brown" />
+  <item ref="brown_tei" />
+  <item ref="cess_cat" />
+  <item ref="cess_esp" />
+  <item ref="chat80" />
+  <item ref="city_database" />
+  <item ref="cmudict" />
+  <item ref="comparative_sentences" />
+  <item ref="comtrans" />
+  <item ref="conll2000" />
+  <item ref="conll2002" />
+  <item ref="conll2007" />
+  <item ref="crubadan" />
+  <item ref="dependency_treebank" />
+  <item ref="dolch" />
+  <item ref="english_wordnet" />
+  <item ref="europarl_raw" />
+  <item ref="extended_omw" />
+  <item ref="floresta" />
+  <item ref="framenet_v15" />
+  <item ref="framenet_v17" />
+  <item ref="gazetteers" />
+  <item ref="genesis" />
+  <item ref="gutenberg" />
+  <item ref="ieer" />
+  <item ref="inaugural" />
+  <item ref="indian" />
+  <item ref="jeita" />
+  <item ref="kimmo" />
+  <item ref="knbc" />
+  <item ref="lin_thesaurus" />
+  <item ref="mac_morpho" />
+  <item ref="machado" />
+  <item ref="masc_tagged" />
+  <item ref="mock_corpus" />
+  <item ref="movie_reviews" />
+  <item ref="mte_teip5" />
+  <item ref="names" />
+  <item ref="nombank.1.0" />
+  <item ref="nonbreaking_prefixes" />
+  <item ref="nps_chat" />
+  <item ref="omw" />
+  <item ref="omw-1.4" />
+  <item ref="opinion_lexicon" />
+  <item ref="panlex_swadesh" />
+  <item ref="paradigms" />
+  <item ref="pe08" />
+  <item ref="pil" />
+  <item ref="pl196x" />
+  <item ref="ppattach" />
+  <item ref="problem_reports" />
+  <item ref="product_reviews_1" />
+  <item ref="product_reviews_2" />
+  <item ref="propbank" />
+  <item ref="pros_cons" />
+  <item ref="ptb" />
+  <item ref="qc" />
+  <item ref="reuters" />
+  <item ref="rte" />
+  <item ref="semcor" />
+  <item ref="senseval" />
+  <item ref="sentence_polarity" />
+  <item ref="sentiwordnet" />
+  <item ref="shakespeare" />
+  <item ref="sinica_treebank" />
+  <item ref="smultron" />
+  <item ref="state_union" />
+  <item ref="stopwords" />
+  <item ref="subjectivity" />
+  <item ref="swadesh" />
+  <item ref="switchboard" />
+  <item ref="timit" />
+  <item ref="toolbox" />
+  <item ref="treebank" />
+  <item ref="twitter_samples" />
+  <item ref="udhr" />
+  <item ref="udhr2" />
+  <item ref="unicode_samples" />
+  <item ref="universal_treebanks_v20" />
+  <item ref="verbnet" />
+  <item ref="verbnet3" />
+  <item ref="webtext" />
+  <item ref="wordnet" />
+  <item ref="wordnet2021" />
+  <item ref="wordnet2022" />
+  <item ref="wordnet31" />
+  <item ref="wordnet_ic" />
+  <item ref="words" />
+  <item ref="ycoe" />
+</collection>
\ No newline at end of file
diff --git a/collections/all-nltk.xml b/collections/all-nltk.xml
new file mode 100644
index 0000000..b863edb
--- /dev/null
+++ b/collections/all-nltk.xml
@@ -0,0 +1,123 @@
+<collection id="all-nltk" name="All packages available on nltk_data gh-pages branch">
+  <item ref="abc" />
+  <item ref="alpino" />
+  <item ref="averaged_perceptron_tagger" />
+  <item ref="averaged_perceptron_tagger_eng" />
+  <item ref="averaged_perceptron_tagger_ru" />
+  <item ref="averaged_perceptron_tagger_rus" />
+  <item ref="basque_grammars" />
+  <item ref="bcp47" />
+  <item ref="biocreative_ppi" />
+  <item ref="bllip_wsj_no_aux" />
+  <item ref="book_grammars" />
+  <item ref="brown" />
+  <item ref="brown_tei" />
+  <item ref="cess_cat" />
+  <item ref="cess_esp" />
+  <item ref="chat80" />
+  <item ref="city_database" />
+  <item ref="cmudict" />
+  <item ref="comparative_sentences" />
+  <item ref="comtrans" />
+  <item ref="conll2000" />
+  <item ref="conll2002" />
+  <item ref="conll2007" />
+  <item ref="crubadan" />
+  <item ref="dependency_treebank" />
+  <item ref="dolch" />
+  <item ref="english_wordnet" />
+  <item ref="europarl_raw" />
+  <item ref="extended_omw" />
+  <item ref="floresta" />
+  <item ref="framenet_v15" />
+  <item ref="framenet_v17" />
+  <item ref="gazetteers" />
+  <item ref="genesis" />
+  <item ref="gutenberg" />
+  <item ref="ieer" />
+  <item ref="inaugural" />
+  <item ref="indian" />
+  <item ref="jeita" />
+  <item ref="kimmo" />
+  <item ref="knbc" />
+  <item ref="large_grammars" />
+  <item ref="lin_thesaurus" />
+  <item ref="mac_morpho" />
+  <item ref="machado" />
+  <item ref="masc_tagged" />
+  <item ref="maxent_ne_chunker" />
+  <item ref="maxent_ne_chunker_tab" />
+  <item ref="maxent_treebank_pos_tagger" />
+  <item ref="maxent_treebank_pos_tagger_tab" />
+  <item ref="mock_corpus" />
+  <item ref="moses_sample" />
+  <item ref="movie_reviews" />
+  <item ref="mte_teip5" />
+  <item ref="mwa_ppdb" />
+  <item ref="names" />
+  <item ref="nombank.1.0" />
+  <item ref="nonbreaking_prefixes" />
+  <item ref="nps_chat" />
+  <item ref="omw" />
+  <item ref="omw-1.4" />
+  <item ref="opinion_lexicon" />
+  <item ref="panlex_swadesh" />
+  <item ref="paradigms" />
+  <item ref="pe08" />
+  <item ref="perluniprops" />
+  <item ref="pil" />
+  <item ref="pl196x" />
+  <item ref="porter_test" />
+  <item ref="ppattach" />
+  <item ref="problem_reports" />
+  <item ref="product_reviews_1" />
+  <item ref="product_reviews_2" />
+  <item ref="propbank" />
+  <item ref="pros_cons" />
+  <item ref="ptb" />
+  <item ref="punkt" />
+  <item ref="punkt_tab" />
+  <item ref="qc" />
+  <item ref="reuters" />
+  <item ref="rslp" />
+  <item ref="rte" />
+  <item ref="sample_grammars" />
+  <item ref="semcor" />
+  <item ref="senseval" />
+  <item ref="sentence_polarity" />
+  <item ref="sentiwordnet" />
+  <item ref="shakespeare" />
+  <item ref="sinica_treebank" />
+  <item ref="smultron" />
+  <item ref="snowball_data" />
+  <item ref="spanish_grammars" />
+  <item ref="state_union" />
+  <item ref="stopwords" />
+  <item ref="subjectivity" />
+  <item ref="swadesh" />
+  <item ref="switchboard" />
+  <item ref="tagsets" />
+  <item ref="tagsets_json" />
+  <item ref="timit" />
+  <item ref="toolbox" />
+  <item ref="treebank" />
+  <item ref="twitter_samples" />
+  <item ref="udhr" />
+  <item ref="udhr2" />
+  <item ref="unicode_samples" />
+  <item ref="universal_tagset" />
+  <item ref="universal_treebanks_v20" />
+  <item ref="vader_lexicon" />
+  <item ref="verbnet" />
+  <item ref="verbnet3" />
+  <item ref="webtext" />
+  <item ref="wmt15_eval" />
+  <item ref="word2vec_sample" />
+  <item ref="wordnet" />
+  <item ref="wordnet2021" />
+  <item ref="wordnet2022" />
+  <item ref="wordnet31" />
+  <item ref="wordnet_ic" />
+  <item ref="words" />
+  <item ref="ycoe" />
+</collection>
\ No newline at end of file
diff --git a/collections/all.xml b/collections/all.xml
index c194275..52ce7a7 100644
--- a/collections/all.xml
+++ b/collections/all.xml
@@ -1,100 +1,123 @@
 <collection id="all" name="All packages">
-    <item ref="abc"/>
-    <item ref="alpino"/>
-    <item ref="biocreative_ppi"/>
-    <item ref="brown"/>
-    <item ref="brown_tei"/>
-    <item ref="cess_cat"/>
-    <item ref="cess_esp"/>
-    <item ref="chat80"/>
-    <item ref="city_database"/>
-    <item ref="cmudict"/>
-    <item ref="comparative_sentences"/>
-    <item ref="comtrans"/>
-    <item ref="conll2000"/>
-    <item ref="conll2002"/>
-    <item ref="conll2007"/>
-    <item ref="crubadan"/>
-    <item ref="dependency_treebank"/>
-    <item ref="europarl_raw"/>
-    <item ref="floresta"/>
-    <item ref="framenet_v15"/>
-    <item ref="gazetteers"/>
-    <item ref="genesis"/>
-    <item ref="gutenberg"/>
-    <item ref="ieer"/>
-    <item ref="inaugural"/>
-    <item ref="indian"/>
-    <item ref="jeita"/>
-    <item ref="kimmo"/>
-    <item ref="knbc"/>
-    <item ref="lin_thesaurus"/>
-    <item ref="mac_morpho"/>
-    <item ref="machado"/>
-    <item ref="masc_tagged"/>
-    <item ref="moses_sample"/>
-    <item ref="movie_reviews"/>
-    <item ref="names"/>
-    <item ref="nombank.1.0"/>
-    <item ref="nps_chat"/>
-    <item ref="oanc_masc"/>
-    <item ref="omw"/>
-    <item ref="opinion_lexicon"/>   
-    <item ref="paradigms"/>
-    <item ref="pil"/>
-    <item ref="pl196x"/>
-    <item ref="ppattach"/>
-    <item ref="problem_reports"/>
-    <item ref="propbank"/>
-    <item ref="ptb"/>
-    <item ref="oanc_masc"/>
-    <item ref="product_reviews_1"/>
-    <item ref="product_reviews_2"/>
-    <item ref="pros_cons"/>
-    <item ref="qc"/>
-    <item ref="reuters"/>
-    <item ref="rte"/>
-    <item ref="semcor"/>
-    <item ref="senseval"/>
-    <item ref="sentiwordnet"/>
-     <item ref="sentence_polarity"/>
-    <item ref="shakespeare"/>
-    <item ref="sinica_treebank"/>
-    <item ref="smultron"/>
-    <item ref="state_union"/>
-    <item ref="stopwords"/>
-    <item ref="subjectivity"/>
-    <item ref="swadesh"/>
-    <item ref="switchboard"/>
-    <item ref="timit"/>
-    <item ref="toolbox"/>
-    <item ref="treebank"/>
-    <item ref="twitter_samples"/>
-    <item ref="udhr"/>
-    <item ref="udhr2"/>
-    <item ref="unicode_samples"/>
-    <item ref="universal_treebanks_v20"/>
-    <item ref="verbnet"/>
-    <item ref="webtext"/>
-    <item ref="wordnet"/>
-    <item ref="wordnet_ic"/>
-    <item ref="words"/>
-    <item ref="ycoe"/>
-    <item ref="rslp"/>
-    <item ref="hmm_treebank_pos_tagger"/>
-    <item ref="maxent_treebank_pos_tagger"/>
-    <item ref="universal_tagset"/>
-    <item ref="maxent_ne_chunker"/>
-    <item ref="punkt"/>
-    <item ref="book_grammars"/>
-    <item ref="sample_grammars"/>
-    <item ref="spanish_grammars"/>
-    <item ref="basque_grammars"/>
-    <item ref="large_grammars"/>
-    <item ref="tagsets"/>
-    <item ref="snowball_data"/>
-    <item ref="bllip_wsj_no_aux"/>
-    <item ref="word2vec_sample"/>
-    <item ref="panlex_swadesh"/>
-    <item ref="mte_teip5"/>
-</collection>
+  <item ref="abc" />
+  <item ref="alpino" />
+  <item ref="averaged_perceptron_tagger" />
+  <item ref="averaged_perceptron_tagger_eng" />
+  <item ref="averaged_perceptron_tagger_ru" />
+  <item ref="averaged_perceptron_tagger_rus" />
+  <item ref="basque_grammars" />
+  <item ref="bcp47" />
+  <item ref="biocreative_ppi" />
+  <item ref="bllip_wsj_no_aux" />
+  <item ref="book_grammars" />
+  <item ref="brown" />
+  <item ref="brown_tei" />
+  <item ref="cess_cat" />
+  <item ref="cess_esp" />
+  <item ref="chat80" />
+  <item ref="city_database" />
+  <item ref="cmudict" />
+  <item ref="comparative_sentences" />
+  <item ref="comtrans" />
+  <item ref="conll2000" />
+  <item ref="conll2002" />
+  <item ref="conll2007" />
+  <item ref="crubadan" />
+  <item ref="dependency_treebank" />
+  <item ref="dolch" />
+  <item ref="english_wordnet" />
+  <item ref="europarl_raw" />
+  <item ref="extended_omw" />
+  <item ref="floresta" />
+  <item ref="framenet_v15" />
+  <item ref="framenet_v17" />
+  <item ref="gazetteers" />
+  <item ref="genesis" />
+  <item ref="gutenberg" />
+  <item ref="ieer" />
+  <item ref="inaugural" />
+  <item ref="indian" />
+  <item ref="jeita" />
+  <item ref="kimmo" />
+  <item ref="knbc" />
+  <item ref="large_grammars" />
+  <item ref="lin_thesaurus" />
+  <item ref="mac_morpho" />
+  <item ref="machado" />
+  <item ref="masc_tagged" />
+  <item ref="maxent_ne_chunker" />
+  <item ref="maxent_ne_chunker_tab" />
+  <item ref="maxent_treebank_pos_tagger" />
+  <item ref="maxent_treebank_pos_tagger_tab" />
+  <item ref="mock_corpus" />
+  <item ref="moses_sample" />
+  <item ref="movie_reviews" />
+  <item ref="mte_teip5" />
+  <item ref="mwa_ppdb" />
+  <item ref="names" />
+  <item ref="nombank.1.0" />
+  <item ref="nonbreaking_prefixes" />
+  <item ref="nps_chat" />
+  <item ref="omw" />
+  <item ref="omw-1.4" />
+  <item ref="opinion_lexicon" />
+  <item ref="panlex_swadesh" />
+  <item ref="paradigms" />
+  <item ref="pe08" />
+  <item ref="perluniprops" />
+  <item ref="pil" />
+  <item ref="pl196x" />
+  <item ref="porter_test" />
+  <item ref="ppattach" />
+  <item ref="problem_reports" />
+  <item ref="product_reviews_1" />
+  <item ref="product_reviews_2" />
+  <item ref="propbank" />
+  <item ref="pros_cons" />
+  <item ref="ptb" />
+  <item ref="punkt" />
+  <item ref="punkt_tab" />
+  <item ref="qc" />
+  <item ref="reuters" />
+  <item ref="rslp" />
+  <item ref="rte" />
+  <item ref="sample_grammars" />
+  <item ref="semcor" />
+  <item ref="senseval" />
+  <item ref="sentence_polarity" />
+  <item ref="sentiwordnet" />
+  <item ref="shakespeare" />
+  <item ref="sinica_treebank" />
+  <item ref="smultron" />
+  <item ref="snowball_data" />
+  <item ref="spanish_grammars" />
+  <item ref="state_union" />
+  <item ref="stopwords" />
+  <item ref="subjectivity" />
+  <item ref="swadesh" />
+  <item ref="switchboard" />
+  <item ref="tagsets" />
+  <item ref="tagsets_json" />
+  <item ref="timit" />
+  <item ref="toolbox" />
+  <item ref="treebank" />
+  <item ref="twitter_samples" />
+  <item ref="udhr" />
+  <item ref="udhr2" />
+  <item ref="unicode_samples" />
+  <item ref="universal_tagset" />
+  <item ref="universal_treebanks_v20" />
+  <item ref="vader_lexicon" />
+  <item ref="verbnet" />
+  <item ref="verbnet3" />
+  <item ref="webtext" />
+  <item ref="wmt15_eval" />
+  <item ref="word2vec_sample" />
+  <item ref="wordnet" />
+  <item ref="wordnet2021" />
+  <item ref="wordnet2022" />
+  <item ref="wordnet31" />
+  <item ref="wordnet_ic" />
+  <item ref="words" />
+  <item ref="ycoe" />
+</collection>
\ No newline at end of file
diff --git a/collections/book.xml b/collections/book.xml
index c322f11..364affe 100644
--- a/collections/book.xml
+++ b/collections/book.xml
@@ -37,4 +37,5 @@
     <item ref="city_database"/>
     <item ref="tagsets"/>
     <item ref="panlex_swadesh"/>
+    <item ref="averaged_perceptron_tagger"/>
 </collection>
diff --git a/collections/popular.xml b/collections/popular.xml
new file mode 100644
index 0000000..3a736dd
--- /dev/null
+++ b/collections/popular.xml
@@ -0,0 +1,24 @@
+<collection id="popular" name="Popular packages">
+    <item ref="cmudict"/>
+    <item ref="gazetteers"/>
+    <item ref="genesis"/>
+    <item ref="gutenberg"/>
+    <item ref="inaugural"/>
+    <item ref="movie_reviews"/>
+    <item ref="names"/>
+    <item ref="shakespeare"/>
+    <item ref="stopwords"/>
+    <item ref="treebank"/>
+    <item ref="twitter_samples"/>
+    <item ref="omw"/>
+    <item ref="omw-1.4"/>
+    <item ref="wordnet"/>
+    <item ref="wordnet2021"/>
+    <item ref="wordnet31"/>
+    <item ref="wordnet_ic"/>
+    <item ref="words"/>
+    <item ref="maxent_ne_chunker"/>
+    <item ref="punkt"/>
+    <item ref="snowball_data"/>
+    <item ref="averaged_perceptron_tagger"/>
+</collection>
diff --git a/collections/tests.xml b/collections/tests.xml
new file mode 100644
index 0000000..d1509b8
--- /dev/null
+++ b/collections/tests.xml
@@ -0,0 +1,21 @@
+<collection id="tests" name="Packages for running tests">
+    <item ref="averaged_perceptron_tagger"/>
+    <item ref="porter_test"/>
+    <item ref="twitter_samples"/>
+    <item ref="wmt15_eval"/>
+    <item ref="subjectivity"/>
+    <item ref="framenet_v17"/>
+    <item ref="product_reviews_1"/>
+    <item ref="product_reviews_2"/>
+    <item ref="vader_lexicon"/>
+    <item ref="crubadan"/>
+    <item ref="mte_teip5"/>
+    <item ref="sentence_polarity"/>
+    <item ref="universal_treebanks_v20"/>
+    <item ref="panlex_swadesh"/>
+    <item ref="nonbreaking_prefixes"/>
+    <item ref="perluniprops"/>
+    <item ref="pros_cons"/>
+    <item ref="opinion_lexicon"/>
+    <item ref="comparative_sentences"/>
+</collection>
diff --git a/collections/third-party.xml b/collections/third-party.xml
new file mode 100644
index 0000000..0cb74d8
--- /dev/null
+++ b/collections/third-party.xml
@@ -0,0 +1,3 @@
+<collection id="third-party" name="Third-party data packages">
+    <item ref="dolch"/>
+</collection>
diff --git a/index.xml b/index.xml
index afde054..20ea2b3 100644
--- a/index.xml
+++ b/index.xml
@@ -2,110 +2,141 @@
 <?xml-stylesheet href="index.xsl" type="text/xsl"?>
 <nltk_data>
   <packages>
-    <package checksum="d577c2cd0fdae148b36d046b14eb48e6" id="maxent_ne_chunker" languages="English" name="ACE Named Entity Chunker (Maximum entropy)" size="13404747" subdir="chunkers" unzip="1" unzipped_size="23604982" url="http://www.nltk.org/nltk_data/packages/chunkers/maxent_ne_chunker.zip" />
-    <package author="Australian Broadcasting Commission" checksum="ffb36b67ff24cbf7daaf171c897eb904" id="abc" name="Australian Broadcasting Commission 2006" size="1487851" subdir="corpora" unzip="1" unzipped_size="4054966" url="http://www.nltk.org/nltk_data/packages/corpora/abc.zip" webpage="http://www.abc.net.au/" />
-    <package checksum="63254e4e055781a1783311d8569ac0a3" contact="Gertjan Van Noord" id="alpino" license="Distributed with permission of Gertjan Van Noord" name="Alpino Dutch Treebank" size="2797202" subdir="corpora" unzip="1" unzipped_size="21604821" url="http://www.nltk.org/nltk_data/packages/corpora/alpino.zip" webpage="http://www.let.rug.nl/~vannoord/trees/" />
-    <package checksum="d3be36b53ab201372f1cd63ffc75e9a9" copyright="Public Domain (not copyrighted)" id="biocreative_ppi" license="Public Domain" name="BioCreAtIvE (Critical Assessment of Information Extraction Systems in Biology)" size="223566" subdir="corpora" unzip="1" unzipped_size="1537086" url="http://www.nltk.org/nltk_data/packages/corpora/biocreative_ppi.zip" webpage="http://www.mitre.org/public/biocreative/" />
-    <package author="W. N. Francis and H. Kucera" checksum="a0a8630959d3d937873b1265b0a05497" id="brown" license="May be used for non-commercial purposes." name="Brown Corpus" size="3314357" subdir="corpora" unzip="1" unzipped_size="10117565" url="http://www.nltk.org/nltk_data/packages/corpora/brown.zip" webpage="http://www.hit.uib.no/icame/brown/bcm.html" />
-    <package author="W. N. Francis and H. Kucera" checksum="3c7fe43ebf0a4c7ad3ebb63dab027e09" contact="Lou Burnard -- lou.burnard@oucs.ox.ac.uk" id="brown_tei" license="May be used for non-commercial purposes." name="Brown Corpus (TEI XML Version)" size="8737738" subdir="corpora" unzip="1" unzipped_size="56814689" url="http://www.nltk.org/nltk_data/packages/corpora/brown_tei.zip" webpage="http://www.hit.uib.no/icame/brown/bcm.html" />
-    <package checksum="e91ac59ec6e98e3b297e2d2eab83084d" id="cess_cat" license="If you use these corpora for research, please cite thusly: CESS-Cat project (M. Antonia Mart&#237;, MarionaTaul&#233;, Llu&#237;s M&#225;rquez, Manuel Bertran (2007) ?CESS-ECE: A Multilingual and Multilevel Annotated Corpus? in http://www.lsi.upc.edu/~mbertran/cess-ece/publications)." name="CESS-CAT Treebank" size="5396688" subdir="corpora" unzip="1" unzipped_size="33720460" url="http://www.nltk.org/nltk_data/packages/corpora/cess_cat.zip" webpage="http://clic.ub.edu/cessece/" />
-    <package checksum="684432d4f6384b8f0bd19fee5dc15925" id="cess_esp" license="If you use these corpora for research, please cite thusly: CESS-Cat project (M. Antonia Mart&#237;, MarionaTaul&#233;, Llu&#237;s M&#225;rquez, Manuel Bertran (2007) ?CESS-ECE: A Multilingual and Multilevel Annotated Corpus? in http://www.lsi.upc.edu/~mbertran/cess-ece/publications)." name="CESS-ESP Treebank" size="2220392" subdir="corpora" unzip="1" unzipped_size="13233272" url="http://www.nltk.org/nltk_data/packages/corpora/cess_esp.zip" webpage="http://clic.ub.edu/cessece/" />
-    <package author="David Warren and Fernando Pereira" checksum="6832873fe92996846ac5bb21c5d84eb8" copyright="Copyright (C) 1982 David Warren and Fernando Pereira" id="chat80" license="This program may be used, copied, altered or included in other programs only for academic purposes and provided that the authorship of the initial program is aknowledged.  Use for commercial purposes without the previous written agreement of the authors is forbidden." name="Chat-80 Data Files" size="19209" subdir="corpora" unzip="1" unzipped_size="63817" url="http://www.nltk.org/nltk_data/packages/corpora/chat80.zip" webpage="http://www.cis.upenn.edu/~pereira/oldies.html" />
-    <package checksum="29cbf1aa02ad8abc72dd955fe74f882c" id="city_database" name="City Database" note="A very small database of information about cities" size="1708" subdir="corpora" unzip="1" unzipped_size="4096" url="http://www.nltk.org/nltk_data/packages/corpora/city_database.zip" />
-    <package checksum="58f743ff818b983b89ef9302b509fc41" copyright="Copyright 1998 Carnegie Mellon University" id="cmudict" license="Use of this dictionary, for any research or commercial purpose, is completely unrestricted.  If you use or redistribute this material, we would appreciate acknowlegement of its origin." name="The Carnegie Mellon Pronouncing Dictionary (0.6)" size="896069" subdir="corpora" unzip="1" unzipped_size="3824638" url="http://www.nltk.org/nltk_data/packages/corpora/cmudict.zip" webpage="ftp://ftp.cs.cmu.edu/project/speech/dict/" />
-    <package author="Nitin Jindal and Bing Liu" checksum="df2d005f455afb760fa37d7f565400f1" copyright="Copyright (C) 2006 Nitin Jindal and Bing Liu" id="comparative_sentences" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Comparative Sentence Dataset" size="279121" subdir="corpora" unzip="1" unzipped_size="774200" url="http://www.nltk.org/nltk_data/packages/corpora/comparative_sentences.zip" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" />
-    <package author="Reinhard Rapp" checksum="8e1e34e2f052d8188fd877b2c821b42d" id="comtrans" name="ComTrans Corpus Sample" size="11904518" subdir="corpora" unzip="0" unzipped_size="35387522" url="http://www.nltk.org/nltk_data/packages/corpora/comtrans.zip" webpage="http://www.fask.uni-mainz.de/user/rapp/comtrans/" />
-    <package checksum="9529b285edd5fe47271da69df1052301" contact="Erik Tjong Kim Sang (erikt@uia.ua.ac.be)" id="conll2000" name="CONLL 2000 Chunking Corpus" size="756607" subdir="corpora" unzip="1" unzipped_size="3495903" url="http://www.nltk.org/nltk_data/packages/corpora/conll2000.zip" webpage="http://www.cnts.ua.ac.be/conll2000/chunking/" />
-    <package checksum="67bb4ca75fa81544d42a159524726e78" id="conll2002" name="CONLL 2002 Named Entity Recognition Corpus" size="1867449" subdir="corpora" unzip="1" unzipped_size="7785638" url="http://www.nltk.org/nltk_data/packages/corpora/conll2002.zip" webpage="http://www.cnts.ua.ac.be/conll2002/ner/" />
-    <package checksum="b9015928e35c41f0695525289df5208f" contact="Kepa Sarasola" copyright="Copyright (C) 2007 The University of the Basque Country" id="conll2007" license="Creative Commons Attribution-NonCommercial-NoDerivativeWorks license" name="Dependency Treebanks from CoNLL 2007 (Catalan and Basque Subset)" size="1242958" subdir="corpora" unzip="0" unzipped_size="6399295" url="http://www.nltk.org/nltk_data/packages/corpora/conll2007.zip" webpage="http://nextens.uvt.nl/depparse-wiki/DataDownload" />
-    <package author="Kevin Scannell" checksum="3cc831382dec41b8d9a06d93ef300352" copyright="Copyright (C) 2010 Kevin Scannell" id="crubadan" license="GPLv3" name="Crubadan Corpus" size="5288655" subdir="corpora" unzip="1" unzipped_size="11256183" url="http://www.nltk.org/nltk_data/packages/corpora/crubadan.zip" webpage="http://borel.slu.edu/crubadan/" />
-    <package checksum="631e959acaa42eea718daf04c5cdfa76" copyright="Copyright (C) 1995 University of Pennsylvania" id="dependency_treebank" license="This is a 10% fragment of Penn Treebank, (C) LDC 1995, which has been dependency parsed.  It is made available under fair use for the purposes of illustrating NLTK tools for tokenizing, tagging, chunking and parsing.  This data is for non-commercial use only." name="Dependency Parsed Treebank" sample="True" size="457429" subdir="corpora" unzip="1" unzipped_size="1069540" url="http://www.nltk.org/nltk_data/packages/corpora/dependency_treebank.zip" />
-    <package author="Philipp Koehn, University of Edinburgh" checksum="7621d5675990b1decc012c823716ee76" id="europarl_raw" name="Sample European Parliament Proceedings Parallel Corpus" size="12594977" subdir="corpora" unzip="1" unzipped_size="41396100" url="http://www.nltk.org/nltk_data/packages/corpora/europarl_raw.zip" webpage="http://www.statmt.org/europarl" />
-    <package checksum="de5f1df09949f080e0f616f0bc55967d" id="floresta" license="Non-commercial use only" name="Portuguese Treebank" size="1882021" subdir="corpora" unzip="1" unzipped_size="16414136" url="http://www.nltk.org/nltk_data/packages/corpora/floresta.zip" webpage="http://www.linguateca.pt/Floresta/" />
-    <package author="Collin F. Baker" checksum="cf68365950b2f048bcb48619de81f50a" id="framenet_v15" license="May be used for non-commercial purposes." name="FrameNet 1.5" size="69337891" subdir="corpora" unzip="1" unzipped_size="579133737" url="http://www.nltk.org/nltk_data/packages/corpora/framenet_v15.zip" webpage="http://framenet.icsi.berkeley.edu" />
-    <package checksum="1dd15c714a2be985c482a13d90e9caa4" id="gazetteers" license="GNU Free Documentation License; or public domain (depending on the file)" name="Gazeteer Lists" size="8265" subdir="corpora" unzip="1" unzipped_size="12711" url="http://www.nltk.org/nltk_data/packages/corpora/gazetteers.zip" />
-    <package checksum="2a76432753c01fe179684e0ae3a4d023" copyright="public domain" id="genesis" license="public domain" name="Genesis Corpus" size="473239" subdir="corpora" unzip="1" unzipped_size="1426122" url="http://www.nltk.org/nltk_data/packages/corpora/genesis.zip" />
-    <package checksum="48c9c8605cd70b0230687557ee543633" copyright="public domain" id="gutenberg" license="public domain" name="Project Gutenberg Selections" size="4251829" subdir="corpora" unzip="1" unzipped_size="11802669" url="http://www.nltk.org/nltk_data/packages/corpora/gutenberg.zip" webpage="http://gutenberg.net/" />
-    <package checksum="34157f569624bc8d642ef8da5722b14a" id="ieer" name="NIST IE-ER DATA SAMPLE" size="166156" subdir="corpora" unzip="1" unzipped_size="541349" url="http://www.nltk.org/nltk_data/packages/corpora/ieer.zip" webpage="http://www.itl.nist.gov/iad/894.01/tests/ie-er/er_99/er_99.htm" />
-    <package checksum="54af23bfe81ee22b2d0cc0e28c8399e1" copyright="public domain" id="inaugural" license="public domain" name="C-Span Inaugural Address Corpus" size="321354" subdir="corpora" unzip="1" unzipped_size="773075" url="http://www.nltk.org/nltk_data/packages/corpora/inaugural.zip" />
-    <package author="A Kumaran" checksum="b358a1adf614354bb91b94da0cba3506" id="indian" license="Distributed with permission" name="Indian Language POS-Tagged Corpus" size="199304" subdir="corpora" unzip="1" unzipped_size="1093825" url="http://www.nltk.org/nltk_data/packages/corpora/indian.zip" />
-    <package checksum="96e30423d6887fad17fc44f2f30d920d" id="jeita" license="Freely re-distributable under the same license as the original JEITA corpus. Each document retains its own license from Aozora bunko and Project Sugita Genpaku." name="JEITA Public Morphologically Tagged Corpus (in ChaSen format)" size="16531215" subdir="corpora" unzip="0" unzipped_size="134170650" url="http://www.nltk.org/nltk_data/packages/corpora/jeita.zip" webpage="http://lilyx.net/pages/nltkjapanesecorpus.html" />
-    <package checksum="68a8716e0233ad9c0ed0947952e4eb3e" id="kimmo" name="PC-KIMMO Data Files" size="186958" subdir="corpora" unzip="1" unzipped_size="814609" url="http://www.nltk.org/nltk_data/packages/corpora/kimmo.zip" webpage="http://www.sil.org/pckimmo/" />
-    <package checksum="992f8a3647f333e28a9958eba4bd67c7" id="knbc" license="Freely re-distributable under the same license as the original KNB Corpus." name="KNB Corpus (Annotated blog corpus)" size="8760788" subdir="corpora" unzip="0" unzipped_size="23601139" url="http://www.nltk.org/nltk_data/packages/corpora/knbc.zip" webpage="http://lilyx.net/pages/nltkjapanesecorpus.html" />
-    <package author="Dekang Lin" checksum="288cc15e4ed257c8598d6f7a30199db9" id="lin_thesaurus" license="Distributed with permission of Dekang Lin" name="Lin's Dependency Thesaurus" size="89154019" subdir="corpora" unzip="1" unzipped_size="210421609" url="http://www.nltk.org/nltk_data/packages/corpora/lin_thesaurus.zip" webpage="http://webdocs.cs.ualberta.ca/~lindek/downloads.htm" />
-    <package checksum="cf216ae5b37cca24866909f8594c5395" id="mac_morpho" license="Distributed with permission of N&#250;cleo Interinstitucional de Ling&#252;&#237;stica Computacional (NILC), Universidade de S&#227;o Paulo (USP) in S&#227;o Carlos, Universidade Federal de S&#227;o Carlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara." name="MAC-MORPHO: Brazilian Portuguese news text with part-of-speech tags" size="3013904" subdir="corpora" unzip="1" unzipped_size="10941402" url="http://www.nltk.org/nltk_data/packages/corpora/mac_morpho.zip" webpage="http://www.nilc.icmc.usp.br/lacioweb/" />
-    <package author="Machado de Assis" checksum="d186f7d6715479a8bec48b8b8030858e" id="machado" license="Public Domain" name="Machado de Assis -- Obra Completa" size="6151774" subdir="corpora" unzip="0" unzipped_size="14855338" url="http://www.nltk.org/nltk_data/packages/corpora/machado.zip" webpage="http://machado.mec.gov.br/" />
-    <package author="Nancy Ide" checksum="a03d3ae8c6c2a1707885066e4d62582a" copyright="Copyright (C) 2014 American National Corpus" id="masc_tagged" license="This data may be used for the purposes of linguistic education, research, and development, including commercial development." name="MASC Tagged Corpus" size="1602143" subdir="corpora" unzip="0" unzipped_size="4963879" url="http://www.nltk.org/nltk_data/packages/corpora/masc_tagged.zip" webpage="http://www.anc.org/" />
-    <package author="Bo Pang and Lillian Lee" checksum="155de2b77c6834dd8eea7cbe88e93acb" copyright="Copyright (C) 2004 Bo Pang and Lillian Lee" id="movie_reviews" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Sentiment Polarity Dataset Version 2.0" size="4004848" subdir="corpora" unzip="1" unzipped_size="7790571" url="http://www.nltk.org/nltk_data/packages/corpora/movie_reviews.zip" webpage="http://www.cs.cornell.edu/people/pabo/movie-review-data/" />
-    <package author="Erjavec, Toma&#382;; Barbu, Ana-Maria; Derzhanski, Ivan; Dimitrova, Ludmila; Garab&#237;k, Radovan; Ide, Nancy; Kaalep, Heiki-Jaan; Kotsyba, Natalia; Krstev, Cvetana; Oravecz, Csaba; Petkevi&#269;, Vladim&#237;r; Priest-Dorman, Greg; QasemiZadeh, Behrang; Radziszewski, Adam; Simov, Kiril; Tufi&#351;, Dan and Zdravkova, Katerina" checksum="27aa12b3546cb241df8699506ab15128" id="mte_teip5" license="Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)" name="MULTEXT-East 1984 annotated corpus 4.0" size="14800561" subdir="corpora" unzip="0" unzipped_size="122461442" url="http://www.nltk.org/nltk_data/packages/corpora/mte_teip5.zip" webpage="https://www.clarin.si/repository/xmlui/handle/11356/1043" />
-    <package author="Mark Kantrowitz and Bill Ross" checksum="93844d7c995ad28f40528c08a3430175" copyright="Copyright (C) 1991 Mark Kantrowitz" id="names" license="You may use the lists of names for any purpose, so long as credit is given in any published work. You may also redistribute the list if you provide the recipients with a copy of this README file. The lists are not in the public domain (I retain the copyright on the lists) but are freely redistributable.  If you have any additions to the lists of names, I would appreciate receiving them." name="Names Corpus, Version 1.3 (1994-03-29)" size="21326" subdir="corpora" unzip="1" unzipped_size="56572" url="http://www.nltk.org/nltk_data/packages/corpora/names.zip" webpage="http://www-2.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/names/" />
-    <package checksum="1d0b08de34eba1f013ecb8169d2e3bec" contact="Adam Meyers" id="nombank.1.0" license="Distributed with permission" name="NomBank Corpus 1.0" size="6683763" subdir="corpora" unzip="0" unzipped_size="42327812" url="http://www.nltk.org/nltk_data/packages/corpora/nombank.1.0.zip" webpage="http://nlp.cs.nyu.edu/meyers/NomBank.html" />
-    <package author="Craig Martell (cmartell@nps.edu)" checksum="72d1b905ba2be48d711690b012856c79" id="nps_chat" license="This corpus is distributed solely for non-commercial, non-profit educational and research use. It is a derivative compilation work of multiple works whose copyrights are held by the respective original authors." name="NPS Chat" size="301366" subdir="corpora" unzip="1" unzipped_size="2578726" url="http://www.nltk.org/nltk_data/packages/corpora/nps_chat.zip" webpage="http://faculty.nps.edu/cmartell/NPSChat.htm" />
-    <package checksum="4ac76e2048a86e16509c11cf95a90ab8" id="oanc_masc" license="Open Data: opendefinition.org." name="Open American National Corpus: Manually Annotated Sub-Corpus" size="10652413" subdir="corpora" unzip="0" unzipped_size="120937410" url="http://www.nltk.org/nltk_data/packages/corpora/oanc_masc.zip" />
-    <package author="Francis Bond" checksum="ed2fdf079e4ceff4a73a6ee7d21d7b92" copyright="Please consult the copyright statements of the individual Wordnets" id="omw" license="Please consult the LICENSE files included with the individual Wordnets. Note that all permit redistribution." name="Open Multilingual Wordnet" size="25057024" subdir="corpora" unzip="1" unzipped_size="83635094" url="http://www.nltk.org/nltk_data/packages/corpora/omw.zip" webpage="http://compling.hss.ntu.edu.sg/omw/" />
-    <package author="Bing Liu" checksum="43a521f055063e001845b9d484a50173" copyright="Copyright (C) 2011 Bing Liu" id="opinion_lexicon" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Opinion Lexicon" size="24947" subdir="corpora" unzip="1" unzipped_size="67865" url="http://www.nltk.org/nltk_data/packages/corpora/opinion_lexicon.zip" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" />
-    <package author="Jonathan Pool (editor)" checksum="59a08f6c19d1d6d72cc03189983c8045" id="panlex_swadesh" license="CC0 1.0 Universal" name="PanLex Swadesh Corpora" size="2699578" subdir="corpora" unzip="0" unzipped_size="4103346" url="http://www.nltk.org/nltk_data/packages/corpora/panlex_swadesh.zip" webpage="http://panlex.org/" />
-    <package author="Cathy Bow, University of Melbourne" checksum="745ee9036c5ca3226be24c97515f5707" id="paradigms" license="Distributed with the permission of the author" name="Paradigm Corpus" size="24902" subdir="corpora" unzip="1" unzipped_size="361186" url="http://www.nltk.org/nltk_data/packages/corpora/paradigms.zip" />
-    <package checksum="e72135042dc48772acad309a6adbb6f0" id="pe08" license="Distributed with permission" name="Cross-Framework and Cross-Domain Parser Evaluation Shared Task" size="80735" subdir="corpora" unzip="1" unzipped_size="296619" url="http://www.nltk.org/nltk_data/packages/corpora/pe08.zip" version="Release 3 (20 April 2008)" webpage=" http://www-tsujii.is.s.u-tokyo.ac.jp/pe08-st/" />
-    <package checksum="d07b2ca7b5b351a24f4db8ae8fbc9e98" id="pil" license="Distributed with permission" name="The Patient Information Leaflet (PIL) Corpus" size="1510205" subdir="corpora" unzip="1" unzipped_size="4170899" url="http://www.nltk.org/nltk_data/packages/corpora/pil.zip" version="Version 2.0 (31 March 2006)" webpage="http://mcs.open.ac.uk/nlg/old_projects/pills/corpus/" />
-    <package author="I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak" checksum="bcbdcf0fc2420fac238ca17dc7bfe423" id="pl196x" license="GNU General Public License" name="Polish language of the XX century sixties" size="7051453" subdir="corpora" unzip="1" unzipped_size="58299303" url="http://www.nltk.org/nltk_data/packages/corpora/pl196x.zip" webpage="http://www.mimuw.edu.pl/polszczyzna/pl196x/index_en.htm" />
-    <package author="Adwait Ratnaparkhi" checksum="cce212b7ace8e64722ba2f41f802a5d0" copyright="(C) 1994 Adwait Ratnaparkhi" id="ppattach" license="Distributed with the permission of the author." name="Prepositional Phrase Attachment Corpus" size="781714" subdir="corpora" unzip="1" unzipped_size="3113650" url="http://www.nltk.org/nltk_data/packages/corpora/ppattach.zip" webpage="ftp://ftp.cis.upenn.edu/pub/adwait/PPattachData/" />
-    <package author="Andrew Ko, Carnegie Mellon University" checksum="8781ace4c0a181c5875cdbfc01e895fb" id="problem_reports" name="Problem Report Corpus" size="1032942" subdir="corpora" unzip="1" unzipped_size="3467763" url="http://www.nltk.org/nltk_data/packages/corpora/problem_reports.zip" webpage="http://www.cs.cmu.edu/~marmalade/reports.html" />
-    <package author="Bing Liu" checksum="c13be66052027a4605ca456d7cda0917" copyright="Copyright (C) 2004 Bing Liu" id="product_reviews_1" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Product Reviews (5 Products)" size="141287" subdir="corpora" unzip="1" unzipped_size="396548" url="http://www.nltk.org/nltk_data/packages/corpora/product_reviews_1.zip" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" />
-    <package author="Bing Liu" checksum="522134e8b91086473299c3800c4adbae" copyright="Copyright (C) 2007 Bing Liu" id="product_reviews_2" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Product Reviews (9 Products)" size="170698" subdir="corpora" unzip="1" unzipped_size="438549" url="http://www.nltk.org/nltk_data/packages/corpora/product_reviews_2.zip" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" />
-    <package checksum="2397782c6e6f46c9657f85db8a5421f6" contact="Martha Palmer" id="propbank" license="Distributed with permission" name="Proposition Bank Corpus 1.0" size="5323498" subdir="corpora" unzip="0" unzipped_size="18831005" url="http://www.nltk.org/nltk_data/packages/corpora/propbank.zip" webpage="http://verbs.colorado.edu/~mpalmer/projects/ace.html" />
-    <package author="Bing Liu" checksum="c4c7e61fb4d57a2f6c95317194da0f17" copyright="Copyright (C) 2008 Bing Liu" id="pros_cons" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Pros and Cons" size="746276" subdir="corpora" unzip="1" unzipped_size="2921218" url="http://www.nltk.org/nltk_data/packages/corpora/pros_cons.zip" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" />
-    <package checksum="7b633a1b7770279eab00bc1108769c67" copyright="Copyright (C) 1995 University of Pennsylvania" id="ptb" license="This is a stub for the full Penn Treebank Corpus version 3." name="Penn Treebank" size="6289" subdir="corpora" unzip="1" unzipped_size="63036" url="http://www.nltk.org/nltk_data/packages/corpora/ptb.zip" />
-    <package author="Xin Li and Dan Roth, UIUC" checksum="afd4145ac31cb8d7db715974b9b8b57a" id="qc" name="Experimental Data for Question Classification" size="125456" subdir="corpora" unzip="1" unzipped_size="361090" url="http://www.nltk.org/nltk_data/packages/corpora/qc.zip" webpage="http://l2r.cs.uiuc.edu/~cogcomp/Data/QA/QC/" />
-    <package checksum="c2acb24d5cccf8035e0fe8d29f440a68" id="reuters" license="The copyright for the text of newswire articles and Reuters annotations in the Reuters-21578 collection resides with Reuters Ltd. Reuters Ltd. and Carnegie Group, Inc. have agreed to allow the free distribution of this data *for research purposes only*.  If you publish results based on this data set, please acknowledge its use, refer to the data set by the name 'Reuters-21578, Distribution 1.0', and inform your readers of the current location of the data set." name="The Reuters-21578 benchmark corpus, ApteMod version" size="6378691" subdir="corpora" unzip="0" unzipped_size="9073648" url="http://www.nltk.org/nltk_data/packages/corpora/reuters.zip" webpage="http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html" />
-    <package checksum="ca21663daa326a3bb53001c3d82e62d6" id="rte" name="PASCAL RTE Challenges 1, 2, and 3" size="386303" subdir="corpora" unzip="1" unzipped_size="1279930" url="http://www.nltk.org/nltk_data/packages/corpora/rte.zip" webpage="http://www.pascal-network.org/Challenges/RTE/" />
-    <package author="Rada Mihalcea (rada@cs.unt.edu)" checksum="46c095f0ab7090132567f87252af724f" id="semcor" license="You are granted permission to use, copy, modify and distribute this database for any purpose and without fee and royalty is hereby granted, provided that you agree to comply with the Princeton copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the database, including modifications that you make for internal use or for distribution.  See semcor/README for more information." name="SemCor 3.0" size="4397021" subdir="corpora" unzip="0" unzipped_size="37425596" url="http://www.nltk.org/nltk_data/packages/corpora/semcor.zip" webpage="http://www.cse.unt.edu/~rada/downloads.html#semcor" />
-    <package checksum="bfc6a33c62ddc2ec24b02701a2f364ff" contact="Ted Pedersen (tpederse@umn.edu)" id="senseval" license="Distributed with permission." name="SENSEVAL 2 Corpus: Sense Tagged Text" size="2151350" subdir="corpora" unzip="1" unzipped_size="16463075" url="http://www.nltk.org/nltk_data/packages/corpora/senseval.zip" webpage="http://www.senseval.org/" />
-    <package author="Bo Pang and Lillian Lee" checksum="5cdc0cae7f558040d050c90eb2b72e97" copyright="Copyright (C) 2005 Bo Pang and Lillian Lee" id="sentence_polarity" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Sentence Polarity Dataset v1.0" size="490256" subdir="corpora" unzip="1" unzipped_size="1241127" url="http://www.nltk.org/nltk_data/packages/corpora/sentence_polarity.zip" webpage="http://www.cs.cornell.edu/People/pabo/people/pabo/movie-review-data" />
-    <package author="Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani" checksum="5043f00829b7db4dd5f21507e092b76a" copyright="Copyright (C) 2013 SentiWordNet Project" id="sentiwordnet" license="Creative Commons Attribution ShareAlike 3.0 Unported license" name="SentiWordNet" size="4686546" subdir="corpora" unzip="1" unzipped_size="13591402" url="http://www.nltk.org/nltk_data/packages/corpora/sentiwordnet.zip" webpage="http://sentiwordnet.isti.cnr.it/" />
-    <package checksum="2332b32a7d83d657092ba4667c2c84c3" copyright="public domain" id="shakespeare" license="public domain" name="Shakespeare XML Corpus Sample" sample="True" size="475458" subdir="corpora" unzip="1" unzipped_size="1727210" url="http://www.nltk.org/nltk_data/packages/corpora/shakespeare.zip" webpage="http://www.andrew.cmu.edu/user/akj/shakespeare/" />
-    <package checksum="3e314e26c852c5796488244ffef2ac91" id="sinica_treebank" license="Distributed with the Natural Language Toolkit under the terms of the Creative Commons Attribution-NonCommercial-ShareAlike License [http://creativecommons.org/licenses/by-nc-sa/2.5/]." name="Sinica Treebank Corpus Sample" sample="True" size="899237" subdir="corpora" unzip="1" unzipped_size="3293082" url="http://www.nltk.org/nltk_data/packages/corpora/sinica_treebank.zip" webpage="http://rocling.iis.sinica.edu.tw/CKIP/engversion/treebank.htm" />
-    <package author="Sofia Gustafson-Capkova, Yvonne Samuelsson, and Martin Volk" checksum="8743ff232d76aaf2ff8a10523503a659" id="smultron" name="SMULTRON Corpus Sample" size="166207" subdir="corpora" unzip="1" unzipped_size="1677647" url="http://www.nltk.org/nltk_data/packages/corpora/smultron.zip" webpage="http://www.ling.su.se/DaLi/research/smultron/index.htm" />
-    <package checksum="044f2d20c592b17a26ac0102111833c9" copyright="public domain" id="state_union" license="public domain" name="C-Span State of the Union Address Corpus" size="808757" subdir="corpora" unzip="1" unzipped_size="2073917" url="http://www.nltk.org/nltk_data/packages/corpora/state_union.zip" webpage="http://www.c-span.org/executive/stateoftheunion.asp" />
-    <package checksum="0669147c05593d0be78501b159561307" id="stopwords" name="Stopwords Corpus" size="8684" subdir="corpora" unzip="1" unzipped_size="14754" url="http://www.nltk.org/nltk_data/packages/corpora/stopwords.zip" webpage="ftp://ftp.cs.cornell.edu/pub/smart/english.stop and http://snowball.tartarus.org/" />
-    <package author="Bo Pang and Lillian Lee" checksum="a81a44513903ba6bb86f85aeff149561" copyright="Copyright (C) 2004 Bo Pang and Lillian Lee" id="subjectivity" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" name="Subjectivity Dataset v1.0" size="521628" subdir="corpora" unzip="1" unzipped_size="1303352" url="http://www.nltk.org/nltk_data/packages/corpora/subjectivity.zip" webpage=" http://www.cs.cornell.edu/People/pabo/people/pabo/movie-review-data" />
-    <package checksum="6612ccb71f327e85780dc7813dee40f6" id="swadesh" license="GNU Free Documentation License" name="Swadesh Wordlists" size="22828" subdir="corpora" unzip="1" unzipped_size="39998" url="http://www.nltk.org/nltk_data/packages/corpora/swadesh.zip" webpage="http://en.wiktionary.org/wiki/Appendix:Swadesh_list" />
-    <package checksum="878df010a9f2c2d0a6546a8365f10595" id="switchboard" license="Permission is granted for use of this material in accordance with the Open Content License [http://opencontent.org/opl.shtml].  This corpus contains transcripts and annotations for 36 calls from the Switchboard Corpus [http://www.ldc.upenn.edu/Catalog/LDC93S7.html]." name="Switchboard Corpus Sample" sample="True" size="791161" subdir="corpora" unzip="1" unzipped_size="2541179" url="http://www.nltk.org/nltk_data/packages/corpora/switchboard.zip" />
-    <package checksum="34c047c4749a811287f2c652104d7849" id="timit" license="This corpus sample is Copyright 1993 Linguistic Data Consortium, and is distributed under the terms of the Creative Commons Attribution, Non-Commercial, ShareAlike license.  http://creativecommons.org/" name="TIMIT Corpus Sample" sample="True" size="22251869" subdir="corpora" unzip="1" unzipped_size="31932925" url="http://www.nltk.org/nltk_data/packages/corpora/timit.zip" webpage="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1" />
-    <package checksum="26657c1b8b5f5afdc3d5d754393a9216" id="toolbox" name="Toolbox Sample Files" size="250616" subdir="corpora" unzip="1" unzipped_size="829593" url="http://www.nltk.org/nltk_data/packages/corpora/toolbox.zip" />
-    <package checksum="fce815010375b9911c68b1e74d8d8a05" copyright="Copyright (C) 1995 University of Pennsylvania" id="treebank" license="This is a 10% fragment of Penn Treebank, (C) LDC 1995.  It is made available under fair use for the purposes of illustrating NLTK tools for tokenizing, tagging, chunking and parsing.  This data is for non-commercial use only." name="Penn Treebank Sample" sample="True" size="1710651" subdir="corpora" unzip="1" unzipped_size="5924903" url="http://www.nltk.org/nltk_data/packages/corpora/treebank.zip" />
-    <package checksum="02fc79b5adc0357bc1e14747246fd3c1" copyright="Copyright (C) 2015 Twitter, Inc" id="twitter_samples" license="Must be used subject to Twitter Developer Agreement     (https://dev.twitter.com/overview/terms/agreement)" name="Twitter Samples" note="Sample of Tweets collected from the Twitter APIs,         observing the 50k limit required by https://dev.twitter.com/overview/terms/policy#6._Be_a_Good_Partner_to_Twitter " size="16007673" subdir="corpora" unzip="1" unzipped_size="122350791" url="http://www.nltk.org/nltk_data/packages/corpora/twitter_samples.zip" />
-    <package checksum="745b3a90feb25c95fc805ebbd1ef5258" copyright="public domain" id="udhr" license="public domain" name="Universal Declaration of Human Rights Corpus" size="1170177" subdir="corpora" unzip="1" unzipped_size="3261577" url="http://www.nltk.org/nltk_data/packages/corpora/udhr.zip" webpage="http://www.un.org/Overview/rights.html" />
-    <package checksum="e604482d2dc8dd2580af7d97c1bf0a80" copyright="public domain" id="udhr2" license="public domain" name="Universal Declaration of Human Rights Corpus (Unicode Version)" size="1653975" subdir="corpora" unzip="1" unzipped_size="5677920" url="http://www.nltk.org/nltk_data/packages/corpora/udhr2.zip" webpage="http://unicode.org/udhr/" />
-    <package checksum="d46699450dd2287f5c115d8c1a0819f1" id="unicode_samples" name="Unicode Samples" note="A very small corpus used to demonstrate unicode encoding in chapter 10 of the book" size="1212" subdir="corpora" unzip="1" unzipped_size="643" url="http://www.nltk.org/nltk_data/packages/corpora/unicode_samples.zip" />
-    <package checksum="4acd3991768a727be019a8021fe376d2" id="universal_treebanks_v20" license="Creative Commons Attribution-NonCommercial-ShareAlike 3.0 United States" name="Universal Treebanks Version 2.0" size="25908853" subdir="corpora" unzip="0" unzipped_size="119113962" url="http://www.nltk.org/nltk_data/packages/corpora/universal_treebanks_v20.zip" webpage="https://code.google.com/p/uni-dep-tb/" />
-    <package author="Karin Kipper-Schuler" checksum="427dac60e4a94ae910248ccd9986a22a" id="verbnet" license="Distributed with permission of the author." name="VerbNet Lexicon, Version 2.1" size="323661" subdir="corpora" unzip="1" unzipped_size="2474526" url="http://www.nltk.org/nltk_data/packages/corpora/verbnet.zip" version="2.1" webpage="http://verbs.colorado.edu/~mpalmer/projects/verbnet.html" />
-    <package checksum="6c7680030aae5c997b1370f832545c6a" id="webtext" name="Web Text Corpus" size="646297" subdir="corpora" unzip="1" unzipped_size="1726918" url="http://www.nltk.org/nltk_data/packages/corpora/webtext.zip" />
-    <package checksum="da4ca27db8350b38729dc89de4d5a4e1" copyright="WordNet 3.0 Copyright 2006 by Princeton University.  All rights reserved." id="wordnet" license="Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license]" name="WordNet" size="10771928" subdir="corpora" unzip="1" unzipped_size="36348025" url="http://www.nltk.org/nltk_data/packages/corpora/wordnet.zip" version="3.0" webpage="http://wordnet.princeton.edu/" />
-    <package checksum="25f0185b31693fa11ea898e4feda528c" id="wordnet_ic" name="WordNet-InfoContent" size="12056682" subdir="corpora" unzip="1" unzipped_size="34220359" url="http://www.nltk.org/nltk_data/packages/corpora/wordnet_ic.zip" version="3.0" webpage="http://wn-similarity.sourceforge.net" />
-    <package checksum="8594d9d5422e01d993dfbbc3f38d3ae5" copyright="public domain" id="words" license="public domain" name="Word Lists" size="757777" subdir="corpora" unzip="1" unzipped_size="2498552" url="http://www.nltk.org/nltk_data/packages/corpora/words.zip" webpage="http://en.wikipedia.org/wiki/Words_(Unix)" />
-    <package available="False" checksum="6582cd98ca26c35d9c4eaaa4350ce8f3" id="ycoe" name="York-Toronto-Helsinki Parsed Corpus of Old English Prose" size="477" subdir="corpora" unzip="1" unzipped_size="277" url="http://www.nltk.org/nltk_data/packages/corpora/ycoe.zip" webpage="http://www.ota.ahds.ac.uk/" />
-    <package author="Kepa Sarasola" checksum="0e3518cb2aeb2600cb2841df7f035606" id="basque_grammars" languages="Spanish" name="Grammars for Basque" size="4704" subdir="grammars" unzip="1" unzipped_size="5550" url="http://www.nltk.org/nltk_data/packages/grammars/basque_grammars.zip" />
-    <package author="Ewan Klein" checksum="2e6bc2e5d678fc5d14e4c0747c69083e" id="book_grammars" languages="English" name="Grammars from NLTK Book" size="9103" subdir="grammars" unzip="1" unzipped_size="21179" url="http://www.nltk.org/nltk_data/packages/grammars/book_grammars.zip" />
-    <package checksum="135aa813bd721d59ae595d9d7f115dc8" contact="John A. Carroll" id="large_grammars" languages="English" license="See the individual grammar files" name="Large context-free and feature-based grammars for parser comparison" size="283747" subdir="grammars" unzip="1" unzipped_size="4115732" url="http://www.nltk.org/nltk_data/packages/grammars/large_grammars.zip" webpage="http://www.informatics.sussex.ac.uk/research/groups/nlp/carroll/elsps.html" />
-    <package author="" checksum="c4a2a01345d1e61c8febd8d498c5d2d6" id="sample_grammars" languages="English" name="Sample Grammars" size="20293" subdir="grammars" unzip="1" unzipped_size="61718" url="http://www.nltk.org/nltk_data/packages/grammars/sample_grammars.zip" />
-    <package author="Kepa Sarasola" checksum="12f66b8e22beadd6ed202e95453465af" id="spanish_grammars" languages="Spanish" name="Grammars for Spanish" size="4047" subdir="grammars" unzip="1" unzipped_size="3980" url="http://www.nltk.org/nltk_data/packages/grammars/spanish_grammars.zip" />
-    <package author="UCREL, Lancaster University" checksum="e15834e0dd89b107925af6bb11a8eaa4" id="tagsets" languages="English" name="Help on Tagsets" size="34531" subdir="help" unzip="1" unzipped_size="79723" url="http://www.nltk.org/nltk_data/packages/help/tagsets.zip" />
-    <package checksum="51d0c9c288b4f790bf255b5c9c3533ab" id="bllip_wsj_no_aux" name="BLLIP Parser: WSJ Model" size="24516205" subdir="models" unzip="1" unzipped_size="54298623" url="http://www.nltk.org/nltk_data/packages/models/bllip_wsj_no_aux.zip" webpage="http://nlp.stanford.edu/~mcclosky/models/" />
-    <package checksum="715531d058ec253bd0683d0df23ec868" id="moses_sample" name="Moses Sample Models" size="10961490" subdir="models" unzip="1" unzipped_size="10985045" url="http://www.nltk.org/nltk_data/packages/models/moses_sample.zip" webpage="http://www.statmt.org/moses/?n=Moses.SampleData" />
-    <package checksum="d1d1a23377f9ab4c12d77c7a078318ac" id="word2vec_sample" name="Word2Vec Sample" size="49396025" subdir="models" unzip="1" unzipped_size="138432415" url="http://www.nltk.org/nltk_data/packages/models/word2vec_sample.zip" webpage="https://code.google.com/p/word2vec/" />
-    <package author="Viviane Moreira Orengo (vmorengo@inf.ufrgs.br) and Christian Huyck" checksum="648798996224694251834699fa6e55f7" id="rslp" languages="Portuguese" name="RSLP Stemmer (Removedor de Sufixos da Lingua Portuguesa)" size="3805" subdir="stemmers" unzip="1" unzipped_size="7269" url="http://www.nltk.org/nltk_data/packages/stemmers/rslp.zip" />
-    <package checksum="cba1cf17b887789e6df5f2c87c6e56fb" id="snowball_data" languages="Danish, Dutch, English, Finnish, French, German,          Hungarian, Italian, Norwegian, Portuguese, Romanian, Russian,          Spanish, Swedish, Turkish" name="Snowball Data" size="6785405" subdir="stemmers" unzip="0" unzipped_size="36360836" url="http://www.nltk.org/nltk_data/packages/stemmers/snowball_data.zip" webpage="https://github.com/snowballstem/snowball-data" />
-    <package checksum="b879eaf39f3dbb97c551e9df5db93ec9" id="hmm_treebank_pos_tagger" languages="English" name="Treebank Part of Speech Tagger (HMM)" size="750857" subdir="taggers" unzip="1" unzipped_size="750354" url="http://www.nltk.org/nltk_data/packages/taggers/hmm_treebank_pos_tagger.zip" />
-    <package checksum="e3b8a5353056073e164c5b06d0cc1fa7" id="maxent_treebank_pos_tagger" languages="English" name="Treebank Part of Speech Tagger (Maximum entropy)" size="10156853" subdir="taggers" unzip="1" unzipped_size="17961132" url="http://www.nltk.org/nltk_data/packages/taggers/maxent_treebank_pos_tagger.zip" />
-    <package checksum="9a30363dfc79250c9480663c761a7d82" id="universal_tagset" name="Mappings to the Universal Part-of-Speech Tagset" size="14390" subdir="taggers" unzip="1" unzipped_size="21552" url="http://www.nltk.org/nltk_data/packages/taggers/universal_tagset.zip" />
-    <package author="Jan Strunk" checksum="9d2fe21ea644bff6b04a5cb4bbaf56af" id="punkt" languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Norwegian, Polish, Portuguese, Slovene, Spanish, Swedish, Turkish" name="Punkt Tokenizer Models" size="13681404" subdir="tokenizers" unzip="1" unzipped_size="36731110" url="http://www.nltk.org/nltk_data/packages/tokenizers/punkt.zip" />
+    <package id="abc" name="Australian Broadcasting Commission 2006" webpage="http://www.abc.net.au/" author="Australian Broadcasting Commission" unzip="1" unzipped_size="4054966" size="1487851" checksum="ffb36b67ff24cbf7daaf171c897eb904" sha256_checksum="129bb6001beb828049a90a59b7dd3c2f0594a47012e48fc5177dfae38e658565" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/abc.zip" />
+    <package id="alpino" name="Alpino Dutch Treebank" webpage="http://www.let.rug.nl/~vannoord/trees/" contact="Gertjan van Noord" license="Distributed with permission of Gertjan van Noord" unzip="1" unzipped_size="21604821" size="2797255" checksum="ae529a1c5f13d6074f5b0d68d8edb537" sha256_checksum="2e4551748dc81707b01d5adabb62c308ae5cb70fc526936310502431a1db96ef" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/alpino.zip" />
+    <package id="averaged_perceptron_tagger" name="Averaged Perceptron Tagger" languages="English" license="MIT License" webpage="https://github.com/sloria/textblob-aptagger" unzip="1" unzipped_size="6138625" size="2526731" checksum="05c91d607ee1043181233365b3f76978" sha256_checksum="e1f13cf2532daadfd6f3bc481a49859f0b8ea6432ccdcd83e6a49a5f19008de9" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/averaged_perceptron_tagger.zip" />
+    <package id="averaged_perceptron_tagger_eng" name="Averaged Perceptron Tagger (JSON)" languages="English" license="MIT License" webpage="https://github.com/sloria/textblob-aptagger" unzip="1" unzipped_size="5703817" size="1539115" checksum="729e2255f83045670374180de9bdb613" sha256_checksum="6025f530624335c67d6547d44757b357b4e79bae030a0383e9887a92c1718f0b" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/averaged_perceptron_tagger_eng.zip" />
+    <package id="averaged_perceptron_tagger_ru" name="Averaged Perceptron Tagger (Russian)" webpage="http://www.ruscorpora.ru/en/" languages="Russian" license="MIT License" unzip="1" unzipped_size="23247411" size="8628828" checksum="f7051368e4aff6718f8b38c1362dfdb1" sha256_checksum="82a4ec6fd815dcee0fe6e150aed8fefa0ae501eba6e62b94fafbfc089af8954b" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/averaged_perceptron_tagger_ru.zip" />
+    <package id="averaged_perceptron_tagger_rus" name="Averaged Perceptron Tagger (Russian)" webpage="http://www.ruscorpora.ru/en/" languages="Russian" license="MIT License" unzip="1" unzipped_size="30246815" size="5997187" checksum="073f704b73bf8d88037e464852e34420" sha256_checksum="b69239b2b42029edf536f6643e4ccf4c641b9d602830d5eab2724f4bd36c7155" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/averaged_perceptron_tagger_rus.zip" />
+    <package id="basque_grammars" name="Grammars for Basque" author="Kepa Sarasola" languages="Spanish" unzip="1" unzipped_size="5550" size="4704" checksum="0e3518cb2aeb2600cb2841df7f035606" sha256_checksum="40ec8a0e92079f32a6900189e8551909506e727b19652f28641fcd825a374ec7" subdir="grammars" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/grammars/basque_grammars.zip" />
+    <package id="bcp47" name="BCP-47 Language Tags" license="IETF Trust and Unicode Inc." copyright="Copyright (c) 2022 IETF Trust and Copyright (c) 1991-2022 Unicode" webpage="https://www.rfc-editor.org/rfc/rfc5646.html" unzip="0" unzipped_size="1433135" size="222952" checksum="8ef6c0dfa7661e3338dd99c495a7d9b6" sha256_checksum="435d986fd9de0ae540a34e0978dbbaf5d1db7576b2bc7571da71cf6a01c8dfaa" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/bcp47.zip" />
+    <package id="biocreative_ppi" name="BioCreAtIvE (Critical Assessment of Information Extraction Systems in Biology)" webpage="http://www.mitre.org/public/biocreative/" copyright="Public Domain (not copyrighted)" license="Public Domain" unzip="1" unzipped_size="1537086" size="223566" checksum="d3be36b53ab201372f1cd63ffc75e9a9" sha256_checksum="d30fe4ac6e2b71a15376401de7cd5bde1252deb28d3d45920ab740281e78e74b" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/biocreative_ppi.zip" />
+    <package id="bllip_wsj_no_aux" name="BLLIP Parser: WSJ Model" webpage="http://nlp.stanford.edu/~mcclosky/models/" unzip="1" unzipped_size="54298623" size="24516205" checksum="51d0c9c288b4f790bf255b5c9c3533ab" sha256_checksum="e00339b708f23c24b5cf67ff3db5711dd4d80b21083f52787cf167bf77ac2126" subdir="models" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/bllip_wsj_no_aux.zip" />
+    <package id="book_grammars" name="Grammars from NLTK Book" author="Ewan Klein" languages="English" unzip="1" unzipped_size="21179" size="9103" checksum="2e6bc2e5d678fc5d14e4c0747c69083e" sha256_checksum="cc63b32d680888c04b3c332218d645a9f9db8571ffe7229808391c889796ffbd" subdir="grammars" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/grammars/book_grammars.zip" />
+    <package id="brown" name="Brown Corpus" author="W. N. Francis and H. Kucera" license="May be used for non-commercial purposes." webpage="http://www.hit.uib.no/icame/brown/bcm.html" unzip="1" unzipped_size="10117565" size="3314357" checksum="a0a8630959d3d937873b1265b0a05497" sha256_checksum="9b275f9b3b95d7bd66ccfb7cd259f445a13bbe5d1f4107aba09fd3e8364bafa6" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip" />
+    <package id="brown_tei" name="Brown Corpus (TEI XML Version)" author="W. N. Francis and H. Kucera" license="May be used for non-commercial purposes." webpage="http://www.hit.uib.no/icame/brown/bcm.html" contact="Lou Burnard -- lou.burnard@oucs.ox.ac.uk" unzip="1" unzipped_size="56814689" size="8737738" checksum="3c7fe43ebf0a4c7ad3ebb63dab027e09" sha256_checksum="335bec1ea6362751d5d5c46970137ebb01c80bf7d7d75558787729d275e0a687" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown_tei.zip" />
+    <package id="cess_cat" name="CESS-CAT Treebank" webpage="http://clic.ub.edu/cessece/" license="If you use these corpora for research, please cite thusly: CESS-Cat project (M. Antonia Mart&#237;, MarionaTaul&#233;, Llu&#237;s M&#225;rquez, Manuel Bertran (2007) ?CESS-ECE: A Multilingual and Multilevel Annotated Corpus? in http://www.lsi.upc.edu/~mbertran/cess-ece/publications)." unzip="1" unzipped_size="33720460" size="5396688" checksum="e91ac59ec6e98e3b297e2d2eab83084d" sha256_checksum="c5b42b363365bfaa9a0616e448eb50da9668d2f5b6d1ff9d12b5c28ae09543cb" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/cess_cat.zip" />
+    <package id="cess_esp" name="CESS-ESP Treebank" webpage="http://clic.ub.edu/cessece/" license="If you use these corpora for research, please cite thusly: CESS-Cat project (M. Antonia Mart&#237;, MarionaTaul&#233;, Llu&#237;s M&#225;rquez, Manuel Bertran (2007) ?CESS-ECE: A Multilingual and Multilevel Annotated Corpus? in http://www.lsi.upc.edu/~mbertran/cess-ece/publications)." unzip="1" unzipped_size="13233272" size="2220392" checksum="684432d4f6384b8f0bd19fee5dc15925" sha256_checksum="ae5b12898039e51911ae16d25c4822cb92adcfc034a2e12b57676d21d3c94884" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/cess_esp.zip" />
+    <package id="chat80" name="Chat-80 Data Files" copyright="Copyright (C) 1982 David Warren and Fernando Pereira" license="This program may be used, copied, altered or included in other programs only for academic purposes and provided that the authorship of the initial program is aknowledged.  Use for commercial purposes without the previous written agreement of the authors is forbidden." author="David Warren and Fernando Pereira" webpage="http://www.cis.upenn.edu/~pereira/oldies.html" unzip="1" unzipped_size="63817" size="19209" checksum="6832873fe92996846ac5bb21c5d84eb8" sha256_checksum="6147451ba5bef268044e3fba446b5988da757fc2ed18d951d38d4eec864c66c0" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/chat80.zip" />
+    <package id="city_database" name="City Database" note="A very small database of information about cities" unzip="1" unzipped_size="4096" size="1708" checksum="29cbf1aa02ad8abc72dd955fe74f882c" sha256_checksum="df142032cac15d388171d018531ba9038fd48293567901ad56b378a40e1f8dfe" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/city_database.zip" />
+    <package id="cmudict" name="The Carnegie Mellon Pronouncing Dictionary (0.6)" webpage="ftp://ftp.cs.cmu.edu/project/speech/dict/" copyright="Copyright 1998 Carnegie Mellon University" license="Use of this dictionary, for any research or commercial purpose, is completely unrestricted.  If you use or redistribute this material, we would appreciate acknowlegement of its origin." unzip="1" unzipped_size="3824638" size="896069" checksum="58f743ff818b983b89ef9302b509fc41" sha256_checksum="d07cca47fd72ad32ea9d8ad1219f85301eeaf4568f8b6b73747506a71fb5afd6" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/cmudict.zip" />
+    <package id="comparative_sentences" name="Comparative Sentence Dataset" copyright="Copyright (C) 2006 Nitin Jindal and Bing Liu" author="Nitin Jindal and Bing Liu" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" unzip="1" unzipped_size="774200" size="279121" checksum="df2d005f455afb760fa37d7f565400f1" sha256_checksum="d076e1bab25c7c2a39e8850aefbb64a2188ebc5033bf21aeb656f4fab15f7f8b" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/comparative_sentences.zip" />
+    <package id="comtrans" name="ComTrans Corpus Sample" author="Reinhard Rapp" webpage="http://www.fask.uni-mainz.de/user/rapp/comtrans/" unzip="0" unzipped_size="35387522" size="11904518" checksum="8e1e34e2f052d8188fd877b2c821b42d" sha256_checksum="95a334f6bd910d2271d159bf53c5ce08516be3fa1cceb32521232c21dd2131f9" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/comtrans.zip" />
+    <package id="conll2000" name="CONLL 2000 Chunking Corpus" webpage="http://www.cnts.ua.ac.be/conll2000/chunking/" contact="Erik Tjong Kim Sang (erikt@uia.ua.ac.be)" unzip="1" unzipped_size="3495903" size="756607" checksum="9529b285edd5fe47271da69df1052301" sha256_checksum="01e65164f268366e7caa0db92332a1955d081908c87016e2c7640c3c5279b7cd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/conll2000.zip" />
+    <package id="conll2002" name="CONLL 2002 Named Entity Recognition Corpus" webpage="http://www.cnts.ua.ac.be/conll2002/ner/" unzip="1" unzipped_size="7785638" size="1867449" checksum="67bb4ca75fa81544d42a159524726e78" sha256_checksum="64440e49236d0d393e08e0b266284966d68e2d2a82a50cc41b8e96d98c03b5c8" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/conll2002.zip" />
+    <package id="conll2007" name="Dependency Treebanks from CoNLL 2007 (Catalan and Basque Subset)" webpage="http://nextens.uvt.nl/depparse-wiki/DataDownload" contact="Kepa Sarasola" copyright="Copyright (C) 2007 The University of the Basque Country" license="Creative Commons Attribution-NonCommercial-NoDerivativeWorks license" unzip="0" unzipped_size="6399295" size="1242958" checksum="b9015928e35c41f0695525289df5208f" sha256_checksum="b1e2865b31cdbc016a437c29dc3e190042ef2e237b21ba2a69082b7dc1c007ca" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/conll2007.zip" />
+    <package id="crubadan" name="Crubadan Corpus" copyright="Copyright (C) 2010 Kevin Scannell" author="Kevin Scannell" license="GPLv3" webpage="http://borel.slu.edu/crubadan/" unzip="1" unzipped_size="11256183" size="5288655" checksum="3cc831382dec41b8d9a06d93ef300352" sha256_checksum="8d64c8ff52f47a44381cad0795cf7fe3f8ff7907a1f92c09aadef8e163efdbc7" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/crubadan.zip" />
+    <package id="dependency_treebank" name="Dependency Parsed Treebank" sample="True" copyright="Copyright (C) 1995 University of Pennsylvania" license="This is a 10% fragment of Penn Treebank, (C) LDC 1995, which has been dependency parsed.  It is made available under fair use for the purposes of illustrating NLTK tools for tokenizing, tagging, chunking and parsing.  This data is for non-commercial use only." unzip="1" unzipped_size="1069540" size="457429" checksum="631e959acaa42eea718daf04c5cdfa76" sha256_checksum="0df483999f1391f32b141d6047d8ce19efd0a5a3e63ca019bfc4af8530f51fbd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/dependency_treebank.zip" />
+    <package id="dolch" name="Dolch Word List" webpage="https://en.wikipedia.org/wiki/Dolch_word_list" unzip="1" unzipped_size="1917" size="2116" checksum="6f9c042774b96366c93fd0f9a9adb697" sha256_checksum="e4a58e0f13809ac86bc819e245aeb60981ea4edcac7025509af99fa6b67305cd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/dolch.zip" />
+    <package id="english_wordnet" name="Open English Wordnet" version="2025+" license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team." copyright="Open English Wordnet 2025+ Copyright 2025 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved." webpage="https://en-word.net/" unzip="1" unzipped_size="37901773" size="11204755" checksum="c0b8b6227c09b29ccb821acdc833c7fa" sha256_checksum="a8a0bfd9be75a889dc798c4bf43d53fd20db271ce5d480de85541a3d66b51634" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/english_wordnet.zip" />
+    <package id="europarl_raw" name="Sample European Parliament Proceedings Parallel Corpus" author="Philipp Koehn, University of Edinburgh" webpage="http://www.statmt.org/europarl" unzip="1" unzipped_size="41396100" size="12594977" checksum="7621d5675990b1decc012c823716ee76" sha256_checksum="ad553e177baac263840c10980e6f3e76d5d15f7f7a078bd98520b36edb69b27c" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/europarl_raw.zip" />
+    <package id="extended_omw" name="Extended Open Multilingual WordNet" copyright="Copyright (C) 2013 Francis Bond and Ryan Foster" license="CC by SA 3.0 Licence (for data from Wikitionary) and Unicode, Inc. Licence Agreement (for data from CLDR)" webpage="http://compling.hss.ntu.edu.sg/omw/summx.html" unzip="0" unzipped_size="36087752" size="11251284" checksum="8cc3931b20fdc2a2fe1ed9d42567d51b" sha256_checksum="c59b90f2902c351eeb0ce97a49a1b7cf73d4e2f5b05cbda0e903eb20b5ee168a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/extended_omw.zip" />
+    <package id="floresta" name="Portuguese Treebank" license="Non-commercial use only" webpage="http://www.linguateca.pt/Floresta/" unzip="1" unzipped_size="16414136" size="1882021" checksum="de5f1df09949f080e0f616f0bc55967d" sha256_checksum="7675017f8b36cb85013b7a4171659fb55c427110e1e2fd4bcd92c4c771a14bfd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/floresta.zip" />
+    <package id="framenet_v15" name="FrameNet 1.5" author="Collin F. Baker" license="May be used for non-commercial purposes." webpage="http://framenet.icsi.berkeley.edu" unzip="1" unzipped_size="579133737" size="69337891" checksum="cf68365950b2f048bcb48619de81f50a" sha256_checksum="ea723e8575f1d7eeb0b39e7cd14a4d608f24adec4496800bfea3bdff82ffdcc8" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/framenet_v15.zip" />
+    <package id="framenet_v17" name="FrameNet 1.7" author="Collin F. Baker" license="Creative Commons Attribution 3.0 Unported License" webpage="http://framenet.icsi.berkeley.edu" unzip="1" unzipped_size="855026962" size="99207152" checksum="aaef1cfdcf37000cf2a5c562407fbddb" sha256_checksum="22f6aad6fb799ba4dbed0440714e1118442ad7d7345351de37428581284f471c" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/framenet_v17.zip" />
+    <package id="gazetteers" name="Gazeteer Lists" license="GNU Free Documentation License; or public domain (depending on the file)" unzip="1" unzipped_size="12711" size="8265" checksum="1dd15c714a2be985c482a13d90e9caa4" sha256_checksum="3e4df6d5a03a3e4e109e488366e96e98d84f085b98d70f3dc11ecd6ce6ca48ab" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/gazetteers.zip" />
+    <package id="genesis" name="Genesis Corpus" copyright="public domain" license="public domain" unzip="1" unzipped_size="1426122" size="473239" checksum="2a76432753c01fe179684e0ae3a4d023" sha256_checksum="0cac241f88d7999f81a45e26b1764b2d1f3b4d21654aa954e0d5349eb4784cd0" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/genesis.zip" />
+    <package id="gutenberg" name="Project Gutenberg Selections" webpage="https://gutenberg.org/" license="public domain" copyright="public domain" unzip="1" unzipped_size="11802669" size="4251829" checksum="48c9c8605cd70b0230687557ee543633" sha256_checksum="2d3c3ab548c653944310f37f536443ec85d0a0ad855fcae217a0c9efdce2d611" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/gutenberg.zip" />
+    <package id="ieer" name="NIST IE-ER DATA SAMPLE" webpage="http://www.itl.nist.gov/iad/894.01/tests/ie-er/er_99/er_99.htm" unzip="1" unzipped_size="541349" size="166156" checksum="34157f569624bc8d642ef8da5722b14a" sha256_checksum="1f63b08ed212c1d52545307838d183c79e02fd09cc8c5a48542f82c61c078b5d" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/ieer.zip" />
+    <package id="inaugural" name="C-Span Inaugural Address Corpus" copyright="public domain" license="public domain" unzip="1" unzipped_size="824408" size="344679" checksum="76d672e2268b2e52523d1df54ce9e074" sha256_checksum="b3b2cb7bd82697b58ff79c75af20ab963810d191a8c3d1f7c240f98e5d27a895" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/inaugural.zip" />
+    <package id="indian" name="Indian Language POS-Tagged Corpus" author="A Kumaran" license="Distributed with permission" unzip="1" unzipped_size="1091033" size="199187" checksum="599a684793935ecbcf8276133945037c" sha256_checksum="6f5aff392fc953769b6ccb994bd70e33ec6f0226e93979470255fa97abf692f9" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/indian.zip" />
+    <package id="jeita" name="JEITA Public Morphologically Tagged Corpus (in ChaSen format)" webpage="http://lilyx.net/pages/nltkjapanesecorpus.html" license="Freely re-distributable under the same license as the original JEITA corpus. Each document retains its own license from Aozora bunko and Project Sugita Genpaku." unzip="0" unzipped_size="134170650" size="16531215" checksum="96e30423d6887fad17fc44f2f30d920d" sha256_checksum="4415bd6365628be5eeb80fe7aefe2b9161ef6cfc4d604d101feec6b59aedcbfd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/jeita.zip" />
+    <package id="kimmo" name="PC-KIMMO Data Files" webpage="http://www.sil.org/pckimmo/" unzip="1" unzipped_size="814609" size="186958" checksum="68a8716e0233ad9c0ed0947952e4eb3e" sha256_checksum="5be9a891a08ac48914cccf8f98f3469c1e76e8d3aae16243220839e8c3fe16f4" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/kimmo.zip" />
+    <package id="knbc" name="KNB Corpus (Annotated blog corpus)" webpage="http://lilyx.net/pages/nltkjapanesecorpus.html" license="Freely re-distributable under the same license as the original KNB Corpus." unzip="0" unzipped_size="23601139" size="8760788" checksum="992f8a3647f333e28a9958eba4bd67c7" sha256_checksum="88a7822a33d16418e88b2f95084396496953a1c1087bf3e233d3e1fec3f935e8" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/knbc.zip" />
+    <package id="large_grammars" name="Large context-free and feature-based grammars for parser comparison" webpage="http://www.informatics.sussex.ac.uk/research/groups/nlp/carroll/elsps.html" contact="John A. Carroll" license="See the individual grammar files" languages="English" unzip="1" unzipped_size="4115732" size="283747" checksum="135aa813bd721d59ae595d9d7f115dc8" sha256_checksum="5a81e5278757fafe6e8f19b16f6e4363783635ee332c5c238a30e190f735da59" subdir="grammars" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/grammars/large_grammars.zip" />
+    <package id="lin_thesaurus" name="Lin's Dependency Thesaurus" author="Dekang Lin" webpage="http://webdocs.cs.ualberta.ca/~lindek/downloads.htm" license="Distributed with permission of Dekang Lin" unzip="1" unzipped_size="210421609" size="89154019" checksum="288cc15e4ed257c8598d6f7a30199db9" sha256_checksum="04ebd29f0ad826700241b608f739bb8b9098c8de998f4a903535de5c3240c0a9" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/lin_thesaurus.zip" />
+    <package id="mac_morpho" name="MAC-MORPHO: Brazilian Portuguese news text with part-of-speech tags" webpage="http://www.nilc.icmc.usp.br/lacioweb/" license="Distributed with permission of N&#250;cleo Interinstitucional de Ling&#252;&#237;stica Computacional (NILC), Universidade de S&#227;o Paulo (USP) in S&#227;o Carlos, Universidade Federal de S&#227;o Carlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara." unzip="1" unzipped_size="10941402" size="3013904" checksum="cf216ae5b37cca24866909f8594c5395" sha256_checksum="1c6138beba28b9c71edfd4b54991c5e1cf36a4d6b0ad8c66f8aa27c57b07547b" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/mac_morpho.zip" />
+    <package id="machado" name="Machado de Assis -- Obra Completa" author="Machado de Assis" license="Public Domain" webpage="http://machado.mec.gov.br/" unzip="0" unzipped_size="14855338" size="6151774" checksum="d186f7d6715479a8bec48b8b8030858e" sha256_checksum="772463b1553c1b0ff1fc0360768b31f59b488f7a52d44cc92c3e31ca289acce9" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/machado.zip" />
+    <package id="masc_tagged" name="MASC Tagged Corpus" copyright="Copyright (C) 2014 American National Corpus" author="Nancy Ide" license="This data may be used for the purposes of linguistic education, research, and development, including commercial development." webpage="http://www.anc.org/" unzip="0" unzipped_size="4963879" size="1602143" checksum="a03d3ae8c6c2a1707885066e4d62582a" sha256_checksum="678a5141cf3381bedb1839c58a330507337be07c7c71603279c0ef5337032304" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/masc_tagged.zip" />
+    <package id="maxent_ne_chunker" name="ACE Named Entity Chunker (Maximum entropy)" languages="English" unzip="1" unzipped_size="23604982" size="13404747" checksum="d577c2cd0fdae148b36d046b14eb48e6" sha256_checksum="b7cdb936c551c06ef2cdc6227238c5ccc9c8c5259a11f99f4a937419d52af61b" subdir="chunkers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/chunkers/maxent_ne_chunker.zip" />
+    <package id="maxent_ne_chunker_tab" name="ACE Named Entity Chunker (Maximum entropy)" languages="English" unzip="1" unzipped_size="14621652" size="5449208" checksum="a50bea2481daf9b26e01ea0128780b20" sha256_checksum="1370234c7770045d0c50f41e08bc627ec92450324a946de14b93cd7d5e362a86" subdir="chunkers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/chunkers/maxent_ne_chunker_tab.zip" />
+    <package id="maxent_treebank_pos_tagger" name="Treebank Part of Speech Tagger (Maximum entropy)" languages="English" unzip="1" unzipped_size="17961132" size="10156853" checksum="e3b8a5353056073e164c5b06d0cc1fa7" sha256_checksum="6ba605d803ad5e9aeb604dc9c82573afd44e9c9ad1f228788eb05ddd88ef0b24" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/maxent_treebank_pos_tagger.zip" />
+    <package id="maxent_treebank_pos_tagger_tab" name="Treebank Part of Speech Tagger (Maximum entropy)" languages="English" unzip="1" unzipped_size="10649197" size="3731431" checksum="c89cb1171d5026200ab2083811245a77" sha256_checksum="f5d15df4181f19a78d202e0e27cd1826964666cdad7dedc8e907236aadd81c95" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/maxent_treebank_pos_tagger_tab.zip" />
+    <package id="mock_corpus" name="Mock Corpus" description="This is a mock corpus for testing the index.xml automation workflow. It can be safely added and removed." unzip="1" license="Public Domain" unzipped_size="143" size="455" checksum="060cd55b69c9a2392de43777f8eb5114" sha256_checksum="5b0dd123fe7bdead793111c3c9a86e318be94603ec2a8ae4798419002d5a4b25" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/mock_corpus.zip" />
+    <package id="moses_sample" name="Moses Sample Models" webpage="http://www.statmt.org/moses/?n=Moses.SampleData" unzip="1" unzipped_size="10985045" size="10961490" checksum="715531d058ec253bd0683d0df23ec868" sha256_checksum="0639dfa1d1939295d29c3d57478b1eb7767405dc916effe2cf6a90071943f7e8" subdir="models" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/moses_sample.zip" />
+    <package id="movie_reviews" name="Sentiment Polarity Dataset Version 2.0" author="Bo Pang and Lillian Lee" copyright="Copyright (C) 2004 Bo Pang and Lillian Lee" webpage="http://www.cs.cornell.edu/people/pabo/movie-review-data/" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" unzip="1" unzipped_size="7790571" size="4004848" checksum="155de2b77c6834dd8eea7cbe88e93acb" sha256_checksum="a41211ae685019137410268134db6a1a14428c89b671eb83056151a878539008" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/movie_reviews.zip" />
+    <package id="mte_teip5" name="MULTEXT-East 1984 annotated corpus 4.0" author="Erjavec, Toma&#382;; Barbu, Ana-Maria; Derzhanski, Ivan; Dimitrova, Ludmila; Garab&#237;k, Radovan; Ide, Nancy; Kaalep, Heiki-Jaan; Kotsyba, Natalia; Krstev, Cvetana; Oravecz, Csaba; Petkevi&#269;, Vladim&#237;r; Priest-Dorman, Greg; QasemiZadeh, Behrang; Radziszewski, Adam; Simov, Kiril; Tufi&#351;, Dan and Zdravkova, Katerina" license="Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)" webpage="https://www.clarin.si/repository/xmlui/handle/11356/1043" unzip="1" unzipped_size="122461442" size="14800561" checksum="27aa12b3546cb241df8699506ab15128" sha256_checksum="2847497d2f8c42c510e82e7cde37537a2a1da7d6e458d879fb22f73f4eef6059" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/mte_teip5.zip" />
+    <package id="mwa_ppdb" name="The monolingual word aligner (Sultan et al. 2015) subset of the Paraphrase Database." webpage="http://www.cis.upenn.edu/~ccb/ppdb/" license="Creative Commons Attribution 3.0 Unported (CC-BY)" unzip="1" unzipped_size="3657054" size="1594711" checksum="e5836f76779020b225ad6114372b954a" sha256_checksum="65f70300d720a280eb19899b222c94a630be5e378f01a658cc0a4bb50fa50b41" subdir="misc" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/misc/mwa_ppdb.zip" />
+    <package id="names" name="Names Corpus, Version 1.3 (1994-03-29)" copyright="Copyright (C) 1991 Mark Kantrowitz" author="Mark Kantrowitz and Bill Ross" license="You may use the lists of names for any purpose, so long as credit is given in any published work. You may also redistribute the list if you provide the recipients with a copy of this README file. The lists are not in the public domain (I retain the copyright on the lists) but are freely redistributable.  If you have any additions to the lists of names, I would appreciate receiving them." webpage="http://www-2.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/names/" unzip="1" unzipped_size="56572" size="21326" checksum="93844d7c995ad28f40528c08a3430175" sha256_checksum="0eec7e958b34982662b8f05824ae64642dea097b08057ade65c252191c5fe7ca" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/names.zip" />
+    <package id="nombank.1.0" name="NomBank Corpus 1.0" contact="Adam Meyers" webpage="http://nlp.cs.nyu.edu/meyers/NomBank.html" license="Distributed with permission" unzip="0" unzipped_size="42315496" size="6728397" checksum="57afdc46230ea33208e4e277de24765b" sha256_checksum="eb7c4228bdaf6d528630db60f818e53dd69d4ef7a5722f7066a920c0c7d90c76" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/nombank.1.0.zip" />
+    <package id="nonbreaking_prefixes" name="Non-Breaking Prefixes (Moses Decoder)" webpage="https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes" license="Gnu LGPL" unzip="1" unzipped_size="43361" size="25437" checksum="5e7d700390745114cd3a52160d6f2eac" sha256_checksum="62dd9fe11b21d201ca26cf2351595512965d5fe064f9d6ce1873c6231b46d869" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/nonbreaking_prefixes.zip" />
+    <package id="nps_chat" name="NPS Chat" author="Craig Martell (cmartell@nps.edu)" webpage="http://faculty.nps.edu/cmartell/NPSChat.htm" license="This corpus is distributed solely for non-commercial, non-profit educational and research use. It is a derivative compilation work of multiple works whose copyrights are held by the respective original authors." unzip="1" unzipped_size="2578726" size="301366" checksum="72d1b905ba2be48d711690b012856c79" sha256_checksum="a4433d5da5e62fdbede49efa572a53a0139fff1014ffbe86cb263e17cbb4a837" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/nps_chat.zip" />
+    <package id="omw" name="Open Multilingual Wordnet" author="Francis Bond" license="Please consult the LICENSE files included with the individual Wordnets. Note that all permit redistribution." copyright="Please consult the copyright statements of the individual Wordnets" webpage="https://omwn.org/" unzip="0" unzipped_size="50269427" size="12110409" checksum="8e2adf0627365f0c51a05807737a5e5c" sha256_checksum="e2cd473805b480b5448ae3f2c3e824978f2528dc1a95a14fe3072777a2f12519" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/omw.zip" />
+    <package id="omw-1.4" name="Open Multilingual Wordnet" author="Francis Bond" license="Please consult the LICENSE files included with the individual Wordnets. Note that all permit redistribution." copyright="Please consult the copyright statements of the individual Wordnets" webpage="https://omwn.org/" unzip="0" unzipped_size="96786003" size="26634772" checksum="e2acd8d3aa9c7c3dca4d8d4d169a29b8" sha256_checksum="3b941e664852f3297b6040236626065796a2aaf7d7f9eec8779a3beaa1096c2d" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/omw-1.4.zip" />
+    <package id="opinion_lexicon" name="Opinion Lexicon" author="Bing Liu" copyright="Copyright (C) 2011 Bing Liu" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" unzip="1" unzipped_size="67865" size="24947" checksum="43a521f055063e001845b9d484a50173" sha256_checksum="7a5da68d53016c5d1fca38f7dd81844cff73466371f90968d1ef15c85b873193" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/opinion_lexicon.zip" />
+    <package id="panlex_swadesh" name="PanLex Swadesh Corpora" author="Jonathan Pool (editor)" license="CC0 1.0 Universal" webpage="http://panlex.org/" unzip="0" unzipped_size="4418150" size="2861668" checksum="66dd080f09ac17db3d31bb4d667d0794" sha256_checksum="dc028da016ba7d5f9bcc39263b0c3dc27bd56025672b18ccaec4578833fe4dff" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/panlex_swadesh.zip" />
+    <package id="paradigms" name="Paradigm Corpus" author="Cathy Bow, University of Melbourne" license="Distributed with the permission of the author" unzip="1" unzipped_size="361186" size="24902" checksum="745ee9036c5ca3226be24c97515f5707" sha256_checksum="5875c44cd547b6a8fdde48f8f798fe45bcad7cb232a93ee5fae17fed130c9870" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/paradigms.zip" />
+    <package id="pe08" name="Cross-Framework and Cross-Domain Parser Evaluation Shared Task" version="Release 3 (20 April 2008)" webpage=" http://www-tsujii.is.s.u-tokyo.ac.jp/pe08-st/" license="Distributed with permission" unzip="1" unzipped_size="296619" size="80735" checksum="e72135042dc48772acad309a6adbb6f0" sha256_checksum="3a4aa7d07cf89afbc8894b9d2f68239ad8452d4e815ad4b3f5824f13425227dd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/pe08.zip" />
+    <package id="perluniprops" name="perluniprops: Index of Unicode Version 7.0.0 character properties in Perl" webpage="http://perldoc.perl.org/perluniprops.html" license="" unzip="1" unzipped_size="136038" size="100266" checksum="721ecf418efbfefb183d0559a7ef9f2d" sha256_checksum="57d54f591c4ed299b3cdf348eecf774ab2858f19e66955352d94ae555e2050ef" subdir="misc" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/misc/perluniprops.zip" />
+    <package id="pil" name="The Patient Information Leaflet (PIL) Corpus" version="Version 2.0 (31 March 2006)" webpage="http://mcs.open.ac.uk/nlg/old_projects/pills/corpus/" license="Distributed with permission" unzip="1" unzipped_size="4170899" size="1510205" checksum="d07b2ca7b5b351a24f4db8ae8fbc9e98" sha256_checksum="0538ee1d94de616004fd2434cf03840dffab5507cf8b56725b6ef82b572deb76" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/pil.zip" />
+    <package id="pl196x" name="Polish language of the XX century sixties" author="I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak" license="GNU General Public License" webpage="http://www.mimuw.edu.pl/polszczyzna/pl196x/index_en.htm" unzip="1" unzipped_size="58299303" size="7051453" checksum="bcbdcf0fc2420fac238ca17dc7bfe423" sha256_checksum="494a7ee616e13b0f798793a9af8da8445b3b83bc4aa3c6bb239967e6ce3cbbeb" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/pl196x.zip" />
+    <package id="porter_test" name="Porter Stemmer Test Files" unzip="1" unzipped_size="680060" size="200510" checksum="6af70bbc602aecd18aa0b9cfa7be2aa1" sha256_checksum="7760e1ae3a7a975d0b67f8afd9a0a53a29f94da73508b525d1b6e08205924669" subdir="stemmers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/stemmers/porter_test.zip" />
+    <package id="ppattach" name="Prepositional Phrase Attachment Corpus" author="Adwait Ratnaparkhi" webpage="ftp://ftp.cis.upenn.edu/pub/adwait/PPattachData/" copyright="(C) 1994 Adwait Ratnaparkhi" license="Distributed with the permission of the author." unzip="1" unzipped_size="3113650" size="781714" checksum="cce212b7ace8e64722ba2f41f802a5d0" sha256_checksum="ff27399cb353bc6a48ec7ed90f31e6f4c94f270662482b7db07ca0923adb5468" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/ppattach.zip" />
+    <package id="problem_reports" name="Problem Report Corpus" webpage="http://www.cs.cmu.edu/~marmalade/reports.html" author="Andrew Ko, Carnegie Mellon University" unzip="1" unzipped_size="3467763" size="1032942" checksum="8781ace4c0a181c5875cdbfc01e895fb" sha256_checksum="f9e691dcf5eed49827d892b1fc9eb6d73ca2cfa3d5c555fed316990ea6d15c8a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/problem_reports.zip" />
+    <package id="product_reviews_1" name="Product Reviews (5 Products)" author="Bing Liu" copyright="Copyright (C) 2004 Bing Liu" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" unzip="1" unzipped_size="396548" size="141287" checksum="c13be66052027a4605ca456d7cda0917" sha256_checksum="627bfb0bb7c87586246d99b4402c3d7e4fb77ac14559d8695c283bd6850615ac" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/product_reviews_1.zip" />
+    <package id="product_reviews_2" name="Product Reviews (9 Products)" author="Bing Liu" copyright="Copyright (C) 2007 Bing Liu" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" unzip="1" unzipped_size="438549" size="170698" checksum="522134e8b91086473299c3800c4adbae" sha256_checksum="272b08fe130882e5867aa7ecc69a65616099183c4ccc10374a62c271801b0bc1" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/product_reviews_2.zip" />
+    <package id="propbank" name="Proposition Bank Corpus 1.0" contact="Martha Palmer" webpage="http://verbs.colorado.edu/~mpalmer/projects/ace.html" license="Distributed with permission" unzip="0" unzipped_size="18831005" size="5323498" checksum="2397782c6e6f46c9657f85db8a5421f6" sha256_checksum="320eee3cd06a15b5daac578d494ae109dc2414d9ea941bf9cc514796b6b1547a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/propbank.zip" />
+    <package id="pros_cons" name="Pros and Cons" author="Bing Liu" copyright="Copyright (C) 2008 Bing Liu" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets" unzip="1" unzipped_size="2921218" size="746276" checksum="c4c7e61fb4d57a2f6c95317194da0f17" sha256_checksum="b5bca541ba5b2e614cde2213ddcca027416f6997067c90e45c173bf55c6fade8" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/pros_cons.zip" />
+    <package id="ptb" name="Penn Treebank" copyright="Copyright (C) 1995 University of Pennsylvania" license="This is a stub for the full Penn Treebank Corpus version 3." unzip="1" unzipped_size="63036" size="6289" checksum="7b633a1b7770279eab00bc1108769c67" sha256_checksum="f73b6a584bc7907cdd694d0661655a2e76a82ca74dc9bdae757236918d416bf7" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/ptb.zip" />
+    <package id="punkt" name="Punkt Tokenizer Models" author="Jan Strunk" languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Malayalam, Norwegian, Polish, Portuguese, Russian, Slovene, Spanish, Swedish, Turkish" unzip="1" unzipped_size="37245719" size="13905355" checksum="8dd1d8760a0976f96e5c262decd75165" sha256_checksum="51c3078994aeaf650bfc8e028be4fb42b4a0d177d41c012b6a983979653660ec" subdir="tokenizers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip" />
+    <package id="punkt_tab" name="Punkt Tokenizer Models" author="Jan Strunk" languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Malayalam, Norwegian, Polish, Portuguese, Russian, Slovene, Spanish, Swedish, Turkish" unzip="1" unzipped_size="10885330" size="4319076" checksum="27ea9ee08fe27fe4484e4c5585cce748" sha256_checksum="e57f64187974277726a3417ca6f181ec5403676c717672eef6a748a7b20e0106" subdir="tokenizers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt_tab.zip" />
+    <package id="qc" name="Experimental Data for Question Classification" author="Xin Li and Dan Roth, UIUC" webpage="http://l2r.cs.uiuc.edu/~cogcomp/Data/QA/QC/" unzip="1" unzipped_size="361090" size="125456" checksum="afd4145ac31cb8d7db715974b9b8b57a" sha256_checksum="091fb01e50883014d150acb7d5013d787136968b3f955ae01725a65e7e80f304" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/qc.zip" />
+    <package id="reuters" name="The Reuters-21578 benchmark corpus, ApteMod version" webpage="http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html" license="The copyright for the text of newswire articles and Reuters annotations in the Reuters-21578 collection resides with Reuters Ltd. Reuters Ltd. and Carnegie Group, Inc. have agreed to allow the free distribution of this data *for research purposes only*.  If you publish results based on this data set, please acknowledge its use, refer to the data set by the name 'Reuters-21578, Distribution 1.0', and inform your readers of the current location of the data set." unzip="0" unzipped_size="9073648" size="6378691" checksum="c2acb24d5cccf8035e0fe8d29f440a68" sha256_checksum="9a59a43823f02a6e2777075c989a3dc454e4b6f68e0332ee3c0e8264075b62f5" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/reuters.zip" />
+    <package id="rslp" name="RSLP Stemmer (Removedor de Sufixos da Lingua Portuguesa)" author="Viviane Moreira Orengo (vmorengo@inf.ufrgs.br) and Christian Huyck" languages="Portuguese" unzip="1" unzipped_size="7269" size="3805" checksum="648798996224694251834699fa6e55f7" sha256_checksum="f482f9666a2a76cdd4acab16b01a44b002550ebaac29906dbd5a1bbc281e4f8b" subdir="stemmers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/stemmers/rslp.zip" />
+    <package id="rte" name="PASCAL RTE Challenges 1, 2, and 3" webpage="http://www.pascal-network.org/Challenges/RTE/" unzip="1" unzipped_size="1279930" size="386303" checksum="ca21663daa326a3bb53001c3d82e62d6" sha256_checksum="2f806ead4d53171601254747c3b7c97d758e63a6ef54e3c010a6d62885ab214a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/rte.zip" />
+    <package id="sample_grammars" name="Sample Grammars" author="" languages="English" unzip="1" unzipped_size="61718" size="20293" checksum="c4a2a01345d1e61c8febd8d498c5d2d6" sha256_checksum="8c3e4fecdc47ef1d262401eda08bde995cf4ed912a7934a32905263485240872" subdir="grammars" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/grammars/sample_grammars.zip" />
+    <package id="semcor" name="SemCor 3.0" author="Rada Mihalcea (rada@cs.unt.edu)" webpage="http://www.cse.unt.edu/~rada/downloads.html#semcor" license="You are granted permission to use, copy, modify and distribute this database for any purpose and without fee and royalty is hereby granted, provided that you agree to comply with the Princeton copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the database, including modifications that you make for internal use or for distribution.  See semcor/README for more information." unzip="0" unzipped_size="37425596" size="4397021" checksum="46c095f0ab7090132567f87252af724f" sha256_checksum="126fa2e829ab63edd5b3fd9de45ef1d60d6880e01e25abc55b5ac7918a824655" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/semcor.zip" />
+    <package id="senseval" name="SENSEVAL 2 Corpus: Sense Tagged Text" contact="Ted Pedersen (tpederse@umn.edu)" license="Distributed with permission." webpage="http://www.senseval.org/" unzip="1" unzipped_size="16463075" size="2151350" checksum="bfc6a33c62ddc2ec24b02701a2f364ff" sha256_checksum="fbcb658b562969e47a19a45e04c452d874755d157db936d815ca391ca88bfdea" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/senseval.zip" />
+    <package id="sentence_polarity" name="Sentence Polarity Dataset v1.0" author="Bo Pang and Lillian Lee" copyright="Copyright (C) 2005 Bo Pang and Lillian Lee" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage="http://www.cs.cornell.edu/People/pabo/people/pabo/movie-review-data" unzip="1" unzipped_size="1241127" size="490256" checksum="5cdc0cae7f558040d050c90eb2b72e97" sha256_checksum="6e1ed4405b65c7eabf1d199a7f7c437091ac21da0ea7467b410a74062574566b" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/sentence_polarity.zip" />
+    <package id="sentiwordnet" name="SentiWordNet" copyright="Copyright (C) 2013 SentiWordNet Project" author="Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani" license="Creative Commons Attribution ShareAlike 3.0 Unported license" webpage="http://sentiwordnet.isti.cnr.it/" unzip="1" unzipped_size="13591402" size="4686546" checksum="5043f00829b7db4dd5f21507e092b76a" sha256_checksum="b66876a17aaeb4c7c7c8d2f5bb2cf91fde16e1b76e2421e5480fedd17ad248c1" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/sentiwordnet.zip" />
+    <package id="shakespeare" name="Shakespeare XML Corpus Sample" license="public domain" copyright="public domain" webpage="http://www.andrew.cmu.edu/user/akj/shakespeare/" sample="True" unzip="1" unzipped_size="1727210" size="475458" checksum="2332b32a7d83d657092ba4667c2c84c3" sha256_checksum="f1251d8c254710363254ba29c9dc0888d5cb13d5ac736ebc6fb14380f447cfc3" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/shakespeare.zip" />
+    <package id="sinica_treebank" name="Sinica Treebank Corpus Sample" webpage="http://rocling.iis.sinica.edu.tw/CKIP/engversion/treebank.htm" license="Distributed with the Natural Language Toolkit under the terms of the Creative Commons Attribution-NonCommercial-ShareAlike License [http://creativecommons.org/licenses/by-nc-sa/2.5/]." sample="True" unzip="1" unzipped_size="3293083" size="906706" checksum="979a905010d475a74475064211cd63c8" sha256_checksum="395958a28f06d92ce1de0f0cf1bb17dc4a5cc882d27487447252ad615641e9ba" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/sinica_treebank.zip" />
+    <package id="smultron" name="SMULTRON Corpus Sample" author="Sofia Gustafson-Capkova, Yvonne Samuelsson, and Martin Volk" webpage="http://www.ling.su.se/DaLi/research/smultron/index.htm" unzip="1" unzipped_size="1677647" size="166207" checksum="8743ff232d76aaf2ff8a10523503a659" sha256_checksum="6748fb331f7b06dd529617590277414a8d3b65291f68367d8b04615cf621702c" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/smultron.zip" />
+    <package id="snowball_data" name="Snowball Data" languages="Danish, Dutch, English, Finnish, French, German,          Hungarian, Italian, Norwegian, Portuguese, Romanian, Russian,          Spanish, Swedish, Turkish" webpage="https://github.com/snowballstem/snowball-data" unzip="0" unzipped_size="36360836" size="6785405" checksum="cba1cf17b887789e6df5f2c87c6e56fb" sha256_checksum="e8a05c19890f8651df2b958b0f6e318d4476b8a500e26ed63f89077aed0585a2" subdir="stemmers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/stemmers/snowball_data.zip" />
+    <package id="spanish_grammars" name="Grammars for Spanish" author="Kepa Sarasola" languages="Spanish" unzip="1" unzipped_size="3980" size="4047" checksum="12f66b8e22beadd6ed202e95453465af" sha256_checksum="4207035d8795d37000c06391d97b068ae470a43db697d96473018f392552b742" subdir="grammars" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/grammars/spanish_grammars.zip" />
+    <package id="state_union" name="C-Span State of the Union Address Corpus" webpage="http://www.c-span.org/executive/stateoftheunion.asp" copyright="public domain" license="public domain" unzip="1" unzipped_size="2073917" size="808757" checksum="044f2d20c592b17a26ac0102111833c9" sha256_checksum="366c1dc82b2abf896f42b2ec50ba802a0141a29f75d29ca48a7a243ce5bfbe8d" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/state_union.zip" />
+    <package id="stopwords" name="Stopwords Corpus" webpage="ftp://ftp.cs.cornell.edu/pub/smart/english.stop and http://snowball.tartarus.org/ and others" unzip="1" unzipped_size="89446" size="37733" checksum="16da2726eaacf9c9982f68b054445604" sha256_checksum="48c0e52d8b52546e827f53761fb30300c0ab94f70660d28bd65ba0a86270946b" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip" />
+    <package id="subjectivity" name="Subjectivity Dataset v1.0" author="Bo Pang and Lillian Lee" copyright="Copyright (C) 2004 Bo Pang and Lillian Lee" license="Creative Commons Attribution 4.0 International" licenseurl="http://creativecommons.org/licenses/by/4.0/" webpage=" http://www.cs.cornell.edu/People/pabo/people/pabo/movie-review-data" unzip="1" unzipped_size="1303352" size="521628" checksum="a81a44513903ba6bb86f85aeff149561" sha256_checksum="741f3371e1a4375051b874fd82fd55857b90975473c91c19a3101cbe17fc4d8c" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/subjectivity.zip" />
+    <package id="swadesh" name="Swadesh Wordlists" webpage="http://en.wiktionary.org/wiki/Appendix:Swadesh_list" license="GNU Free Documentation License" unzip="1" unzipped_size="39998" size="22828" checksum="6612ccb71f327e85780dc7813dee40f6" sha256_checksum="0b69919501a098f25d2abad9edb84689e1ed44915ca1c65c7832d2bf9d1de3b9" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/swadesh.zip" />
+    <package id="switchboard" name="Switchboard Corpus Sample" sample="True" license="Permission is granted for use of this material in accordance with the Open Content License [http://opencontent.org/opl.shtml].  This corpus contains transcripts and annotations for 36 calls from the Switchboard Corpus [http://www.ldc.upenn.edu/Catalog/LDC93S7.html]." unzip="1" unzipped_size="2541179" size="791161" checksum="878df010a9f2c2d0a6546a8365f10595" sha256_checksum="6a1a22b659e2fe616129addab0e7967335e67c7dae6a6e63be10778dd0455d06" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/switchboard.zip" />
+    <package id="tagsets" name="Help on Tagsets" author="UCREL, Lancaster University" languages="English" unzip="1" unzipped_size="79723" size="34531" checksum="e15834e0dd89b107925af6bb11a8eaa4" sha256_checksum="e44c8ffd7e8759064573e8d4ae837dbb4b15ec68b2ca02cdf6a513dab8b12ca4" subdir="help" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/help/tagsets.zip" />
+    <package id="tagsets_json" name="Help on Tagsets (JSON)" author="UCREL, Lancaster University" languages="English" unzip="1" unzipped_size="33915" size="13239" checksum="d24a59844f8bead484652330ae7c9abd" sha256_checksum="6b80fb9ed475e4e811fbd4429100313844988cf7a8ab36728bcc75cecc8220f0" subdir="help" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/help/tagsets_json.zip" />
+    <package id="timit" name="TIMIT Corpus Sample" sample="True" license="This corpus sample is Copyright 1993 Linguistic Data Consortium, and is distributed under the terms of the Creative Commons Attribution, Non-Commercial, ShareAlike license.  http://creativecommons.org/" webpage="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1" unzip="1" unzipped_size="31932925" size="22251869" checksum="34c047c4749a811287f2c652104d7849" sha256_checksum="666c6650fb054001e2e1d9aa9b1889fc46629a0081ced7049686c2a598326668" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/timit.zip" />
+    <package id="toolbox" name="Toolbox Sample Files" unzip="1" unzipped_size="829593" size="250616" checksum="26657c1b8b5f5afdc3d5d754393a9216" sha256_checksum="f57d06b30360c5f52cc05c29e75b083eb23981416cce718206c80da0e931592e" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/toolbox.zip" />
+    <package id="treebank" name="Penn Treebank Sample" sample="True" copyright="Copyright (C) 1995 University of Pennsylvania" license="This is a 10% fragment of Penn Treebank, (C) LDC 1995.  It is made available under fair use for the purposes of illustrating NLTK tools for tokenizing, tagging, chunking and parsing.  This data is for non-commercial use only." unzip="1" unzipped_size="5963497" size="1740034" checksum="78c24a97940c2504d0ad35dd3f8a560b" sha256_checksum="9da92d76c3666cfb6cddeaed0f7e86b344cce0f0928a286d439e555f19c37399" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/treebank.zip" />
+    <package id="twitter_samples" name="Twitter Samples" copyright="Copyright (C) 2015 Twitter, Inc" license="Must be used subject to Twitter Developer Agreement     (https://dev.twitter.com/overview/terms/agreement)" note="Sample of Tweets collected from the Twitter APIs,         observing the 50k limit required by https://dev.twitter.com/overview/terms/policy#6._Be_a_Good_Partner_to_Twitter " unzip="1" unzipped_size="122350791" size="16007673" checksum="02fc79b5adc0357bc1e14747246fd3c1" sha256_checksum="aac71c20e1e05003b7812321936c5635dfede61902aca2b94419a1124979c6dd" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/twitter_samples.zip" />
+    <package id="udhr" name="Universal Declaration of Human Rights Corpus" webpage="http://www.un.org/Overview/rights.html" license="public domain" copyright="public domain" unzip="1" unzipped_size="3261577" size="1170177" checksum="745b3a90feb25c95fc805ebbd1ef5258" sha256_checksum="97e4c9dfa4a402f243d60b03d511afb04cf63f92f9ad1be9108b511448c329fa" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/udhr.zip" />
+    <package id="udhr2" name="Universal Declaration of Human Rights Corpus (Unicode Version)" webpage="http://unicode.org/udhr/" license="public domain" copyright="public domain" unzip="1" unzipped_size="5677920" size="1653975" checksum="e604482d2dc8dd2580af7d97c1bf0a80" sha256_checksum="0796c314b09a930c989c6f9d93d226af9af13feccd88496e196c743dd266c7f3" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/udhr2.zip" />
+    <package id="unicode_samples" name="Unicode Samples" note="A very small corpus used to demonstrate unicode encoding in chapter 10 of the book" unzip="1" unzipped_size="643" size="1212" checksum="d46699450dd2287f5c115d8c1a0819f1" sha256_checksum="9f8e483e02aa29319648c794942ccd4b13c1029322907138b6fa662315e2d845" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/unicode_samples.zip" />
+    <package id="universal_tagset" name="Mappings to the Universal Part-of-Speech Tagset" author="Slav Petrov" license="CC-BY-SA-4.0" webpage="https://github.com/slavpetrov/universal-pos-tags" unzip="1" unzipped_size="37147" size="19095" checksum="ba5a69f2148a8cea6fb5084585e20890" sha256_checksum="d490e1ae8f5625dcdfdda04be15c22a2aade8c2561a36a61edcdf0c7d6aa8352" subdir="taggers" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/taggers/universal_tagset.zip" />
+    <package id="universal_treebanks_v20" name="Universal Treebanks Version 2.0" license="Creative Commons Attribution-NonCommercial-ShareAlike 3.0 United States" webpage="https://code.google.com/p/uni-dep-tb/" unzip="0" unzipped_size="119113962" size="25908853" checksum="4acd3991768a727be019a8021fe376d2" sha256_checksum="7132fdee74f85cb908558ffa3a6dac5c1f3762d4095a316990eb19a647421d8a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/universal_treebanks_v20.zip" />
+    <package id="vader_lexicon" name="VADER Sentiment Lexicon" author="C.J. Hutto and Eric Gilbert" webpage="https://github.com/cjhutto/vaderSentiment" license="MIT License" unzip="0" unzipped_size="434147" size="90486" checksum="8b3824e2c39b655dd225fb266c8bea53" sha256_checksum="8adba4294eef3964d820bf655e37e61bdc3a341994356af59b74fb3b4a36ce5c" subdir="sentiment" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/sentiment/vader_lexicon.zip" />
+    <package id="verbnet" name="VerbNet Lexicon, Version 2.1" version="2.1" author="Karin Kipper-Schuler" webpage="https://verbs.colorado.edu/verbnet/" license="Distributed with permission of the author." unzip="1" unzipped_size="2474526" size="323661" checksum="427dac60e4a94ae910248ccd9986a22a" sha256_checksum="6bc3620a6dc1c50aec46a97e5ddb51e64c015b9f7d37246805c5f8acfd6d172d" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/verbnet.zip" />
+    <package id="verbnet3" name="VerbNet Lexicon, Version 3.3" version="3.3" author="Karin Kipper-Schuler" webpage="https://verbs.colorado.edu/verbnet/" license="Distributed with permission of the author." unzip="1" unzipped_size="3723345" size="482025" checksum="60efc5ed90ab8a18ef4a436e4c39ffbf" sha256_checksum="fa0136a7699c52f0bd532dc5adc0914745aa4369a52ae1465cb11841060ec1de" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/verbnet3.zip" />
+    <package id="webtext" name="Web Text Corpus" unzip="1" unzipped_size="1726918" size="646297" checksum="6c7680030aae5c997b1370f832545c6a" sha256_checksum="9e32dbae4879464b8f420a0dc721855bb26167b720d7695588d2ca2aeadf501a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/webtext.zip" />
+    <package id="wmt15_eval" name="Evaluation data from WMT15" webpage="http://www.statmt.org/wmt15/" unzip="1" unzipped_size="1247631" size="383096" checksum="2067e40eaf94ccb632007b91073aa433" sha256_checksum="56ea67e320f75be1abdee60b9d57aef1bd50324edd176e11c3c40f451043c80e" subdir="models" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/wmt15_eval.zip" />
+    <package id="word2vec_sample" name="Word2Vec Sample" webpage="https://code.google.com/p/word2vec/" unzip="1" unzipped_size="138432415" size="49396025" checksum="d1d1a23377f9ab4c12d77c7a078318ac" sha256_checksum="d29ff84a6ceca407f8578648568c55894dac34641ceb1fa02f920264fe326b43" subdir="models" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/word2vec_sample.zip" />
+    <package id="wordnet" name="WordNet" version="3.0" license="Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license]" copyright="WordNet 3.0 Copyright 2006 by Princeton University.  All rights reserved." webpage="http://wordnet.princeton.edu/" unzip="0" unzipped_size="36353991" size="10775600" checksum="b3f38606f626e54c6f060548546f71f0" sha256_checksum="cbda5ea6eef7f36a97a43d4a75f85e07fccbb4f23657d27b4ccbc93e2646ab59" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet.zip" />
+    <package id="wordnet2021" name="Open English Wordnet 2021" version="2021" license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team." copyright="Open English Wordnet 2021 Copyright 2021 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved." webpage="https://en-word.net/" unzip="0" unzipped_size="38408913" size="11332750" checksum="99da08a34df218457c3233d6a3dd31b8" sha256_checksum="d7ef7d289da4dd0f33f07d9745856adc74689a53a8fa9be5dcfd3c87c5da24db" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet2021.zip" />
+    <package id="wordnet2022" name="Open English Wordnet 2022" version="2022" license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team." copyright="Open English Wordnet 2022 Copyright 2022 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved." webpage="https://en-word.net/" unzip="1" unzipped_size="38474234" size="11353460" checksum="0b17803d0d8b85ad25b5037af83d6a1c" sha256_checksum="5ccbb3382b9d147d4acac12645b3d6f375d1f5e4cd037fedadef74d069a8ee3f" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet2022.zip" />
+    <package id="wordnet31" name="Wordnet 3.1" version="3.1" license="Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license]" copyright="WordNet 3.1 Copyright 2011 by Princeton University.  All rights reserved." webpage="http://wordnet.princeton.edu/" unzip="0" unzipped_size="37411975" size="11058667" checksum="d3392d6facef35433ffcef838b47cae1" sha256_checksum="2a9e7da7d0c17ad875e4171a4d28ae17ab6969c7d67f1cf0f59d65c66d0fdd37" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet31.zip" />
+    <package id="wordnet_ic" name="WordNet-InfoContent" version="3.0" webpage="http://wn-similarity.sourceforge.net" unzip="1" unzipped_size="34220359" size="12056682" checksum="25f0185b31693fa11ea898e4feda528c" sha256_checksum="a931b34bb9013ac3c1291f64c812fd039802995a2b1246b8f7525e82080110e3" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet_ic.zip" />
+    <package id="words" name="Word Lists" webpage="http://en.wikipedia.org/wiki/Words_(Unix)" license="public domain" copyright="public domain" unzip="1" unzipped_size="2498552" size="757777" checksum="8594d9d5422e01d993dfbbc3f38d3ae5" sha256_checksum="54ed02917d6771dcc3e8141218960d020947f7f2ccfd9ac9b320979349746015" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/words.zip" />
+    <package id="ycoe" name="York-Toronto-Helsinki Parsed Corpus of Old English Prose" webpage="http://www.ota.ahds.ac.uk/" available="False" unzip="1" unzipped_size="277" size="477" checksum="6582cd98ca26c35d9c4eaaa4350ce8f3" sha256_checksum="e402fa937d6a0b4603495e79f91af02c3f192977e6f15cc5ed5962b5d3673d9a" subdir="corpora" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/ycoe.zip" />
   </packages>
   <collections>
-    <collection id="all-corpora" name="All the corpora">
+    <collection id="all" name="All packages">
       <item ref="abc" />
       <item ref="alpino" />
+      <item ref="averaged_perceptron_tagger" />
+      <item ref="averaged_perceptron_tagger_eng" />
+      <item ref="averaged_perceptron_tagger_ru" />
+      <item ref="averaged_perceptron_tagger_rus" />
+      <item ref="basque_grammars" />
+      <item ref="bcp47" />
       <item ref="biocreative_ppi" />
+      <item ref="bllip_wsj_no_aux" />
+      <item ref="book_grammars" />
       <item ref="brown" />
       <item ref="brown_tei" />
       <item ref="cess_cat" />
@@ -113,14 +144,20 @@
       <item ref="chat80" />
       <item ref="city_database" />
       <item ref="cmudict" />
+      <item ref="comparative_sentences" />
       <item ref="comtrans" />
       <item ref="conll2000" />
       <item ref="conll2002" />
       <item ref="conll2007" />
       <item ref="crubadan" />
       <item ref="dependency_treebank" />
+      <item ref="dolch" />
+      <item ref="english_wordnet" />
+      <item ref="europarl_raw" />
+      <item ref="extended_omw" />
       <item ref="floresta" />
       <item ref="framenet_v15" />
+      <item ref="framenet_v17" />
       <item ref="gazetteers" />
       <item ref="genesis" />
       <item ref="gutenberg" />
@@ -130,54 +167,91 @@
       <item ref="jeita" />
       <item ref="kimmo" />
       <item ref="knbc" />
+      <item ref="large_grammars" />
       <item ref="lin_thesaurus" />
       <item ref="mac_morpho" />
       <item ref="machado" />
       <item ref="masc_tagged" />
+      <item ref="maxent_ne_chunker" />
+      <item ref="maxent_ne_chunker_tab" />
+      <item ref="maxent_treebank_pos_tagger" />
+      <item ref="maxent_treebank_pos_tagger_tab" />
+      <item ref="mock_corpus" />
+      <item ref="moses_sample" />
       <item ref="movie_reviews" />
+      <item ref="mte_teip5" />
+      <item ref="mwa_ppdb" />
       <item ref="names" />
       <item ref="nombank.1.0" />
+      <item ref="nonbreaking_prefixes" />
       <item ref="nps_chat" />
-      <item ref="oanc_masc" />
       <item ref="omw" />
+      <item ref="omw-1.4" />
+      <item ref="opinion_lexicon" />
+      <item ref="panlex_swadesh" />
       <item ref="paradigms" />
+      <item ref="pe08" />
+      <item ref="perluniprops" />
       <item ref="pil" />
       <item ref="pl196x" />
+      <item ref="porter_test" />
       <item ref="ppattach" />
       <item ref="problem_reports" />
+      <item ref="product_reviews_1" />
+      <item ref="product_reviews_2" />
       <item ref="propbank" />
+      <item ref="pros_cons" />
       <item ref="ptb" />
+      <item ref="punkt" />
+      <item ref="punkt_tab" />
       <item ref="qc" />
       <item ref="reuters" />
+      <item ref="rslp" />
       <item ref="rte" />
+      <item ref="sample_grammars" />
       <item ref="semcor" />
       <item ref="senseval" />
+      <item ref="sentence_polarity" />
       <item ref="sentiwordnet" />
       <item ref="shakespeare" />
       <item ref="sinica_treebank" />
+      <item ref="smultron" />
+      <item ref="snowball_data" />
+      <item ref="spanish_grammars" />
       <item ref="state_union" />
       <item ref="stopwords" />
+      <item ref="subjectivity" />
       <item ref="swadesh" />
       <item ref="switchboard" />
+      <item ref="tagsets" />
+      <item ref="tagsets_json" />
       <item ref="timit" />
       <item ref="toolbox" />
       <item ref="treebank" />
+      <item ref="twitter_samples" />
       <item ref="udhr" />
       <item ref="udhr2" />
       <item ref="unicode_samples" />
+      <item ref="universal_tagset" />
       <item ref="universal_treebanks_v20" />
+      <item ref="vader_lexicon" />
       <item ref="verbnet" />
+      <item ref="verbnet3" />
       <item ref="webtext" />
+      <item ref="wmt15_eval" />
+      <item ref="word2vec_sample" />
       <item ref="wordnet" />
+      <item ref="wordnet2021" />
+      <item ref="wordnet2022" />
+      <item ref="wordnet31" />
       <item ref="wordnet_ic" />
       <item ref="words" />
       <item ref="ycoe" />
-      <item ref="panlex_swadesh" />
-      <item ref="mte_teip5" />
     </collection>
-    <collection id="all" name="All packages">
+    <collection id="all-corpora" name="All the corpora">
       <item ref="abc" />
       <item ref="alpino" />
+      <item ref="bcp47" />
       <item ref="biocreative_ppi" />
       <item ref="brown" />
       <item ref="brown_tei" />
@@ -193,9 +267,13 @@
       <item ref="conll2007" />
       <item ref="crubadan" />
       <item ref="dependency_treebank" />
+      <item ref="dolch" />
+      <item ref="english_wordnet" />
       <item ref="europarl_raw" />
+      <item ref="extended_omw" />
       <item ref="floresta" />
       <item ref="framenet_v15" />
+      <item ref="framenet_v17" />
       <item ref="gazetteers" />
       <item ref="genesis" />
       <item ref="gutenberg" />
@@ -209,32 +287,35 @@
       <item ref="mac_morpho" />
       <item ref="machado" />
       <item ref="masc_tagged" />
-      <item ref="moses_sample" />
+      <item ref="mock_corpus" />
       <item ref="movie_reviews" />
+      <item ref="mte_teip5" />
       <item ref="names" />
       <item ref="nombank.1.0" />
+      <item ref="nonbreaking_prefixes" />
       <item ref="nps_chat" />
-      <item ref="oanc_masc" />
       <item ref="omw" />
+      <item ref="omw-1.4" />
       <item ref="opinion_lexicon" />
+      <item ref="panlex_swadesh" />
       <item ref="paradigms" />
+      <item ref="pe08" />
       <item ref="pil" />
       <item ref="pl196x" />
       <item ref="ppattach" />
       <item ref="problem_reports" />
-      <item ref="propbank" />
-      <item ref="ptb" />
-      <item ref="oanc_masc" />
       <item ref="product_reviews_1" />
       <item ref="product_reviews_2" />
+      <item ref="propbank" />
       <item ref="pros_cons" />
+      <item ref="ptb" />
       <item ref="qc" />
       <item ref="reuters" />
       <item ref="rte" />
       <item ref="semcor" />
       <item ref="senseval" />
-      <item ref="sentiwordnet" />
       <item ref="sentence_polarity" />
+      <item ref="sentiwordnet" />
       <item ref="shakespeare" />
       <item ref="sinica_treebank" />
       <item ref="smultron" />
@@ -252,28 +333,138 @@
       <item ref="unicode_samples" />
       <item ref="universal_treebanks_v20" />
       <item ref="verbnet" />
+      <item ref="verbnet3" />
       <item ref="webtext" />
       <item ref="wordnet" />
+      <item ref="wordnet2021" />
+      <item ref="wordnet2022" />
+      <item ref="wordnet31" />
       <item ref="wordnet_ic" />
       <item ref="words" />
       <item ref="ycoe" />
-      <item ref="rslp" />
-      <item ref="hmm_treebank_pos_tagger" />
-      <item ref="maxent_treebank_pos_tagger" />
-      <item ref="universal_tagset" />
+    </collection>
+    <collection id="all-nltk" name="All packages available on nltk_data gh-pages branch">
+      <item ref="abc" />
+      <item ref="alpino" />
+      <item ref="averaged_perceptron_tagger" />
+      <item ref="averaged_perceptron_tagger_eng" />
+      <item ref="averaged_perceptron_tagger_ru" />
+      <item ref="averaged_perceptron_tagger_rus" />
+      <item ref="basque_grammars" />
+      <item ref="bcp47" />
+      <item ref="biocreative_ppi" />
+      <item ref="bllip_wsj_no_aux" />
+      <item ref="book_grammars" />
+      <item ref="brown" />
+      <item ref="brown_tei" />
+      <item ref="cess_cat" />
+      <item ref="cess_esp" />
+      <item ref="chat80" />
+      <item ref="city_database" />
+      <item ref="cmudict" />
+      <item ref="comparative_sentences" />
+      <item ref="comtrans" />
+      <item ref="conll2000" />
+      <item ref="conll2002" />
+      <item ref="conll2007" />
+      <item ref="crubadan" />
+      <item ref="dependency_treebank" />
+      <item ref="dolch" />
+      <item ref="english_wordnet" />
+      <item ref="europarl_raw" />
+      <item ref="extended_omw" />
+      <item ref="floresta" />
+      <item ref="framenet_v15" />
+      <item ref="framenet_v17" />
+      <item ref="gazetteers" />
+      <item ref="genesis" />
+      <item ref="gutenberg" />
+      <item ref="ieer" />
+      <item ref="inaugural" />
+      <item ref="indian" />
+      <item ref="jeita" />
+      <item ref="kimmo" />
+      <item ref="knbc" />
+      <item ref="large_grammars" />
+      <item ref="lin_thesaurus" />
+      <item ref="mac_morpho" />
+      <item ref="machado" />
+      <item ref="masc_tagged" />
       <item ref="maxent_ne_chunker" />
+      <item ref="maxent_ne_chunker_tab" />
+      <item ref="maxent_treebank_pos_tagger" />
+      <item ref="maxent_treebank_pos_tagger_tab" />
+      <item ref="mock_corpus" />
+      <item ref="moses_sample" />
+      <item ref="movie_reviews" />
+      <item ref="mte_teip5" />
+      <item ref="mwa_ppdb" />
+      <item ref="names" />
+      <item ref="nombank.1.0" />
+      <item ref="nonbreaking_prefixes" />
+      <item ref="nps_chat" />
+      <item ref="omw" />
+      <item ref="omw-1.4" />
+      <item ref="opinion_lexicon" />
+      <item ref="panlex_swadesh" />
+      <item ref="paradigms" />
+      <item ref="pe08" />
+      <item ref="perluniprops" />
+      <item ref="pil" />
+      <item ref="pl196x" />
+      <item ref="porter_test" />
+      <item ref="ppattach" />
+      <item ref="problem_reports" />
+      <item ref="product_reviews_1" />
+      <item ref="product_reviews_2" />
+      <item ref="propbank" />
+      <item ref="pros_cons" />
+      <item ref="ptb" />
       <item ref="punkt" />
-      <item ref="book_grammars" />
+      <item ref="punkt_tab" />
+      <item ref="qc" />
+      <item ref="reuters" />
+      <item ref="rslp" />
+      <item ref="rte" />
       <item ref="sample_grammars" />
+      <item ref="semcor" />
+      <item ref="senseval" />
+      <item ref="sentence_polarity" />
+      <item ref="sentiwordnet" />
+      <item ref="shakespeare" />
+      <item ref="sinica_treebank" />
+      <item ref="smultron" />
+      <item ref="snowball_data" />
       <item ref="spanish_grammars" />
-      <item ref="basque_grammars" />
-      <item ref="large_grammars" />
+      <item ref="state_union" />
+      <item ref="stopwords" />
+      <item ref="subjectivity" />
+      <item ref="swadesh" />
+      <item ref="switchboard" />
       <item ref="tagsets" />
-      <item ref="snowball_data" />
-      <item ref="bllip_wsj_no_aux" />
+      <item ref="tagsets_json" />
+      <item ref="timit" />
+      <item ref="toolbox" />
+      <item ref="treebank" />
+      <item ref="twitter_samples" />
+      <item ref="udhr" />
+      <item ref="udhr2" />
+      <item ref="unicode_samples" />
+      <item ref="universal_tagset" />
+      <item ref="universal_treebanks_v20" />
+      <item ref="vader_lexicon" />
+      <item ref="verbnet" />
+      <item ref="verbnet3" />
+      <item ref="webtext" />
+      <item ref="wmt15_eval" />
       <item ref="word2vec_sample" />
-      <item ref="panlex_swadesh" />
-      <item ref="mte_teip5" />
+      <item ref="wordnet" />
+      <item ref="wordnet2021" />
+      <item ref="wordnet2022" />
+      <item ref="wordnet31" />
+      <item ref="wordnet_ic" />
+      <item ref="words" />
+      <item ref="ycoe" />
     </collection>
     <collection id="book" name="Everything used in the NLTK Book">
       <item ref="abc" />
@@ -314,6 +505,55 @@
       <item ref="city_database" />
       <item ref="tagsets" />
       <item ref="panlex_swadesh" />
+      <item ref="averaged_perceptron_tagger" />
+    </collection>
+    <collection id="popular" name="Popular packages">
+      <item ref="cmudict" />
+      <item ref="gazetteers" />
+      <item ref="genesis" />
+      <item ref="gutenberg" />
+      <item ref="inaugural" />
+      <item ref="movie_reviews" />
+      <item ref="names" />
+      <item ref="shakespeare" />
+      <item ref="stopwords" />
+      <item ref="treebank" />
+      <item ref="twitter_samples" />
+      <item ref="omw" />
+      <item ref="omw-1.4" />
+      <item ref="wordnet" />
+      <item ref="wordnet2021" />
+      <item ref="wordnet31" />
+      <item ref="wordnet_ic" />
+      <item ref="words" />
+      <item ref="maxent_ne_chunker" />
+      <item ref="punkt" />
+      <item ref="snowball_data" />
+      <item ref="averaged_perceptron_tagger" />
+    </collection>
+    <collection id="tests" name="Packages for running tests">
+      <item ref="averaged_perceptron_tagger" />
+      <item ref="porter_test" />
+      <item ref="twitter_samples" />
+      <item ref="wmt15_eval" />
+      <item ref="subjectivity" />
+      <item ref="framenet_v17" />
+      <item ref="product_reviews_1" />
+      <item ref="product_reviews_2" />
+      <item ref="vader_lexicon" />
+      <item ref="crubadan" />
+      <item ref="mte_teip5" />
+      <item ref="sentence_polarity" />
+      <item ref="universal_treebanks_v20" />
+      <item ref="panlex_swadesh" />
+      <item ref="nonbreaking_prefixes" />
+      <item ref="perluniprops" />
+      <item ref="pros_cons" />
+      <item ref="opinion_lexicon" />
+      <item ref="comparative_sentences" />
+    </collection>
+    <collection id="third-party" name="Third-party data packages">
+      <item ref="dolch" />
     </collection>
   </collections>
-</nltk_data>
\ No newline at end of file
+</nltk_data>
diff --git a/packages/chunkers/maxent_ne_chunker_tab.xml b/packages/chunkers/maxent_ne_chunker_tab.xml
new file mode 100644
index 0000000..14f7d2d
--- /dev/null
+++ b/packages/chunkers/maxent_ne_chunker_tab.xml
@@ -0,0 +1,5 @@
+<package id='maxent_ne_chunker_tab'
+         name='ACE Named Entity Chunker (Maximum entropy)'
+         languages="English"
+         unzip="1"
+         />
diff --git a/packages/chunkers/maxent_ne_chunker_tab.zip b/packages/chunkers/maxent_ne_chunker_tab.zip
new file mode 100644
index 0000000..1dfcfa0
Binary files /dev/null and b/packages/chunkers/maxent_ne_chunker_tab.zip differ
diff --git a/packages/chunkers/muc6.chunk.tagger.pickle.gz b/packages/chunkers/muc6.chunk.tagger.pickle.gz
deleted file mode 100644
index 60c2b9a..0000000
Binary files a/packages/chunkers/muc6.chunk.tagger.pickle.gz and /dev/null differ
diff --git a/packages/chunkers/treebank.chunker.pickle.gz b/packages/chunkers/treebank.chunker.pickle.gz
deleted file mode 100644
index b39b2ee..0000000
Binary files a/packages/chunkers/treebank.chunker.pickle.gz and /dev/null differ
diff --git a/packages/corpora/alpino.xml b/packages/corpora/alpino.xml
index 9af207b..0679e79 100644
--- a/packages/corpora/alpino.xml
+++ b/packages/corpora/alpino.xml
@@ -1,6 +1,6 @@
 <package id="alpino" name="Alpino Dutch Treebank"
          webpage="http://www.let.rug.nl/~vannoord/trees/"
-         contact="Gertjan Van Noord"
-         license="Distributed with permission of Gertjan Van Noord"
+         contact="Gertjan van Noord"
+         license="Distributed with permission of Gertjan van Noord"
          unzip="1"
          />
diff --git a/packages/corpora/alpino.zip b/packages/corpora/alpino.zip
index 769873e..7c7cd2f 100644
Binary files a/packages/corpora/alpino.zip and b/packages/corpora/alpino.zip differ
diff --git a/packages/corpora/bcp47.xml b/packages/corpora/bcp47.xml
new file mode 100644
index 0000000..96e2fed
--- /dev/null
+++ b/packages/corpora/bcp47.xml
@@ -0,0 +1,6 @@
+<package id="bcp47" name="BCP-47 Language Tags"
+    license="IETF Trust and Unicode Inc."
+    copyright="Copyright (c) 2022 IETF Trust and Copyright (c) 1991-2022 Unicode"
+    webpage="https://www.rfc-editor.org/rfc/rfc5646.html"
+    unzip="0"
+     />
diff --git a/packages/corpora/bcp47.zip b/packages/corpora/bcp47.zip
new file mode 100644
index 0000000..516a294
Binary files /dev/null and b/packages/corpora/bcp47.zip differ
diff --git a/packages/corpora/dolch.xml b/packages/corpora/dolch.xml
new file mode 100644
index 0000000..0968e8b
--- /dev/null
+++ b/packages/corpora/dolch.xml
@@ -0,0 +1,4 @@
+<package id="dolch" name="Dolch Word List"
+         webpage="https://en.wikipedia.org/wiki/Dolch_word_list"
+         unzip="1"
+         />
diff --git a/packages/corpora/dolch.zip b/packages/corpora/dolch.zip
new file mode 100644
index 0000000..940e75f
Binary files /dev/null and b/packages/corpora/dolch.zip differ
diff --git a/packages/corpora/english_wordnet.xml b/packages/corpora/english_wordnet.xml
new file mode 100644
index 0000000..3866213
--- /dev/null
+++ b/packages/corpora/english_wordnet.xml
@@ -0,0 +1,7 @@
+<package id="english_wordnet" name="Open English Wordnet"
+         version="2025+"
+         license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team."
+         copyright="Open English Wordnet 2025+ Copyright 2025 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved."
+         webpage="https://en-word.net/"
+         unzip="1"
+         />
diff --git a/packages/corpora/english_wordnet.zip b/packages/corpora/english_wordnet.zip
new file mode 100644
index 0000000..b8e583a
Binary files /dev/null and b/packages/corpora/english_wordnet.zip differ
diff --git a/packages/corpora/extended_omw.xml b/packages/corpora/extended_omw.xml
new file mode 100644
index 0000000..b908230
--- /dev/null
+++ b/packages/corpora/extended_omw.xml
@@ -0,0 +1,6 @@
+<package id="extended_omw" name="Extended Open Multilingual WordNet"
+         copyright="Copyright (C) 2013 Francis Bond and Ryan Foster"
+         license="CC by SA 3.0 Licence (for data from Wikitionary) and Unicode, Inc. Licence Agreement (for data from CLDR)"
+         webpage="http://compling.hss.ntu.edu.sg/omw/summx.html"
+         unzip="0"
+         />
diff --git a/packages/corpora/extended_omw.zip b/packages/corpora/extended_omw.zip
new file mode 100644
index 0000000..4648909
Binary files /dev/null and b/packages/corpora/extended_omw.zip differ
diff --git a/packages/corpora/framenet_v17.xml b/packages/corpora/framenet_v17.xml
new file mode 100644
index 0000000..92fada7
--- /dev/null
+++ b/packages/corpora/framenet_v17.xml
@@ -0,0 +1,6 @@
+<package id="framenet_v17" name="FrameNet 1.7"
+         author="Collin F. Baker"
+         license="Creative Commons Attribution 3.0 Unported License"
+         webpage="http://framenet.icsi.berkeley.edu"
+         unzip="1"
+         />
diff --git a/packages/corpora/framenet_v17.zip b/packages/corpora/framenet_v17.zip
new file mode 100644
index 0000000..f7a5670
Binary files /dev/null and b/packages/corpora/framenet_v17.zip differ
diff --git a/packages/corpora/gutenberg.xml b/packages/corpora/gutenberg.xml
index ae9906a..439c04f 100644
--- a/packages/corpora/gutenberg.xml
+++ b/packages/corpora/gutenberg.xml
@@ -1,5 +1,5 @@
 <package id="gutenberg" name="Project Gutenberg Selections"
-         webpage="http://gutenberg.net/"
+         webpage="https://gutenberg.org/"
          license="public domain"
          copyright="public domain"
          unzip="1"
diff --git a/packages/corpora/inaugural.zip b/packages/corpora/inaugural.zip
index ea30e75..f85c8a6 100644
Binary files a/packages/corpora/inaugural.zip and b/packages/corpora/inaugural.zip differ
diff --git a/packages/corpora/indian.zip b/packages/corpora/indian.zip
index 10f578c..58cffee 100644
Binary files a/packages/corpora/indian.zip and b/packages/corpora/indian.zip differ
diff --git a/packages/corpora/listing.csv b/packages/corpora/listing.csv
deleted file mode 100644
index 93722a7..0000000
--- a/packages/corpora/listing.csv
+++ /dev/null
@@ -1,33 +0,0 @@
-#nltk_directory,short_name,long_name,contents,derived_from,reader,licenser1,licenser2,see_also,contact_name,contact_email
-#in nltk/corpora,for use in book,,,,in nltk/nltk/corpora,,for derived works,,,
-abc,abc,Australian Broadcasting Commission 2006,Science News::Rural News,,,,,,,
-biocreative_ppi,BioCreAtIvE-PPI,BioCreAtIvE Protein-Protein Interaction Corpus,BioCreatIve Task 1a,,,,NCBI,http://www2.informatik.hu-berlin.de/~hakenber/corpora/::http://www.mitre.org/public/biocreative/,,
-brown,brown,Brown Corpus,,,brown.py,,,,,
-chat80,chat80,Chat-80 Database,,,chat80.py,University of Pennsylvania,,http://www.cis.upenn.edu/~pereira/oldies.html,Fernando Pereira,
-cmudict,cmudict,Carnegie Mellon Pronouncing Dictionary,,,cmudict.py,,,,,
-conll2000,conll2000,CoNLL 2000 Chunking Corpus,,,conll2000.py,,,,,
-conll2002,conll2002,CoNLL 2002 NER Corpus,Dutch::Spanish,,conll2002.py,,,,,
-genesis,genesis,Genesis Corpus,,,genesis.py,,,,,
-gutenberg,gutenberg,Project Gutenberg Selections,,,gutenberg.py,,,,,
-ieer,ieer,NIST 1999 Information Extraction ,Entity Recognition Corpus,,ieer.py,,,,,
-inaugural,inaugural,US Presidential Inaugural Address Corpus,,,inaugural.py,,,,,
-indian,indian,Indian Language POS-Tagged Corpus,Bangla::Hindi::Marathi::Telugu,,indian.py,,,,,
-kimmo,kimmo,,,,,,,,,
-names,names,Names Corpus,,,names.py,,,
-paradigms,paradigms,Paradigm Corpus,,,,,,
-pil,pil,,,,,,,
-ppattach,ppattach,PP Attachment Corpus,,IBM-Lancaster Treebank of Computer Manuals::Penn Treebank,ppattach.py,,,
-problem_reports,problem_reports,,,,,,,
-senseval,senseval,SENSEVAL 2 Corpus,,,senseval.py,,,
-shakespeare,shakespeare,Shakespeare XML Corpus Sample,,,shakespeare.py,,,
-sinica_treebank,sinica_treebank,Sinica Treebank Corpus Sample,,,sinica_treebank.py,Academia Sinica,,
-state_union,state_union,US Presidential State of the Union Address Corpus,,,state_union.py,,,
-stopwords,stopwords,Stopwords Corpus,,,stopwords.py,,,
-switchboard,switchboard,,,,,,,
-timit,timit,TIMIT Corpus Sample,,,timit.py,,,
-toolbox,toolbox,Toolbox Data Samples,,,toolbox.py,,,
-treebank,Penn Treebank,Penn Treebank Corpus Sample,,Wall Street Journal,treebank.py,LDC,,http://www.cis.upenn.edu/~treebank/
-udhr,udhr,Universal Declaration of Human Rights Corpus,,,udhr.py,,,
-web,web,,overheard::wine::pirates::singles,,web.py,,,
-wordnet,wordnet,Wordnet 3.0,,,,Princeton University,,http://www.cogsci.princeton.edu/~wn
-words,words,Wordlist (English),,,words.py,,,
diff --git a/packages/corpora/listing.csv.zip b/packages/corpora/listing.csv.zip
deleted file mode 100644
index 72a28fd..0000000
Binary files a/packages/corpora/listing.csv.zip and /dev/null differ
diff --git a/packages/corpora/mock_corpus.xml b/packages/corpora/mock_corpus.xml
new file mode 100644
index 0000000..dceaacd
--- /dev/null
+++ b/packages/corpora/mock_corpus.xml
@@ -0,0 +1,7 @@
+<package
+    id="mock_corpus"
+    name="Mock Corpus"
+    description="This is a mock corpus for testing the index.xml automation workflow. It can be safely added and removed."
+    unzip="1"
+    license="Public Domain"
+    />
diff --git a/packages/corpora/mock_corpus.zip b/packages/corpora/mock_corpus.zip
new file mode 100644
index 0000000..9be98e8
Binary files /dev/null and b/packages/corpora/mock_corpus.zip differ
diff --git a/packages/corpora/mte_teip5.xml b/packages/corpora/mte_teip5.xml
index aaba382..1715b6b 100644
--- a/packages/corpora/mte_teip5.xml
+++ b/packages/corpora/mte_teip5.xml
@@ -2,5 +2,5 @@
          author="Erjavec, Tomaž; Barbu, Ana-Maria; Derzhanski, Ivan; Dimitrova, Ludmila; Garabík, Radovan; Ide, Nancy; Kaalep, Heiki-Jaan; Kotsyba, Natalia; Krstev, Cvetana; Oravecz, Csaba; Petkevič, Vladimír; Priest-Dorman, Greg; QasemiZadeh, Behrang; Radziszewski, Adam; Simov, Kiril; Tufiş, Dan and Zdravkova, Katerina"
          license="Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)"
          webpage="https://www.clarin.si/repository/xmlui/handle/11356/1043"
-         unzip="0"
+         unzip="1"
          />
diff --git a/packages/corpora/nombank.1.0.zip b/packages/corpora/nombank.1.0.zip
index b756bb5..f44d852 100644
Binary files a/packages/corpora/nombank.1.0.zip and b/packages/corpora/nombank.1.0.zip differ
diff --git a/packages/corpora/nonbreaking_prefixes.xml b/packages/corpora/nonbreaking_prefixes.xml
new file mode 100644
index 0000000..57d71bd
--- /dev/null
+++ b/packages/corpora/nonbreaking_prefixes.xml
@@ -0,0 +1,5 @@
+<package id="nonbreaking_prefixes" name="Non-Breaking Prefixes (Moses Decoder)"
+         webpage="https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes"
+         license="Gnu LGPL"
+         unzip="1"
+         />
diff --git a/packages/corpora/nonbreaking_prefixes.zip b/packages/corpora/nonbreaking_prefixes.zip
new file mode 100644
index 0000000..d9d21e5
Binary files /dev/null and b/packages/corpora/nonbreaking_prefixes.zip differ
diff --git a/packages/corpora/oanc_masc.xml b/packages/corpora/oanc_masc.xml
deleted file mode 100644
index 20871f2..0000000
--- a/packages/corpora/oanc_masc.xml
+++ /dev/null
@@ -1,4 +0,0 @@
-<package id="oanc_masc" name="Open American National Corpus: Manually Annotated Sub-Corpus"
-         license="Open Data: opendefinition.org."
-         unzip="0"
-         />
diff --git a/packages/corpora/omw-1.4.xml b/packages/corpora/omw-1.4.xml
new file mode 100644
index 0000000..64ea793
--- /dev/null
+++ b/packages/corpora/omw-1.4.xml
@@ -0,0 +1,7 @@
+<package id="omw-1.4" name="Open Multilingual Wordnet"
+         author="Francis Bond"
+         license="Please consult the LICENSE files included with the individual Wordnets. Note that all permit redistribution."
+         copyright="Please consult the copyright statements of the individual Wordnets"
+         webpage="https://omwn.org/"
+         unzip="0"
+         />
diff --git a/packages/corpora/omw-1.4.zip b/packages/corpora/omw-1.4.zip
new file mode 100644
index 0000000..2bece32
Binary files /dev/null and b/packages/corpora/omw-1.4.zip differ
diff --git a/packages/corpora/omw.xml b/packages/corpora/omw.xml
index e5e30ee..c991a80 100755
--- a/packages/corpora/omw.xml
+++ b/packages/corpora/omw.xml
@@ -2,6 +2,6 @@
          author="Francis Bond"
          license="Please consult the LICENSE files included with the individual Wordnets. Note that all permit redistribution."
          copyright="Please consult the copyright statements of the individual Wordnets"
-         webpage="http://compling.hss.ntu.edu.sg/omw/"
-         unzip="1"
+         webpage="https://omwn.org/"
+         unzip="0"
          />
diff --git a/packages/corpora/omw.zip b/packages/corpora/omw.zip
index e05c754..b28c4ed 100644
Binary files a/packages/corpora/omw.zip and b/packages/corpora/omw.zip differ
diff --git a/packages/corpora/panlex_swadesh.zip b/packages/corpora/panlex_swadesh.zip
index 6937900..9e2e117 100644
Binary files a/packages/corpora/panlex_swadesh.zip and b/packages/corpora/panlex_swadesh.zip differ
diff --git a/packages/corpora/ptb3.zip b/packages/corpora/ptb3.zip
deleted file mode 100755
index a31181e..0000000
Binary files a/packages/corpora/ptb3.zip and /dev/null differ
diff --git a/packages/corpora/sinica_treebank.zip b/packages/corpora/sinica_treebank.zip
index c7d0107..27be13e 100644
Binary files a/packages/corpora/sinica_treebank.zip and b/packages/corpora/sinica_treebank.zip differ
diff --git a/packages/corpora/stopwords.xml b/packages/corpora/stopwords.xml
index 0be3d33..fabee47 100644
--- a/packages/corpora/stopwords.xml
+++ b/packages/corpora/stopwords.xml
@@ -1,4 +1,4 @@
 <package id="stopwords" name="Stopwords Corpus"
-         webpage="ftp://ftp.cs.cornell.edu/pub/smart/english.stop and http://snowball.tartarus.org/"
+         webpage="ftp://ftp.cs.cornell.edu/pub/smart/english.stop and http://snowball.tartarus.org/ and others"
          unzip="1"
          />
diff --git a/packages/corpora/stopwords.zip b/packages/corpora/stopwords.zip
index 1abac39..56d35b5 100644
Binary files a/packages/corpora/stopwords.zip and b/packages/corpora/stopwords.zip differ
diff --git a/packages/corpora/treebank.zip b/packages/corpora/treebank.zip
index c85fa58..42d0c65 100644
Binary files a/packages/corpora/treebank.zip and b/packages/corpora/treebank.zip differ
diff --git a/packages/corpora/verbnet.xml b/packages/corpora/verbnet.xml
index d4bdea1..96256ff 100644
--- a/packages/corpora/verbnet.xml
+++ b/packages/corpora/verbnet.xml
@@ -2,7 +2,7 @@
          name="VerbNet Lexicon, Version 2.1"
          version="2.1"
          author="Karin Kipper-Schuler"
-         webpage="http://verbs.colorado.edu/~mpalmer/projects/verbnet.html"
+         webpage="https://verbs.colorado.edu/verbnet/"
          license="Distributed with permission of the author."
          unzip="1"
          />
diff --git a/packages/corpora/verbnet3.xml b/packages/corpora/verbnet3.xml
new file mode 100644
index 0000000..bb9460f
--- /dev/null
+++ b/packages/corpora/verbnet3.xml
@@ -0,0 +1,9 @@
+<package id="verbnet3"
+         name="VerbNet Lexicon, Version 3.3"
+         version="3.3"
+         author="Karin Kipper-Schuler"
+         webpage="https://verbs.colorado.edu/verbnet/"
+         license="Distributed with permission of the author."
+         unzip="1"
+         />
+
diff --git a/packages/corpora/verbnet3.zip b/packages/corpora/verbnet3.zip
new file mode 100644
index 0000000..46efce1
Binary files /dev/null and b/packages/corpora/verbnet3.zip differ
diff --git a/packages/corpora/wordnet.xml b/packages/corpora/wordnet.xml
index 9010417..5dbb80e 100644
--- a/packages/corpora/wordnet.xml
+++ b/packages/corpora/wordnet.xml
@@ -3,5 +3,5 @@
          license="Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license]"
          copyright="WordNet 3.0 Copyright 2006 by Princeton University.  All rights reserved."
          webpage="http://wordnet.princeton.edu/"
-         unzip="1"
+         unzip="0"
          />
diff --git a/packages/corpora/wordnet2021.xml b/packages/corpora/wordnet2021.xml
new file mode 100644
index 0000000..e6b4f97
--- /dev/null
+++ b/packages/corpora/wordnet2021.xml
@@ -0,0 +1,7 @@
+<package id="wordnet2021" name="Open English Wordnet 2021"
+         version="2021"
+         license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team."
+         copyright="Open English Wordnet 2021 Copyright 2021 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved."
+         webpage="https://en-word.net/"
+         unzip="0"
+         />
diff --git a/packages/corpora/wordnet2021.zip b/packages/corpora/wordnet2021.zip
new file mode 100644
index 0000000..3f9b1e8
Binary files /dev/null and b/packages/corpora/wordnet2021.zip differ
diff --git a/packages/corpora/wordnet2022.xml b/packages/corpora/wordnet2022.xml
new file mode 100644
index 0000000..d4f57aa
--- /dev/null
+++ b/packages/corpora/wordnet2022.xml
@@ -0,0 +1,7 @@
+<package id="wordnet2022" name="Open English Wordnet 2022"
+         version="2022"
+         license="This resource is derived from Princeton WordNet under the WordNet License and further developed under the Creative Commons Attribution 4.0 International License. You may share and adapt this resource providing attribution is given to both Princeton WordNet and the Open English WordNet team."
+         copyright="Open English Wordnet 2022 Copyright 2022 by the Open English Wordnet team. WordNet 3.1 Copyright 2011 by Princeton University. All rights reserved."
+         webpage="https://en-word.net/"
+         unzip="1"
+         />
diff --git a/packages/corpora/wordnet2022.zip b/packages/corpora/wordnet2022.zip
new file mode 100644
index 0000000..935eee1
Binary files /dev/null and b/packages/corpora/wordnet2022.zip differ
diff --git a/packages/corpora/wordnet31.xml b/packages/corpora/wordnet31.xml
new file mode 100644
index 0000000..a5a2a50
--- /dev/null
+++ b/packages/corpora/wordnet31.xml
@@ -0,0 +1,7 @@
+<package id="wordnet31" name="Wordnet 3.1"
+         version="3.1"
+         license="Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license]"
+         copyright="WordNet 3.1 Copyright 2011 by Princeton University.  All rights reserved."
+         webpage="http://wordnet.princeton.edu/"
+         unzip="0"
+         />
diff --git a/packages/corpora/oanc_masc.zip b/packages/corpora/wordnet31.zip
similarity index 56%
rename from packages/corpora/oanc_masc.zip
rename to packages/corpora/wordnet31.zip
index c11f5a5..d1253a1 100644
Binary files a/packages/corpora/oanc_masc.zip and b/packages/corpora/wordnet31.zip differ
diff --git a/packages/help/tagsets_json.xml b/packages/help/tagsets_json.xml
new file mode 100644
index 0000000..2de89b7
--- /dev/null
+++ b/packages/help/tagsets_json.xml
@@ -0,0 +1,6 @@
+<package id="tagsets_json" 
+         name="Help on Tagsets (JSON)"
+         author="UCREL, Lancaster University"
+         languages="English"
+         unzip="1"
+         />
diff --git a/packages/help/tagsets_json.zip b/packages/help/tagsets_json.zip
new file mode 100644
index 0000000..c6135cd
Binary files /dev/null and b/packages/help/tagsets_json.zip differ
diff --git a/packages/misc/mwa_ppdb.xml b/packages/misc/mwa_ppdb.xml
new file mode 100644
index 0000000..60245bd
--- /dev/null
+++ b/packages/misc/mwa_ppdb.xml
@@ -0,0 +1,5 @@
+<package id="mwa_ppdb" name="The monolingual word aligner (Sultan et al. 2015) subset of the Paraphrase Database."
+         webpage="http://www.cis.upenn.edu/~ccb/ppdb/"
+         license="Creative Commons Attribution 3.0 Unported (CC-BY)"
+         unzip="1"
+         />
diff --git a/packages/misc/mwa_ppdb.zip b/packages/misc/mwa_ppdb.zip
new file mode 100644
index 0000000..ae32aa7
Binary files /dev/null and b/packages/misc/mwa_ppdb.zip differ
diff --git a/packages/misc/perluniprops.xml b/packages/misc/perluniprops.xml
new file mode 100644
index 0000000..865bd5b
--- /dev/null
+++ b/packages/misc/perluniprops.xml
@@ -0,0 +1,5 @@
+<package id="perluniprops" name="perluniprops: Index of Unicode Version 7.0.0 character properties in Perl"
+         webpage="http://perldoc.perl.org/perluniprops.html"
+         license=""
+         unzip="1"
+         />
diff --git a/packages/misc/perluniprops.zip b/packages/misc/perluniprops.zip
new file mode 100644
index 0000000..e1c3b74
Binary files /dev/null and b/packages/misc/perluniprops.zip differ
diff --git a/packages/models/wmt15_eval.xml b/packages/models/wmt15_eval.xml
new file mode 100644
index 0000000..42518e6
--- /dev/null
+++ b/packages/models/wmt15_eval.xml
@@ -0,0 +1,5 @@
+<package id="wmt15_eval"
+         name="Evaluation data from WMT15"
+         webpage="http://www.statmt.org/wmt15/"
+         unzip="1"
+         />
diff --git a/packages/models/wmt15_eval.zip b/packages/models/wmt15_eval.zip
new file mode 100644
index 0000000..17fa083
Binary files /dev/null and b/packages/models/wmt15_eval.zip differ
diff --git a/packages/sentiment/vader_lexicon.xml b/packages/sentiment/vader_lexicon.xml
new file mode 100644
index 0000000..c805430
--- /dev/null
+++ b/packages/sentiment/vader_lexicon.xml
@@ -0,0 +1,6 @@
+<package id="vader_lexicon" name="VADER Sentiment Lexicon"
+         author="C.J. Hutto and Eric Gilbert"
+         webpage="https://github.com/cjhutto/vaderSentiment"
+         license="MIT License"
+         unzip="0"
+         />
diff --git a/packages/sentiment/vader_lexicon.zip b/packages/sentiment/vader_lexicon.zip
new file mode 100644
index 0000000..c8d4b96
Binary files /dev/null and b/packages/sentiment/vader_lexicon.zip differ
diff --git a/packages/stemmers/porter_test.xml b/packages/stemmers/porter_test.xml
new file mode 100644
index 0000000..13e23fd
--- /dev/null
+++ b/packages/stemmers/porter_test.xml
@@ -0,0 +1,4 @@
+<package id="porter_test"
+         name="Porter Stemmer Test Files"
+         unzip="1"
+         />
diff --git a/packages/stemmers/porter_test.zip b/packages/stemmers/porter_test.zip
new file mode 100644
index 0000000..7f4fb04
Binary files /dev/null and b/packages/stemmers/porter_test.zip differ
diff --git a/packages/taggers/averaged_perceptron_tagger.xml b/packages/taggers/averaged_perceptron_tagger.xml
new file mode 100644
index 0000000..bc07724
--- /dev/null
+++ b/packages/taggers/averaged_perceptron_tagger.xml
@@ -0,0 +1,7 @@
+<package id='averaged_perceptron_tagger' 
+         name='Averaged Perceptron Tagger'
+         languages="English"
+         license="MIT License"
+         webpage="https://github.com/sloria/textblob-aptagger"
+         unzip="1"
+         />
diff --git a/packages/taggers/averaged_perceptron_tagger.zip b/packages/taggers/averaged_perceptron_tagger.zip
new file mode 100644
index 0000000..d5bfb68
Binary files /dev/null and b/packages/taggers/averaged_perceptron_tagger.zip differ
diff --git a/packages/taggers/averaged_perceptron_tagger_eng.xml b/packages/taggers/averaged_perceptron_tagger_eng.xml
new file mode 100644
index 0000000..c3949c6
--- /dev/null
+++ b/packages/taggers/averaged_perceptron_tagger_eng.xml
@@ -0,0 +1,7 @@
+<package id='averaged_perceptron_tagger_eng' 
+         name='Averaged Perceptron Tagger (JSON)'
+         languages="English"
+         license="MIT License"
+         webpage="https://github.com/sloria/textblob-aptagger"
+         unzip="1"
+         />
diff --git a/packages/taggers/averaged_perceptron_tagger_eng.zip b/packages/taggers/averaged_perceptron_tagger_eng.zip
new file mode 100644
index 0000000..b792e19
Binary files /dev/null and b/packages/taggers/averaged_perceptron_tagger_eng.zip differ
diff --git a/packages/taggers/averaged_perceptron_tagger_ru.xml b/packages/taggers/averaged_perceptron_tagger_ru.xml
new file mode 100644
index 0000000..a399605
--- /dev/null
+++ b/packages/taggers/averaged_perceptron_tagger_ru.xml
@@ -0,0 +1,7 @@
+<package id="averaged_perceptron_tagger_ru" 
+         name="Averaged Perceptron Tagger (Russian)"
+         webpage="http://www.ruscorpora.ru/en/"
+         languages="Russian"
+         license="MIT License"
+         unzip="1"
+         />
diff --git a/packages/taggers/averaged_perceptron_tagger_ru.zip b/packages/taggers/averaged_perceptron_tagger_ru.zip
new file mode 100644
index 0000000..50e313e
Binary files /dev/null and b/packages/taggers/averaged_perceptron_tagger_ru.zip differ
diff --git a/packages/taggers/averaged_perceptron_tagger_rus.xml b/packages/taggers/averaged_perceptron_tagger_rus.xml
new file mode 100644
index 0000000..6f9d436
--- /dev/null
+++ b/packages/taggers/averaged_perceptron_tagger_rus.xml
@@ -0,0 +1,7 @@
+<package id="averaged_perceptron_tagger_rus"
+         name="Averaged Perceptron Tagger (Russian)"
+         webpage="http://www.ruscorpora.ru/en/"
+         languages="Russian"
+         license="MIT License"
+         unzip="1"
+         />
diff --git a/packages/taggers/averaged_perceptron_tagger_rus.zip b/packages/taggers/averaged_perceptron_tagger_rus.zip
new file mode 100644
index 0000000..e1bba62
Binary files /dev/null and b/packages/taggers/averaged_perceptron_tagger_rus.zip differ
diff --git a/packages/taggers/hmm_treebank_pos_tagger.xml b/packages/taggers/hmm_treebank_pos_tagger.xml
deleted file mode 100644
index 105d658..0000000
--- a/packages/taggers/hmm_treebank_pos_tagger.xml
+++ /dev/null
@@ -1,5 +0,0 @@
-<package id='hmm_treebank_pos_tagger' 
-         name='Treebank Part of Speech Tagger (HMM)'
-         languages="English"
-         unzip="1"
-         />
diff --git a/packages/taggers/hmm_treebank_pos_tagger.zip b/packages/taggers/hmm_treebank_pos_tagger.zip
deleted file mode 100644
index e2944e5..0000000
Binary files a/packages/taggers/hmm_treebank_pos_tagger.zip and /dev/null differ
diff --git a/packages/taggers/maxent_treebank_pos_tagger_tab.xml b/packages/taggers/maxent_treebank_pos_tagger_tab.xml
new file mode 100644
index 0000000..c70f85b
--- /dev/null
+++ b/packages/taggers/maxent_treebank_pos_tagger_tab.xml
@@ -0,0 +1,5 @@
+<package id='maxent_treebank_pos_tagger_tab' 
+         name='Treebank Part of Speech Tagger (Maximum entropy)'
+         languages="English"
+         unzip="1"
+         />
diff --git a/packages/taggers/maxent_treebank_pos_tagger_tab.zip b/packages/taggers/maxent_treebank_pos_tagger_tab.zip
new file mode 100644
index 0000000..5fb9e58
Binary files /dev/null and b/packages/taggers/maxent_treebank_pos_tagger_tab.zip differ
diff --git a/packages/taggers/universal_tagset.xml b/packages/taggers/universal_tagset.xml
index 5e3522a..36170bb 100644
--- a/packages/taggers/universal_tagset.xml
+++ b/packages/taggers/universal_tagset.xml
@@ -1,4 +1,7 @@
-<package id='universal_tagset' 
-         name='Mappings to the Universal Part-of-Speech Tagset'
+<package id="universal_tagset" 
+         name="Mappings to the Universal Part-of-Speech Tagset"
+	 author="Slav Petrov"
+	 license="CC-BY-SA-4.0"
+	 webpage="https://github.com/slavpetrov/universal-pos-tags"
          unzip="1"
          />
diff --git a/packages/taggers/universal_tagset.zip b/packages/taggers/universal_tagset.zip
index 5d4de64..543f8de 100644
Binary files a/packages/taggers/universal_tagset.zip and b/packages/taggers/universal_tagset.zip differ
diff --git a/packages/tokenizers/punkt.xml b/packages/tokenizers/punkt.xml
index b5b438e..0f25435 100644
--- a/packages/tokenizers/punkt.xml
+++ b/packages/tokenizers/punkt.xml
@@ -1,6 +1,6 @@
 <package id='punkt' 
          name='Punkt Tokenizer Models'
          author='Jan Strunk'
-         languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Norwegian, Polish, Portuguese, Slovene, Spanish, Swedish, Turkish"
+         languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Malayalam, Norwegian, Polish, Portuguese, Russian, Slovene, Spanish, Swedish, Turkish"
          unzip="1"
          />
diff --git a/packages/tokenizers/punkt.zip b/packages/tokenizers/punkt.zip
index 7291138..da7ffbd 100644
Binary files a/packages/tokenizers/punkt.zip and b/packages/tokenizers/punkt.zip differ
diff --git a/packages/tokenizers/punkt_tab.xml b/packages/tokenizers/punkt_tab.xml
new file mode 100644
index 0000000..feba7a3
--- /dev/null
+++ b/packages/tokenizers/punkt_tab.xml
@@ -0,0 +1,6 @@
+<package id='punkt_tab' 
+         name='Punkt Tokenizer Models'
+         author='Jan Strunk'
+         languages="Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Italian, Malayalam, Norwegian, Polish, Portuguese, Russian, Slovene, Spanish, Swedish, Turkish"
+         unzip="1"
+         />
diff --git a/packages/tokenizers/punkt_tab.zip b/packages/tokenizers/punkt_tab.zip
new file mode 100644
index 0000000..5e5ff61
Binary files /dev/null and b/packages/tokenizers/punkt_tab.zip differ
diff --git a/tools/build_collections.py b/tools/build_collections.py
new file mode 100644
index 0000000..f6d2027
--- /dev/null
+++ b/tools/build_collections.py
@@ -0,0 +1,51 @@
+
+import os
+import sys
+from glob import glob
+from typing import List
+from xml.etree import ElementTree
+from nltk.downloader import _indent_xml
+
+if len(sys.argv) != 2:
+    print("Usage: ")
+    print("build_collections.py <path-to-packages>")
+    sys.exit(-1)
+
+ROOT = sys.argv[1]
+
+def write(file_name: str, coll_name: str, items: List[str]) -> None:
+    """Write `collection/{file_name}.xml` with `file_name` as the collection `id`,
+    `coll_name` as the collection `name`, and `items` as a list of collection items.
+
+    :param file_name: The id of the collection, equivalent to the file name,
+        e.g. `all-corpora`.
+    :type file_name: str
+    :param coll_name: The name of the collection, e.g. `"All corpora"`
+    :type coll_name: str
+    :param items: A list of names for the collection items, e.g. `["abc", "alpino", ...]`
+    :type items: List[str]
+    """
+    et = ElementTree.Element("collection", id=file_name, name=coll_name)
+    et.extend(ElementTree.Element("item", ref=item) for item in sorted(items))
+    _indent_xml(et)
+    with open(os.path.join(ROOT, "collections", file_name + ".xml"), "w", encoding="utf8") as f:
+        f.write(ElementTree.tostring(et).decode("utf8"))
+
+def get_id(xml_path: str) -> str:
+    """Given a full path, extract only the filename (i.e. the nltk_data id)
+
+    :param xml_path: A full path, e.g. "./packages/corpora/abc.xml"
+    :type xml_path: str
+    :return: The filename, without the extension, e.g. "abc"
+    :rtype: str
+    """
+    return os.path.splitext(os.path.basename(xml_path))[0]
+
+# Write `collection/all-corpora.xml` based on all files under /packages/corpora
+corpora_items = [get_id(xml_path) for xml_path in glob(f"{ROOT}/packages/corpora/*.xml")]
+write("all-corpora", "All the corpora", corpora_items)
+
+# Write `collection/all-nltk.xml` and `collection/all.xml` based on all files under /packages
+all_items = [get_id(xml_path) for xml_path in glob(f"{ROOT}/packages/**/*.xml")]
+write("all-nltk", "All packages available on nltk_data gh-pages branch", all_items)
+write("all", "All packages", all_items)
\ No newline at end of file
diff --git a/tools/build_pkg_index.py b/tools/build_pkg_index.py
index 6aeeaa7..d84cfed 100755
--- a/tools/build_pkg_index.py
+++ b/tools/build_pkg_index.py
@@ -27,5 +27,6 @@
 out = open(OUT, 'w')
 out.write(xml_header)
 out.write(s)
+out.write('\n')
 out.close()