Added Dexter Scrapers #70

Francoisvt04 · 2018-03-19T12:59:06Z

Dexter Crawlers Changelog from Assemble

1.The following crawlers have been added:
howwemadeitinafrica, savca, rhodesunimathewblog, worldstage, classicfm, afp, naijanews, dailytrustnp, newteleonline, thepoint, dailytimes, thenation, mediamaxnet, leadership, theinterview, rsaparliament, guardian, nationaldailyng, nta, acdivoca, thisdaylive, channelafrica, nan, nigeriatoday, businessdayonline, standardmediaktnnews, globaltimescn, nationalmirror, monitorke, newsverge, sundiatapost, agrilinks, businessdailyafrica, thebusinesspost, theguardianuk, independentng, thenerveafrica, amehnews, sunnewsonline, seedmagazine, hallmarknews, destinyconnect, economist, washingtonpost, amabhungane, africainvestor, outrepreneurs, cnbcafrica, planintl, bloomberg

2.In document_processor.py:
The crawler classes were registered under the DocumentProcessor and DocumentProcessorNT classes.

3.In medium.py:
The Mediums for each of the crawlers where added under the create_defaults class method and added a url exception for mathewnyaungwa.blogspot.co.za under is_tld_exception class method and added a sub_domain_exception_list in for_url class method to handle blogspot.co.za.

4.In country.py
Added country codes for the newly added crawlers in the create_defaults class method.

5.Had to update the tld name list to include some of the newly added country codes.
These where the commands I ran to update the list:

from tld.utils import update_tld_names
update_tld_names()

…. Also Added howwemadeitinafrica crawler

…wler

…r classes to follow naming convention

…yafrica crawler

…crawler

Francoisvt04 · 2018-03-19T13:02:42Z

Hey Matt, these are the new crawlers MMA asked for. Please review them along with with the change log notes I added and give feed back as needed.

Francois added 30 commits February 8, 2018 14:39

Initial setup, had to make some fixes to fdi and seeds to make it run…

b78dc47

…. Also Added howwemadeitinafrica crawler

Added savca crawler

999b72d

Added Rhodes University MathewYaungwaBlog crawler

5b66506

Added crawler for worldstage

ba0b277

Added crawlers for classicfm and afp

657f62a

Added a crawler for naijanews

aa541d4

Removed test code

b2ed25b

Added dailytrustnp crawler

1167ed6

Changed dailytrustnp crawler author logic

eebd480

Added newteleonline crawler and removed test code from dailytrust cra…

759e13c

…wler

Added a crawler for thepoint

fa3d26c

Added dailytimes crawler

656cff3

Added thenation crawler

205001f

Added mediamaxnet crawler and removed test code from thenation crawler

d7ec48a

Added leadership crawler

7bd8593

Added theinterview crawler

b2e7b99

Added rsaparliament crawler

8ab1ed9

Added guardian crawler and renamed interview and rsaparliament crawle…

5fafdbd

…r classes to follow naming convention

Added nationaldailyng crawler

55a93b3

Added nta crawler

e59cd09

Removed test code

ff1e2ca

Added acdivoca crawler

0949bcf

Added thisdaylive crawler

aecc297

Added channelafrica crawler and removed test code from thisdaylive

bf9be20

Added nan crawler

bc24133

Added nigeriatoday crawler

d1c550b

Updated classicfm crawler

65f212a

Removed test code from classicfm crawler

6a3d897

Added businessdayonline crawler

8911a02

Removed test code from businessdayonline crawler

c83fb12

Francois added 29 commits February 16, 2018 11:51

Added globaltimescn crawler

d8c143d

Changed logic on rsaparliament crawler logic for dates and authors

c3d34c6

Added nationalmirror crawler

5f65807

Added monitorke crawler

daf5ca6

Added newsverge crawler

254967f

Added sundiatapost crawler

a7471c9

Removed test code from sundiatapost crawler

21ca760

Added agrilinks crawler

205b021

Removed test code from agrilinks crawler

f1f0365

Added businessdailyafrica crawler

8245a2b

Added thebusinesspost crawler and removed test code from businessdail…

45cf819

…yafrica crawler

Added theguardianuk crawler

59f58d8

Added independentng crawler and removed test code from theguardianuk …

16fd749

…crawler

Removed test code from independentng crawler

8238dcb

Added thenerveafrica crawler

7db1d13

Added amehnews crawler

c09fe69

Added sunnewsonline crawler

7175bef

Added seedmagazine crawler

cc3d63d

Added hallmarksnews crawler

71626d8

Added destinyconnect crawler

01fe8c4

Added economist crawler

a3a7b0e

Added washingtonpost crawler

bb20978

Added amabhungane crawler

29664a1

Added africainvestor crawler

1e02f08

Added outrepreneurs crawler

c834e16

Added cbncafrica crawler

405eb72

Added planintl crawler

3d6767f

Added bloomberg crawler

1fd4849

Changed document text and summary logic in nationaldailyng crawler

0ffebbc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Added Dexter Scrapers #70

Added Dexter Scrapers #70

Uh oh!

Francoisvt04 commented Mar 19, 2018

Uh oh!

Francoisvt04 commented Mar 19, 2018

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Added Dexter Scrapers #70

Are you sure you want to change the base?

Added Dexter Scrapers #70

Uh oh!

Conversation

Francoisvt04 commented Mar 19, 2018

Dexter Crawlers Changelog from Assemble

Uh oh!

Francoisvt04 commented Mar 19, 2018

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant