chop out Investigate code
[spider.git] / perl / DXDupe.pm
1 #
2 # class to handle all dupes in the system
3 #
4 # each dupe entry goes into a tied hash file 
5 #
6 # the only thing this class really does is provide a
7 # mechanism for storing and checking dups
8 #
9
10 package DXDupe;
11
12 use DXDebug;
13 use DXUtil;
14 use DXVars;
15
16 use vars qw{$lasttime $dbm %d $default $fn};
17
18 $default = 48*24*60*60;
19 $lasttime = 0;
20 $fn = "$main::data/dupefile";
21
22 use vars qw($VERSION $BRANCH);
23
24 main::mkver($VERSION = q$Revision$);
25
26 sub init
27 {
28         $dbm = tie (%d, 'DB_File', $fn);
29         unless ($dbm) {
30                 eval { untie %d };
31                 dbg("Dupefile $fn corrupted, removing...");
32                 unlink $fn;
33                 $dbm = tie (%d, 'DB_File', $fn) or confess "can't open dupe file: $fn ($!)";
34                 confess "cannot open $fn $!" unless $dbm; 
35         }
36 }
37
38 sub finish
39 {
40         undef $dbm;
41         untie %d;
42         undef %d;
43 }
44
45 sub check
46 {
47         my $s = shift;
48         return 1 if find($s);
49         add($s, shift);
50         return 0;
51 }
52
53 sub find
54 {
55         return $d{$_[0]};
56 }
57
58 sub add
59 {
60         my $s = shift;
61         my $t = shift || $main::systime + $default;
62         $d{$s} = $t;
63 }
64
65 sub del
66 {
67         my $s = shift;
68         delete $d{$s};
69 }
70
71 sub process
72 {
73         # once an hour
74         if ($main::systime - $lasttime >=  3600) {
75                 while (($k, $v) = each %d) {
76                         delete $d{$k} if $main::systime >= $v;
77                 }
78                 $lasttime = $main::systime;
79         }
80 }
81
82 sub get
83 {
84         my $start = shift;
85         my @out;
86         while (($k, $v) = each %d) {
87                 push @out, $k, $v if !$start || $k =~ /^$start/; 
88         }
89         return @out;
90 }
91
92 sub listdups
93 {
94         my $let = shift;
95         my $dupage = shift;
96         my $regex = shift;
97
98         $regex =~ s/[\^\$\@\%]//g;
99         $regex = ".*$regex" if $regex;
100         $regex = "^$let" . $regex;
101         my @out;
102         for (sort { $d{$a} <=> $d{$b} } grep { m{$regex}i } keys %d) {
103                 my ($dum, $key) = unpack "a1a*", $_;
104                 push @out, "$key = " . cldatetime($d{$_} - $dupage) . " expires " . cldatetime($d{$_});
105         }
106         return @out;
107 }
108 1;